WO2019044157A1 - 収音装置、収音方法、及びプログラム - Google Patents

収音装置、収音方法、及びプログラム Download PDF

Info

Publication number
WO2019044157A1
WO2019044157A1 PCT/JP2018/024996 JP2018024996W WO2019044157A1 WO 2019044157 A1 WO2019044157 A1 WO 2019044157A1 JP 2018024996 W JP2018024996 W JP 2018024996W WO 2019044157 A1 WO2019044157 A1 WO 2019044157A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
position information
sound source
weight
unit
Prior art date
Application number
PCT/JP2018/024996
Other languages
English (en)
French (fr)
Inventor
良文 廣瀬
中西 雅浩
祐介 足立
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to JP2019539014A priority Critical patent/JP7233035B2/ja
Priority to EP18850643.0A priority patent/EP3678385B1/en
Priority to CN201880054599.3A priority patent/CN111034222A/zh
Publication of WO2019044157A1 publication Critical patent/WO2019044157A1/ja
Priority to US16/730,982 priority patent/US11330367B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Definitions

  • the present disclosure relates to a sound collection device that collects a target sound, a sound collection method, and a program.
  • Patent Document 1 discloses an estimation device for estimating which participant has uttered when and from data in which the discourse of one or more participants is recorded. This estimation device calculates the probability that the discourse participant has uttered by integrating the information obtained from the audio signal output from the microphone and the information obtained from the video signal output from the camera. This makes it possible to track the position of the discourse participant even when the discourse participant moves in a situation without speech.
  • Patent No. 5215826 gazette
  • the present disclosure provides a sound collection device, a sound collection method, and a program that improve the accuracy of sound collection of a target sound.
  • a sound collection device for collecting a target sound output from an object serving as a sound source, and includes a first input unit, a second input unit, and a control unit. And.
  • the first input unit receives an input of image data generated by the camera.
  • the second input unit receives an input of an acoustic signal output from the microphone array.
  • the control unit determines the direction in which the target sound is picked up.
  • the control unit includes a detection unit, an estimation unit, a weighting unit, and a determination unit.
  • the detection unit detects the position in at least one of the horizontal direction and the vertical direction of the object based on the image data, and outputs object position information which is information indicating the position of the detected object.
  • the estimation unit estimates the position of at least one of the horizontal direction and the vertical direction of the sound source based on the acoustic signal, and outputs sound source position information that is information indicating the estimated position of the sound source.
  • the weighting unit sets the weight of the object position information according to the shooting condition of the camera.
  • the determination unit determines the direction in which the target sound is picked up based on the object position information, the weight of the object position information, and the sound source position information.
  • the sound collection device since the sound collection direction is determined according to the shooting condition of the camera and the sound reception condition of the microphone array, the accuracy of sound collection of the target sound is improved. .
  • FIG. 1 is a block diagram showing the configuration of a sound collection device according to the first embodiment.
  • FIG. 2 is a block diagram showing the function of the control unit of the first embodiment.
  • FIG. 3A is a diagram for explaining the sound collection direction when only the microphone array is used.
  • FIG. 3B is a diagram for explaining a sound collection direction when using a microphone array and a camera.
  • FIG. 4 is a flowchart showing the sound collection method in the first embodiment.
  • FIG. 5 is a diagram for explaining an area of a face position detection unit.
  • FIG. 6 is a diagram for explaining face identification.
  • FIG. 7 is a diagram for explaining the face probability.
  • FIG. 8 is a flowchart showing the determination of the image accuracy.
  • FIG. 9 is a diagram for explaining estimation of a sound source position.
  • FIG. 9 is a diagram for explaining estimation of a sound source position.
  • FIG. 10 is a diagram for explaining the probability of the sound source.
  • FIG. 11 is a flowchart showing the determination of the sound accuracy.
  • FIG. 12 is a diagram showing the weight of the image accuracy and the sound accuracy.
  • FIG. 13A is a diagram illustrating an example of the face probability.
  • FIG. 13B is a diagram illustrating an example of sound source probabilities.
  • FIG. 13C is a diagram showing a sound collection direction calculated by FIG. 13A and FIG. 13B.
  • FIG. 14A is a diagram showing another example of the face probability.
  • FIG. 14B is a diagram illustrating another example of sound source probabilities.
  • FIG. 14C is a diagram showing the sound collection direction calculated by FIG. 14A and FIG. 14B.
  • FIG. 15 is a block diagram showing the configuration of the sound collection device of the second embodiment.
  • FIG. 16 is a block diagram showing the function of the control unit in the third embodiment.
  • FIG. 17 is a diagram for explaining an area of a face position detection unit in the fourth embodiment.
  • FIG. 18 is a block diagram showing the function of the control unit of another embodiment.
  • FIG. 19 is a block diagram showing the function of the control unit of another embodiment.
  • the accuracy of collecting the target sound is improved.
  • a sound device Specifically, in the sound collection device of the present disclosure, a weight according to a shooting condition of a camera is set to information obtained from a video signal, and a sound reception condition of a microphone array is set to information obtained from an acoustic signal. Set the weight according to Thus, the sound collection device of the present disclosure determines the sound collection direction of the target sound with high accuracy.
  • the weight according to the shooting condition of the camera is set based on the accuracy indicating the certainty that the face of the person is included in the image data.
  • the weight according to the sound receiving condition of the microphone array is set based on the accuracy indicating the certainty that the target sound is included in the sound signal. "Probability" is the degree of certainty.
  • FIG. 1 shows a configuration of a sound collection device according to the first embodiment of the present disclosure.
  • the sound collection device 1 includes a camera 10, a microphone array 20, a control unit 30, a storage unit 40, an input / output interface unit 50, and a bus 60.
  • the sound collection device 1 collects, for example, the voice of a person in a meeting.
  • the sound collection device 1 is a dedicated sound collection device in which the camera 10, the microphone array 20, the control unit 30, the storage unit 40, the input / output interface unit 50, and the bus 60 are integrated.
  • the sound collection device 1 may not have one or both of the camera 10 and the microphone array 20 built-in. In this case, the sound collection device 1 is electrically connected to the external camera 10 or the microphone array 20.
  • the sound collection device 1 may be an electronic device such as a smartphone including the camera 10 and may be electrically and mechanically connected to an external device including the microphone array 20.
  • the camera 10 includes a CCD image sensor, a CMOS image sensor, or an NMOS image sensor.
  • the camera 10 generates and outputs image data which is a video signal.
  • the microphone array 20 includes a plurality of microphones.
  • the microphone array 20 receives a sound wave, converts it into an acoustic signal which is an electric signal, and outputs it.
  • the control unit 30 determines the sound collection direction based on the image data obtained from the camera 10 and the acoustic signal obtained from the microphone array 20.
  • the control unit 30 extracts the target sound from the acoustic signal based on the determined sound collection direction.
  • the control unit 30 can be realized by a semiconductor element or the like.
  • the control unit 30 can be configured by, for example, a microcomputer, a CPU, an MPU, a DSP, an FPGA, and an ASIC.
  • the storage unit 40 stores the image data obtained from the camera 10 and the acoustic signal obtained from the microphone array 20.
  • the storage unit 40 can be realized by, for example, a hard disk (HDD), an SSD, a RAM, a DRAM, a ferroelectric memory, a flash memory, a magnetic disk, or a combination thereof.
  • the input / output interface unit 50 includes a circuit that communicates with an external device in accordance with a predetermined communication standard (for example, LAN, WiFi, Bluetooth (registered trademark), USB, HDMI (registered trademark)).
  • a predetermined communication standard for example, LAN, WiFi, Bluetooth (registered trademark), USB, HDMI (registered trademark)
  • the bus 60 is a signal line that electrically connects the camera 10, the microphone array 20, the control unit 30, the storage unit 40, and the input / output interface unit 50.
  • control unit 30 When the control unit 30 takes out image data from the storage unit 40, the control unit 30 corresponds to an input unit for image data. When the control unit 30 takes out an acoustic signal from the storage unit 40, the control unit 30 corresponds to an input unit of the acoustic signal.
  • the input / output interface unit 50 inputs image data from the camera 10 externally attached to the sound collection device 1, the input / output interface unit 50 corresponds to an input unit of image data.
  • the input / output interface unit 50 inputs an acoustic signal from the microphone array 20 externally attached to the sound collection device 1, the input / output interface unit 50 corresponds to an input unit of the acoustic signal.
  • FIG. 2 shows the function of the control unit 30.
  • the function of the control unit 30 may be configured only by hardware, or may be realized by combining hardware and software.
  • the control unit 30 includes an object position detection unit 31, a sound source position estimation unit 32, a weighting unit 300, a sound collection direction determination unit 36, and a beamform unit 37.
  • the object position detection unit 31 detects the position of the object from the image data v generated by the camera 10.
  • the object to be detected is a human face.
  • the object position detection unit 31 outputs object position information which is information indicating the position of the detected object.
  • the object position information indicates the probability P ( ⁇ , ⁇
  • the position of the coordinate system of each area in the image data v is associated with the horizontal angle ⁇ and the vertical angle ⁇ of the angle of view of the camera 10 based on the design information of the camera 10.
  • the sound source position estimation unit 32 estimates the position of the sound source from the acoustic signal s obtained from the microphone array 20.
  • the sound source is a person who emits voice.
  • the sound source position estimation unit 32 outputs sound source position information that is information indicating the estimated position of the sound source.
  • the sound source position information is information indicating the probability P ( ⁇ , ⁇
  • the weighting unit 300 weights the probability P ( ⁇ , ⁇
  • the weighting unit 300 includes an image accuracy determination unit 33, an acoustic accuracy determination unit 34, and a weight setting unit 35.
  • the image accuracy determination unit 33 determines the image accuracy CMv based on the image data v.
  • the image accuracy CMv is an accuracy indicating the likelihood that the face is included in the image data v. That is, the image accuracy CMv represents the reliability of the probability P ( ⁇ , ⁇
  • the sound accuracy determination unit 34 determines the sound accuracy CMs based on the sound signal s.
  • Acoustic accuracy CMs is an accuracy indicating the likelihood that the sound that is the target sound is included in the acoustic signal. That is, the sound accuracy CMs represents the reliability of the probability P ( ⁇ , ⁇
  • the weight setting unit 35 sets the weight Wv of the object position information based on the image probability CMv.
  • the weight Wv of the object position information set based on the image probability CMv is a value according to the imaging condition of the camera 10.
  • the weight setting unit 35 sets the weight Ws of the sound source position information based on the sound probability CMs.
  • the weight Ws of the sound source position information set based on the sound probability CMs becomes a value according to the sound reception situation of the microphone array 20.
  • the sound collecting direction determination unit 36 is based on the probability P ( ⁇ , ⁇
  • the beamforming unit 37 extracts the target sound from the acoustic signal s based on the determined sound collection direction. This makes it possible to pick up clear speech with reduced noise.
  • FIG. 3A schematically shows the sound collection direction when only the microphone array 20 is used.
  • FIG. 3B schematically shows the sound collection direction when the microphone array 20 and the camera 10 are used.
  • the sound collection direction is determined only by the acoustic signal output from the microphone array 20, when the ambient noise (the sound of the speaker) is larger than the human voice, the noise is detected as the sound source direction. Direction is detected. In this case, loud noises are picked up and human voices can not be picked up clearly.
  • FIG. 3B when the camera 10 is used in combination, by detecting the position of the human face included in the image data of the camera 10, the direction in which the person is present can be identified as the direction of the sound source.
  • the accuracy of detection of the face position obtained from the image data v changes in accordance with the shooting condition of the camera 10. For example, in image data v captured and generated in a dark environment, the position of the face may be erroneously detected. Therefore, in the present embodiment, the face probability P ( ⁇ , ⁇
  • s) is weighted according to the sound receiving condition of the microphone array 20. Then, the sound collection direction is determined based on the weighted probabilities P ( ⁇ , ⁇
  • FIG. 4 shows a sound collection operation by the control unit 30.
  • the object position detection unit 31 detects the position of the face based on the image data v generated by the camera 10 (S1). Specifically, the object position detection unit 31 calculates the probability P ( ⁇ , ⁇
  • the method of detecting the position of the face is arbitrary.
  • the image data v corresponding to one frame of a moving image or one still image is divided into a plurality of areas, and it is determined whether each area matches the feature of the face (See “Rapid Object Detection using a Boosted Cascade of Simple Features”, ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001).
  • this face detection method will be described.
  • FIG. 5 shows an area r ( ⁇ , ⁇ ) of a face position detection unit in the image data v.
  • the object position detection unit 31 divides the image data v into a plurality of areas r ( ⁇ , ⁇ ), and determines whether the image of each area r ( ⁇ , ⁇ ) is a face.
  • the image data v is divided into grids, and the respective axes are associated with ⁇ and ⁇ .
  • ⁇ and ⁇ are associated in a circumferential manner. Also good.
  • FIG. 6 shows an example of face identification.
  • the object position detection unit 31 includes, for example, N weak classifiers 310 (weak classifiers 310 (1) to 310 (N)).
  • the weak classifiers 310 (1) to 310 (N) each include information indicating facial features. The information indicating facial features is different in each of the N weak classifiers 310.
  • the object position detection unit 31 calculates the number C (r ( ⁇ , ⁇ )) of determining that the region r ( ⁇ , ⁇ ) is a face. Specifically, the object position detection unit 31 first determines, by the first weak classifier 310 (1), whether the region r ( ⁇ , ⁇ ) is a face.
  • the size of the region r ( ⁇ , ⁇ ) when detecting a face may be constant or variable.
  • the size of the region r ( ⁇ , ⁇ ) when detecting a face may be changed for each frame of a moving image or for each piece of image data v for one still image.
  • the object position detection unit 31 determines whether or not the area r ( ⁇ , ⁇ ) in the image data v is a face. Then, the object position detection unit 31 calculates the probability P ( ⁇ , ⁇
  • v) of the face may be calculated by the following equation (2).
  • FIG. 7 illustrates the probability P ( ⁇
  • v) the probability that there is a face at that horizontal angle ⁇ .
  • the image accuracy determination unit 33 determines an image accuracy CMv indicating the likelihood that the face is included in the image data v (see FIG. 4). S2). Specifically, the image accuracy determination unit 33 sets the image accuracy CMv based on the image data v generated by the camera 10. The determination of the image accuracy CMv (S2) may be performed before the detection of the position of the face (S1).
  • FIG. 8 shows an example of the determination method (details of S2) of the image accuracy CMv.
  • the image accuracy determination unit 33 determines the image accuracy CMv based on the average luminance Yave of the image data v.
  • the image accuracy determination unit 33 calculates the average luminance Yave of the image data v (S201).
  • the image accuracy determination unit 33 compares the average luminance Yave with the recommended luminances (Ymin_base to Ymax_base) (S202).
  • the recommended luminance has a range from the minimum recommended luminance (Ymin_base) to the maximum recommended luminance (Ymax_base).
  • Information indicating the recommended luminance is stored in advance in the storage unit 40.
  • the image accuracy determining unit 33 sets the image accuracy CMv to "Yave / Ymin_base” (S204). If the average luminance Yave is higher than the maximum recommended luminance (Yes in S205), the image accuracy determining unit 33 sets the image accuracy CMv to "Ymax_base / Yave” (S206). If the average luminance Yave is within the recommended luminance range (No in S205), the image accuracy determining unit 33 sets the image accuracy CMv to "1" (S207). If the average luminance Yave is lower than the minimum recommended luminance Ymin_base or higher than the maximum recommended luminance Ymax_base, a face may be erroneously detected. Therefore, when the average luminance Yave is within the recommended luminance range, the image accuracy CMv is set to the maximum value “1”, and the image accuracy CMv is lowered as the average luminance Yave is higher or lower than the recommended luminance.
  • the sound source position estimation unit 32 estimates the position of the sound source based on the acoustic signal s output from the microphone array 20 (S3). Specifically, the object position detection unit 31 calculates the probability P ( ⁇ , ⁇
  • the method of estimating the position of the sound source is arbitrary. For example, estimation of the position of the sound source can be performed using a cross-power spectrum phase analysis (CSP) method or a multiple signal classification (MUSIC) method.
  • CSP cross-power spectrum phase analysis
  • MUSIC multiple signal classification
  • FIG. 9 schematically shows a state in which human voice (sound wave) arrives at the microphones 20 i and 20 j of the microphone array 20. According to the distance d between the microphones 20 i and 20 j, wave occurs the time difference ⁇ when arriving at the microphone 20 i and 20 j.
  • the sound source position estimating unit 32 calculates the probability P ( ⁇
  • the CSP coefficient can be determined by the following equation (4) (The Journal of the Institute of Electronics, Information and Communication Engineers D-IIVol. J83-D-II No. 8 pp. 1713-1721, “CSP method using a microphone array Source location estimation based on
  • n is time
  • S i (n) is an acoustic signal received by the microphone 20 i
  • S j (n) is an acoustic signal received by the microphone 20 j .
  • DFT represents a discrete Fourier transform.
  • * indicates a conjugate complex number.
  • the time difference ⁇ can be expressed by the following equation (5) using the sound velocity c, the distance d between the microphones 20 i and 20 j , and the sampling frequency F s .
  • the probability P of existence of a sound source using two or more microphones is shown.
  • s) may be calculated.
  • s) that the sound source exists at the vertical angle ⁇ can be calculated from the CSP coefficient and the time difference ⁇ , similarly to the probability P ( ⁇
  • s) can be calculated based on the probability P ( ⁇
  • FIG. 10 illustrates the probability P ( ⁇
  • s) the probability that the sound source of the target sound is present at the horizontal angle ⁇ .
  • the sound accuracy determination unit 34 determines sound accuracy CMs indicating the likelihood that the sound is included in the sound signal s (see FIG. 4). S4). Specifically, the sound accuracy determination unit 34 sets sound accuracy CMs based on the sound signal s output from the microphone array 20. The determination of the sound accuracy CMs (S4) may be performed prior to the estimation of the position of the sound source (S3).
  • FIG. 11 shows an example of the method of determining the sound accuracy CMs (details of S4).
  • the sound accuracy determination unit 34 determines the speech likeness of the sound received by the microphone array 20. Specifically, the sound accuracy determination unit 34 calculates sound accuracy CMs using human voice GMM (Gausian Mixture Model) and non-voice GMM. The voice GMM and the non-voice GMM are previously learned and generated. Information indicating voice GMM and non-voice GMM is stored in the storage unit 40.
  • human voice GMM Gausian Mixture Model
  • the weight setting unit 35 sets the weight Wv to the face probability P ( ⁇ , ⁇
  • s) is set to the weight Ws (S5).
  • FIG. 12 shows the correspondence between the image accuracy CMv, the sound accuracy CMs, and the weights Wv and Ws.
  • the weights Wv and Ws are determined according to the probabilities CMv and CMs by a monotonically increasing function.
  • the sound collection direction determination unit 36 determines the sound collection direction (S6). Specifically, the sound collection direction determination unit 36 uses the probability P ( ⁇ , ⁇
  • the probability P ( ⁇ , ⁇ ) that a person who is is calculated is calculated by the following equation (7). Then, the horizontal angle ⁇ and the vertical angle ⁇ at which the probability P ( ⁇ , ⁇ ) becomes maximum are determined as the sound collection direction according to the following equation (8).
  • s) can be expressed by the following equation (9).
  • FIG. 13A to 13C show an example when determining the horizontal angle ⁇ .
  • FIG. 13A shows an example of the face probability.
  • FIG. 13B shows an example of the probability of the sound source.
  • FIG. 13C shows the sound collection direction calculated by FIGS. 13A and 13B.
  • v) of the face with a large weight is prioritized to determine the horizontal angle ⁇ .
  • FIG. 14A to 14C show other examples when determining the horizontal angle ⁇ .
  • FIG. 14A shows another example of the face probability.
  • FIG. 14B shows another example of sound source probability.
  • FIG. 14C shows the sound collection direction calculated by FIGS. 14A and 14B.
  • s) of the sound source with a large weight is prioritized to determine the horizontal angle ⁇ .
  • the beamforming unit 37 picks up the sound that is the target sound included in the sound signal s based on the determined sound collection directions ⁇ and ⁇ (S7).
  • the sound collection device 1 of the present disclosure is a sound collection device for collecting a target sound output from an object serving as a sound source.
  • the sound collection device 1 has a first input unit (a control unit 30 or an input / output interface unit 50) receiving an input of the image data v generated by the camera 10, and an input of an acoustic signal s output from the microphone array 20. And a control unit 30 for determining the directions .theta. And .phi. To be picked up based on the image data v and the acoustic signal s.
  • Control unit 30 includes an object position detection unit 31, a sound source position estimation unit 32, a weighting unit 300, and a sound collection direction determination unit 36.
  • the object position detection unit 31 detects a position in at least one of the horizontal direction and the vertical direction of the object based on the image data v, and object position information P ( ⁇ , ⁇ ) indicating the position of the detected object. Output
  • the sound source position estimation unit 32 estimates the position of at least one of the horizontal direction and the vertical direction of the sound source based on the sound signal s, and sound source position information P ( ⁇ , ⁇ ) indicating the estimated position of the sound source. Output s).
  • the weighting unit 300 sets a weight Wv according to the shooting condition of the camera 10 to the object position information, and sets a weight Ws according to the sound reception condition of the microphone array 20 to the sound source position information.
  • the sound collecting direction determination unit 36 is based on the object position information P ( ⁇ , ⁇
  • the directions ⁇ and ⁇ for picking up sound are determined.
  • the object position information P It is possible to prioritize information with higher reliability of ⁇ , ⁇
  • the weighting unit 300 sets the weight Wv of the object position information based on the image probability CMv indicating the likelihood that the object is included in the image data, and the target sound is included in the acoustic signal.
  • the weight Ws of the sound source position information is set based on the sound probability CMs indicating the certainty.
  • the image accuracy CMv is a value according to the shooting condition of the camera 10.
  • the sound accuracy CMs is a value corresponding to the sound receiving condition of the microphone array 20. Therefore, by setting the weights Wv and Ws based on the image accuracy CMv and the sound accuracy CMs, the weights Wv and Ws can be set according to the imaging condition of the camera 10 and the sound reception condition of the microphone array 20. Thereby, the sound collection direction of the target sound can be determined accurately.
  • the sound collection device 1 of the present embodiment sets the weight Wv of the object position information based on the output of the sensor.
  • FIG. 15 is a block diagram showing the configuration of the sound collection device of the second embodiment.
  • the sound collection device 1 of the second embodiment includes a sensor unit 70.
  • the sensor unit 70 includes at least one of a brightness sensor that detects ambient brightness, a distance sensor that detects a distance to an object, and an acceleration sensor.
  • the sound collection device 1 of the second embodiment does not include the image accuracy determination unit 33.
  • the weight setting unit 35 sets the weight Wv of the object position information based on the output of the sensor unit 70. For example, the weight setting unit 35 may set the weight Wv based on the luminance detected by the luminance sensor so that the weight Wv of the object position information becomes larger as the luminance is higher.
  • the weight setting unit 35 may set the weight Wv based on the distance to the object detected by the distance sensor such that the weight Wv of the object position information becomes larger as the distance is shorter.
  • the weight setting unit 35 sets the weight Wv so that the weight Wv of the object position information decreases as the acceleration increases, based on the acceleration detected by the acceleration sensor. May be set.
  • the output of the sensor unit 70 is a value corresponding to the photographing condition of the camera 10, the sound collecting direction of the target sound can be determined with high accuracy also in the present embodiment.
  • the sound collection device 1 of the present embodiment detects a speech section from the image data v and controls sound collection.
  • FIG. 16 shows the function of the control unit 30 in the third embodiment.
  • the control unit 30 of the third embodiment includes a speech zone detection unit 38.
  • the speech zone detection unit 38 includes, for example, information indicating a feature amount in a state where the lip is open, and determines whether or not the lip is open in the image data v based on the information. Thereby, the speech zone detection unit 38 detects the start time point and the speech end time point of the speech.
  • a speech section is from the start time point of the speech to the end time point of the speech.
  • the sound signal s may be input and the detection of the speech section may be performed based on the sound feature.
  • detection of a speech section may be performed based on the feature quantities of both the image data v and the sound signal s.
  • the sound collection unit 80 includes an object position detection unit 31, a sound source position estimation unit 32, an image accuracy determination unit 33, an acoustic accuracy determination unit 34, a weight setting unit 35, a sound collection direction determination unit 36, and a beamform unit. It consists of 37.
  • the sound collection unit 80 collects the target sound in the speech zone detected by the speech zone detection unit 38.
  • the object position detection unit 31 may detect the position of the face from the image data v corresponding to the speech segment.
  • the sound collecting direction determining unit 36 may determine the sound collecting direction only in the detected speech segment.
  • the beamforming unit 37 may pick up the target sound only from the sound signal s corresponding to the detected speech segment.
  • the object position detection unit 31 may perform the detection of the speech section based on the opening and closing of the lip. For example, the object position detection unit 31 may determine the opening and closing of the lip in the region r ( ⁇ , ⁇ ) in which the face is detected.
  • the sound collection device 1 of the present embodiment sets a weight Wv to the face probability P for each of a plurality of areas of the image data v.
  • Wv weight to the face probability P for each of a plurality of areas of the image data v.
  • the object position detection unit 31 divides the image data v into a plurality of areas, and determines whether the image of each area is a face. That is, the object position detection unit 31 calculates the probability P that the image of each area is a face.
  • a face is detected in two or more areas among a plurality of areas. That is, the area ra includes a face emitting a voice, and the area rb includes a face not emitting a voice. Furthermore, the imaging condition of the camera 10 is different for each area. Specifically, among the plurality of regions, in the image of the region ra, the average luminance is too high or too low depending on the photographing condition of the camera 10. For example, this may occur when light is strongly illuminated only at the periphery of the area ra or hardly illuminated. On the other hand, in the image of the area rb, the average luminance is a value suitable for detecting a face.
  • the probability P of the face included in the image of the area ra is lower than the probability P of the face included in the image of the area rb despite the fact that the person included in the image of the area ra emits a voice. It will As a result, the person in the region rb not emitting the sound may be erroneously detected as emitting the sound.
  • the weight setting unit 35 of the present embodiment calculates the image probability CMv of the region ra based on the average luminance of the region ra corresponding to the detected face position among the plurality of regions. For example, when the average luminance of the region ra is too high or too low, the weight setting unit 35 calculates the image accuracy CMv of the region ra such that the image accuracy CMv is low. Then, the weight setting unit 35 sets the weight Wv of the object position information so that the weight Wv of the object position information of the region ra is high when the image accuracy CMv of the region ra is low. That is, the weight setting unit 35 sets the weight Wv of the object position information of the area ra based on the image probability CMv of the area ra.
  • the weight setting unit 35 calculates the image accuracy CMv based on the average luminance of the area ra corresponding to the position of the person among the plurality of areas. Therefore, for example, even if the average luminance of the region ra is too high or too low depending on the imaging condition of the region ra, the probability that the image of the region ra includes a face is appropriately calculated.
  • the weight setting unit 35 may calculate the image accuracy CMv based on the dispersion of the luminance of the image of the region ra, in addition to the average luminance.
  • the weight setting unit 35 may set the image certainty CMv to a low value when only a part of the face is included in the area ra. That is, the weight setting unit 35 sets the weight of the object position information so that the weight Wv of the object position information in the region ra becomes high based on the image probability CMv when the region ra includes only a part of the face.
  • the weight Wv may be set.
  • the first to fourth embodiments have been described as examples of the technology disclosed in the present application.
  • the technology in the present disclosure is not limited to this, and is also applicable to embodiments in which changes, replacements, additions, omissions, and the like are appropriately made.
  • the weight setting unit 35 sets the weight Wv of the object position information and the weight Ws of the sound source position information.
  • the weight setting unit 35 may set only one of the weight Wv of the object position information and the weight Ws of the sound source position information. That is, the weighting unit 300 may include only one of the image accuracy determination unit 33 and the sound accuracy determination unit 34. This example will be described with reference to FIGS. 18 and 19.
  • the weighting unit 300 of the other embodiment does not include the sound accuracy determination unit 34. That is, the weight setting unit 35 sets only the weight Wv of the object position information.
  • the sound collection direction determination unit 36 determines the target sound based on the object position information P ( ⁇ , ⁇
  • the sound collection direction determination unit 36 can set the weight Ws of Expression (7) in the first embodiment to 1 and use Expression (7) to determine the direction in which the target sound is collected. . Even with such a configuration, as in the sound collection device 1 of the first embodiment, by using the weight Wv of the object position information, it is possible to suppress erroneous detection according to the photographing situation.
  • another weighting unit 300 of the other embodiment does not include the image accuracy determination unit 33. That is, the weight setting unit 35 sets only the weight Ws of the sound source position information.
  • the sound collection direction determination unit 36 determines the target sound based on the object position information P ( ⁇ , ⁇
  • the sound collection direction determination unit 36 can set the weight Wv of Expression (7) in the first embodiment to 1 and use Expression (7) to determine the direction in which the target sound is collected. . Even with such a configuration, similarly to the sound collection device 1 of the first embodiment, the use of the weight Ws of the sound source position information can suppress erroneous detection according to the sound reception condition of the microphone array 20. it can.
  • the object to be detected is not limited to the human face, and may be a part that can be recognized as a human .
  • the object to be detected may be a human body or a lip.
  • the image accuracy CMv is determined based on the average luminance Yave of the image data v, but the determination of the image accuracy CMv may be performed by another method.
  • the image accuracy CMv may be determined based on the variance of the luminance of the image data v. Specifically, for example, if the luminance distribution Ystd of the image data v is smaller than the recommended distribution Ystd_base, the image accuracy determining unit 33 sets the image accuracy CMv to “Ystd / Ystd_base”. If the variance Ystd is equal to or greater than the recommended variance Ystd_base, the image accuracy determining unit 33 sets the image accuracy CMv to “1”.
  • a luminance histogram of the image data v may be used. For example, when the luminance histogram is concentrated to low luminance or high luminance, the image accuracy CMv is set low, and when the luminance histogram is widely dispersed from low luminance to high luminance, the image accuracy CMv is set high.
  • the image accuracy CMv may be determined based on whether the image data v is in focus.
  • the sound probability CMs is determined based on the likelihood Lv by the voice GMM and the likelihood Ln by the non-voice GMM.
  • the sound probability CMs may be determined by another method.
  • the sound accuracy determination unit 34 may separate the sound signal s into voice and non-voice by the sound source separation technique, and calculate the sound probability CMs based on the power ratio of voice and non-voice.
  • a sound source separation technique for example, blind source separation may be used.
  • the weights Wv and Ws are set based on the probabilities CMv and CMs, but the weights Wv and Ws may have the same value as the probabilities CMv and CMs.
  • the sound collection directions ⁇ and ⁇ set previously may be determined as the current sound collection direction.
  • the horizontal angle ⁇ and the vertical angle ⁇ are determined as the sound collecting direction, but the position of the object emitting the target sound is specified only by at least one of the horizontal angle ⁇ and the vertical angle ⁇ . If possible, only at least one of the horizontal angle ⁇ and the vertical angle ⁇ may be determined.
  • human voice is collected as the target sound, but the target sound is not limited to human voice.
  • the target sound may be a car sound or an animal call.
  • v) that the image in the region r ( ⁇ , ⁇ ) is a car may be calculated based on the information indicating the feature of the car .
  • the sound probability CMs may be set.
  • a sound collection device is a sound collection device for collecting a target sound output from an object serving as a sound source, and is configured to receive an input of image data (v) generated by a camera. Direction of picking up the target sound based on the image data (v) and the sound signal (s), the second input portion receiving the input of the sound signal (s) output from the microphone array, and and a controller that determines ⁇ , ⁇ ).
  • the control unit includes a detection unit, an estimation unit, a weighting unit, and a determination unit.
  • the detection unit detects the position in at least one of the horizontal direction and the vertical direction of the object based on the image data (v), and object position information (P ( ⁇ , ⁇ ) indicating the position of the detected object. Output
  • the estimation unit estimates the position of the sound source in at least one of the horizontal direction and the vertical direction based on the sound signal (s), and indicates the sound source position information (P ( ⁇ , ⁇ ) indicating the estimated position of the sound source.
  • the weighting unit sets a weight (Wv) according to the shooting condition of the camera to the object position information.
  • the determination unit picks up the target sound based on the object position information (P ( ⁇ , ⁇
  • the target sound can be collected with high accuracy.
  • the weighting unit may set the weight of the object position information based on the image probability (CMv) indicating the certainty that the object is included in the image data.
  • CMv image probability
  • the weight (Wv) according to the shooting condition of the camera can be accurately set with respect to the object position information.
  • the weighting unit may calculate the image accuracy (CMv) based on the average brightness of the image data or the variance of the brightness.
  • the weight (Wv) according to the illumination environment at the time of shooting can be set with high accuracy.
  • the detection unit divides the image data into a plurality of regions, and the weighting unit calculates the average luminance of one of the plurality of regions corresponding to the position of the detected object.
  • the image accuracy may be calculated based on the variance of luminance.
  • the probability that an object is included in the image of the area can be appropriately calculated.
  • the weighting unit sets the weight of the sound source position information according to the sound receiving condition of the microphone array, and the determination unit calculates the object position information and the object position information.
  • the direction in which the target sound is collected may be determined based on the weight, the sound source position information, and the weight of the sound source position information.
  • the sound collecting direction of the target sound is accurately determined by prioritizing the information with higher reliability of the object position information P ( ⁇ , ⁇
  • the weighting unit may set the weight of the sound source position information based on the sound probability (CMs) indicating the certainty that the target sound is included in the sound signal.
  • CMs sound probability
  • the weight (Ws) according to the sound receiving condition of the microphone array can be accurately set with respect to the sound source position information.
  • the weighting unit may calculate the sound probability (CMs) based on the likelihood ratio or power ratio of the target sound and the non-target sound included in the sound signal.
  • the sound collection device of (1) further includes a sensor unit including at least one of a luminance sensor that detects ambient brightness, a distance sensor that detects a distance to an object, or an acceleration sensor. It is also good.
  • the weighting unit may set the weight (Ws) of the object position information based on the output of the sensor unit.
  • the weight (Wv) according to the situation at the time of shooting can be set with high accuracy.
  • the sound collection device of (1) may include at least one of a camera and a microphone array.
  • the target sound can be collected with high accuracy.
  • the detection unit may detect a human body, a face, or a lip as an object.
  • another sound collection device is a sound collection device for collecting a target sound output from an object serving as a sound source, which is an input of image data (v) generated by a camera The target sound based on the image data (v) and the sound signal (s), and the second input portion receiving the sound signal (s) output from the microphone array.
  • a control unit that determines the direction ( ⁇ , ⁇ ) of the sound.
  • the control unit includes a detection unit, an estimation unit, a weighting unit, and a determination unit.
  • the detection unit detects the position in at least one of the horizontal direction and the vertical direction of the object based on the image data (v), and object position information (P ( ⁇ , ⁇ ) indicating the position of the detected object. Output
  • the estimation unit estimates the position of the sound source in at least one of the horizontal direction and the vertical direction based on the sound signal (s), and indicates the sound source position information (P ( ⁇ , ⁇ ) indicating the estimated position of the sound source.
  • the weighting unit sets the weight of the sound source position information according to the sound receiving condition of the microphone array.
  • the determination unit picks up the target sound based on the object position information (P ( ⁇ , ⁇
  • Direction ( ⁇ , ⁇ ) is determined.
  • the sound collection direction of the target sound can be determined with high accuracy by considering the reliability of the sound source position information (P ( ⁇ , ⁇
  • a sound collection method is a sound collection method for collecting a target sound output from an object serving as a sound source, comprising the steps of: receiving an input of image data (v) generated by a camera; A step of receiving an input of an acoustic signal (s) output from the microphone array, and detecting a position in at least one of the horizontal direction and the vertical direction of the object based on the image data (v) to detect the detected object Based on the step of outputting object position information (P ( ⁇ , ⁇
  • object position information P ( ⁇ , ⁇
  • the target sound can be collected with high accuracy.
  • another sound collection method is a sound collection method for collecting a target sound output from an object serving as a sound source, which is an input of image data (v) generated by a camera. Detecting the position of the object in at least one of the horizontal direction and the vertical direction based on the image data (v), the step of receiving the sound signal, the step of receiving the input of the sound signal (s) output from the microphone array, Outputting an object position information (P ( ⁇ , ⁇
  • the sound collection direction of the target sound can be determined with high accuracy by considering the reliability of the sound source position information P ( ⁇ , ⁇
  • the program of the present disclosure causes a computer to execute the above sound collection method.
  • the sound collection device and the sound collection method according to all the claims of the present disclosure are realized by hardware resources such as cooperation with a processor, a memory, and a program.
  • the sound collection device of the present disclosure is useful, for example, as a device for collecting the voice of a person in conversation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Software Systems (AREA)

Abstract

収音装置は、音源となる物体から出力される目的音を収音するための装置であって、カメラの画像データに基づいて、物体の位置を示す物体位置情報を生成し、マイクアレイの音響信号に基づいて、音源の位置を示す音源位置情報を生成し、物体位置情報に対してカメラの撮影状況に応じた重みを設定し、物体位置情報と物体位置情報の重みと音源位置情報とに基づいて、目的音を収音する方向を決定する制御部を含む。

Description

収音装置、収音方法、及びプログラム
 本開示は、目的音を収音する収音装置、収音方法、及びプログラムに関する。
 特許文献1は、一人以上の参加者による談話を記録したデータから、どの参加者がいつ発話したかを推定するための推定装置を開示している。この推定装置は、マイクロホンから出力される音響信号から得られる情報と、カメラから出力される映像信号から得られる情報とを統合することによって、談話参加者が発話した確率を算出している。これにより、談話参加者が発話のない状況で移動した場合であっても、談話参加者の位置を追跡することを可能にしている。
特許第5215826号公報
 本開示は、目的音の収音の精度を向上させる収音装置、収音方法、及びプログラムを提供する。
 本開示の一態様の収音装置は、音源となる物体から出力される目的音を収音するための収音装置であって、第1の入力部と、第2の入力部と、制御部とを有する。第1の入力部は、カメラによって生成された画像データの入力を受ける。第2の入力部は、マイクアレイから出力される音響信号の入力を受ける。制御部は、目的音を収音する方向を決定する。制御部は、検出部と、推定部と、重み付け部と、決定部とを含む。検出部は、画像データに基づいて、物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した物体の位置を示す情報である物体位置情報を出力する。推定部は、音響信号に基づいて、音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した音源の位置を示す情報である音源位置情報を出力する。重み付け部は、カメラの撮影状況に応じて物体位置情報の重みを設定する。決定部は、物体位置情報と物体位置情報の重みと音源位置情報とに基づいて、目的音を収音する方向を決定する。
 これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。
 本開示の収音装置、収音方法、及びプログラムによれば、カメラの撮影状況及びマイクアレイの受音状況に応じて収音方向が決定されるため、目的音の収音の精度が向上する。
図1は、第1実施形態の収音装置の構成を示すブロック図である。 図2は、第1実施形態の制御部の機能を示すブロック図である。 図3Aは、マイクアレイのみを使用した場合の収音方向を説明するための図である。 図3Bは、マイクアレイとカメラを使用した場合の収音方向を説明するための図である。 図4は、第1実施形態における収音方法を示すフローチャートである。 図5は、顔位置の検出単位の領域を説明するための図である。 図6は、顔の識別を説明するための図である。 図7は、顔の確率を説明するための図である。 図8は、画像確度の判定を示すフローチャートである。 図9は、音源位置の推定を説明するための図である。 図10は、音源の確率を説明するための図である。 図11は、音響確度の判定を示すフローチャートである。 図12は、画像確度と音響確度の重みを示す図である。 図13Aは、顔の確率の一例を示す図である。 図13Bは、音源の確率の一例を示す図である。 図13Cは、図13Aと図13Bとにより算出される収音方向を示す図である。 図14Aは、顔の確率の他の例を示す図である。 図14Bは、音源の確率の他の例を示す図である。 図14Cは、図14Aと図14Bとにより算出される収音方向を示す図である。 図15は、第2実施形態の収音装置の構成を示すブロック図である。 図16は、第3実施形態における制御部の機能を示すブロック図である。 図17は、第4実施形態における顔位置の検出単位の領域を説明するための図である。 図18は、他の実施形態の制御部の機能を示すブロック図である。 図19は、他の実施形態の制御部の機能を示すブロック図である。
 (本開示の基礎となった知見)
 特許文献1の推定装置において、談話参加者が発話した確率を精度良く算出するためには、カメラから出力される映像信号から得られる情報とマイクロホンから出力される音響信号から得られる情報とが正確である必要がある。よって、映像信号から得られる情報と音響信号から得られる情報とが正確でない場合には、談話参加者が発話した確率を精度良く算出することができない。
 本開示は、カメラから出力される映像信号から得られる情報及びマイクアレイから出力される音響信号から得られる情報の精度がよくない場合であっても、目的音の収音の精度を向上させる収音装置を提供する。具体的には、本開示の収音装置は、映像信号から得られる情報に対してカメラの撮影状況に応じた重みを設定し、且つ音響信号から得られる情報に対してマイクアレイの受音状況に応じた重みを設定する。これによって、本開示の収音装置は、精度良く目的音の収音方向を決定する。
 (第1実施形態)
 以下、第1実施形態について、図面を参照しながら説明する。本実施形態では、人物の音声を目的音として収音する例について説明する。本実施形態では、カメラの撮影状況に応じた重みは、人物の顔が画像データに含まれている確からしさを示す確度に基づいて、設定される。また、マイクアレイの受音状況に応じた重みは、目的音が音響信号に含まれている確からしさを示す確度に基づいて、設定される。「確度」とは、確実さの度合いのことである。
 1. 収音装置の構成
 図1は、本開示の第1実施形態の収音装置の構成を示している。収音装置1は、カメラ10、マイクアレイ20、制御部30、記憶部40、入出力インタフェース部50、及びバス60を備える。収音装置1は、例えば、会議中の人の音声を収音する。収音装置1は、一例では、カメラ10、マイクアレイ20、制御部30、記憶部40、入出力インタフェース部50、及びバス60が一体化された専用の収音機である。
 なお、別の例では、収音装置1は、カメラ10とマイクアレイ20のいずれか一方又は両方を内蔵していなくてもよい。この場合、収音装置1は、外付けのカメラ10又はマイクアレイ20と電気的に接続される。例えば、収音装置1は、カメラ10を備えたスマートフォンなどの電子機器であって、マイクアレイ20を備えた外部機器と電気的及び機械的に接続されてもよい。
 カメラ10は、CCDイメージセンサ、CMOSイメージセンサ、又はNMOSイメージセンサなどを備える。カメラ10は、映像信号である画像データを生成して、出力する。
 マイクアレイ20は、複数のマイクロホンを備える。マイクアレイ20は、音波を受信して電気信号である音響信号に変換して出力する。
 制御部30は、カメラ10から得られた画像データと、マイクアレイ20から得られた音響信号に基づいて、収音方向を決定する。制御部30は、決定した収音方向に基づいて、音響信号から目的音を取り出す。制御部30は、半導体素子などで実現可能である。制御部30は、例えば、マイコン、CPU、MPU、DSP、FPGA、ASICで構成することができる。
 記憶部40は、カメラ10から得られた画像データ及びマイクアレイ20から得られた音響信号を格納する。記憶部40は、例えば、ハードディスク(HDD)、SSD、RAM、DRAM、強誘電体メモリ、フラッシュメモリ、磁気ディスク、又はこれらの組み合わせによって実現できる。
 入出力インタフェース部50は、所定の通信規格(例えばLAN、WiFi、Bluetooth(登録商標)、USB、HDMI(登録商標))に準拠して外部機器との通信を行う回路を含む。
 バス60は、カメラ10、マイクアレイ20、制御部30、記憶部40、及び入出力インタフェース部50を電気的に接続する信号線である。
 制御部30が画像データを記憶部40から取り出すときは、制御部30が画像データの入力部に相当する。制御部30が音響信号を記憶部40から取り出すときは、制御部30が音響信号の入力部に相当する。入出力インタフェース部50が収音装置1に外付けされたカメラ10から画像データを入力するときは、入出力インタフェース部50が画像データの入力部に相当する。入出力インタフェース部50が収音装置1に外付けされたマイクアレイ20から音響信号を入力するときは、入出力インタフェース部50が音響信号の入力部に相当する。
 図2は、制御部30の機能を示している。制御部30の機能は、ハードウェアのみで構成してもよいし、ハードウェアとソフトウェアとを組み合わせることにより実現してもよい。
 制御部30は、物体位置検出部31、音源位置推定部32、重み付け部300、収音方向決定部36、及びビームフォーム部37を含む。
 物体位置検出部31は、カメラ10によって生成された画像データvから物体の位置を検出する。本実施形態では、検出対象となる物体は人の顔である。物体位置検出部31は、検出した物体の位置を示す情報である物体位置情報を出力する。具体的には、物体位置情報は、動画1フレーム分又は静止画1枚分に相当する画像データv内の複数の領域のそれぞれの画像が顔である確率P(θ,φ|v)を示す情報である。画像データv内の各領域の座標系の位置は、カメラ10の設計情報に基づいて、カメラ10の画角の水平角θ及び垂直角φと対応付けられる。
 音源位置推定部32は、マイクアレイ20から得られる音響信号sから、音源の位置を推定する。本実施形態では、音源は、音声を発する人である。音源位置推定部32は、推定した音源の位置を示す情報である音源位置情報を出力する。具体的には、音源位置情報は、水平角θ及び垂直角φによって特定される位置に音源が存在する確率P(θ,φ|s)を示す情報である。
 重み付け部300は、画像データvに基づいて、物体位置情報である確率P(θ,φ|v)に重み付けを行う。また、重み付け部300は、音響信号sに基づいて、音源位置情報である確率P(θ,φ|s)に重み付けを行う。
 重み付け部300は、画像確度判定部33、音響確度判定部34、及び重み設定部35を含む。画像確度判定部33は、画像データvに基づいて画像確度CMvを判定する。画像確度CMvは、顔が画像データvに含まれている確からしさを示す確度である。すなわち、画像確度CMvは、物体位置情報である確率P(θ,φ|v)の信頼性を表す。音響確度判定部34は、音響信号sに基づいて音響確度CMsを判定する。音響確度CMsは、目的音である音声が音響信号に含まれている確からしさを示す確度である。すなわち、音響確度CMsは、音源位置情報である確率P(θ,φ|s)の信頼性を表す。
 重み設定部35は、画像確度CMvに基づいて、物体位置情報の重みWvを設定する。画像確度CMvに基づいて設定された物体位置情報の重みWvは、カメラ10の撮影状況に応じた値になる。重み設定部35は、音響確度CMsに基づいて、音源位置情報の重みWsを設定する。音響確度CMsに基づいて設定された音源位置情報の重みWsは、マイクアレイ20の受音状況に応じた値になる。
 収音方向決定部36は、物体位置情報である確率P(θ,φ|v)及びその重みWvと、音源位置情報である確率P(θ,φ|s)及びその重みWsとに基づいて、収音方向を決定する。
 ビームフォーム部37は、決定された収音方向に基づいて、音響信号sから目的音を取り出す。これにより、雑音が低減された、クリアな音声を収音できる。
 図3Aは、マイクアレイ20のみを使用した場合の収音方向を模式的に示している。図3Bは、マイクアレイ20とカメラ10を使用した場合の収音方向を模式的に示している。図3Aに示すように、マイクアレイ20から出力される音響信号のみによって収音方向を決定した場合、周囲の雑音(スピーカの音)が人の音声よりも大きいときに、音源の方向として雑音の方向が検出される。この場合、大きな雑音を収音してしまい、人の音声をクリアに収音することができない。しかし、図3Bに示すように、カメラ10を併用した場合、カメラ10の画像データに含まれる人の顔の位置を検出することによって、人がいる方向を音源の方向として特定できる。
 一方、カメラ10の撮影状況に応じて、画像データvから得られる顔位置の検出の精度は変化する。例えば、暗い環境で撮影されて生成された画像データvでは、顔の位置を誤検出する場合がある。よって、本実施形態においては、顔の確率P(θ,φ|v)に対して、カメラ10の撮影状況に応じた重み付けを行う。また、マイクアレイ20の受音状況に応じて、音響信号sから得られる音源位置の推定の精度も変わる。例えば、雑音が大きすぎると、音響信号sから目的音の音源の位置を正確に推定できない場合がある。よって、本実施形態においては、音源の確率P(θ,φ|s)に対して、マイクアレイ20の受音状況に応じた重み付けを行う。そして、重み付けされた確率P(θ,φ|v),P(θ,φ|s)に基づいて、収音方向を決定する。
 2. 収音装置の動作
 図4は、制御部30による収音動作を示している。
 物体位置検出部31は、カメラ10によって生成された画像データvに基づいて、顔の位置を検出する(S1)。具体的には、物体位置検出部31は、画像データv内において水平角θ及び垂直角φで特定される位置の画像が顔である確率P(θ,φ|v)を算出する。顔の位置の検出方法は、任意である。一例として、顔の位置の検出は、動画1フレーム分又は静止画1枚分に相当する画像データvを複数の領域に分割して、各領域が顔の特徴と一致しているか否かを判定することによって行う(「Rapid Object Detection using a Boosted Cascade of Simple Features」 ACCEPTED CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2001を参照)。以下、この顔検出の方法について説明する。
 図5は、画像データvにおける顔位置の検出単位の領域r(θ,φ)を示している。物体位置検出部31は、画像データvを複数の領域r(θ,φ)に分割し、各領域r(θ,φ)の画像が顔であるか否かを判定する。なお、図5では、画像データvを格子状に分割し、それぞれの軸をθ、φに対応付けたが、全周カメラを使用した場合は、円周状にθ、φを対応付けるようにしても良い。
 図6は、顔の識別の一例を示している。物体位置検出部31は、例えば、N個の弱識別器310(弱識別器310(1)~310(N))を備える。弱識別器310(1)~310(N)は、それぞれ、顔の特徴を示す情報を有する。顔の特徴を示す情報は、N個の弱識別器310のそれぞれにおいて、異なる。物体位置検出部31は、領域r(θ,φ)が顔であると判定した回数C(r(θ,φ))を計算する。具体的には、物体位置検出部31は、最初に、一つ目の弱識別器310(1)によって、領域r(θ,φ)が顔であるか否かを判定する。弱識別器310(1)が、領域r(θ,φ)は顔でないと判定した場合、「C(r(θ,φ))=0」となる。一つ目の弱識別器310(1)が、領域r(θ,φ)は顔であると判定した場合は、二つ目の弱識別器310(2)が、一つ目の弱識別器310(1)とは異なる顔の特徴の情報を用いて、領域r(θ,φ)が顔であるか否かを判定する。二つ目の弱識別器310(2)が、領域r(θ,φ)が顔であると判定した場合、三つ目の弱識別器310(3)が、領域r(θ,φ)が顔であるか否かを判定する。このように、動画1フレーム分又は静止画1枚分に相当する画像データvに対して、領域r(θ,φ)毎に、N個の弱識別器310を用いて顔であるか否かを判定する。例えば、N個の弱識別器310の全てが領域r(θ,φ)は顔であると判定した場合、顔であると判定された回数は「C(r(θ,φ))=N」となる。
 顔を検出するときの領域r(θ,φ)の大きさは、一定であってもよいし、可変であってもよい。例えば、顔を検出するときの領域r(θ,φ)の大きさは、動画の1フレーム分又は静止画1枚分の画像データv毎に変わってもよい。
 物体位置検出部31は、画像データv内の領域r(θ,φ)の全てについて、顔であるか否かの判定を行う。そして、物体位置検出部31は、下記式(1)によって、画像データv内において水平角θ及び垂直角φで特定される位置の画像が顔である確率P(θ,φ|v)を算出する。
Figure JPOXMLDOC01-appb-M000001
 なお、水平角θのみで顔の位置を検出できる場合は、下記式(2)によって、顔の確率P(θ|v)を算出してもよい。
Figure JPOXMLDOC01-appb-M000002
 図7は、画像データv内における水平角θで特定される位置の画像が顔である確率P(θ|v)を例示している。確率P(θ|v)が高いほど、その水平角θに顔がある可能性が高いことを表している。
 図4に示すように、物体位置検出部31によって顔の位置が検出されると、画像確度判定部33は、顔が画像データvに含まれている確からしさを示す画像確度CMvを判定する(S2)。具体的には、画像確度判定部33は、カメラ10によって生成された画像データvに基づいて、画像確度CMvを設定する。なお、画像確度CMvの判定(S2)は、顔の位置を検出する(S1)よりも前に行ってもよい。
 図8は、画像確度CMvの判定方法(S2の詳細)の一例を示している。図8の例では、画像確度判定部33は、画像データvの平均輝度Yaveに基づいて、画像確度CMvを判定する。画像確度判定部33は、まず、画像データvの平均輝度Yaveを算出する(S201)。それから、画像確度判定部33は、平均輝度Yaveを推奨輝度(Ymin_base~Ymax_base)と比較する(S202)。推奨輝度は、最小推奨輝度(Ymin_base)から最大推奨輝度(Ymax_base)までの範囲を有する。推奨輝度を示す情報は、予め記憶部40に格納されている。平均輝度Yaveが最小推奨輝度よりも低ければ(S203でYes)、画像確度判定部33は、画像確度CMvを「Yave/Ymin_base」に設定する(S204)。平均輝度Yaveが最大推奨輝度よりも高ければ(S205でYes)、画像確度判定部33は、画像確度CMvを「Ymax_base/Yave」に設定する(S206)。平均輝度Yaveが推奨輝度の範囲内であれば(S205でNo)、画像確度判定部33は、画像確度CMvを「1」に設定する(S207)。平均輝度Yaveが最小推奨輝度Ymin_baseよりも低かったり、最大推奨輝度Ymax_baseよりも高かったりすれば、顔を誤検出する場合がある。よって、平均輝度Yaveが推奨輝度の範囲内のときは画像確度CMvを最大値「1」に設定し、平均輝度Yaveが推奨輝度より高い、或いは、低いほど画像確度CMvを低くする。
 図4に示すように、音源位置推定部32は、マイクアレイ20から出力された音響信号sに基づいて、音源の位置を推定する(S3)。具体的には、物体位置検出部31は、水平角θ及び垂直角φで特定される位置に音源が存在する確率P(θ,φ|s)を算出する。音源の位置の推定方法は、任意である。例えば、音源の位置の推定は、CSP(Cross-Power Spectrum Phase Analysis)法又はMUSIC(Multiple Signal Classification)法を使用して行うことができる。以下、CSP法を使用して、音源の位置を推定する例について説明する。
 図9は、人の音声(音波)がマイクアレイ20のマイクロホン20及び20に到来する状態を模式的に示している。マイクロホン20及び20間の距離dに応じて、音波がマイクロホン20及び20に到来するときに時間差τが生じる。
 音源位置推定部32は、水平角θにおいて、音源が存在する確率P(θ|s)を、CSP係数(相関関数)を用いた下記式(3)により算出する。
Figure JPOXMLDOC01-appb-M000003
 ここで、CSP係数は、下記式(4)によって求めることができる(電子情報通信学会論文誌 D-IIVol.J83-D-II No.8 pp.1713-1721、「マイクロホンアレーを用いたCSP法に基づく複数音源位置推定」を参照)。式(4)において、nは時間、S(n)はマイクロホン20で受音した音響信号、S(n)はマイクロホン20で受音した音響信号を示している。式(4)において、DFTは、離散フーリエ変換を示す。また、*は共役複素数を示す。
Figure JPOXMLDOC01-appb-M000004
 時間差τは、音速c、マイクロホン20,20間の距離d、及びサンプリング周波数Fを用いて、下記式(5)によって表せる。
Figure JPOXMLDOC01-appb-M000005
 よって、下記式(6)に示すように、式(3)のCSP係数を式(5)によって時間軸から方向軸に変換することによって、水平角θにおいて音源が存在する確率P(θ|s)を算出できる。
Figure JPOXMLDOC01-appb-M000006
 なお、上記で示した確率P(θ|s)の算出方法では、2つのマイクロホン20i及び20jを使用した例を示しているが、2つ以上のマイクロホンを使用して、音源が存在する確率P(θ|s)を算出してもよい。また、垂直角φにおける音源が存在する確率P(φ|s)は、水平角θにおける確率P(θ|s)と同様に、CSP係数と時間差τによって算出できる。また、確率P(θ|s)及び確率P(φ|s)に基づいて、確率P(θ,φ|s)を算出できる。
 図10は、水平角θにおける音源が存在する確率P(θ|s)を例示している。確率P(θ|s)が高いほど、その水平角θに目的音の音源が存在する可能性が高いことを表している。
 図4に示すように、音源位置推定部32によって音源の位置が推定されると、音響確度判定部34は、音声が音響信号sに含まれている確からしさを示す音響確度CMsを判定する(S4)。具体的には、音響確度判定部34は、マイクアレイ20から出力される音響信号sに基づいて、音響確度CMsを設定する。なお、音響確度CMsの判定(S4)は、音源の位置を推定する(S3)よりも前に行ってもよい。
 図11は、音響確度CMsの判定方法(S4の詳細)の一例を示している。図11の例では、音響確度判定部34は、マイクアレイ20が受信した音の音声らしさを判定する。具体的には、音響確度判定部34は、人の音声GMM(Gausian Mixture Model)と非音声GMMを用いて、音響確度CMsを算出する。音声GMMと非音声GMMは、予め学習して生成されたものである。音声GMMと非音声GMMを示す情報は記憶部40に格納されている。
 音響確度判定部34は、まず、音響信号sにおける音声GMMによる尤度Lvを算出する(S401)。次に、音響確度判定部34は、音響信号sにおける非音声GMMによる尤度Lnを算出する(S402)。それから、音響確度判定部34は、音響確度CMsを「CMs=Lv/Ln」に設定する(S403)。
 図4に示すように、重み設定部35は、画像確度CMvに基づいて顔の確率P(θ,φ|v)に重みWvを設定し、且つ音響確度CMsに基づいて音源の確率P(θ,φ|s)に重みWsを設定する(S5)。図12は、画像確度CMv,音響確度CMsと、重みWv,Wsとの対応付けを示している。このように、重みWv,Wsは、単調増加関数によって、確度CMv,CMsに応じて決定される。
 図4に示すように、重みWv,Wsが設定されると、収音方向決定部36は、収音方向を決定する(S6)。具体的には、収音方向決定部36は、顔の確率P(θ,φ|v)とその重みWv、及び音源の確率P(θ,φ|s)とその重みWsを用いて、音源である人物がいる確率P(θ,φ)を下記式(7)によって算出する。それから、下記式(8)により、確率P(θ,φ)が最大となる水平角θ、垂直角φを収音方向として決定する。なお、確率P(θ,φ|s)の対数については下記式(9)によって表現できる。
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000009
 図13A~図13Cは、水平角θを決定するときの一例を示している。図13Aは、顔の確率の一例を示している。図13Bは、音源の確率の一例を示している。図13Cは、図13Aと図13Bとにより算出される収音方向を示している。画像データvの平均輝度Yaveが高い場合、画像確度CMvは高くなり、物体位置情報の重みWvは大きくなる。また、音響信号sにおいて雑音が大きいと、音響確度CMsは小さくなり、音源位置情報の重みWsは小さくなる。よって、平均輝度Yaveが高い場合及び雑音が大きい場合は、重みの大きい顔の確率P(θ|v)が優先されて、水平角θが決定される。
 図14A~図14Cは、水平角θを決定するときの他の例を示している。図14Aは、顔の確率の他の例を示している。図14Bは、音源の確率の他の例を示している。図14Cは、図14Aと図14Bとにより算出される収音方向を示している。画像データvの平均輝度Yaveが低い場合、画像確度CMvは低くなり、物体位置情報の重みWvは小さくなる。また、音響信号sにおいて雑音が小さいと、音響確度CMsは大きくなり、音源位置情報の重みWsは大きくなる。よって、平均輝度Yaveが低い場合及び雑音が小さい場合は、重みの大きい音源の確率P(θ|s)が優先されて、水平角θが決定される。
 図4に示すように、ビームフォーム部37は、決定された収音方向θ,φに基づいて、音響信号sに含まれる目的音である音声を収音する(S7)。
 なお、図4のステップS1~S4を実行する順序は、任意である。
 3. 効果及び補足
 本開示の収音装置1は、音源となる物体から出力される目的音を収音するための収音装置である。収音装置1は、カメラ10によって生成された画像データvの入力を受ける第1の入力部(制御部30、または入出力インタフェース部50)と、マイクアレイ20から出力される音響信号sの入力を受ける第2の入力部(制御部30、または入出力インタフェース部50)と、画像データv及び音響信号sに基づいて収音する方向θ,φを決定する制御部30と、を有する。制御部30は、物体位置検出部31と、音源位置推定部32と、重み付け部300と、収音方向決定部36とを含む。物体位置検出部31は、画像データvに基づいて、物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した物体の位置を示す情報である物体位置情報P(θ,φ|v)を出力する。音源位置推定部32は、音響信号sに基づいて、音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した音源の位置を示す情報である音源位置情報P(θ,φ|s)を出力する。重み付け部300は、物体位置情報に対してカメラ10の撮影状況に応じた重みWvを設定し、且つ音源位置情報に対してマイクアレイ20の受音状況に応じた重みWsを設定する。収音方向決定部36は、物体位置情報P(θ,φ|v)と物体位置情報の重みWvと音源位置情報P(θ,φ|s)と音源位置情報の重みWsとに基づいて、収音する方向θ,φを決定する。
 このように、カメラ10の撮影状況に応じた重みWvとマイクアレイ20の受音状況に応じた重みWsを使用して収音する方向θ,φを決定しているため、物体位置情報P(θ,φ|v)と音源位置情報P(θ,φ|s)の信頼性が高いほうの情報を優先させることができる。よって、物体位置情報P(θ,φ|v)又は音源位置情報P(θ,φ|s)の精度がよくない場合であっても、精度良く目的音の収音方向を決定することができる。これにより、マイクアレイ20から出力された音響信号sから、決定された収音方向の音を抽出することによって、目的音を精度良く収音することができる。
 具体的には、重み付け部300は、物体が画像データに含まれている確からしさを示す画像確度CMvに基づいて物体位置情報の重みWvを設定し、且つ目的音が音響信号に含まれている確からしさを示す音響確度CMsに基づいて音源位置情報の重みWsを設定する。画像確度CMvは、カメラ10の撮影状況に応じた値である。また、音響確度CMsは、マイクアレイ20の受音状況に応じた値である。よって、画像確度CMv及び音響確度CMsに基づいて重みWv,Wsを設定することによって、カメラ10の撮影状況及びマイクアレイ20の受音状況に応じた重みWv,Wsを設定することができる。これにより、精度良く目的音の収音方向を決定することができる。
 (第2実施形態)
 本実施形態の収音装置1は、物体位置情報の重みWvをセンサの出力に基づいて設定する。
 図15は、第2実施形態の収音装置の構成を示すブロック図である。第2実施形態の収音装置1は、センサ部70を備える。センサ部70は、周囲の明るさを検知する輝度センサ、物体までの距離を検知する距離センサ、及び加速度センサのうちの少なくとも1つを含む。第2実施形態の収音装置1は、画像確度判定部33を備えない。重み設定部35は、センサ部70の出力に基づいて、物体位置情報の重みWvを設定する。例えば、重み設定部35は、輝度センサが検知した輝度に基づいて、輝度が高いほど物体位置情報の重みWvが大きくなるように、重みWvを設定してもよい。重み設定部35は、距離センサが検知した物体までの距離に基づいて、距離が近いほど物体位置情報の重みWvが大きくなるように、重みWvを設定してもよい。加速度が大きい場合は画像がブレている可能性があるため、重み設定部35は、加速度センサが検知した加速度に基づいて、加速度が大きいほど物体位置情報の重みWvが小さくなるように、重みWvを設定してもよい。
 センサ部70の出力はカメラ10の撮影状況に応じた値であるため、本実施形態においても、精度良く目的音の収音方向を決定することができる。
 (第3実施形態)
 本実施形態の収音装置1は、画像データvから発話区間を検出して収音を制御する。
 図16は、第3実施形態における制御部30の機能を示している。第3実施形態の制御部30は、発話区間検出部38を備える。発話区間検出部38は、例えば、口唇が開いている状態の特徴量を示す情報を備え、その情報に基づいて画像データvにおいて口唇が開いているか否かを判定する。これにより、発話区間検出部38は、発話の開始時点及び終了時点を検出する。発話の開始時点から発話の終了時点までが発話区間である。あるいは、音響信号sを入力とし、音響特徴に基づいて発話区間の検出を実施するようにしても良い。または、画像データvおよび音響信号sの双方の特徴量に基づいて発話区間の検出を実施するようにしても良い。
 図16において、収音部80は、物体位置検出部31、音源位置推定部32、画像確度判定部33、音響確度判定部34、重み設定部35、収音方向決定部36、及びビームフォーム部37により構成される。収音部80は、発話区間検出部38によって検出された発話区間内において、目的音を収音する。例えば、物体位置検出部31は、発話区間に対応する画像データvから顔の位置を検出してもよい。収音方向決定部36は、検出された発話区間においてのみ、収音方向を決定してもよい。ビームフォーム部37は、検出された発話区間に対応する音響信号sのみから、目的音を収音してもよい。
 なお、口唇の開閉に基づく発話区間の検出は、物体位置検出部31が行ってもよい。例えば、物体位置検出部31は、顔を検出した領域r(θ,φ)内において、口唇の開閉を判定してもよい。
 (第4実施形態)
 本実施形態の収音装置1は、画像データvの複数の領域毎に、顔の確率Pに重みWvを設定する。以下、図2および図17を参照して、本実施形態を説明する。
 物体位置検出部31は、画像データvを複数の領域に分割し、各領域の画像が顔であるか否かを判定する。すなわち、物体位置検出部31は、各領域の画像が顔である確率Pを算出する。
 本実施形態では、図17に示すように、複数の領域のうち、2以上の領域で顔が検出されている。すなわち、領域raには音声を発している顔が含まれ、領域rbには音声を発していない顔が含まれている。さらに、領域毎にカメラ10の撮影状況が異なっている。具体的には、複数の領域のうち、領域raの画像においては、カメラ10の撮影状況に応じて、平均輝度が高すぎたり、低すぎたりしている。例えば、領域raの周辺のみに光が強く当たったり、光がほとんど当たらなかったりする場合に、このようなことが起こる。一方、領域rbの画像においては、平均輝度は顔を検出するのに適切な値である。そのため、領域raの画像に含まれる人物が音声を発しているのにもかかわらず、領域raの画像に含まれる顔の確率Pが、領域rbの画像に含まれる顔の確率Pよりも低くなってしまう。これにより、音声を発していない領域rbの人物が音声を発していると誤検出されてしまうことがある。
 そこで、本実施形態の重み設定部35は、複数の領域のうち、検出した顔の位置に対応する領域raの平均輝度に基づいて、領域raの画像確度CMvを算出する。例えば、重み設定部35は、領域raの平均輝度が高すぎたり、低すぎたりした場合には、画像確度CMvが低くなるように、領域raの画像確度CMvを算出する。そして、重み設定部35は、領域raの画像確度CMvが低い場合に、領域raの物体位置情報の重みWvが高くなるように、物体位置情報の重みWvを設定する。つまり、重み設定部35は、領域raの画像確度CMvに基づいて、領域raの物体位置情報の重みWvを設定する。
 以上のように、重み設定部35は、複数の領域のうち、人物の位置に対応する領域raの平均輝度に基づいて画像確度CMvを算出する。そのため、例えば、領域raの撮影状況に応じて、領域raの平均輝度が高すぎたり、低すぎたりした場合でも、領域raの画像に顔が含まれる確率が適切に算出される。
 なお、重み設定部35は、平均輝度に基づく以外に、領域raの画像の輝度の分散に基づいて、画像確度CMvを算出してもよい。
 また、重み設定部35は、領域raに顔の一部のみが含まれている場合に、画像確度CMvを低く設定してもよい。すなわち、重み設定部35は、領域raに顔の一部のみが含まれている場合に、画像確度CMvに基づいて、領域raの物体位置情報の重みWvが高くなるように、物体位置情報の重みWvを設定してもよい。これにより、画像v内で音声を発している人物にオクルージョンが発生しても、音声を発している人物の顔の確率が適切に算出される。
 (他の実施形態)
 以上のように、本出願において開示する技術の例示として、第1~第4実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。また、上記第1~第4実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。そこで、以下、他の実施形態を例示する。
 第1実施形態においては、重み設定部35は、物体位置情報の重みWvおよび音源位置情報の重みWsを設定している。しかし、本開示はこれに限定されない。重み設定部35は、物体位置情報の重みWvまたは音源位置情報の重みWsの一方のみを設定してもよい。すなわち、重み付け部300は、画像確度判定部33または音響確度判定部34の一方のみを含んでいてもよい。この例について、図18と図19を参照して説明する。
 図18に示すように、他の実施形態の重み付け部300は、音響確度判定部34を含んでいない。すなわち、重み設定部35は、物体位置情報の重みWvのみを設定する。この場合、収音方向決定部36は、物体位置情報P(θ,φ|v)と、物体位置情報の重みWvと、音源位置情報P(θ,φ|s)とに基づいて、目的音を収音する方向を決定する。具体的には、収音方向決定部36は、第1実施形態における式(7)の重みWsを1に設定し、式(7)を用いることで、目的音を収音する方向を決定できる。このような構成であっても、第1実施形態の収音装置1と同様に、物体位置情報の重みWvを用いることで、撮影状況に応じた誤検出を抑制することができる。
 また、図19に示すように、他の実施形態の別の重み付け部300は、画像確度判定部33を含んでいない。すなわち、重み設定部35は、音源位置情報の重みWsのみを設定する。この場合、収音方向決定部36は、物体位置情報P(θ,φ|v)と、音源位置情報P(θ,φ|s)と、音源位置情報の重みWsとに基づいて、目的音を収音する方向を決定する。具体的には、収音方向決定部36は、第1実施形態における式(7)の重みWvを1に設定し、式(7)を用いることで、目的音を収音する方向を決定できる。このような構成であっても、第1実施形態の収音装置1と同様に、音源位置情報の重みWsを用いることで、マイクアレイ20の受音状況に応じた誤検出を抑制することができる。
 第1実施形態においては、人の顔を検出する例について説明したが、人の音声を収音する場合、検出対象の物体は、人の顔に限らず、人として認識できる部分であればよい。例えば、検出される物体は、人の身体又は唇であってもよい。
 第1実施形態においては、画像データvの平均輝度Yaveに基づいて、画像確度CMvを判定したが、画像確度CMvの判定を別の方法で行ってもよい。例えば、画像データvの輝度の分散に基づいて、画像確度CMvを判定してもよい。具体的には、例えば、画像データvの輝度の分散Ystdが推奨分散Ystd_baseよりも小さければ、画像確度判定部33は、画像確度CMvを「Ystd/Ystd_base」に設定する。分散Ystdが推奨分散Ystd_base以上であれば、画像確度判定部33は、画像確度CMvを「1」に設定する。
 画像確度CMvの判定のさらに別の方法として、画像データvの輝度ヒストグラムを用いても良い。例えば、輝度ヒストグラムが低輝度又は高輝度に集中しているときは画像確度CMvを低く設定し、輝度ヒストグラムが低輝度から高輝度まで幅広く分散しているときは画像確度CMvを高く設定する。
 また、画像データvのフォーカスが合っているかどうかに基づいて、画像確度CMvを判定してもよい。
 第1実施形態においては、音響確度CMsを、音声GMMによる尤度Lv及び非音声GMMによる尤度Lnに基づいて判定したが、音響確度CMsの判定を別の方法で行ってもよい。例えば、音響確度判定部34は、音響信号sを音源分離技術によって音声と非音声に分離し、音声と非音声のパワー比に基づいて、音響確度CMsを算出してもよい。音源分離技術として、例えば、ブラインド音源分離(Blind Source Separation)を用いてもよい。
 第1実施形態では、確度CMv,CMsに基づいて重みWv,Wsを設定したが、重みWv,Wsは確度CMv,CMsと同一の値であってもよい。
 上記実施形態において、画像確度CMvと音響確度CMsの両方が、例えば、所定値以下であれば、前回設定した収音方向θ,φを今回の収音方向として決定してもよい。
 上記実施形態では、収音方向として、水平角θ及び垂直角φを決定する場合について説明したが、水平角θ及び垂直角φの少なくともいずれか一方のみで、目的音を発する物体の位置を特定できる場合は、水平角θ及び垂直角φの少なくともいずれか一方を決定するだけであってもよい。
 上記実施形態においては、人の音声を目的音として収音したが、目的音は人の音声に限らない。例えば、目的音は、車の音又は動物の鳴き声であってもよい。目的音が車の音である場合は、車の特徴を示す情報に基づいて、領域r(θ,φ)内の画像が車である確率P(θ,φ|v)を算出してもよい。また、車の音のGMMに基づいて、音響確度CMsを設定してもよい。
 (実施形態の概要)
 (1)本開示の収音装置は、音源となる物体から出力される目的音を収音するための収音装置であって、カメラによって生成された画像データ(v)の入力を受ける第1の入力部と、マイクアレイから出力される音響信号(s)の入力を受ける第2の入力部と、画像データ(v)及び音響信号(s)に基づいて、目的音を収音する方向(θ,φ)を決定する制御部と、を有する。制御部は、検出部と、推定部と、重み付け部と、決定部とを含む。検出部は、画像データ(v)に基づいて、物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した物体の位置を示す情報である物体位置情報(P(θ,φ|v))を出力する。推定部は、音響信号(s)に基づいて、音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した音源の位置を示す情報である音源位置情報(P(θ,φ|s))を出力する。重み付け部は、物体位置情報に対してカメラの撮影状況に応じた重み(Wv)を設定する。決定部は、物体位置情報(P(θ,φ|v))と物体位置情報の重み(Wv)と音源位置情報(P(θ,φ|s))とに基づいて、目的音を収音する方向(θ,φ)を決定する。
 これにより、物体位置情報P(θ,φ|v)の信頼性を考慮することによって、精度良く目的音の収音方向を決定することができる。よって、マイクアレイ20から出力された音響信号sから、決定された収音方向の音を抽出することによって、目的音を精度良く収音することができる。
 (2)(1)の収音装置において、重み付け部は、物体が画像データに含まれている確からしさを示す画像確度(CMv)に基づいて物体位置情報の重みを設定してもよい。
 これにより、物体位置情報に対してカメラの撮影状況に応じた重み(Wv)を精度良く設定することができる。
 (3)(2)の収音装置において、重み付け部は、画像データの平均輝度又は輝度の分散に基づいて、画像確度(CMv)を算出してもよい。
 これにより、撮影時の照明環境に応じた重み(Wv)を精度良く設定することができる。
 (4)(2)の収音装置において、検出部は、画像データを複数の領域に分割し、重み付け部は、複数の領域のうち、検出した物体の位置に対応する一の領域の平均輝度又は輝度の分散に基づいて、画像確度を算出してもよい。
 これにより、領域の撮影状況に応じて、領域の平均輝度が高すぎたり、低すぎたりした場合でも、領域の画像に物体が含まれる確率を適切に算出することができる。
 (5)(1)~(4)の収音装置において、重み付け部は、マイクアレイの受音状況に応じて音源位置情報の重みを設定し、決定部は、物体位置情報と物体位置情報の重みと音源位置情報と音源位置情報の重みに基づいて、目的音を収音する方向を決定するとしてもよい。
 これにより、物体位置情報P(θ,φ|v)及び音源位置情報P(θ,φ|s)の信頼性が高いほうの情報を優先させることによって、精度良く目的音の収音方向を決定することができる。よって、マイクアレイ20から出力された音響信号sから、決定された収音方向の音を抽出することによって、目的音を精度良く収音することができる。
 (6)(5)の収音装置において、重み付け部は、目的音が音響信号に含まれている確からしさを示す音響確度(CMs)に基づいて音源位置情報の重みを設定するとしてもよい。
 これにより、また、音源位置情報に対してマイクアレイの受音状況に応じた重み(Ws)を精度良く設定することができる。
 (7)(6)の収音装置において、重み付け部は、音響信号に含まれる目的音と非目的音の尤度比又はパワー比に基づいて、音響確度(CMs)を算出してもよい。
 これにより、受音時の周囲の状況に応じた重み(Ws)を精度良く設定することができる。
 (8)(1)の収音装置は、周囲の明るさを検知する輝度センサ、物体までの距離を検知する距離センサ、又は加速度センサのうちの少なくとも1つを含むセンサ部をさらに有してもよい。重み付け部は、センサ部の出力に基づいて、物体位置情報の重み(Ws)を設定してもよい。
 これにより、撮影時の状況に応じた重み(Wv)を精度良く設定することができる。
 (9)(1)の収音装置は、カメラ及びマイクアレイのうちの少なくとも一方を備えてもよい。
 これにより、例えば、カメラを備えた収音装置にマイクアレイのみを外付けすることによって、目的音を精度良く収音することができる。
 (10)(1)の収音装置において、検出部は、物体として、人の身体、顔、又は唇を検出してもよい。
 これにより、人の音声を精度良く収音することができる。
 (11)また、本開示の別の収音装置は、音源となる物体から出力される目的音を収音するための収音装置であって、カメラによって生成された画像データ(v)の入力を受ける第1の入力部と、マイクアレイから出力される音響信号(s)の入力を受ける第2の入力部と、画像データ(v)及び音響信号(s)に基づいて、目的音を収音する方向(θ,φ)を決定する制御部と、を有する。制御部は、検出部と、推定部と、重み付け部と、決定部とを含む。検出部は、画像データ(v)に基づいて、物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した物体の位置を示す情報である物体位置情報(P(θ,φ|v))を出力する。推定部は、音響信号(s)に基づいて、音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した音源の位置を示す情報である音源位置情報(P(θ,φ|s))を出力する。重み付け部は、マイクアレイの受音状況に応じて音源位置情報の重みを設定する。決定部は、物体位置情報(P(θ,φ|v))と音源位置情報(P(θ,φ|s))と音源位置情報の重み(Ws)とに基づいて、目的音を収音する方向(θ,φ)を決定する。
 これにより、音源位置情報(P(θ,φ|s))の信頼性を考慮することによって、精度良く目的音の収音方向を決定することができる。よって、マイクアレイ20から出力された音響信号sから、決定された収音方向の音を抽出することによって、目的音を精度良く収音することができる。
 (12)本開示の収音方法は、音源となる物体から出力される目的音を収音するための収音方法であって、カメラによって生成された画像データ(v)の入力を受けるステップと、マイクアレイから出力される音響信号(s)の入力を受けるステップと、画像データ(v)に基づいて、物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した物体の位置を示す情報である物体位置情報(P(θ,φ|v))を出力するステップと、音響信号(s)に基づいて、音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した音源の位置を示す情報である音源位置情報(P(θ,φ|s))を出力するステップと、カメラの撮影状況に応じて物体位置情報の重み(Wv)を設定するステップと、物体位置情報(P(θ,φ|v))と物体位置情報の重み(Wv)と音源位置情報(P(θ,φ|s))とに基づいて、目的音を収音する方向(θ,φ)を決定するステップと、を含む。
 これにより、物体位置情報P(θ,φ|v)の信頼性を考慮することによって、精度良く目的音の収音方向を決定することができる。よって、マイクアレイ20から出力された音響信号sから、決定された収音方向の音を抽出することによって、目的音を精度良く収音することができる。
 (13)また、本開示の別の収音方法は、音源となる物体から出力される目的音を収音するための収音方法であって、カメラによって生成された画像データ(v)の入力を受けるステップと、マイクアレイから出力される音響信号(s)の入力を受けるステップと、画像データ(v)に基づいて、物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した物体の位置を示す情報である物体位置情報(P(θ,φ|v))を出力するステップと、音響信号(s)に基づいて、音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した音源の位置を示す情報である音源位置情報(P(θ,φ|s))を出力するステップと、マイクアレイの受音状況に応じて音源位置情報の重み(Ws)を設定するステップと、物体位置情報(P(θ,φ|v))と音源位置情報(P(θ,φ|s))と音源位置情報の重み(Ws)とに基づいて、目的音を収音する方向(θ,φ)を決定するステップと、を含む。
 これにより、音源位置情報P(θ,φ|s)の信頼性を考慮することによって、精度良く目的音の収音方向を決定することができる。よって、マイクアレイ20から出力された音響信号sから、決定された収音方向の音を抽出することによって、目的音を精度良く収音することができる。
 (14)本開示のプログラムは、コンピュータに上記収音方法を実行させる。
 本開示の全請求項に記載の収音装置及び収音方法は、ハードウェア資源、例えば、プロセッサ、メモリ、及びプログラムとの協働などによって、実現される。
 本開示の収音装置は、例えば、会話中の人の音声を収音する装置として、有用である。
  1    収音装置
  10   カメラ
  20   マイクアレイ
  30   制御部
  31   物体位置検出部
  32   音源位置推定部
  33   画像確度判定部
  34   音響確度判定部
  35   重み設定部
  36   収音方向決定部
  37   ビームフォーム部
  38   発話区間検出部
  40   記憶部
  50   入出力インタフェース部
  60   バス
  70   センサ部
  300  重み付け部

Claims (16)

  1.  音源となる物体から出力される目的音を収音するための収音装置であって、
     カメラによって生成された画像データの入力を受ける第1の入力部と、
     マイクアレイから出力される音響信号の入力を受ける第2の入力部と、
     前記目的音を収音する方向を決定する制御部と、
     を有し、
     前記制御部は、
      前記画像データに基づいて、前記物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した前記物体の位置を示す情報である物体位置情報を出力する検出部と、
      前記音響信号に基づいて、前記音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した前記音源の位置を示す情報である音源位置情報を出力する推定部と、
      前記カメラの撮影状況に応じて前記物体位置情報の重みを設定する重み付け部と、
      前記物体位置情報と前記物体位置情報の重みと前記音源位置情報とに基づいて、前記目的音を収音する方向を決定する決定部と、
     を含む、収音装置。
  2.  前記重み付け部は、
      前記物体が前記画像データに含まれている確からしさを示す画像確度に基づいて前記物体位置情報の重みを設定する、
     請求項1に記載の収音装置。
  3.  前記重み付け部は、前記画像データの平均輝度又は輝度の分散に基づいて、前記画像確度を算出する、請求項2に記載の収音装置。
  4.  前記検出部は、前記画像データを複数の領域に分割し、
     前記重み付け部は、前記複数の領域のうち、検出した前記物体の位置に対応する一の領域の平均輝度又は輝度の分散に基づいて、前記画像確度を算出する、請求項2に記載の収音装置。
  5.  前記重み付け部は、前記マイクアレイの受音状況に応じて前記音源位置情報の重みを設定し、
     前記決定部は、前記物体位置情報と前記物体位置情報の重みと前記音源位置情報と前記音源位置情報の重みに基づいて、前記目的音を収音する方向を決定する、請求項1~4のいずれかに記載の収音装置。
  6.  前記重み付け部は、
      前記目的音が前記音響信号に含まれている確からしさを示す音響確度に基づいて前記音源位置情報の重みを設定する、
     請求項5に記載の収音装置。
  7.  前記重み付け部は、前記音響信号に含まれる前記目的音と非目的音の尤度比又はパワー比に基づいて、前記音響確度を算出する、請求項6に記載の収音装置。
  8.  周囲の明るさを検知する輝度センサ、前記物体までの距離を検知する距離センサ、又は加速度センサのうちの少なくとも1つを含むセンサ部をさらに有し、
     前記重み付け部は、前記センサ部の出力に基づいて、前記物体位置情報の重みを設定する、
     請求項1に記載の収音装置。
  9.  前記カメラ又は前記マイクアレイのうちの少なくとも一方を備える、請求項1に記載の収音装置。
  10.  前記検出部は、前記物体として、人の身体、顔、又は唇を検出する、請求項1に記載の収音装置。
  11.  音源となる物体から出力される目的音を収音するための収音装置であって、
     カメラによって生成された画像データの入力を受ける第1の入力部と、
     マイクアレイから出力される音響信号の入力を受ける第2の入力部と、
     前記目的音を収音する方向を決定する制御部と、
     を有し、
     前記制御部は、
      前記画像データに基づいて、前記物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した前記物体の位置を示す情報である物体位置情報を出力する検出部と、
      前記音響信号に基づいて、前記音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した前記音源の位置を示す情報である音源位置情報を出力する推定部と、
      前記マイクアレイの受音状況に応じて前記音源位置情報の重みを設定する重み付け部と、
      前記物体位置情報と前記音源位置情報と前記音源位置情報の重みとに基づいて、前記目的音を収音する方向を決定する決定部と、
     を含む、収音装置。
  12.  前記重み付け部は、
      前記目的音が前記音響信号に含まれている確からしさを示す音響確度に基づいて前記音源位置情報の重みを設定する、
     請求項11に記載の収音装置。
  13.  前記重み付け部は、前記音響信号に含まれる前記目的音と非目的音の尤度比又はパワー比に基づいて、前記音響確度を算出する、請求項12に記載の収音装置。
  14.  音源となる物体から出力される目的音を収音するための収音方法であって、
     カメラによって生成された画像データの入力を受けるステップと、
     マイクアレイから出力される音響信号の入力を受けるステップと、
     前記画像データに基づいて、前記物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した前記物体の位置を示す情報である物体位置情報を出力するステップと、
     前記音響信号に基づいて、前記音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した前記音源の位置を示す情報である音源位置情報を出力するステップと、
     前記カメラの撮影状況に応じて前記物体位置情報の重みを設定するステップと、
     前記物体位置情報と前記物体位置情報の重みと前記音源位置情報とに基づいて、前記目的音を収音する方向を決定するステップと、
     を含む、収音方法。
  15.  音源となる物体から出力される目的音を収音するための収音方法であって、
     カメラによって生成された画像データの入力を受けるステップと、
     マイクアレイから出力される音響信号の入力を受けるステップと、
     前記画像データに基づいて、前記物体の水平方向又は垂直方向の少なくともいずれか一方における位置を検出し、検出した前記物体の位置を示す情報である物体位置情報を出力するステップと、
     前記音響信号に基づいて、前記音源の水平方向又は垂直方向の少なくともいずれか一方における位置を推定し、推定した前記音源の位置を示す情報である音源位置情報を出力するステップと、
     前記マイクアレイの受音状況に応じて前記音源位置情報の重みを設定するステップと、
     前記物体位置情報と前記音源位置情報と前記音源位置情報の重みとに基づいて、前記目的音を収音する方向を決定するステップと、
     を含む、収音方法。
  16.  コンピュータに請求項14又は15に記載の収音方法を実行させるためのプログラム。
PCT/JP2018/024996 2017-08-30 2018-07-02 収音装置、収音方法、及びプログラム WO2019044157A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019539014A JP7233035B2 (ja) 2017-08-30 2018-07-02 収音装置、収音方法、及びプログラム
EP18850643.0A EP3678385B1 (en) 2017-08-30 2018-07-02 Sound pickup device, sound pickup method, and program
CN201880054599.3A CN111034222A (zh) 2017-08-30 2018-07-02 拾音装置、拾音方法以及程序
US16/730,982 US11330367B2 (en) 2017-08-30 2019-12-30 Sound pickup device, sound pickup method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017165717 2017-08-30
JP2017-165717 2017-08-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/730,982 Continuation US11330367B2 (en) 2017-08-30 2019-12-30 Sound pickup device, sound pickup method, and program

Publications (1)

Publication Number Publication Date
WO2019044157A1 true WO2019044157A1 (ja) 2019-03-07

Family

ID=65525027

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/024996 WO2019044157A1 (ja) 2017-08-30 2018-07-02 収音装置、収音方法、及びプログラム

Country Status (5)

Country Link
US (1) US11330367B2 (ja)
EP (1) EP3678385B1 (ja)
JP (1) JP7233035B2 (ja)
CN (1) CN111034222A (ja)
WO (1) WO2019044157A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015364A (zh) * 2020-08-26 2020-12-01 广州视源电子科技股份有限公司 拾音灵敏度的调整方法、装置
US11431887B2 (en) * 2018-07-24 2022-08-30 Sony Semiconductor Solutions Corporation Information processing device and method for detection of a sound image object

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11805283B2 (en) 2019-01-25 2023-10-31 Gracenote, Inc. Methods and systems for extracting sport-related information from digital video frames
US11010627B2 (en) 2019-01-25 2021-05-18 Gracenote, Inc. Methods and systems for scoreboard text region detection
US10997424B2 (en) 2019-01-25 2021-05-04 Gracenote, Inc. Methods and systems for sport data extraction
US11036995B2 (en) * 2019-01-25 2021-06-15 Gracenote, Inc. Methods and systems for scoreboard region detection
US11087161B2 (en) 2019-01-25 2021-08-10 Gracenote, Inc. Methods and systems for determining accuracy of sport-related information extracted from digital video frames
CN111544030B (zh) * 2020-05-20 2023-06-20 京东方科技集团股份有限公司 一种听诊器、诊断装置及诊断方法
CN111866439B (zh) * 2020-07-21 2022-07-05 厦门亿联网络技术股份有限公司 一种优化音视频体验的会议装置、系统及其运行方法
CN114374903B (zh) * 2020-10-16 2023-04-07 华为技术有限公司 拾音方法和拾音装置
CN112735457B (zh) * 2020-12-11 2022-05-17 中国汽车技术研究中心有限公司 语音去噪方法和系统
JP2022119582A (ja) * 2021-02-04 2022-08-17 株式会社日立エルジーデータストレージ 音声取得装置および音声取得方法
CN117496997B (zh) * 2023-12-27 2024-04-05 湘江实验室 基于惩罚机制的声源检测方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5215826B1 (ja) 1971-04-13 1977-05-04
JP2012512413A (ja) * 2008-12-16 2012-05-31 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パーティクルフィルタリングを利用した音源位置の推定
JP2016521894A (ja) * 2013-06-14 2016-07-25 クアルコム,インコーポレイテッド 検出されたジェスチャーに基づいてデバイス動作を実行するためのシステムおよび方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05227531A (ja) * 1992-02-17 1993-09-03 Sanyo Electric Co Ltd カメラ監視システム
JP4490076B2 (ja) * 2003-11-10 2010-06-23 日本電信電話株式会社 物体追跡方法、物体追跡装置、プログラム、および、記録媒体
JP2006126342A (ja) * 2004-10-27 2006-05-18 Honda Motor Co Ltd 音声認識システム、この音声認識システムを備える移動体及び車両
JP2009031951A (ja) * 2007-07-25 2009-02-12 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4926091B2 (ja) * 2008-02-19 2012-05-09 株式会社日立製作所 音響ポインティングデバイス、音源位置のポインティング方法及びコンピュータシステム
US10037357B1 (en) 2010-08-17 2018-07-31 Google Llc Selecting between global and location-specific search results
US10721384B2 (en) * 2014-03-27 2020-07-21 Sony Corporation Camera with radar system
JP6464449B2 (ja) 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
KR102186137B1 (ko) * 2015-08-21 2020-12-03 현대자동차주식회사 차량 정보 기반 센서퓨전 시스템
JP6684608B2 (ja) * 2016-02-19 2020-04-22 学校法人 中央大学 音場制御装置、音場制御システム及び音場制御方法
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5215826B1 (ja) 1971-04-13 1977-05-04
JP2012512413A (ja) * 2008-12-16 2012-05-31 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パーティクルフィルタリングを利用した音源位置の推定
JP2016521894A (ja) * 2013-06-14 2016-07-25 クアルコム,インコーポレイテッド 検出されたジェスチャーに基づいてデバイス動作を実行するためのシステムおよび方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Localization of Multiple Sound Sources Based on CSP Analysis with a Microphone Array", IEICE TRANSACTIONS, D-II, pages 1713 - 1721
See also references of EP3678385A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431887B2 (en) * 2018-07-24 2022-08-30 Sony Semiconductor Solutions Corporation Information processing device and method for detection of a sound image object
CN112015364A (zh) * 2020-08-26 2020-12-01 广州视源电子科技股份有限公司 拾音灵敏度的调整方法、装置

Also Published As

Publication number Publication date
JPWO2019044157A1 (ja) 2020-08-20
US11330367B2 (en) 2022-05-10
EP3678385A4 (en) 2020-07-08
JP7233035B2 (ja) 2023-03-06
EP3678385A1 (en) 2020-07-08
CN111034222A (zh) 2020-04-17
US20200137491A1 (en) 2020-04-30
EP3678385B1 (en) 2023-01-04

Similar Documents

Publication Publication Date Title
JP7233035B2 (ja) 収音装置、収音方法、及びプログラム
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
CN106653041B (zh) 音频信号处理设备、方法和电子设备
JP7370014B2 (ja) 収音装置、収音方法、及びプログラム
JP4847022B2 (ja) 発声内容認識装置
JP7194897B2 (ja) 信号処理装置及び信号処理方法
JP6705656B2 (ja) 視覚補助装置及びオブジェクトの分類の検出方法
US10910001B2 (en) Voice recognition device, robot, voice recognition method, and storage medium
CN111551921A (zh) 一种声像联动的声源定向系统及方法
CN112015364A (zh) 拾音灵敏度的调整方法、装置
Nakadai et al. Footstep detection and classification using distributed microphones
US20220215852A1 (en) Sound pickup device and sound pickup method
CN112036277B (zh) 一种人脸识别方法、电子设备以及计算机可读存储介质
JP2000092368A (ja) カメラ制御装置及びコンピュータ読み取り可能な記憶媒体
JP2020086034A (ja) 情報処理装置、情報処理装置およびプログラム
KR101520446B1 (ko) 구타 및 가혹행위 방지를 위한 감시 시스템
JP2019113820A (ja) 音声認識装置、ロボット、音声認識方法及び記録媒体
JP7279710B2 (ja) 信号処理装置および方法、並びにプログラム
JP5465166B2 (ja) 発声内容認識装置および発声内容認識方法
US11363374B2 (en) Signal processing apparatus, method of controlling signal processing apparatus, and non-transitory computer-readable storage medium
WO2023228713A1 (ja) 音声処理装置および方法、情報処理装置、並びにプログラム
Choi et al. Real-time audio-visual localization of user using microphone array and vision camera
CN114339113A (zh) 视频通话方法及相关装置、设备和存储介质
CN117153182A (zh) 降噪控制方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18850643

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019539014

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018850643

Country of ref document: EP

Effective date: 20200330