WO2023228713A1 - 音声処理装置および方法、情報処理装置、並びにプログラム - Google Patents

音声処理装置および方法、情報処理装置、並びにプログラム Download PDF

Info

Publication number
WO2023228713A1
WO2023228713A1 PCT/JP2023/017329 JP2023017329W WO2023228713A1 WO 2023228713 A1 WO2023228713 A1 WO 2023228713A1 JP 2023017329 W JP2023017329 W JP 2023017329W WO 2023228713 A1 WO2023228713 A1 WO 2023228713A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
audio
audio signal
target
directivity
Prior art date
Application number
PCT/JP2023/017329
Other languages
English (en)
French (fr)
Inventor
洋平 櫻庭
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023228713A1 publication Critical patent/WO2023228713A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present technology relates to a voice processing device and method, an information processing device, and a program, and particularly relates to a voice processing device and method, an information processing device, and a program that can suppress sound quality deterioration.
  • beamforming that forms directivity using a microphone array consisting of a plurality of microphone units, and products such as cameras that use beamforming are known.
  • a camera that records audio in such a way that the sound from the target subject is emphasized by manually or automatically changing the directivity, that is, the directivity axis and width, depending on the position of the subject. etc.
  • the directivity axis and width that is, the sound collection range
  • the target subject may not be detected.
  • the present technology was developed in view of this situation, and is intended to suppress deterioration of sound quality.
  • a sound processing device includes a microphone array that includes a plurality of microphone units and collects surrounding sounds, target sound direction information indicating a direction of arrival of a target sound, and a microphone array that includes a plurality of microphone units.
  • the presence or absence of the target sound is determined based on at least one of the audio signal obtained by sound collection, and when the target sound is absent, the directivity of the microphone array is made weaker than when the target sound is present. and an audio signal processing section.
  • the sound processing method or program collects surrounding sounds with a microphone array having a plurality of microphone units, and collects target sound direction information indicating the direction of arrival of the target sound, and collects ambient sound with a microphone array having a plurality of microphone units.
  • the presence or absence of the target sound is determined based on at least one of the audio signal obtained by sound collection, and when the target sound is absent, the directivity of the microphone array is made weaker than when the target sound is present. Contains steps.
  • ambient sound is collected by a microphone array having a plurality of microphone units, and target sound direction information indicating the direction of arrival of the target sound and information obtained by the sound collection by the microphone array are provided.
  • the presence or absence of the target sound is determined based on at least one of the voice signal and the voice signal, and when the target sound is absent, the directivity of the microphone array is made weaker than when the target sound is present.
  • the information processing device provides at least one of target sound direction information indicating the arrival direction of the target sound and an audio signal obtained by collecting sound with a microphone array having a plurality of microphone units. Displaying a sound collection range or non-sound collection range of the microphone array based on information regarding control of the directivity of the microphone array obtained by an audio signal processing unit that controls the directivity of the microphone array based on A display control unit is provided to cause the display to be performed.
  • a display regarding a sound collection range or a non-sound collection range of the microphone array is performed based on information regarding control of the directivity of the microphone array obtained by an audio signal processing unit that controls the directivity of the microphone array.
  • FIG. 1 is a diagram showing an example of the configuration of an imaging device.
  • FIG. 2 is a diagram illustrating a configuration example of an imaging device and a sound collection device. It is a flowchart explaining imaging processing.
  • 12 is a flowchart illustrating recording audio generation processing. 12 is a flowchart illustrating recording audio generation processing. 12 is a flowchart illustrating recording audio generation processing. 12 is a flowchart illustrating recording audio generation processing.
  • FIG. 3 is a diagram illustrating directivity control. It is a flowchart explaining imaging processing. It is a figure which shows the example of the display regarding a sound collection range.
  • FIG. 7 is a diagram illustrating an example of a display related to a non-sound collection range.
  • FIG. 7 is a diagram illustrating an example of a display regarding a sound collection range and a non-sound collection range. It is a diagram showing an example of the configuration of a computer.
  • unnecessary sounds such as ambient noise may be recorded without being sufficiently suppressed depending on the directivity even when there is no target sound. It is also possible to suppress insufficient suppression of unnecessary sounds. That is, according to the present technology, it is possible to improve the amount of unnecessary sound suppression.
  • FIG. 1 is a diagram illustrating a configuration example of an embodiment of an imaging device to which the present technology is applied.
  • the imaging device 11 shown in FIG. 1 is comprised of, for example, a digital video camera, a digital still camera with a video shooting function, a smart phone, or the like.
  • the imaging device 11 includes a microphone array 21, A/D (Analog/Digital) converters 22-1 to 22-N, an audio signal processing section 23, an imaging section 24, an image signal processing section 25, and an input section. 26, a display control section 27, a display section 28, a recording control section 29, and a recording section 30.
  • A/D Analog/Digital
  • the microphone array 21 has N standard microphone units 51-1 to 51-N provided in a microphone housing.
  • the microphone units 51-1 to 51-N collect sounds around the imaging device 11, and send the resulting audio signals to the A/D converters 22-1 to 22-N. supply to.
  • the microphone units 51-1 to 51-N will also be simply referred to as microphone units 51 unless it is necessary to distinguish them.
  • one microphone unit 51 corresponds to one channel. Therefore, the microphone array 21 collects (records) sounds from objects surrounding the imaging device 11, such as sounds emitted by the intended subject (target sounds) and sounds from non-target subjects (unnecessary sounds). An N-channel audio signal including sound is obtained.
  • the number N of microphone units 51 provided in the microphone array 21 may be any number, but when performing beamforming processing, a larger number N of microphone units 51 is advantageous in terms of directivity sharpness.
  • the A/D converters 22-1 to 22-N convert the analog audio signals supplied from the microphone units 51-1 to 51-N into digital signals.
  • a digital audio signal is supplied to the audio signal processing section 23.
  • the A/D converters 22-1 to 22-N will also be simply referred to as the A/D converters 22 unless it is necessary to distinguish them.
  • a microphone amplifier (not shown) is provided between the microphone unit 51 and the A/D converter 22, and the audio signal output from the microphone unit 51 is amplified by the microphone amplifier. and is supplied to the A/D converter 22.
  • the audio signal processing unit 23 is composed of, for example, a digital signal processor (DSP) or a central processing unit (CPU).
  • DSP digital signal processor
  • CPU central processing unit
  • the audio signal processing unit 23 performs various signal processing including beamforming processing on the N-channel audio signals supplied from the A/D converter 22, thereby emphasizing the target audio and eliminating unnecessary noise, etc.
  • the system generates and outputs an audio signal in which unnecessary sounds have been removed (suppressed).
  • the audio signal processing unit 23 includes STFT (Short Term Fourier Transform) units 52-1 to STFT units 52-N, a beamforming processing unit 53, and an IFFT (Inverse Fast Fourier Transform) unit 54.
  • STFT Short Term Fourier Transform
  • IFFT Inverse Fast Fourier Transform
  • the STFT units 52-1 to 52-N perform Fourier transform processing, more specifically STFT, on the audio signals supplied from the A/D converters 22-1 to 22-N. , and supplies the resulting frequency domain audio signal to the beamforming processing section 53.
  • a window function is applied to an audio signal while shifting the window function, that is, shifting the application position in the time direction, and the audio signal in the time domain is converted into an audio signal in the frequency domain.
  • the audio signal is divided into components of each frequency band.
  • the STFT sections 52-1 to 52-N will be simply referred to as the STFT section 52 unless it is necessary to distinguish them.
  • STFT is performed as time-frequency conversion by the STFT unit 52
  • band division processing may be performed using a QMF (Quadrature Mirror Filter) or a DFT (Discrete Fourier Transform) filter bank. You can do it like this.
  • QMF Quadrature Mirror Filter
  • DFT Discrete Fourier Transform
  • the beamforming processing unit 53 controls the directivity of the microphone array 21 based on at least one of the audio signal obtained by sound collection and the target audio direction information supplied from the image signal processing unit 25.
  • the target sound direction information is the sound emitted from the target subject to be recorded, which is obtained by the image signal processing unit 25 or input by the input operation of the user operating the imaging device 11 (target sound ), in other words, information indicating the direction of the target subject. More specifically, the target sound direction information is information indicating the direction of arrival of the apparent sound from the imaging device 11 (microphone array 21).
  • the beamforming processing section 53 performs beamforming processing on the frequency domain audio signal supplied from the STFT section 52, using the target audio direction information supplied from the image signal processing section 25, as appropriate.
  • the recorded audio signal is supplied to the IFFT section 54.
  • target audio is emphasized and unnecessary sounds are suppressed, and audio signals with a predetermined number of channels, such as 2 channels, are generated as recording audio signals.
  • the beamforming processing unit 53 changes the directivity of the microphone array 21 (controls the directivity) by generating recording audio signals through such beamforming processing.
  • the recording audio signal is a signal in the frequency domain.
  • the recording audio signal may be generated using any of these techniques.
  • information indicating the position of the subject visually from the imaging device 11 may be used instead of the target audio direction information.
  • desired directivity that is, control of directivity
  • DNN Deep Neural Network
  • microphones used for sound collection generation of audio signals for recording
  • the direction and position of the target sound to be recorded is specified, and emphasis processing is performed to emphasize the sound that corresponds to that direction and position, that is, the sound that has arrived (propagated) to the microphone array 21 from that direction and position. will be held.
  • the beamforming processing unit 53 determines the directivity regarding the collection of the target sound, that is, the directivity (directivity axis and directivity) of the microphone array 21, based on the arrival direction of the target sound indicated by the target sound direction information, for example width).
  • the spatial range (area) determined by these directivity axes and directivity widths becomes the sound collection range.
  • the directivity axis is an axis indicating the direction of the center (center direction) of the sound collection range, and the directivity width corresponds to the width of the sound collection range in the horizontal direction.
  • the direction of the target sound is set to be the direction of the directivity axis, and the directivity axis and the directivity width are determined so that the subject emitting the target sound (target subject) is included within the sound collection range.
  • the directivity width may be determined by determining an angle corresponding to the width of the sound collection range.
  • the beamforming processing section 53 converts a predetermined one of the N-channel audio signals (microphone input signals) supplied from the STFT section 52 according to the determined directivity (directivity axis and directivity width), that is, the sound collection range. By combining these components, delay processing, addition processing, subtraction processing, filter processing, etc. are performed, and beamforming output audio in each frequency band is generated as a recording audio signal.
  • directivity control is realized, that is, desired directivity is formed, and recording audio in which the sound arriving from the sound collection range is emphasized is obtained.
  • the unwanted sound is suppressed by forming a directivity in which the direction of arrival of unwanted sound is a direction with low sensitivity, that is, a directivity with a blind spot direction called NULL. It is also possible that recording audio is generated. In particular, with adaptive beamforming, it is possible to emphasize audio from a specific direction while simultaneously suppressing audio from other predetermined directions.
  • the beamforming processing section 53 can appropriately supply information obtained in the process of beamforming processing, such as the directional axis and the directional width, to the display control section 27.
  • the IFFT unit 54 performs IFFT (inverse FFT) on the recording audio signal supplied from the beamforming processing unit 53, that is, the inverse transformation of the time-frequency transformation performed in the STFT unit 52, and also Performs overlap addition processing on the obtained signals.
  • IFFT inverse FFT
  • the recording audio signal in the frequency domain is converted into the recording audio signal in the time domain (time axis).
  • the IFFT section 54 supplies the recording audio signal in the time domain thus obtained to the recording control section 29 .
  • the imaging unit 24 is composed of, for example, an image sensor, and images a subject around the imaging device 11, and supplies an image signal (video signal) of a moving image obtained as a result to the image signal processing unit 25.
  • the audio signal obtained by the microphone array 21 is an audio signal corresponding to the image signal obtained by the imaging section 24.
  • the image signal processing unit 25 includes, for example, a DSP or a CPU. Note that the image signal processing section 25 and the audio signal processing section 23 may be realized by one DSP or CPU.
  • the image signal processing section 25 performs predetermined image signal processing such as white balance adjustment, gain correction, face recognition processing, pupil detection processing, and moving object detection processing on the image signal supplied from the imaging section 24 as appropriate.
  • predetermined image signal processing such as white balance adjustment, gain correction, face recognition processing, pupil detection processing, and moving object detection processing on the image signal supplied from the imaging section 24 as appropriate.
  • a recording image signal is supplied to the recording control section 29.
  • the image signal processing unit 25 generates a through image for viewing angle confirmation to be presented to the user (photographer) based on the image signal supplied from the imaging unit 24, and supplies it to the display control unit 27.
  • the image signal processing section 25 receives the results of image signal processing such as face recognition processing, eye detection processing, and moving object detection processing on the image signal supplied from the imaging section 24 and from the input section 26 according to the user's input operation.
  • Target audio direction information is generated based on at least one of the supplied signals and is supplied to the beamforming processing section 53.
  • the input unit 26 is made up of, for example, buttons, switches, a touch panel provided superimposed on the display unit 28, etc., and supplies a signal according to a user's operation to the image signal processing unit 25.
  • the display control section 27 supplies the image signal of the through image supplied from the image signal processing section 25 to the display section 28 and displays it.
  • the display control unit 27 may cause the display unit 28 to display the sound collection range and non-sound collection range based on information obtained in the process of beamforming processing that is appropriately supplied from the beamforming processing unit 53. can.
  • the display unit 28 is composed of, for example, an electronic viewfinder or a display panel provided on the back of the imaging device 11, and displays any image such as a through image under the control of the display control unit 27.
  • the recording control section 29 generates a moving image file including the recording image signal supplied from the image signal processing section 25 and the recording audio signal supplied from the IFFT section 54, and transfers the generated moving image file to the recording section. 30 for recording.
  • a recording image signal and a recording audio signal are compressed and encoded according to a predetermined method as necessary.
  • the recording unit 30 is made of, for example, a recording medium that is removable from the imaging device 11, and records the moving image file supplied from the recording control unit 29.
  • an imaging device 11 is provided with a configuration that realizes an audio processing device that collects sound and generates a recording audio signal, that is, a microphone array 21, an A/D converter 22, and an audio signal processing section 23. I explained an example.
  • the present invention is not limited to this, and the audio processing device may be provided separately from the imaging device, and the audio processing device and the imaging device may be connected to each other.
  • the audio processing device and the imaging device can have the configuration shown in FIG. 2, for example.
  • parts corresponding to those in FIG. 1 are denoted by the same reference numerals, and the explanation thereof will be omitted as appropriate.
  • an external sound collection device 81 functions as an audio processing device, and the sound collection device 81 is connected to an imaging device 82.
  • the sound collection device 81 includes a microphone array 21, A/D converters 22-1 to 22-N, and an audio signal processing section 23.
  • the audio signal processing section 23 includes STFT sections 52-1 to 52-N, a beamforming processing section 53, and an IFFT section 54, as in the case in FIG.
  • the imaging device 82 corresponds to the imaging device 11 shown in FIG. have.
  • the example shown in FIG. 2 differs from the example of the imaging device 11 shown in FIG. However, the overall processing itself is the same. Therefore, the specific operation of only the imaging device 11 will be described below.
  • the imaging device 11 After startup, the imaging device 11 performs the imaging process shown in FIG. 3 when a user instructs the imaging device 11 to start imaging a subject.
  • the imaging process by the imaging device 11 will be described with reference to the flowchart in FIG. 3.
  • step S11 the imaging unit 24 images the surrounding subject and supplies the resulting image signal to the image signal processing unit 25.
  • the image signal processing section 25 performs appropriate image signal processing on the image signal supplied from the imaging section 24 to generate an image signal for recording and an image signal of a through image, and records the image signal for recording.
  • the signal is supplied to the control section 29, and the image signal of the through image is supplied to the display control section 27.
  • the display control section 27 supplies the image signal supplied from the image signal processing section 25 to the display section 28 to display a through image.
  • the user who is the photographer, checks the angle of view and the like while looking at the through image displayed on the display unit 28, and then takes a picture.
  • each microphone unit 51 constituting the microphone array 21 collects surrounding sounds and outputs the resulting audio signal.
  • the audio signals output from each microphone unit 51 are supplied to the STFT section 52 via the A/D converter 22. At this time, the A/D converter 22 performs A/D conversion on the audio signal.
  • the imaging of a moving image by the imaging unit 24 in step S11 and the sound collection by the microphone array 21 in step S12 are performed simultaneously.
  • step S13 the image signal processing unit 25 outputs target audio direction information.
  • the input unit 26 when a user, who is a photographer, operates the input unit 26 to specify the position or direction of the desired subject, the input unit 26 sends information to the image signal processing unit 25 according to the user's operation. signal is supplied.
  • the image signal processing unit 25 generates the direction of the position specified by the user or the target voice indicating the direction specified by the user, based on the signal supplied from the input unit 26 in response to the user's operation.
  • Direction information is generated and supplied to the beamforming processing section 53.
  • the image signal processing unit 25 performs face recognition processing, eye detection processing, and moving object processing performed on the image signal supplied from the imaging unit 24.
  • Target audio direction information is generated based on the results of image signal processing such as detection processing.
  • the image signal processing unit 25 determines the position of the detected person's face or eyes on the image, the focal length, etc. Based on the information regarding imaging, the direction of the person viewed from the imaging device 11 can be specified.
  • the image signal processing unit 25 sets the direction of the person identified in this manner as the direction of the target voice, and generates target voice direction information. For example, if there are a plurality of target subjects, target audio direction information indicating the direction of each of these subjects is generated.
  • the eye detection process can detect not only the eyes of people as subjects, but also the eyes of animals such as birds, so even if the eyes of animals other than humans are detected by the eye detection process, It is possible to generate target sound direction information by setting the direction of the detected animal as the direction of the target sound.
  • target audio direction information may be generated by setting the direction of the moving object as the direction of the target audio.
  • the moving object as a subject may be a human or an animal other than a human.
  • the image signal processing unit 25 Either generates target audio direction information indicating that there is no target subject, or does not output target audio direction information.
  • the beamforming processing unit 53 determines, based on the supplied target audio direction information and the presence or absence of the supplied target audio direction information, that the direction and position of the target object have not been specified and that It can also be understood from the image signal that the intended subject was not detected.
  • the target audio direction information may be generated based on both the user's designation operation (input operation) of the position and direction of the target object and the result of image signal processing on the image signal.
  • step S14 the audio signal processing unit 23 performs recording audio generation processing based on the audio signal supplied from the A/D converter 22, and supplies the resulting recording audio signal to the recording control unit 29. .
  • the beam is Forming processing and the like are performed to generate a recording audio signal.
  • step S15 the imaging device 11 determines whether to end capturing the moving image.
  • step S15 If it is determined in step S15 that the imaging is not finished yet, then the process returns to step S11 and the above-described process is repeated.
  • step S15 if it is determined in step S15 that the imaging should be ended, the process for capturing the moving image is stopped, and then the process proceeds to step S16. In this case, sound collection by the microphone array 21 also ends.
  • step S16 the recording control section 29 causes the recording section 30 to record the moving image file.
  • the recording control unit 29 records a moving image file including the recording image signal supplied from the image signal processing unit 25 and the recording audio signal supplied from the IFFT unit 54 from the start of imaging until now.
  • the moving image file is generated and supplied to the recording unit 30 to be recorded.
  • the imaging device 11 captures a moving image according to the user's operation and records the obtained moving image file.
  • the recording Sound generation processing is performed.
  • a plurality of methods can be considered as control methods for directivity, etc. in the recording audio generation process, but here, five control methods will be explained as specific examples with reference to each of FIGS. 4 to 8.
  • FIGS. 4 to 8 are flowchart showing recording audio generation processing corresponding to step S14 in FIG. 3, and is performed by the audio signal processing unit 23.
  • control CT1 the recording audio generation process corresponding to the first control method (hereinafter also referred to as control CT1) will be described.
  • the directivity width is changed depending on the presence or absence of the target voice.
  • step S41 the STFT section 52 performs STFT on the audio signal supplied from the microphone unit 51 via the A/D converter 22, and sends the resulting frequency domain audio signal to the beamforming processing section 53.
  • step S ⁇ b>42 the beamforming processing unit 53 determines whether there is any target audio based on at least one of the audio signal supplied from the STFT unit 52 and the target audio direction information supplied from the image signal processing unit 25 . Determine. In other words, it is determined whether or not the target voice is included in the audio signal obtained by sound collection, that is, the presence or absence of the target voice.
  • target audio direction information indicating that there is no target subject is supplied, or if target audio direction information is not supplied, it is determined that there is no target audio.
  • step S42 If it is determined in step S42 that there is no target audio, the beamforming processing unit 53 generates a recording audio signal with weak directivity in step S43.
  • step S42 if the image signal processing unit 25 does not detect a target subject from the image signal, that is, if a face, eyes, or moving body is not detected, it is determined in step S42 that there is no target audio.
  • the target subject could not be detected (detected) due to a recognition error in the image signal processing unit 25. Therefore, if an inappropriate sound collection range is set without knowing the direction of the target sound, the target sound that was originally intended to be recorded may not be recorded, that is, the target sound may be suppressed.
  • the beamforming processing unit 53 makes the directivity of the microphone array 21 weaker than when there is a target sound, thereby reducing the possibility that the target sound is erroneously suppressed.
  • the beamforming processing unit 53 sets the directivity regarding the microphone array 21 (recording audio signal) to omnidirectional, which records audio from all directions.
  • the directivity width is determined to provide omnidirectionality.
  • the directivity width is set such that the entire 360-degree range is the sound collection range, for example.
  • step S42 the directivity Control is performed to weaken the directivity, such as returning it to omnidirectional. That is, the directivity is changed.
  • the beamforming processing section 53 determines the directivity, that is, the directivity width, the beamforming processing section 53 performs delay processing by combining any of the N channels of audio signals supplied from the STFT section 52 according to the determined directivity. and addition processing, etc., to generate an audio signal for recording.
  • the directivity can be weakened by reducing the number of microphone units 51 used for addition processing, that is, the number of audio signals to be added (number of channels). Therefore, for example, omnidirectionality can be formed by adding a small number of audio signals corresponding to omnidirectionality to generate a recording audio signal. In other words, it is possible to obtain a recording audio signal whose sound collection range covers the entire range.
  • the final recording is performed by weighted addition of the recording audio signal generated to have omnidirectionality and the recording audio signal generated to have predetermined sharp directivity.
  • the directivity of the final audio signal for recording can be changed by changing the weight during weighted addition.
  • various methods can be considered depending on the method of controlling the directivity, such as reducing the weight of the suppressed audio component, but the directivity may be controlled by any method.
  • the beamforming processing section 53 After the beamforming processing section 53 generates a recording audio signal according to the determined weak directivity, it supplies the obtained recording audio signal to the IFFT section 54, and then the process proceeds to step S45.
  • step S42 determines that there is a target sound
  • the direction of arrival of the target sound that is, the direction of the target subject can be specified based on the target sound direction information, so the process then proceeds to step S44.
  • step S44 the beamforming processing unit 53 generates a recording audio signal with sharp (strong) directivity.
  • the beamforming processing unit 53 sets the directivity regarding the microphone array 21 (recording audio signal) to sharp directivity, which is a predetermined sharp directivity.
  • the directivity width is determined to provide sharp directivity.
  • a specific predetermined narrow width is taken as the directional width.
  • the directionality has been set as omnidirectional until now, but if it is determined in step S42 that there is a target voice, control is performed to change the directivity from omnidirectional to acute directivity.
  • step S44 the directivity is not limited to being changed to a predetermined sharp directivity, but the directivity is changed to a sharper directivity than the changed directivity when it is determined that there is no target voice in step S42. All you have to do is make it so.
  • the directional width after changing the current directional width may be narrower by a predetermined width, or the directional width may be set to be narrower than the current directional width by a predetermined width, or the directional width may be set to be narrower depending on the position and number of target subjects, that is, the position and number of sound sources that emit the target sound.
  • the gender range may be dynamically changed (determined).
  • step S42 if it is continuously determined in step S42 that there is a target audio, and the recording audio signal has already been generated with sharp directivity, the current sharp directivity is maintained as it is. You can. That is, the directivity width may be maintained without being changed.
  • the beamforming processing section 53 determines the directivity, that is, the directivity width, the beamforming processing section 53 performs delay processing by combining any of the N channels of audio signals supplied from the STFT section 52 according to the determined directivity. and addition processing, etc., to generate an audio signal for recording.
  • the beamforming processing section 53 supplies the obtained recording audio signal to the IFFT section 54, and then the process proceeds to step S45.
  • step S45 is performed.
  • step S45 the IFFT section 54 performs IFFT on the recording audio signal supplied from the beamforming processing section 53, performs overlap addition processing on the resulting signal, and performs an overlap addition process on the signal obtained as a result. Get the audio signal.
  • the IFFT unit 54 supplies the recording audio signal in the time domain obtained in this way to the recording control unit 29.
  • the recording audio generation process ends, and the process then proceeds to step S15 in FIG. 3.
  • the beamforming processing unit 53 dynamically performs processing during video shooting depending on whether or not the collected audio signal includes the target audio, that is, whether or not there is the target audio. Change the directivity, especially the directivity width.
  • the directivity is set to be weak, and the sound collection range is set to be wider. Therefore, even if the target object that should have been detected is not detected (recognized) due to a recognition error, for example, the target object may fall out of the sound collection range and the quality of the target audio may deteriorate. can be suppressed. In other words, recording errors can be reduced.
  • the directivity is sharp and the sound collection range is set narrower, so it is possible to not only emphasize the target voice but also suppress unnecessary sounds. Thereby, it is possible to obtain a sound in which the target sound is emphasized and unnecessary sounds are sufficiently suppressed as the accompanying sound of the moving image.
  • control CT2 the recording audio generation process corresponding to the second control method
  • step S71 and step S72 is the same as the processing in step S41 and step S42 in FIG. 4, so a description thereof will be omitted.
  • step S73 the beamforming processing unit 53 generates a recording audio signal with the direction of the directional axis of the microphone array 21 set in a predetermined direction.
  • the beamforming processing unit 53 sets the direction of the orientation axis to be the front direction as seen from the imaging device 11 or a preset direction determined in advance.
  • the preset direction may be specifiable (selectable) by the user.
  • the beamforming processing unit 53 Based on the determined directivity axis, the beamforming processing unit 53 generates a recording audio signal according to the directivity (directivity axis) in the same manner as in step S43 of FIG. 4.
  • the target subject could not be detected (detected) due to a recognition error in the image signal processing unit 25. Therefore, if you point the directivity axis in the wrong direction without knowing the direction of the target sound, the source (subject) of the target sound that you originally wanted to record will be located outside the sound collection range, and the target sound will be suppressed. There is a possibility that it will happen.
  • the beamforming processing unit 53 returns the direction of the directional axis to the front direction or a preset direction, thereby eliminating the target voice that was not detected due to recognition error.
  • the subject that the user wants to photograph that is, the target subject, is often located in the front direction or in a preset direction depending on the purpose of photographing. By doing so, it is possible to reduce the possibility that the target voice is erroneously suppressed.
  • the beamforming processing section 53 Once the beamforming processing section 53 generates a recording audio signal according to the determined directional axis, it supplies the obtained recording audio signal to the IFFT section 54, and then the process proceeds to step S75.
  • step S72 if it is determined in step S72 that there is a target sound, the direction of arrival of the target sound, that is, the direction of the target subject can be specified based on the target sound direction information, so the process then proceeds to step S74.
  • step S74 the beamforming processing unit 53 determines the direction of the directivity axis according to the target audio direction information, and generates a recording audio signal.
  • the beamforming processing unit 53 sets the arrival direction of the target sound indicated by the target sound direction information, that is, the direction of the target subject, as the direction of the orientation axis. Note that when the direction of the target sound is specified based on the audio signal without using the target sound direction information, the direction of the specified target sound is taken as the direction of the directivity axis.
  • the beamforming processing unit 53 After determining the directivity, that is, the directivity axis, the beamforming processing unit 53 generates a recording audio signal according to the directivity (directivity axis) based on the determined directivity in the same manner as in step S43 of FIG. do.
  • the beamforming processing section 53 supplies the obtained recording audio signal to the IFFT section 54, and then the process proceeds to step S75.
  • step S75 is performed and the recording audio generation process ends.
  • the process of step S75 is the same as the process of step S45 in FIG. is omitted.
  • step S14 in FIG. 3 is finished, so the process then proceeds to step S15.
  • the beamforming processing unit 53 dynamically changes the directional axis during video shooting, depending on whether or not there is a target sound.
  • the direction of the target sound is the direction of the directivity axis, it is possible to ensure that the target subject is included in the sound collection range even when using sharp directivity. can. Thereby, it is possible to obtain a sound in which the target sound is emphasized and unnecessary sounds are sufficiently suppressed as the accompanying sound of the moving image.
  • control CT3 The recording audio generation process corresponding to the third control method (hereinafter also referred to as control CT3) will be described with reference to the flowchart of FIG. 6.
  • control CT3 the third control method
  • the volume of the recording audio signal is controlled depending on the presence or absence of the target audio.
  • step S101 and step S102 is the same as the processing in step S41 and step S42 in FIG. 4, so a description thereof will be omitted.
  • step S102 If it is determined in step S102 that there is no target audio, the beamforming processing unit 53 lowers the volume of the recording audio signal in step S103.
  • the beamforming processing unit 53 generates a recording audio signal according to the directivity in the same manner as in step S43 of FIG.
  • the beamforming processing unit 53 performs gain correction (volume adjustment) on the recording audio signal so that the volume of the audio based on the recording audio signal becomes smaller than a predetermined specified volume.
  • the specified volume here is, for example, the volume of the recording audio signal when it is determined that there is the target audio, and is the volume when the gain (volume) correction amount is 1x. That is, the volume when no gain correction is performed is defined as the specified volume.
  • volume control is performed so that the volume is lower than when there is target audio.
  • the gain of some or all of the frequency band components of the recording audio signal is made small. That is, the gain (volume) of the entire frequency band of the recording audio signal may be made small, or the gain of only a part of the frequency band of the recording audio signal may be made small.
  • the beamforming processing section 53 When the beamforming processing section 53 generates the recording audio signal of the determined volume, it supplies the obtained recording audio signal to the IFFT section 54, and then the process proceeds to step S105.
  • the beamforming processing unit 53 sets the volume of the recording audio signal to the specified volume in step S104.
  • the beamforming processing unit 53 generates a recording audio signal according to the directivity in the same manner as in step S103. However, in this case, the beamforming processing unit 53 performs gain correction (volume adjustment) on the recording audio signal as necessary so that the volume of the audio based on the recording audio signal becomes a predetermined specified volume. )I do.
  • the emphasized target sound can be played back at an appropriate volume.
  • the beamforming processing section 53 supplies the obtained recording audio signal to the IFFT section 54, and then the process proceeds to step S105.
  • step S105 is performed and the recording audio generation process ends, but the process of step S105 is the same as the process of step S45 in FIG. is omitted.
  • the recording audio generation process is completed, the process then proceeds to step S15 in FIG. 3.
  • the beamforming processing unit 53 dynamically changes the volume of the recording audio signal during video shooting, depending on whether or not there is a target audio. By doing so, it is possible to obtain audio in which unnecessary sounds are sufficiently suppressed as accompanying audio for a moving image.
  • control CT4 the recording audio generation process corresponding to the fourth control method (hereinafter also referred to as control CT4) will be described.
  • the volume of the recording audio signal is controlled depending on the presence or absence of target audio, more specifically, depending on whether the section includes only unnecessary sounds.
  • step S131 is similar to the process in step S41 in FIG. 4, so the explanation thereof will be omitted.
  • step S132 the beamforming processing section 53 determines whether the section includes only unnecessary sounds based on the audio signal supplied from the STFT section 52 and the target audio direction information supplied from the image signal processing section 25. That is, it is determined whether or not only unnecessary sound is included in the section to be processed in the audio signal obtained by sound collection.
  • step S132 even if a target subject is detected by face recognition processing or the like and target audio direction information indicating the direction of the target subject is supplied, the target audio is detected from the collected audio signal. If no sound is detected, it is determined that the section contains only unnecessary sounds. As a specific example, if a target subject is included in the image, but the target subject is not emitting any sound, it is determined that this is a section containing only unnecessary sounds.
  • step S132 If it is determined in step S132 that the section includes only unnecessary sounds, the beamforming processing unit 53 lowers the volume of the recording audio signal in step S133.
  • the beamforming processing unit 53 performs gain correction so that the volume of the audio based on the recording audio signal becomes smaller than a predetermined volume, in the same manner as in step S103 of FIG. Generate an audio signal.
  • the gain of some or all of the frequency band components of the recording audio signal is made small.
  • the unnecessary sounds can be made less noticeable by lowering the volume of the recording audio signal. That is, it is possible to improve the amount of unnecessary sound suppression.
  • the beamforming processing section 53 Once the beamforming processing section 53 generates the recording audio signal of the determined volume, it supplies the obtained recording audio signal to the IFFT section 54, and then the process proceeds to step S135.
  • the beamforming processing unit 53 sets the volume of the recording audio signal to the specified volume in step S134.
  • the beamforming processing unit 53 performs gain correction as necessary so that the volume of the audio based on the recording audio signal becomes a predetermined specified volume in the same manner as in step S104 of FIG. , generate an audio signal for recording.
  • the emphasized target sound can be played back at an appropriate volume.
  • the beamforming processing section 53 supplies the obtained recording audio signal to the IFFT section 54, and then the process proceeds to step S135.
  • step S133 or step S134 When the process of step S133 or step S134 is performed, the process of step S135 is performed and the recording audio generation process ends, but since the process of step S135 is the same as the process of step S45 in FIG. is omitted. When the recording audio generation process is completed, the process then proceeds to step S15 in FIG. 3.
  • the beamforming processing unit 53 dynamically changes the volume of the recording audio signal during video shooting, depending on whether the section includes only unnecessary sounds. By doing so, it is possible to obtain audio in which unnecessary sounds are sufficiently suppressed as accompanying audio for a moving image.
  • step S161 is similar to the process in step S41 in FIG. 4, so a description thereof will be omitted.
  • step S162 the beamforming processing unit 53 determines that there is a plurality of target sounds based on at least one of the audio signal supplied from the STFT unit 52 and the target audio direction information supplied from the image signal processing unit 25. Determine whether or not. In other words, it is determined whether the audio signal obtained by sound collection includes a plurality of target sounds or only one target sound.
  • target audio direction information indicating the direction of each of a plurality of target subjects is supplied, it is determined that there are multiple target sounds.
  • step S162 If it is determined in step S162 that there are multiple target sounds, the beamforming processing unit 53 generates a recording audio signal with weak directivity in step S163.
  • step S163 a recording audio signal is generated in the same manner as in step S43 of FIG.
  • the directivity is sharp, the sound collection range will be narrowed, and some of the target subjects may be located outside the sound collection range. In this case, the quality of the target voice deteriorates due to erroneous suppression.
  • the beamforming processing unit 53 makes the directivity of the microphone array 21 weaker than when there is only one target sound, thereby preventing each of the multiple target sounds from being erroneously suppressed. Reduces clutter.
  • the directivity width is determined so as to provide omnidirectionality, for example.
  • the beamforming processing section 53 determines the directivity, that is, the directivity width, it generates a recording audio signal according to the determined directivity and supplies it to the IFFT section 54, and then the process proceeds to step S165.
  • step S164 the beamforming processing unit 53 generates a recording sound signal with sharp directivity.
  • the recording audio signal is generated by the same process as in step S44 of FIG. 4, for example.
  • the directivity width is determined so that the directivity is sharper than when there is no target sound or when there are multiple target sounds, such as sharp directivity, and recording is performed according to the determined directivity. An audio signal is generated.
  • the beamforming processing section 53 supplies the obtained recording audio signal to the IFFT section 54, and then the process proceeds to step S165.
  • step S165 is performed and the recording audio generation process ends, but since the process of step S165 is the same as the process of step S45 in FIG. is omitted.
  • the recording audio generation process is completed, the process then proceeds to step S15 in FIG. 3.
  • the beamforming processing unit 53 dynamically changes the directivity, particularly the directivity width, during video shooting, depending on whether there are multiple target sounds. By doing so, it is possible to suppress deterioration in sound quality and obtain higher quality audio as accompanying audio for moving images.
  • control CT1 to control CT5 are summarized as shown in FIG. 9.
  • the "determination process” column describes what kind of process is performed as the determination process to determine the directivity and the like.
  • control CT1 described with reference to FIG. 4, for example, it is determined in step S42 whether or not there is a target voice as a determination process.
  • control CT1 when the determination result is positive, that is, when there is no target voice, the directivity is weakened in step S43, and conversely, when the determination result is negative, that is, when there is target voice, is made to have a sharp directivity in step S44.
  • control CT1 to control CT5 can reduce (alleviate) sound quality deterioration and erroneous suppression of the target audio to be recorded. Furthermore, control CT3 and control CT4 can improve the amount of suppression of unnecessary sounds. These control CT1 to control CT5 are particularly useful when performing adaptive beamforming that can form sharp directivity as beamforming processing.
  • step S14 of FIG. 3 in addition to controlling one of the above-mentioned control CT1 to control CT5 alone, arbitrary two or more of control CT1 to control CT5 are combined to generate the recording audio signal. Of course, it is also possible to generate .
  • control CT1 when performing control that combines control CT4, control CT1 to control CT3, or control CT5, even when it is determined that there is a target voice or when it is determined that there are multiple target voices, unnecessary noise If it is determined that the interval is only 1, a recording audio signal is generated at a low volume.
  • the target voice direction information and the information supplied from the STFT unit 52 are used. It has been explained that at least one of the audio signals is used.
  • the user operates the input unit 26 to specify the direction (angle) or position of the desired subject. Therefore, the target audio direction information is the direction of the subject specified by the user.
  • the beamforming processing unit 53 calculates the power value of the audio coming from the direction indicated by the target audio direction information based on the audio signal supplied from the STFT unit 52, and calculates the power value of the audio coming from the direction indicated by the target audio direction information. It is determined whether or not the value is equal to or greater than a predetermined threshold.
  • the target voice has arrived from the direction indicated by the target voice direction information, that is, the target voice is present.
  • target audio direction information indicating the direction specified by the user is generated in the same manner as in determination method JM1.
  • the beamforming processing unit 53 performs direction estimation based on the audio signal supplied from the STFT unit 52 in the process of beamforming processing. Through this direction estimation, the direction of arrival of the sound (voice) included in the audio signal, that is, the direction of the subject (sound source) that was emitting the sound at the time of sound collection, is obtained as an estimation result.
  • the beamforming processing unit 53 calculates the angle between the direction obtained as a result of direction estimation and the direction indicated by the target audio direction information, and determines the target audio direction if the obtained angle is less than a predetermined threshold. Assume that the target voice has arrived from the direction indicated by the information, that is, there is a target voice.
  • audio detection processing is performed on the audio signal obtained by sound collection.
  • the audio detection process it is determined whether the audio signal picked up by the microphone unit 51 includes a sound that seems to be audio, or in other words, whether or not the sound based on the audio signal is similar to audio.
  • the audio signal processing unit 23 performs voice detection processing such as VAD (Voice Activity Detection) using a DNN obtained in advance by learning based on the audio signal output from the STFT unit 52, and the processing result is is supplied to the beamforming processing section 53.
  • VAD Voice Activity Detection
  • the beamforming processing unit 53 determines the presence or absence of the target audio based on the processing result of the audio detection processing supplied from the audio signal processing unit 23. For example, when a voice is detected by the voice detection process, that is, when it is determined that it seems like voice, it is determined that there is a target voice.
  • the beamforming processing unit 53 performs direction estimation based on the audio signal in the process of beamforming processing.
  • the beamforming processing unit 53 determines that the sound from the direction indicated by the direction estimation is unnecessary sound.
  • the predetermined direction range may be a predetermined range, such as a predetermined width range including the front direction, or a range including the direction indicated by the target audio direction information. Alternatively, it may be a range specified in advance by the user or the like. In addition, the range of the predetermined direction may be a range determined from the determined directivity axis, directivity width, or the like.
  • control CT4 it is determined whether the section includes only unnecessary sounds based on the target audio direction information and the audio signal.
  • the determination method JM2 by combining the determination method JM2 and the determination method JM4, it is possible to determine whether the section includes only unnecessary sounds.
  • target audio direction information indicating the direction of the target audio is generated based on the results of the user's designation operation, face recognition processing, etc. Then, based on the obtained target audio direction information and the audio signal obtained by sound collection, it is determined whether the section includes only unnecessary sounds using the determination method JM2 and the determination method JM4. At this time, if the direction estimation results indicate that the sound is coming from a direction different from the direction of the target sound indicated by the target sound direction information, the sound is determined to be unnecessary sound.
  • step S133 in FIG. 7 the process of step S133 in FIG. 7 is performed, the overall volume is lowered, and the effect of suppressing unnecessary sounds is enhanced. That is, an improvement in the amount of suppression of unnecessary sounds is realized.
  • the fixed beam forming and gun microphones commonly used in such camera systems form sharp directivity that collects only the area of the detected face, that is, the area of the displayed frame. That is difficult. Therefore, the actual sound collection range may be different from the sound collection range imagined by the photographer.
  • the amount of suppression is greater than with gun microphones. Therefore, if the actual sound collection range differs from the sound collection range imagined by the photographer, it is conceivable that the originally necessary target sound may be erroneously suppressed.
  • the photographer can easily understand the sound collection range and the non-sound collection range. It may also be possible to visually grasp the sound range instantly. This makes it possible to reduce the risk of erroneous suppression.
  • Such a display regarding the sound collection range or non-sound collection range is particularly useful when performing adaptive beamforming that can achieve sharp directivity as beamforming processing.
  • the imaging device 11 When displaying the sound collection range or non-sound collection range, the imaging device 11 performs the imaging process shown in FIG. 10, for example. Hereinafter, the imaging process by the imaging device 11 will be described with reference to the flowchart in FIG. 10.
  • step S201 to step S204 is the same as the processing from step S11 to step S14 in FIG. 3, so a description thereof will be omitted.
  • the beamforming processing unit 53 converts information obtained in the process of beamforming processing, such as information that allows identification of the sound collection range and non-sound collection range, information indicating the amount of audio suppression, etc., into sound collection related information. It is supplied to the display control section 27 as a.
  • the sound collection related information is transmitted as metadata or the like to an application program that implements the display control unit 27, which performs processing related to displaying the live view image.
  • the sound collection related information is information related to controlling the directivity of the microphone array 21 obtained by the beamforming processing unit 53, and includes, for example, the directivity axis and width for specifying the sound collection range, and the non-sound collection range. This includes the direction of a blind spot for identification and the width of the range in which audio is suppressed.
  • step S205 the display control unit 27 causes the display unit 28 to display the sound collection range or non-sound collection range based on the sound collection related information supplied from the beamforming processing unit 53.
  • the display control unit 27 superimposes and displays a frame indicating the sound collection range and non-sound collection range specified by the sound collection related information on the through image, or displays the entire sound based on the recording audio signal.
  • the amount of suppression or the amount of audio suppression for each subject (direction) is displayed superimposed on the through image.
  • the display control unit 27 obtains the results of the face recognition process, target audio direction information, etc. from the image signal processing unit 25 as necessary, and uses them for displaying the sound collection range and non-sound collection range.
  • step S205 After the process of step S205 is performed, the process of steps S206 and S207 is performed and the imaging process ends, but since these processes are similar to the processes of step S15 and step S16 in FIG. Explanation will be omitted.
  • the imaging device 11 displays the sound collection range and non-sound collection range based on the sound collection related information when capturing a moving image.
  • the sound collection range and the non-sound collection range can be visually presented to the photographer (user) in an easy-to-understand manner. Thereby, the occurrence of erroneous suppression can be reduced, and high-quality audio with little audio deterioration can be obtained.
  • FIG. 11 shows an example where the sound collection range is presented.
  • FIG. 11 shows an example in which the sound collection range is displayed as a frame.
  • a frame K11 is displayed on the display screen of the display unit 28, superimposed on the through-the-lens image, and indicating the area that is the sound collection range.
  • the subject (sound source) included in the sound collection range can be surrounded by the frame K11.
  • a frame K11 of a predetermined color representing the sound collection range is displayed so as to surround the target subject on the through image, that is, the sound source of the target sound. Therefore, by looking at the display of the frame K11, the photographer (user) can visually and instantly understand that the area within the frame K11 is the sound collection range.
  • FIG. 11 shows an example in which the sound collection range is displayed in a directional beam diagram.
  • the predetermined color area K12 displayed superimposed on the live view image represents the range of the directional beam that is the sound collection range, that is, the range of the area where the collected sound is emphasized.
  • the direction in which region K12 is directed represents the direction of the directivity axis, and the width of region K12 corresponds to the directivity width.
  • FIG. 11 shows an example in which the sound collection range is displayed as a directivity schematic diagram at the edge of the screen.
  • a schematic diagram K13 of the camera representing the imaging device 11 is superimposed on the through-the-lens image, and the range (direction) of the directional beam starting from the schematic diagram K13 of the camera is displayed at the edge of the display screen.
  • a region K14 of a predetermined color, which is schematically represented, is displayed. Similar to the example shown in the center of the figure, the direction in which region K14 is directed represents the direction of the directivity axis, and the width of region K14 corresponds to the directivity width.
  • the display regarding the sound collection range is not limited to the example shown in FIG. 11, but may also include a polar pattern indicating directivity, a display indicating the position and direction (angle) of the subject that is the sound source of the sound collection target, that is, the target subject. Any other display may be used.
  • FIG. 12 shows an example of the display regarding the non-sound collection range, in which the amount of suppression of the non-sound collection range, unnecessary sounds, etc. is presented.
  • FIG. 12 shows an example in which the non-sound collection range is displayed as a frame.
  • a frame K31 is displayed on the display screen of the display unit 28, superimposed on the through-the-lens image, and indicating an area that is a non-sound collection range.
  • the area within this frame K31 is an area where the amount of suppression of the sound that is not in the sound collection range is large, and for example, the frame K31 is displayed so as to surround the subject (sound source) that is outside the sound collection range. Furthermore, for example, the frame K31 representing the non-sound collection range is displayed in a blinking manner, which is different from the display format of the frame K11 representing the sound collection range shown in FIG. 11.
  • the photographer By looking at the display of frame K31, the photographer (user) can instantly and visually understand that the area within frame K31 is a non-sound collection range. Therefore, if the photographer adjusts the angle of view or specifies the direction of the target sound so that the target subject is not located within the frame K31, the user can prevent the target sound from being erroneously suppressed. can do.
  • the through-the-lens image includes two people as subjects that serve as sound sources, and the amount of sound suppression from the direction of each person is displayed in the vicinity of each person, superimposed on the through-the-lens image. ing.
  • the amount of suppression "-12.3dB" is displayed above the person on the left, so the photographer can see that the sound emitted by this person is greatly suppressed, that is, in the non-sound collection area. It is possible to instantly know where a person is located inside.
  • the amount of suppression "-0.1 dB" is displayed above the person on the right, so the photographer can confirm that the amount of suppression of the sound emitted by this person is small, that is, the sound is not captured. It is possible to instantly know that a person is located outside the area (within the sound collection area).
  • the dB value indicating the suppression amount is displayed in different display formats, such as in different colors. Therefore, the suppression amount "-12.3dB” and the suppression amount "-0.1dB” are displayed in different colors, and the photographer can instantly understand that the suppression amount "-12.3dB” is large.
  • FIG. 12 On the right side of FIG. 12, an example is shown in which a suppression level meter indicating the amount of suppression of the entire audio based on the recording audio signal by beamforming processing is displayed.
  • a suppression level meter K32 is superimposed on the through image on the lower side of the display screen of the display unit 28, and a dB value indicating the amount of suppression of the entire audio based on the recording audio signal indicated by the suppression level meter K32 is shown. -4.5dB" is displayed.
  • the photographer can instantly and visually grasp the extent to which the recorded audio is suppressed.
  • the display indicating the non-sound collection range and the amount of audio suppression is not limited to the example shown in Figure 12. Any other display, such as a display indicating the position and direction (angle) of the subject to be photographed, may be used.
  • the display showing the sound collection range shown in FIG. 11 and the display showing the sound non-pickup range and the amount of suppression shown in FIG. 12 may be combined and displayed at the same time.
  • a display example in such a case is shown in FIG.
  • a frame K11 representing the sound collection range shown on the left side of FIG. 11 and a frame K31 representing the non-sound collection range shown on the left side of FIG. 12 are displayed simultaneously, superimposed on the through image.
  • An example is shown.
  • the frame K11 and the frame K31 may be displayed in different display formats, such as in different colors.
  • the photographer can simultaneously grasp not only the sound collection area but also the non-sound collection area.
  • FIG. 13 there is a frame K11 representing the sound collection range shown on the left side of FIG. 11, and the dB value of the amount of suppression of sound from each subject (direction) by the beamforming process shown in the center of FIG.
  • An example is shown in which the image is superimposed on the through image and displayed at the same time. In this example, the photographer can grasp not only the sound collection area but also the amount of sound suppression from each direction.
  • FIG. 13 shows a schematic diagram K13 of the camera shown on the right side of FIG. 11, an area K14 schematically representing the range of the directional beam, and a suppression level meter K32 and the suppression amount in dB shown on the right side of FIG.
  • An example is shown in which the values are superimposed on the through image and displayed at the same time. In this example, the photographer can grasp not only the direction and area of the sound collection range, but also the amount of sound suppression.
  • the photographer by displaying each of the examples shown in FIGS. 11 to 13, the photographer (user) can visually see the sound collection range and non-sound collection range (range where audio is suppressed). Can be presented in an easy-to-understand manner. Thereby, erroneous suppression and photographing errors can be reduced.
  • the series of processes described above can be executed by hardware or software.
  • the programs that make up the software are installed on the computer.
  • the computer includes a computer built into dedicated hardware, and a general-purpose computer that can execute various functions by installing various programs.
  • FIG. 14 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processes using a program.
  • a CPU 501 In the computer, a CPU 501, a ROM (Read Only Memory) 502, and a RAM (Random Access Memory) 503 are interconnected by a bus 504.
  • An input/output interface 505 is further connected to the bus 504.
  • An input section 506 , an output section 507 , a recording section 508 , a communication section 509 , and a drive 510 are connected to the input/output interface 505 .
  • the input unit 506 includes a keyboard, a mouse, a microphone array, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, nonvolatile memory, and the like.
  • the communication unit 509 includes a network interface and the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 executes the above-described series by, for example, loading a program recorded in the recording unit 508 into the RAM 503 via the input/output interface 505 and the bus 504 and executing it. processing is performed.
  • a program executed by the computer (CPU 501) can be provided by being recorded on a removable recording medium 511 such as a package medium, for example. Additionally, programs may be provided via wired or wireless transmission media, such as local area networks, the Internet, and digital satellite broadcasts.
  • the program can be installed in the recording unit 508 via the input/output interface 505 by loading the removable recording medium 511 into the drive 510. Further, the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508. Other programs can be installed in the ROM 502 or the recording unit 508 in advance.
  • the program executed by the computer may be a program in which processing is performed chronologically in accordance with the order described in this specification, in parallel, or at necessary timing such as when a call is made. It may also be a program that performs processing.
  • embodiments of the present technology are not limited to the embodiments described above, and various changes can be made without departing from the gist of the present technology.
  • the present technology can take a cloud computing configuration in which one function is shared and jointly processed by multiple devices via a network.
  • each step described in the above flowchart can be executed by one device or can be shared and executed by multiple devices.
  • one step includes multiple processes
  • the multiple processes included in that one step can be executed by one device or can be shared and executed by multiple devices.
  • the present technology can also have the following configuration.
  • a microphone array that has multiple microphone units and collects surrounding sounds; The presence or absence of the target sound is determined based on at least one of target sound direction information indicating the direction of arrival of the target sound and an audio signal obtained by sound collection by the microphone array, and if the target sound is not present. and an audio signal processing unit that makes the directivity of the microphone array weaker than when the target sound is present.
  • the audio signal processing unit reduces the gain of a part or all of the frequency band components of the audio signal when the target sound is not present.
  • the audio signal processing unit sets the orientation axis of the microphone array to a front direction or a predetermined direction when there is no target sound.
  • the audio signal processing unit determines whether the section includes only unnecessary sounds based on the target sound direction information and the audio signal, and if the section includes only unnecessary sounds, it processes part or all of the audio signal.
  • the audio processing device according to any one of (1) to (3), wherein the gain of the frequency band component is reduced.
  • the audio signal processing unit weakens the directivity of the microphone array when there are a plurality of target sounds than when there is one target sound. Audio processing device.
  • the audio processing device according to any one of (1) to (5), wherein the audio signal processing unit makes the directivity of the microphone array omnidirectional when there is no target sound.
  • the audio processing device changes the directivity of the microphone array by beamforming processing on the audio signal.
  • the audio signal processing unit performs adaptive beamforming as the beamforming process.
  • the target sound direction information is generated based on a position or direction specified by a user.
  • the target sound direction information is generated based on the result of image processing on an image signal obtained by imaging by an imaging unit performed simultaneously with sound collection by the microphone array.
  • the audio processing device described in section. (11) The audio processing device according to (10), wherein the image processing is face recognition processing, eye detection processing, or moving object detection processing.
  • (12) (1) to (11) further comprising a display control unit that displays a sound collection range or a non-sound collection range of the microphone array based on information regarding control of directivity of the microphone array in the audio signal processing unit.
  • the audio processing device according to any one of .
  • the audio processing device wherein the display control unit causes a display to indicate the area that is the sound collection range.
  • the display control unit causes a display indicating the area that is the non-sound collection range.
  • the display control unit displays the overall audio suppression amount based on the audio signal or the audio suppression amount for each subject in the audio signal.
  • the audio processing device A microphone array with multiple microphone units collects surrounding sounds, The presence or absence of the target sound is determined based on at least one of target sound direction information indicating the direction of arrival of the target sound and an audio signal obtained by sound collection by the microphone array, and if the target sound is not present. , a sound processing method in which the directivity of the microphone array is made weaker than when the target sound is present.
  • a microphone array with multiple microphone units collects surrounding sounds, The presence or absence of the target sound is determined based on at least one of target sound direction information indicating the direction of arrival of the target sound and an audio signal obtained by sound collection by the microphone array, and if the target sound is not present. , making the directivity of the microphone array weaker than when the target sound is present.
  • An information processing device comprising: a display control unit that displays a sound collection range or a non-sound collection range of the microphone array based on information regarding directivity control of the microphone array obtained by a signal processing unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Studio Devices (AREA)

Abstract

本技術は、音質劣化を抑制することができるようにする音声処理装置および方法、情報処理装置、並びにプログラムに関する。 音声処理装置は、複数のマイクユニットを有し、周囲の音を収音するマイクロホンアレイと、目的音の到来方向を示す目的音方向情報、およびマイクロホンアレイでの収音により得られた音声信号の少なくとも何れか一方に基づいて目的音の有無を判定し、目的音がない場合、目的音がある場合よりもマイクロホンアレイの指向性を弱くする音声信号処理部とを備える。本技術はデジタルビデオカメラに適用することができる。

Description

音声処理装置および方法、情報処理装置、並びにプログラム
 本技術は、音声処理装置および方法、情報処理装置、並びにプログラムに関し、特に、音質劣化を抑制することができるようにした音声処理装置および方法、情報処理装置、並びにプログラムに関する。
 従来、複数のマイクユニットからなるマイクロホンアレイを用いて指向性を形成するビームフォーミングと呼ばれる技術や、ビームフォーミングを用いたカメラ等の製品が知られている。
 具体的には、例えば被写体の位置に応じて手動または自動で指向性、すなわち指向軸や指向性幅を変化させることで、目的とする被写体からの音声が強調されるように音声収録を行うカメラ等がある。
 また、例えば指向性の制御に関する技術として、ビデオ会議システムにおいて、画像から検出された参加者の視線を示す視線情報を蓄積し、蓄積した視線情報に基づいてマイクロホンの指向性を決定する技術も提案されている(例えば、特許文献1参照)。
特開2020-88618号公報
 しかしながら、上述した技術では、指向性の制御により音質劣化が生じてしまう場合があった。
 例えば、目的とする被写体の位置に応じて、手動または自動で指向性を変化させるときに、指向軸や指向性幅、すなわち収音範囲が正しく設定できなかったり、目的とする被写体を検知できなかったりすることがある。
 そのような場合に、目的とする被写体が、設定した指向性に対して定まる収音範囲外に位置してしまうと、目的とする被写体の音声の一部の周波数成分が抑圧されてしまうなどして音声劣化が生じてしまう。
 本技術は、このような状況に鑑みてなされたものであり、音質劣化を抑制することができるようにするものである。
 本技術の第1の側面の音声処理装置は、複数のマイクユニットを有し、周囲の音を収音するマイクロホンアレイと、目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くする音声信号処理部とを備える。
 本技術の第1の側面の音声処理方法またはプログラムは、複数のマイクユニットを有するマイクロホンアレイにより周囲の音を収音させ、目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くするステップを含む。
 本技術の第1の側面においては、複数のマイクユニットを有するマイクロホンアレイにより周囲の音が収音され、目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無が判定され、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性が弱くなるようにされる。
 本技術の第2の側面の情報処理装置は、目的音の到来方向を示す目的音方向情報と、複数のマイクユニットを有するマイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記マイクロホンアレイの指向性を制御する音声信号処理部において得られた、前記マイクロホンアレイの指向性の制御に関する情報に基づいて、前記マイクロホンアレイの収音範囲または非収音範囲に関する表示を行わせる表示制御部を備える。
 本技術の第2の側面においては、目的音の到来方向を示す目的音方向情報と、複数のマイクユニットを有するマイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記マイクロホンアレイの指向性を制御する音声信号処理部において得られた、前記マイクロホンアレイの指向性の制御に関する情報に基づいて、前記マイクロホンアレイの収音範囲または非収音範囲に関する表示が行われる。
撮像装置の構成例を示す図である。 撮像装置と収音装置の構成例を示す図である。 撮像処理を説明するフローチャートである。 記録用音声生成処理を説明するフローチャートである。 記録用音声生成処理を説明するフローチャートである。 記録用音声生成処理を説明するフローチャートである。 記録用音声生成処理を説明するフローチャートである。 記録用音声生成処理を説明するフローチャートである。 指向性の制御について説明する図である。 撮像処理を説明するフローチャートである。 収音範囲に関する表示の例を示す図である。 非収音範囲に関する表示の例を示す図である。 収音範囲と非収音範囲に関する表示の例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈撮像装置の構成例〉
 本技術は、目的とする被写体の位置や方向に応じて、手動または自動で指向性、すなわち指向軸や指向性幅を変更する制御を行う場合に、音質劣化を抑制し、収録ミスを低減させることができるようにするものである。
 また、一般的な指向性の制御では、目的音がない場合でも指向性に応じて周囲の雑音等の不要音が十分抑圧されずに収録されてしまうことがあるが、本技術では、そのような不要音の抑圧量不足も抑制することが可能である。すなわち、本技術によれば、不要音の抑圧量を向上させることができる。
 図1は、本技術を適用した撮像装置の一実施の形態の構成例を示す図である。
 図1に示す撮像装置11は、例えばデジタルビデオカメラや、動画撮影機能を有するデジタルスチルカメラ、スマートホンなどからなる。
 撮像装置11は、マイクロホンアレイ21、A/D(Analog/Digital)変換器22-1乃至A/D変換器22-N、音声信号処理部23、撮像部24、画像信号処理部25、入力部26、表示制御部27、表示部28、記録制御部29、および記録部30を有している。
 マイクロホンアレイ21は、マイク筐体に設けられた標準的なN個のマイクユニット51-1乃至マイクユニット51-Nを有している。
 マイクユニット51-1乃至マイクユニット51-Nは、撮像装置11の周囲の音を収音し、その結果得られた音声信号をA/D変換器22-1乃至A/D変換器22-Nに供給する。なお、以下、マイクユニット51-1乃至マイクユニット51-Nを特に区別する必要のない場合、単にマイクユニット51とも称することとする。
 マイクロホンアレイ21では、1つのマイクユニット51が1つのチャンネルに対応している。そのため、マイクロホンアレイ21による収音(収録)によって、目的とする被写体により発せられた音(目的音声)や、目的外の被写体からの音(不要音)など、撮像装置11の周囲の被写体からの音を含むNチャンネルの音声信号が得られる。
 マイクロホンアレイ21に設けられるマイクユニット51の個数Nはいくつであってもよいが、ビームフォーミング処理を行うにあたっては、マイクユニット51の個数Nが多い方が指向性の鋭さの点で有利である。
 A/D変換器22-1乃至A/D変換器22-Nは、マイクユニット51-1乃至マイクユニット51-Nから供給されたアナログの音声信号をデジタル信号に変換し、その結果得られたデジタルの音声信号を音声信号処理部23に供給する。
 なお、以下、A/D変換器22-1乃至A/D変換器22-Nを特に区別する必要のない場合、単にA/D変換器22とも称する。
 また、より詳細にはマイクユニット51とA/D変換器22の間には図示せぬマイクアンプ(増幅器)が設けられており、マイクユニット51から出力された音声信号は、マイクアンプにより増幅されてA/D変換器22へと供給される。
 音声信号処理部23は、例えばデジタルシグナルプロセッサ(DSP(Digital Signal Processor))やCPU(Central Processing Unit)で構成される。
 音声信号処理部23は、A/D変換器22から供給されたNチャンネルの音声信号に対して、ビームフォーミング処理を含む各種の信号処理を行うことで目的音声が強調されたり、不要な雑音等である不要音が除去(抑圧)されたりした音声信号を生成し、出力する。
 音声信号処理部23は、STFT(Short Term Fourier Transform)部52-1乃至STFT部52-N、ビームフォーミング処理部53、およびIFFT(Inverse Fast Fourier Transform)部54を有している。
 STFT部52-1乃至STFT部52-Nは、A/D変換器22-1乃至A/D変換器22-Nから供給された音声信号に対してフーリエ変換処理、より詳細にはSTFTを施し、その結果得られた周波数領域の音声信号をビームフォーミング処理部53に供給する。
 STFTでは、窓関数をずらしながら、すなわち適用位置を時間方向にずらしながら窓関数が音声信号にかけられて(適用されて)、時間領域の音声信号が周波数領域の音声信号へと変換される。換言すれば、音声信号が各周波数帯域の成分に分割される。
 なお、以下、STFT部52-1乃至STFT部52-Nを特に区別する必要のない場合、単にSTFT部52とも称することとする。
 また、ここではSTFT部52による時間周波数変換としてSTFTが行われる例について説明するが、これに限らず、例えばQMF(Quadrature Mirror Filter)やDFT(Discrete Fourier Transform)フィルタバンクなどによる帯域分割処理を行うようにしてもよい。
 ビームフォーミング処理部53は、収音により得られた音声信号、および画像信号処理部25から供給された目的音声方向情報の少なくとも何れか一方に基づいて、マイクロホンアレイ21の指向性の制御を行う。
 ここで、目的音声方向情報とは、画像信号処理部25により求められたか、または撮像装置11を操作するユーザの入力操作によって入力された、収録対象となる目的の被写体から発せられる音声(目的音声)の方向、換言すれば目的とする被写体のある方向を示す情報である。より具体的には、目的音声方向情報は、撮像装置11(マイクロホンアレイ21)から見た目的音声の到来方向を示す情報である。
 ビームフォーミング処理部53は、適宜、画像信号処理部25から供給された目的音声方向情報を用いて、STFT部52から供給された周波数領域の音声信号に対してビームフォーミング処理を行い、その結果得られた記録用音声信号をIFFT部54に供給する。
 ビームフォーミング処理では、目的音声が強調されたり、不要音が抑圧されたりして、2チャンネル等の予め定められた所定チャンネル数の音声信号が記録用音声信号として生成される。ビームフォーミング処理部53は、このようなビームフォーミング処理によって記録用音声信号を生成することで、マイクロホンアレイ21の指向性を変化させる(指向性を制御する)。
 なお、ビームフォーミング処理により記録用音声信号が生成された時点では、記録用音声信号は、周波数領域の信号となっている。
 また、ビームフォーミング処理には、遅延和法や適応ビームフォーミングなどの多数の手法があり、それらの手法のうちの何れの手法により記録用音声信号が生成されてもよい。さらにビームフォーミング処理では、目的音声方向情報に代えて、撮像装置11(マイクロホンアレイ21)から見た目的とする被写体の位置を示す情報が用いられてもよい。
 その他、所望の指向性の形成、すなわち指向性の制御は、ビームフォーミング処理に限らず、DNN(Deep Neural Network)を用いた音源分離処理や、収音(記録用音声信号の生成)に用いるマイクユニット51の選択などにより実現されるようにしてもよい。
 ビームフォーミング処理では、収録したい目的音声の方向や位置が指定され、その方向や位置に対応する音声、つまりその方向や位置からマイクロホンアレイ21へと到来した(伝搬してきた)音声を強調する強調処理が行われる。
 具体的には、ビームフォーミング処理部53は、例えば目的音声方向情報により示される目的音声の到来方向に基づき、目的音声の収音に関する指向性、すなわちマイクロホンアレイ21の指向性(指向軸と指向性幅)を決定する。
 これらの指向軸と指向性幅により定まる空間上の範囲(領域)が収音範囲となる。指向軸は収音範囲の中心の方向(中心方向)を示す軸であり、指向性幅は収音範囲の水平方向の幅に対応する。
 したがって、例えば目的音声の方向が指向軸の方向とされるなど、目的音声を発する被写体(目的とする被写体)が収音範囲内に含まれるように指向軸と指向性幅が決定される。例えば指向性幅の決定は、収音範囲の幅に対応する角度を決定することにより行われるようにしてもよい。
 ビームフォーミング処理部53は、決定した指向性(指向軸と指向性幅)、すなわち収音範囲に応じて、STFT部52から供給されたNチャンネルの音声信号(マイク入力信号)のうちの所定のものを組み合わせて遅延処理や加算処理、減算処理、フィルタ処理などを行い、各周波数帯域のビームフォーミング出力音声を記録用音声信号として生成する。
 このようなビームフォーミング処理によって、指向性の制御が実現され、すなわち所望の指向性が形成され、収音範囲から到来する音が強調された記録用音声が得られる。
 なお、ビームフォーミング処理では、不要音の到来方向などが感度の低い方向とされる指向性、すなわちNULL(ヌル)と呼ばれる死角方向を有する指向性が形成されるようにし、不要音が抑圧された記録用音声が生成されるようにすることも可能である。特に、適応ビームフォーミングでは、特定の方向からの音声を強調しつつ、同時に他の所定の方向からの音声を抑圧することが可能である。
 その他、ビームフォーミング処理部53は、指向軸や指向性幅など、ビームフォーミング処理の過程で得られる情報を適宜、表示制御部27に供給することが可能である。
 IFFT部54は、ビームフォーミング処理部53から供給された記録用音声信号に対してIFFT(逆FFT)、すなわちSTFT部52で行われた時間周波数変換の逆変換を行うとともに、逆変換により得られた信号に対してオーバーラップ加算処理を行う。
 これにより、周波数領域の記録用音声信号が、時間領域(時間軸)の記録用音声信号へと変換される。IFFT部54は、このようにして得られた時間領域の記録用音声信号を記録制御部29に供給する。
 撮像部24は、例えばイメージセンサからなり、撮像装置11の周囲の被写体を撮像し、その結果得られた動画像の画像信号(映像信号)を画像信号処理部25に供給する。
 マイクロホンアレイ21では、撮像部24による撮像と同時に収音が行われ、撮像部24で得られる動画像に付随する音声の音声信号が得られる。すなわち、マイクロホンアレイ21で得られる音声信号は、撮像部24で得られる画像信号に対応する音声信号である。
 画像信号処理部25は、例えばDSPやCPUからなる。なお、画像信号処理部25と音声信号処理部23が1つのDSPやCPUにより実現されてもよい。
 画像信号処理部25は、撮像部24から供給された画像信号に対して、適宜、ホワイトバランス調整やゲイン補正、顔認識処理、瞳検出処理、動体検出処理などの所定の画像信号処理を行い、記録用画像信号を記録制御部29に供給する。
 また、画像信号処理部25は、撮像部24から供給された画像信号に基づいて、ユーザ(撮影者)に提示する画角確認用のスルー画像を生成し、表示制御部27に供給する。
 さらに、画像信号処理部25は、撮像部24から供給された画像信号に対する顔認識処理や瞳検出処理、動体検出処理などの画像信号処理の結果と、ユーザの入力操作に応じて入力部26から供給された信号との少なくとも何れか一方に基づいて目的音声方向情報を生成し、ビームフォーミング処理部53に供給する。
 入力部26は、例えばボタンやスイッチ、表示部28に重畳して設けられたタッチパネルなどからなり、ユーザの操作に応じた信号を画像信号処理部25に供給する。
 表示制御部27は、画像信号処理部25から供給されたスルー画像の画像信号を表示部28に供給し、表示させる。なお、表示制御部27は、ビームフォーミング処理部53から適宜供給されたビームフォーミング処理の過程で得られた情報に基づき、表示部28に収音範囲や非収音範囲に関する表示を行わせることもできる。
 表示部28は、例えば電子ファインダや撮像装置11の背面に設けられた表示パネルなどからなり、表示制御部27の制御に従ってスルー画像等の任意の画像を表示する。
 記録制御部29は、画像信号処理部25から供給された記録用画像信号と、IFFT部54から供給された記録用音声信号とを含む動画像ファイルを生成し、生成した動画像ファイルを記録部30に供給して記録させる。動画像ファイルの生成にあたっては、記録用画像信号や記録用音声信号が必要に応じて所定の方式により圧縮符号化される。
 記録部30は、例えば撮像装置11に対して着脱可能な記録媒体からなり、記録制御部29から供給された動画像ファイルを記録する。
〈撮像装置と収音装置の構成例〉
 図1では、収音を行って記録用音声信号を生成する音声処理装置を実現する構成、すなわちマイクロホンアレイ21、A/D変換器22、および音声信号処理部23が撮像装置11に設けられている例について説明した。
 しかし、これに限らず、音声処理装置が撮像装置とは別に設けられ、音声処理装置と撮像装置とが相互に接続されるようにしてもよい。
 そのような場合、音声処理装置と撮像装置は、例えば図2に示す構成とすることができる。なお、図2において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図2の例では、外付け用の収音装置81が音声処理装置として機能しており、収音装置81が撮像装置82に接続されている。
 収音装置81は、マイクロホンアレイ21、A/D変換器22-1乃至A/D変換器22-N、および音声信号処理部23を有している。
 また、音声信号処理部23は、図1における場合と同様に、STFT部52-1乃至STFT部52-N、ビームフォーミング処理部53、およびIFFT部54を有している。
 撮像装置82は、図1に示した撮像装置11に対応し、撮像部24、画像信号処理部25、入力部26、表示制御部27、表示部28、記録制御部29、および記録部30を有している。
 図2に示す例では、収音装置81が有する構成、すなわちマイクロホンアレイ21乃至音声信号処理部23が撮像装置82の外部に設けられている点のみ、図1に示した撮像装置11の例と異なっており、全体として行われる処理自体は同様である。そこで、以下では、撮像装置11についてのみ具体的な動作の説明を行う。
〈撮像処理の説明〉
 撮像装置11は、起動後、ユーザにより被写体の撮像開始が指示されると、図3に示す撮像処理を行う。以下、図3のフローチャートを参照して、撮像装置11による撮像処理について説明する。
 ステップS11において撮像部24は、周囲の被写体を撮像し、その結果得られた画像信号を画像信号処理部25に供給する。
 また、画像信号処理部25は、撮像部24から供給された画像信号に対して、適宜、画像信号処理を行って記録用画像信号やスルー画像の画像信号を生成し、記録用画像信号を記録制御部29に供給するとともにスルー画像の画像信号を表示制御部27に供給する。
 表示制御部27は、画像信号処理部25から供給された画像信号を表示部28に供給し、スルー画像を表示させる。撮影者であるユーザは、表示部28に表示されたスルー画像を見ながら画角等を確認し、撮影を行う。
 ステップS12においてマイクロホンアレイ21を構成する各マイクユニット51は、周囲の音を収音し、その結果得られた音声信号を出力する。
 各マイクユニット51から出力された音声信号は、A/D変換器22を介してSTFT部52に供給される。このとき、A/D変換器22では音声信号に対するA/D変換が行われる。
 なお、より詳細には、ステップS11における撮像部24での動画像の撮像と、ステップS12におけるマイクロホンアレイ21での収音とは同時に行われる。
 ステップS13において画像信号処理部25は、目的音声方向情報を出力する。
 具体的には、例えば撮影者であるユーザが入力部26を操作して、目的とする被写体の位置または方向を指定した場合、入力部26から画像信号処理部25には、ユーザの操作に応じた信号が供給される。
 このような場合、画像信号処理部25は、ユーザの操作に応じて入力部26から供給された信号に基づいて、ユーザにより指定された位置の方向、またはユーザにより指定された方向を示す目的音声方向情報を生成し、ビームフォーミング処理部53に供給する。
 また、例えばユーザにより目的とする被写体の位置や方向の指定がない場合、画像信号処理部25は、撮像部24から供給された画像信号に対して行われた顔認識処理や瞳検出処理、動体検出処理などの画像信号処理の結果に基づいて目的音声方向情報を生成する。
 例えば、顔認識処理や瞳検出処理により被写体としての人物の顔や瞳が検出された場合、画像信号処理部25は、画像上における検出された人物の顔や瞳の位置、および焦点距離等の撮像に関する情報に基づき、撮像装置11から見た人物の方向を特定可能である。
 画像信号処理部25は、このようにして特定された人物の方向を目的音声の方向とし、目的音声方向情報を生成する。例えば目的とする被写体が複数ある場合には、それらの各被写体の方向を示す目的音声方向情報が生成される。
 なお、瞳検出処理では、被写体としての人の瞳だけでなく、鳥等の動物の瞳も検出することができるので、瞳検出処理により人以外の動物の瞳が検出された場合にも、瞳が検出された動物の方向を目的音声の方向として目的音声方向情報を生成することが可能である。
 同様に、例えば動体検出処理により動体が検出された場合に、その動体の方向を目的音声の方向として目的音声方向情報を生成してもよい。この場合、被写体としての動体は人である場合もあれば、人以外の動物などである場合もある。
 さらに、例えばユーザによる位置や方向の指定操作が行われず、また顔認識処理や瞳検出処理、動体検出処理において、顔や瞳、動体が検出されなかった場合には、画像信号処理部25は、目的とする被写体がない旨の目的音声方向情報を生成するか、または目的音声方向情報の出力を行わない。
 この場合、ビームフォーミング処理部53では、供給された目的音声方向情報や、目的音声方向情報の供給の有無から、目的とする被写体の方向や位置が指定されておらず、かつ撮像により得られた画像信号からも目的とする被写体が検出されなかったことを把握することができる。
 なお、目的音声方向情報は、ユーザによる目的とする被写体の位置や方向の指定操作(入力操作)と、画像信号に対する画像信号処理の結果との両方に基づき生成されてもよい。
 ステップS14において音声信号処理部23は、A/D変換器22から供給された音声信号に基づいて記録用音声生成処理を行い、その結果得られた記録用音声信号を記録制御部29に供給する。
 なお、記録用音声生成処理の詳細は後述するが、記録用音声生成処理では、収音により得られた音声信号と、画像信号処理部25で生成された目的音声方向情報とに基づいて、ビームフォーミング処理等が行われ、記録用音声信号が生成される。
 ステップS15において撮像装置11は、動画像の撮像を終了するか否かを判定する。
 例えば、ユーザが入力部26を操作することで撮像終了を指示した場合に、撮像を終了すると判定される。
 ステップS15において、まだ撮像を終了しないと判定された場合、その後、処理はステップS11に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS15において撮像を終了すると判定された場合、動画像の撮像のための処理が停止され、その後、処理はステップS16へと進む。この場合、マイクロホンアレイ21による収音も終了する。
 ステップS16において記録制御部29は、動画像ファイルを記録部30に記録させる。
 すなわち、記録制御部29は、撮像開始後からこれまでの間に画像信号処理部25から供給された記録用画像信号と、IFFT部54から供給された記録用音声信号とを含む動画像ファイルを生成し、その動画像ファイルを記録部30に供給して記録させる。
 このようにして動画像ファイルが記録されると、撮像処理は終了する。
 以上のようにして撮像装置11は、ユーザの操作に従って動画像を撮像し、得られた動画像ファイルを記録する。
〈記録用音声生成処理の説明1〉
 続いて、図3のステップS14に対応する記録用音声生成処理について説明する。
 例えば、音声信号処理部23に入力される音声信号のサンプリング周波数が48kHzであり、STFT部52でのSTFTのシフト幅が256サンプルだった場合、約5.3ms(=256/48000)ごとに記録用音声生成処理、特に指向性等を制御する処理が行われる。
 記録用音声生成処理における指向性等の制御手法として複数の手法が考えられるが、ここでは具体的な例として、図4乃至図8のそれぞれを参照して、5つの制御手法について説明を行う。
 図4乃至図8に示す各フローチャートは、図3のステップS14に対応する記録用音声生成処理を示すフローチャートであり、音声信号処理部23により行われる。
 まず、図4のフローチャートを参照して、1つ目の制御手法(以下、制御CT1とも称する)に対応する記録用音声生成処理について説明する。この例では、目的音声の有無に応じて指向性幅が変更される。
 ステップS41においてSTFT部52は、A/D変換器22を介してマイクユニット51から供給された音声信号に対してSTFTを行い、その結果得られた周波数領域の音声信号をビームフォーミング処理部53に供給する。
 ステップS42においてビームフォーミング処理部53は、STFT部52から供給された音声信号、および画像信号処理部25から供給された目的音声方向情報のうちの少なくとも何れか一方に基づいて、目的音声がないかを判定する。換言すれば、収音により得られた音声信号に目的音声が含まれているか否か、すなわち目的音声の有無が判定される。
 例えば、目的とする被写体がない旨の目的音声方向情報が供給された場合や、目的音声方向情報が供給されなかった場合に、目的音声がないと判定される。
 ステップS42において目的音声がないと判定された場合、ステップS43においてビームフォーミング処理部53は、弱い指向性として記録用音声信号を生成する。
 例えば画像信号処理部25において画像信号から目的とする被写体が検出されなかった場合、すなわち顔や瞳、動体が検出されなかった場合、ステップS42では目的音声がないと判定される。
 このように目的音声がないと判定される場合、画像信号処理部25において認識誤りによって、目的とする被写体が検出(検知)できなかった可能性がある。そのため、目的音声の方向が不明なまま不適切な収音範囲を設定してしまうと、本来収録したかった目的音声が収録されない、すなわち目的音声が抑圧されてしまう可能性がある。
 そこで、ビームフォーミング処理部53は、目的音声がない場合には、目的音声がある場合よりもマイクロホンアレイ21の指向性を弱くすることによって、目的音声が誤抑圧されてしまうことを軽減させる。
 具体的な例として、例えばビームフォーミング処理部53は、マイクロホンアレイ21(記録用音声信号)に関する指向性を、全方位からの音声を収録する全指向性とする。換言すれば、全指向性となるように指向性幅が決定される。この場合、例えば360度の全範囲を収音範囲とするような指向性幅が設定される。
 したがって、例えば、これまでは目的音声があったために鋭い指向性が形成されるように記録用音声信号が生成されていたが、ステップS42で目的音声がないと判定された場合には、指向性が全指向性に戻されるなど、指向性が弱められるような制御が行われる。すなわち、指向性が変更される。
 ビームフォーミング処理部53は、指向性、すなわち指向性幅を決定すると、決定した指向性に応じて、STFT部52から供給されたNチャンネル分の音声信号のうちの任意のものを組み合わせて遅延処理や加算処理等を行い、記録用音声信号を生成する。
 なお、指向性の変更方法は、ビームフォーミング処理の方式によって異なる。
 例えば遅延和法の場合には、加算処理に用いるマイクユニット51の個数、すなわち加算する音声信号の個数(チャンネル数)を減らすことで指向性を弱めることができる。したがって、例えば全指向性に対応する少ない数の音声信号を加算して記録用音声信号を生成することで、全指向性を形成することができる。換言すれば、全範囲を収音範囲とした記録用音声信号を得ることができる。
 また、例えば適応ビームフォーミングの場合には、全指向性と鋭指向性の出力割合を変えることなどが考えられる。
 すなわち、全指向性となるように生成された記録用音声信号と、所定の鋭い指向性である鋭指向性となるように生成された記録用音声信号とを重み付き加算して最終的な記録用音声信号を生成する場合に、重み付き加算時の重みを変化させることで、最終的な記録用音声信号(マイクロホンアレイ21)の指向性を変化させることができる。
 その他、指向性の制御方法によっては、抑圧した音声成分の重みを小さくするなど、様々な手法が考えられるが、どのような手法により指向性を制御するようにしてもよい。
 ビームフォーミング処理部53は、決定した弱い指向性に応じた記録用音声信号を生成すると、得られた記録用音声信号をIFFT部54に供給し、その後、処理はステップS45へと進む。
 また、ステップS42において目的音声があると判定された場合、目的音声方向情報により目的音声の到来方向、すなわち目的とする被写体の方向を特定できるので、その後、処理はステップS44へと進む。
 ステップS44においてビームフォーミング処理部53は、鋭い(強い)指向性として記録用音声信号を生成する。
 例えばビームフォーミング処理部53は、マイクロホンアレイ21(記録用音声信号)に関する指向性を、予め定められた所定の鋭い指向性である鋭指向性とする。換言すれば、鋭指向性となるように指向性幅が決定される。この場合、例えば、予め定められた特定の狭い幅が指向性幅とされる。
 したがって、例えば、これまでは全指向性としていたが、ステップS42で目的音声があると判定された場合には、指向性が全指向性から鋭指向性に変更される制御が行われる。
 なお、ステップS44では、予め定められた鋭指向性に変更される例に限らず、ステップS42において目的音声がないと判定された場合の変更後の指向性よりも、より鋭い指向性に変更されるようにすればよい。
 例えば現時点の指向性幅よりも所定幅だけ変更後の指向性幅が狭くなるようにしてもよいし、目的とする被写体の位置や数、すなわち目的音声を発する音源の位置や数に応じて指向性幅が動的に変化する(決定される)ようにしてもよい。
 また、ステップS42で継続して目的音声があると判定され続けており、既に鋭い指向性で記録用音声信号が生成されている場合には、現時点での鋭い指向性がそのまま維持されるようにしてもよい。すなわち、指向性幅が変更されずに維持されてもよい。
 ビームフォーミング処理部53は、指向性、すなわち指向性幅を決定すると、決定した指向性に応じて、STFT部52から供給されたNチャンネル分の音声信号のうちの任意のものを組み合わせて遅延処理や加算処理等を行い、記録用音声信号を生成する。
 そしてビームフォーミング処理部53は、得られた記録用音声信号をIFFT部54に供給し、その後、処理はステップS45へと進む。
 このように目的音声がある場合には、鋭い指向性とすることで、目的音声を強調しつつ不要音を十分に抑圧することができる。すなわち、不要音の抑圧量を向上させる(不要音の抑圧量不足を抑制する)ことができる。
 ステップS43の処理、またはステップS44の処理が行われると、その後、ステップS45の処理が行われる。
 ステップS45においてIFFT部54は、ビームフォーミング処理部53から供給された記録用音声信号に対してIFFTを行うとともに、その結果得られた信号に対してオーバーラップ加算処理を行い、時間領域の記録用音声信号を得る。
 IFFT部54は、このようにして得られた時間領域の記録用音声信号を記録制御部29に供給する。記録用音声信号が記録制御部29に供給されると、記録用音声生成処理は終了し、その後、処理は図3のステップS15へと進む。
 以上のようにして、ビームフォーミング処理部53は、収音した音声信号に目的音声が含まれているか否か、すなわち目的音声があるか否かに応じて、動画像の撮影中に動的に指向性、特に指向性幅を変更する。
 このようにすることで、音質劣化を抑制し、動画像の付随音声として、より高品質な音声を得ることができる。
 すなわち、目的音声がない場合には弱い指向性とされ、収音範囲がより広く設定される。そのため、例えば認識誤りによって、本来検出されるべき目的とする被写体が検出(認識)されなかったときでも、目的とする被写体が収音範囲から外れてしまい、目的音声の音質が劣化してしまうことを抑制することができる。換言すれば、収録ミスを低減させることができる。
 また、目的音声がある場合には鋭い指向性とされ、収音範囲がより狭く設定されるため、目的音声を強調することができるだけでなく、不要音を抑圧することができる。これにより、動画像の付随音声として目的音声が強調され、かつ不要音が十分に抑圧された音声を得ることができる。
〈記録用音声生成処理の説明2〉
 次に、図5のフローチャートを参照して、2つ目の制御手法(以下、制御CT2とも称する)に対応する記録用音声生成処理について説明する。この例では、目的音声の有無に応じて指向軸が変更される。
 なお、ステップS71およびステップS72の処理は、図4のステップS41およびステップS42の処理と同様であるので、その説明は省略する。
 ステップS72において目的音声がないと判定された場合、ステップS73においてビームフォーミング処理部53は、マイクロホンアレイ21の指向軸の方向を予め定められた所定の方向として記録用音声信号を生成する。
 例えばビームフォーミング処理部53は、撮像装置11から見た正面方向や、予め定められたプリセット方向などを指向軸の方向とする。プリセット方向は、ユーザにより指定可能(選択可能)であってもよい。
 ビームフォーミング処理部53は、決定した指向軸に基づき、図4のステップS43における場合と同様にして指向性(指向軸)に応じた記録用音声信号を生成する。
 目的音声がないと判定される場合、画像信号処理部25において認識誤りによって、目的とする被写体が検出(検知)できなかった可能性がある。そのため、目的音声の方向が不明なまま間違った方向に指向軸を向けてしまうと、本来収録したかった目的音声の音源(被写体)が収音範囲外に位置してしまい、目的音声が抑圧されてしまう可能性がある。
 そこで、ビームフォーミング処理部53は、目的音声がないと判定された場合には、指向軸の方向を正面方向や予め定められたプリセット方向に戻すことで、認識誤りによって検出されなかった目的音声の被写体が収音範囲から外れてしまうことを抑制する。これは、ユーザが撮影したい被写体、つまり目的とする被写体は正面方向や撮影用途等に応じたプリセット方向に位置していることが多いためである。このようにすることで、目的音声が誤抑圧されてしまうことを軽減させることができる。
 ビームフォーミング処理部53は、決定した指向軸に応じた記録用音声信号を生成すると、得られた記録用音声信号をIFFT部54に供給し、その後、処理はステップS75へと進む。
 また、ステップS72において目的音声があると判定された場合、目的音声方向情報により目的音声の到来方向、すなわち目的とする被写体の方向を特定できるので、その後、処理はステップS74へと進む。
 ステップS74においてビームフォーミング処理部53は、目的音声方向情報に応じて指向軸の方向を決定し、記録用音声信号を生成する。
 例えばビームフォーミング処理部53は、目的音声方向情報により示される目的音声の到来方向、すなわち目的とする被写体の方向を指向軸の方向とする。なお、目的音声方向情報が用いられずに、音声信号に基づき目的音声の方向が特定された場合には、その特定された目的音声の方向が指向軸の方向とされる。
 ビームフォーミング処理部53は、指向性、すなわち指向軸を決定すると、決定した指向性に基づき、図4のステップS43における場合と同様にして指向性(指向軸)に応じた記録用音声信号を生成する。
 そしてビームフォーミング処理部53は、得られた記録用音声信号をIFFT部54に供給し、その後、処理はステップS75へと進む。
 ステップS73またはステップS74の処理が行われると、ステップS75の処理が行われて記録用音声生成処理は終了するが、ステップS75の処理は図4のステップS45の処理と同様であるので、その説明は省略する。
 記録用音声生成処理が終了すると、図3のステップS14の処理が終了したことになるので、その後、処理はステップS15へと進む。
 以上のようにして、ビームフォーミング処理部53は、目的音声があるか否かに応じて、動画像の撮影中に動的に指向軸を変更する。
 このようにすることで、音質劣化を抑制し、動画像の付随音声として、より高品質な音声を得ることができる。
 すなわち、目的音声がない場合には、正面方向等の所定方向を指向軸の方向とすることで、認識誤りによって、本来検出されるべき目的とする被写体が検出(認識)されなかったときでも、目的とする被写体が収音範囲から外れてしまうことを抑制することができる。これにより、目的音声の音質が劣化してしまうことを抑制することができる。
 また、目的音声がある場合には、目的音声の方向を指向軸の方向とすることで、鋭い指向性としたときでも、目的とする被写体が確実に収音範囲に含まれるようにすることができる。これにより、動画像の付随音声として目的音声が強調され、かつ不要音が十分に抑圧された音声を得ることができる。
〈記録用音声生成処理の説明3〉
 図6のフローチャートを参照して、3つ目の制御手法(以下、制御CT3とも称する)に対応する記録用音声生成処理について説明する。この例では、目的音声の有無に応じて記録用音声信号の音量が制御される。
 なお、ステップS101およびステップS102の処理は、図4のステップS41およびステップS42の処理と同様であるので、その説明は省略する。
 ステップS102において目的音声がないと判定された場合、ステップS103においてビームフォーミング処理部53は、記録用音声信号の音量を低い音量とする。
 例えばビームフォーミング処理部53は、図4のステップS43における場合と同様にして指向性に応じた記録用音声信号を生成する。
 このとき、ビームフォーミング処理部53は、記録用音声信号に基づく音声の音量が、予め定められた規定音量よりも小さくなるように、記録用音声信号に対してゲイン補正(音量調整)を行う。
 ここでいう規定音量は、例えば目的音声があると判定された場合における記録用音声信号の音量であり、ゲイン(音量)の補正量が1倍のときの音量などとされる。すなわち、特にゲイン補正を行わないときの音量が規定音量とされる。
 したがって、目的音声がない場合には、目的音声がある場合よりも、より音量が小さくなるように音量制御が行われることになる。
 なお、ゲイン補正時には、記録用音声信号の一部または全部の周波数帯域成分のゲインが小さくなるようにされる。すなわち、記録用音声信号の全周波数帯域のゲイン(音量)が小さくなるようにしてもよいし、記録用音声信号の一部の周波数帯域のゲインのみが小さくなるようにしてもよい。
 このように、目的音声がないときには、記録用音声信号の音量を下げることで、不要音が目立たなくなるようにすることができる。すなわち、不要音の抑圧量を向上させることができる。
 ビームフォーミング処理部53は、決定した音量の記録用音声信号を生成すると、得られた記録用音声信号をIFFT部54に供給し、その後、処理はステップS105へと進む。
 また、ステップS102において目的音声があると判定された場合、ステップS104においてビームフォーミング処理部53は、記録用音声信号の音量を規定音量とする。
 例えばビームフォーミング処理部53は、ステップS103における場合と同様にして指向性に応じた記録用音声信号を生成する。但し、この場合、ビームフォーミング処理部53は、記録用音声信号に基づく音声の音量が、予め定められた規定音量となるように、必要に応じて記録用音声信号に対してゲイン補正(音量調整)を行う。
 目的音声がある場合には、予め定めた適切な規定音量で音声が再生される記録用音声信号を生成することで、強調された目的音声が適切な音量で再生されるようになる。
 ビームフォーミング処理部53は、得られた記録用音声信号をIFFT部54に供給し、その後、処理はステップS105へと進む。
 ステップS103またはステップS104の処理が行われると、ステップS105の処理が行われて記録用音声生成処理は終了するが、ステップS105の処理は図4のステップS45の処理と同様であるので、その説明は省略する。記録用音声生成処理が終了すると、その後、処理は図3のステップS15へと進む。
 以上のようにして、ビームフォーミング処理部53は、目的音声があるか否かに応じて、動画像の撮影中に記録用音声信号の音量を動的に変更する。このようにすることで、動画像の付随音声として、不要音が十分に抑圧された音声を得ることができる。
〈記録用音声生成処理の説明4〉
 続いて、図7のフローチャートを参照して、4つ目の制御手法(以下、制御CT4とも称する)に対応する記録用音声生成処理について説明する。この例では、目的音声の有無、より詳細には不要音のみの区間であるか否かに応じて記録用音声信号の音量が制御される。
 なお、ステップS131の処理は、図4のステップS41の処理と同様であるので、その説明は省略する。
 ステップS132においてビームフォーミング処理部53は、STFT部52から供給された音声信号、および画像信号処理部25から供給された目的音声方向情報に基づいて、不要音のみの区間であるかを判定する。すなわち、収音により得られた音声信号における処理対象となっている区間に不要音のみが含まれているか否かが判定される。
 例えばステップS132では、顔認識処理等により目的とする被写体が検出され、その目的とする被写体の方向を示す目的音声方向情報が供給された場合であっても、収音された音声信号から目的音声が検出されなかったときには、不要音のみの区間であるとされる。具体的な例として、例えば画像上には目的とする被写体が含まれているが、その目的とする被写体が音を発していない場合に、不要音のみの区間であると判定される。
 ステップS132において不要音のみの区間であると判定された場合、ステップS133においてビームフォーミング処理部53は、記録用音声信号の音量を低い音量とする。
 例えばビームフォーミング処理部53は、図6のステップS103における場合と同様にして、記録用音声信号に基づく音声の音量が、予め定められた規定音量よりも小さくなるようにゲイン補正を行い、記録用音声信号を生成する。
 この場合においても、ゲイン補正時には、記録用音声信号の一部または全部の周波数帯域成分のゲインが小さくなるようにされる。
 このように、目的音声が発せられておらず、不要音のみが発せられているときには、記録用音声信号の音量を下げることで、不要音を目立たなくすることができる。すなわち、不要音の抑圧量を向上させることができる。
 ビームフォーミング処理部53は、決定した音量の記録用音声信号を生成すると、得られた記録用音声信号をIFFT部54に供給し、その後、処理はステップS135へと進む。
 また、ステップS132において不要音のみの区間でない、すなわち目的音声を含む区間であると判定された場合、ステップS134においてビームフォーミング処理部53は、記録用音声信号の音量を規定音量とする。
 例えばビームフォーミング処理部53は、図6のステップS104における場合と同様にして、記録用音声信号に基づく音声の音量が、予め定められた規定音量となるように、必要に応じてゲイン補正を行い、記録用音声信号を生成する。
 目的音声がある場合には、予め定めた適切な規定音量で音声が再生される記録用音声信号を生成することで、強調された目的音声が適切な音量で再生されるようになる。
 ビームフォーミング処理部53は、得られた記録用音声信号をIFFT部54に供給し、その後、処理はステップS135へと進む。
 ステップS133またはステップS134の処理が行われると、ステップS135の処理が行われて記録用音声生成処理は終了するが、ステップS135の処理は図4のステップS45の処理と同様であるので、その説明は省略する。記録用音声生成処理が終了すると、その後、処理は図3のステップS15へと進む。
 以上のようにして、ビームフォーミング処理部53は、不要音のみの区間であるか否かに応じて、動画像の撮影中に記録用音声信号の音量を動的に変更する。このようにすることで、動画像の付随音声として、不要音が十分に抑圧された音声を得ることができる。
〈記録用音声生成処理の説明5〉
 図8のフローチャートを参照して、5つ目の制御手法(以下、制御CT5とも称する)に対応する記録用音声生成処理について説明する。この例では、目的音声が複数あるか否かに応じて指向性幅が変更される。
 なお、ステップS161の処理は、図4のステップS41の処理と同様であるので、その説明は省略する。
 ステップS162においてビームフォーミング処理部53は、STFT部52から供給された音声信号、および画像信号処理部25から供給された目的音声方向情報のうちの少なくとも何れか一方に基づいて、目的音声が複数あるか否かを判定する。換言すれば、収音により得られた音声信号に目的音声が複数含まれているか、または目的音声が1つだけ含まれているかが判定される。
 例えば、目的とする複数の各被写体の方向を示す目的音声方向情報が供給された場合に、目的音声が複数あると判定される。
 ステップS162において目的音声が複数あると判定された場合、ステップS163においてビームフォーミング処理部53は、弱い指向性として記録用音声信号を生成する。
 特に、ステップS163では、図4のステップS43における場合と同様にして記録用音声信号が生成される。
 例えば、目的とする被写体が複数ある場合、鋭い指向性とすると、収音範囲が狭くなり、目的とする被写体のうちのいくつかが収音範囲外に位置してしまう可能性がある。そうすると、誤抑圧により目的音声の音質が劣化してしまう。
 そこで、ビームフォーミング処理部53は、目的音声が複数ある場合には、目的音声が1つである場合よりもマイクロホンアレイ21の指向性を弱くすることによって、複数の各目的音声が誤抑圧されてしまうことを軽減させる。この場合、例えば全指向性となるように指向性幅が決定される。
 ビームフォーミング処理部53は、指向性、すなわち指向性幅を決定すると、決定した指向性に応じて記録用音声信号を生成してIFFT部54に供給し、その後、処理はステップS165へと進む。
 一方、ステップS162において目的音声が複数ない、すなわち目的音声が1つであると判定された場合、ステップS164においてビームフォーミング処理部53は、鋭い指向性として記録用音声信号を生成する。
 この場合、例えば図4のステップS44における場合と同様の処理により記録用音声信号が生成される。すなわち、鋭指向性など、目的音声がない場合や目的音声が複数ある場合よりも、より鋭い指向性となるように指向性幅(指向性)が決定され、決定された指向性に応じた記録用音声信号が生成される。
 ビームフォーミング処理部53は、得られた記録用音声信号をIFFT部54に供給し、その後、処理はステップS165へと進む。
 ステップS163またはステップS164の処理が行われると、ステップS165の処理が行われて記録用音声生成処理は終了するが、ステップS165の処理は図4のステップS45の処理と同様であるので、その説明は省略する。記録用音声生成処理が終了すると、その後、処理は図3のステップS15へと進む。
 以上のようにして、ビームフォーミング処理部53は、目的音声が複数あるか否かに応じて、動画像の撮影中に動的に指向性、特に指向性幅を変更する。このようにすることで、音質劣化を抑制し、動画像の付随音声として、より高品質な音声を得ることができる。
 以上においては、図3のステップS14で行われる指向性等の制御手法として、図4乃至図8を参照して5つの制御CT1乃至制御CT5について説明した。
 これらの制御CT1乃至制御CT5をまとめると、図9に示すようになる。
 図9において「判定処理」の欄には、指向性等を決定するにあたり行われる判定処理として、どのような処理が行われるかが記されている。
 また、「判定結果がYES(肯定)の場合」の欄には、判定処理の結果が肯定的であった場合に行われる指向性等の制御が記されており、「判定結果がNO(否定)の場合」の欄には、判定処理の結果が否定的であった場合に行われる指向性等の制御が記されている。
 具体的には、例えば図4を参照して説明した制御CT1では、ステップS42において判定処理として目的音声がないかが判定される。
 そして制御CT1では、判定結果が肯定的である場合、つまり目的音声がない場合には、ステップS43において指向性が弱められ、逆に判定結果が否定的である場合、つまり目的音声がある場合には、ステップS44において指向性が鋭くなるようにされる。
 これらの制御CT1乃至制御CT5のうち、制御CT1、制御CT2、および制御CT5では、収録したい目的音声の音質劣化や誤抑圧を低減(軽減)させることができる。また、制御CT3および制御CT4では、不要音の抑圧量を向上させることができる。これらの制御CT1乃至制御CT5は、ビームフォーミング処理として、鋭い指向性を形成可能な適応ビームフォーミングを行う場合などに特に有用である。
 なお、図3のステップS14においては、上述の制御CT1乃至制御CT5のうちの1つの制御を単独で行う他、制御CT1乃至制御CT5のうちの任意の2以上のものを組み合わせて記録用音声信号を生成することも勿論可能である。
 例えば制御CT4と、制御CT1乃至制御CT3や制御CT5とを組み合わせた制御を行う場合、目的音声があると判定されたときや、目的音声が複数あると判定されたときであっても、不要音のみの区間であると判定されると、低い音量で記録用音声信号が生成される。
 また、制御CT1乃至制御CT5での目的音声があるかの判定や、不要音のみの区間であるかの判定、目的音声が複数あるかの判定にあたっては、目的音声方向情報とSTFT部52から供給された音声信号のうちの少なくとも何れか一方が用いられると説明した。
 この場合、STFT部52から供給された音声信号、つまり収音により得られた音声信号を用いる手法として、例えば以下に示す判定手法JM1乃至判定手法JM4や、それらの判定手法JM1乃至判定手法JM4のうちの任意のものを組み合わせる手法などが考えられる。
 (判定手法JM1)
 手動で目的とする被写体の方向(角度)を指定し、その方向の音声のパワー値で閾値処理する
 (判定手法JM2)
 手動で目的とする被写体の方向(角度)を指定し、その方向が収音により得られた音声信号に基づく音源の方向推定の結果に近いかを判定する
 (判定手法JM3)
 収音により得られた音声信号に対して音声検知処理を行い、音声の有無を判定する
 (判定手法JM4)
 収音により得られた音声信号に基づく音源の方向推定を行い、その推定結果が所定の方向の範囲から外れていれば不要音であると判定する
 具体的には、判定手法JM1では、ユーザ(撮影者)が入力部26を操作することで、目的とする被写体の方向(角度)または位置を指定する。したがって、目的音声方向情報は、ユーザにより指定された被写体の方向となる。
 ビームフォーミング処理部53は、ビームフォーミング処理の過程において、STFT部52から供給された音声信号に基づき、目的音声方向情報により示される方向から到来する音声のパワー値を求め、得られたパワー値が所定の閾値以上であるか否かを判定する。
 そして、パワー値が所定の閾値以上であると判定された場合に、目的音声方向情報により示される方向から目的音声が到来した、つまり目的音声があるとされる。
 判定手法JM2では、判定手法JM1における場合と同様にして、ユーザにより指定された方向を示す目的音声方向情報が生成される。
 また、ビームフォーミング処理部53は、ビームフォーミング処理の過程において、STFT部52から供給された音声信号に基づいて方向推定を行う。この方向推定によって、音声信号に含まれている音(音声)の到来方向、つまり収音時に音を発していた被写体(音源)の方向が推定結果として得られる。
 ビームフォーミング処理部53は、方向推定の結果として得られた方向と、目的音声方向情報により示される方向とのなす角度を求め、得られた角度が所定の閾値以下である場合に、目的音声方向情報により示される方向から目的音声が到来した、つまり目的音声があるとする。
 判定手法JM3では、収音により得られた音声信号に対して音声検知処理が行われる。音声検知処理では、マイクユニット51により収音された音声信号に音声らしい音が含まれているか否か、換言すれば音声信号に基づく音が音声らしいか否かの判定が行われる。
 具体的には、例えば音声信号処理部23がSTFT部52から出力された音声信号に基づいて、予め学習により得られたDNNによるVAD(Voice Activity Detection)などを音声検知処理として行い、その処理結果をビームフォーミング処理部53に供給する。
 ビームフォーミング処理部53は、音声信号処理部23から供給された音声検知処理の処理結果に基づいて、目的音声の有無を判定する。例えば音声検知処理により音声が検知された場合、すなわち音声らしいと判定された場合、目的音声があるとされる。
 判定手法JM4では、判定手法JM2における場合と同様に、ビームフォーミング処理部53は、ビームフォーミング処理の過程において、音声信号に基づく方向推定を行う。
 そしてビームフォーミング処理部53は、方向推定の結果として得られた方向が、所定の方向の範囲外の方向であった場合、方向推定により示される方向からの音は不要音であるとする。
 ここで、所定の方向の範囲とは、例えば正面方向を含む所定の幅の範囲など、予め定められた範囲であってもよいし、目的音声方向情報により示される方向を含む範囲であってもよいし、予めユーザ等により指定された範囲であってもよい。その他、所定の方向の範囲は、決定された指向軸や指向性幅などから定まる範囲であってもよい。
 上述の制御CT4では、目的音声方向情報と音声信号に基づいて、不要音のみの区間であるかの判定が行われる。
 具体的には、例えば判定手法JM2と判定手法JM4を組み合わせることで、不要音のみの区間であるかの判定を行うことができる。
 この場合、まずはユーザの指定操作や顔認識処理等の結果に基づき、目的音声の方向を示す目的音声方向情報が生成される。そして、得られた目的音声方向情報と、収音により得られた音声信号とに基づいて、判定手法JM2と判定手法JM4により不要音のみの区間であるかが判定される。このとき、方向推定の結果から、目的音声方向情報により示される目的音声の方向とは異なる方向から音が到来している場合、その音は不要音であるとされる。
 判定の結果、不要音のみの区間であるとされた場合には、図7のステップS133の処理が行われ、全体の音量が下げられて、不要音の抑圧効果が高められる。すなわち、不要音の抑圧量の向上が実現される。
〈第2の実施の形態〉
〈撮像処理の説明〉
 ところで、一般的に知られているデジタルカメラ等のカメラシステムとして、顔認識処理を行って、検出された顔の方向に指向性を向ける場合に、検出された顔部分を囲む枠を表示させるものが多数存在する。
 しかし、そのようなカメラシステムで一般的に用いられている固定ビームフォーミングやガンマイクでは、検出された顔の範囲、すなわち表示した枠の範囲のみを収音範囲とするような鋭い指向性を形成することは困難である。そのため、実際の収音範囲が、撮影者のイメージする収音範囲と異なる可能性がある。
 また、例えば指向性の制御に適応ビームフォーミングなど、不要音に対して死角(NULL)を形成可能な方式のビームフォーミング処理では、ガンマイクなどと比べて抑圧量が大きくなる。そのため、実際の収音範囲が、撮影者のイメージする収音範囲と異なると、本来必要な目的音声が誤抑圧されてしまうケースも想定される。
 そこで、収音範囲や、音声が抑圧されている範囲(以下、非収音範囲とも称する)など、収音範囲や非収音範囲に関する表示を行うことで、撮影者が収音範囲や非収音範囲を視覚的に瞬時に把握することができるようにしてもよい。そうすれば、誤抑圧のリスク等を低減させることができるようになる。
 このような収音範囲または非収音範囲に関する表示は、ビームフォーミング処理として、鋭い指向性を実現可能な適応ビームフォーミングなどを行う場合に特に有用である。
 収音範囲または非収音範囲に関する表示を行う場合、撮像装置11は、例えば図10に示す撮像処理を行う。以下、図10のフローチャートを参照して、撮像装置11による撮像処理について説明する。
 なお、ステップS201乃至ステップS204の処理は、図3のステップS11乃至ステップS14の処理と同様であるので、その説明は省略する。
 但し、ステップS204では、ビームフォーミング処理部53は、ビームフォーミング処理の過程で得られた、収音範囲や非収音範囲を特定可能な情報、音声の抑圧量を示す情報などを収音関連情報として表示制御部27に供給する。例えば収音関連情報は、スルー画像の表示に関する処理を行う、表示制御部27を実現するアプリケーションプログラムにメタデータなどで伝送される。
 収音関連情報は、ビームフォーミング処理部53において得られた、マイクロホンアレイ21の指向性の制御に関する情報であり、例えば収音範囲を特定するための指向軸や指向性幅、非収音範囲を特定するための死角方向や音声が抑圧される範囲の幅などとされる。
 ステップS205において表示制御部27は、ビームフォーミング処理部53から供給された収音関連情報に基づいて、表示部28に収音範囲または非収音範囲に関する表示を行わせる。
 具体的には、例えば表示制御部27は、収音関連情報により特定される収音範囲や非収音範囲を示す枠をスルー画像上に重畳表示させたり、記録用音声信号に基づく音声全体の抑圧量、または被写体(方向)ごとの音声の抑圧量をスルー画像上に重畳表示させたりする。このとき、表示制御部27は、必要に応じて画像信号処理部25から顔認識処理の結果や目的音声方向情報などを取得し、収音範囲や非収音範囲に関する表示に利用する。
 ステップS205の処理が行われると、その後、ステップS206およびステップS207の処理が行われて撮像処理は終了するが、これらの処理は図3のステップS15およびステップS16の処理と同様であるので、その説明は省略する。
 以上のようにして撮像装置11は、動画像の撮像時に収音関連情報に基づき、収音範囲や非収音範囲に関する表示を行う。このようにすることで、撮影者(ユーザ)に対して、収音範囲や非収音範囲を視覚的に分かりやすく提示することができる。これにより、誤抑圧の発生等を低減させ、音声劣化の少ない高品質な音声を得ることができる。
〈収音範囲または非収音範囲に関する表示の例〉
 ここで、図11乃至図13を参照して、図10のステップS205で表示される収音範囲または非収音範囲に関する表示の具体的な例について説明する。なお、図13において図11または図12における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図11には、収音範囲が提示される場合の例が示されている。
 具体的には、図11の左側には、収音範囲を枠表示する例が示されている。
 この例では、表示部28の表示画面にスルー画像に重畳されて、収音範囲となる領域を示す枠K11が表示されている。例えば収音範囲に含まれている被写体(音源)が枠K11により囲まれるようにすることができる。
 ここでは、収音範囲を表す所定の色の枠K11が、スルー画像上における目的とする被写体、すなわち目的音声の音源を囲むように表示されている。そのため、撮影者(ユーザ)は枠K11の表示を見ることで、その枠K11内の領域が収音範囲となっていることを視覚的に瞬時に把握することができる。
 同様に、図11の中央には、収音範囲を指向性ビーム図で表示する例が示されている。
 この例では、スルー画像に重畳して表示されている所定の色の領域K12が、収音範囲となる指向性ビームの範囲、すなわち収音された音声が強調される領域の範囲を表している。特に、領域K12の向けられた方向が指向軸の方向を表しており、領域K12の幅が指向性幅に対応している。
 図11の右側には、収音範囲を画面端での指向性模式図で表示する例が示されている。
 この例では、スルー画像に重畳されて、表示画面の端部分に撮像装置11を表すカメラの模式図K13と、そのカメラの模式図K13の部分を起点とする指向性ビームの範囲(方向)を模式的に表す所定の色の領域K14とが表示されている。図中、中央に示した例と同様に、領域K14の向けられた方向が指向軸の方向を表しており、領域K14の幅が指向性幅に対応している。
 なお、収音範囲に関する表示は、図11に示した例に限らず、指向性を表すポーラパターン、収音対象の音源となる被写体、つまり目的とする被写体の位置や方向(角度)を示す表示など、他のどのような表示であってもよい。
 図12には、非収音範囲に関する表示の例として、非収音範囲や不要音等の抑圧量が提示される場合の例が示されている。
 具体的には、図12の左側には、非収音範囲を枠表示する例が示されている。
 この例では、表示部28の表示画面にスルー画像に重畳されて、非収音範囲となる領域を示す枠K31が表示されている。
 この枠K31内の領域は、非収音範囲となる音声の抑圧量が大きい範囲となっており、例えば収音範囲外にある被写体(音源)を囲むように枠K31が表示される。また、例えば非収音範囲を表す枠K31は点滅表示されるなど、図11に示した収音範囲を表す枠K11とは異なる表示形式で表示されている。
 撮影者(ユーザ)は枠K31の表示を見ることで、その枠K31内の領域が非収音範囲となっていることを視覚的に瞬時に把握することができる。したがって、撮影者は、目的とする被写体が枠K31内に位置しないように画角調整や目的音声の方向の指定操作等を行うようにすれば、目的音声が誤って抑圧されてしまうことを抑制することができる。
 図12の中央には、ビームフォーミング処理による音声の抑圧量が被写体(音源)ごとにdB値で表示される例が示されている。すなわち、記録用音声信号における被写体(音源)ごとの音声の抑圧量が表示されている。
 この例では、スルー画像上には音源となる被写体として2人の人物が含まれており、それらの各人物の近傍に各人物の方向からの音声の抑圧量がスルー画像に重畳されて表示されている。
 例えば、図中、左側の人物の上側には抑圧量「-12.3dB」が表示されているため、撮影者は、この人物により発せられた音声が大きく抑圧されていること、すなわち非収音範囲内に人物が位置していることを瞬時に把握することができる。
 同様に、例えば、図中、右側の人物の上側には抑圧量「-0.1dB」が表示されているため、撮影者は、この人物により発せられた音声の抑圧量が小さい、すなわち非収音領域外(収音領域内)に人物が位置していることを瞬時に把握することができる。
 特に、この例では抑圧量の大きさによって、その抑圧量を示すdB値が異なる色など、異なる表示形式で表示される。そのため、抑圧量「-12.3dB」と抑圧量「-0.1dB」とは異なる色で表示されており、撮影者は、抑圧量「-12.3dB」が大きいことを瞬時に把握できる。
 図12の右側には、ビームフォーミング処理による記録用音声信号に基づく音声全体の抑圧量を表す抑圧レベルメータが表示される例が示されている。
 この例では、表示部28の表示画面における下側にスルー画像に重畳されて抑圧レベルメータK32とともに、その抑圧レベルメータK32により示される記録用音声信号に基づく音声全体の抑圧量を示すdB値「-4.5dB」が表示されている。
 したがって、撮影者は、抑圧レベルメータK32や抑圧量を示すdB値を見ることで、収録される音声がどの程度抑圧されているかを瞬時に視覚的に把握することができる。
 なお、非収音範囲や音声の抑圧量を示す表示は、図12に示した例に限らず、収音(収録)の対象外となる被写体(音源)、つまり目的外であり、音声が抑圧される被写体の位置や方向(角度)を示す表示など、他のどのような表示であってもよい。
 さらに、図11に示した収音範囲を表す表示と、図12に示した非収音範囲や抑圧量を表す表示とを組み合わせて、それらの表示が同時に行われるようにしてもよい。そのような場合の表示例を図13に示す。
 図13の左側には、図11の左側に示した収音範囲を表す枠K11と、図12の左側に示した非収音範囲を表す枠K31とがスルー画像に重畳されて同時に表示される例が示されている。例えば枠K11と枠K31とを異なる色で表示するなど、互いに異なる表示形式で表示させるようにしてもよい。この例では、撮影者は、収音範囲となる領域だけでなく、非収音範囲となる領域も同時に把握することができる。
 図13の中央には、図11の左側に示した収音範囲を表す枠K11と、図12の中央に示したビームフォーミング処理による各被写体(方向)からの音声の抑圧量のdB値とがスルー画像に重畳されて同時に表示される例が示されている。この例では、撮影者は、収音範囲となる領域だけでなく、各方向からの音声の抑圧量も把握することができる。
 図13の右側には、図11の右側に示したカメラの模式図K13および指向性ビームの範囲を模式的に表す領域K14と、図12の右側に示した抑圧レベルメータK32および抑圧量のdB値とがスルー画像に重畳されて同時に表示される例が示されている。この例では、撮影者は、収音範囲となる方向や領域だけでなく、音声の抑圧量も把握することができる。
 以上のように、図11乃至図13の各例の表示を行うことで、撮影者(ユーザ)に対して、収音範囲や非収音範囲(音声が抑圧されている範囲)を視覚的に分かりやすく提示することができる。これにより、誤抑圧や撮影ミスを低減させることができる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。
 図14は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホンアレイ、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 複数のマイクユニットを有し、周囲の音を収音するマイクロホンアレイと、
 目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くする音声信号処理部と
 を備える音声処理装置。
(2)
 前記音声信号処理部は、前記目的音がない場合、前記音声信号の一部または全部の周波数帯域成分のゲインを小さくする
 (1)に記載の音声処理装置。
(3)
 前記音声信号処理部は、前記目的音がない場合、前記マイクロホンアレイの指向軸の方向を正面方向または予め定められた方向とする
 (1)または(2)に記載の音声処理装置。
(4)
 前記音声信号処理部は、前記目的音方向情報および前記音声信号に基づいて、不要音のみの区間であるかを判定し、前記不要音のみの区間である場合、前記音声信号の一部または全部の周波数帯域成分のゲインを小さくする
 (1)乃至(3)の何れか一項に記載の音声処理装置。
(5)
 前記音声信号処理部は、前記目的音が複数ある場合、前記目的音が1つである場合よりも前記マイクロホンアレイの指向性を弱くする
 (1)乃至(4)の何れか一項に記載の音声処理装置。
(6)
 前記音声信号処理部は、前記目的音がない場合、前記マイクロホンアレイの指向性を全指向性とする
 (1)乃至(5)の何れか一項に記載の音声処理装置。
(7)
 前記音声信号処理部は、前記音声信号に対するビームフォーミング処理により、前記マイクロホンアレイの指向性を変化させる
 (1)乃至(6)の何れか一項に記載の音声処理装置。
(8)
 前記音声信号処理部は、前記ビームフォーミング処理として適応ビームフォーミングを行う
 (7)に記載の音声処理装置。
(9)
 前記目的音方向情報は、ユーザにより指定された位置または方向に基づき生成される
 (1)乃至(8)の何れか一項に記載の音声処理装置。
(10)
 前記目的音方向情報は、前記マイクロホンアレイによる収音と同時に行われた撮像部での撮像により得られた画像信号に対する画像処理の結果に基づき生成される
 (1)乃至(8)の何れか一項に記載の音声処理装置。
(11)
 前記画像処理は、顔認識処理、瞳検出処理、または動体検出処理である
 (10)に記載の音声処理装置。
(12)
 前記音声信号処理部における前記マイクロホンアレイの指向性の制御に関する情報に基づいて、前記マイクロホンアレイの収音範囲または非収音範囲に関する表示を行わせる表示制御部をさらに備える
 (1)乃至(11)の何れか一項に記載の音声処理装置。
(13)
 前記表示制御部は、前記収音範囲となる領域を示す表示を行わせる
 (12)に記載の音声処理装置。
(14)
 前記表示制御部は、前記非収音範囲となる領域を示す表示を行わせる
 (12)または(13)に記載の音声処理装置。
(15)
 前記表示制御部は、前記音声信号に基づく音声全体の抑圧量、または前記音声信号における被写体ごとの音声の抑圧量を表示させる
 (12)乃至(14)の何れか一項に記載の音声処理装置。
(16)
 音声処理装置が、
 複数のマイクユニットを有するマイクロホンアレイにより周囲の音を収音し、
 目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くする
 音声処理方法。
(17)
 複数のマイクユニットを有するマイクロホンアレイにより周囲の音を収音させ、
 目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くする
 ステップを含む処理をコンピュータに実行させるプログラム。
(18)
 目的音の到来方向を示す目的音方向情報と、複数のマイクユニットを有するマイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記マイクロホンアレイの指向性を制御する音声信号処理部において得られた、前記マイクロホンアレイの指向性の制御に関する情報に基づいて、前記マイクロホンアレイの収音範囲または非収音範囲に関する表示を行わせる表示制御部を備える
 情報処理装置。
 11 撮像装置, 21 マイクロホンアレイ, 23 音声信号処理部, 24 撮像部, 25 画像信号処理部, 26 入力部, 27 表示制御部, 28 表示部, 29 記録制御部, 52-1乃至52-N,52 STFT部, 53 ビームフォーミング処理部, 54 IFFT部

Claims (18)

  1.  複数のマイクユニットを有し、周囲の音を収音するマイクロホンアレイと、
     目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くする音声信号処理部と
     を備える音声処理装置。
  2.  前記音声信号処理部は、前記目的音がない場合、前記音声信号の一部または全部の周波数帯域成分のゲインを小さくする
     請求項1に記載の音声処理装置。
  3.  前記音声信号処理部は、前記目的音がない場合、前記マイクロホンアレイの指向軸の方向を正面方向または予め定められた方向とする
     請求項1に記載の音声処理装置。
  4.  前記音声信号処理部は、前記目的音方向情報および前記音声信号に基づいて、不要音のみの区間であるかを判定し、前記不要音のみの区間である場合、前記音声信号の一部または全部の周波数帯域成分のゲインを小さくする
     請求項1に記載の音声処理装置。
  5.  前記音声信号処理部は、前記目的音が複数ある場合、前記目的音が1つである場合よりも前記マイクロホンアレイの指向性を弱くする
     請求項1に記載の音声処理装置。
  6.  前記音声信号処理部は、前記目的音がない場合、前記マイクロホンアレイの指向性を全指向性とする
     請求項1に記載の音声処理装置。
  7.  前記音声信号処理部は、前記音声信号に対するビームフォーミング処理により、前記マイクロホンアレイの指向性を変化させる
     請求項1に記載の音声処理装置。
  8.  前記音声信号処理部は、前記ビームフォーミング処理として適応ビームフォーミングを行う
     請求項7に記載の音声処理装置。
  9.  前記目的音方向情報は、ユーザにより指定された位置または方向に基づき生成される
     請求項1に記載の音声処理装置。
  10.  前記目的音方向情報は、前記マイクロホンアレイによる収音と同時に行われた撮像部での撮像により得られた画像信号に対する画像処理の結果に基づき生成される
     請求項1に記載の音声処理装置。
  11.  前記画像処理は、顔認識処理、瞳検出処理、または動体検出処理である
     請求項10に記載の音声処理装置。
  12.  前記音声信号処理部における前記マイクロホンアレイの指向性の制御に関する情報に基づいて、前記マイクロホンアレイの収音範囲または非収音範囲に関する表示を行わせる表示制御部をさらに備える
     請求項1に記載の音声処理装置。
  13.  前記表示制御部は、前記収音範囲となる領域を示す表示を行わせる
     請求項12に記載の音声処理装置。
  14.  前記表示制御部は、前記非収音範囲となる領域を示す表示を行わせる
     請求項12に記載の音声処理装置。
  15.  前記表示制御部は、前記音声信号に基づく音声全体の抑圧量、または前記音声信号における被写体ごとの音声の抑圧量を表示させる
     請求項12に記載の音声処理装置。
  16.  音声処理装置が、
     複数のマイクユニットを有するマイクロホンアレイにより周囲の音を収音し、
     目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くする
     音声処理方法。
  17.  複数のマイクユニットを有するマイクロホンアレイにより周囲の音を収音させ、
     目的音の到来方向を示す目的音方向情報と、前記マイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記目的音の有無を判定し、前記目的音がない場合、前記目的音がある場合よりも前記マイクロホンアレイの指向性を弱くする
     ステップを含む処理をコンピュータに実行させるプログラム。
  18.  目的音の到来方向を示す目的音方向情報と、複数のマイクユニットを有するマイクロホンアレイでの収音により得られた音声信号との少なくとも何れか一方に基づいて前記マイクロホンアレイの指向性を制御する音声信号処理部において得られた、前記マイクロホンアレイの指向性の制御に関する情報に基づいて、前記マイクロホンアレイの収音範囲または非収音範囲に関する表示を行わせる表示制御部を備える
     情報処理装置。
PCT/JP2023/017329 2022-05-25 2023-05-08 音声処理装置および方法、情報処理装置、並びにプログラム WO2023228713A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022085381 2022-05-25
JP2022-085381 2022-05-25

Publications (1)

Publication Number Publication Date
WO2023228713A1 true WO2023228713A1 (ja) 2023-11-30

Family

ID=88918967

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/017329 WO2023228713A1 (ja) 2022-05-25 2023-05-08 音声処理装置および方法、情報処理装置、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2023228713A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010278725A (ja) * 2009-05-28 2010-12-09 Sanyo Electric Co Ltd 画像音響処理装置及び撮像装置
JP2020156076A (ja) * 2019-03-13 2020-09-24 パナソニックIpマネジメント株式会社 撮像装置
JP2022003753A (ja) * 2020-06-23 2022-01-11 パナソニックIpマネジメント株式会社 撮像装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010278725A (ja) * 2009-05-28 2010-12-09 Sanyo Electric Co Ltd 画像音響処理装置及び撮像装置
JP2020156076A (ja) * 2019-03-13 2020-09-24 パナソニックIpマネジメント株式会社 撮像装置
JP2022003753A (ja) * 2020-06-23 2022-01-11 パナソニックIpマネジメント株式会社 撮像装置

Similar Documents

Publication Publication Date Title
CN106782584B (zh) 音频信号处理设备、方法和电子设备
US9197974B1 (en) Directional audio capture adaptation based on alternative sensory input
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
US10848889B2 (en) Intelligent audio rendering for video recording
RU2663343C2 (ru) Система, устройство и способ для совместимого воспроизведения акустической сцены на основе адаптивных функций
US9210503B2 (en) Audio zoom
US9226070B2 (en) Directional sound source filtering apparatus using microphone array and control method thereof
JP6703525B2 (ja) 音源を強調するための方法及び機器
US8638961B2 (en) Hearing aid algorithms
JP4934968B2 (ja) カメラ装置、カメラ制御プログラム及び記録音声制御方法
JP5581329B2 (ja) 会話検出装置、補聴器及び会話検出方法
JP2015019371A5 (ja)
JP2015019371A (ja) オーディオ処理装置
EP2238592A2 (en) Method for reducing noise in an input signal of a hearing device as well as a hearing device
JP2006261900A (ja) 撮像装置、撮像制御プログラム
CN115482830B (zh) 语音增强方法及相关设备
WO2022253003A1 (zh) 语音增强方法及相关设备
CN111078185A (zh) 录制声音的方法及设备
US20210289300A1 (en) Source separation in hearing devices and related methods
JP5998483B2 (ja) 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体
JP2010506526A (ja) 補聴器の動作方法、および補聴器
WO2023228713A1 (ja) 音声処理装置および方法、情報処理装置、並びにプログラム
US20230300553A1 (en) Audio signal processing method and audio signal processing device
US20230360662A1 (en) Method and device for processing a binaural recording
CN116055869A (zh) 一种视频处理方法和终端

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23811588

Country of ref document: EP

Kind code of ref document: A1