WO2019130909A1 - 撮像装置及びその制御方法及び記録媒体 - Google Patents

撮像装置及びその制御方法及び記録媒体 Download PDF

Info

Publication number
WO2019130909A1
WO2019130909A1 PCT/JP2018/042696 JP2018042696W WO2019130909A1 WO 2019130909 A1 WO2019130909 A1 WO 2019130909A1 JP 2018042696 W JP2018042696 W JP 2018042696W WO 2019130909 A1 WO2019130909 A1 WO 2019130909A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
imaging
microphone
unit
voice
Prior art date
Application number
PCT/JP2018/042696
Other languages
English (en)
French (fr)
Inventor
悠貴 辻本
飯田 吉信
Original Assignee
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2018207633A external-priority patent/JP7292853B2/ja
Application filed by キヤノン株式会社 filed Critical キヤノン株式会社
Priority to CN201880084139.5A priority Critical patent/CN111527446B/zh
Publication of WO2019130909A1 publication Critical patent/WO2019130909A1/ja
Priority to US16/910,649 priority patent/US11503213B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B15/00Special procedures for taking photographs; Apparatus therefor
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B17/00Details of cameras or camera bodies; Accessories therefor
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B17/00Details of cameras or camera bodies; Accessories therefor
    • G03B17/38Releasing-devices separate from shutter
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B17/00Details of cameras or camera bodies; Accessories therefor
    • G03B17/56Accessories
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/65Control of camera operation in relation to power supply
    • H04N23/651Control of camera operation in relation to power supply for reducing power consumption by affecting camera operations, e.g. sleep mode, hibernation mode or power off of selective parts of the camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S19/00Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
    • G01S19/38Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system
    • G01S19/39Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system the satellite radio beacon positioning system transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
    • G01S19/42Determining position
    • G01S19/48Determining position by combining or switching between position solutions derived from the satellite radio beacon positioning system and position solutions derived from a further system
    • G01S19/49Determining position by combining or switching between position solutions derived from the satellite radio beacon positioning system and position solutions derived from a further system whereby the further system is an inertial position system, e.g. loosely-coupled
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S19/00Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
    • G01S19/38Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system
    • G01S19/39Determining a navigation solution using signals transmitted by a satellite radio beacon positioning system the satellite radio beacon positioning system transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
    • G01S19/53Determining attitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Definitions

  • the present invention relates to an imaging device, a control method thereof, and a recording medium.
  • an imaging device such as a camera
  • Such an imaging apparatus is provided with a function of detecting a user's operation error and notifying the user, or detecting an external environment and notifying the user when it is not suitable for photographing.
  • the obtained image may be irrelevant to the user's intention.
  • the present invention has been made in view of the above problems, and an object of the present invention is to provide a technique for capturing an image of a composition intended by a user at a timing intended by the user without performing a special operation.
  • the imaging device of the present invention has the following configuration. That is, Imaging means, Sound collection means for collecting sound, Detection means for detecting whether the sound collected by the sound collection means is greater than a predetermined sound pressure; Recognition means for recognizing that the sound collected by the sound collection means is a sound instructing shooting by the image pickup means; When the voice collected by the sound collection means is detected as being larger than the predetermined sound pressure by the detection means, and is recognized as the voice instructing the photographing by the image pickup means by the recognition means, the imaging It is characterized in that photographing by means is performed.
  • FIG. 1 is a block diagram of an imaging device according to an embodiment.
  • FIG. 2 is a detailed block diagram of an audio input unit and an audio signal processing unit according to the embodiment.
  • FIG. 6 is a flowchart showing the processing procedure of the central control unit in the embodiment.
  • voice command. 7 is a timing chart from start up to operation shooting start command in the embodiment.
  • the figure for demonstrating the sound direction detection method which concerns on embodiment.
  • the figure for demonstrating the sound direction detection method which concerns on embodiment.
  • the figure for demonstrating the sound direction detection method which concerns on embodiment.
  • the figure for demonstrating the detection method in case the sound source exists right above an imaging device.
  • FIG. 8 is a view for explaining
  • FIG. 1 is a block diagram of an imaging device 1 according to the first embodiment.
  • the imaging apparatus 1 includes an optical lens unit, a movable imaging unit 100 that can change the imaging direction (optical axis direction) to be imaged, and drive control of the movable imaging unit 100 and a central control unit (CPU And the support portion 200 including the
  • the support unit 200 is provided such that the plurality of vibrators 11 to 13 including the piezoelectric element are in contact with the surface of the movable imaging unit 100.
  • the movable imaging unit 100 By controlling the vibration of the vibrators 11 to 13, the movable imaging unit 100 performs pan and tilt operations.
  • the pan and tilt operations may be realized by a servomotor or the like.
  • the movable imaging unit 100 includes a lens unit 101, an imaging unit 102, a lens actuator control unit 103, and an audio input unit 104.
  • the lens unit 101 is configured of a photographing optical system such as a zoom lens, an aperture / shutter, and a focuser lens.
  • the imaging unit 102 includes an imaging element such as a CMOS sensor or a CCD sensor, photoelectrically converts an optical image formed by the lens unit 101, and outputs an electric signal.
  • the lens actuator control unit 103 includes a motor driver IC, and drives various actuators such as the zoom lens, the aperture / shutter, and the focus lens of the lens unit 101. The various actuators are driven based on actuator drive instruction data received from the central control unit 201 in the support unit 200 described later.
  • the voice input unit 104 is a voice input unit including a microphone (hereinafter referred to as a microphone) and is constituted by a plurality of microphones (four in this embodiment), converts voice into an electrical signal, and further converts the electrical signal into a digital signal (voice Convert to data) and output.
  • a microphone hereinafter referred to as a microphone
  • the voice input unit 104 converts voice into an electrical signal, and further converts the electrical signal into a digital signal (voice Convert to data) and output.
  • the support unit 200 has a central control unit 201 for controlling the entire imaging device 1.
  • the central control unit 201 includes a CPU, a ROM storing a program executed by the CPU, and a RAM used as a work area of the CPU.
  • the support unit 200 includes an imaging signal processing unit 202, a video signal processing unit 203, an audio signal processing unit 204, an operation unit 205, a storage unit 206, and a display unit 207.
  • the support unit 200 includes the input / output terminal unit 208, the audio reproduction unit 209, the power supply unit 210, the power supply control unit 211, the position detection unit 212, the rotation control unit 213, the wireless communication unit 214, and the vibration described above. It has bodies 11-13.
  • the imaging signal processing unit 202 converts the electrical signal output from the imaging unit 102 of the movable imaging unit 100 into a video signal.
  • the video signal processing unit 203 processes the video signal output from the imaging signal processing unit 202 according to the application.
  • the processing of the video signal includes image cutout, electronic vibration reduction operation by rotational processing, and subject detection processing for detecting a subject (face).
  • the audio signal processing unit 204 performs audio processing on the digital signal output from the audio input unit 104. If the audio input unit 104 is a microphone that outputs an analog signal, the audio signal processing unit 204 may include a configuration for converting an analog signal into a digital signal. The details of the audio signal processing unit 204 including the audio input unit 104 will be described later with reference to FIG.
  • the operation unit 205 functions as a user interface between the imaging apparatus 1 and the user, and includes various switches, buttons, and the like.
  • the storage unit 206 stores various data such as video information obtained by shooting.
  • the display unit 207 includes a display such as an LCD, and displays an image as needed based on the signal output from the video signal processing unit 203. Further, the display unit 207 functions as a part of the user interface by displaying various menus and the like.
  • An external input / output terminal unit 208 inputs and outputs communication signals and video signals to and from an external device.
  • the sound reproduction unit 209 includes a speaker, converts sound data into an electric signal, and reproduces sound.
  • the power supply unit 210 is a power supply source necessary for driving the entire imaging device (each element), and in this embodiment, is a rechargeable battery.
  • the power supply control unit 211 controls supply / shutoff of power from the power supply unit 210 to the above-described components in accordance with the state of the imaging device 1. Depending on the state of the imaging device 1, there are unused elements. Under the control of the central control unit 201, the power supply control unit 211 performs a function of suppressing power consumption by interrupting the power to the unused elements according to the state of the imaging device 1. The power supply / cutoff will be clarified from the description to be described later.
  • the position detection unit 212 is configured by a gyro, an acceleration sensor, a GPS, or the like, and detects the movement of the imaging device 1.
  • the position detection unit 212 is to cope with the case where the imaging device 1 wears on the user.
  • the rotation control unit 213 generates and outputs a signal for driving the vibrators 11 to 13 in accordance with an instruction from the central control unit 201.
  • the vibrators 11 to 13 are formed of piezoelectric elements, and vibrate in accordance with the drive signal applied from the rotation control unit 213.
  • the vibrators 11 to 13 constitute a rotational drive unit (pan and tilt drive unit). As a result, the movable imaging unit 100 pans and tilts in the direction instructed by the central control unit 201.
  • the wireless unit 214 transmits data such as picture data in accordance with a wireless standard such as WiFi (registered trademark) or BLE (Bluetooth (registered trademark) Low Energy).
  • a wireless standard such as WiFi (registered trademark) or BLE (Bluetooth (registered trademark) Low Energy).
  • FIG. 1 shows the configuration of the audio input unit 104 and the audio signal processing unit 204, and the connection relationship of the audio signal processing 204, the central control unit 201 and the power control unit 211.
  • the voice input unit 104 is configured of four nondirectional microphones (a microphone 104a, a microphone 104b, a microphone 104c, and a microphone 104d). Each microphone has a built-in A / D converter, picks up voice at a preset sampling rate (command detection, direction detection processing: 16 kHz, video recording: 48 kHz), and picks up the sound with the built-in A / D converter The output audio signal is output as digital audio data.
  • the voice input unit 104 is configured by four digital microphones in the present embodiment, it may be configured by an analog output microphone. In the case of an analog microphone, a corresponding A / D converter may be provided in the audio signal processing unit 204. Further, although the number of microphones in this embodiment is four, it may be three or more.
  • the microphone 104 a When the power of the imaging device 1 is ON, the microphone 104 a is unconditionally supplied with power, and can be in a sound collecting enabled state.
  • the other microphones 104b, 104c, and 104d are targets of power supply / shutdown by the power control unit 211 under the control of the central control unit 201, and the power of the imaging apparatus 1 is initially turned on. In the state, the power is cut off.
  • the audio signal processing unit 204 includes a sound pressure level detection unit 2041, an audio memory 2042, an audio command recognition unit 2043, an audio direction detection unit 2044, a moving image audio processing unit 2045, and a command memory 2046.
  • the sound pressure level detection unit 2041 supplies a signal representing sound detection to the power control unit 211 and the sound memory 2042 when the sound pressure level of the sound data output from the microphone 104 a exceeds a preset threshold.
  • the power control unit 211 When the power control unit 211 receives a signal representing voice detection from the sound pressure level detection unit 2041, the power control unit 211 supplies power to the voice command recognition unit 2043.
  • the voice memory 2042 is one of the targets of power supply / cutoff by the power control unit 211 under the control of the central control unit 201.
  • the voice memory 2042 is a buffer memory that temporarily stores voice data output from the microphone 104a. If the sampling rate by the microphone 104a is 16 kHz, and 2 bytes (16 bits) of voice data are output per sampling, and the longest voice command is 5 seconds, the voice memory 2042 is approximately 160 kilobytes ( ⁇ It has a capacity of 5 ⁇ 16 ⁇ 1000 ⁇ 2). Also, when the voice memory 2042 is filled with voice data from the microphone 104a, old voice data is overwritten with new voice data. As a result, the voice memory 2042 holds voice data of the latest predetermined period (about 5 seconds in the above example). Further, the voice memory 2042 stores voice data from the microphone 104a in the sampling data area, triggered by the reception of the signal indicating voice detection from the sound pressure level detection unit 2041.
  • the command memory 2046 is configured by a non-volatile memory, and stores (registers) information related to a voice command recognized by the imaging device in advance. Although the details will be described later, the types of voice commands stored in the command memory 2046 are as shown in FIG. 8, for example, and information of a plurality of types of commands including the “start command” is stored in the command memory 2046 .
  • the voice command recognition unit 2043 is one of the targets of power supply / cutoff by the power control unit 211 under the control of the central control unit 201. Note that the speech recognition itself is a well-known technology, so the description here is omitted.
  • the voice command recognition unit 2043 refers to the command memory 2046 and performs recognition processing of voice data stored in the voice memory 2042. Then, the voice command recognition unit 2043 determines whether the voice data collected by the microphone 104 a is a voice command and whether it matches the voice command stored in the command memory 2046.
  • the central control unit 201 is supplied with the addresses of the first and last voice data (or the timing at which the voice command is accepted) for which the voice command has been determined.
  • the sound direction detection unit 2044 is one of the targets of the power supply / cutoff by the power control unit 211 under the control of the central control unit 201. Further, the sound direction detection unit 2044 periodically detects the direction in which the sound source is present, based on the audio data from the four microphones 104a to 104d.
  • the sound direction detection unit 2044 has a buffer memory 2044a inside, and stores information representing the detected sound source direction in the buffer memory 2044a.
  • the period (for example, 16 kHz) at which the sound direction detection processing by the sound direction detection unit 2044 is performed may be sufficiently long with respect to the sampling period of the microphone 104a.
  • the buffer memory 2044 a has a capacity for storing sound direction information for the same period as that of audio data that can be stored in the audio memory 2042.
  • the moving image audio processing unit 2045 is one of the targets of power supply / cutoff by the power control unit 211 under the control of the central control unit 201.
  • the moving image audio processing unit 2045 inputs two audio data of the microphone 103a and the microphone 104b among the four microphones as stereo audio data, and performs various filter processing, window cut, stereo feeling enhancement, drive sound removal, ALC (Auto Performs audio processing for video and audio such as Level Control) and compression processing.
  • ALC Auto Performs audio processing for video and audio such as Level Control
  • the microphone 104a functions as an L channel microphone of a stereo microphone
  • the microphone 104b functions as an R channel microphone.
  • each microphone of the audio input unit 104 and each block included in the audio signal processing unit 204 indicates the minimum necessary connection among the four microphones in consideration of power consumption and circuit configuration. However, as long as the power and the circuit configuration allow, a plurality of microphones may be shared and used in each block included in the audio signal processing unit 204. Further, in the present embodiment, the microphone 104a is connected as a reference microphone, but any microphone may be used as a reference.
  • FIG. 3A shows a top view and a front view of the appearance of the imaging device 1 according to the present embodiment.
  • the movable imaging unit 100 of the imaging device 1 is substantially hemispherical, and a plane parallel to the bottom surface is a horizontal plane, and when this plane is at 0 degrees, a notch window in the range of -20 degrees to 90 degrees indicating the vertical direction is used. It has the 1st housing
  • the movable imaging unit 100 is configured such that the second casing 151 is rotatable along with the lens unit 101 and the imaging unit 102 within a range from horizontal to vertical indicated by the arrow B shown along the notch window.
  • the turning operation of the arrow A of the first casing 150 corresponds to the pan operation
  • the turning operation of the arrow B of the second casing 151 corresponds to the tilting operation, and these are driven by the driving of the vibrators 11 to 13. It has been realized.
  • the tiltable range of the imaging device in the present embodiment is a range of -20 degrees to +90 degrees.
  • the microphones 104 a and 104 b are disposed at front side positions sandwiching the cutout window of the first housing 150.
  • the microphones 104 c and 104 d are provided on the rear side of the first housing 150.
  • the microphone for the lens unit 101 and the imaging unit 102 The relative positions of 104a and 104b do not change. That is, the microphone 104a is always positioned on the left side with respect to the imaging direction of the imaging unit 102, and the microphone 104b is always positioned on the right side.
  • the microphones 104a and 104b are arranged symmetrically with respect to the imaging direction of the imaging unit 102, the microphone 104a bears an input to the L channel of the stereo microphone, and the microphone 104b has an input to the R channel of the stereo microphone Bear. Therefore, the space represented by the image obtained by imaging by the imaging unit 102 and the sound field acquired by the microphones 104a and 104b can maintain a constant relationship.
  • the four microphones 104a, 104b, 104c, and 103d in the present embodiment are disposed at the positions of the vertices of a rectangle as shown in FIG. 3A as viewed from the top surface of the imaging device 1. Moreover, although these four microphones shall be located on one horizontal surface in FIG. 3A, there may be some deviations.
  • the distance between the microphones 104a and 104b is larger than the distance between the microphones 104a and 104c.
  • the distance between adjacent microphones is preferably about 10 mm to 30 mm.
  • the number of microphones is four in this embodiment, the number of microphones may be three or more as long as the condition that they are not aligned on a straight line is satisfied.
  • the arrangement positions of the microphones 104a to 104d in FIG. 3A are one example, and the arrangement method of these may be appropriately changed due to reasons such as mechanical restriction and design restriction.
  • FIG. 3B to 3E show usage modes of the imaging device 1 in the present embodiment.
  • FIG. 3B is a diagram for describing a use form intended to shoot the photographer himself or a subject around the photographer when the imaging device 1 is placed on a desk or the like.
  • FIG. 3C is an example in which the imaging device 1 is hung on the neck of the photographer, and is a view mainly for explaining a use form aiming at photographing in front of the photographer's action.
  • FIG. 3D is a usage example in which the imaging device 1 is fixed to the shoulder of the photographer, and is a diagram for describing a usage form for photographing around the photographer's surroundings, and to the right.
  • FIG. 3B is a diagram for describing a use form intended to shoot the photographer himself or a subject around the photographer when the imaging device 1 is placed on a desk or the like.
  • FIG. 3C is an example in which the imaging device 1 is hung on the neck of the photographer, and is a view mainly for explaining a use form
  • 3E is a usage example which fixes the imaging device 1 to the end of the rod which a user holds, and moves the imaging device 1 to the desired imaging
  • 4a of FIG. 4 shows a state in which the lens unit 101 is directed horizontally.
  • the first housing 150 is pan-operated 90 degrees counterclockwise as viewed from above, it becomes as shown by 4b of FIG.
  • the 90 ° tilt operation of the second housing 151 is performed from the initial state of 4a of FIG. 4, it becomes as shown by 4c of FIG.
  • the pivoting of the first housing 150 and the second housing 151 is realized by the vibration of the vibrators 11 to 13 driven by the pivot control unit 213 as described above.
  • the process according to the figure shows the process of the central control unit 201 when the main power supply of the imaging device 1 is turned on.
  • the central control unit 201 performs initialization processing of the imaging device 1 in step S101. In this initialization process, the central control unit 201 determines the directional component in the horizontal plane in the imaging direction of the imaging unit 102 of the movable imaging unit 100 as the reference angle (0 degree) of the pan operation.
  • the component of the horizontal plane in the imaging direction after the panning operation of the movable imaging unit 100 is represented by a relative angle from this reference angle. Further, the component of the horizontal surface in the sound source direction detected by the sound direction detection unit 2044 is also represented by an angle relative to the reference angle. Further, although the details will be described later, the sound direction detection unit 2044 also determines whether or not there is a sound source in the direction directly above the imaging device 1 (the axial direction of the rotation axis of pan operation).
  • the power to the audio memory 2042, the sound direction detection unit 2044, the moving image audio processing unit 2045, and the microphones 104b to 104d is shut off.
  • the central control unit 201 controls the power supply control unit 211 in step S102 to start the supply of power to the sound pressure level detection unit 2041 and the microphone 104a.
  • the sound pressure level detection unit 2041 executes processing for detecting the sound pressure level of the sound before being converted to the sound data based on the sound data output from the microphone 104a, and this sound is set in advance. If it is determined that the sound pressure level exceeds the threshold, the central control unit 201 is notified of that.
  • the threshold is, for example, 60 dB SPL (Sound Pressure Level), but may be changed according to the environment or the like by the imaging device 1 or may be narrowed to only a necessary frequency band.
  • step S103 the central control unit 201 waits for detection of a sound whose sound pressure level exceeds the threshold value of the sound pressure level detection unit 2041.
  • the voice memory 2042 starts receiving and storing voice data from the microphone 104a in step S104.
  • step S105 the central control unit 201 controls the power supply control unit 211 to start power supply to the voice command recognition unit 2043.
  • the voice command recognition unit 2043 starts recognition processing of voice data stored in the voice memory 2042 with reference to the command memory 2046.
  • the voice command recognition unit 2043 performs recognition processing of voice data stored in the voice memory 2042, and when it recognizes a voice command as coincident with any voice command in the command memory 2046, the recognized voice
  • the central control unit 201 is notified of information including information for specifying a command and information on the address of the first and last voice data (or timing for receiving the voice command) in the voice memory 2042 for which the recognized voice command is determined. Do.
  • step S106 central control unit 201 determines whether or not the information indicating that the voice command has been recognized is received from voice command recognition unit 2043. If not, the central control unit 201 advances the process to step S108, and determines whether an elapsed time from activating the voice command recognition unit 2043 exceeds a preset threshold. Then, as long as the elapsed time is within the threshold, the central control unit 201 waits for the voice command recognition unit 2043 to recognize the voice command. Then, if the voice command recognition unit 2043 does not recognize the voice command even after the time indicated by the threshold has elapsed, the central control unit 201 advances the process to step S109. In step S109, the central control unit 201 controls the power supply control unit 211 to cut off the power to the voice command recognition unit 2043. Then, the central control unit 201 returns the process to step S103.
  • step S107 the central control unit 201 determines whether the recognized voice command corresponds to the start command shown in FIG. Then, if it is determined that the recognized voice command is a command other than the start command, the central control unit 201 advances the process to step S108. If the recognized voice command is a start command, the central control unit 201 advances the process from step S107 to step S110.
  • step S110 central control unit 201 controls power supply control unit 211, and starts power supply to sound direction detection unit 2044 and microphones 104b to 104d.
  • the sound direction detection unit 2044 starts the process of detecting the sound source direction based on the audio data at the same time from the four microphones 104 a to 104 d.
  • the detection process of the direction of the sound source is performed at a predetermined cycle.
  • the sound direction detection unit 2044 stores the sound direction information indicating the detected sound direction in the internal buffer memory 2044 a.
  • the sound direction detection unit 2044 causes the buffer memory 2044 a to correspond to which timing of the audio data stored in the audio memory 2042 the timing of the audio data using the sound direction information is determined. Store.
  • what is stored in the buffer memory 2044 a may be the sound direction and the address of the audio data in the audio memory 2042.
  • the sound direction information is an angle representing the difference between the sound source direction and the reference angle described above in the horizontal plane.
  • step S111 the central control unit 201 controls the power supply control unit 211, and starts power supply to the imaging unit 102 and the lens actuator control unit 103.
  • the movable imaging unit 100 starts to function as an imaging device.
  • step S151 the central control unit 201 determines whether or not the information indicating that the voice command has been recognized is received from the voice command recognition unit 2043. If not, the central control unit 201 advances the process to step S152, and determines whether or not there is a currently executing job according to the instruction from the user. Details will be apparent from the description of the flowchart in FIG. 6, but moving image shooting and recording, tracking processing, and the like correspond to jobs. Here, the explanation will be continued assuming that there is no such running job.
  • step S153 it is determined whether an elapsed time after recognition of the previous voice command exceeds a preset threshold. If not, the central control unit 201 returns the process to step S151 and waits for recognition of the voice command. Then, if there is no job being executed and no further voice command is recognized even if a time exceeding the threshold has passed since recognition of the previous voice command, the central control unit 201 advances the process to step S154. .
  • step S154 the central control unit 201 controls the power supply control unit 211 to cut off the power to the imaging unit 102 and the lens actuator 103. Then, in step S155, the central control unit 201 controls the power supply control unit 211, cuts off the power to the sound direction detection unit 2044, and returns the process to step S106.
  • the central control unit 201 receives, from the voice command recognition unit 2043, information indicating that the voice command has been recognized.
  • the voice command recognition unit 2043 advances the process from step S151 to step S156.
  • the central control unit 201 in the present embodiment performs processing for putting a person who has generated a voice command into the field of view of the imaging unit 102 of the movable imaging unit 100 prior to executing a job according to the recognized voice command. Then, in a state where a person is in the field of view of the imaging unit 102, a job based on the recognized voice command is executed.
  • the central control unit 201 acquires sound direction information synchronized with the voice command recognized by the voice command recognition unit 2043 from the buffer memory 2044a of the sound direction detection unit 2044.
  • the voice command recognition unit 2043 recognizes a voice command
  • the voice command recognition unit 2043 notifies the central control unit 201 of two addresses indicating the beginning and the end indicating the voice command in the voice memory 2042. Therefore, the central control unit 201 acquires, from the buffer memory 2044a, the sound direction information detected in the period indicated by the two addresses.
  • a plurality of sound direction information may exist within a period indicated by two addresses. In that case, the central control unit 201 acquires the temporally last sound direction information therein from the buffer memory 2044a. This is because the sound direction information later in time is more likely to indicate the current position of the person who issued the voice command.
  • step S157 the central control unit 201 determines whether or not the direction of the sound source represented by the acquired sound information is the direction directly above the imaging device. The details of the determination as to whether or not the sound direction is directly above the imaging device will be described later.
  • step S158 the central control unit 201 controls the rotation control unit 213, and the movable imaging unit 100 causes the imaging direction of the lens unit 101 and the imaging unit 102 to be directly above shown by 4c in FIG.
  • the second housing 151 is rotated.
  • the central control unit 201 receives the captured image from the video signal processing unit 203 in step S159, and an object (person It is determined whether or not there is a face). If not, the central control unit 201 returns the process to step S151.
  • step S164 the central control unit 201 advances the process to step S164, and executes a job corresponding to the voice command already recognized. The details of step S164 will be described later with reference to FIG.
  • step S157 If it is determined at step S157 that central control unit 201 indicates that the direction indicated by the sound information is a direction other than just above, the process proceeds to step S160.
  • step S160 the central control unit 201 controls the rotation control unit 213 to pan the movable imaging unit 100, and the horizontal plane angle indicated by the sound information indicates the current horizontal plane angle of the imaging unit 102.
  • step S161 the central control unit 201 receives the captured image from the video signal processing unit 203, and determines whether or not there is an object (face) as an audio generation source in the captured image. If not, the central control unit 201 advances the process to step S162, and controls the rotation control unit 213 to tilt the movable imaging unit 100 toward the target object.
  • step S163 the central control unit 201 determines whether the tilt direction angle of the imaging direction of the imaging unit 102 has reached the upper limit of the tilt operation (90 degrees with respect to the horizontal direction in this embodiment). Determine If not, the central control unit 201 returns the process to step S161.
  • the central control unit 201 determines whether or not there is an object (face) as an audio generation source in the captured image from the video signal processing unit 203. Then, if the object is not detected even if the angle of the tilt direction of the imaging direction of the imaging unit 102 reaches the upper limit of the tilt operation, the central control unit 201 returns the process from step S163 to step S151.
  • the central control unit 201 advances the process to step S164, and executes a job corresponding to the voice command already recognized.
  • step S164 the details of the process of step S164 will be described based on the flowchart of FIG. 6 and the voice command table shown in FIG.
  • Voice pattern data corresponding to voice commands such as “Hi, Camera” shown in the voice command table of FIG. 7 is stored in the command memory 2046.
  • FIG. 7 shows a representative voice command.
  • the voice command is not limited to this. Further, it should be noted that the voice command in the following description is a voice command detected at the timing of step S151 of FIG. 5B.
  • step S201 the central control unit 201 determines whether the voice command is a start command.
  • the start command is a voice command for causing the imaging apparatus 1 to transition to a state capable of imaging.
  • the start command is a command determined in step S107 of FIG. 5A and is not a command for executing a job related to imaging. Therefore, when the recognized voice command is a start command, the central control unit 201 ignores the command and returns the process to step S151.
  • central control unit 201 determines whether the voice command is a stop command.
  • the stop command is a command for transitioning from a series of imaging enabled states to a state of waiting for input of the start command. Therefore, when the recognized voice command is the stop command, the central control unit 201 causes the process to proceed to step S211.
  • the central control unit 201 controls the power supply control unit 211, and the imaging unit 102, the sound direction detection unit 2044, the voice command recognition unit 2043, the moving image voice processing unit 2045, the microphone 104b, Shut off the power to 104d and so on and stop them. Then, the central control unit 201 returns the process to step S103 at the time of activation.
  • step S203 the central control unit 201 determines whether the voice command is a still image shooting command.
  • the still image shooting command is a command for requesting the imaging apparatus 1 to execute a shooting / recording job of one still image. Therefore, when the central control unit 201 determines that the voice command is a still image shooting command, the process proceeds to step S212.
  • step S212 the central control unit 201 records one still image data captured by the imaging unit 102 in the storage unit 206 as, for example, a JPEG file. Since the job of the still image shooting command is completed by one still image shooting and recording, it is not a job to be determined in step S152 of FIG. 5B described above.
  • step S204 the central control unit 201 determines whether the voice command is a moving image shooting command.
  • the moving image shooting command is a command for requesting the imaging device 1 to capture and record a moving image. If the central control unit 201 determines that the voice command is a moving image shooting command, the process proceeds to step S213. In step S213, the central control unit 201 starts shooting and recording of a moving image using the imaging unit 102, and returns the process to step S151.
  • the captured moving image is stored in the storage unit 206, but may be transmitted to the file server on the network via the external input / output terminal unit 208. Since the moving image shooting command is a command to continue shooting and recording of a moving image, a job according to this command is a job to be determined in step S152 described above.
  • step S205 the central control unit 201 determines whether the voice command is a moving image shooting end command.
  • the central control unit 201 ends the recording (job) when the voice command is a moving image shooting end command and the moving image is currently being captured / recorded. Then, the central control unit 201 returns the process to step S151.
  • step S206 the central control unit 201 determines whether the voice command is a tracking command.
  • the tracking command is a command that requests the imaging device 1 to position the user continuously in the imaging direction of the imaging unit 102. If the central control unit 201 determines that the voice command is a tracking command, the process proceeds to step S214. Then, in step S214, the central control unit 201 starts control of the rotation control unit 213 so that the object continues to be positioned at the center position of the video obtained by the video signal processing unit 203. Then, the central control unit 201 returns the process to step S151. As a result, the movable imaging unit 100 performs a pan operation or a tilt operation to track the moving user. However, although the user is tracked, the captured image is not recorded.
  • the job is a target to be determined in step S152 of FIG. 5B described above. Then, after receiving the tracking end command, the central control unit 201 ends shooting and recording of this moving image. Note that, during tracking, for example, a job of a still image shooting command or a moving image shooting command may be executed.
  • step S207 the central control unit 201 determines whether the voice command is a tracking end command.
  • the central control unit 201 ends the recording (job) when the voice command is the tracking end command and the tracking is currently in progress. Then, the central control unit 201 returns the process to step S151.
  • step S208 the central control unit 201 determines whether the voice command is an automatic moving image shooting command. If the central control unit 201 determines that the voice command is an automatic moving image shooting command, the process proceeds to step S217. In step S217, the central control unit 201 starts shooting and recording of a moving image by the imaging unit 102, and returns the process to step S151.
  • the difference between the job executed by the automatic video shooting command and the job executed by the above-described video shooting command is that, every time there is an utterance, the imaging direction of the lens unit 101 is directed to the direction of the sound source of the utterance. While shooting moving images, it is the point to do recording.
  • a moving image is recorded while performing pan and tilt operations in order to fit the speaker within the angle of view of the lens unit 101 each time there is an utterance.
  • the voice command for ending the job is not received. It is assumed that the end of the job is ended by a predetermined switch operation provided on the operation unit 205.
  • the central control unit 201 stops the voice command recognition unit 2043.
  • the central control unit 201 refers to the sound direction information detected by the sound direction detection unit 2044 at the timing when the sound pressure level detection unit 2041 detects a sound pressure level exceeding the threshold value. Pan and tilt operations are performed.
  • the central control unit 201 controls the lens actuator control unit 103 to increase the current zoom magnification by a preset value. . If the recognized voice command is a magnification command, the central control unit 201 controls the lens actuator control unit 103 to reduce the current zoom magnification by a preset value.
  • the central control unit 201 performs the audio command. Ignore
  • voice commands other than those described above are executed after step S207, but the description thereof is omitted here.
  • the sound pressure level detection unit 2041 starts the process of detecting the sound pressure level of audio data from the microphone 1014a.
  • the sound pressure level detection unit 2041 detects the sound pressure exceeding the threshold. Then, this becomes a trigger, and at timing T602, the voice memory 2042 starts storing voice data from the microphone 104a, and the voice command recognition unit 2043 starts voice command recognition.
  • the voice command recognition unit 2043 recognizes the voice command, and specifies that the recognized voice command is the start command.
  • the central control unit 201 starts power supply to the sound direction detection unit 2044 at timing T603 using the recognition of the start command as a trigger.
  • the central control unit 201 also starts supplying power to the imaging unit 102 at timing T604.
  • the voice command recognition unit 2043 recognizes the voice data as a voice command representing "Movie start”.
  • the voice command recognition unit 2043 notifies the central control unit 201 of the head and tail addresses of voice data representing “Movie start” in the voice memory 2042 and the recognition result.
  • the central control unit 201 determines the range represented by the received first and last addresses as the valid range.
  • the central control unit 201 extracts the latest sound direction information from the effective range in the buffer 2044 a of the sound direction detection unit 2044, and at timing T 609, based on the extracted information, the drive control unit 213. Are controlled to start the panning operation and the tilting operation of the movable imaging unit 100.
  • the central control unit 201 stops the pan operation and the tilt operation (timing T613).
  • the central control unit 201 supplies power to the moving image audio processing unit 2045 so that the microphones 104a and 104b collect stereo audio.
  • the central control unit 201 starts capturing and recording a voice-added moving image.
  • FIG. 9A First, simple sound direction detection using two microphones, the microphone 104a and the microphone 104b, will be described using FIG. 9A.
  • the microphone 104a and the microphone 104b are disposed on a plane (on a plane perpendicular to the rotation axis of the panning operation).
  • the distance between the microphones 104a and 104b is represented by d [ab]. It is assumed that the distance between the imaging device 1 and the sound source is sufficiently large for the distance d [ab]. In this case, by comparing the voices of the microphone 104a and the microphone 104b, the delay time of the voice between the two can be identified.
  • the distance I [ab] can be specified by multiplying the arrival delay time by the sound velocity (about 340 m / s in air).
  • the sound directions determined by the two microphones can not be distinguished from the determined sound source directions ⁇ [a ⁇ b] and ⁇ [a ⁇ b] ′ (FIG. 9A). In other words, it is not possible to specify which of the two directions.
  • the method of detecting the direction of the sound source in the present embodiment will be described below with reference to FIGS. 9B and 9C. Specifically, since there are two sound source directions that can be estimated by two microphones, these two directions are treated as temporary directions. Then, the directions of the sound source are determined by two more microphones, and two tentative directions are determined. Then, the direction common to these is determined as the direction of the sound source to be obtained. Note that the upward direction in FIGS. 9B and 9C is taken as the imaging direction of the movable imaging unit 100. The imaging direction of the movable imaging unit 100 is also rephrased as the optical axis direction (principal axis direction) of the lens unit 101.
  • FIG. 9B shows a method performed by three microphones. A description will be given using the microphone 104a, the microphone 104b, and the microphone 104c.
  • the direction orthogonal to the direction in which the microphones 104 a and the microphones 104 b are arranged is the imaging direction of the lens unit 101.
  • the distance d [a-b] is known from the microphones 104a and 104b, and if the distance I [a-b] can be specified from the audio data, ⁇ [a-b] Can be identified. Furthermore, since the distance d [a-c] between the microphones 104a and 104c is also known, the distance I [a-c] can also be specified from the audio data, and ⁇ [a-c] can be specified.
  • ⁇ [ab] and ⁇ [ac] can be calculated, the direction common to them on the same two-dimensional plane (on the plane perpendicular to the rotation axis of the panning operation) as the arrangement of the microphones 104a, 104b and 104c However, it can be determined as the correct voice generation direction.
  • a method of determining the sound source direction with four microphones will be described with reference to FIG. 9C. Due to the arrangement of the microphones 104a, 104b, 104c, and 104d shown in FIG. 3A, the direction orthogonal to the direction in which the microphones 104a and 104b are arranged is the imaging direction (optical axis direction) of the lens unit 101. When four microphones are used, the sound source direction can be accurately calculated by using two pairs of the microphones 104a and 104d located on the diagonal and the pair of the microphone 10b and the microphone 104c.
  • the distance I [ad] can be specified from the audio data, so that ⁇ [ad] can also be specified.
  • the distance I [bc] can be specified from the audio data, so that ⁇ [bc] can be specified.
  • the microphones 104a, 104b, the microphones 104c, and the microphones 104d are disposed at four corners of a rectangle as shown in FIG. 3A. Even if the number of microphones is three, it is not necessary to be four if they do not line up in a straight line.
  • FIG. 10A is a diagram for explaining a method performed by three microphones. A description will be given using the microphone 104a, the microphone 104b, and the microphone 104c.
  • the direction orthogonal to the direction in which the microphones 104a and the microphones 104b are arranged is the imaging direction (optical axis direction) of the lens unit 101.
  • the arrangement direction of the microphones 104a and the microphones 104b is a direction of a straight line connecting the center point of the microphones 104a and the center point of the microphones 104b.
  • the microphone 104a and the microphone 104b can be considered to be equidistant from the sound source. That is, there is no time difference in the sound reaching the two microphones 104a and 104b from the sound source. Therefore, it is recognized that the sound source is present in the direction perpendicular to the straight line connecting the microphones 104a and 104b.
  • the microphones 104a and 104c can also be considered to be equidistant from the sound source, there is no time difference between the sound sources reaching the two microphones 104a and 104c. Therefore, it is recognized that the sound source is present in the direction perpendicular to the straight line connecting the microphones 104a and 104c.
  • the absolute value of the time difference between sounds detected by the microphone 104a and the microphone 104b is ⁇ T1
  • the absolute value of the time difference between the sounds detected by the microphone 104a and the microphone 104c is ⁇ T2
  • the relationship with a sufficiently small threshold ⁇ set in advance it can be determined that the sound source is located directly above the imaging device 1.
  • FIG. 10B a method of detecting a sound source located directly above the imaging device 1 using four microphones 104a, 104b, 104c, and 104d will be described. As shown in FIG. 3A, the pair of the microphone 104a and the microphone 104d, and the pair of the microphone 104b and the microphone 10c will be considered.
  • the microphone 104a and the microphone 104d are equidistant from the sound source, so the absolute value ⁇ T3 of the time difference between sounds detected by the microphone 104a and the microphone 104d is zero or not It becomes a small value. That is, it is recognized that the sound source is in the direction perpendicular to the straight line connecting the microphones 104a and 104d.
  • the absolute value ⁇ T4 of the time difference between sounds detected by the microphones 104b and 104c is also zero or very small. That is, it is recognized that the sound source is in the direction perpendicular to the straight line connecting the microphones 104b and 104c. Therefore, when the following condition is satisfied, it can be determined that the sound source is located directly above the imaging device 1. Condition: ⁇ T3 ⁇ and ⁇ T4 ⁇
  • the absolute value of the arrival time difference of sound is determined, and the direction of the sound source is present when both of the two absolute values fall below a sufficiently small threshold value. Can be determined to be directly above. In addition, when determining two pairs, any combination may be used as long as the directions of the two pairs are determined to be non-parallel to each other.
  • the first embodiment has been described above. According to the above-described embodiment, it is possible to prevent the subject other than the person (whose face) who utters the voice command from being mistakenly taken as the subject. In addition, it becomes possible to execute a job intended by the person who issued the voice command.
  • the elements constituting the microphones 104a to 104d and the audio signal processing unit 204 are supplied with power under the control of the central control unit 201 only when they are actually used. As a result, power consumption can be reduced compared to when all the components are in a movable state.
  • Second Embodiment A second embodiment will be described.
  • the apparatus configuration in the second embodiment is the same as that in the first embodiment. Further, it is assumed that the voice command recognition unit 2043 has already recognized a moving image shooting command as a voice command, and the sound direction detection unit 2044 has already detected the direction of the user who uttered the voice command.
  • the imaging device 1 when the imaging device 1 recognizes a moving image shooting command as a voice command, the direction in which the voice command generation source is present matches the shooting direction (optical axis direction) of the lens unit 101. Pan and tilt operations of the movable imaging unit 100 were performed in order to perform the above operation. Then, the imaging device 1 performs subject detection processing in the pan operation and the tilt operation. Finally, on the condition that the subject is present in the image taken by the imaging unit 102, the imaging device 1 starts shooting and recording of a moving image.
  • the central control unit 201 pans at a high speed first pan movement speed by the rotation control unit 213 so as to move toward the sound direction detected by the sound direction detection unit 2044 (hereinafter referred to as a target direction).
  • the period during which driving is performed at the first pan operation speed is, for example, until the angle difference between the imaging direction (optical axis direction) of the lens unit 101 immediately before starting the pan operation and the target direction becomes half. 1 does not perform focusing control in this period (period in which driving is performed at the first pan operation speed).
  • the central control unit 201 performs the first panning operation speed.
  • the rotation control unit 213 is controlled to be slower than the second pan operation speed at which focusing can be performed.
  • the central control unit 201 controls the lens actuator 103 to start focusing control of the lens unit 101 during the second pan operation speed period.
  • the central control unit 201 starts shooting and recording of a moving image.
  • the image by the imaging unit 102 is in focus, and the angle difference between the imaging direction (optical axis direction) of the lens unit 101 and the target direction is equal to or less than the preset threshold value ⁇ .
  • the threshold value ⁇ is an angle formed by the left and right ends of the angle of view that can be imaged by the imaging unit 102 and the center thereof. This is because it is possible to estimate that the subject starts entering the image captured by the imaging unit 102 if the threshold value ⁇ or less is reached.
  • the second pan operation speed v2 is a speed at which the first pan operation speed v1, which is the initial speed, is decelerated at a predetermined acceleration.
  • FIGS. 11A and 11B are flowcharts showing processing that is started with voice command recognition by the voice command recognition unit 2043 according to the second embodiment as a trigger.
  • the program according to this flowchart is stored in the ROM of the central control unit 201.
  • FIG. 12 is a diagram showing a sequence of processing after voice command recognition in the second embodiment. The processing of the central control unit 201 in the second embodiment will be described below with reference to these figures. Here, it is assumed that a moving image shooting command is recognized as a voice command.
  • step S1001 the central control unit 201 causes the voice command recognition unit 2043 to display the beginning and end addresses of the voice data that is the source of the recognized voice command (within the speaking period).
  • the detected sound direction information is acquired from the buffer memory 2044 a of the sound direction detection unit 2044.
  • step S1002 the central control unit 201 determines whether or not the direction indicated by the acquired sound direction information is within the angle of view of the current imaging unit 102 of the movable imaging unit 100.
  • the central control unit 201 advances the process to step S1003 and starts shooting and recording of the recognized moving image.
  • step S1004 the central control unit 201 calculates the angle ⁇ at which the panning operation is performed from the current imaging direction (optical axis direction) A of the lens unit 101 and the sound source direction C acquired in S1001, and the imaging direction A
  • the angle at which the panning operation is performed is half of that angle (the first half of the interval)
  • the lens unit 101 will be described on the premise that a method of detecting a position by using a light receiving unit to detect that an object blocks light from a light emitting unit using a PI (Photo Interrupter).
  • the current direction of the lens unit 101 is A
  • the target direction is C
  • the middle direction of the angle between the direction A of the lens unit 101 and the target direction C is B.
  • the step number PIAC of PI is determined. From this step number PIAC, the central control unit 201 calculates the distance DAB of the first half of the section driven at the first pan operation speed and the distance DBC of the second half of the section driven at the second pan operation speed.
  • a period (t1-t0) in which the first half of the section is driven at the first pan operation speed can be obtained as DAB / v1.
  • the second pan operation speed v2 is a speed to be decelerated at a predetermined acceleration from the first pan operation speed v1 which is the initial speed.
  • step S1006 the central control unit 201 controls the rotation control unit 213, and starts pan operation toward the target direction at the first pan operation speed v1 of the movable imaging unit 100. Then, in step S1007, the central control unit 201 continues the pan operation until it is determined that the pan operation time has become DAB / v1.
  • the central control unit 201 performs the panning operation speed at the second panning operation speed until the time t4 when the panning operation is finished in step S1008.
  • the central control unit 201 determines whether or not the angle formed by the current imaging direction (optical axis direction) of the lens unit 101 and the target direction is equal to or less than a predetermined threshold value ⁇ . If it becomes equal to or less than the threshold value ⁇ , there is a possibility that the subject is within the angle of view, so the central control unit 201 obtains the focus state value AF in step S1010.
  • step S1011 the central control unit 201 determines whether the obtained focus state value AF is within a predetermined threshold AFth.
  • the focus state value AF is within the predetermined threshold AFth, the in-focus state is established. Therefore, even if the panning operation is not completed, the central control unit 201 advances the process to step S1003 to start a job based on the recognized moving image shooting command.
  • step S1012 determines whether or not the initially planned pan operation time has elapsed.
  • the central control unit 201 may determine whether the imaging direction (optical axis direction) of the lens unit 101 has reached the target direction. If the determination in step S1012 is negative (No), the central control unit 201 returns the process to step S1008.
  • step S1012 determines whether the central control unit 201 is yes (Yes). If the determination in step S1012 is yes (Yes), the central control unit 201 advances the process to step S1013. In step S1013, the central control unit 201 controls the rotation control unit 213, switches the drive of the rotation drive unit from the pan operation to the tilt operation, and starts the tilt operation.
  • the central control unit 201 continues the tilt operation of step S1013 until it is determined in step S1014 that either the detection of the subject or the reaching of the tilt upper limit has been made. If a subject is detected (timing t5), the central control unit 201 stops the tilt operation, and advances the process to step S1003. On the other hand, when the upper limit of the tilt is reached (timing t6) while the subject is not detected, the central control unit 201 performs an error process. In this error, for example, the recognized still image shooting start command is not executed.
  • step S160 in the first embodiment is the processing after step S1002 in the second embodiment. It should be replaced with the processing of.
  • step S1015 in the second embodiment may correspond to step S163.
  • the pan operation period for causing the imaging direction (optical axis direction) of the lens unit 101 to coincide with the target direction is divided into two, the first pan operation speed in the previous period, and the second period.
  • An example has been described in which the second pan operation speed is switched to a lower speed.
  • deceleration may be performed at a constant acceleration so that the pan movement speed becomes zero in the target direction.
  • the specific sound generation position is outside the current angle of view A, and it is necessary to change the angle of view by pan / tilt drive to capture the subject.
  • moving image recording can be started after unnecessary pan / tilt driving and focusing. Furthermore, by switching the speed of the panning operation, focusing can be performed, and the start timing of moving image recording can be made earlier than in the first embodiment.
  • the sound pressure level detection unit 2041, the voice command recognition unit 2043, the sound direction detection unit 2044, the moving image audio processing unit 2045, and the like are processing units independent of the central control unit 201.
  • the central control unit 201 may replace all or part of these by executing a program.
  • the present invention supplies a program that implements one or more functions of the above-described embodiments to a system or apparatus via a network or storage medium, and one or more processors in a computer of the system or apparatus read and execute the program. Can also be realized. It can also be implemented by a circuit (eg, an ASIC) that implements one or more functions.
  • a circuit eg, an ASIC

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • Studio Devices (AREA)

Abstract

本発明は、特別な操作を行わずとも、ユーザの意図したタイミングで意図した構図の画像を撮像する。このため、撮像部と、音声を集音する集音部と、集音部によって集音した音声が所定の音圧より大きいか否かを検出する検出部と、集音部によって集音した音声が、撮像部による撮影を指示する音声であることを認識する認識部と、を有する。そして、集音部によって集音した音声が、検出部によって所定の音圧より大きいと検出され、かつ認識部によって撮像部による撮影を指示する音声であると認識された場合、撮像部による撮影を行う。

Description

撮像装置及びその制御方法及び記録媒体
 本発明は、撮像装置及びその制御方法及び記録媒体に関するものである。
 カメラ等の撮像装置による静止画・動画撮影においては、ユーザがファインダー等を通して撮影対象を決定し、撮影状況を自ら確認して撮影画像のフレーミングを調整することによって、画像を撮影するのが通常である。このような撮像装置では、ユーザの操作ミスを検知してユーザに通知したり、外部環境の検知を行い、撮影に適していない場合にユーザに通知したりする機能が備えられている。また、撮影に適した状態になるようにカメラを制御する仕組みが従来から存在している。
 このようなユーザの操作により撮影を実行する撮像装置に対し、ユーザが撮影指示を与えることなく断続的および継続的に撮影を行うライフログカメラが存在する(特許文献1)。
特表2016-536868号公報
 しかしながら、ユーザの身に着けるタイプの、これまでのライフログカメラでは、定期的に自動撮影を行うものであるので、得られる画像はユーザの意図とは無関係なものとなる場合があった。
 本発明は上記問題に鑑みなされたものであり、特別な操作を行わずとも、ユーザの意図したタイミングでユーザの意図した構図の画像を撮像する技術を提供しようとするものである。
 この課題を解決するため、例えば本発明の撮像装置は以下の構成を備える。すなわち、
 撮像手段と、
 音声を集音する集音手段と、
 前記集音手段によって集音した音声が所定の音圧より大きいか否かを検出する検出手段と、
 前記集音手段によって集音した音声が、前記撮像手段による撮影を指示する音声であることを認識する認識手段と、を有し、
 前記集音手段によって集音した音声が、前記検出手段によって前記所定の音圧より大きいと検出され、かつ前記認識手段によって前記撮像手段による撮影を指示する音声であると認識された場合、前記撮像手段による撮影を行うことを特徴とする。
 本発明によれば、特別な操作を行わずとも、ユーザの意図したタイミングで意図した構図の画像を撮像することが可能になる。
 本発明のその他の特徴及び利点は、添付図面を参照とした以下の説明により明らかになるであろう。なお、添付図面においては、同じ若しくは同様の構成には、同じ参照番号を付す。
 添付図面は明細書に含まれ、その一部を構成し、本発明の実施の形態を示し、その記述と共に本発明の原理を説明するために用いられる。
実施形態に係る撮像装置のブロック図。 実施形態に係る音声入力部と音声信号処理部の詳細ブロック図。 実施形態に係る撮像装置の正面及び上面図。 実施形態における撮像装置の使用例を示す図。 実施形態における撮像装置の使用例を示す図。 実施形態における撮像装置の使用例を示す図。 実施形態における撮像装置の使用例を示す図。 実施形態に係る撮像装置のパン動作とチルト動作を示す図。 実施形態における中央制御部の処理手順を示すフローチャート。 実施形態における中央制御部の処理手順を示すフローチャート。 図5Bにおける音声コマンド処理の詳細を示すフローチャート。 実施形態における音声コマンドの意味と音声コマンドとの関係を示す図。 実施形態における起動時から動作撮影開始コマンドに至るまでのタイミングチャート。 実施形態に係る音方向検知法を説明するための図。 実施形態に係る音方向検知法を説明するための図。 実施形態に係る音方向検知法を説明するための図。 撮像装置の真上に音源が存在する場合の検出法を説明するための図。 撮像装置の真上に音源が存在する場合の検出法を説明するための図。 第2の実施形態における中央制御部の処理手順を示すフローチャート。 第2の実施形態における中央制御部の処理手順を示すフローチャート。 第2の実施形態における撮像装置の動作を説明するための図。
 以下図面に従って本発明に係る実施形態を詳細に説明する。
 [第1の実施形態]
 図1は、第1の実施形態に係る撮像装置1のブロック構成図である。撮像装置1は、光学レンズユニットを含み、撮像する撮像方向(光軸方向)が可変の可動撮像部100、及び、可動撮像部100の駆動制御および、撮像装置全体を制御する中央制御部(CPU)を含む支持部200で構成される。
 なお、支持部200は、圧電素子を含む複数の振動体11~13が可動撮像部100の面に対し接触するように設けられている。これらの振動体11~13の振動の制御により、可動撮像部100がパン、チルト動作を行う。なお、パン、チルト動作はサーボモータ等で実現しても構わない。
 可動撮像部100は、レンズ部101、撮像部102、レンズアクチュエータ制御部103、及び、音声入力部104を有する。
 レンズ部101は、ズームレンズ、絞り・シャッタ、および、フォーカレンズなどの撮影光学系で構成される。撮像部102は、CMOSセンサやCCDセンサなどの撮像素子を含み、レンズ部101により結像された光学像を光電変換して電気信号を出力する。レンズアクチュエータ制御部103は、モータドライバICを含み、レンズ部101のズームレンズ、絞り・シャッタ、および、フォーカスレンズ等の各種アクチュエータを駆動する。各種アクチュエータは、後述する支持部200内の中央制御部201より受信した、アクチュエータ駆動指示データに基づいて駆動される。音声入力部104はマイクロフォン(以降マイク)を含む音声入力部であり複数のマイク(本実施形態では4つ)で構成されており、音声を電気信号に変換し、さらに電気信号をデジタル信号(音声データ)に変換して出力する。
 一方、支持部200は、撮像装置1の全体の制御を行うための中央制御部201を有する。この中央制御部201は、CPUと、CPUが実行するプログラムを格納したROM、及び、CPUのワークエリアとして使用されるRAMで構成される。また、支持部200は、撮像信号処理部202、映像信号処理部203、音声信号処理部204、操作部205、記憶部206、表示部207を有する。更に、支持部200は、入出力端子部208、音声再生部209、電源部210、電源制御部211、位置検出部212、回動制御部213、無線通信部214、並びに、先に説明した振動体11~13を有する。
 撮像信号処理部202は、可動撮像部100の撮像部102から出力された電気信号を映像信号へ変換する。映像信号処理部203は、撮像信号処理部202から出力された映像信号を用途に応じて加工する。映像信号の加工は画像切り出し、及び、回転加工による電子防振動作や、被写体(顔)を検出する被写体検出処理も含まれる。
 音声信号処理部204は、音声入力部104から出力されたデジタル信号に対して音声処理を行う。音声入力部104がアナログ信号を出力するマイクであれば、音声信号処理部204において、アナログ信号からデジタル信号に変換する構成が含まれても構わない。なお、音声入力部104を含めた音声信号処理部204の詳細については図2を用いて後述する。
 操作部205は、撮像装置1とユーザとの間のユーザインターフェースとして機能するものであり、各種スイッチ、ボタン等で構成される。記憶部206は、撮影により得られた映像情報などの種々のデータを記憶する。表示部207は、LCDなどのディスプレイを備え、映像信号処理部203から出力された信号に基づいて、必要に応じて画像表示を行う。また、この表示部207は、各種メニュー等を表示することで、ユーザインターフェースの一部として機能する。外部入出力端子部208は、外部装置との間で通信信号および映像信号を入出力する。音声再生部209はスピーカーを含み、音声データを電気信号に変換し、音声を再生する。電源部210は、撮像装置の全体(各要素)の駆動に必要な電力供給源であり、本実施形態では充電可能なバッテリであるものとする。
 電源制御部211は、撮像装置1の状態に応じて、上記の各構成要素への電源部210からの電力の供給/遮断を制御するものである。撮像装置1の状態によっては、不使用の要素が存在する。電源制御部211は、中央制御部201の制御下で、撮像装置1の状態によって不使用な要素への電力を遮断して、電力消費量を抑制する機能を果たす。なお、電力供給/遮断については、後述する説明から明らかにする。
 位置検出部212はジャイロ、加速度センサ、GPS等で構成され、撮像装置1の動きを検出する。この位置検出部212は、撮像装置1がユーザに身に着ける場合にも対処するためである。回動制御部213は、中央制御部201からの指示に従って振動体11~13を駆動する信号を生成し、出力する。振動体11~13は圧電素子で構成され、回動制御部213から印加される駆動信号に応じて振動する。振動体11~13は、回動駆動部(パン・チルト駆動部)を構成する。この結果、可動撮像部100は、中央制御部201が指示した方向に、パン動作、チルト動作する。
 無線部214はWiFi(登録商標)やBLE(Bluetooth(登録商標) Low Energy)などの無線規格に準拠して画僧データ等のデータ送信を行う。
 次に、本実施形態における音声入力部104および音声信号処理部204の構成と、音方向検出処理を図2を参照して説明する。同図は、音声入力部104および音声信号処理部204の構成と、音声信号処理204、中央制御部201及び電源制御部211の接続関係を示している。
 音声入力部104は、4つの無指向性のマイク(マイク104a、マイク104b、マイク104c、マイク104d)で構成される。各マイクはA/Dコンバータを内蔵しており、予め設定されたサンプリングレート(コマンド検出、方向検出処理:16kHz、動画録音:48kHz)で音声を集音し、内蔵のA/Dコンバータにより集音した音声信号をデジタルの音声データとして出力する。なお、本実施形態では音声入力部104は4つのデジタルマイクで構成されるものとしているが、アナログ出力のマイクで構成されても構わない。アナログマイクの場合、音声信号処理部204内に、対応するA/Dコンバータが設ければよい。また、本実施形態におけるマイクの数は4つとするが、3つ以上であればよい。
 マイク104aは、撮像装置1の電源がONの場合には無条件に電力が供給され、集音可能状態となる。一方、他のマイク104b、マイク104c、マイク104dは、中央制御部201の制御下での電源制御部211による電力供給/遮断の対象となっており、撮像装置1の電源がONとなった初期状態では、電力は遮断されている。
 音声信号処理部204は、音圧レベル検出部2041、音声用メモリ2042、音声コマンド認識部2043、音方向検出部2044、動画用音声処理部2045、及び、コマンドメモリ2046で構成される。
 音圧レベル検出部2041は、マイク104aから出力された音声データの音圧レベルが予め設定された閾値を超えるとき、音声検出を表す信号を電源制御部211及び音声用メモリ2042に供給する。
 電源制御部211は、音圧レベル検出部2041から音声検出を表す信号を受信した場合、音声コマンド認識部2043への電力供給を行う。
 音声用メモリ2042は、中央制御部201の制御下での電源制御部211による電力供給/遮断の対象の1つである。また、この音声用メモリ2042は、マイク104aから出力された音声データを一時的に記憶するバッファメモリである。マイク104aによるサンプリングレートが16kHzであり、1サンプリングにつき2バイト(16ビット)の音声データを出力し、最長の音声コマンドが仮に5秒であった場合、音声用メモリ2042は、約160キロバイト(≒5×16×1000×2)の容量を有する。また、音声用メモリ2042は、マイク104aからの音声データで満たされた場合、古い音声データが新たな音声データで上書きされる。この結果、音声用メモリ2042は、直近の所定期間(上記例では約5秒)の音声データが保持される。また、音声用メモリ2042は、音圧レベル検出部2041から音声検出を示す信号を受信したことをトリガにして、マイク104aからの音声データをサンプリングデータ領域に格納していく。
 コマンドメモリ2046は不揮発性のメモリで構成され、本撮像装置が認識する音声コマンドに係る情報を予め記憶(登録)している。詳細は後述するが、コマンドメモリ2046に格納される音声コマンドの種類は例えば図8に示す通りであり、「起動コマンド」をはじめとして、複数種類のコマンドの情報がコマンドメモリ2046に格納されている。
 音声コマンド認識部2043は、中央制御部201の制御下での電源制御部211による電力供給/遮断の対象の1つである。なお、音声認識そのものは周知技術であるので、ここでの説明は省略する。この音声コマンド認識部2043は、コマンドメモリ2046を参照し、音声用メモリ2042に格納された音声データの認識処理を行う。そして、音声コマンド認識部2043は、マイク104aにより集音した音声データが、音声コマンドであるか否か、並びに、コマンドメモリ2046に記憶されている音声コマンドに一致するのかの判定を行う。そして、音声コマンド認識部2043は、コマンドメモリ2046に記憶されたいずれかの音声コマンドに一致する音声データを検出したとき、いずれのコマンドであるかを示す情報、並びに、音声用メモリ2042内の、その音声コマンドを決定づけた最初と最後の音声データのアドレス(或いは音声コマンドを受け付けたタイミング)を中央制御部201に供給する。
 音方向検出部2044は、中央制御部201の制御下での電源制御部211による電力供給/遮断の対象の1つである。また、音方向検出部2044は、4つのマイク104a乃至104dからの音声データに基づき、周期的に音源の存在する方向の検出処理を行う。音方向検出部2044は、内部にバッファメモリ2044aを有し、検出した音源方向を表す情報をバッファメモリ2044aに格納する。なお、音方向検出部2044による音方向検出処理を行う周期(例えば16kHz)は、マイク104aのサンプリング周期に対して十分に長くて構わない。ただし、このバッファメモリ2044aは、音声用メモリ2042に格納可能な音声データの期間と同じ期間分の音方向情報を記憶するための容量を有するものとする。
 動画用音声処理部2045は、中央制御部201の制御下での電源制御部211による電力供給/遮断の対象の1つである。動画用音声処理部2045は、4つのマイクのうち、マイク103aとマイク104bの2つの音声データをステレオ音声データとして入力し、各種フィルタ処理、ウィンドカット、ステレオ感強調、駆動音除去、ALC(Auto Level Control)、圧縮処理といった動画音声用の音声処理を行う。詳細は後述する説明から明らかになるが、本実施形態ではマイク104aはステレオマイクのLチャネル用マイク、マイク104bはRチャネル用マイクとして機能する。
 なお、図2では消費電力や回路構成を考慮し、音声入力部104の各マイクと音声信号処理部204に含まれる各ブロックとの接続は、4つのマイクにおける必要最低限の接続を示す。しかし、電力および回路構成の許す限り、複数のマイクを音声信号処理部204に含まれる各ブロックで共有して使用しても構わない。また、本実施形態ではマイク104aを基準のマイクとして接続しているが、どのマイクを基準としても構わない。
 図3A~3Eを参照して、撮像装置1の外観図および使用例を説明する。図3Aは、本実施形態に係る撮像装置1の外観の上面及び正面図を示している。撮像装置1の可動撮像部100は、略半球体形であり、底面と平行な面を水平面とし、この面を0度したとき、-20度から垂直方向を示す90度の範囲の切欠き窓を有し、図示矢印Aが示す水平面にて360度に亘って回動可能な第1の筐体150を有する。また、可動撮像部100は、この切欠き窓に沿って図示の矢印Bが示す水平から垂直の範囲内で、レンズ部101及び撮像部102と一緒に回動可能な第2の筐体151を有する。ここで、第1の筐体150の矢印Aの回動動作はパン動作、第2の筐体151の矢印Bの回動動作はチルト動作に対応し、これらは振動体11~13の駆動によって実現している。なお、本実施形態における撮像装置のチルト可能な範囲は、上記の通り、-20度から+90度の範囲であるものとする。
 マイク104a、104bは、第1の筐体150の切欠き窓を挟む前面側の位置に配置されている。また、マイク104c、104dは、第1の筐体150の後方側に設けられている。図3Aに示すように、第2筐体151を固定にした状態で、第1筐体150を矢印Aに沿ってどの方向にパン動作させたとしても、レンズ部101及び撮像部102に対する、マイク104a、104bの相対的な位置は変わらない。つまり、撮像部102の撮像方向に対して左側にマイク104aが常に位置し、右側にマイク104bが常に位置する。また、マイク104aおよびマイク104bは撮像部102の撮像方向に対して対称に配置されるので、マイク104aはステレオマイクのLチャネルへの入力を担い、マイク104bはステレオマイクのRチャネルへの入力を担う。それ故、撮像部102による撮像して得た画像が表す空間と、マイク104a,104bによる取得した音場は一定の関係を維持できる。
 なお、本実施形態における4つのマイク104a、104b、104c、103dは、撮像装置1の上面から見て、図3Aに示すように長方形の各頂点の位置に配置されている。また、これら4つのマイクは、図3Aにおける1つの水平面上に位置するものとするが、多少のずれがあっても構わない。
 マイク104aとマイク104bとの距離は、マイク104aとマイク104cとの距離よりも大きい。なお、隣りあうマイク間の距離は、10mm~30mm程度が望ましい。また、本実施形態ではマイクの数を4つとしているが、直線上に並ばないという条件を満たせば、マイクの数は3つ以上であれば構わない。また、図3Aのマイク104a乃至104dの配置位置は一例であって、これらの配置方法は、メカ的制約やデザイン制約等の理由によって適宜変更しても構わない。
 図3B~3Eは、本実施形態における撮像装置1の利用形態を示している。図3Bは、机などに撮像装置1が載置される場合で、撮影者自身やその周囲の被写体の撮影を目的とした利用形態を説明するための図である。図3Cは、撮像装置1を撮影者の首にぶら下げる例であり、主に、撮影者の行動の前方の撮影を目的とした利用形態を説明するための図である。図3Dは、撮像装置1を撮影者の肩に固定した使用例であり、撮影者の周囲の前後、及び、右側の撮影を目的とした利用形態を説明するための図である。そして、図3Eは、撮像装置1をユーザが持つ棒の端に固定する使用例であり、ユーザが望む所望の撮影位置(高所や手が届かない位置)に撮像装置1を移動させることで、撮影を行うことを目的とした利用形態を説明するための図である。
 図4を参照して、本実施形態の撮像装置1のパン動作、およびチルト動作を更に詳しく説明する。ここでは図3Bのように据え置いた使用例で前提として記載するが、そのほかの使用例においても同様である。
 図4の4aはレンズ部101が水平を向いている状態を示している。図4の4aを初期状態とし、第1筐体150を、上方向から見て反時計回りに90度パン動作させると、図4の4bのようになる。一方、図4の4aの初期状態から、第2筐体151の90度チルト動作をおこなうと、図4の4cの様になる。第1筐体150、第2筐体151の回動は、先に説明したように、回動制御部213により駆動される振動体11~13による振動にて実現している。
 次に、本実施形態における撮像装置1の中央制御部201の処理手順を図5A,5Bのフローチャートに従って説明する。同図に係る処理は、撮像装置1のメイン電源がONされた場合の中央制御部201の処理を示している。
 中央制御部201は、ステップS101にて、撮像装置1の初期化処理を行う。この初期化処理にて、中央制御部201は、現在の可動撮像部100の撮像部102の撮像方向における、水平面内の方向成分をパン動作の基準角度(0度)として決定する。
 これ以降、可動撮像部100のパン動作を行った後の撮像方向のうち水平面の成分は、この基準角度からの相対的な角度で表されるものとする。また、音方向検出部2044が検出する音源方向のうちの水平面の成分も、上記基準角度に対する相対的な角度で表されるものとする。また、詳細は後述するが、音方向検出部2044は、撮像装置1の真上の方向(パン動作の回転軸の軸方向)に音源があるか否かの判定も行う。
 なお、この段階で、音声用メモリ2042、音方向検出部2044、動画用音声処理部2045、並び、マイク104b乃至104dへの電力は遮断されている。
 初期化処理を終えると中央制御部201は、ステップS102にて、電源制御部211を制御して、音圧レベル検出部2041、マイク104aへの電力の供給を開始する。この結果、音圧レベル検出部2041は、マイク104aから出力された音声データに基づいて、この音声データに変換される前の音声の音圧レベルの検出処理を実行し、この音声が予め設定された閾値を超える音圧レベルであると判定した場合にその旨を中央制御部201に通知する。なお、この閾値は、例えば60dB SPL(Sound Pressure Level)とするが、撮像装置1が環境等に応じて変更してもよいし、必要な周波数帯域だけに絞るようにしてもよい。
 中央制御部201は、ステップS103にて、音圧レベル検出部2041による閾値を超える音圧レベルである音声が検出されるのを待つ。閾値を超える音圧レベルである音声が検出されると、ステップS104にて、音声メモリ2042はマイク104aからの音声データの受信、格納処理を開始する。
 また、ステップS105にて、中央制御部201は、電源制御部211を制御し、音声コマンド認識部2043への電力供給を開始する。この結果、音声コマンド認識部2043は、コマンドメモリ2046を参照した音声用メモリ2042に格納されていく音声データの認識処理を開始する。そして、音声コマンド認識部2043は、音声用メモリ2042に格納された音声データの認識処理を行い、コマンドメモリ2046内のいずれかの音声コマンドと一致すると音声コマンドを認識した場合、その認識された音声コマンドを特定する情報と、音声用メモリ2042内の、認識した音声コマンドを決定づけた最初と最後の音声データのアドレス(或いは音声コマンドを受け付けたタイミング)情報とを含む情報を中央制御部201に通知する。
 ステップS106にて、中央制御部201は、音声コマンド認識部2043から、音声コマンドが認識されたことを示す情報を受信したか否かを判定する。否の場合、中央制御部201は、処理をステップS108に進め、音声コマンド認識部2043を起動させてからの経過時間が、予め設定された閾値を超えたか否かを判定する。そして、経過時間が閾値以内である限り、中央制御部201は、音声コマンド認識部2043による音声コマンドが認識されるのを待つ。そして、閾値が示す時間が経過しても、音声コマンド認識部2043が音声コマンドを認識しなかった場合、中央制御部201は処理をステップS109に進める。このステップS109にて、中央制御部201は、電源制御部211を制御して音声コマンド認識部2043への電力を遮断する。そして、中央制御部201は、処理をステップS103に戻す。
 一方、中央制御部201が、音声コマンド認識部2043から、音声コマンドが認識されたことを示す情報を受信した場合、処理をステップS107に進める。このステップS107にて、中央制御部201は、認識された音声コマンドが、図8に示される起動コマンドに対応するか否かを判定する。そして、認識された音声コマンドが起動コマンド以外のコマンドであると判定した場合、中央制御部201は処理をステップS108に進める。また、認識された音声コマンドが起動コマンドであった場合、中央制御部201は処理をステップS107からステップS110に進める。
 ステップS110にて、中央制御部201は、電源制御部211を制御し、音方向検出部2044、マイク104b乃至104dへの電力供給を開始する。この結果、音方向検出部2044は、4つのマイク104a乃至104dからの同時刻の音声データに基づく、音源方向の検出処理を開始する。音源の方向の検出処理は、所定周期で行われる。そして、音方向検出部2044は、検出した音方向を示す音方向情報を、内部のバッファメモリ2044aに格納していく。このとき、音方向検出部2044は、音方向情報を決定に利用した音声データのタイミングが、音声メモリ2042に格納された音声データのどのタイミングであったのかを対応付くように、バッファメモリ2044aに格納する。典型的には、バッファメモリ2044aに格納するのは、音方向と、音声メモリ2042内の音声データのアドレスとすればよい。なお、音方向情報には、水平面における、先に説明した基準角度に対する音源の方向との差を表す角度とする。また、詳細は後述するが、音源が撮像装置1の真上に位置する場合には、真上方向にあることを示す情報が音方向情報にセットされるものとする。
 ステップS111にて、中央制御部201は、電源制御部211を制御し、撮像部102、及び、レンズアクチュエータ制御部103への電力供給を開始する。この結果、可動撮像部100は、撮像装置としての機能し始める。
 次に、ステップS151にて、中央制御部201は、音声コマンド認識部2043から、音声コマンドが認識されたことを示す情報を受信したか否かを判定する。否の場合、中央制御部201は、処理をステップS152に進め、現在、ユーザからの指示に従った実行中のジョブがあるか否かを判定する。詳細は図6のフローチャートの説明から明らかになるが、動画撮影記録や追尾処理等がジョブに相当する。ここでは、そのような実行中のジョブは存在しないものとして説明を続ける。
 ステップS153にて、前回の音声コマンドを認識してからの経過時間が、予め設定された閾値を超えるか否かを判定する。否の場合、中央制御部201は処理をステップS151に戻し、音声コマンドの認識を待つ。そして、実行中のジョブが無く、且つ、前回の音声コマンドを認識してから閾値を超える時間が経過しても、更なる音声コマンドが認識されない場合、中央制御部201は処理をステップS154に進める。このステップS154にて、中央制御部201は、電源制御部211を制御し、撮像部102、レンズアクチュエータ103への電力を遮断する。そして、中央制御部201は、ステップS155にて、電源制御部211を制御し、音方向検出部2044への電力も遮断し、処理をステップS106に戻す。
 さて、中央制御部201が音声コマンド認識部2043から音声コマンドが認識されたことを示す情報を受信したとする。この場合、音声コマンド認識部2043は、処理をステップS151からステップS156に進める。
 本実施形態における中央制御部201は、認識した音声コマンドに応じたジョブを実行するに先立って、音声コマンドの発生した人物を、可動撮像部100の撮像部102の視野内に入れる処理を行う。そして、撮像部102の視野内に人物が入っている状態で、認識した音声コマンドに基づくジョブを実行する。
 上記を実現するため、中央制御部201は、ステップS156にて、音声コマンド認識部2043で認識された音声コマンドに同期する音方向情報を、音方向検出部2044のバッファメモリ2044aから取得する。音声コマンド認識部2043は、音声コマンドを認識したとき、音声用メモリ2042内の音声コマンドを表す先頭と終端を表す2つのアドレスを中央制御部201に通知する。そこで、中央制御部201は、この2つのアドレスが示す期間内で検出した音方向情報をバッファメモリ2044aから取得する。2つのアドレスが示す期間内に複数の音方向情報が存在することもある。その場合、中央制御部201はその中の時間的に最も後の音方向情報をバッファメモリ2044aから取得する。時間的に後の音方向情報の方が、その音声コマンドを発した人物の現在の位置を表している蓋然性が高いからである。
 ステップS157にて、中央制御部201は、取得した音情報が表す音源の方向が、撮像装置の真上の方向であるか否かを判定する。なお、音方向が撮像装置の真上であるか否かの判定についての詳細は項後述する。
 音源が撮像装置1の真上の方向にある場合、中央制御部201は処理をステップS158に進める。このステップS158にて、中央制御部201は、回動制御部213を制御し、レンズ部101及び撮像部102の撮像方向を図4の4cに示す真上方向になるように、可動撮像部100の第2筐体151を回動させる。撮像部102の撮像方向が真上方向になった場合、中央制御部201は、ステップS159にて、映像信号処理部203から撮像画像を受信し、撮像画像内に音声発生原となるオブジェクト(人物の顔)が存在するか否かを判定する。否の場合、中央制御部201は処理をステップS151に戻す。一方、撮像画像内にオブジェクトが存在する場合、中央制御部201は処理をステップS164に進め、既に認識した音声コマンドに対応するジョブを実行する。なお、このステップS164の詳細は図6を用いて後述する。
 ステップS157にて、中央制御部201が、音情報が示す方向が真上以外の方向であると判定した場合、処理をステップS160に進める。このステップS160にて、中央制御部201は、回動制御部213を制御して、可動撮像部100のパン動作を行い、現在の撮像部102の水平面の角度を、音情報が示す水平面の角度に一致させる。そして、ステップS161にて、中央制御部201は、映像信号処理部203から撮像画像を受信し、撮像画像内に音声発生原となるオブジェクト(顔)が存在するか否かを判定する。否の場合、中央制御部201は処理をステップS162に進め、回動制御部213を制御して、目標とするオブジェクトに向かって可動撮像部100のチルト動作を行う。そして、ステップS163にて、中央制御部201は、撮像部102の撮像方向のチルトの向きの角度が、チルト動作の上限(本実施形態では水平方向に対して90度)に到達したか否かを判定する。否の場合には、中央制御部201は処理をステップS161に戻す。こうして、中央制御部201は、チルト動作を行いながら、映像信号処理部203からの撮像画像内に音声発生原となるオブジェクト(顔)が存在するか否かを判定していく。そして、撮像部102の撮像方向のチルトの向きの角度がチルト動作の上限に到達してもオブジェクトが検出されない場合、中央制御部201は処理をステップS163からステップS151に戻す。一方、撮像画像内にオブジェクトが存在した場合、中央制御部201は処理をステップS164に進め、既に認識した音声コマンドに対応するジョブを実行する。
 次に、図6のフローチャート、並びに、図7に示す音声コマンドテーブルに基づいて、ステップS164の処理の詳細を説明する。図7の音声コマンドテーブルに示される“Hi, Camera"等の音声コマンドに対応する音声パターンデータはコマンドメモリ2046に格納されるものである。なお、図7には代表的な音声コマンドを示す。なお音声コマンドはこれに限られない。また、以下の説明における音声コマンドは、図5BのステップS151のタイミングで検出された音声コマンドである点に注意されたい。
 まず、ステップS201にて、中央制御部201は、音声コマンドが、起動コマンドであるか否かを判定する。
 この起動コマンドは、撮像装置1に対し、撮像可能な状態に遷移させるための音声コマンドである。この起動コマンドは、図5AのステップS107で判定されるコマンドであり、撮像に係るジョブを実行させるためのコマンドではない。よって、中央制御部201は、認識した音声コマンドが起動コマンドである場合には、そのコマンドについては無視し、処理をステップS151に戻す。
 ステップS202にて、中央制御部201は、音声コマンドが、停止コマンドであるか否かを判定する。この停止コマンドは、一連の撮像可の状態から、起動コマンドの入力を待つ状態に遷移させるコマンドである。よって、中央制御部201は、認識した音声コマンドが停止コマンドである場合には、処理をステップS211に進める。ステップS211にて、中央制御部201は、電源制御部211を制御し、既に起動している撮像部102、音方向検出部2044、音声コマンド認識部2043、動画用音声処理部2045、マイク104b乃至104d等への電力を遮断し、これらを停止する。そして、中央制御部201は、処理を起動時のステップS103に戻す。
 ステップS203にて、中央制御部201は、音声コマンドが静止画撮影コマンドであるか否かを判定する。この静止画撮影コマンドは、撮像装置1に対して1枚の静止画の撮影・記録ジョブの実行の要求を行うコマンドである。よって、中央制御部201は、音声コマンドが静止画撮影コマンドであると判定した場合、処理をステップS212に進める。ステップS212にて、中央制御部201は、撮像部102で撮像した1枚の静止画像データを例えばJPEGファイルとして、記憶部206に記録する。なお、この静止画撮影コマンドのジョブが、1枚の静止画撮影記録により完結するので、先に説明した図5BのステップS152で判定する対象のジョブとはならない。
 ステップS204にて、中央制御部201は、音声コマンドが動画撮影コマンドであるか否かを判定する。動画撮影コマンドは、撮像装置1に対して動画像の撮像と記録を要求するコマンドである。中央制御部201は、音声コマンドが動画撮影コマンドであると判定した場合、処理をステップS213に進める。このステップS213にて、中央制御部201は、撮像部102を用いて動画像の撮影と記録を開始し、処理をステップS151に戻す。本実施形態では、撮像した動画像は記憶部206に格納されるものとするが、外部入出力端子部208を介してネットワーク上のファイルサーバに送信しても構わない。動画撮影コマンドは、動画像の撮像、記録を継続させるコマンドであるので、このコマンドによるジョブは、先に説明したステップS152で判定する対象のジョブとなる。
 ステップS205にて、中央制御部201は、音声コマンドが動画撮影終了コマンドであるか否かを判定する。中央制御部201は、音声コマンドが動画撮影終了コマンドであり、尚且つ、現に動画像の撮像・記録中である場合には、その記録(ジョブ)を終了する。そして、中央制御部201は処理をステップS151に戻す。
 ステップS206にて、中央制御部201は、音声コマンドが追尾コマンドであるか否かを判定する。追尾コマンドは、撮像装置1に対して、撮像部102の撮像方向に、ユーザを継続して位置させることを要求するコマンドである。中央制御部201は、音声コマンドが追尾コマンドであると判定した場合、処理をステップS214に進める。そして、ステップS214にて、中央制御部201は、映像信号処理部203で得られた映像の中心位置にオブジェクトが位置し続けるように、回動制御部213の制御を開始する。そして、中央制御部201は処理をステップS151に戻す。この結果、可動撮像部100がパン動作、或いはチルト動作を行い、移動するユーザを追尾する。ただし、ユーザを追尾するものの、撮像した画像の記録は行わない。また、追尾している間は、先に説明した図5BのステップS152で判定する対象のジョブとなる。そして、追尾終了コマンドを受信して初めて、中央制御部201はこの動画像の撮影記録を終了する。なお、追尾中に、例えば静止画撮影コマンドや動画撮影コマンドのジョブを実行しても構わない。
 ステップS207にて、中央制御部201は、音声コマンドが追尾終了コマンドであるか否かを判定する。中央制御部201は、音声コマンドが追尾終了コマンドであり、尚且つ、現に追尾中である場合には、その記録(ジョブ)を終了する。そして、中央制御部201は処理をステップS151に戻す。
 ステップS208にて、中央制御部201は、音声コマンドが自動動画撮影コマンドであるか否かを判定する。中央制御部201は、音声コマンドが自動動画撮影コマンドであると判定した場合、処理をステップS217に進める。このステップS217にて、中央制御部201は、撮像部102による動画像の撮影と記録を開始し、処理をステップS151に戻す。この自動動画撮影コマンドにより実行されるジョブと、先に説明した動画撮影コマンドにより実行されるジョブとの違いは、発声がある度に、その発声の音源の方向にレンズ部101の撮像方向を向けつつ動画像を撮影、記録を行う点である。例えば、複数の話者が存在するミーティングの環境下で、発言があるたびにその発言者をレンズ部101の画角内に収めるために、パン動作、およびチルト動作を行いながら、動画像を記録する。なお、この場合、この自動動画撮影コマンドのジョブを実行中はジョブを終了させる音声コマンドを受け付けない。このジョブの終了は、操作部205に設けられた所定のスイッチ操作によって終了するものとする。また、このジョブを実行中、中央制御部201は、音声コマンド認識部2043を停止させる。そして、中央制御部201は、音圧レベル検出部2041により、閾値を超える音圧レベルを検出したタイミングでの、音方向検出部2044が検出した音方向情報を参照して、可動撮像部104のパン動作、チルト動作を行う。
 なお、図6には示していないが、認識した音声コマンドが拡大コマンドである場合、中央制御部201はレンズアクチュエータ制御部103を制御し、予め設定された値だけ、現在のズーム倍率を増加させる。また、認識した音声コマンドが拡大コマンドである場合、中央制御部201はレンズアクチュエータ制御部103を制御し、予め設定された値だけ、現在のズーム倍率を減少させる。なお、レンズ部101が既にテレ端、或いは、ワイド端にあるとき、それを超えた拡大率、縮小率は設定できないので、このような音声コマンドがあった場合、中央制御部201はその音声コマンドを無視する。
 以上であるが、上記以外の音声コマンドについては、ステップS207以降で実行されるが、ここでの説明は省略する。
 ここで、本実施形態における撮像装置1におけるメイン電源ONからの処理のシーケンスの一例を図8に示すタイミングチャートに従って説明する。
 撮像装置1のメイン電源がONになると、音圧レベル検出部2041はマイク1014aからの音声データの音圧レベルの検出処理を開始する。タイミングT601にて、ユーザは、起動コマンド“Hi,Camera”の発声を開始したとする。この結果、音圧レベル検出部2041が閾値を超える音圧を検出する。そして、これがトリガになって、タイミングT602にて、音声用メモリ2042がマイク104aからの音声データの格納を開始し、音声コマンド認識部2043が音声コマンドの認識を開始する。ユーザが起動コマンド“Hi,Camera”の発声を終えると、タイミングT603にて、音声コマンド認識部2043がその音声コマンドを認識し、且つ、認識した音声コマンドが起動コマンドであることを特定する。
 中央制御部201は、この起動コマンドが認識されたことをトリガにして、タイミングT603にて音方向検出部2044に電力供給を開始する。また、中央制御部201は、タイミングT604にて撮像部102への電力供給も開始する。
 ユーザは、タイミングT606にて、例えば“Movie start”の発声を開始したとする。この場合、発生の開始のタイミングの音声データは、タイミングT607から順に音声用メモリ2042に格納されていく。そして、タイミングT608にて、音声コマンド認識部2043が、音声データを“Movie start”を表す音声コマンドとして認識する。音声コマンド認識部2043は、音声用メモリ2042内の“Movie start”を表す音声データの先頭と終端のアドレスと、認識結果を中央制御部201に通知する。中央制御部201は、受信した先頭と終端のアドレスが表す範囲を有効範囲として決定する。そして、中央制御部201は、音方向検出部2044のバッファ2044a内の、有効範囲内から、最新の音方向情報を抽出し、タイミングT609にて、その抽出した情報に基づいて、駆動制御部213を制御して、可動撮像部100のパン動作、チルト動作を開始する。
 可動撮像部100のパン動作、チルト動作中に、タイミングT612にて、撮像信号処理部202が、撮像部102を用いて生成された画像に被写体(オブジェクト;顔)を検出した場合、中央制御部201はパン動作、チルト動作を停止する(タイミングT613)。また、タイミングT614にて、中央制御部201は、動画用音声処理部2045に電力を供給して、マイク104a、及び、104bによるステレオ音声の集音状態にする。そして、中央制御部201は、タイミングT615にて、音声付動画像の撮像と記録を開始する。
 次に、本実施形態における音方向検出部2044による音源方向の検出処理を説明する。この処理は、図5AのステップS110以降、周期的に、且つ、継続的に行われるものである。
 まず、図9Aを用いて、マイク104aとマイク104bの2つのマイクを用いた簡易の音方向検知を説明する。同図は、マイク104aとマイク104bが平面上(パン動作の回転軸に垂直な平面上)に配置されているとする。マイク104aとマイク104bの距離をd[a‐b]と表す。距離d[a‐b]に対して、撮像装置1と音源間の距離は十分に大きいと仮定する。この場合、マイク104aとマイク104bの音声を比較することによって、両者間の音声の遅延時間を特定することができる。
 到達遅延時間に音速(空気中は約340m/s)を乗じることで、距離I[a‐b]を特定することができる。その結果、次式で音源方向角度θ[a‐b]を特定することができる。
θ[a‐b]=acos(I[a‐b]/d[a‐b])
 しかしながら、2つのマイクで求めた音方向は、求めた音源方向θ[a‐b]とθ[a‐b]’(図9A)との区別ができない。つまり、2つの方向のいずれであるのかまでは特定できない。
 そこで、本実施形態における音源の方向の検出方法を以下、図9B,9Cを用いて説明する。具体的には、2つのマイクで推定できる音源方向は2つあるので、それら2つの方向を仮方向として扱う。そして、更なる2つのマイクで音源の方向を求め、仮方向を2つ求める。そして、これらに共通している方向が、求める音源の方向として決定する。なお、図9B,9Cの上方向を可動撮像部100の撮像方向とする。可動撮像部100の撮像方向は、レンズ部101の光軸方向(主軸方向)とも言い換えられる。
 図9Bは3つのマイクで行う方式である。マイク104a、マイク104b、マイク104cを用いて説明する。図3Aで示したような配置図であると、マイク104a、マイク104bの並ぶ方向に直交する方向がレンズ部101の撮像方向となる。
 図9Aで説明したように、マイク104a、マイク104bより、距離d[a‐b]は既知であり、音声データより距離I[a‐b]を特定することができれば、θ[a‐b]を特定できる。さらにマイク104a、マイク104c間の距離d[a‐c]も既知であるので、音声データより距離I[a‐c]も特定することができ、θ[a‐c]を特定できる。θ[a‐b]及びθ[a‐c]が算出できれば、マイク104a,104b、104cの配置と同一2次元平面上(パン動作の回転軸に垂直な平面上)における、それらに共通な方角が、正確な音声発生方向として決定できる。
 図9Cを用いて、4つのマイクで音源方向を決定する方法を説明する。図3Aに示すマイク104a、マイク104b、マイク104c、マイク104dの配置により、マイク104a、マイク104bの並ぶ方向に直交する方向がレンズ部101の撮像方向(光軸方向)となる。マイク4つを利用する場合、対角線上に位置するマイク104aと104dのペアと、マイク10bとマイク104cのペアの2つのペアを用いると精度よく音源方向を算出できる。
 マイク104a、マイク104d間の距離d[a‐d]は既知であるので、音声データから距離I[a‐d]を特定できるので、θ[a‐d]も特定できる。
 更にマイク104b、マイク104c間の距離d[b‐c]も既知であるので、音声データより距離I[b‐c]を特定できるので、θ[b‐c]を特定できる。
 よって、θ[a‐d]及びθ[b‐c]がわかれば、マイクの配置と同一2次元平面上では正確な音声発生方向を検知することが可能である。
 さらに、θ[a‐b]、θ[c‐d]と検知角度を増やしていけば、方向検知の角度の精度を高めることも可能である。
 以上のよう処理を行うため、マイク104aとマイク104bとマイク104cおよびマイク104dは図3Aのように長方形の4つの頂点に配置した。なお、マイクの数が3つであっても、それらが直線状に並ばないのであれば、必ずしも4つである必要はない。
 上記の方法のデメリットとして、同一2次元平面上の音方向しか検知しかできない。そのため、音源が撮像装置1の真上に位置する場合には、その方向を検出できない。そこで、次に、音方向検出部2044における、音源の存在する方向として真上であるか否かの判定原理を図10A,10Bを参照して説明する。
 図10Aは3つのマイクで行う方式を説明するための図である。マイク104a、マイク104b、マイク104cを用いて説明する。図3Aで示したような配置図であると、マイク104a、マイク104bの並び方向に直交する方向がレンズ部101の撮像方向(光軸方向)である。マイク104a、マイク104bの並び方向とは、マイク104aの中心点とマイク104bの中心点とを結ぶ直線の方向である。
 音声入力部104の配置されている平面に対して、垂直に交わる直線状、すなわち上方向からマイク104a、マイク104b、マイク104cに音声が入ってきたときについて記載する。
 ここで、撮像装置1の真上に音源が位置する場合、その音源からマイク104aとマイク104bは等距離にあると見なせる。つまり、音源からこれら2つのマイク104aと104bに到達する音の時間差は無い。そのため、マイク104aとマイク104bを結ぶ直線に対して、垂直に交わる方向に音源があると認識される。
 さらに、マイク104aとマイク104cも同様に音源からは等距離にあると見なせるので、やはり音源からこれら2つのマイク104aと104cに到達する音の時間差は無い。そのため、マイク104aとマイク104cを結ぶ直線に対して、垂直に交わる方向に音源があると認識される。
 つまり、マイク104aとマイク104bで検出した音の時間差の絶対値をΔT1とし、マイク104aとマイク104cで検出した音の時間差の絶対値をΔT2とし、予め設定された十分に小さい閾値εとの関係が次の条件を満たす場合、音源が撮像装置1の真上に位置すると判定できる。
条件:ΔT1<ε かつ ΔT2<ε
 図10Bを参照し、4つのマイク104a、マイク104b、マイク104c、マイク104dを用いた、撮像装置1の真上に位置する音源の検出法を説明する。図3Aに示すように、マイク104a、マイク104dのペアと、マイク104bとマイク10cのペアについて考察する。
 撮像装置1の真上に音源が存在する場合、その音源からマイク104aとマイク104dは等距離になるので、これらマイク104aとマイク104dで検出する音の時間差の絶対値ΔT3はゼロか、非常に小さい値となる。つまり、マイク104aとマイク104dを結ぶ直線に対して、垂直に交わる方向に音源があると認識となる。
 さらに、マイク104bとマイク104cも、音源からは等距離になるため、これらマイク104bとマイク104cで検出する音の時間差の絶対値ΔT4もゼロか、非常に小さい値となる。つまり、マイク104bとマイク104cを結ぶ直線に対して、垂直に交わる方向に音源があると認識となる。故に、次の条件を満たす場合、音源が撮像装置1の真上に位置すると判定できる。
条件:ΔT3<ε 且つ ΔT4<ε
 以上のように、3つ以上のマイクのうちの2つのペアについて、音の到達時間差の絶対値を求め、それら2つの絶対値が共に十分に小さい閾値未満になった場合に、音源の存在方向を真上であると決定できる。なお、2つのペアを決めるとき、それら2つのペアの向きが互いに非平行となるように決定すれば、どのような組み合わせでもよい。
 以上、第1の実施形態を説明した。上記実施形態によれば、音声コマンドを発声した人物(の顔)以外を誤って被写体とすることを抑制できる。また、音声コマンドを発した人物の意図したジョブを実行することも可能になる。
 更に、上記実施形態で説明したように、マイク104a乃至104d、音声信号処理部204を構成する各要素は、実際にそれらが利用する段階でなって初めて中央制御部201の制御の下で電力供給が行われるので、全構成要素が可動状態にある場合と比較して、電力消費量を抑制できる。
 [第2の実施形態]
 第2の実施形態を説明する。本第2の実施形態における装置構成は第1の実施形態と同じとする。また、音声コマンド認識部2043が音声コマンドとして動画像撮影コマンドを既に認識し、且つ、音方向検出部2044がその音声コマンドを発声したユーザの方向も既に検出しているものとして説明する。
 上記第1の実施形態では、撮像装置1は音声コマンドとして動画像撮影コマンドを認識した場合、その音声コマンドの発生源の存在する方向と、レンズ部101の撮像方向(光軸方向)とを一致させるべく、可動撮像部100のパン動作、チルト動作を行った。そして、撮像装置1はこのパン動作、チルト動作にて、被写体検出処理を行った。そして、最終的に、撮像装置1は被写体を撮像部102による撮像画像内に被写体が存在することを条件に、動画像の撮影記録を開始した。
 従って、ユーザは、動画像撮影コマンドを発声したとしても、そのジョブが実行されるまで多少の時間だけ待つ必要がある。また、パン動作中は、撮像部102から得られる画像は水平方向に流れ、レンズ部101によるフォーカシングが難しいという問題もある。
 そこで、本第2の実施形態では、撮像部102による上記待ち時間を短くしつつ、いわゆるピンボケの状態でのジョブを開始することを抑制する例を説明する。具体的には、音方向検出部2044で検出した音方向(以下、目標方向という)に向かうべく、中央制御部201は回動制御部性213による高速な第1のパン動作速度でパン動作を行う。この第1のパン動作速度で駆動を行う期間は、例えば、パン動作を開始する直前のレンズ部101の撮像方向(光軸方向)と目標方向との角度差の半分になるまでとし、撮像装置1はこの期間(第1のパン動作速度で駆動を行う期間)でのフォーカシング制御は行わない。そして、レンズ部101の撮像方向(光軸方向)と目標方向との角度差が、音声を認識した時点の角度の半分の角度になった場合、中央制御部201は、第1のパン動作速度よりも遅く、且つ、フォーカシングが可能な第2のパン動作速度となるよう回動制御部213の制御を行う。そして、中央制御部201は、第2のパン動作速度の期間中に、レンズアクチュエータ103を制御して、レンズ部101のフォーカシング制御を開始する。そして、中央制御部201は次の条件を満たした場合、動画像の撮影記録を開始する。
・条件:撮像部102による画像が合焦状態、且つ、レンズ部101の撮像方向(光軸方向)と目標方向との角度差が予め設定された閾値α以下。
ここで閾値αは、撮像部102が撮像可能な画角の左右端とその中心との成す角度とする。閾値α以下になれば、被写体が撮像部102による撮像画像内に入り始めると推定できるからである。ここで、第2のパン動作速度v2は初期速度である第1のパン動作速度v1から所定の加速度で減速する速度である。
 図11A,11Bは、本第2の実施形態における音声コマンド認識部2043による音声コマンド認識をトリガにして開始される処理を示すフローチャートである。このフローチャートに係るプログラムは、中央制御部201が有するROMに格納されているものである。図12は、本第2の実施形態における音声コマンド認識後の処理のシーケンスを示す図である。以下、これらの図を参照して、第2の実施形態における中央制御部201の処理を説明する。また、ここでは音声コマンドとして動画像撮影コマンドが認識されたものとして説明する。
 まず、ステップS1001にて、中央制御部201は、音声コマンド認識部2043から、認識した音声コマンドの元になった音声データの先頭と終端のアドレスが示す有効期間内(発声期間内でもある)で検出した音方向情報を、音方向検出部2044のバッファメモリ2044aから取得する。そして、ステップS1002にて、中央制御部201は、取得した音方向情報が示す方向が、現在の可動撮像部100の撮像部102の画角内にあるか否かを判定する。
 音方向情報が示す方向が現在の撮像部102の画角内にある場合、中央制御部201は、処理をステップS1003に進め、認識した動画像の撮影記録を開始する。
 一方、音方向情報が示す方向が現在の可動撮像部100の画角外にある場合、中央制御部201は、処理をステップS1004に進める。このステップS1004にて、中央制御部201は、現在のレンズ部101の撮像方向(光軸方向)Aと、S1001で取得した音源方向Cとからパン動作を行う角度θを算出し、撮像方向Aからパン動作を行う角度がその半分の角度(前半の区間)では第1のパン動作速度v1で動作させ、残りの半分の角度(後半の区間)を所定の加速度でパン動作を減速した場合に要する時間(=t4-t0)を算出する。
 レンズ部101は、PI(Photo Interrupter)により、発光部からの光を物体が遮るのを受光部で検出することによって、位置を検出する方法を用いていることを前提に説明する。この場合、現在のレンズ部101の方向をA、目標方向をC、レンズ部101の方向Aと目標方向Cのなす角度の中間の方向をBとする。レンズ部101の方向Aと目標方向Cのなす角度θに応じてPIのステップ数PIACが決まる。このステップ数PIACから、第1のパン動作速度で駆動する前半の区間の距離DABおよび第2のパン動作速度で駆動する後半の区間の距離DBCを中央制御部201は算出する。前半の区間を第1のパン動作速度で駆動する期間(t1-t0)は、DAB/v1として求めることができる。また、後半の区間を第2のパン動作速度v2で駆動する期間(t4-t1)は、DBC/v2(ただし、本実施形態ではDBC=DABとする)となる。ここで前述したように、第2のパン動作速度v2は初期速度である第1のパン動作速度v1から所定の加速度で減速する速度である。
 ステップS1006にて、中央制御部201は、回動制御部213を制御し、可動撮像部100の第1のパン動作速度v1で目標とする方向に向けてパン動作を開始する。そして、ステップS1007にて、中央制御部201は、パン動作の時間がDAB/v1となったと判定されるまで、このパン動作を継続する。
 そして、パン動作を開始してからの時間がDAB/v1になった場合、中央制御部201は、ステップS1008にて、パン動作が終了する時刻t4まで、パン動作速度を第2のパン動作速度v2に設定する。そして、ステップS1009にて、中央制御部201は、現在のレンズ部101の撮像方向(光軸方向)と目標方向との成す角度が予め設定された閾値α以下であるか否かを判定する。閾値α以下になると、被写体が画角内に入っている可能性があるので、ステップS1010にて、中央制御部201は、フォーカス状態値AFを求める。そして、ステップS1011にて、中央制御部201は、求めたフォーカス状態値AFが所定閾値AFth以内であるかを判定する。フォーカス状態値AFが所定閾値AFth以内であるとき、合焦状態である。そのため、中央制御部201はパン動作が完了していなくても、認識した動画撮影コマンドに基づくジョブを開始すべく処理をステップS1003に進める。
 一方、フォーカス状態値AFが所定閾値AFthを超える場合、中央制御部201は処理をステップS1012に進め、当初計画したパン動作時間が経過したか否かを判定する。なお、このステップS1012にて、中央制御部201は、レンズ部101の撮像方向(光軸方向)が目標方向に到達したか否かを判定しても構わない。そして、ステップS1012の判定が否(No)の場合、中央制御部201は処理をステップS1008に戻す。
 一方、ステップS1012の判定が是(Yes)の場合、中央制御部201は処理をステップS1013に進める。このステップS1013にて、中央制御部201は、回動制御部213を制御し、回動駆動部の駆動をパン動作からチルト動作に切換え、チルト動作を開始する。
 そして、中央制御部201は、ステップS1014にて被写体の検出、もしくは、チルト上限への到達のいずれかが判定されるまで、ステップS1013のチルト動作を継続する。被写体が検出された場合(タイミングt5)、中央制御部201は、チルト動作を止め、処理をステップS1003に進める。一方、被写体未検出のまま、チルトの上限まで到達した場合(タイミングt6)、中央制御部201はエラー処理を行う。このエラーでは、例えば認識した静止画撮影開始コマンドを実行しない、等の処理となる。
 以上であるが、本第2の実施形態に係る処理を、第1の実施形態に適用するのであれば、第1の実施形態におけるステップS160以降の処理を、第2の実施形態におけるステップS1002以降の処理で置き換えればよい。この場合、第2の実施形態におけるステップS1015はステップS163に対応させればよい。
 なお、上記第2の実施形態では、レンズ部101の撮像方向(光軸方向)を目標方向に一致させるためのパン動作期間を二分し、前期間では第1のパン動作速度にし、後期間では、それより低速の第2のパン動作速度に切り換える例を説明した。しかし、第1のパン動作速度での駆動期間に到達したとき、目標方向でパン動作速度がゼロとなるように、一定加速度で減速するようにしてもよい。
 以上より、本第2の実施形態によれば、特定の音声の発生位置が、現在の画角Aの外にあり、パン・チルト駆動で画角を変更して被写体を捉える必要がある場合にも、不要なパン・チルト駆動やフォーカシング後から、動画記録を開始することができる。さらに、パン動作の速度を切り替えることで、フォーカシングを行うことができ、動画記録の開始タイミングを第1の実施形態よりも早めることもできる。
 上記実施形態では、音圧レベル検出部2041、音声コマンド認識部2043、音方向検出部2044、動画用音声処理部2045等が、中央制御部201とは独立した処理部とする例を説明した。しかしながら、中央制御部201が、これらの全部或いは一部を、プログラムを実行することで代替しても構わない。
 (その他の実施例)
 本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
 本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために、以下の請求項を添付する。
 本願は、2017年12月26日提出の日本国特許出願特願2017-250106、および、2018年11月2日提出の日本国特許出願特願2018-207633を基礎として優先権を主張するものであり、その記載内容の全てを、ここに援用する。

Claims (16)

  1.  撮像手段と、
     音声を集音する集音手段と、
     前記集音手段によって集音した音声が所定の音圧より大きいか否かを検出する検出手段と、
     前記集音手段によって集音した音声が、前記撮像手段による撮影を指示する音声であることを認識する認識手段と、を有し、
     前記集音手段によって集音した音声が、前記検出手段によって前記所定の音圧より大きいと検出され、かつ前記認識手段によって前記撮像手段による撮影を指示する音声であると認識された場合、前記撮像手段による撮影を行う
     ことを特徴とする撮像装置。
  2.  前記認識手段は、前記検出手段により前記集音手段によって集音した音声が前記所定の音圧より大きいと検出されたことに応じて起動することを特徴とする請求項1に記載の撮像装置。
  3.  さらに制御手段と、
     前記撮像手段をパン動作およびチルト動作させる駆動手段を有し、
     前記集音手段は複数のマイクで構成され、
     前記複数のマイクは前記駆動手段によるパン動作の回転軸に対して垂直な平面に配置される
     ことを特徴とする請求項1または2に記載の撮像装置。
  4.  前記複数のマイクは第一のマイクおよび第二のマイクを含み、
     前記撮像手段の光軸を含む、前記撮像装置の底面に対して垂直な平面で前記撮像装置を二つの領域に分けた場合、一方に前記第一のマイクが配置され、他方に前記第二のマイクが配置される
     ことを特徴とする請求項3に記載の撮像装置。
  5.  前記第一のマイクの配置および第二のマイクの配置は前記撮像手段の光軸に関して対称である
     ことを特徴とする請求項4に記載の撮像装置。
  6.  前記撮像手段は動画像を撮影可能であり、
     前記第一のマイクは前記動画像のLチャネルの音声を集音し、前記第二のマイクは前記動画像のRチャネルの音声を集音することを特徴とする請求項4または5に記載の撮像装置。
  7.  さらに、前記複数のマイクは前記第一のマイクおよび前記第二のマイクを結ぶ直線上ではない部分に配置される第三のマイクを含み、
     前記第一のマイクおよび前記第二のマイクを用いて検出した前記音声の音源の方向と、前記第三のマイクおよび前記第三のマイク以外のマイクを用いて検出した前記音源の方向と、に基づいて、前記音声の音源の方向を検出する方向検出手段を有する
     ことを特徴とする請求項4から6のいずれか1項に記載の撮像装置。
  8.  前記方向検出手段は、前記第一のマイクおよび前記第二のマイクで構成される第一のペアを用いて検出した前記音声の音源の方向が前記第一のマイクおよび前記第二のマイクを結ぶ直線に対して垂直であると判断し、かつ前記第三のマイクおよび前記第三のマイク以外のマイクで構成される第二のペアを用いて検出した前記音声の音源の方向が前記第三のマイクおよび前記第三のマイク以外の前記マイクを結ぶ直線に対して垂直であると判断した場合、前記音源は前記回転軸の軸方向にあると判断する
     ことを特徴とする請求項7に記載の撮像装置。
  9.  前記方向検出手段は、前記第一のペアの2つのマイクの前記音声を集音した時間差から求めた前記音声の音源の方向と、前記第二のペアの2つのマイクの前記音声を集音した時間差から求めた前記音声の音源の方向と、から前記回転軸に垂直な面における前記音声の音源の方向を検出する
     ことを特徴とする請求項7または8に記載の撮像装置。
  10.  さらに電力供給手段を有し、
     前記複数のマイクのうちすべてのマイクには電力を供給しない状態において、前記音声が所定の音圧を超えたことを前記検出手段が検出したことに応じて、前記電力供給手段は前記集音手段のすべてのマイクに電力を供給し、
     前記方向検出手段は前記音声の音源の方向を検出することを特徴とする
     請求項7から9のいずれか1項に記載の撮像装置。
  11.  前記制御手段は前記撮像手段の撮像方向を前記方向検出手段によって検出された前記音声の音源の方向となるようパン動作させるよう前記駆動手段を制御し、前記撮像方向が前記方向検出手段によって検出された前記音声の音源の方向となった場合、前記制御手段は前記撮像手段をチルト動作させるよう前記駆動手段を制御し、
     前記撮像手段が被写体を検出した場合、前記制御手段は前記撮像手段のチルト動作を停止するよう前記駆動手段を制御する
     ことを特徴とする請求項7から10のいずれか1項に記載の撮像装置。
  12.  前記駆動手段によってパン動作する距離を二つの区間に分けた場合、その前半の区間では第一の速度で前記撮像手段をパン動作させ、その後半の区間では前記第一の速度から減速して前記撮像手段をパン動作させるよう、前記制御手段は前記駆動手段を制御し、
     前記撮像手段は、前記前半の期間ではフォーカシングを行わず、前記後半の期間ではフォーカシングを行う
     ことを特徴とする請求項3から11のいずれか1項に記載の撮像装置。
  13.  前記制御手段は、前記後半の区間では、前記第一の速度から所定の加速度で減速して前記撮像手段を駆動するよう前記駆動手段を制御することを特徴とする請求項12に記載の撮像装置。
  14.  前記撮像手段による撮影を指示する音声に応じて、前記制御手段は前記撮像手段の撮像方向を被写体に追尾するように前記駆動手段を制御し、
     前記撮像手段は、静止画の撮影及び記録、または音声付の動画像の撮影及び記録する
     ことを特徴とする請求項3から13のいずれか1項に記載の撮像装置。
  15.  撮像手段を有する撮像装置の制御方法であって、
     音声を集音する集音ステップと、
     前記集音ステップで集音した音声が所定の音圧より大きいか否かを検出する検出ステップと、
     前記集音ステップで集音した音声が、前記撮像手段による撮影を指示する音声であることを認識する認識ステップと、
     前記集音ステップで集音した音声が、前記検出ステップで前記所定の音圧より大きいと検出され、かつ前記認識ステップで前記撮像手段による撮影を指示する音声であると認識された場合、前記撮像手段による撮影を行うステップとを有する
     ことを特徴とする撮像装置の制御方法。
  16.  撮像手段を有する撮像装置に制御方法を実行させるためのプログラムが記録された記録媒体、ここで前記制御方法は以下を含む:
     音声を集音する集音ステップと、
     前記集音ステップで集音した音声が所定の音圧より大きいか否かを検出する検出ステップと、
     前記集音ステップで集音した音声が、前記撮像手段による撮影を指示する音声であることを認識する認識ステップと、
     前記集音ステップで集音した音声が、前記検出ステップで前記所定の音圧より大きいと検出され、かつ前記認識ステップで前記撮像手段による撮影を指示する音声であると認識された場合、前記撮像手段による撮影を行うステップ。
PCT/JP2018/042696 2017-12-26 2018-11-19 撮像装置及びその制御方法及び記録媒体 WO2019130909A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201880084139.5A CN111527446B (zh) 2017-12-26 2018-11-19 摄像设备及其控制方法和记录介质
US16/910,649 US11503213B2 (en) 2017-12-26 2020-06-24 Image capturing apparatus, control method, and recording medium

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2017-250106 2017-12-26
JP2017250106 2017-12-26
JP2018207633A JP7292853B2 (ja) 2017-12-26 2018-11-02 撮像装置及びその制御方法及びプログラム
JP2018-207633 2018-11-02

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/910,649 Continuation US11503213B2 (en) 2017-12-26 2020-06-24 Image capturing apparatus, control method, and recording medium

Publications (1)

Publication Number Publication Date
WO2019130909A1 true WO2019130909A1 (ja) 2019-07-04

Family

ID=67067031

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/042696 WO2019130909A1 (ja) 2017-12-26 2018-11-19 撮像装置及びその制御方法及び記録媒体

Country Status (2)

Country Link
CN (1) CN111527446B (ja)
WO (1) WO2019130909A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI770762B (zh) * 2021-01-11 2022-07-11 圓展科技股份有限公司 影音系統及其控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09205574A (ja) * 1996-01-24 1997-08-05 Fuji Photo Optical Co Ltd ビデオカメラ装置の制御方法
JP2005184485A (ja) * 2003-12-19 2005-07-07 Casio Comput Co Ltd 撮像装置、撮像装置の動作制御方法及びプログラム
JP2009177480A (ja) * 2008-01-24 2009-08-06 Yamaha Corp 撮影装置
JP2011166608A (ja) * 2010-02-12 2011-08-25 Canon Inc 音源位置特定方法
JP2011188055A (ja) * 2010-03-05 2011-09-22 Panasonic Corp 撮像装置
JP2013121078A (ja) * 2011-12-07 2013-06-17 Fuji Xerox Co Ltd 対面角度出力装置、対面角度出力システムおよびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09289609A (ja) * 1996-04-24 1997-11-04 Aiphone Co Ltd カメラ監視装置
TWI235358B (en) * 2003-11-21 2005-07-01 Acer Inc Interactive speech method and system thereof
JP2005217862A (ja) * 2004-01-30 2005-08-11 Hitachi Kokusai Electric Inc 監視システム
CN2904500Y (zh) * 2006-06-01 2007-05-23 洪汉雄 可拍摄声源位置的摄像机
CN102496195A (zh) * 2011-12-02 2012-06-13 宁波通亿物联技术有限公司 一种移动式引航记录仪
CN102833476B (zh) * 2012-08-17 2015-01-21 歌尔声学股份有限公司 终端设备用摄像头和终端设备用摄像头的实现方法
CN104978956A (zh) * 2014-04-14 2015-10-14 美的集团股份有限公司 语音控制方法和系统
CN103957359B (zh) * 2014-05-15 2016-08-24 努比亚技术有限公司 摄像装置及其对焦方法
JP6504808B2 (ja) * 2014-12-22 2019-04-24 キヤノン株式会社 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体
JP2016156877A (ja) * 2015-02-23 2016-09-01 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN106292991A (zh) * 2015-06-01 2017-01-04 中兴通讯股份有限公司 一种降低终端设备功耗的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09205574A (ja) * 1996-01-24 1997-08-05 Fuji Photo Optical Co Ltd ビデオカメラ装置の制御方法
JP2005184485A (ja) * 2003-12-19 2005-07-07 Casio Comput Co Ltd 撮像装置、撮像装置の動作制御方法及びプログラム
JP2009177480A (ja) * 2008-01-24 2009-08-06 Yamaha Corp 撮影装置
JP2011166608A (ja) * 2010-02-12 2011-08-25 Canon Inc 音源位置特定方法
JP2011188055A (ja) * 2010-03-05 2011-09-22 Panasonic Corp 撮像装置
JP2013121078A (ja) * 2011-12-07 2013-06-17 Fuji Xerox Co Ltd 対面角度出力装置、対面角度出力システムおよびプログラム

Also Published As

Publication number Publication date
CN111527446B (zh) 2022-05-17
CN111527446A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
JP7292853B2 (ja) 撮像装置及びその制御方法及びプログラム
US11265477B2 (en) Image capturing apparatus and non-transitory recording medium
US8885069B2 (en) View angle manipulation by optical and electronic zoom control
US20200329202A1 (en) Image capturing apparatus, control method, and recording medium
US8823814B2 (en) Imaging apparatus
CN111901524B (zh) 对焦方法、装置和电子设备
KR20100076792A (ko) 디지털 촬영 장치 및 그 제어 방법
WO2019130909A1 (ja) 撮像装置及びその制御方法及び記録媒体
JP2008288745A (ja) 映像情報処理装置
JP7118746B2 (ja) 撮像装置及びその制御方法及びプログラム
JP7451235B2 (ja) 撮像装置、制御方法、およびプログラム
WO2019130908A1 (ja) 撮像装置及びその制御方法及び記録媒体
WO2021140879A1 (ja) 撮像装置、撮像装置の制御方法、プログラム
JP2010200253A (ja) 撮像装置
JP2010283706A (ja) ビデオカメラ
JP2021111960A (ja) 撮像装置、撮像装置の制御方法、プログラム
CN114500790A (zh) 摄像设备及其控制方法以及存储介质
JP2022030416A (ja) 撮像装置、撮像装置の制御方法、およびプログラム
JP5712599B2 (ja) 撮像装置及びプログラム
JP5279518B2 (ja) 撮像装置及びその制御方法
JP4066288B2 (ja) 自動追尾装置
JP2013201642A (ja) 電子機器
JP2021164060A (ja) 撮像装置、制御方法、およびプログラム
JP2021103867A (ja) 撮像装置、その制御方法、およびそのプログラム
JP2022183848A (ja) 音声認識装置、表示装置、それらの制御方法、プログラム、および記憶媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18893352

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18893352

Country of ref document: EP

Kind code of ref document: A1