WO2021140879A1 - 撮像装置、撮像装置の制御方法、プログラム - Google Patents

撮像装置、撮像装置の制御方法、プログラム Download PDF

Info

Publication number
WO2021140879A1
WO2021140879A1 PCT/JP2020/047490 JP2020047490W WO2021140879A1 WO 2021140879 A1 WO2021140879 A1 WO 2021140879A1 JP 2020047490 W JP2020047490 W JP 2020047490W WO 2021140879 A1 WO2021140879 A1 WO 2021140879A1
Authority
WO
WIPO (PCT)
Prior art keywords
frequency
shooting
imaging device
setting
instruction
Prior art date
Application number
PCT/JP2020/047490
Other languages
English (en)
French (fr)
Inventor
陽介 高木
Original Assignee
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2020150367A external-priority patent/JP2021111960A/ja
Application filed by キヤノン株式会社 filed Critical キヤノン株式会社
Publication of WO2021140879A1 publication Critical patent/WO2021140879A1/ja
Priority to US17/856,778 priority Critical patent/US20220337740A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/62Control of parameters via user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B15/00Special procedures for taking photographs; Apparatus therefor
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B17/00Details of cameras or camera bodies; Accessories therefor
    • G03B17/38Releasing-devices separate from shutter
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/65Control of camera operation in relation to power supply
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/681Motion detection
    • H04N23/6812Motion detection based on additional sensors, e.g. acceleration sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/682Vibration or motion blur correction
    • H04N23/685Vibration or motion blur correction performed by mechanical compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to an imaging device capable of receiving instructions using voice.
  • a life log camera that automatically repeats shooting on a regular basis and an imaging device that automatically shoots by judging the shooting status by the camera itself have been proposed.
  • the purpose of these devices is to automatically shoot an image of a scene desired by the user without the user being aware of it.
  • the shooting timing is automatically determined from the information obtained by detecting the face of the subject, the number of past shots, the target number of shots, and the like. I'm shooting.
  • the image pickup apparatus of the present invention includes a sound collecting means for collecting sound, an analysis means for analyzing the sound collected by the sound collecting means, an automatic photographing means for automatically photographing, and an imaging of the automatic photographing means. It has a setting means for setting the frequency, and when the result of analysis by the analysis means is a specific voice instruction, after performing an operation according to the instruction, the shooting frequency is set higher by the setting means. It is characterized by doing.
  • FIG. 1 is a diagram schematically showing an image pickup apparatus of the first embodiment.
  • the imaging device 101 shown in FIG. 1A is provided with an operating member capable of operating the power switch (hereinafter, the power button may be operated by tapping, flicking, swiping, etc. on the touch panel).
  • the lens barrel 102 which is a housing including a group of photographing lenses for imaging and an image sensor, is attached to the image pickup device 101 and is provided with a rotation mechanism capable of rotationally driving the lens barrel 102 with respect to the fixed portion 103.
  • the tilt rotation unit 104 is a motor drive mechanism capable of rotating the lens barrel 102 in the pitch direction shown in FIG. 1B
  • the pan rotation unit 105 is a motor drive mechanism capable of rotating the lens barrel 102 in the yaw direction. Therefore, the lens barrel 102 can rotate in one or more axes.
  • FIG. 1B is an axis definition at the fixed portion 103 position.
  • Both the angular velocity meter 106 and the accelerometer 107 are mounted on the fixed portion 103 of the image pickup apparatus 101. Then, the vibration of the image pickup apparatus 101 is detected based on the angular velocity meter 106 and the accelerometer 107, and the tilt rotation unit and the pan rotation unit are rotationally driven based on the detected shaking angles.
  • the lens barrel 102 which is a movable portion, is configured to correct the runout and the tilt.
  • FIG. 2 is a block diagram showing the configuration of the image pickup apparatus of the present embodiment.
  • the first control unit 223 includes a processor (for example, CPU, GPU, microprocessor, MPU, etc.) and a memory (for example, DRAM, SRAM, etc.). These perform various processes to control each block of the image pickup apparatus 101, and control data transfer between each block.
  • the non-volatile memory (EEPROM) 216 is a memory that can be electrically erased and recorded, and stores constants, programs, and the like for the operation of the first control unit 223.
  • the zoom unit 201 includes a zoom lens that performs scaling.
  • the zoom drive control unit 202 drives and controls the zoom unit 201.
  • the focus unit 203 includes a lens for adjusting the focus.
  • the focus drive control unit 204 drives and controls the focus unit 203.
  • the image sensor receives light incident through each lens group, and outputs charge information corresponding to the amount of light to the image processing unit 207 as analog image data.
  • the image processing unit 207 applies image processing such as distortion correction, white balance adjustment, and color interpolation processing to the digital image data output by the A / D conversion, and outputs the applied digital image data.
  • the digital image data output from the image processing unit 207 is converted into a recording format such as a JPEG format by the image recording unit 208, and transmitted to the memory 215 and the video output unit 217 described later.
  • the lens barrel rotation drive unit 205 drives the tilt rotation unit 104 and the pan rotation unit 105 to drive the lens barrel 102 in the tilt direction and the pan direction.
  • the device shake detection unit 209 is equipped with, for example, an angular velocity meter (gyro sensor) 106 that detects the angular velocity in the three-axis direction of the image pickup device 101, and an accelerometer (accelerometer) 107 that detects the acceleration in the three-axis direction of the device. ..
  • the device shake detection unit 209 calculates the rotation angle of the device, the shift amount of the device, and the like based on the detected signal.
  • the voice input unit 213 acquires a voice signal collected from the periphery of the image pickup device 101 by using a microphone provided in the image pickup device 101, performs analog-to-digital conversion, and transmits the voice signal to the voice processing unit 214.
  • the voice processing unit 214 performs voice-related processing such as optimization processing of the input digital voice signal. Then, the voice signal processed by the voice processing unit 214 is transmitted to the memory 215 by the first control unit 223.
  • the memory 215 temporarily stores the image signal and the audio signal obtained by the image processing unit 207 and the audio processing unit 214.
  • the image processing unit 207 and the audio processing unit 214 read out the image signal and the audio signal temporarily stored in the memory 215, encode the image signal, encode the audio signal, and the like, and perform the compressed image signal, the compressed audio signal, and the like. To generate.
  • the first control unit 223 transmits these compressed image signals and compressed audio signals to the recording / reproducing unit 220.
  • the recording / reproducing unit 220 records the compressed image signal, the compressed audio signal, and other control data related to shooting on the recording medium 221 with the image processing unit 207 and the audio processing unit 214.
  • the first control unit 223 transfers the audio signal generated by the audio processing unit 214 and the compressed image signal generated by the image processing unit 207 to the recording / playback unit 220. It is transmitted and recorded on the recording medium 221.
  • the recording medium 221 may be a recording medium built in the image pickup apparatus 101 or a removable recording medium.
  • the recording medium 221 can record various data such as a compressed image signal, a compressed audio signal, and an audio signal generated by the image pickup apparatus 101, and a medium having a capacity larger than that of the non-volatile memory 216 is generally used.
  • the recording medium 221 includes all types of recording media such as hard disks, optical disks, magneto-optical disks, CD-Rs, DVD-Rs, magnetic tapes, non-volatile semiconductor memories, and flash memories.
  • the recording / reproducing unit 220 reads (reproduces) the compressed image signal, the compressed audio signal, the audio signal, various data, and the program recorded on the recording medium 221. Then, the first control unit 223 transmits the read compressed image signal and compressed audio signal to the image processing unit 207 and the audio processing unit 214.
  • the image processing unit 207 and the audio processing unit 214 temporarily store the compressed image signal and the compressed audio signal in the memory 215, decode them according to a predetermined procedure, and transmit the decoded signals to the video output unit 217 and the audio output unit 218. To do.
  • the voice input unit 213 has a plurality of microphones mounted on the image pickup device 101, and the voice processing unit 214 can detect the direction of sound on a plane on which the plurality of microphones are installed, and is used for search and automatic shooting described later. Used. Further, the voice processing unit 214 detects a specific voice command.
  • the voice command may be configured so that the user can register a specific voice in the image pickup apparatus in addition to some commands registered in advance. It also recognizes sound scenes. In sound scene recognition, sound scene determination is performed using a trained model trained by machine learning based on a large amount of voice data in advance. Specific algorithms for machine learning include the nearest neighbor method, the naive Bayes method, a decision tree, and a support vector machine. In addition, deep learning (deep learning) in which features and coupling weighting coefficients for learning are generated by themselves using a neural network can also be mentioned. As appropriate, any of the above algorithms that can be used can be applied to this embodiment.
  • a neural network for detecting a specific scene such as “cheering”, “applause”, or “speaking” is set in the voice processing unit 214. .. Then, when a specific sound scene or a specific voice command is detected, the detection trigger signal is output to the first control unit 223 and the second control unit 211.
  • the neural network of the voice processing unit 214 prepares the voice information of the scenes of "cheering”, “clapping”, and “speaking” in advance, and inputs and detects the voice information. Learn the trigger signal as an output.
  • the second control unit 211 which is provided separately from the first control unit 223 that controls the entire main system of the image pickup apparatus 101, controls the power supply of the first control unit 223.
  • the first power supply unit 210 and the second power supply unit 212 supply power for operating the first control unit 223 and the second control unit 211, respectively.
  • power is first supplied to both the first control unit 223 and the second control unit 211.
  • the first control unit 223 is the first power supply. It is controlled to turn off its own power supply to the unit 210. Even while the first control unit 223 is not operating, the second control unit 211 is operating, and information from the device shake detection unit 209 and the voice processing unit 214 is input.
  • the second control unit is configured to perform a determination process of whether or not to start the first control unit 223 based on various input information, and when the activation is determined, a power supply instruction is given to the first power supply unit. ..
  • the power supply unit supplies electric power from the battery. That is, the image pickup device 101 is also a mobile terminal.
  • the audio output unit 218 outputs a preset audio pattern from a speaker built in the image pickup device 101, for example, at the time of shooting.
  • the LED control unit 224 controls a preset lighting / blinking pattern of the LED provided in the image pickup apparatus 101, for example, at the time of shooting.
  • the video output unit 217 is composed of, for example, a video output terminal, and transmits an image signal in order to display the video on a connected external display or the like. Further, the audio output unit 218 and the video output unit 217 may be one combined terminal, for example, a terminal such as an HDMI (registered trademark) (High-Definition Multimedia Interface) terminal.
  • HDMI registered trademark
  • High-Definition Multimedia Interface High-Definition Multimedia Interface
  • the communication unit 222 communicates between the image pickup device 101 and the external device, and transmits or receives data such as an audio signal, an image signal, a compressed audio signal, and a compressed image signal, for example. In addition, it receives control signals related to shooting such as shooting start and end commands, pan, tilt, and zoom drive, and drives the imaging device 101 from instructions of an external device capable of intercommunication with the imaging device 101. In addition, information such as various parameters related to learning processed by the learning processing unit 219, which will be described later, is transmitted and received between the image pickup device 101 and the external device.
  • the communication unit 222 is, for example, a wireless communication module such as an infrared communication module, a Bluetooth (registered trademark) communication module, a wireless LAN communication module, a WirelessUSB, and a GPS receiver.
  • FIG. 3 is a diagram showing a configuration example of a wireless communication system between the image pickup device 101 and the external device 301.
  • the image pickup device 101 is a digital camera having a shooting function
  • the external device 301 is a smart device including a Bluetooth communication module and a wireless LAN communication module.
  • the image pickup device 101 and the smart device 301 include, for example, a communication 302 by a wireless LAN conforming to the IEEE802.11 standard series, and a control station and a subordinate station such as Bluetooth Low Energy (hereinafter referred to as "BLE") BLE. Communication is possible with the communication 303 having a master-slave relationship.
  • the wireless LAN and BLE are examples of communication methods, and each communication device has two or more communication functions, for example, by one communication function that communicates in a relationship between a control station and a subordinate station. If it is possible to control the other communication function, another communication method may be used.
  • the first communication such as wireless LAN can perform higher-speed communication than the second communication such as BLE, and the second communication consumes more than the first communication. It shall be at least one of low power consumption and short communication range.
  • the configuration of the smart device 301 as an example of the external communication device will be described with reference to FIG.
  • the smart device 301 is a so-called mobile phone, that is, a mobile terminal.
  • the smart device 301 has, for example, a wireless LAN control unit 401 for wireless LAN, a BLE control unit 402 for BLE, and a public line control unit 406 for public wireless communication.
  • the smart device 301 further includes a packet transmission / reception unit 403.
  • the wireless LAN control unit 401 performs RF control of the wireless LAN, communication processing, a driver that performs various controls of communication by the wireless LAN conforming to the IEEE802.11 standard series, and protocol processing related to the communication by the wireless LAN.
  • the BLE control unit 402 performs a driver that performs RF control of BLE, communication processing, various controls of communication by BLE, and protocol processing related to communication by BLE.
  • the public line control unit 406 performs a driver for performing RF control of public wireless communication, communication processing, various controls of public wireless communication, and protocol processing related to public wireless communication.
  • Public wireless communication conforms to, for example, IMT (International Multimedia Telecommunication) standards and LTE (Long Term Evolution) standards.
  • the packet transmission / reception unit 403 performs processing for executing at least one of transmission and reception of packets related to communication by wireless LAN and BLE and public wireless communication.
  • the smart device 301 is described as performing at least one of transmission and reception of packets in communication, but other communication formats such as circuit switching may be used in addition to packet switching. Good.
  • the smart device 301 further includes, for example, a control unit 411, a storage unit 404, a GPS receiving unit 405, a display unit 407, an operation unit 408, a voice input voice processing unit 409, and a power supply unit 410.
  • the control unit 411 controls the entire smart device 301, for example, by executing a control program stored in the storage unit 404.
  • the storage unit 404 stores, for example, a control program executed by the control unit 411 and various information such as parameters required for communication. Various operations described later are realized by the control unit 411 executing the control program stored in the storage unit 404.
  • the power supply unit 410 supplies power to the smart device 301.
  • the display unit 407 has a function capable of outputting visually recognizable information such as an LCD or LED, or sound output of a speaker or the like, and displays various information.
  • the operation unit 408 is, for example, a button or the like that accepts an operation of the smart device 301 by a user.
  • the display unit 407 and the operation unit 408 may be composed of a common member such as a touch panel.
  • the voice input voice processing unit 409 may be configured to acquire the voice emitted by the user from, for example, a general-purpose microphone built in the smart device 301, and acquire the user's operation command by voice recognition processing.
  • voice commands are acquired by the user's pronunciation via a dedicated application in the smart device. Then, it can be registered as a specific voice command for causing the voice processing unit 214 of the image pickup apparatus 101 to recognize the specific voice command via the communication 302 by the wireless LAN.
  • the GPS (Global Positioning System) 405 receives a GPS signal notified from a satellite, analyzes the GPS signal, and estimates the current position (longitude / latitude information) of the smart device 301.
  • the position may be estimated by using WPS (Wi-Fi Positioning System) or the like to estimate the current position of the smart device 301 based on the information of the wireless network existing in the surrounding area.
  • WPS Wi-Fi Positioning System
  • the movement information is notified to the image pickup apparatus 101 via the BLE control unit 402, which will be described later. Used as a parameter for automatic shooting and automatic editing.
  • the GPS position information has a position change of a predetermined value or more, the movement information is notified to the image pickup apparatus 101 via the BLE control unit 402, and is used as a parameter for automatic shooting or automatic editing described later.
  • the image pickup device 101 and the smart device 301 exchange data with the image pickup device 101 by communication using the wireless LAN control unit 401 and the BLE control unit 402. For example, it transmits or receives data such as an audio signal, an image signal, a compressed audio signal, and a compressed image signal.
  • the smart device issues an operation instruction such as shooting of the image pickup device 101, transmits voice command registration data, and performs predetermined position detection notification and location movement notification based on GPS position information. It also sends and receives learning data via a dedicated application in the smart device.
  • FIG. 5 is a flowchart of the automatic shooting process of the image pickup apparatus 101 according to the present embodiment.
  • the processing of this flowchart starts.
  • the image pickup device 101 and the smart device 301 are always connected by wireless communication, and various operations can be performed from the dedicated application on the smart device 301. Further, the processing of each step in the following flowchart is realized by the first control unit 223 controlling each unit of the image pickup apparatus 101.
  • the first control unit 223 determines whether or not the automatic shooting is stopped. The stop of automatic shooting will be described in the flow chart of the voice recognition process described later. If the automatic shooting is stopped, wait without doing anything and wait until the automatic shooting stop is released. If the automatic shooting is not stopped, the process proceeds to S502 and image recognition processing is performed.
  • the first control unit 223 causes the image processing unit 207 to perform image processing on the signal captured by the imaging unit 206 to generate an image for subject recognition.
  • subject recognition such as person and object recognition is performed.
  • the face and human body of the subject are detected.
  • a pattern for determining the face of a person is predetermined, and a portion matching the pattern included in the captured image can be detected as a face image of the person.
  • the reliability indicating the certainty of the subject's face is also calculated, and the reliability is calculated from, for example, the size of the face area in the image, the degree of matching with the face pattern, and the like.
  • a histogram of a plurality of color components is created for the captured image, the image is divided by the mountain-shaped distribution range, the captured image is classified in the area belonging to the combination of the same sections, and the image area of the subject is divided. Be recognized.
  • the image area of the subject having the highest evaluation value can be determined as the main subject area.
  • each subject information can be obtained from the imaging information.
  • the first control unit 223 calculates the image shake correction amount. Specifically, first, the absolute angle of the image pickup device is calculated based on the angular velocity and acceleration information acquired by the device shake detection unit 209. Then, the vibration isolation angle for moving the tilt rotation unit 104 and the pan rotation unit 105 in the angle direction that cancels the absolute angle is obtained, and is used as the image shake correction amount.
  • the calculation method of the image shake correction amount calculation process here can be changed by a learning process described later.
  • the first control unit 223 determines the state of the imaging device. Based on the angle and the amount of movement detected by the angular velocity information, the acceleration information, the GPS position information, etc., it is determined what kind of vibration / movement state the image pickup apparatus is currently in.
  • the subject information such as the surrounding landscape changes greatly depending on the distance traveled.
  • angle change is relatively large, it is determined to be in the "handheld state", and the subject can be searched for for handheld use.
  • the first control unit 223 performs a subject search process.
  • the subject search is composed of the following processes.
  • the area division will be described with reference to FIG. 8A, the area is divided around the entire circumference centering on the position of the image pickup device (origin O is the position of the image pickup device).
  • the tilt direction and the pan direction are each divided by 22.5 degrees.
  • the circumference in the horizontal direction becomes smaller and the area area becomes smaller as the angle in the tilt direction deviates from 0 degrees. Therefore, in the imaging device of the present embodiment, as shown in FIG. 8B, when the tilt angle is 45 degrees or more, the area range in the horizontal direction is set to be larger than 22.5 degrees.
  • 8C and 8D show an example in which the area is divided within the shooting angle of view.
  • the axis 1301 is the direction of the image pickup apparatus 101 at the time of initialization, and the area division is performed with this direction angle as a reference position.
  • Reference numeral 1302 indicates an angle of view area of the captured image, and an example of the image at that time is shown in FIG. 8D. In the image projected at the angle of view, the image is divided as shown in FIGS. 1303 to 1318 based on the area division.
  • the importance level indicating the priority of searching is calculated according to the subject existing in the area and the scene situation of the area.
  • the importance level based on the subject's situation is based on, for example, the number of people present in the area, the size of the person's face, the face orientation, the certainty of face detection, the facial expression of the person, and the personal authentication result of the person. calculate.
  • the importance level according to the situation of the scene is, for example, general object recognition result, scene discrimination result (blue sky, backlight, evening scene, etc.), sound level and voice recognition result from the direction of the area, motion detection in the area. Information etc.
  • the vibration state of the image pickup device is detected by the state determination (S504) of the image pickup device, and the importance level can be changed according to the vibration state. For example, when it is determined that the subject is in the "placed shooting state", the subject is searched for a subject having a high priority (for example, a user of an imaging device) registered by face recognition, so that the subject is searched for a specific person. When face recognition is detected, it is determined that the importance level is high.
  • automatic shooting which will be described later, will also be performed with priority given to the above-mentioned face, and even if the user of the image pickup device wears the image pickup device and takes a lot of time to carry around and take a picture, the image pickup device is removed from the desk.
  • the importance level is changed according to the past shooting information. Specifically, the importance level is lowered in the area that has been continuously designated as the search area for a predetermined time, and the importance level is lowered in the area that was photographed in S513, which will be described later, for a predetermined time. May be good.
  • the first control unit 223 performs pan / tilt drive. Specifically, the pan / tilt drive amount is calculated by adding the image shake correction amount and the drive angle in the control sampling based on the pan / tilt search target angle, and the lens barrel rotation drive unit 205 calculates the tilt rotation.
  • the unit 104 and the pan rotation unit 105 are driven and controlled, respectively.
  • the first control unit 223 controls the zoom unit 201 to drive the zoom.
  • the zoom is driven according to the state of the search target subject determined in S505.
  • the subject to be searched is the face of a person
  • the face on the image is too small, it may not be detected because it is smaller than the minimum detectable size, and the face may be lost.
  • the size of the face on the image is controlled to be increased by zooming to the telephoto side.
  • zooming to the wide-angle side controls the size of the face on the screen to be smaller.
  • the subject search may be performed by an imaging system that uses a plurality of wide-angle lenses to shoot in all directions at once.
  • an imaging system that uses a plurality of wide-angle lenses to shoot in all directions at once.
  • enormous processing is required when performing image processing such as subject detection using all the signals obtained by imaging as input images. Therefore, a part of the image is cut out, and the subject search process is performed within the cut out image range.
  • the important level for each area is calculated, the cutting position is changed based on the important level, and the automatic shooting determination described later is performed. This makes it possible to reduce power consumption by image processing and search for a subject at high speed.
  • the first control unit 223 reads the frequency parameter.
  • the frequency parameter is a set value indicating the ease of automatic shooting.
  • the user can set any frequency from the options such as “low”, “medium”, and “high” via the dedicated application of the smart device 301.
  • the “Medium” setting captures the number of shots between the “Low” and “High” settings. In addition, it can be automatically changed by the frequency setting process described later.
  • the first control unit 223 determines whether the read frequency parameter is a predetermined value. For example, if "highest” is set as the frequency for performing automatic shooting, the process proceeds to S510, and if not, the process proceeds to S512.
  • the setting that the frequency is "highest” is a setting that is automatically changed by the frequency setting process described later, and the frequency setting by a normal user using the dedicated application of the smart device 301 is “low” as described above. It is set from “Medium” and “High” options. That is, the frequency is not set to "highest” in the setting by user operation.
  • the first control unit 223 determines whether the frequency boost time from "highest” to returning the frequency parameter setting started in S705, which will be described later, has ended. If it is finished, the process proceeds to S511, and if not, the process proceeds to S512.
  • the first control unit 223 restores the frequency parameter to the frequency setting before being set to "highest". At this time, if more than a predetermined number of shots are taken by automatic shooting during the frequency boost time, it can be determined that the current scene is the scene to be shot, so the frequency boost time may be extended. By doing so, it is possible to continue shooting the scenes that the user wants to shoot.
  • the first control unit 223 determines whether or not to perform automatic shooting.
  • the importance score is a parameter used for determining whether or not to perform automatic shooting, and is different from the importance level for determining the search area. Scores are added to the importance score according to the detection status of the subject and the passage of time. For example, consider a case where automatic shooting is performed when the importance score exceeds 2000 points. In this case, first, the importance score has an initial value of 0 points, and points are added according to the passage of time from the time when the automatic shooting mode is entered. If there is no subject with high priority, the number of points will increase at an increase rate of 2000 points after 120 seconds, for example.
  • the shooting frequency tends to increase.
  • the points to be added based on the smile will be described by taking as an example the case where the points are the same regardless of whether or not the subject has a high priority, but the present invention is not limited to this.
  • the score added according to the detection of the smile of the subject having a high priority may be higher than the score added according to the detection of the smile of the subject having a low priority. By doing so, it becomes possible to take a picture more in line with the user's intention.
  • points added with the passage of time will be described by taking, for example, a case where points are added so as to reach 2000 points in 120 seconds, and a case where only 2000/120 points are added every second, that is, points are added linearly with respect to time. Is not limited to this. For example, points may not be added up to 110 seconds out of 120 seconds, but may be increased so that points are added by 200 points per second to reach 2000 points in 10 seconds from 110 seconds to 120 seconds. By doing so, it is possible to prevent the number of points to be photographed from being reached regardless of the priority level due to the addition of points due to the change in the facial expression of the subject.
  • the time for starting the increase may be advanced in 120 seconds. That is, for example, when a subject with a high priority is detected at 60 seconds, even if 1000 points are added by that, the score does not still exceed 2000 points, but the subject is detected instead of increasing to 110 seconds as it is.
  • the linear increase may be started after 30 seconds have passed. Alternatively, the linear increase may be started 20 seconds before 10 seconds before 120 seconds. By doing so, the possibility that a subject having a high priority is taken is increased, and it becomes easier to realize the shooting according to the user's intention.
  • the frequency parameter is used to control how the importance score increases over time. If the subject is not detected in the above example, it is set to take 120 seconds until automatic shooting. This was explained by taking the case where the frequency parameter is "medium” as an example, but in the frequency boost state (frequency parameter "highest"), the importance score is increased so that automatic shooting is performed in 60 seconds. Change the direction. In this case, 2000/60 points may be added every second, or 400 points may be added per second for the remaining 5 seconds up to 60 seconds without adding points until 55 seconds, for example. The advantages of doing the latter are as described above. To give another example of frequency, for example, when the frequency parameter is "high”, it is increased to 2000 points in 100 seconds, and when the frequency parameter is "low", it is increased to 2000 points in 240 seconds.
  • increasing the frequency of shooting means increasing the number of shots taken per hour by changing the method of adding points
  • decreasing the frequency of shooting means increasing the number of shots per hour by changing the method of adding points. It is to reduce the number of shots.
  • the first control unit 223 executes a shooting process.
  • the shooting process referred to here includes still image shooting and moving image shooting.
  • FIG. 6 is a flowchart of the voice recognition process of the image pickup apparatus 101 according to the present embodiment.
  • the voice input voice processing unit 409 performs voice recognition processing and acquires the user's operation command.
  • the first control unit 223 determines whether or not the wake word has been detected.
  • the wake word is an activation command for starting voice command recognition that gives a specific instruction to the image pickup apparatus 101 by voice. When giving instructions by voice, it is necessary to generate a command word after wake word recognition and the recognition must be successful. If the wake word is detected, the process proceeds to S602, and if it is not detected, the process of S601 is repeated until it is detected.
  • the first control unit 223 stops the automatic shooting process.
  • Stopping automatic shooting refers to subject search and shooting processing execution using pan / tilt operation and zoom operation.
  • the purpose of stopping the automatic shooting is to stop the automatic shooting process and put it in the command word standby state in order to quickly respond to the command word instruction issued after the wake word. Further, when a shooting instruction is to be given by a voice instruction, it is possible to shoot in the direction in which the user is trying to shoot by stopping pan / tilt.
  • the first control unit 223 sounds a recognition sound to indicate to the user that the wake word has been recognized successfully.
  • the first control unit 223 determines whether or not a command word has been detected. If the command word is detected, the process proceeds to S606, and if the command word is not detected, the process proceeds to S605.
  • the first control unit 223 detects the wake word and determines whether a predetermined time has elapsed since the command word standby state was set. When the predetermined time has elapsed, the process proceeds to S601, the standby state of the command word is stopped, and the standby state of the wake word is set. If the predetermined time has not elapsed, S604 is repeated until the command word is detected.
  • the first control unit 223 determines whether or not the detected command word is a still image shooting command.
  • This still image shooting command is a command for requesting the image pickup apparatus 101 to shoot and record a single still image. If it is determined that the command is still image shooting, the process proceeds to S607, and if not, the process proceeds to S608.
  • the first control unit 223 performs a still image shooting process. Specifically, the signal captured by the image pickup unit 206 is converted into, for example, a JPEG file by the image processing unit 207, and recorded on the recording medium 221 by the image recording unit 208.
  • the first control unit 223 determines whether or not the detected command word is a subject search command. If it is determined that the command is a subject search command, the process proceeds to S609, and if not, the process proceeds to S610.
  • the first control unit 223 performs the subject search process. If the search target area has already been determined by the subject search process in S505 and the subject is being captured by the pan / tilt drive of S506 and the zoom drive of S507, the tracking of the subject is stopped and another subject is stopped.
  • the subject search process is executed to search for. This is because if the user instructs the subject search while capturing the subject, it means that there is a subject to be photographed separately from the subject currently captured.
  • the frequency setting process is a process of setting a frequency parameter for how many shots are taken within a predetermined time. The details of the processing contents will be described later, but in the frequency setting process executed in S610, the frequency of shooting is set to be higher.
  • the first control unit 223 determines whether or not the detected command word is a moving image recording start command.
  • the moving image shooting command is a command that requests the image pickup device 101 to capture and record a moving image. If it is determined that the command is to start moving image recording, the process proceeds to S612, and if not, the process proceeds to S613.
  • the first control unit 223 starts shooting a moving image using the imaging unit 206 and records it on the recording medium 221. During video recording, pan / tilt and zoom drive are not performed, the subject is not searched, and automatic shooting continues to be stopped.
  • the first control unit 223 determines whether or not the detected command word is a moving image recording stop command. If it is determined that the command is to stop moving image recording, the process proceeds to S614, and if not, the process proceeds to S615.
  • the first control unit 223 stops taking and recording a moving image using the imaging unit 206, and completes recording as a moving image file on the recording medium 221.
  • the first control unit 223 executes other processing in the voice command. For example, processing for a command to pan / tilt in a direction specified by the user and processing for a command to change various shooting parameters such as exposure compensation can be mentioned.
  • the first control unit 223 performs a restart process for the automatic shooting stopped in S602.
  • the processes of S502 to S510 can be operated, and automatic shooting is restarted.
  • the frequency setting process is not executed in the case of instructions to start or stop recording of the moving image. This is because the signal from the imaging unit 206 is continuously recorded after the start of recording the moving image, so there is no point in setting the frequency setting high. Also, after the video recording is stopped, the fact that the user has instructed to stop recording indicates that the scene that should be recorded is over, so set the frequency unnecessarily to avoid shooting unnecessary images. Because.
  • the frequency parameter according to S704 in FIG. 7, which will be described later, may not be set to “highest”.
  • FIG. 7 is a flowchart of the frequency setting process of the image pickup apparatus 101 according to the present embodiment.
  • a means for setting the frequency at which the user performs automatic shooting there is a method of performing the automatic shooting via a dedicated application in the smart device 301.
  • the processing of this flowchart is also started in response to the execution of S610 in FIG. Further, it is also started in response to the user instructing the frequency change via the dedicated application in the smart device 301.
  • the first control unit 223 determines whether the frequency is set via the dedicated application in the smart device 301. If the frequency is set via the dedicated application, the process proceeds to S702, and if not (for example, when the frequency is set in S610), the process proceeds to S703.
  • the first control unit 223 sets the frequency parameter instructed by the user. For example, as shown in FIG. 9, on the screen of the dedicated application in the smart device 301, the setting can be made by selecting "low”, “medium”, and "high” from the items of the automatic shooting frequency.
  • still images and moving images are prepared as contents to be automatically shot. Furthermore, as the content to be automatically shot, it is possible to set whether to prioritize the still image or the moving image from the dedicated application. This setting can be changed by touching (flicking) the knob of the slider bar as shown in FIG. When it is set to give priority to still images, more still images are taken than moving images. Also, when it is set to give priority to moving images, more moving images are taken than still images.
  • three patterns can be set: a range of 60 degrees at 30 degrees from the front to the left and right, a range of 180 degrees at 90 degrees from the front to the left and right, and the entire circumference.
  • a numerical value may be input so that a finer range can be set.
  • the images to be automatically deleted may be deleted in order from the oldest shooting date / time, or in ascending order of importance.
  • the importance is, for example, in the case of a still image, the parameters that are predicted to be an image that the user will want to leave, such as whether there is little blurring or whether a person is shown, are quantified. It is a thing. Further, in the case of a moving image, for example, whether or not a person is shown and whether or not a person's voice such as a conversation is recorded are quantified to calculate the importance. Then, the higher the total value, the higher the importance.
  • the first control unit 223 determines whether the frequency setting is called from the voice recognition process. If the frequency setting is called from the voice recognition process, the process proceeds to S704, and if not, the frequency setting process ends.
  • the first control unit 223 sets the frequency parameter even higher than the frequency that can be set in S702.
  • the timing at which the user instructs the shooting is at least the timing at which the shooting is desired. That is, since the situation is such that the user wants to shoot at the timing when the user instructs the shooting, it is considered that a scene to be shot is likely to occur in a period close to the time. Focusing on this point, the imaging device of the present embodiment uses a voice instruction by a user's voice command as a trigger, presumes that the scene should be shot for a certain period after the voice command is input, and increases the shooting frequency. This makes it possible to shoot the image that the user wants to take without missing it.
  • the parameter with the frequency of "highest” is set, but the frequency may be increased stepwise each time the frequency is set by the voice command instruction.
  • the upper limit of the frequency is the fastest frame speed of continuous shooting included in the imaging device 101.
  • the first control unit 223 sets the frequency boost time until the frequency parameter set to "highest” in S704 is returned to the original parameter, and starts the countdown. For example, if the frequency setting is set to "medium” and the frequency setting is set to "highest” by voice command instruction, assuming that the frequency boost time is 60 seconds, the frequency setting will be set after 60 seconds have passed. The setting returns to "Medium” (actual processing is performed in S511).
  • the frequency boost time referred to here is the time for maintaining the highest frequency. This frequency boost time is set automatically, but the user may be able to set any time.
  • the setting may be restored depending on whether or not a predetermined number of shots are taken by automatic shooting.
  • the frequency setting is set to "highest” again by voice command before the countdown of the frequency boost time is completed, the predetermined time or the predetermined number of sheets until the frequency setting is restored is extended.
  • a determination to restore the frequency setting it may be determined whether or not the subject search process is performed in all directions in the pan direction.
  • an example of a voice command has been used as a means of a shooting instruction from a user.
  • the frequency setting may be set to "highest” after executing the instruction.
  • the frequency setting is set to "highest” after executing the instruction. You may do so.
  • the frequency setting may be set to "highest” after the instruction is executed.
  • the present embodiment has been characterized in that the subject is tracked by pan / tilt drive and zoom drive to capture an image desired by the user.
  • the subject is tracked by pan / tilt drive and zoom drive to capture an image desired by the user.
  • a 360 ° camera as an imaging means to constantly shoot in all directions and to obtain an image of a subject by cutting out an image in a necessary range from the captured image.
  • video recording is always executed, and in response to the input of the cutout instruction, recording is performed in the still image format, and then the frame rate of the video is increased.
  • the frame rate may be set to the highest rate that can be set, or may be a value that exceeds the settable value, as in the case of the shooting frequency in the above-described embodiment.
  • the condition for returning the increased frame rate to the original value the elapse of a certain period of time may be adopted as in the above-described embodiment.
  • the image is recorded more frequently around the timing when the user wants to record the image, and as a result, it becomes easier to acquire an image in which, for example, the image is not out of focus with respect to the moving object.
  • the shooting timing does not come within the frequency boost time, it is possible that no shots will be taken. Therefore, when the still image shooting command is first received, one shot is taken without pan / tilt or zoom drive and without searching for the subject. Subsequently, three consecutive shots are taken while searching for the subject. After that, for a predetermined time, the frequency is boosted and automatic shooting is performed. By doing so, when the user intentionally instructs the still image shooting by the still image shooting command, it is possible that no one shot is taken and at least four shots are taken.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Studio Devices (AREA)

Abstract

音声を集音する集音手段と、前記集音手段によって集音した音声を解析する解析手段と、自動的に撮影を行う自動撮影手段と、前記自動撮影手段の撮影頻度を設定する設定手段と、を有し、前記解析手段によって解析した結果、特定の音声指示だった場合には、指示に従った動作を行った後、前記設定手段によって撮影頻度をより高く設定することを特徴とする撮像装置。

Description

撮像装置、撮像装置の制御方法、プログラム
 本発明は、音声を用いて指示を受け付けることが可能な撮像装置に関する。
 近年では、定期的に撮影を自動で繰り返すライフログカメラや、撮影状況をカメラ自身が判断して自動的に撮影を行う撮像装置が提案されている。これらの機器では、自動的に撮影することで、ユーザが意識せずとも、ユーザの欲するシーンの画像を撮影することを目的としている。例えば、特開2019-110525号公報に記載されている機器では、被写体の顔を検出した情報を用いたり、過去の撮影枚数、目標とする撮影枚数などから、撮影のタイミングを判断して、自動的に撮影を行っている。
 しかしながら、あくまでも自動であるため、ユーザの意思が反映されているとは限らない。ゆえに、それだけではユーザが望むタイミングで撮影を行うことができず、撮り逃しが発生する可能性があった。
特開2019-110525号公報
 本発明の撮像装置は、音声を集音する集音手段と、前記集音手段によって集音した音声を解析する解析手段と、自動的に撮影を行う自動撮影手段と、前記自動撮影手段の撮影頻度を設定する設定手段と、を有し、前記解析手段によって解析した結果、特定の音声指示だった場合には、指示に従った動作を行った後、前記設定手段によって撮影頻度をより高く設定することを特徴とする。
撮像装置の外観の例を示すための図である。 撮像装置の動作を説明するための図である。 撮像装置の構成を示す図である。 撮像装置と外部機器との構成を示す図である。 外部機器の構成を示す図である。 自動撮影処理を説明するフローチャートである。 音声認識処理を説明するフローチャートである。 頻度設定処理を説明するフローチャートである。 撮影画像内のエリア分割を説明するための図である。 撮影画像内のエリア分割を説明するための図である。 撮影画像内のエリア分割を説明するための図である。 撮影画像内のエリア分割を説明するための図である。 外部機器に表示される画面の一例を示す図である。
 以下に、本発明を実施するための形態について、添付の図面を用いて詳細に説明する。
 尚、以下に説明する実施の形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されてもよい。また、各実施の形態は適宜組み合わされることも可能である。
 <撮像装置の構成>
 図1は、第1の実施形態の撮像装置を模式的に示す図である。
 図1Aに示す撮像装置101は、電源スイッチの操作を行うことができる操作部材(以後、電源ボタンというが、タッチパネルへのタップやフリック、スワイプなどの操作でもよい)などが設けられている。撮像を行う撮影レンズ群や撮像素子を含む筐体である鏡筒102は、撮像装置101に取り付けられ、鏡筒102を固定部103に対して回転駆動できる回転機構を設けている。チルト回転ユニット104は、鏡筒102を図1Bに示すピッチ方向に回転できるモーター駆動機構であり、パン回転ユニット105は、鏡筒102をヨー方向に回転できるモーター駆動機構である。よって、鏡筒102は、1軸以上の方向に回転可能である。なお、図1Bは、固定部103位置での軸定義である。角速度計106と加速度計107はともに、撮像装置101の固定部103に実装されている。そして、角速度計106や加速度計107に基づいて、撮像装置101の振動を検出し、チルト回転ユニットとパン回転ユニットを検出した揺れ角度に基づいて回転駆動する。これにより、可動部である鏡筒102の振れを補正したり、傾きを補正したりする構成となっている。
 図2は、本実施形態の撮像装置の構成を示すブロック図である。
 図2において、第1制御部223は、プロセッサ(例えば、CPU、GPU、マイクロプロセッサ、MPUなど)、メモリ(例えば、DRAM、SRAMなど)からなる。これらは、各種処理を実行して撮像装置101の各ブロックを制御したり、各ブロック間でのデータ転送を制御したりする。不揮発性メモリ(EEPROM)216は、電気的に消去・記録可能なメモリであり、第1制御部223の動作用の定数、プログラム等が記憶される。
 図2において、ズームユニット201は、変倍を行うズームレンズを含む。ズーム駆動制御部202は、ズームユニット201を駆動制御する。フォーカスユニット203は、ピント調整を行うレンズを含む。フォーカス駆動制御部204は、フォーカスユニット203を駆動制御する。
 撮像部206では、撮像素子が各レンズ群を通して入射する光を受け、その光量に応じた電荷の情報をアナログ画像データとして画像処理部207に出力する。画像処理部207はA/D変換により出力されたデジタル画像データに対して、歪曲補正やホワイトバランス調整や色補間処理等の画像処理を適用し、適用後のデジタル画像データを出力する。画像処理部207から出力されたデジタル画像データは、画像記録部208でJPEG形式等の記録用フォーマットに変換し、メモリ215や後述する映像出力部217に送信される。
 鏡筒回転駆動部205は、チルト回転ユニット104、パン回転ユニット105を駆動して鏡筒102をチルト方向とパン方向に駆動させる。
 装置揺れ検出部209は、例えば撮像装置101の3軸方向の角速度を検出する角速度計(ジャイロセンサ)106や、装置の3軸方向の加速度を検出する加速度計(加速度センサ)107が搭載される。装置揺れ検出部209は、検出された信号に基づいて、装置の回転角度や装置のシフト量などが演算される。
 音声入力部213は、撮像装置101に設けられたマイクを用いて撮像装置101周辺から集音された音声信号を取得し、アナログデジタル変換をして音声処理部214に送信する。音声処理部214は、入力されたデジタル音声信号の適正化処理等の音声に関する処理を行う。そして、音声処理部214で処理された音声信号は、第1制御部223によりメモリ215に送信される。メモリ215は、画像処理部207、音声処理部214により得られた画像信号及び音声信号を一時的に記憶する。
 画像処理部207及び音声処理部214は、メモリ215に一時的に記憶された画像信号や音声信号を読み出して画像信号の符号化、音声信号の符号化などを行い、圧縮画像信号、圧縮音声信号を生成する。第1制御部223は、これらの圧縮画像信号、圧縮音声信号を、記録再生部220に送信する。
 記録再生部220は、記録媒体221に対して画像処理部207及び音声処理部214で生成された圧縮画像信号、圧縮音声信号、その他撮影に関する制御データ等を記録する。また、音声信号を圧縮符号化しない場合には、第1制御部223は、音声処理部214により生成された音声信号と画像処理部207により生成された圧縮画像信号とを、記録再生部220に送信し記録媒体221に記録させる。
 記録媒体221は、撮像装置101に内蔵された記録媒体でも、取外し可能な記録媒体でもよい。記録媒体221は、撮像装置101で生成した圧縮画像信号、圧縮音声信号、音声信号などの各種データを記録することができ、不揮発性メモリ216よりも大容量な媒体が一般的に使用される。例えば、記録媒体221は、ハードディスク、光ディスク、光磁気ディスク、CD-R、DVD-R、磁気テープ、不揮発性の半導体メモリ、フラッシュメモリ、などのあらゆる方式の記録媒体を含む。
 記録再生部220は、記録媒体221に記録された圧縮画像信号、圧縮音声信号、音声信号、各種データ、プログラムを読み出す(再生する)。そして読み出した圧縮画像信号、圧縮音声信号を、第1制御部223は画像処理部207及び音声処理部214に送信する。画像処理部207及び音声処理部214は、圧縮画像信号、圧縮音声信号を一時的にメモリ215に記憶させ、所定の手順で復号し、復号した信号を映像出力部217、音声出力部218に送信する。
 音声入力部213は複数のマイクが撮像装置101に搭載されており、音声処理部214は複数のマイクが設置された平面上の音の方向を検出することができ、後述する探索や自動撮影に用いられる。さらに、音声処理部214では、特定の音声コマンドを検出する。音声コマンドは事前に登録されたいくつかのコマンドの他、ユーザが特定音声を撮像装置に登録できる構成にしてもよい。また、音シーン認識も行う。音シーン認識では、予め大量の音声データを基に機械学習により学習させた学習済みモデルにより音シーン判定を行う。機械学習の具体的なアルゴリズムとしては、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシンなどが挙げられる。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習(ディープラーニング)も挙げられる。適宜、上記アルゴリズムのうち利用できるものを用いて本実施形態に適用することができる。
 本実施形態では、例えば、「歓声が上がっている」、「拍手している」、「声を発している」などの特定シーンを検出するためのニューラルネットワークが音声処理部214に設定されている。そして、特定音シーンや特定音声コマンドを検出すると、第1制御部223や第2制御部211に、検出トリガー信号を出力する構成になっている。
 すなわち、音声処理部214のニューラルネットワークは、あらかじめ「歓声が上がっている」、「拍手している」、「声を発している」シーンの音声情報を用意し、その音声情報を入力とし、検出トリガー信号を出力として学習する。
 撮像装置101のメインシステム全体を制御する第1制御部223とは別に設けられた、第2制御部211が第1制御部223の供給電源を制御する。
 第1電源部210と第2電源部212は、第1制御部223と第2制御部211を動作させるための、電源をそれぞれ供給する。撮像装置101に設けられた電源ボタンの押下により、まず第1制御部223と第2制御部211の両方に電源が供給されるが、後述するように、第1制御部223は、第1電源部210へ自らの電源供給をOFFするように制御される。第1制御部223が動作していない間も、第2制御部211は動作しており、装置揺れ検出部209や音声処理部214からの情報が入力される。第2制御部は各種入力情報を基にして、第1制御部223を起動するか否かの判定処理を行い、起動判定されると第1電源部に電源供給指示をする構成になっている。本実施形態では、電源部は電池から電力を供給する。すなわち、撮像装置101は携帯端末でもある。
 音声出力部218は、例えば撮影時などに撮像装置101に内蔵されたスピーカーから予め設定された音声パターンを出力する。
 LED制御部224は、例えば撮影時などに撮像装置101に設けられたLEDを予め設定された点灯点滅パターンを制御する。
 映像出力部217は、例えば映像出力端子からなり、接続された外部ディスプレイ等に映像を表示させるために画像信号を送信する。また、音声出力部218、映像出力部217は、結合された1つの端子、例えばHDMI(登録商標)(High-Definition Multimedia Interface)端子のような端子であってもよい。
 通信部222は、撮像装置101と外部装置との間で通信を行うもので、例えば、音声信号、画像信号、圧縮音声信号、圧縮画像信号などのデータを送信したり受信したりする。また、撮影開始や終了コマンド、パン、チルト、ズーム駆動など、撮影にかかわる制御信号を受信して、撮像装置101と相互通信可能な外部機器の指示から撮像装置101を駆動する。また、撮像装置101と外部装置との間で、後述する学習処理部219で処理される学習にかかわる各種パラメータなどの情報を送信したり受信したりする。通信部222は、例えば、赤外線通信モジュール、Bluetooth(登録商標)通信モジュール、無線LAN通信モジュール、WirelessUSB、GPS受信機等の無線通信モジュールである。
 <外部通信機器とのシステム構成>
 図3は、撮像装置101と外部装置301との無線通信システムの構成例を示す図である。撮像装置101は撮影機能を有するデジタルカメラであり、外部装置301はBluetooth通信モジュール、無線LAN通信モジュールを含むスマートデバイスである。
 撮像装置101とスマートデバイス301は、例えばIEEE802.11規格シリーズに準拠した無線LANによる通信302と、例えばBluetooth Low Energy(以下、「BLE」と呼ぶ。)BLEなどの、制御局と従属局などの主従関係を有する通信303とによって通信可能である。なお、無線LAN及びBLEは通信手法の一例であり、各通信装置は、2つ以上の通信機能を有し、例えば制御局と従属局との関係の中で通信を行う一方の通信機能によって、他方の通信機能の制御を行うことが可能であれば、他の通信手法が用いられてもよい。ただし、一般性を失うことなく、無線LANなどの第1の通信は、BLEなどの第2の通信より高速な通信が可能であり、また、第2の通信は、第1の通信よりも消費電力が少ないか通信可能距離が短いかの少なくともいずれかであるものとする。
 <外部通信機器の構成>
 外部通信機器の一例としてのスマートデバイス301の構成を、図4を用いて説明する。スマートデバイス301は、いわゆる携帯電話、すなわち携帯端末である。
 スマートデバイス301は、例えば、無線LAN用の無線LAN制御部401、及び、BLE用のBLE制御部402に加え、公衆無線通信用の公衆回線制御部406を有する。また、スマートデバイス301は、パケット送受信部403をさらに有する。無線LAN制御部401は、無線LANのRF制御、通信処理、IEEE802.11規格シリーズに準拠した無線LANによる通信の各種制御を行うドライバや無線LANによる通信に関するプロトコル処理を行う。BLE制御部402は、BLEのRF制御、通信処理、BLEによる通信の各種制御を行うドライバやBLEによる通信に関するプロトコル処理を行う。公衆回線制御部406は、公衆無線通信のRF制御、通信処理、公衆無線通信の各種制御を行うドライバや公衆無線通信関連のプロトコル処理を行う。公衆無線通信は例えばIMT(International Multimedia Telecommunications)規格やLTE(Long Term Evolution)規格などに準拠したものである。パケット送受信部403は、無線LAN並びにBLEによる通信及び公衆無線通信に関するパケットの送信と受信との少なくともいずれかを実行するための処理を行う。なお、本例では、スマートデバイス301は、通信においてパケットの送信と受信との少なくともいずれかを行うものとして説明するが、パケット交換以外に、例えば回線交換など、他の通信形式が用いられてもよい。
 スマートデバイス301は、例えば、制御部411、記憶部404、GPS受信部405、表示部407、操作部408、音声入力音声処理部409、電源部410をさらに有する。制御部411は、例えば、記憶部404に記憶される制御プログラムを実行することにより、スマートデバイス301全体を制御する。記憶部404は、例えば制御部411が実行する制御プログラムと、通信に必要なパラメータ等の各種情報とを記憶する。後述する各種動作は、記憶部404に記憶された制御プログラムを制御部411が実行することにより、実現される。
 電源部410はスマートデバイス301に電源を供給する。表示部407は、例えば、LCDやLEDのように視覚で認知可能な情報の出力、又はスピーカー等の音出力が可能な機能を有し、各種情報の表示を行う。操作部408は、例えばユーザによるスマートデバイス301の操作を受け付けるボタン等である。なお、表示部407及び操作部408は、例えばタッチパネルなどの共通する部材によって構成されてもよい。
 音声入力音声処理部409は、例えばスマートデバイス301に内蔵された汎用的なマイクから、ユーザが発した音声を取得し、音声認識処理により、ユーザの操作命令を取得する構成にしてもよい。
 また、スマートデバイス内の専用のアプリケーションを介して、ユーザの発音により音声コマンドを取得する。そして、無線LANによる通信302を介して、撮像装置101の音声処理部214に特定音声コマンド認識させるための特定音声コマンドとして登録することもできる。
 GPS(Global positioning system)405は、衛星から通知されるGPS信号を受信し、GPS信号を解析し、スマートデバイス301の現在位置(経度・緯度情報)を推定する。もしくは、位置推定は、WPS(Wi-Fi Positioning System)等を利用して、周囲に存在する無線ネットワークの情報に基づいて、スマートデバイス301の現在位置を推定するようにしてもよい。取得した現在のGPS位置情報が予め事前に設定されている位置範囲(所定半径の範囲以内)に位置している場合に、BLE制御部402を介して撮像装置101へ移動情報を通知し、後述する自動撮影や自動編集のためのパラメータとして使用する。また、GPS位置情報に所定以上の位置変化があった場合に、BLE制御部402を介して撮像装置101へ移動情報を通知し、後述する自動撮影や自動編集のためのパラメータとして使用する。
 上記のように撮像装置101とスマートデバイス301は、無線LAN制御部401、及び、BLE制御部402を用いた通信により、撮像装置101とデータのやりとりを行う。例えば、音声信号、画像信号、圧縮音声信号、圧縮画像信号などのデータを送信したり受信したりする。また、スマートデバイスから撮像装置101の撮影などの操作指示であったり、音声コマンド登録データ送信や、GPS位置情報に基づいた所定位置検出通知や場所移動通知を行う。また、スマートデバイス内の専用のアプリケーションを介しての学習用データの送受信も行う。
 <撮像動作のシーケンス>
 図5は、本実施形態における撮像装置101の自動撮影処理のフローチャートである。
 ユーザが撮像装置101に設けられた電源ボタンを操作すると、本フローチャートの処理が開始する。なお、本実施形態においては、常に撮像装置101とスマートデバイス301が無線通信による接続が確立され、スマートデバイス301上の専用アプリケーションから各種の操作が可能な状態とする。また、以下のフローチャートの各ステップの処理は、第1制御部223が撮像装置101の各部を制御することによって実現される。
 S501では、第1制御部223は、自動撮影停止中の状態かどうかを判別する。自動撮影の停止に関しては後述する音声認識処理のフローチャートにて説明する。自動撮影停止中であった場合には、何も行わずに待機し、自動撮影の停止が解除されるまで待つ。自動撮影が停止中でなかった場合には、S502へ進み、画像認識処理を行う。
 S502では、第1制御部223は、画像処理部207に撮像部206で取り込まれた信号を画像処理させ、被写体認識用の画像を生成させる。
 生成された画像からは、人物や物体認識などの被写体認識が行われる。
 人物を認識する場合、被写体の顔や人体を検出する。顔検出処理では、人物の顔を判断するためのパターンが予め定められており、撮像された画像内に含まれる該パターンに一致する箇所を人物の顔画像として検出することができる。
 また、被写体の顔としての確からしさを示す信頼度も同時に算出し、信頼度は、例えば画像内における顔領域の大きさや、顔パターンとの一致度等から算出される。
 物体認識についても同様に、予め登録されたパターンに一致する物体を認識することができる。
 また、撮像された画像内の色相や彩度等のヒストグラムを使用する方法で特徴被写体を抽出する方法などもある。この場合、撮影画角内に捉えられている被写体の画像に関し、その色相や彩度等のヒストグラムから導出される分布を複数の区間に分け、区間ごとに撮像された画像を分類する処理が実行される。
 例えば、撮像された画像について複数の色成分のヒストグラムが作成され、その山型の分布範囲で区分けし、同一の区間の組み合わせに属する領域にて撮像された画像が分類され、被写体の画像領域が認識される。
 認識された被写体の画像領域ごとに評価値を算出することで、当該評価値が最も高い被写体の画像領域を主被写体領域として判定することができる。
 以上の方法で、撮像情報から各被写体情報を得ることができる。
 S503では、第1制御部223は、像揺れ補正量の算出を行う。具体的には、まず、装置揺れ検出部209において取得した角速度および加速度情報に基づいて撮像装置の絶対角度の算出を行う。そして、絶対角度を打ち消す角度方向にチルト回転ユニット104およびパン回転ユニット105を動かす防振角度を求め、像揺れ補正量とする。なお、ここでの像揺れ補正量算出処理は、後述する学習処理によって、演算方法を変更することができる。
 S504では、第1制御部223は、撮像装置の状態判定を行う。角速度情報や加速度情報やGPS位置情報などで検出した角度や移動量などにより、現在、撮像装置がどのような振動/動き状態なのかを判定する。
 例えば、車に撮像装置101を装着して撮影する場合、移動された距離によって大きく周りの風景などの被写体情報が変化する。
 そのため、車などに装着して速い速度で移動している「乗り物移動状態」か否かを判定し、後に説明する自動被写体探索に使用することができる。
 また、角度の変化が大きいか否かを判定し、撮像装置101が揺れ角度がほとんどない「置き撮り状態」であるのかを判定する。
 「置き撮り状態」である場合は、撮像装置101自体の角度変化はないと考えてよいので、置き撮り用の被写体探索を行うことができる。
 また、比較的、角度変化が大きい場合は、「手持ち状態」と判定され、手持ち用の被写体探索を行うことができる。
 S505では、第1制御部223は、被写体探索処理を行う。被写体探索は、以下の処理によって構成される。
 (1)エリア分割
 図8を用いて、エリア分割を説明する。図8Aのように撮像装置(原点Oが撮像装置位置とする。)位置を中心として、全周囲でエリア分割を行う。図8Aの例においては、チルト方向、パン方向それぞれ22.5度で分割している。図8Aのように分割すると、チルト方向の角度が0度から離れるにつれて、水平方向の円周が小さくなり、エリア領域が小さくなる。そこで、本実施形態の撮像装置は、図8Bのように、チルト角度が45度以上の場合、水平方向のエリア範囲は22.5度よりも大きく設定している。図8C、図8Dに撮影画角内でのエリア分割された例を示す。軸1301は初期化時の撮像装置101の方向であり、この方向角度を基準位置としてエリア分割が行われる。1302は、撮像されている画像の画角エリアを示しており、そのときの画像例を図8Dに示す。画角に写し出されている画像内ではエリア分割に基づいて、図8Dの1303~1318のように画像分割される。
 (2)エリア毎の重要度レベルの算出
 前記のように分割した各エリアについて、エリア内に存在する被写体やエリアのシーン状況に応じて、探索を行う優先順位を示す重要度レベルを算出する。被写体の状況に基づいた重要度レベルは、例えば、エリア内に存在する人物の数、人物の顔の大きさ、顔向き、顔検出の確からしさ、人物の表情、人物の個人認証結果に基づいて算出する。また、シーンの状況に応じた重要度レベルは、例えば、一般物体認識結果、シーン判別結果(青空、逆光、夕景など)、エリアの方向からする音のレベルや音声認識結果、エリア内の動き検知情報等である。また、撮像装置の状態判定(S504)で、撮像装置の振動状態が検出されており、振動状態に応じても重要度レベルが変化するようにもすることができる。例えば、「置き撮り状態」と判定された場合、顔認証で登録されている中で優先度の高い被写体(例えば撮像装置のユーザである)を中心に被写体探索が行われるように、特定人物の顔認証を検出すると重要度レベルが高くなるように判定される。また、後述する自動撮影も上記顔を優先して行われることになり、撮像装置のユーザが撮像装置を身に着けて持ち歩き撮影を行っている時間が多くても、撮像装置を取り外して机の上などに置くことで、ユーザが写った画像も多く残すことができる。このときパン・チルトにより探索可能であることから、撮像装置の置き角度などを考えなくても、適当に設置するだけでユーザが写った画像やたくさんの顔が写った集合写真などを残すことができる。なお、上記条件だけでは、各エリアに変化がない限りは、最も重要度レベルが高いエリアが同じとなり、その結果探索されるエリアがずっと変わらないことになってしまう。そこで、過去の撮影情報に応じて重要度レベルを変化させる。具体的には、所定時間継続して探索エリアに指定され続けたエリアは重要度レベルを下げたり、後述するS513にて撮影を行ったエリアでは、所定時間の間重要度レベルを下げたりしてもよい。
 (3)探索対象エリアの決定
 前記のように各エリアの重要度レベルが算出されたら、重要度レベルが高いエリアを探索対象エリアとして決定する。そして、探索対象エリアを画角に捉えるために必要なパン・チルト探索目標角度を算出する。
 S506では、第1制御部223は、パン・チルト駆動を行う。具体的には、像振れ補正量とパン・チルト探索目標角度に基づいた制御サンプリングでの駆動角度を加算することで、パン・チルト駆動量を算出し、鏡筒回転駆動部205によって、チルト回転ユニット104、パン回転ユニット105をそれぞれ駆動制御する。
 S507では第1制御部223は、ズームユニット201を制御しズーム駆動を行う。具体的には、S505で決定した探索対象被写体の状態に応じてズームを駆動させる。例えば、探索対象被写体が人物の顔であるとき、画像上の顔が小さすぎると検出可能な最小サイズを下回ることで検出ができず、見失ってしまう恐れがある。そのような場合は、望遠側にズームすることで画像上の顔のサイズが大きくなるように制御する。一方で、画像上の顔が大きすぎる場合、被写体や撮像装置自体の動きによって被写体が画角から外れやすくなってしまう。そのような場合は、広角側にズームすることで、画面上の顔のサイズが小さくなるように制御する。このようにズーム制御を行うことで、被写体を追跡するのに適した状態を保つことができる。
 S505乃至S507では、パン・チルトやズーム駆動により被写体探索を行う方法を説明したが、広角なレンズを複数使用して全方位を一度に撮影する撮像システムで被写体探索を行ってもよい。全方位カメラの場合、撮像によって得られる信号すべてを入力画像として、被写体検出などの画像処理を行うと膨大な処理が必要となる。そこで、画像の一部を切り出して、切り出した画像範囲の中で被写体の探索処理を行う構成にする。上述した方法と同様にエリア毎の重要レベルを算出し、重要レベルに基づいて切り出し位置を変更し、後述する自動撮影の判定を行う。これにより画像処理による消費電力の低減や高速な被写体探索が可能となる。
 S508では、第1制御部223は、頻度パラメータの読み込みを行う。頻度パラメータとは、自動撮影のされ易さを示す設定値である。スマートデバイス301の専用アプリケーションを介して、「低」「中」「高」といった選択肢の中からユーザが任意の頻度に設定が可能である。頻度を「高」に設定した場合には、「低」に設定した場合に比べて、所定時間あたりに多くの枚数が撮影されるようになる。「中」の設定は「低」と「高」の設定の間の枚数が撮影される。また、後述の頻度設定処理によって、自動的に変更され得る。
 S509では、第1制御部223は、読み込んだ頻度パラメータが所定の値であるかを判定する。例えば、自動撮影を行う頻度として「最高」が設定されている場合には、S510へ進み、そうでない場合にはS512へ進む。なお、頻度が「最高」という設定は後述の頻度設定処理により自動的に変更された設定であり、スマートデバイス301の専用アプリケーションを用いた通常のユーザによる頻度の設定では、上記の通り「低」「中」「高」の選択肢から設定される。すなわちユーザ操作による設定では頻度「最高」には設定されない。
 S510では、第1制御部223は、後述するS705で開始した頻度パラメータの設定を「最高」から元に戻すまでの頻度ブースト時間が終了しているかを判定する。終了している場合にはS511へ進み、そうでない場合にはS512へ進む。
 S511では、第1制御部223は、頻度ブースト時間が終了していたため、頻度パラメータを「最高」に設定される前の頻度設定に元に戻す。このとき、頻度ブースト時間中に、自動撮影によって所定枚数以上の撮影が行われた場合には、現在のシーンが撮影すべきシーンであると判断できるため、頻度ブースト時間を延長してもよい。そうすることで、さらにユーザが撮って欲しいシーンを撮り続けることができる。
 S512では、第1制御部223は、自動撮影を行うかどうかの判定を行う。
 ここで、自動撮影を行うかどうかの判定について説明する。自動撮影を行うかどうかの判定は、重要度スコアが所定値を超えるかどうかで行われる。重要度スコアとは、自動撮影を行うかどうかの判定に用いるパラメータであり、探索エリアを決定するための重要度レベルとは異なるものである。重要度スコアは、被写体の検出状況と時間経過に応じて得点が加点される。例えば、重要度スコアが2000点を超えると自動撮影を行われるよう設計する場合を考える。この場合、まず、重要度スコアは初期値が0点であり、自動撮影のモードに入った時点からの時間経過によって加点されていく。優先度の高い被写体がいなければ、例えば120秒後に2000点に達するような増加率で増加していく。優先度の高い被写体が検出されないまま120秒が経過した場合、時間経過による加点によって2000点に達し、撮影が行われる。また、時間経過中に優先度の高い被写体を検出すると1000点が加点される。このため、優先度の高い被写体が検出されている状態では、2000点に達しやすくなり、結果的に撮影頻度が上がることになりやすい。
 また、例えば被写体の笑顔を認識した場合は、800点が加点される。なお、この笑顔に基づく加点は、優先度の高い被写体でなくとも加点される。また、本実施形態では、笑顔に基づく加点の点数は優先度の高い被写体であるか否かに関わらず同じ点数である場合を例に挙げて説明するが、これに限られるものではない。例えば優先度の高い被写体の笑顔を検知したことに応じた加点の点数を、優先度が高くない被写体の笑顔を検知したことに応じた加点の点数よりも高くしてもよい。このようにすることで、よりユーザの意図に沿った撮影を行うことが可能になる。これらの被写体の表情変化に伴う加点により2000点を超えれば自動撮影される。また、表情変化に伴う加点で2000点を超えなくとも、その後の時間経過による加点で2000点により短い時間で到達する。
 なお、時間経過による加点は、例えば120秒で2000点になるよう加点する場合、1秒ごとに2000/120点だけ加点する、すなわち時間に対して線形に加点する場合を例に挙げて説明するがこれに限られるものではない。例えば、120秒のうち110秒までは加点せず、110秒から120秒までの10秒間で、秒間200点ずつ加点して2000点に達するような増加の仕方にしてもよい。このようにすることで、被写体の表情変化による加点で、優先度の高低に関わらず撮影される点数に達してしまうことを防ぐことができる。時間経過に伴い線形増加する加点方法の場合、すでに時間経過により加点されている状態が長いため、優先度の低い被写体の笑顔への変化に伴う加点であっても撮影される点数に達してしまうことが多く、優先度の高低がさほど反映されにくい。かといって表情変化に伴う加点の点数を低くすると表情変化のあるタイミングを逃すことになるため、加点の点数を下げることでの対応は避けたい。そこで、110秒までは加点しないようにする。このようにすれば、優先度の低い被写体は加点されないまま110秒が経過する。一方、優先度の高い被写体は検知した時点で1000点が加点されるようにしているため、110秒まで時間経過による加点がなくとも1000点は加点された状態になる。これにより、表情変化に伴う加点が行われる場合に、優先度の低い被写体は撮影を行う点数に達する可能性を、優先度の高い被写体にくらべて抑えることができ、優先度の高低が機能しやすい。上記の説明では表情変化を例に挙げたが、加点される基準はこのほかにも声が大きくなった場合や身振り手振りが大きくなった場合などが考えられる。これらについても優先度の高低を機能させやすくするために上記のような加点方法の差を設ければよい。
 また、仮に被写体の行動によって2000点を超えなくとも、時間経過によって必ず120秒で撮影されるため、一定期間まったく撮影されないということはない。
 また、途中で被写体が検出された場合、120秒のうち、増加を開始する時間を前倒ししてもよい。つまり、例えば60秒の時点で優先度の高い被写体が検出された場合、それによって1000点が加点されてもまだ2000点を超えないが、このまま110秒まで増加しないのではなく、被写体を検出したのち30秒が経過したら線形増加を始めるようにしてもよい。あるいは、120秒の10秒前ではなく20秒前に線形増加を始めるようにしてもよい。このようにすれば、優先度の高い被写体が撮影される可能性が高まるため、よりユーザの意図に沿った撮影を実現しやすくなる。
 自動撮影が行われると、重要度スコアは0点にリセットされる。再度2000点を超えるまで自動撮影は行われない。
 ここで、頻度パラメータは、時間経過による重要度スコアの増加の仕方をコントロールするために用いられる。上記の例で被写体が検出されていない場合には自動撮影されるまで120秒かかるように設定されている。これは頻度パラメータが「中」の場合を例に挙げて説明したものだが、頻度ブーストの状態(頻度パラメータ「最高」)では60秒で自動撮影が行われるように、重要度スコアの増加のさせ方を変更する。この場合、増加の仕方は1秒ごとに2000/60点を加点してもよいし、例えば55秒まで加点せず、60秒までの残り5秒で、毎秒400点ずつ加点してもよい。後者のようにした場合の利点は上に述べた通りである。なお、ほかの頻度の例を挙げると、例えば頻度パラメータ「高」の場合は、100秒で2000点になるよう増加させ、頻度パラメータ「低」の場合は、240秒で2000点になるよう増加させるなどと設計する。以上の通り、頻度パラメータ「最高」の場合は、最も短い時間(本実施形態の説明では60秒の例)で少なくとも1枚撮影される頻度になる。したがって、撮影の頻度を上げるということは、加点の方法を変えることにより時間当たりに撮影される枚数を増やすことであり、撮影の頻度を下げるということは、加点の方法を変えることにより時間当たりに撮影される枚数を減らすことである。
 以上が、自動撮影を行うかどうかの判定について説明である。上記の判断により、自動撮影すると判断した場合には、S513へ進み、撮影しないと判断した場合には、S501へと進む。
 S513では、第1制御部223は、撮影処理を実行する。ここでいう撮影処理とは、静止画撮影や動画撮影が挙げられる。
 図6は、本実施形態における撮像装置101の音声認識処理のフローチャートである。撮像装置101に内蔵されたマイクに、ユーザが発した音声が入力された場合、音声入力音声処理部409において音声認識処理を行いユーザの操作命令を取得する。
 S601では、第1制御部223は、ウェイクワードの検出がされたかどうかの判定を行う。ウェイクワードとは、撮像装置101に対する具体的な指示を音声で行う音声コマンド認識を開始するための起動コマンドである。音声によって指示を行う場合、ウェイクワード認識後にコマンドワードを発生し、認識が成功する必要がある。ウェイクワードの検出がされた場合には、S602へ進み、検出されなかった場合には検出されるまでS601の処理を繰り返す。
 S602では、第1制御部223は、自動撮影処理を停止状態にする。ウェイクワードを認識したら、コマンドワードの待ち受け状態となるため、自動撮影処理を停止する。自動撮影の停止とは、パン・チルト動作、ズーム動作を用いた被写体探索や撮影処理の実行を指す。自動撮影を停止する目的は、ウェイクワードの次に発せられるコマンドワードの指示に素早く反応するために、自動撮影の処理を停止してコマンドワード待ち受け状態にすることが挙げられる。また、音声指示によって撮影指示を与えようとしていた場合、パン・チルトを停止することでユーザが撮影しようとしていた方向で撮影できるようにすることが挙げられる。
 S603では、第1制御部223は、ウェイクワードに認識成功をしたことをユーザに示すための認識音を鳴動させる。
 S604では、第1制御部223は、コマンドワードが検出されたかどうか判定を行う。コマンドワードが検出された場合にはS606に進み、検出されなかった場合にはS605に進む。
 S605では、第1制御部223は、ウェイクワードを検出し、コマンドワード待ち受け状態になってから所定時間が経過したかを判定する。所定時間が経過した場合にはS601に進み、コマンドワードの待ち受け状態を止めて、ウェイクワードの待ち受け状態となる。所定時間が経過していない場合には、コマンドワードが検出されるまでS604を繰り返す。
 S606では、第1制御部223は、検出されたコマンドワードが静止画撮影コマンドかどうかの判定を行う。この静止画撮影コマンドは、撮像装置101に対して1枚の静止画の撮影・記録の実行要求を行うコマンドである。静止画撮影コマンドと判定した場合にはS607へ進み、そうでない場合にはS608へ進む。
 S607では、第1制御部223は、静止画撮影処理を行う。具体的には、撮像部206にて撮影した信号を画像処理部207において、例えばJPEGファイルに変換し、画像記録部208にて記録媒体221に記録を行う。
 S608では、第1制御部223は、検出されたコマンドワードが被写体探索コマンドかどうかの判定を行う。被写体探索コマンドと判定した場合にはS609へ進み、そうでない場合にはS610へ進む。
 S609では、第1制御部223は、被写体探索処理を行う。すでにS505での被写体探索処理によって探索対象エリアが決定され、S506のパン・チルト駆動、S507のズーム駆動によって被写体を捉えている状態であれば、その被写体を追跡することを中止し、他の被写体を探すため、被写体探索処理を実行する。これは、被写体を捉えている状態で、ユーザが被写体探索を指示したのであれば、現在捉えている被写体とは別に撮影してほしい被写体が存在することを意味するためである。
 S607乃至S609の処理が完了後には、S610において、頻度設定処理を行う。頻度設定処理では、所定時間内にどのくらいの枚数の撮影を行うかの頻度パラメータを設定する処理である。処理内容の詳細については後述するが、S610で実行される頻度設定処理では撮影の頻度がより高くなるように設定される。
 S611では、第1制御部223は、検出されたコマンドワードが動画記録開始コマンドかどうかの判定を行う。動画撮影コマンドは、撮像装置101に対して動画像の撮像と記録を要求するコマンドである。動画記録開始コマンドと判定した場合にはS612へ進み、そうでない場合にはS613へ進む。
 S612では、第1制御部223は、撮像部206を用いて動画像の撮影を開始し、記録媒体221へ記録を行う。動画の記録中は、パン・チルトやズーム駆動は行わず、被写体の探索は行わず、自動撮影は停止の状態を維持し続ける。
 S613では、第1制御部223は、検出されたコマンドワードが動画記録停止コマンドかどうかの判定を行う。動画記録停止コマンドと判定した場合にはS614へ進み、そうでない場合にはS615へ進む。
 S614では、第1制御部223は、撮像部206を用いた動画像の撮影・記録を停止し、記録媒体221へ動画ファイルとしての記録を完了させる。
 S615では、第1制御部223は、音声コマンドにおけるその他の処理を実行する。例えば、ユーザの指定した方向にパン・チルトを行うコマンドに対する処理や、露出補正など各種撮影パラメータを変更するコマンドに対する処理を行う事が挙げられる。
 S616、S617では、第1制御部223は、S602にて停止した自動撮影に対して再開処理を行う。これによって、S502~S510の処理が動作可能となり自動撮影が再開される。
 このとき、動画の記録開始、記録停止の指示の場合には頻度設定処理は実行してない。これは、動画の記録開始後は連続して撮像部206からの信号を記録するため頻度設定を高く設定する意味がないことが理由である。また、動画の記録停止後は、ユーザが記録停止を指示したということは、記録に残すべきシーンが終わったことを示すので、いたずらに頻度を高く設定して無駄な画像を撮影しないようにするためである。
 また、撮像装置101が持つ電池残量などが少ない場合や、撮像装置101が発熱により所定温度以上になっている場合では、撮像部206などを頻繁に動作させないことが好ましい。このような状況では、後述図7のS704による頻度パラメータを「最高」に設定しないようにしてもよい。
 図7は、本実施形態における撮像装置101の頻度設定処理のフローチャートである。ユーザが自動撮影を行う頻度を設定する手段としては、スマートデバイス301内の専用アプリケーションを介して行う方法がある。本フローチャートの処理は、図6のS610の実行に応じても開始される。さらに、スマートデバイス301内の専用アプリケーションを介してユーザが頻度の変更を指示したことに応じても開始される。
 S701では、第1制御部223は、スマートデバイス301内の専用アプリケーションを介した頻度設定であるかを判定する。専用アプリケーションを介した頻度設定である場合にはS702に進み、そうでない場合(例えばS610で実行される場合)にはS703に進む。
 S702では、第1制御部223は、ユーザが指示した頻度パラメータに設定を行う。例えば、図9のようにスマートデバイス301内の専用アプリケーションの画面において、自動撮影頻度の項目から「低」・「中」・「高」を選択することで設定が可能である。
 ここで、図9のアプリケーション画面について説明する。
 スマートデバイス301の専用アプリケーションでは、自動的に撮影するコンテンツとして、静止画と動画が用意されている。さらに、自動的に撮影するコンテンツとして、静止画を優先するか、動画を優先するかを専用アプリケーションから設定することができる。この設定は、図9に示すように、スライダーバーのつまみをタッチ(フリック)して変更することができる。静止画を優先するよう設定された場合、動画よりも静止画を多く撮影する。また、動画を優先するよう設定された場合、静止画よりも動画を多く撮影する。
 また、撮像装置が撮像すべきシーンを探索する範囲を、正面方向から何度の範囲にするかを設定することもできる。図9の例では、正面から左右それぞれ30度で合わせて60度の範囲、正面から左右それぞれ90度で合わせて180度の範囲、全周、の3パターンが設定できる。なお、より細かい範囲設定が可能なように数値を入力する形にしてもよい。
 また、自動的に撮像する場合、撮像されたコンテンツが多くなりすぎることが懸念される。そこで、自動的に画像を削除する機能を設け、その機能をスマートデバイス301から入切りできるようにしている。なお、自動的に削除される画像は、例えば撮影日時が古いものから順に削除してもよいし、重要度が低い順から削除してもよい。ここでいう重要度とは、例えば静止画の場合は、ブレが少ないかどうかや人物が写っているかどうかなど、ユーザが残したくなるであろう画像であることが予測されるパラメータを数値化したものである。また、動画の場合は、例えば人物が写っているかどうかや、会話などの人の声が記録されているかどうかなどを数値化し、重要度を算出する。そして、合計数値の高いものほど重要度が高いものとして扱う。
 以上が図9の説明である。図7の説明に戻る。
 S703では、第1制御部223は、音声認識処理から呼び出された頻度設定であるかを判定する。音声認識処理から呼び出された頻度設定である場合にはS704へ進み、そうでない場合には頻度設定処理を終了する。
 S704では、第1制御部223は、頻度パラメータをS702で設定できる頻度よりもさらに高い頻度を設定する。このようにするのは、ユーザが撮影を指示したタイミングは、少なくとも撮影してほしいタイミングであることが理由である。すなわち、ユーザが撮影を指示したタイミングでは、撮影してほしい状況であるため、時間的に近い期間では、撮影してほしいシーンが生じやすいと考えられる。この点に着目し、本実施形態の撮像装置は、ユーザの音声コマンドによる音声指示をトリガーとして、音声コマンドが入力されてから一定の期間は撮影すべきシーンと推測し、撮影頻度を高くする。これによりユーザが撮って欲しい画像を逃さずに撮影することができる。本実施形態では、「最高」という頻度のパラメータに設定を行う事として説明をしているが、音声コマンド指示による頻度設定が行われる度に、頻度を段階的に高くするようにしてもよい。この場合、頻度の上限は撮像装置101が備える連写撮影の最速のコマ速度が上限となる。
 S705では、第1制御部223は、S704で「最高」に設定した頻度パラメータを、元のパラメータに戻すまでの頻度ブースト時間の設定を行い、カウントダウンを開始する。例えば、頻度設定が「中」に設定されている状態で、音声コマンド指示によって頻度設定が「最高」に設定された場合、仮に頻度ブースト時間を60秒とすると、60秒経過後には頻度設定が「中」に設定が戻る(実際の処理はS511で行われる)。なお、ここでいう頻度ブースト時間とは、頻度が最高の状態を維持する時間である。この頻度ブースト時間は、自動的に設定されるものだが、ユーザが任意の時間を設定できるようにしてもよい。
 このとき、この頻度ブースト時間は所定時間の経過によって設定を戻す以外に、自動撮影によって所定枚数の撮影がされるかどうかによって設定を元に戻しても良い。
 また、頻度ブースト時間のカウントダウンが終了する前に、再度音声コマンドによって再度、頻度設定が「最高」に設定された場合には、頻度設定を元に戻すまでの所定時間もしくは所定枚数を延長する。
 さらに、頻度設定を元に戻す判断として、被写体探索処理をパン方向の全方位に対して行ったかどうかで判断しても良い。
 以上、本発明の好ましい実施例について説明したが、本発明はこれらの実施例に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
 例えば、上記実施例ではユーザからの撮影指示の手段として音声コマンドの例を用いて説明した。これに加えて、スマートデバイスやBLEリモコンからの通信手段を介しての指示で撮影を指示された場合にも、その指示を実行した後に頻度設定を「最高」に設定するようにしてもよい。また、撮像装置内の加速度センサーを利用した特定の振動パターンによる、この振動パターンに応じた処理の実行の指示を検出した場合にも、その指示を実行した後に頻度設定を「最高」に設定するようにしてもよい。さらに、撮像部を通してユーザの手の動きを解析しジェスチャーによるジェスチャー指示を受けた場合でも、その指示を実行した後に頻度設定を「最高」に設定するようにしてもよい。
 また、本実施形態では、パン・チルト駆動とズーム駆動によって被写体を追尾することで、ユーザが欲する画像の撮影を行うことを特徴としてきた。これについては例えば、撮像手段として360°カメラを採用することで全方位を常時撮影し、撮影できた画像から必要な範囲の画像を切り出すことで被写体の画像を得るような実装も考えられる。このようにした場合は、常に動画記録を実行し、切り出し指示が入力されたことに応じて、静止画のフォーマットで記録を行った後、動画のフレームレートを上げるようにする。この場合でも、上述の実施形態での撮影頻度と同様に、フレームレートを設定できる最高のレートにしてもよいし、設定できる値を超えた値にしてもよい。また、上げたフレームレートを元に戻す条件も、上述の実施形態と同様に、一定時間の経過を採用すればよい。これにより、ユーザが画像の記録を望むタイミングの周辺ではより高頻度で記録することになる、その結果、例えば動体に対するピントのブレが生じていない画像を取得しやすくなるという効果が得られる。
 なお、頻度ブースト時間内に撮影タイミングが来なかった場合には、1枚も撮影されないということが考えられる。そこで、まず静止画撮影コマンドを受け付けた時点で、パン・チルトやズーム駆動は行わず、被写体の探索も行わずに1枚撮影する。続いて、被写体を探索しながら連続して3枚撮影を行う。その後、所定時間の間、頻度ブースト状態になり自動撮影を行う。こうすることで、ユーザが静止画撮影コマンドにより意図して静止画撮影を指示した場合に、1枚も撮影がされないということはなくなり、最低でも4枚は撮影されることになる。
 本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために以下の請求項を添付する。
 本願は、2020年1月6日提出の日本国特許出願特願2020-000459と2020年9月8日提出の日本国特許出願特願2020-150367を基礎として優先権を主張するものであり、その記載内容の全てをここに援用する。

Claims (19)

  1.  音声を集音する集音手段と、
     前記集音手段によって集音した音声を解析する解析手段と、
     自動的に撮影を行う自動撮影手段と、
     前記自動撮影手段の撮影頻度を設定する設定手段と、
     を有し、
     前記解析手段によって解析した結果、特定の音声指示だった場合には、指示に従った動作を行った後、前記設定手段によって撮影頻度をより高く設定することを特徴とする撮像装置。
  2.  前記自動撮影手段は、撮像装置のパン、チルト、およびズームを自動的に行い、被写体を追尾して自動的に静止画もしくは動画の撮影を行うことを特徴とする請求項1に記載の撮像装置。
  3.  前記設定手段によって設定される頻度は、ユーザが任意に設定できる頻度よりも、さらに高い頻度で設定されることを特徴とする請求項1に記載の撮像装置。
  4.  前記設定手段によって撮影頻度をより高く設定されてから、所定時間が経過した場合に、撮影頻度を元に戻すことを特徴とする請求項1に記載の撮像装置。
  5.  前記設定手段によって撮影頻度をより高く設定された状態で、前記自動撮影手段によって所定枚数以上の撮影が行われた場合には、前記所定時間を延長することを特徴とする請求項4に記載の撮像装置。
  6.  前記設定手段によって撮影頻度をより高く設定された状態で、前記解析手段によって特定の音声指示を認識した場合には、前記所定時間を延長することを特徴とする請求項4に記載の撮像装置。
  7.  前記設定手段によって撮影頻度をより高く設定されてから、前記自動撮影手段によって所定枚数が撮影された場合に、撮影頻度を元に戻すことを特徴とする請求項1に記載の撮像装置。
  8.  前記設定手段によって撮影頻度をより高く設定された状態で、前記自動撮影手段によって所定枚数以上の撮影が行われた場合には、前記所定枚数を増やすことを特徴とする請求項7に記載の撮像装置。
  9.  前記設定手段によって撮影頻度をより高く設定された状態で、前記解析手段によって特定の音声指示を認識した場合には、前記所定枚数を増やすことを特徴とする請求項7に記載の撮像装置。
  10.  撮像装置の向きを変更する回転手段をさらに有し、前記設定手段によって撮影頻度をより高く設定された後、前記回転手段によって全方位の被写体を探索した場合に、撮影頻度を元に戻すことを特徴とする請求項1に記載の撮像装置。
  11.  前記解析手段によって解析された前記特定の音声指示が、撮影指示であった場合に、前記設定手段によって撮影頻度をより高く設定することを特徴とする請求項1に記載の撮像装置。
  12.  前記解析手段によって解析された前記特定の音声指示が、被写体を探索する指示であった場合に、前記設定手段によって撮影頻度をより高く設定することを特徴とする請求項1に記載の撮像装置。
  13.  前記解析手段によって解析された前記特定の音声指示が、動画の記録を開始させる指示であった場合には、前記設定手段によって頻度設定を高く設定しないことを特徴とする請求項1に記載の撮像装置。
  14.  前記解析手段によって解析された前記特定の音声指示が、動画の記録を停止させる指示であった場合には、前記設定手段によって頻度設定を高く設定しないことを特徴とする請求項1に記載の撮像装置。
  15.  撮像装置の電池残量が所定の量よりも少ない場合には、前記解析手段によって解析された音声が前記特定の音声指示であったとしても、前記設定手段によって頻度設定を高く設定しないことを特徴とする請求項1に記載の撮像装置。
  16.  撮像装置の温度が所定の温度より高い温度の場合には、前記解析手段によって解析された音声が前記特定の音声指示であったとしても、前記設定手段によって頻度設定を高く設定しないことを特徴とする請求項1に記載の撮像装置。
  17.  携帯端末からの通信手段を介しての特定の指示、撮像装置の加速度センサーを利用した特定の振動パターンを検出した場合、もしくは、ユーザの手の動きによって指示を実現するジェスチャー指示による特定の指示がされた場合であっても、前記設定手段によって頻度を高く設定することを特徴とする請求項1に記載の撮像装置。
  18.  音声を集音する集音手段を有する撮像装置の制御方法であって、
     前記集音手段によって集音した音声を解析する解析ステップと、
     自動的に撮影を行う自動撮影ステップと、
     前記自動撮影ステップにおける撮影頻度を設定する設定ステップとを有し、
     前記解析ステップによって解析した結果、特定の音声指示だった場合には、指示に従った動作を行った後、前記設定ステップを実行し、撮影頻度を高く設定することを特徴とする撮像装置の制御方法。
  19.  コンピュータを、請求項1乃至17のいずれか1項に記載の撮像装置の各手段として機能させるための、コンピュータが読み取り可能なプログラム。
PCT/JP2020/047490 2020-01-06 2020-12-18 撮像装置、撮像装置の制御方法、プログラム WO2021140879A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/856,778 US20220337740A1 (en) 2020-01-06 2022-07-01 Image capturing apparatus, control method of image capturing apparatus, and storage medium

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2020-000459 2020-01-06
JP2020000459 2020-01-06
JP2020150367A JP2021111960A (ja) 2020-01-06 2020-09-08 撮像装置、撮像装置の制御方法、プログラム
JP2020-150367 2020-09-08

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/856,778 Continuation US20220337740A1 (en) 2020-01-06 2022-07-01 Image capturing apparatus, control method of image capturing apparatus, and storage medium

Publications (1)

Publication Number Publication Date
WO2021140879A1 true WO2021140879A1 (ja) 2021-07-15

Family

ID=76787963

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/047490 WO2021140879A1 (ja) 2020-01-06 2020-12-18 撮像装置、撮像装置の制御方法、プログラム

Country Status (2)

Country Link
US (1) US20220337740A1 (ja)
WO (1) WO2021140879A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022071984A (ja) * 2020-10-29 2022-05-17 キヤノン株式会社 撮像装置、制御方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008118526A (ja) * 2006-11-07 2008-05-22 Sony Corp 撮像装置、撮像方法
JP2019106694A (ja) * 2017-09-28 2019-06-27 キヤノン株式会社 撮像装置およびその制御方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008118526A (ja) * 2006-11-07 2008-05-22 Sony Corp 撮像装置、撮像方法
JP2019106694A (ja) * 2017-09-28 2019-06-27 キヤノン株式会社 撮像装置およびその制御方法

Also Published As

Publication number Publication date
US20220337740A1 (en) 2022-10-20

Similar Documents

Publication Publication Date Title
US11102389B2 (en) Image pickup apparatus and control method therefor
US11184550B2 (en) Image capturing apparatus capable of automatically searching for an object and control method thereof, and storage medium
US11812132B2 (en) Imaging device, control method therefor, and recording medium
US20230362472A1 (en) Image pickup apparatus and control method therefor
JP7348754B2 (ja) 画像処理装置及びその制御方法、プログラム、記憶媒体
JP6852141B2 (ja) 情報処理装置、撮像装置、情報処理装置の制御方法、および、プログラム
JP7403218B2 (ja) 撮像装置及びその制御方法、プログラム、記憶媒体
JP7267686B2 (ja) 撮像装置及びその制御方法
WO2021140879A1 (ja) 撮像装置、撮像装置の制御方法、プログラム
JP2021111960A (ja) 撮像装置、撮像装置の制御方法、プログラム
US11245830B2 (en) Image capture apparatus and control method for same, and storage medium
US11659268B2 (en) Imaging apparatus capable of automatically capturing image, control method, and recording medium
CN114500790A (zh) 摄像设备及其控制方法以及存储介质
JP6896818B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP7366594B2 (ja) 情報処理装置とその制御方法
JP2022071984A (ja) 撮像装置、制御方法、およびプログラム
JP7393133B2 (ja) 画像処理装置及び画像処理方法、撮像装置、プログラム、記憶媒体
JP2023115728A (ja) 撮像装置、及びこれらの制御方法、プログラム
JP2023006632A (ja) 撮像装置、制御方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20912938

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20912938

Country of ref document: EP

Kind code of ref document: A1