WO2022145294A1 - 画像処理装置、撮像装置、画像処理方法、及びプログラム - Google Patents

画像処理装置、撮像装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
WO2022145294A1
WO2022145294A1 PCT/JP2021/047376 JP2021047376W WO2022145294A1 WO 2022145294 A1 WO2022145294 A1 WO 2022145294A1 JP 2021047376 W JP2021047376 W JP 2021047376W WO 2022145294 A1 WO2022145294 A1 WO 2022145294A1
Authority
WO
WIPO (PCT)
Prior art keywords
subject
image
indicator
display
data
Prior art date
Application number
PCT/JP2021/047376
Other languages
English (en)
French (fr)
Inventor
優馬 小宮
亮宏 内田
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to EP21915154.5A priority Critical patent/EP4270926A1/en
Priority to CN202180087856.5A priority patent/CN116745673A/zh
Priority to JP2022573014A priority patent/JPWO2022145294A1/ja
Publication of WO2022145294A1 publication Critical patent/WO2022145294A1/ja
Priority to US18/338,190 priority patent/US20230336864A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B7/00Mountings, adjusting means, or light-tight connections, for optical elements
    • G02B7/28Systems for automatic generation of focusing signals
    • G02B7/36Systems for automatic generation of focusing signals using image sharpness techniques, e.g. image processing techniques for generating autofocus signals
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B7/00Control of exposure by setting shutters, diaphragms or filters, separately or conjointly
    • G03B7/08Control effected solely on the basis of the response, to the intensity of the light received by the camera, of a built-in light-sensitive device
    • G03B7/091Digital circuits
    • G03B7/093Digital circuits for control of exposure time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/617Upgrading or updating of programs or applications for camera control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • H04N23/635Region indicators; Field of view indicators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/73Circuitry for compensating brightness variation in the scene by influencing the exposure time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image

Definitions

  • the techniques disclosed in the present disclosure relate to an image processing device, an image pickup device, an image processing method, and a program.
  • Japanese Patent Application Laid-Open No. 2013-135446 describes an image pickup apparatus having an image pickup means, which is detected by a detection means for detecting a predetermined subject image contained in an image obtained by the image pickup means and a detection means.
  • the subject having the characteristic information stored in the storage means has a display control means for displaying the corresponding name information at a position near the corresponding subject, and the display control means is a classification means.
  • the corresponding name information is displayed, and for the non-main subject classified by the classification means, both the non-main subject and the main subject.
  • an image pickup apparatus characterized in that the corresponding name information is displayed on condition that the information can be specified by the feature information stored in the storage means.
  • Japanese Patent Application Laid-Open No. 2019-20138 describes an acquisition unit that acquires a plurality of continuous frame images specifically including a subject from an image pickup unit of an image pickup apparatus, and a tracking unit that causes the image pickup unit to track a tracking target including the subject. It is a tracking control device including a tracking control unit that performs control, and the tracking control unit includes a feature unit that constitutes a part of the subject and characterizes the subject and a peripheral portion located around the feature unit in the frame image.
  • a tracking control device characterized in that a tracking target having at least one of them is set, is disclosed.
  • Japanese Unexamined Patent Publication No. 2009-77266 includes a release button capable of performing a half-press operation and a full-press operation that is pushed deeper than the half-press operation, and a through image display that displays an image output from the imaging means on the display means.
  • a face detection means for detecting a person's face from an image, and when the number of face detections is multiple, the face selection order of a plurality of faces is determined based on a predetermined criterion, and the face selection order is the highest.
  • a face selection order determination means for setting a face as the initial face, and when the number of detected faces is one, that face is selected as the main face as the focus area, and when there are multiple faces, the release button is pressed.
  • a digital camera provided with a main face selection means for selecting a face having the same face selection order as the number of half-press operations as the main face when the half-press operation is performed two or more times in succession. There is.
  • Japanese Unexamined Patent Publication No. 2019-097380 discloses an imaging device capable of selecting a main subject.
  • the image pickup apparatus described in JP-A-2019-097380 detects a subject from an image and selects a main subject from the detected subject. Further, the image pickup apparatus described in Japanese Patent Application Laid-Open No. 2019-097380 focuses on a focus detection region corresponding to the main subject when the main subject is in focus and the main subject is selected based on a user's instruction. Dead within a predetermined depth of field, regardless of the difference between the detection result and the result of focus detection for a focus detection area corresponding to a subject other than the main subject within the predetermined depth of field.
  • the in-focus display for other intentions is displayed so that the display form of the in-focus display for the main subject is different from the display mode for the in-focus display for subjects other than the main subject.
  • One embodiment according to the technique of the present disclosure is an image processing device, an image pickup device, and an image processing capable of distinguishing a target subject from a plurality of subjects among a plurality of subjects even if a plurality of subjects are densely packed. Provide methods and programs.
  • a first aspect of the technique of the present disclosure comprises a processor, a memory connected to or built into the processor, and a plurality of subjects based on an image captured by the processor being imaged by an image pickup apparatus. Is detected, the first subject and the second subject existing within the range of the first distance from the first subject in the in-plane direction of the captured image are selected from a plurality of subjects, and the captured image is displayed on the display.
  • the second aspect according to the technique of the present disclosure is for displaying the display data on the display a third indicator that identifies the first subject and the second subject existing within the second distance in the in-plane direction.
  • the image processing apparatus according to the first aspect which includes the first data.
  • a third aspect of the technique of the present disclosure is a second aspect, wherein the first data includes data for erasing the first and second indicators from the display when the third indicator is displayed on the display. It is an image processing apparatus according to an aspect.
  • the display data uses the first indicator and the second indicator for specifying the first subject and the second subject existing within the second distance in the in-plane direction.
  • the image processing apparatus according to the first aspect which includes data for displaying on a display instead.
  • a processor acquires each type of a plurality of subjects based on a captured image, and a third indicator combines a type of a first subject and a type of a second subject.
  • a third indicator combines a type of a first subject and a type of a second subject.
  • a sixth aspect according to the technique of the present disclosure is that the display data is a second combination in which the combination of the type of the first subject and the type of the second subject is different from the first combination, and the combination is from the second distance. 1 It is an image processing apparatus according to one aspect.
  • a sixth aspect of the technique of the present disclosure is the sixth aspect, wherein the second data includes data for erasing the first and second indicators from the display when the fourth indicator is displayed on the display. It is an image processing apparatus according to an aspect.
  • An eighth aspect according to the technique of the present disclosure is to specify from the object indicator when the processor causes the display to display an object indicator that identifies the first subject and the second subject existing within a predetermined distance as one object.
  • Any one of the first to seventh aspects which outputs control data for control related to imaging performed by the image pickup apparatus using a region corresponding to at least a part of the object to be formed. This is an image processing device according to the above.
  • the region corresponding to at least a part of the object is the first region corresponding to the first subject, the second region corresponding to the second subject, and the first subject and the first.
  • the image processing apparatus according to the eighth aspect which is at least one of the third regions corresponding to the two subjects.
  • a tenth aspect according to the technique of the present disclosure is an image according to an eighth aspect or a ninth aspect, wherein the control related to imaging includes at least one of exposure control, focus control, and white balance control. It is a processing device.
  • the region corresponding to at least a part of the object is the first region corresponding to the first subject and the second region corresponding to the second subject, and the processor is the first.
  • the image processing unit which controls exposure based on the brightness of a first region corresponding to one subject and the brightness of a second region corresponding to a second subject.
  • the region corresponding to at least a part of the object is the first region corresponding to the first subject and the second region corresponding to the second subject, and the processor is a second region.
  • the image processing unit according to the tenth aspect or the eleventh aspect which performs white balance control based on the color of the first region corresponding to one subject and the color of the second region corresponding to the second subject.
  • a thirteenth aspect according to the technique of the present disclosure is an image processing device according to any one of the first to twelfth aspects, wherein the processor detects a plurality of subjects according to the first criterion.
  • a fourteenth aspect according to the technique of the present disclosure is any one of the first to thirteenth aspects, wherein the processor detects the first subject based on the second criterion different from the criterion for detecting the second subject. It is an image processing apparatus according to one aspect.
  • a fifteenth aspect according to the technique of the present disclosure is a fourteenth aspect in which the second criterion is a criterion defined based on at least one of a distance from an image pickup apparatus, a depth of field, and an aspect of a subject. It is an image processing apparatus which concerns on the aspect of.
  • a sixteenth aspect according to the technique of the present disclosure is an image processing apparatus according to a fourteenth aspect or a fifteenth aspect, wherein the second standard is a standard determined based on an instruction received by a receiving device. ..
  • a seventeenth aspect according to the technique of the present disclosure is a positional relationship between a selected subject selected by a processor according to a parameter specified from a captured image and an instruction received by a receiving device among a plurality of subjects and the remaining subject.
  • the first subject is specified using the trained model obtained by performing machine learning using information including at least one of the modes of the selected subject as teacher data, from the first aspect to the sixteenth aspect. It is an image processing apparatus which concerns on any one aspect of.
  • the captured image includes a first designated subject image showing a designated subject among a plurality of subjects, and the parameter is the first in the captured image.
  • the image processing apparatus according to the seventeenth aspect, which includes a relative position of a designated subject image.
  • a nineteenth aspect according to the technique of the present disclosure is that the captured image includes a second designated subject image showing a designated subject among a plurality of subjects, and the parameter is a second in the captured image.
  • the image processing apparatus according to the 17th aspect or the 18th aspect, which includes a value based on the ratio occupied by the designated subject image.
  • a twentieth aspect according to the technique of the present disclosure is any one of the first to nineteenth aspects, wherein the second indicator includes at least one of a number and a symbol that identifies a second subject image.
  • This is an image processing device according to the above.
  • the 21st aspect according to the technique of the present disclosure is an image processing apparatus according to any one of the 1st to 20th aspects, wherein the first distance is a distance in a captured image.
  • a 22nd aspect according to the technique of the present disclosure comprises a processor, a memory connected to or built into the processor, an image sensor, and is based on an image captured by the processor being imaged by the image sensor.
  • a plurality of subjects are detected, a first subject and a second subject existing within a range of the first distance from the first subject in the in-plane direction of the captured image are selected from the plurality of subjects, and the display is displayed.
  • a 23rd aspect according to the technique of the present disclosure is to detect a plurality of subjects based on an image captured by being imaged by an image pickup device, from a plurality of subjects, a first subject and a surface of the captured image. First, the second subject existing within the range of the first subject from the first subject in the inward direction is selected, and the captured image and the first subject image indicating the first subject are specified for the display. It is an image processing method including outputting display data for displaying an indicator and a second indicator that specifies a second subject image indicating a second subject in a mode different from that of the first indicator.
  • a twenty-fourth aspect according to the technique of the present disclosure is to detect a plurality of subjects based on an image captured by an image pickup device on a computer, and to capture a first subject and an image from the plurality of subjects.
  • a second subject existing within a range of the first subject from the first subject in the in-plane direction of the image is selected, and the captured image and the first subject image showing the first subject are specified for the display.
  • a process including outputting display data for displaying a first indicator and a second indicator that specifies a second subject image indicating a second subject in a manner different from that of the first indicator is executed. It is a program for.
  • FIG. 24A It is a continuation of the flowchart shown in FIG. 24A. It is a conceptual diagram which shows the content of the process which generates and displays the 4th indicator. It is a conceptual diagram which shows the content of the process which performs the control which concerns on image pickup. It is a conceptual diagram which shows the content of the process which performs the control which concerns on image pickup. It is a conceptual diagram which shows the content of the process which performs the control which concerns on image pickup. It is a conceptual diagram which shows the content of the process which performs the control which concerns on image pickup. It is a conceptual diagram which shows the transformation example of a teacher data. It is a conceptual diagram which shows the modification of the indicator attached to the peripheral subject. It is a conceptual diagram which shows an example of the structure of an image pickup system.
  • CPU is an abbreviation for "Central Processing Unit”.
  • GPU refers to the abbreviation of "Graphics Processing Unit”.
  • TPU is an abbreviation for "Tensor processing unit”.
  • NVM is an abbreviation for "Non-volatile memory”.
  • RAM is an abbreviation for "RandomAccessMemory”.
  • IC refers to the abbreviation of "Integrated Circuit”.
  • ASIC is an abbreviation for "Application Specific Integrated Circuit”.
  • PLD is an abbreviation for "Programmable Logic Device”.
  • FPGA refers to the abbreviation of "Field-Programmable Gate Array”.
  • SoC is an abbreviation for "System-on-a-chip”.
  • SSD is an abbreviation for "Solid State Drive”.
  • USB is an abbreviation for "Universal Serial Bus”.
  • HDD is an abbreviation for “Hard Disk Drive”.
  • EEPROM refers to the abbreviation of "Electrically Erasable and Programmable Read Only Memory”.
  • EL refers to the abbreviation of "Electro-Luminescence”.
  • I / F refers to the abbreviation of "Interface”.
  • UI is an abbreviation for "User Interface”.
  • fps is an abbreviation for “frame per second”.
  • MF is an abbreviation for “Manual Focus”.
  • AF is an abbreviation for "Auto Focus”.
  • CMOS is an abbreviation for "Complementary Metal Oxide Semiconductor”.
  • CCD refers to the abbreviation of "Charge Coupled Device”.
  • LAN is an abbreviation for "Local Area Network”.
  • WAN is an abbreviation for "Wide Area Network”.
  • CNN is an abbre
  • the image pickup device 10 is a device for taking an image of a subject, and includes a controller 12, an image pickup device main body 16, and an interchangeable lens 18.
  • the controller 12 is an example of an "image processing device” and a "computer” according to the technique of the present disclosure.
  • the controller 12 is built in the image pickup device main body 16 and controls the entire image pickup device 10.
  • the interchangeable lens 18 is interchangeably attached to the image pickup apparatus main body 16.
  • the interchangeable lens 18 is provided with a focus ring 18A.
  • the focus ring 18A is operated by the user or the like when the user of the image pickup device 10 (hereinafter, simply referred to as “user”) or the like manually adjusts the focus on the subject by the image pickup device 10.
  • an interchangeable lens type digital camera is shown as an example of the image pickup apparatus 10.
  • this is just an example, and it may be a digital camera with a fixed lens, or it may be built into various electronic devices such as smart devices, wearable terminals, cell observation devices, ophthalmology observation devices, or surgical microscopes. It may be a digital camera.
  • the image sensor 20 is provided on the image pickup apparatus main body 16.
  • the image sensor 20 is a CMOS image sensor.
  • the image sensor 20 captures an imaging range including at least one subject.
  • the interchangeable lens 18 is attached to the image pickup apparatus main body 16
  • the subject light indicating the subject is transmitted through the interchangeable lens 18 and imaged on the image sensor 20, and the image data indicating the image of the subject is generated by the image sensor 20. Will be done.
  • the CMOS image sensor is exemplified as the image sensor 20, but the technique of the present disclosure is not limited to this, and for example, even if the image sensor 20 is another type of image sensor such as a CCD image sensor.
  • the technique of the present disclosure is established.
  • a release button 22 and a dial 24 are provided on the upper surface of the image pickup apparatus main body 16.
  • the dial 24 is operated when setting the operation mode of the image pickup system, the operation mode of the reproduction system, and the like, and by operating the dial 24, the image pickup apparatus 10 sets the image pickup mode, the reproduction mode, and the setting as the operation modes.
  • the mode is selectively set.
  • the image pickup mode is an operation mode in which the image pickup device 10 is made to perform image pickup.
  • the reproduction mode is an operation mode for reproducing an image (for example, a still image and / or a moving image) obtained by performing imaging for recording in the imaging mode.
  • the setting mode can generate the teacher data 88 (see FIG. 5) described later, supply the teacher data 88 to the model generator 92 (see FIG. 6), and set various setting values used in the control related to imaging. This is an operation mode to be set for the image pickup apparatus 10 when setting.
  • the release button 22 functions as an image pickup preparation instruction unit and an image pickup instruction unit, and can detect a two-step pressing operation of an image pickup preparation instruction state and an image pickup instruction state.
  • the imaging preparation instruction state refers to a state in which the image is pressed from the standby position to the intermediate position (half-pressed position), and the imaging instruction state is a state in which the image is pressed to the final pressed position (fully pressed position) beyond the intermediate position. Point to. In the following, the "state of being pressed from the standby position to the half-pressed position" is referred to as "half-pressed state", and the "state of being pressed from the standby position to the full-pushed position” is referred to as "full-pressed state”.
  • the image pickup preparation instruction state may be a state in which the user's finger is in contact with the release button 22, and the image pickup instruction state is a state in which the operating user's finger is in contact with the release button 22. It may be in a state of transition from the state to a state away from the state.
  • a touch panel display 32 and an instruction key 26 are provided on the back surface of the image pickup apparatus main body 16.
  • the touch panel display 32 includes a display 28 and a touch panel 30 (see also FIG. 2).
  • An example of the display 28 is an EL display (eg, an organic EL display or an inorganic EL display).
  • the display 28 may be a display of another type such as a liquid crystal display instead of the EL display.
  • the display 28 displays an image and / or character information and the like.
  • the display 28 is used for imaging for a live view image, that is, for displaying a live view image obtained by performing continuous imaging when the imaging device 10 is in the imaging mode. Imaging performed to obtain a live view image (hereinafter, also referred to as “imaging for a live view image”) is performed according to, for example, a frame rate of 60 fps. 60 fps is only an example, and a frame rate of less than 60 fps may be used, or a frame rate of more than 60 fps may be used.
  • live view image refers to a moving image for display based on image data obtained by being imaged by the image sensor 20. Live view images are also commonly referred to as through images.
  • the display 28 is also used for displaying a still image obtained by taking an image for a still image when an instruction for taking an image for a still image is given to the image pickup device 10 via the release button 22. Be done.
  • the display 28 is also used to display a reproduced image or the like when the image pickup apparatus 10 is in the reproduction mode. Further, the display 28 displays a menu screen on which various menus can be selected when the image pickup device 10 is in the setting mode, and a setting screen for setting various setting values used in control related to imaging. It is also used for display.
  • the touch panel 30 is a transmissive touch panel and is superimposed on the surface of the display area of the display 28.
  • the touch panel 30 receives an instruction from the user by detecting contact with an indicator such as a finger or a stylus pen.
  • an indicator such as a finger or a stylus pen.
  • the above-mentioned "fully pressed state” includes a state in which the user turns on the soft key for starting imaging via the touch panel 30.
  • an out-cell type touch panel display in which the touch panel 30 is superimposed on the surface of the display area of the display 28 is mentioned, but this is only an example.
  • an on-cell type or in-cell type touch panel display can be applied as the touch panel display 32.
  • the instruction key 26 receives various instructions.
  • the "various instructions” are, for example, an instruction to display a menu screen, an instruction to select one or a plurality of menus, an instruction to confirm a selection, an instruction to delete the selection, a zoom-in, a zoom-out, and the like. And various instructions such as frame advance. Further, these instructions may be given by the touch panel 30.
  • the image sensor 20 includes a photoelectric conversion element 72.
  • the photoelectric conversion element 72 has a light receiving surface 72A.
  • the photoelectric conversion element 72 is arranged in the image pickup apparatus main body 16 so that the center of the light receiving surface 72A and the optical axis OA coincide with each other (see also FIG. 1).
  • the photoelectric conversion element 72 has a plurality of photosensitive pixels arranged in a matrix, and the light receiving surface 72A is formed by the plurality of photosensitive pixels.
  • the photosensitive pixel is a physical pixel having a photodiode (not shown), which photoelectrically converts the received light and outputs an electric signal according to the amount of received light.
  • the interchangeable lens 18 includes an image pickup lens 40.
  • the image pickup lens 40 has an objective lens 40A, a focus lens 40B, a zoom lens 40C, and a diaphragm 40D.
  • the objective lens 40A, the focus lens 40B, the zoom lens 40C, and the aperture 40D are the objective lens 40A, the focus lens 40B, along the optical axis OA from the subject side (object side) to the image pickup device main body 16 side (image side).
  • the zoom lens 40C and the aperture 40D are arranged in this order.
  • the interchangeable lens 18 includes a control device 36, a first actuator 37, a second actuator 38, and a third actuator 39.
  • the control device 36 controls the entire interchangeable lens 18 according to an instruction from the image pickup device main body 16.
  • the control device 36 is a device having a computer including, for example, a CPU, NVM, RAM, and the like. Although a computer is illustrated here, this is merely an example, and a device including an ASIC, FPGA, and / or PLD may be applied. Further, as the control device 36, for example, a device realized by a combination of a hardware configuration and a software configuration may be used.
  • the first actuator 37 includes a focus slide mechanism (not shown) and a focus motor (not shown).
  • a focus lens 40B is attached to the focus slide mechanism so as to be slidable along the optical axis OA.
  • a focus motor is connected to the focus slide mechanism, and the focus slide mechanism operates by receiving the power of the focus motor to move the focus lens 40B along the optical axis OA.
  • the second actuator 38 includes a zoom slide mechanism (not shown) and a zoom motor (not shown).
  • a zoom lens 40C is attached to the zoom slide mechanism so as to be slidable along the optical axis OA.
  • a zoom motor is connected to the zoom slide mechanism, and the zoom slide mechanism operates by receiving the power of the zoom motor to move the zoom lens 40C along the optical axis OA.
  • the third actuator 39 includes a power transmission mechanism (not shown) and a throttle motor (not shown).
  • the diaphragm 40D has an opening 40D1 and is a diaphragm in which the size of the opening 40D1 is variable.
  • the opening 40D1 is formed by a plurality of diaphragm blades 40D2.
  • the plurality of diaphragm blades 40D2 are connected to the power transmission mechanism.
  • a throttle motor is connected to the power transmission mechanism, and the power transmission mechanism transmits the power of the throttle motor to a plurality of diaphragm blades 40D2.
  • the plurality of diaphragm blades 40D2 change the size of the opening 40D1 by operating by receiving the power transmitted from the power transmission mechanism.
  • the aperture 40D adjusts the exposure by changing the size of the opening 40D1.
  • the focus motor, zoom motor, and aperture motor are connected to the control device 36, and the control device 36 controls each drive of the focus motor, the zoom motor, and the aperture motor.
  • a stepping motor is adopted as an example of a focus motor, a zoom motor, and an aperture motor. Therefore, the focus motor, the zoom motor, and the aperture motor operate in synchronization with the pulse signal according to the command from the control device 36.
  • the focus motor, the zoom motor, and the aperture motor are provided in the interchangeable lens 18 is shown here, this is only an example, and the focus motor and the zoom motor are shown.
  • at least one of the aperture motors may be provided in the image pickup apparatus main body 16. The structure and / or operation method of the interchangeable lens 18 can be changed as needed.
  • the MF mode and the AF mode are selectively set according to the instruction given to the image pickup device main body 16.
  • the MF mode is an operation mode for manually focusing.
  • the focus lens 40B moves along the optical axis OA with a movement amount corresponding to the operation amount of the focus ring 18A or the like, whereby the focus is adjusted. Will be done.
  • the image pickup device main body 16 calculates the focusing position according to the subject distance, and adjusts the focus by moving the focus lens 40B toward the calculated focusing position.
  • the in-focus position refers to the position of the focus lens 40B on the optical axis OA in a state of being in focus.
  • the control for aligning the focus lens 40B with the in-focus position is also referred to as "AF control".
  • the image sensor main body 16 includes an image sensor 20, a controller 12, an image memory 46, a UI device 48, an external I / F 50, a communication I / F 52, a photoelectric conversion element driver 54, a mechanical shutter driver 56, a mechanical shutter actuator 58, and a mechanical shutter. It includes 60 and an input / output interface 70. Further, the image sensor 20 includes a photoelectric conversion element 72 and a signal processing circuit 74.
  • a controller 12 an image memory 46, a UI device 48, an external I / F 50, a photoelectric conversion element driver 54, a mechanical shutter driver 56, and a signal processing circuit 74 are connected to the input / output interface 70. Further, the control device 36 of the interchangeable lens 18 is also connected to the input / output interface 70.
  • the controller 12 includes a CPU 62, an NVM 64, and a RAM 66.
  • the CPU 62 is an example of the "processor” according to the technique of the present disclosure
  • the NVM 64 is an example of the "memory” according to the technique of the present disclosure.
  • the CPU 62, NVM 64, and RAM 66 are connected via the bus 68, and the bus 68 is connected to the input / output interface 70.
  • the bus 68 may be a serial bus, or may be a parallel bus including a data bus, an address bus, a control bus, and the like.
  • NVM64 is a non-temporary storage medium and stores various parameters and various programs.
  • NVM64 is an EEPROM.
  • HDD and / or SSD or the like may be applied as NVM64 instead of or together with EEPROM.
  • the RAM 66 temporarily stores various information and is used as a work memory.
  • the CPU 62 reads a necessary program from the NVM 64 and executes the read program in the RAM 66.
  • the CPU 62 controls the entire image pickup apparatus 10 according to a program executed on the RAM 66.
  • the image memory 46, the UI device 48, the external I / F50, the communication I / F52, the photoelectric conversion element driver 54, the mechanical shutter driver 56, and the control device 36 are controlled by the CPU 62.
  • a photoelectric conversion element driver 54 is connected to the photoelectric conversion element 72.
  • the photoelectric conversion element driver 54 supplies an imaging timing signal defining the timing of imaging performed by the photoelectric conversion element 72 to the photoelectric conversion element 72 according to an instruction from the CPU 62.
  • the photoelectric conversion element 72 resets, exposes, and outputs an electric signal according to the image pickup timing signal supplied from the photoelectric conversion element driver 54.
  • Examples of the imaging timing signal include a vertical synchronization signal and a horizontal synchronization signal.
  • the photoelectric conversion element 72 photoelectrically converts the subject light received by the light receiving surface 72A, and signals an electric signal according to the amount of the subject light as analog image data indicating the subject light.
  • the signal processing circuit 74 reads analog image data from the photoelectric conversion element 72 in units of one frame and for each horizontal line by an exposure sequential reading method.
  • the signal processing circuit 74 generates digital image data by digitizing analog image data.
  • the digital image data to be internally processed by the image pickup apparatus main body 16 and the image indicated by the digital image data that is, visualized based on the digital image data and displayed on the display 28 or the like.
  • captured image 75 When it is not necessary to distinguish it from the displayed image, it is referred to as "captured image 75".
  • the CPU 62 of the controller 12 detects a plurality of subjects based on the captured image 75 obtained by being imaged by the imaging device 10.
  • the detection of a subject means, for example, the detection of a subject image showing a subject. That is, the CPU 62 detects the subject reflected in the subject image by detecting the subject image showing the subject from the captured image 75.
  • the subject recognition process is performed by the CPU 62.
  • the subject recognition process refers to a process of recognizing a subject based on the captured image 75.
  • the recognition of a subject refers to a process including at least detection of the subject and identification of the type of the subject.
  • the subject recognition process is realized by an AI method, a template matching method, or the like.
  • the mechanical shutter 60 is a focal plane shutter and is arranged between the aperture 40D and the light receiving surface 72A.
  • the mechanical shutter 60 includes a front curtain (not shown) and a rear curtain (not shown). Each of the front curtain and the rear curtain has a plurality of blades. The first curtain is placed closer to the subject than the second curtain.
  • the mechanical shutter actuator 58 is an actuator having a link mechanism (not shown), a solenoid for the front curtain (not shown), and a solenoid for the rear curtain (not shown).
  • the front curtain solenoid is a drive source for the front curtain and is mechanically connected to the front curtain via a link mechanism.
  • the rear curtain solenoid is a drive source for the rear curtain and is mechanically connected to the rear curtain via a link mechanism.
  • the mechanical shutter driver 56 controls the mechanical shutter actuator 58 according to the instruction from the CPU 62.
  • the solenoid for the front curtain generates power under the control of the mechanical shutter driver 56, and by applying the generated power to the front curtain, the front curtain is selectively wound and pulled down.
  • the rear curtain solenoid generates power under the control of the mechanical shutter driver 56, and by applying the generated power to the rear curtain, the rear curtain is selectively wound and pulled down.
  • the opening and closing of the front curtain and the opening and closing of the rear curtain are controlled by the CPU 62, so that the exposure amount to the photoelectric conversion element 72 is controlled.
  • the image pickup for a live view image and the image pickup for a recorded image for recording a still image and / or a moving image are performed by an exposure sequential readout method (rolling shutter method).
  • the image sensor 20 has an electronic shutter function, and imaging for a live view image is realized by operating the electronic shutter function without operating the mechanical shutter 60 in the fully open state.
  • the electronic shutter function is activated and the mechanical shutter 60 is operated so as to shift the mechanical shutter 60 from the front curtain closed state to the rear curtain closed state. It is realized by letting it.
  • the image memory 46 stores the captured image 75 generated by the signal processing circuit 74. That is, the signal processing circuit 74 stores the captured image 75 in the image memory 46.
  • the CPU 62 acquires a captured image 75 from the image memory 46, and executes various processes using the acquired captured image 75.
  • the UI device 48 includes a display 28, and the CPU 62 causes the display 28 to display various information. Further, the UI device 48 includes a reception device 76.
  • the reception device 76 includes a touch panel 30 and a hard key unit 78.
  • the hard key unit 78 is a plurality of hard keys including an instruction key 26 (see FIG. 1).
  • the CPU 62 operates according to various instructions received by the touch panel 30.
  • the hard key unit 78 is included in the UI device 48, but the technique of the present disclosure is not limited to this, and for example, even if the hard key unit 78 is connected to the external I / F 50. good.
  • the external I / F 50 controls the exchange of various information with a device existing outside the image pickup device 10 (hereinafter, also referred to as an "external device").
  • An example of the external I / F50 is a USB interface.
  • External devices such as smart devices, personal computers, servers, USB memory, memory cards, and / or printers are directly or indirectly connected to the USB interface.
  • the communication I / F 52 controls the exchange of information between the CPU 62 and the external computer (for example, the image pickup support device 202 (see FIG. 32)) via the network 204 (see FIG. 32).
  • the communication I / F 52 transmits information in response to a request from the CPU 62 to an external computer via the network 34.
  • the communication I / F 52 receives the information transmitted from the external device, and outputs the received information to the CPU 62 via the input / output interface 70.
  • an image pickup device equipped with a function of detecting a subject is known.
  • a detection frame that surrounds the position of the detected subject so as to be identifiable is displayed on the display in a state of being superimposed on a live view image or the like.
  • the ability to detect a subject by the AI method has been improved, and not only people but also small animals and vehicles are targeted for detection.
  • the number of detection targets increases in this way, it is conceivable that the number of detection frames displayed on the display as a detection result will also increase.
  • the control related to imaging for example, AF control and / or exposure. It is expected that it will be difficult to select a specific subject (hereinafter, also referred to as “specific subject”) that is the target of control (control, etc.). Even if the number of detection frames displayed on the display is limited, the detection frames will not be displayed for the subject intended by the user, etc., unless the detection frame is properly selected for which subject. Is expected.
  • the image pickup apparatus 10 distinguishes a specific subject from other subjects even if the detection frames displayed on the display are dense due to an increase in the number of subjects to be detected. I am trying to do it.
  • a specific example will be described.
  • the image pickup support processing program 80, the subject recognition model 82, and the first combination identification table 87 are stored in the NVM 64 of the image pickup device 10.
  • the subject recognition model 82 includes a trained model 84 for a general subject and a trained model 86 for a specific subject.
  • the image pickup support processing program 80 is an example of a "program" according to the technique of the present disclosure.
  • the CPU 62 reads the image pickup support processing program 80 from the NVM 64, and executes the read image pickup support processing program 80 on the RAM 66.
  • the CPU 62 performs image pickup support processing (see FIGS. 24A and 24B) according to the image pickup support processing program 80 executed on the RAM 66.
  • the image pickup support process is realized by the CPU 62 operating as the acquisition unit 62A, the subject recognition unit 62B, the classification unit 62C, and the control unit 62D according to the image pickup support processing program 80.
  • the trained model 84 for general subjects is, for example, a trained model generated by optimizing a learning model (for example, CNN) by machine learning.
  • the teacher data used in machine learning for the learning model is labeled data.
  • the labeled data is, for example, data in which the captured image 75 and the correct answer data are associated with each other.
  • the correct answer data is, for example, data including data that can specify the type of a general subject reflected in the captured image 75 and data that can specify the position of the general subject in the captured image 75.
  • the general subject refers to all subjects defined as detection targets (for example, the face of a person, the entire person, animals other than the person, vehicles, insects, buildings, natural objects, etc.).
  • the trained model 84 for general subjects outputs general subject recognition data 84A when the captured image 75 is input.
  • the general subject recognition data 84A includes general subject position identification data 84A1 and general subject type identification data 84A2.
  • the faces of the dog and the person are reflected in the captured image 75, and the relative position of the face of the person in the captured image 75 can be specified as the general subject position specifying data 84A1.
  • Information and information that can identify the relative position of the dog in the captured image 75 are exemplified.
  • the general subject type identification data 84A2 information capable of identifying that the subject existing at the position specified from the general subject position identification data 84A1 in the captured image 75 is the face of a person.
  • information that can be identified as a dog existing at a position specified from the general subject position specifying data 84A1 is exemplified.
  • the trained model 84 for general subjects is an example of the "first reference" according to the technique of the present disclosure.
  • FIG. 5 shows an example of how to create the teacher data 88 used to generate the trained model 86 for a specific subject (see FIGS. 3 and 6).
  • the image pickup device 10 in a state where the captured image 75 is displayed on the display 28, the image pickup device 10 is selected according to an instruction received by the reception device 76 (in the example shown in FIG. 5, the touch panel 30).
  • the selected subject is designated as a specific subject. That is, one subject image from the captured image 75 displayed on the display 28 is designated by the user or the like via the reception device 76, so that one of the subjects reflected in the captured image 75 is designated. Will be done.
  • the selected subject is an example of the "selected subject", the "first designated subject image”, and the "second designated subject image” according to the technique of the present disclosure.
  • the CPU 62 acquires the captured image 75 from the image memory 46.
  • the captured image 75 acquired from the image memory 46 by the CPU 62 is the captured image 75 displayed on the display 28 at the timing when the instruction is received by the receiving device 76.
  • the CPU 62 generates the selected subject data 90 regarding the selected subject based on the captured image 75.
  • the selected subject data 90 includes the selected subject position specifying data 90A and the selected subject type specifying data 90B.
  • the selected subject position specifying data 90A is data having parameters specified from the captured image 75.
  • the selected subject position specifying data 90A can specify the relative position of the selected subject in the captured image 75 as a parameter specified from the captured image 75 (for example, the position in the captured image 75 can be specified). It has two-dimensional coordinates).
  • the selected subject type identification data 90B is data that can identify the type of the selected subject (for example, the face of a dog and a person).
  • the selected subject type identification data 90B is, for example, data generated according to an instruction received by the reception device 76. However, this is only an example, and the selected subject type identification data 90B may be data capable of specifying the type specified by the subject recognition process.
  • the CPU 62 generates teacher data 88 by associating the captured image 75 acquired from the image memory 46 with the selected subject data 90 generated based on the captured image 75, and stores it in the NVM 64.
  • Teacher data 88 for a plurality of frames is stored in the NVM 64.
  • the plurality of frames refer to, for example, tens of thousands of frames (for example, "50,000"). However, this is just an example, and the number of frames may be less than tens of thousands of frames (for example, thousands of frames) or more than tens of thousands of frames (for example, hundreds of thousands of frames). There may be.
  • the frame refers to the number of captured images 75.
  • the trained model 86 for a specific subject is generated by the model generation device 92.
  • the model generator 92 has a CNN 94. Further, the model generator 92 is connected to the NVM64.
  • the model generator 92 reads the teacher data 88 frame by frame from the NVM64.
  • the model generation device 92 acquires the captured image 75 from the teacher data 88, and inputs the acquired captured image 75 to the CNN 94.
  • the CNN 94 makes an inference and outputs the subject recognition data 94A showing the inference result.
  • the subject recognition data 94A is data of the same item as the data included in the selected subject data 90 included in the teacher data 88.
  • the data of the same item is, for example, information that can specify the relative position of the subject expected as a specific subject in the captured image 75 input to the CNN94, and the image in the captured image 75 input to the CNN94. It refers to information that can identify the type of subject that is expected to be a specific subject that is crowded.
  • the model generator 92 calculates an error 96 between the selected subject data 90 associated with the captured image 75 input to the CNN 94 and the subject recognition data 94A.
  • the error 96 is, for example, information capable of specifying the relative position of the subject expected as a specific subject in the captured image 75 input to the CNN 94, and the selected subject position specifying data 90A included in the selected subject data 90.
  • the model generator 92 calculates a plurality of adjustment values 98 with reference to the error 96. Then, the model generator 92 adjusts a plurality of optimization variables in the CNN 94 using the calculated plurality of adjustment values 98.
  • the optimization variable of CNN94 refers to, for example, a plurality of coupling loads and a plurality of offset values included in CNN94.
  • the model generator 92 stores the learning process of inputting the captured image 75 into the CNN94, calculating the error 96, calculating the plurality of adjustment values 98, and adjusting the plurality of optimization variables in the CNN94 in the NVM 64. This is repeated for the number of frames of the captured image 75. That is, the model generator 92 adjusts a plurality of optimization variables in the CNN 94 using a plurality of adjustment values 98 calculated so as to minimize the error 96 for each of the captured images 75 for a plurality of frames in the NVM 64. By doing so, CNN94 is optimized.
  • the model generator 92 generates a trained model 86 for a specific subject by optimizing the CNN94. That is, the CNN94 is optimized by adjusting a plurality of optimization variables included in the CNN94, whereby a trained model 86 for a specific subject is generated.
  • the model generation device 92 stores the generated trained model 86 for a specific subject in the NVM 64.
  • the trained model 86 for a specific subject is an example of the "second standard" according to the technique of the present disclosure.
  • the acquisition unit 62A acquires the captured image 75 from the image memory 46.
  • the control unit 62D displays the captured image 75 acquired from the image memory 46 on the display 28.
  • the control unit 62D generates display data 99 for display on the display 28, and outputs the generated display data 99 to the display 28.
  • the captured image 75 is displayed on the display 28.
  • Examples of the type of the captured image 75 displayed on the display 28 include a live view image.
  • the live view image is merely an example, and may be another type of image such as a post view image.
  • the display data 99 is an example of "display data" according to the technique of the present disclosure.
  • the subject recognition unit 62B executes a general subject recognition process, which is a subject recognition process, for a general subject based on the captured image 75 acquired by the acquisition unit 62A.
  • a general subject recognition process which is a subject recognition process
  • the subject recognition unit 62B inputs the captured image 75 acquired by the acquisition unit 62A into the trained model 84 for general subjects.
  • the trained model 84 for a general subject outputs the general subject recognition data 84A.
  • the general subject recognition data 84A includes general subject position identification data 84A1 and general subject type identification data 84A2.
  • the subject recognition unit 62B acquires the general subject recognition data 84A output from the trained model 84 for general subjects. Then, the subject recognition unit 62B refers to the acquired general subject recognition data 84A, and has a plurality of captured images 75 acquired by the acquisition unit 62A, that is, in the captured images 75 input to the learned model 84 for general subjects. It is determined whether or not the general subject exists, that is, whether or not a plurality of general subjects are reflected in the captured image 75 input to the trained model 84 for general subjects.
  • the fact that it is determined that a plurality of general subjects exist in the captured image 75 means that a plurality of general subjects are detected based on the captured image 75.
  • the subject recognition unit 62B determines that a plurality of general subjects exist in the captured image 75 input to the learned model 84 for general subjects
  • the subject recognition unit 62B is based on the captured image 75 acquired by the acquisition unit 62A. Execute specific subject recognition processing.
  • the subject recognition unit 62B inputs the captured image 75 acquired by the acquisition unit 62A, that is, the captured image 75 input to the general subject trained model 84 to the specific subject trained model 86.
  • the trained model 86 for a specific subject outputs the specific subject recognition data 86A when the captured image 75 is input.
  • the specific subject recognition data 86A includes the specific subject position identification data 86A1 and the specific subject type identification data 86A2.
  • the subject recognition unit 62B acquires the specific subject recognition data 86A output from the trained model 86 for the specific subject. Then, the subject recognition unit 62B refers to the acquired specific subject recognition data 86A and identifies the captured image 75 acquired by the acquisition unit 62A, that is, in the captured image 75 input to the learned model 86 for the specific subject. It is determined whether or not the subject exists, that is, whether or not the specific subject is reflected in the captured image 75 input to the learned model 86 for the specific subject.
  • the fact that it is determined that the specific subject exists in the captured image 75 means that the specific subject is detected based on the captured image 75.
  • the classification unit 62C performs the processes shown in FIGS. 11 to 13, for example. conduct.
  • the classification unit 62C has a specific subject from a plurality of general subjects detected based on the captured image 75, and within the range of the first distance from the specific subject in the in-plane direction of the captured image 75. Select the peripheral subject that exists in.
  • the distance within the captured image 75 can be mentioned.
  • the distance within the captured image 75 is expressed, for example, in pixel units.
  • the first distance may be a fixed value, an instruction received by the receiving device 76 or the like, and / or a variable value changed according to various conditions.
  • the specific subject is an example of the "first subject" according to the technique of the present disclosure
  • the peripheral subject is an example of the "second subject” according to the technique of the present disclosure.
  • the first distance is an example of the "first distance” and the "predetermined distance” according to the technique of the present disclosure.
  • the classification unit 62C acquires general subject recognition data 84A and specific subject recognition data 86A from the subject recognition unit 62B. Then, the classification unit 62C refers to the specific subject recognition data 86A, and the image pickup image 75 acquired by the acquisition unit 62A, that is, the image pickup input to the general subject trained model 84 and the specific subject trained model 86.
  • the first in-distance area 100 is set in the image area 75A in the in-plane direction of the image 75.
  • the first distance area 100 refers to an area within the first distance from a specific location (for example, the center of the face) of the specific subject specified from the general subject recognition data 84A in the in-plane direction of the captured image 75.
  • the in-plane direction of the captured image 75 refers to an in-plane direction perpendicular to the depth direction, that is, a direction in a two-dimensional plane defined by two-dimensional coordinates that specify a position in the captured image 75.
  • the first distance area 100 is an example of the "range of the first distance from the first subject in the in-plane direction of the captured image" according to the technique of the present disclosure.
  • the classification unit 62C refers to the general subject recognition data 84A and determines whether or not a general subject exists in the first distance area 100 set in the image area 75A, that is, is general in the first distance area 100. Determine whether or not the subject is reflected. The fact that it is determined that a general subject exists in the first distance area 100 means that the general subject in the first distance area 100 is selected.
  • the classification unit 62C determines that a general subject exists in the first distance area 100
  • the classification unit 62C determines that the general subject in the first distance area 100 is a specific subject and a peripheral subject. It is classified into.
  • the specific subject is surrounded by the first virtual frame 102.
  • the first virtual frame 102 is an invisible rectangular frame called a so-called bounding box.
  • the first virtual frame 102 is generated by the classification unit 62C according to the specific subject position specifying data 86A1 included in the specific subject recognition data 86A.
  • the classification unit 62C adds a specific subject identifier 106 indicating that a specific subject exists in the first virtual frame 102 to the first virtual frame 102.
  • the general subject is surrounded by the second virtual frame 104.
  • the second virtual frame 104 is an invisible rectangular frame called a so-called bounding box.
  • the second virtual frame 104 is generated by the classification unit 62C according to the general subject position specifying data 84A1 included in the general subject recognition data 84A.
  • the classification unit 62C adds a peripheral subject identifier 108 indicating that a peripheral subject exists in the second virtual frame 104 to the second virtual frame 104 in the first distance area 100. That is, the peripheral subject identifier 108 is added only to the second virtual frame 104 in the first distance area 100 among all the second virtual frames 104 corresponding to all the general subjects existing in the captured image 75. To.
  • the classification unit 62C adds the specific subject identifier 106 to the first virtual frame 102, and adds the peripheral subject identifier 108 to the second virtual frame 104 in the first distance area 100. Therefore, the general subject in the first distance area 100 is classified into a specific subject and a peripheral subject.
  • the classification unit 62C generates the first indicator 110 with reference to the specific subject identifier 106 and the first virtual frame 102, and refers to the peripheral subject identifier 108 and the second virtual frame 104. Generate the second indicator 112.
  • the first indicator 110 specifies a specific subject image indicating a specific subject.
  • the first indicator 110 is a display frame having the same position, size, and shape as the first virtual frame 102, and is visualized by being displayed on the display 28.
  • the first indicator 110 is generated by processing the first virtual frame 102 so as to be visible.
  • the second indicator 112 specifies a peripheral subject image showing a peripheral subject in a manner different from that of the first indicator 110.
  • the second indicator 112 is a display frame having the same position, size, and shape as the second virtual frame 104, and is visualized by being displayed on the display 28.
  • the second indicator 112 is generated by processing the second virtual frame 104 so as to be visible.
  • the first indicator 110 is a solid line frame
  • the second indicator 112 is a broken line frame. It should be noted that this is only an example, and the classification unit 62C can distinguish between the first indicator 110 and the second indicator 112 by changing the color of the first indicator 110 and the color of the second indicator 112, or the like. It may be generated. Further, the classification unit 62C may generate the first indicator 110 and the second indicator 112 in a distinguishable manner by changing the contrast of the first indicator 110 and the contrast of the second indicator 112.
  • the control unit 62D acquires data including the first indicator 110 and the second indicator 112 generated by the classification unit 62C from the classification unit 62C as individual type indicator data 114.
  • the control unit 62D causes the display 28 to superimpose the first indicator 110 and the second indicator 112 on the captured image 75 according to the individual indicator data 114.
  • the control unit 62D generates the display data 115 based on the individual type indicator data 114, and outputs the generated display data 115 to the display 28.
  • the display data 115 is data for displaying the first indicator 110 and the second indicator 112 on the display 28.
  • the display data 115 is an example of "display data" according to the technique of the present disclosure. Further, here, an example in which the display data 99 (see FIG.
  • the display data 99 may be integrated into the. That is, the display data 115 may be display data in which the first indicator 110 and the second indicator 112 are superimposed on the captured image 75.
  • the classification unit 62C has a specific subject from a plurality of general subjects detected based on the captured image 75, and within a range of a second distance from the specific subject in the in-plane direction of the captured image 75. Select the peripheral subject that exists in.
  • the distance within the captured image 75 can be mentioned.
  • the distance within the captured image 75 is expressed, for example, in pixel units.
  • the second distance may be a fixed value, an instruction received by the receiving device 76 or the like, and / or a variable value changed according to various conditions.
  • the second distance is a distance shorter than the first distance. However, this is only an example, and the second distance may be a distance greater than or equal to the first distance.
  • the second distance is an example of the "second distance" and the "predetermined distance" according to the technique of the present disclosure.
  • the classification unit 62C refers to the specific subject recognition data 86A, and refers to the captured image 75 acquired by the acquisition unit 62A, that is, the captured image 75 input to the general subject trained model 84 and the specific subject trained model 86.
  • a second in-plane area 116 is set in the image area 75A in the in-plane direction of.
  • the second in-distance area 116 refers to an area within the second distance from a specific location (for example, the center of the face) of the specific subject specified from the general subject recognition data 84A in the in-plane direction of the captured image 75.
  • the in-plane direction of the captured image 75 refers to an in-plane direction perpendicular to the depth direction, that is, a direction in a two-dimensional plane defined by two-dimensional coordinates that specify a position in the captured image 75.
  • the second in-distance area 116 is an example of the "range of the second distance from the second subject in the in-plane direction of the captured image" according to the technique of the present disclosure.
  • the classification unit 62C refers to the general subject recognition data 84A and determines whether or not a general subject exists in the second distance within area 116 set in the image area 75A, that is, is general in the second distance within area 116. Determine whether or not the subject is reflected. The fact that it is determined that a general subject exists in the second distance area 116 means that the general subject in the second distance area 116 is selected.
  • the classification unit 62C determines that a general subject exists in the second distance area 116 set in the image area 75A, the classification unit 62C has a general in the second distance area 116.
  • the classification unit 62C acquires the type of the specific subject by extracting the specific subject type specific data 86A2 from the specific subject recognition data 86A.
  • the classification unit 62C refers to the first combination specifying table 87 in the NVM 64, and the combination of the specific subject and the general subject in the area 116 within the second distance is the first combination. Judge whether or not.
  • the first combination specifying table 87 the combination of the type of the specific subject and the type of the general subject is defined.
  • the combination specified in the first combination specific table 87 is an example of the "first combination" according to the technique of the present disclosure.
  • the combination when the type of the specific subject and the type of the general subject are the same is shown. However, this is only an example, and other combinations may be used.
  • the combination defined by the first combination specific table 87 may be fixed, or may be changed according to the instruction received by the reception device 76 or the like and / or various conditions.
  • the classification unit 62C determines whether or not the combination matches any of the combinations specified in the specific table 87. That is, the classification unit 62C determines whether or not the combination of the type of the general subject and the type of the specific subject matches any of the combinations specified in the first combination specific table 64 in the area 116 within the second distance. judge.
  • the classification unit 62C determines that the combination of the type of the general subject and the type of the specific subject matches any of the combinations specified in the first combination specific table 64 in the area 116 within the second distance,
  • the general subject in the captured image 75 is classified into a subject within the second distance and a subject outside the second distance.
  • the subject within the second distance refers to a specific subject and a peripheral subject existing in the area within the second distance 116, and the subject outside the second distance is the area within the second distance among all the general subjects in the captured image 75. Refers to a general subject other than a specific subject and a peripheral subject existing in 116.
  • the classification unit 62C has a first virtual frame 102 and a second virtual frame 104 with respect to the first virtual frame 102 and the second virtual frame 104 in the area 116 within the second distance, respectively. Is added with the second distance identifier 118 indicating that is present in the second distance area 116.
  • the classification unit 62C adds the second distance identifier 118 to each of the first virtual frame 102 and the second virtual frame 104 in the second distance area 116, so that the classification unit 62C has the image 75. All subjects are classified into a subject within the second distance and a subject outside the second distance.
  • the classification unit 62C When all the subjects in the captured image 75 are classified into a subject within the second distance and a subject outside the second distance, as shown in FIG. 19 as an example, the classification unit 62C has the first indicator 110 and the second indicator. If 112 is present, the first indicator 110 and the second indicator 112 are erased. Then, the classification unit 62C refers to the first virtual frame 102 to which the second distance identifier 118 is added and the second virtual frame 104 to which the second distance identifier 118 is added, and sets the third indicator 120. Generate.
  • the combination of the type of the specific subject and the type of the peripheral subject is defined in the first combination identification table 64, and the specific subject and the peripheral subject existing in the area 116 within the second distance are specified. It is an indicator to do.
  • the combination of the type of the specific subject and the type of the peripheral subject is defined in the first combination specific table 64, and the third indicator 120 corresponds to the specific subject and the peripheral subject existing in the area 116 within the second distance. It is a display frame (rectangular frame in the example shown in FIG. 19) surrounding the first virtual frame 102 and the second virtual frame 104, and is visualized by being displayed on the display 28.
  • the control unit 62D acquires the data including the third indicator 120 generated by the classification unit 62C from the classification unit 62C as the integrated indicator data 122.
  • the control unit 62D erases the first indicator 110 and the second indicator 112 according to the integrated indicator data 122, and captures the third indicator 120 with respect to the display 28. It is superimposed on and displayed.
  • the control unit 62D generates the display data 123 based on the integrated indicator data 122, and outputs the generated display data 123 to the display 28.
  • the display data 123 is data for erasing the first indicator 110 and the second indicator 112 and displaying the third indicator 120 on the display 28.
  • the display data 123 is data for displaying the third indicator 120 on the display 28 in place of the first indicator 110 and the second indicator 112.
  • the display data 123 is an example of the "display data" and the "first data" according to the technique of the present disclosure.
  • a user or the like changes a specific subject while the captured image 75 is displayed on the display 28 and the third indicator 120 is superimposed on the captured image 75.
  • the specific subject candidate 124 is selected by the user or the like via the touch panel 30. That is, any peripheral subject existing in the third indicator 120 is selected by the user or the like as the specific subject candidate 124 via the touch panel 30.
  • the subject recognition unit 62B extracts the specific subject candidate 124 from the captured image 75 displayed on the display 28 at the time when the specific subject candidate 124 is selected, and extracts the specific subject candidate 124.
  • the specific subject candidate 124 is stored (overwritten) in the RAM 66.
  • the specific subject candidate 124 may be selected based on the selection of any second indicator 112 by the user or the like. Further, the specific subject candidate 124 may be selected from subjects existing outside the range of the second distance from the specific subject.
  • the acquisition unit 62A captures the latest image from the image memory 46.
  • Image 75 is acquired.
  • the control unit 62D generates display data 99 for displaying the latest captured image 75 acquired by the acquisition unit 62A, and outputs the generated display data 99 to the display 28.
  • the captured image 75 displayed on the display 28 is updated with the latest captured image 75.
  • the subject recognition unit 62B inputs the captured image 75 acquired by the acquisition unit 62A, that is, the captured image 75 displayed on the display 28 into the trained model 84 for general subjects.
  • the general subject recognition data 84A output from the trained model 84 for general subjects is acquired.
  • the subject recognition unit 62B determines from the acquired general subject recognition data 84A whether or not a plurality of general subjects are present in the captured image 75 input to the learned model 84 for general subjects.
  • the subject recognition unit 62B is a specific subject with respect to the captured image 75 input to the trained model 84 for general subjects.
  • the subject recognition process of the template matching method using the candidate 124 as a template is executed.
  • the subject recognition unit 62B determines whether or not the specific subject candidate 124 exists in the captured image 75 by executing the subject recognition process of the template matching method.
  • the subject recognition unit 62B determines that the specific subject candidate 124 exists in the captured image 75
  • the specific subject candidate 124 is set as a new specific subject, and then the classification unit 62C performs the above-mentioned processing. (Refer to FIGS. 11 to 13, etc.).
  • FIGS. 24A and 24B show an example of the flow of the image pickup support process performed by the CPU 62 of the image pickup apparatus 10.
  • the flow of the imaging support process shown in FIGS. 24A and 24B is an example of the "imaging support method" according to the technique of the present disclosure.
  • step ST100 the acquisition unit 62A determines whether or not the image pickup image 75 is stored in the image memory 46. If the captured image 75 is not stored in the image memory 46 in step ST100, the determination is denied, and the imaging support process shifts to step ST144 shown in FIG. 24B. When the captured image 75 is stored in the image memory 46 in step ST100, the determination is affirmed, and the imaging support process shifts to step ST102.
  • step ST102 the acquisition unit 62A acquires the captured image 75 from the image memory 46. After the process of step ST102 is executed, the imaging support process shifts to step ST104.
  • step ST104 the control unit 62D displays the captured image 75 acquired in step ST102 on the display 28. After the process of step ST104 is executed, the imaging support process shifts to step ST106.
  • step ST106 the subject recognition unit 62B executes subject recognition processing using the trained model 84 for general subjects and the trained model 86 for specific subjects based on the captured image 75 acquired in step ST102. After the process of step ST106 is executed, the imaging support process shifts to step ST108.
  • step ST108 the subject recognition unit 62B executes the processing of the general subject recognition data 84A output from the learned model 84 for the general subject by executing the processing of step ST106, and the learning for the specific subject by executing the processing of step ST106.
  • the specific subject recognition data 86A output from the completed model 86 is acquired.
  • the imaging support process shifts to step ST110.
  • the subject recognition unit 62B refers to the general subject recognition data 84A acquired in step ST108 and determines whether or not a plurality of general subjects are reflected in the captured image 75. If a plurality of general subjects are not reflected in the captured image 75 in step ST110, the determination is denied, and the imaging support process shifts to step ST144 shown in FIG. 24B. If a plurality of general subjects are captured in the captured image 75 in step ST110, the determination is affirmed, and the imaging support process shifts to step ST112.
  • step ST112 the subject recognition unit 62B determines whether or not the specific subject candidate 124 was selected one frame before (see step ST136 shown in FIG. 24B). If the specific subject candidate 124 is not selected one frame before in step ST112, the determination is denied and the imaging support process shifts to step ST114. If the specific subject candidate 124 is selected one frame before in step ST112, the determination is affirmed and the imaging support process shifts to step ST116.
  • step ST114 the subject recognition unit 62B refers to the specific subject recognition data 86A acquired in step ST108, and is there a specific subject in a plurality of general subjects determined to be reflected in the captured image 75? Judge whether or not.
  • step ST114 if the specific subject does not exist in the plurality of general subjects determined to be reflected in the captured image 75, the determination is denied and the imaging support process proceeds to step ST144 shown in FIG. 24B. Transition. If a specific subject exists in a plurality of general subjects determined to be reflected in the captured image 75 in step ST114, the determination is affirmed and the process proceeds to step ST122.
  • step ST116 the subject recognition unit 62B executes the subject recognition process in the template matching method using the specific subject candidate 124 selected one frame before for the captured image 75. After the process of step ST116 is executed, the imaging support process shifts to step ST118.
  • step ST118 the subject recognition unit 62B determines whether or not the specific subject candidate 124 is included in the captured image 75 by referring to the result of the subject recognition process executed in step ST116. If the specific subject candidate 124 is not reflected in the captured image 75 in step ST118, the determination is denied and the imaging support process shifts to step ST122. If the specific subject candidate 124 is included in the captured image 75 in step ST118, the determination is affirmed and the imaging support process shifts to step ST120.
  • step ST120 the subject recognition unit 62B sets the specific subject candidate 124 as a new specific subject. After the process of step ST120 is executed, the imaging support process shifts to step ST122.
  • step ST122 the classification unit 62C determines whether or not a general subject exists within the first distance from the specific subject. In step ST122, if a general subject does not exist within the first distance from the specific subject, the determination is denied, and the imaging support process shifts to step ST144 shown in FIG. 24B. In step ST122, if a general subject exists within the first distance from the specific subject, the determination is affirmed, and the imaging support process shifts to step ST124.
  • step ST124 the classification unit 62C classifies a general subject within the first distance into a specific subject and a peripheral subject. After the process of step ST124 is executed, the imaging support process shifts to step ST126.
  • step ST126 the control unit 62D causes the display 28 to display the first indicator 110 that identifies a specific subject and the second indicator 112 that identifies a peripheral subject.
  • the imaging support process shifts to step ST128 shown in FIG. 24B.
  • step ST128 shown in FIG. 24B the classification unit 62C determines whether or not a general subject exists within a second distance from the specific subject. In step ST128, if a general subject does not exist within the second distance from the specific subject, the determination is denied and the imaging support process shifts to step ST144. In step ST128, if a general subject exists within the second distance from the specific subject, the determination is affirmed, and the imaging support process shifts to step ST130.
  • step ST130 the classification unit 62C determines whether or not the combination of the type of the specific subject and the type of the peripheral subject is the first combination defined in the first combination table 87. In step ST130, if the combination of the type of the specific subject and the type of the peripheral subject is not the first combination defined in the first combination table 87, the determination is denied and the imaging support process shifts to step ST144. In step ST130, when the combination of the type of the specific subject and the type of the peripheral subject is the first combination specified in the first combination table 87, the determination is affirmed and the imaging support process shifts to step ST132.
  • step ST132 the control unit 62D erases the first indicator 110 and the second indicator 112. After the process of step ST132 is executed, the imaging support process shifts to step ST134.
  • step ST134 the control unit 62D causes the display 28 to display the third indicator 120. After the process of step ST134 is executed, the imaging support process shifts to step ST136.
  • step ST136 the subject recognition unit 62B determines whether or not the specific subject candidate 124 is selected via the touch panel 30. If the specific subject candidate 124 is not selected via the touch panel 30 in step ST136, the determination is denied and the imaging support process proceeds to step ST144. When the specific subject candidate 124 is selected via the touch panel 30 in step ST136, the determination is affirmed, and the imaging support process shifts to step ST138.
  • step ST138 the subject recognition unit 62B extracts the specific subject candidate 124 from the captured image 75 acquired in step ST104. After the process of step ST138 is executed, the imaging support process shifts to step ST144.
  • step ST144 the subject recognition unit 62B determines whether or not the condition for terminating the imaging support process (hereinafter, also referred to as "imaging support process end condition") is satisfied.
  • imaging support process end condition the condition that the image pickup mode set for the image pickup device 10 is canceled, or the instruction to end the image pickup support process is received by the reception device 76. Conditions and the like can be mentioned. If the image pickup support process end condition is not satisfied in step ST144, the determination is denied and the image pickup support process proceeds to step ST140.
  • step ST140 the control unit 62D determines whether or not the indicator is displayed on the display 28. If the indicator (for example, the first indicator 110 and the second indicator 112 or the third indicator 120) is not displayed on the display 28 in step ST140, the determination is denied and the imaging support process is shown in FIG. 24A. The process proceeds to step ST100 shown. If the indicator is displayed on the display 28 in step ST140, the determination is affirmed, and the imaging support process proceeds to step ST142.
  • the indicator for example, the first indicator 110 and the second indicator 112 or the third indicator 120
  • step ST142 the control unit 62D erases the indicator displayed on the display 28. After the process of step ST142 is executed, the image pickup support process shifts to step ST100 shown in FIG. 24A.
  • step ST144 If the imaging support processing end condition is satisfied in step ST144, the determination is affirmed and the imaging support processing ends.
  • the image pickup apparatus 10 detects a plurality of general subjects based on the captured image 75, and from the detected plurality of general subjects, a specific subject and a specific subject in the in-plane direction of the captured image 75. Peripheral subjects existing within a range of one distance are selected. Then, the image pickup apparatus 10 outputs display data 99 and 115 to the display 28.
  • the display data 99 is data for displaying the captured image 75 on the display 28, and the display data 115 is data for displaying the first indicator 110 and the second indicator 112 on the display 28.
  • the first indicator 110 is an indicator for specifying a specific subject
  • the second indicator 112 is an indicator for specifying a peripheral subject. Therefore, according to this configuration, even if a plurality of general subjects are densely packed, the specific subject existing within the range of the first distance from the specific subject in the in-plane direction of the captured image 75 and the peripheral subject are distinguished. Can be done.
  • display data 123 is output to the display 28.
  • the display data 123 is data for displaying the third indicator 120 from the display 28 in place of the first indicator 110 and the second indicator 112.
  • the display 28 displays the third indicator 120 in place of the first indicator 110 and the second indicator 112.
  • the third indicator 120 is an indicator that identifies a specific subject and a peripheral subject within the second distance as one object. Therefore, according to this configuration, it is possible to distinguish between a peripheral subject which is a candidate for a specific subject and a general subject other than the peripheral subject among a plurality of general subjects.
  • a plurality of general subjects are detected according to the trained model 84 for general subjects. Therefore, according to this configuration, it is possible to detect a plurality of general subjects with high accuracy as compared with the case where a plurality of general subjects are detected by the subject recognition process of the template matching method.
  • the third indicator 120 is the first combination in which the combination of the type of the specific subject and the type of the peripheral subject is defined in the first combination specific table 87, and exists within the second distance from the specific subject.
  • a specific subject is selected according to a standard different from the standard for selecting peripheral subjects. That is, the specific subject is selected according to the trained model 86 for the specific subject. Therefore, according to this configuration, it is easier for the user or the like to identify the intended subject as the specific subject as compared with the case where the peripheral subject is also selected according to the same criteria as the specific subject, that is, according to the trained model 86 for the specific subject. Can be done.
  • teacher data 88 is generated based on the selected subject received by the reception device 76 and obtained according to the instruction, and learning for a specific subject obtained by performing machine learning using the teacher data 88 is performed.
  • a specific subject is selected according to the finished model 86. Therefore, according to this configuration, the subject intended by the user or the like is specified as compared with the case where the subject selected based on the criteria determined independently of the instruction received by the reception device 76 is specified as the specific subject. It can be easily identified as a subject.
  • the distance in the captured image 75 is used as the first distance defining the area 100 within the first distance. Therefore, according to this configuration, it is possible to easily select peripheral subjects existing in the in-plane direction of the captured image 75, as compared with the case of measuring the distance between subjects in the real space.
  • the selected subject position specifying data 90A is used as a part of the teacher data 88. Therefore, according to this configuration, compared to the case where the specific subject is specified only by the intuition of the user or the like, the general subject is in accordance with the tendency of the position where the image is frequently specified in the captured image 75 among the plurality of general subjects. The subject can be identified as a specific subject with high accuracy.
  • the combination of the type of the specific subject and the type of the peripheral subject is the first combination defined in the first combination table 87, and the specific subject and the peripheral subject existing within the second distance are present.
  • the third indicator 120 has been exemplified as an indicator for specifying the above, the technique of the present disclosure is not limited to this.
  • the combination of the type of the specific subject and the type of the peripheral subject is the second combination different from the first combination, and the specific subject and the peripheral subject existing in the third distance shorter than the second distance are specified.
  • the fourth indicator 128 may be displayed on the display 28.
  • the third distance is an example of the "third distance” and the "predetermined distance” according to the technique of the present disclosure.
  • the CPU 62 refers to the second combination specifying table 126 to specify the combination of the type of the specific subject and the type of the peripheral subject.
  • the second combination specifying table 126 is a table in which a combination different from that of the first combination specifying table 87 is specified.
  • the combination of subjects of the same type is shown as an example of the first combination specifying table 87, but in the second combination specifying table 126, the type of the specific subject and the type of the peripheral subject are different.
  • a person is shown as a specific subject surrounded by the first indicator 110, and a dog is shown as a peripheral subject surrounded by the second indicator 112. ..
  • the person as the specific subject and the dog as the peripheral subject are the combinations specified in the second combination specific table 126.
  • the CPU 62 changes from a state in which the dog as a peripheral subject exists outside the third distance from the person as the specific subject to the dog as the peripheral subject within the third distance from the person as the specific subject.
  • the first indicator 110 and the second indicator 112 are erased, and the fourth indicator 128 is generated.
  • the CPU 62 displays the captured image 75 on the display 28, and superimposes and displays the fourth indicator 128 on the captured image 75. That is, the CPU 62 generates display data 130 for displaying the fourth indicator 128 on the display 28 instead of the first indicator 110 and the second indicator 112.
  • the display data 130 is an example of "display data" and "second data" according to the technique of the present disclosure.
  • the CPU 62 outputs the generated display data 130 to the display 28.
  • the fourth indicator 128 is an indicator that identifies a person as a specific subject and a dog as a peripheral subject existing in a third distance shorter than the second distance as one object (in the example shown in FIG. 25, it has a rectangular shape). Frame).
  • the second combination specifying table 126 may be any table as long as it is a table in which a combination different from the combination specified in the first combination table 87 is specified, and may be a fixed combination or is accepted by the receiving device 76. It may be a combination that is changed according to the instructions given.
  • a plurality of general subjects are specified as compared with the case where a specific subject and a peripheral subject within a third distance shorter than the second distance are specified by an indicator regardless of the combination of the type of the specific subject and the type of the peripheral subject.
  • the subjects it is possible to suppress the distinction between a specific subject and a peripheral subject having a combination of a type not intended by the user or the like and another subject.
  • the CPU 62 erases the first indicator 110 and the second indicator 112 from the display 28, so that the visibility of the captured image 75 is improved due to the increase in the indicators. It can be avoided to get worse.
  • the first indicator 110, the second indicator 112, the third indicator 120, and the fourth indicator 128 have been described with reference to a mode example in which the display 28 is selectively displayed.
  • the CPU 62 may display the first indicator 110, the second indicator 112, and the third indicator 120, or may not display the first indicator 110, the second indicator 112, and the third indicator 120.
  • the region corresponding to at least a part of the indicator 110, the second indicator 112, and the third indicator 120 may be used to output control data for control related to the image pickup performed by the image pickup apparatus 10. ..
  • control unit 62D is related to imaging with respect to a region corresponding to a specific subject (region surrounded by the first virtual frame 102) as a subject within the second distance.
  • Control to do Controls related to imaging include, for example, AF control, exposure control, and white balance control.
  • control related to imaging is performed on a region corresponding to a specific subject as a subject within the second distance, but the control is not limited to this, and for example, as shown in FIG. 27, the second Controls related to imaging may be performed on a region corresponding to a peripheral subject (a region surrounded by the second virtual frame 104) as a subject within a distance.
  • control related to imaging may be performed on the region corresponding to the entire third indicator 120. Further, instead of the third indicator 120, control related to imaging may be performed on a region corresponding to at least a part of the fourth indicator 128 (see FIG. 25).
  • control related to the image pickup is performed to the area not intended by the user or the like, as compared with the case where the control related to the image pickup is performed to the place different from the place where the indicator is located. It can be suppressed.
  • the area corresponding to the first indicator 110 is an example of the "first area corresponding to the first subject" according to the technique of the present disclosure.
  • the region corresponding to the second indicator 112 is an example of the "second region corresponding to the second subject” according to the technique of the present disclosure.
  • the third indicator 120 and the fourth indicator 128 are "object indicators” according to the technique of the present disclosure.
  • the area corresponding to the third indicator 120 and the area corresponding to the fourth indicator 128 are examples of the "third area corresponding to the first subject and the second subject” according to the technique of the present disclosure.
  • the control unit 62D has the brightness in the specific subject image area indicating the specific subject in the image area 75A and the brightness in the image area 75A. It is preferable to control the exposure based on the brightness in the peripheral subject image area indicating the peripheral subject.
  • the specific subject and the peripheral subject are captured when the specific subject and the peripheral subject are imaged, as compared with the case where the exposure control is performed using only the brightness in the specific subject image area or the brightness in the peripheral subject image area. It is possible to suppress the occurrence of overexposure or underexposure of a specific subject or a peripheral subject due to the difference in brightness between them.
  • the brightness is an example of the "brightness" according to the technique of the present disclosure.
  • the control unit 62D may use a color (for example, a color signal) in a specific subject image area indicating a specific subject in the image area 75A. , And, it is preferable to perform the white balance control based on the color (for example, the color signal) in the peripheral subject image area indicating the peripheral subject in the image area 75A.
  • a color for example, a color signal
  • the specific subject and the peripheral subject are captured when the specific subject and the peripheral subject are imaged, as compared with the case where the white balance control is performed using only the color in the specific subject image area or the color in the peripheral subject image area. It is possible to prevent the white balance of a specific subject or a peripheral subject from being biased due to the difference in brightness between the two.
  • the technique of the present disclosure is not limited to this, and selection is performed.
  • the technique of the present disclosure is established even if one or both of the subject position specifying data 90A and the selected subject type specifying data 90B are not present.
  • the data associated with the captured image 75 together with at least one of the selected subject position specifying data 90A and the selected subject type specifying data 90B, or with the selected subject position specifying data 90A and the selection.
  • the learning model may be machine-learned as the teacher data 88 regarding the tendency of the user to select the aspect of the subject, the depth of field, the distance, the positional relationship, and / or the occupancy rate.
  • Subject aspect data 90C is data that can specify the aspect of the subject.
  • the aspect of the subject refers to, for example, the facial expression of a person, whether or not he / she is wearing a hat, the color of clothes, the color of skin, the color of eyes, and / or the color of hair. According to this configuration, it is possible to make it easier to identify a subject intended by a user or the like as a specific subject, as compared with a case where a specific subject is specified based on a predetermined standard without considering the mode of the subject.
  • the depth of field data 90D is data that can specify the depth of field used in the imaging of the captured image 75. According to this configuration, it is possible to make it easier to identify a subject intended by a user or the like as a specific subject, as compared with a case where a specific subject is specified based on a predetermined standard without considering the depth of field.
  • the distance data 90E is the distance from the image pickup device 10 to the subject (for example, the shooting distance, the working distance, and / or the subject distance). According to this configuration, it is easier to identify a subject intended by a user or the like as a specific subject, as compared with a case where a specific subject is specified based on a predetermined standard without considering the distance from the image pickup device 10 to the subject. be able to.
  • the positional relationship data 90F is data that can specify the positional relationship between the selected subject and the remaining subjects.
  • the data that can specify the positional relationship between the selected subject and the remaining subjects is, for example, data that can specify that the selected subject is located in the center of the front row when taking a group photo including the selected subject. Point to. According to this configuration, the specific subject can be specified with high accuracy as compared with the case where the specific subject is specified only by the intuition of the user or the like.
  • the occupancy rate parameter 90G is an example of the "parameter specified from the captured image" according to the technique of the present disclosure.
  • the occupancy parameter 90G is a ratio occupied by the selected subject in the captured image 75 (for example, the ratio occupied by the image showing the selected subject). In the example shown in FIG. 30, 25% is exemplified as the occupancy parameter 90G.
  • this configuration there is a tendency that the image frequently specified in the captured image 75 occupies in the captured image 75 among a plurality of general subjects, as compared with the case where the specific subject is specified only by the intuition of the user or the like. It is possible to accurately identify a general subject according to the above as a specific subject.
  • the second indicator 112 is exemplified as an indicator for specifying a peripheral subject, but the technique of the present disclosure is not limited to this.
  • a number that identifies a peripheral subject is displayed on the display 28 in a state of being associated with the peripheral specific subject. May be good.
  • the symbol may be displayed on the display 28 in place of the number or in a state where the symbol is associated with the peripheral specific subject together with the number.
  • the numbers and / or symbols may be specified by the voice recognized by the voice recognition function, or may be specified by operating a soft key, a hard key, or the like. According to this configuration, a user or the like can specify a peripheral subject intended by the user or the like by using numbers and / or symbols.
  • the controller 12 built in the image pickup apparatus 10 has been described as an example of the "image processing apparatus" according to the technique of the present disclosure, but this is merely an example.
  • the technique of the present disclosure is also established by the imaging system 200.
  • the image pickup system 200 includes an image pickup device 10 and an image pickup support device 202 which is an example of the "image processing device” according to the technique of the present disclosure.
  • the image pickup device main body 16 is connected to the image pickup support device 202 via the network 204.
  • the image pickup support device 202 has at least a part of the functions of the image pickup support process described in the above embodiment.
  • Network 204 is, for example, the Internet.
  • the network 204 is not limited to the Internet, but may be a WAN and / or a LAN such as an intranet.
  • the image pickup support device 202 is a server that provides the image pickup device 10 with a service in response to a request from the image pickup device 10.
  • the server may be a mainframe used on-premises together with the image pickup apparatus 10, or may be an external server realized by cloud computing. Further, the server may be an external server realized by network computing such as fog computing, edge computing, or grid computing.
  • a server is given as an example of the image pickup support device 202, but this is only an example, and at least one personal computer or the like may be used as the image pickup support device 202 instead of the server. ..
  • the CPU 62 is exemplified in the above embodiment, at least one other CPU, at least one GPU, and / or at least one TPU may be used instead of the CPU 62 or together with the CPU 62. ..
  • the image pickup support processing program 80 may be stored in a portable non-temporary storage medium such as an SSD or a USB memory.
  • the image pickup support processing program 80 stored in the non-temporary storage medium is installed in the controller 12 of the image pickup device 10.
  • the CPU 62 executes the image pickup support process according to the image pickup support process program 80.
  • the image pickup support processing program 80 is stored in a storage device such as another computer or server device connected to the image pickup device 10 via the network, and the image pickup support processing program 80 is downloaded in response to the request of the image pickup device 10. It may be installed in the controller 12.
  • the image pickup apparatus 10 shown in FIGS. 1 and 2 has a built-in controller 12, the technique of the present disclosure is not limited to this, and for example, the controller 12 is provided outside the image pickup apparatus 10. It may be (for example, see FIG. 32).
  • controller 12 is exemplified in the above embodiment, the technique of the present disclosure is not limited to this, and a device including an ASIC, FPGA, and / or PLD may be applied instead of the controller 12. Further, instead of the controller 12, a combination of a hardware configuration and a software configuration may be used.
  • the processor includes software, that is, a CPU, which is a general-purpose processor that functions as a hardware resource for executing image pickup support processing by executing a program.
  • examples of the processor include a dedicated electric circuit, which is a processor having a circuit configuration specially designed for executing a specific process such as FPGA, PLD, or ASIC.
  • a memory is built-in or connected to any processor, and each processor executes imaging support processing by using the memory.
  • the hardware resource that performs the imaging support process may consist of one of these various processors, or a combination of two or more processors of the same type or dissimilarity (eg, a combination of multiple FPGAs, or a combination of multiple FPGAs). It may be composed of a combination of a CPU and an FPGA). Further, the hardware resource for executing the image pickup support process may be one processor.
  • one processor is configured by a combination of one or more CPUs and software, and this processor functions as a hardware resource for executing image pickup support processing. ..
  • SoC SoC
  • a processor that realizes the functions of the entire system including a plurality of hardware resources for executing image pickup support processing with one IC chip is used.
  • the image pickup support process is realized by using one or more of the above-mentioned various processors as a hardware resource.
  • a and / or B is synonymous with "at least one of A and B". That is, “A and / or B” means that it may be only A, it may be only B, or it may be a combination of A and B. Further, in the present specification, when three or more matters are connected and expressed by "and / or", the same concept as “A and / or B" is applied.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Optics & Photonics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Studio Devices (AREA)

Abstract

画像処理装置は、プロセッサと、プロセッサに接続又は内蔵されたメモリと、を備える。プロセッサは、撮像装置により撮像されることで得られた撮像画像に基づいて複数の被写体を検出し、複数の被写体から、第1被写体と、撮像画像の面内方向において第1被写体から第1距離の範囲内に存在する第2被写体とを選定し、ディスプレイに対して、撮像画像と、第1被写体を示す第1被写体画像を特定する第1インディケータと、第2被写体を示す第2被写体画像を前記第1インディケータとは異なる態様で特定する第2インディケータと、を表示させるための表示用データを出力する。

Description

画像処理装置、撮像装置、画像処理方法、及びプログラム
 本開示の技術は、画像処理装置、撮像装置、画像処理方法、及びプログラムに関する。
 特開2013-135446号公報には、撮像手段を有する撮像装置であって、撮像手段で撮像して得た画像中に含まれる所定の被写体像を検出する検出手段と、検出手段で検出された被写体を、主要被写体、主要被写体以外の非主要被写体に分類する分類手段と、被写体を特定するための特徴情報、及び、被写体を表わす名称情報を記憶する記憶手段と、撮像手段で得られた画像中の被写体の中で、記憶手段に記憶された特徴情報を有する被写体について、対応する名称情報を該当する被写体の近傍位置に表示する表示制御手段とを有し、表示制御手段は、分類手段で分類された主要被写体を、記憶手段に記憶された特徴情報に従って特定できた場合に、対応する名称情報を表示し、分類手段で分類された非主要被写体については、非主要被写体及び主要被写体の両方が記憶手段に記憶された特徴情報で特定できたことを条件に、該当する名称情報を表示することを特徴とする撮像装置が開示されている。
 特開2019-201387号公報には、撮像装置の撮像部から特定に被写体を含んだ連続する複数のフレーム画像を取得する取得部と、撮像部に対し被写体を含む追尾対象を追尾させるように追尾制御を行う追尾制御部とを備える追尾制御装置であって、追尾制御部は、フレーム画像において、被写体の一部を構成しかつ被写体を特徴付ける特徴部と特徴部の周辺に位置する周辺部との少なくとも一方を有するものを、追尾対象として設定することを特徴とする追尾制御装置が開示されている。
 特開2009-77266号公報には、半押し操作と、半押し操作よりも深く押し込まれる全押し操作とが可能なレリーズボタンと、撮像手段から出力された画像を表示手段に表示させるスルー画表示中に、画像から人物の顔を検出する顔検出手段と、顔の検出数が複数であるときに、所定の基準に基づいて複数の顔の顔選択順位を決定し、顔選択順位が最も高い顔を初期顔とした設定する顔選択順位決定手段と、顔の検出数が、1つであるときにはその顔を、複数であるときには初期顔をフォーカスエリアとなる主顔として選択し、レリーズボタンが2回以上連続して半押し操作されたときには、半押し操作の回数と同じ顔選択順位の顔を主顔として選択する主顔選択手段とを備えたことを特徴とするデジタルカメラが開示されている。
 特開2019-097380号公報には、主被写体の選択が可能な撮像装置が開示されている。特開2019-097380号公報に記載の撮像装置は、画像から被写体を検出し、検出した被写体から主被写体を選択する。また、特開2019-097380号公報に記載の撮像装置は、主被写体が合焦した場合、主被写体がユーザの指示に基づいて選択されていれば、主被写体に対応する焦点検出領域についての焦点検出の結果と、予め定められた被写界深度内の、主被写体以外の被写体に対応する焦点検出領域についての焦点検出の結果の違いに関わらず、予め定められた被写界深度内の死者他意についての合焦表示を、主被写体についての合焦表示の表示形態が主被写体以外の被写体についての合焦表示の表示態様とは異なるように表示する。
 本開示の技術に係る一つの実施形態は、複数の被写体が密集していたとしても、複数の被写体のうち対象被写体とその他の被写体とを区別することができる画像処理装置、撮像装置、画像処理方法、及びプログラムを提供する。
 本開示の技術に係る第1の態様は、プロセッサと、プロセッサに接続又は内蔵されたメモリと、を備え、プロセッサが、撮像装置により撮像されることで得られた撮像画像に基づいて複数の被写体を検出し、複数の被写体から、第1被写体と、撮像画像の面内方向において第1被写体から第1距離の範囲内に存在する第2被写体とを選出し、ディスプレイに対して、撮像画像と、第1被写体を示す第1被写体画像を特定する第1インディケータと、第2被写体を示す第2被写体画像を第1インディケータとは異なる態様で特定する第2インディケータと、を表示させるための表示用データを出力する画像処理装置である。
 本開示の技術に係る第2の態様は、表示用データが、面内方向において第2距離内に存在する第1被写体及び第2被写体を特定する第3インディケータをディスプレイに対して表示させるための第1データを含む、第1の態様に係る画像処理装置である。
 本開示の技術に係る第3の態様は、第1データが、第3インディケータをディスプレイに対して表示させる場合にディスプレイから第1インディケータ及び第2インディケータを消去するためのデータを含む、第2の態様に係る画像処理装置である。
 本開示の技術に係る第4の態様は、表示用データが、面内方向において第2距離内に存在する第1被写体及び第2被写体を特定する第3インディケータを第1インディケータ及び第2インディケータに代えてディスプレイに対して表示させるためのデータを含む、第1の態様に係る画像処理装置である。
 本開示の技術に係る第5の態様は、プロセッサが、撮像画像に基づいて複数の被写体の各々の種類を取得し、第3インディケータが、第1被写体の種類と第2被写体の種類との組み合わせが第1組み合わせであり、かつ、第2距離内に存在する第1被写体及び第2被写体を特定するインディケータである、第2の態様から第4の態様の何れか1つの態様に係る画像処理装置である。
 本開示の技術に係る第6の態様は、表示用データが、第1被写体の種類と第2被写体の種類との組み合わせが第1組み合わせとは異なる第2組み合わせであり、かつ、第2距離よりも短い第3距離内に存在する第1被写体及び第2被写体を特定する第4インディケータをディスプレイに対して表示させるための第2データを含む、第2の態様から第5の態様の何れか1つの態様に係る画像処理装置である。
 本開示の技術に係る第7の態様は、第2データが、第4インディケータをディスプレイに対して表示させる場合、ディスプレイから第1インディケータ及び第2インディケータを消去するためのデータを含む、第6の態様に係る画像処理装置である。
 本開示の技術に係る第8の態様は、プロセッサが、既定距離内に存在する第1被写体及び第2被写体を1つのオブジェクトとして特定するオブジェクトインディケータをディスプレイに対して表示させる場合、オブジェクトインディケータから特定されるオブジェクトの少なくとも一部に対応する領域を用いて、撮像装置によって行われる撮像に関連する制御のための制御用データを出力する、第1の態様から第7の態様の何れか1つの態様に係る画像処理装置である。
 本開示の技術に係る第9の態様は、オブジェクトの少なくとも一部に対応する領域が、第1被写体に対応する第1領域、第2被写体に対応する第2領域、並びに、第1被写体及び第2被写体に対応する第3領域のうちの少なくとも1つである、第8の態様に係る画像処理装置である。
 本開示の技術に係る第10の態様は、撮像に関連する制御が、露出制御、フォーカス制御、及びホワイトバランス制御のうちの少なくとも1つを含む、第8の態様又は第9の態様に係る画像処理装置である。
 本開示の技術に係る第11の態様は、オブジェクトの少なくとも一部に対応する領域が、第1被写体に対応する第1領域、及び第2被写体に対応する第2領域であり、プロセッサが、第1被写体に対応する第1領域の明るさ、及び第2被写体に対応する第2領域の明るさに基づいて、露出制御を行う、第10の態様に係る画像処理装置である。
 本開示の技術に係る第12の態様は、オブジェクトの少なくとも一部に対応する領域が、第1被写体に対応する第1領域、及び第2被写体に対応する第2領域であり、プロセッサが、第1被写体に対応する第1領域の色、及び第2被写体に対応する第2領域の色に基づいて、ホワイトバランス制御を行う、第10の態様又は第11の態様に係る画像処理装置である。
 本開示の技術に係る第13の態様は、プロセッサが、複数の被写体を第1基準に従って検出する、第1の態様から第12の態様の何れか1つの態様に係る画像処理装置である。
 本開示の技術に係る第14の態様は、プロセッサが、第2被写体を検出する基準とは異なる第2基準に基づいて第1被写体を検出する、第1の態様から第13の態様の何れか1つの態様に係る画像処理装置である。
 本開示の技術に係る第15の態様は、第2基準が、撮像装置からの距離、被写界深度、及び被写体の態様のうちの少なくとも1つに基づいて定められた基準である、第14の態様に係る画像処理装置である。
 本開示の技術に係る第16の態様は、第2基準が、受付デバイスによって受け付けられた指示に基づいて定められた基準である、第14の態様又は第15の態様に係る画像処理装置である。
 本開示の技術に係る第17の態様は、プロセッサが、撮像画像から特定されるパラメータ、複数の被写体のうちの受付デバイスによって受け付けられた指示に従って選択された選択被写体と残りの被写体との位置関係、及び選択被写体の態様のうちの少なくとも1つを含む情報を教師データとした機械学習が行われることで得られた学習済みモデルを用いて第1被写体を特定する、第1の態様から第16の態様の何れか1つの態様に係る画像処理装置である。
 本開示の技術に係る第18の態様は、撮像画像には、複数の被写体のうちの指定された被写体を示す第1指定被写体画像が含まれており、パラメータが、撮像画像内での第1指定被写体画像の相対的な位置を含む、第17の態様に係る画像処理装置である。
 本開示の技術に係る第19の態様は、撮像画像には、複数の被写体のうちの指定された被写体を示す第2指定被写体画像が含まれており、パラメータが、撮像画像内での第2指定被写体画像が占める割合に基づく値を含む、第17の態様又は第18の態様に係る画像処理装置である。
 本開示の技術に係る第20の態様は、第2インディケータが、第2被写体画像を特定する数字及び記号のうちの少なくとも一方を含む、第1の態様から第19の態様の何れか1つの態様に係る画像処理装置である。
 本開示の技術に係る第21の態様は、第1距離が、撮像画像内での距離である、第1の態様から第20の態様の何れか1つの態様に係る画像処理装置である。
 本開示の技術に係る第22の態様は、プロセッサと、プロセッサに接続又は内蔵されたメモリと、イメージセンサと、を備え、プロセッサが、イメージセンサにより撮像されることで得られた撮像画像に基づいて複数の被写体を検出し、複数の被写体から、第1被写体と、撮像画像の面内方向において第1被写体から第1距離の範囲内に存在する第2被写体とを選出し、ディスプレイに対して、撮像画像と、第1被写体を示す第1被写体画像を特定する第1インディケータと、第2被写体を示す第2被写体画像を第1インディケータとは異なる態様で特定する第2インディケータと、を表示させる撮像装置である。
 本開示の技術に係る第23の態様は、撮像装置により撮像されることで得られた撮像画像に基づいて複数の被写体を検出すること、複数の被写体から、第1被写体と、撮像画像の面内方向において第1被写体から第1距離の範囲内に存在する第2被写体とを選出すること、及び、ディスプレイに対して、撮像画像と、第1被写体を示す第1被写体画像を特定する第1インディケータと、第2被写体を示す第2被写体画像を第1インディケータとは異なる態様で特定する第2インディケータと、を表示させるための表示用データを出力すること、を含む画像処理方法である。
 本開示の技術に係る第24の態様は、コンピュータに、撮像装置により撮像されることで得られた撮像画像に基づいて複数の被写体を検出すること、複数の被写体から、第1被写体と、撮像画像の面内方向において第1被写体から第1距離の範囲内に存在する第2被写体とを選出すること、及び、ディスプレイに対して、撮像画像と、第1被写体を示す第1被写体画像を特定する第1インディケータと、第2被写体を示す第2被写体画像を第1インディケータとは異なる態様で特定する第2インディケータと、を表示させるための表示用データを出力すること、を含む処理を実行させるためのプログラムである。
撮像装置の全体の構成の一例を示す概略構成図である。 撮像装置の光学系及び電気系のハードウェア構成の一例を示す概略構成図である。 撮像装置に含まれるNVMの記憶内容及び撮像装置に含まれるCPUの要部機能の一例を示すブロック図である。 一般被写体用学習済みモデルの入出力の一例を示す概念図である。 教師データを生成する構成の一例を示す概念図である。 モデル生成装置の処理内容の一例を示す概念図である。 取得部及び制御部の処理内容の一例を示す概念図である。 被写体認識部の一般被写体認識処理の内容の一例を示すブロック図である。 被写体認識部の特定被写体認識処理の内容の一例を示すブロック図である。 被写体認識部の処理内容の一例を示すブロック図である。 分類部の処理内容の一例を示す概念図である。 分類部の処理内容の一例を示す概念図である。 分類部の処理内容の一例を示す概念図である。 制御部の処理内容の一例を示す概念図である。 分類部の処理内容の一例を示す概念図である。 分類部の処理内容の一例を示す概念図である。 分類部の処理内容の一例を示す概念図である。 分類部の処理内容の一例を示す概念図である。 分類部の処理内容の一例を示す概念図である。 制御部の処理内容の一例を示す概念図である。 被写体認識部の処理内容の一例を示す概念図である。 取得部及び制御部の処理内容の一例を示す概念図である。 取得部及び被写体認識部の処理内容の一例を示す概念図である。 撮像支援処理の流れの一例を示すフローチャートである。 図24Aに示すフローチャートの続きである。 第4インディケータを生成して表示する処理の内容を示す概念図である。 撮像に関連する制御を行う処理の内容を示す概念図である。 撮像に関連する制御を行う処理の内容を示す概念図である。 撮像に関連する制御を行う処理の内容を示す概念図である。 撮像に関連する制御を行う処理の内容を示す概念図である。 教師データの変形例を示す概念図である。 周辺被写体に付するインディケータの変形例を示す概念図である。 撮像システムの構成の一例を示す概念図である。
 以下、添付図面に従って本開示の技術に係る画像処理装置、撮像装置、画像処理方法、及びプログラムの実施形態の一例について説明する。
 先ず、以下の説明で使用される文言について説明する。
 CPUとは、“Central Processing Unit”の略称を指す。GPUとは、“Graphics Processing Unit”の略称を指す。TPUとは、“Tensor processing unit”の略称を指す。NVMとは、“Non-volatile memory”の略称を指す。RAMとは、“Random Access Memory”の略称を指す。ICとは、“Integrated Circuit”の略称を指す。ASICとは、“Application Specific Integrated Circuit”の略称を指す。PLDとは、“Programmable Logic Device”の略称を指す。FPGAとは、“Field-Programmable Gate Array”の略称を指す。SoCとは、“System-on-a-chip”の略称を指す。SSDとは、“Solid State Drive”の略称を指す。USBとは、“Universal Serial Bus”の略称を指す。HDDとは、“Hard Disk Drive”の略称を指す。EEPROMとは、“Electrically Erasable and Programmable Read Only Memory”の略称を指す。ELとは、“Electro-Luminescence”の略称を指す。I/Fとは、“Interface”の略称を指す。UIとは、“User Interface”の略称を指す。fpsとは、“frame per second”の略称を指す。MFとは、“Manual Focus”の略称を指す。AFとは、“Auto Focus”の略称を指す。CMOSとは、“Complementary Metal Oxide Semiconductor”の略称を指す。CCDとは、“Charge Coupled Device”の略称を指す。LANとは、“Local Area Network”の略称を指す。WANとは、“Wide Area Network”の略称を指す。CNNとは、“Convolutional Neural Network”の略称を指す。AIとは、“Artificial Intelligence”の略称を指す。
 一例として図1に示すように、撮像装置10は、被写体を撮像する装置であり、コントローラ12、撮像装置本体16、及び交換レンズ18を備えている。コントローラ12は、本開示の技術に係る「画像処理装置」及び「コンピュータ」の一例である。コントローラ12は、撮像装置本体16に内蔵されており、撮像装置10の全体を制御する。交換レンズ18は、撮像装置本体16に交換可能に装着される。交換レンズ18には、フォーカスリング18Aが設けられている。フォーカスリング18Aは、撮像装置10のユーザ(以下、単に「ユーザ」と称する)等が撮像装置10による被写体に対するピントの調整を手動で行う場合にユーザ等によって操作される。
 図1に示す例では、撮像装置10の一例として、レンズ交換式のデジタルカメラが示されている。但し、これは、あくまでも一例に過ぎず、レンズ固定式のデジタルカメラであってもよいし、スマートデバイス、ウェアラブル端末、細胞観察装置、眼科観察装置、又は外科顕微鏡等の各種の電子機器に内蔵されるデジタルカメラであってもよい。
 撮像装置本体16には、イメージセンサ20が設けられている。イメージセンサ20は、CMOSイメージセンサである。イメージセンサ20は、少なくとも1つの被写体を含む撮像範囲を撮像する。交換レンズ18が撮像装置本体16に装着された場合に、被写体を示す被写体光は、交換レンズ18を透過してイメージセンサ20に結像され、被写体の画像を示す画像データがイメージセンサ20によって生成される。
 本実施形態では、イメージセンサ20としてCMOSイメージセンサを例示しているが、本開示の技術はこれに限定されず、例えば、イメージセンサ20がCCDイメージセンサ等の他種類のイメージセンサであっても本開示の技術は成立する。
 撮像装置本体16の上面には、レリーズボタン22及びダイヤル24が設けられている。ダイヤル24は、撮像系の動作モード及び再生系の動作モード等の設定の際に操作され、ダイヤル24が操作されることによって、撮像装置10では、動作モードとして、撮像モード、再生モード、及び設定モードが選択的に設定される。撮像モードは、撮像装置10に対して撮像を行わせる動作モードである。再生モードは、撮像モードで記録用の撮像が行われることによって得られた画像(例えば、静止画像及び/又は動画像)を再生する動作モードである。設定モードは、後述する教師データ88(図5参照)を生成したり、モデル生成装置92(図6参照)に教師データ88を供給したり、撮像に関連する制御で用いられる各種の設定値を設定する場合などに撮像装置10に対して設定する動作モードである。
 レリーズボタン22は、撮像準備指示部及び撮像指示部として機能し、撮像準備指示状態と撮像指示状態との2段階の押圧操作が検出可能である。撮像準備指示状態とは、例えば待機位置から中間位置(半押し位置)まで押下される状態を指し、撮像指示状態とは、中間位置を超えた最終押下位置(全押し位置)まで押下される状態を指す。なお、以下では、「待機位置から半押し位置まで押下される状態」を「半押し状態」といい、「待機位置から全押し位置まで押下される状態」を「全押し状態」という。撮像装置10の構成によっては、撮像準備指示状態とは、ユーザの指がレリーズボタン22に接触した状態であってもよく、撮像指示状態とは、操作するユーザの指がレリーズボタン22に接触した状態から離れた状態に移行した状態であってもよい。
 撮像装置本体16の背面には、タッチパネル・ディスプレイ32及び指示キー26が設けられている。
 タッチパネル・ディスプレイ32は、ディスプレイ28及びタッチパネル30(図2も参照)を備えている。ディスプレイ28の一例としては、ELディスプレイ(例えば、有機ELディスプレイ又は無機ELディスプレイ)が挙げられる。ディスプレイ28は、ELディスプレイではなく、液晶ディスプレイ等の他種類のディスプレイであってもよい。
 ディスプレイ28は、画像及び/又は文字情報等を表示する。ディスプレイ28は、撮像装置10が撮像モードの場合に、ライブビュー画像用の撮像、すなわち、連続的な撮像が行われることにより得られたライブビュー画像の表示に用いられる。ライブビュー画像を得るために行われる撮像(以下、「ライブビュー画像用撮像」とも称する)は、例えば、60fpsのフレームレートに従って行われる。60fpsは、あくまでも一例に過ぎず、60fps未満のフレームレートであってもよいし、60fpsを超えるフレームレートであってもよい。
 ここで、「ライブビュー画像」とは、イメージセンサ20によって撮像されることにより得られた画像データに基づく表示用の動画像を指す。ライブビュー画像は、一般的には、スルー画像とも称されている。
 ディスプレイ28は、撮像装置10に対してレリーズボタン22を介して静止画像用の撮像の指示が与えられた場合に、静止画像用の撮像が行われることで得られた静止画像の表示にも用いられる。また、ディスプレイ28は、撮像装置10が再生モードの場合の再生画像等の表示にも用いられる。更に、ディスプレイ28は、撮像装置10が設定モードの場合に、各種メニューを選択可能なメニュー画面の表示、及び、撮像に関連する制御で用いられる各種の設定値等を設定するための設定画面の表示にも用いられる。
 タッチパネル30は、透過型のタッチパネルであり、ディスプレイ28の表示領域の表面に重ねられている。タッチパネル30は、指又はスタイラスペン等の指示体による接触を検知することで、ユーザからの指示を受け付ける。なお、以下では、説明の便宜上、上述した「全押し状態」には、撮像開始用のソフトキーに対してユーザがタッチパネル30を介してオンした状態も含まれる。
 本実施形態では、タッチパネル・ディスプレイ32の一例として、タッチパネル30がディスプレイ28の表示領域の表面に重ねられているアウトセル型のタッチパネル・ディスプレイを挙げているが、これはあくまでも一例に過ぎない。例えば、タッチパネル・ディスプレイ32として、オンセル型又はインセル型のタッチパネル・ディスプレイを適用することも可能である。
 指示キー26は、各種の指示を受け付ける。ここで、「各種の指示」とは、例えば、メニュー画面の表示の指示、1つ又は複数のメニューの選択の指示、選択内容の確定の指示、選択内容の消去の指示、ズームイン、ズームアウト、及びコマ送り等の各種の指示等を指す。また、これらの指示はタッチパネル30によってされてもよい。
 一例として図2に示すように、イメージセンサ20は、光電変換素子72を備えている。光電変換素子72は、受光面72Aを有する。光電変換素子72は、受光面72Aの中心と光軸OAとが一致するように撮像装置本体16内に配置されている(図1も参照)。光電変換素子72は、マトリクス状に配置された複数の感光画素を有しており、受光面72Aは、複数の感光画素によって形成されている。感光画素は、フォトダイオード(図示省略)を有する物理的な画素であり、受光した光を光電変換し、受光量に応じた電気信号を出力する。
 交換レンズ18は、撮像レンズ40を備えている。撮像レンズ40は、対物レンズ40A、フォーカスレンズ40B、ズームレンズ40C、及び絞り40Dを有する。対物レンズ40A、フォーカスレンズ40B、ズームレンズ40C、及び絞り40Dは、被写体側(物体側)から撮像装置本体16側(像側)にかけて、光軸OAに沿って、対物レンズ40A、フォーカスレンズ40B、ズームレンズ40C、及び絞り40Dの順に配置されている。
 また、交換レンズ18は、制御装置36、第1アクチュエータ37、第2アクチュエータ38、及び第3アクチュエータ39を備えている。制御装置36は、撮像装置本体16からの指示に従って交換レンズ18の全体を制御する。制御装置36は、例えば、CPU、NVM、及びRAM等を含むコンピュータを有する装置である。なお、ここでは、コンピュータを例示しているが、これは、あくまでも一例に過ぎず、ASIC、FPGA、及び/又はPLDを含むデバイスを適用してもよい。また、制御装置36として、例えば、ハードウェア構成及びソフトウェア構成の組み合わせによって実現される装置を用いてよい。
 第1アクチュエータ37は、フォーカス用スライド機構(図示省略)及びフォーカス用モータ(図示省略)を備えている。フォーカス用スライド機構には、光軸OAに沿ってスライド可能にフォーカスレンズ40Bが取り付けられている。また、フォーカス用スライド機構にはフォーカス用モータが接続されており、フォーカス用スライド機構は、フォーカス用モータの動力を受けて作動することでフォーカスレンズ40Bを光軸OAに沿って移動させる。
 第2アクチュエータ38は、ズーム用スライド機構(図示省略)及びズーム用モータ(図示省略)を備えている。ズーム用スライド機構には、光軸OAに沿ってスライド可能にズームレンズ40Cが取り付けられている。また、ズーム用スライド機構にはズーム用モータが接続されており、ズーム用スライド機構は、ズーム用モータの動力を受けて作動することでズームレンズ40Cを光軸OAに沿って移動させる。
 第3アクチュエータ39は、動力伝達機構(図示省略)及び絞り用モータ(図示省略)を備えている。絞り40Dは、開口40D1を有しており、開口40D1の大きさが可変な絞りである。開口40D1は、複数枚の絞り羽根40D2によって形成されている。複数枚の絞り羽根40D2は、動力伝達機構に連結されている。また、動力伝達機構には絞り用モータが接続されており、動力伝達機構は、絞り用モータの動力を複数枚の絞り羽根40D2に伝達する。複数枚の絞り羽根40D2は、動力伝達機構から伝達される動力を受けて作動することで開口40D1の大きさを変化させる。絞り40Dは、開口40D1の大きさを変化させることで露出を調節する。
 フォーカス用モータ、ズーム用モータ、及び絞り用モータは、制御装置36に接続されており、制御装置36によってフォーカス用モータ、ズーム用モータ、及び絞り用モータの各駆動が制御される。なお、本実施形態では、フォーカス用モータ、ズーム用モータ、及び絞り用モータの一例として、ステッピングモータが採用されている。従って、フォーカス用モータ、ズーム用モータ、及び絞り用モータは、制御装置36からの命令によりパルス信号に同期して動作する。なお、ここでは、フォーカス用モータ、ズーム用モータ、及び絞り用モータが交換レンズ18に設けられている例が示されているが、これは、あくまでも一例に過ぎず、フォーカス用モータ、ズーム用モータ、及び絞り用モータのうちの少なくとも1つが撮像装置本体16に設けられていてもよい。なお、交換レンズ18の構成物及び/又は動作方法は、必要に応じて変更可能である。
 撮像装置10では、撮像モードの場合に、撮像装置本体16に対して与えられた指示に従ってMFモードとAFモードとが選択的に設定される。MFモードは、手動でピントを合わせる動作モードである。MFモードでは、例えば、ユーザによってフォーカスリング18A等が操作されることで、フォーカスリング18A等の操作量に応じた移動量でフォーカスレンズ40Bが光軸OAに沿って移動し、これによって焦点が調節される。
 AFモードでは、撮像装置本体16が被写体距離に応じた合焦位置の演算を行い、演算して得た合焦位置に向けてフォーカスレンズ40Bを移動させることで、焦点を調節する。ここで、合焦位置とは、ピントが合っている状態でのフォーカスレンズ40Bの光軸OA上での位置を指す。なお、以下では、説明の便宜上、フォーカスレンズ40Bを合焦位置に合わせる制御を「AF制御」とも称する。
 撮像装置本体16は、イメージセンサ20、コントローラ12、画像メモリ46、UI系デバイス48、外部I/F50、通信I/F52、光電変換素子ドライバ54、メカニカルシャッタドライバ56、メカニカルシャッタアクチュエータ58、メカニカルシャッタ60、及び入出力インタフェース70を備えている。また、イメージセンサ20は、光電変換素子72及び信号処理回路74を備えている。
 入出力インタフェース70には、コントローラ12、画像メモリ46、UI系デバイス48、外部I/F50、光電変換素子ドライバ54、メカニカルシャッタドライバ56、及び信号処理回路74が接続されている。また、入出力インタフェース70には、交換レンズ18の制御装置36も接続されている。
 コントローラ12は、CPU62、NVM64、及びRAM66を備えている。ここで、CPU62は、本開示の技術に係る「プロセッサ」の一例であり、NVM64は、本開示の技術に係る「メモリ」の一例である。
 CPU62、NVM64、及びRAM66は、バス68を介して接続されており、バス68は入出力インタフェース70に接続されている。なお、図2に示す例では、図示の都合上、バス68として1本のバスが図示されているが、複数本のバスであってもよい。バス68は、シリアルバスであってもよいし、データバス、アドレスバス、及びコントロールバス等を含むパラレルバスであってもよい。
 NVM64は、非一時的記憶媒体であり、各種パラメータ及び各種プログラムを記憶している。例えば、NVM64は、EEPROMである。但し、これは、あくまでも一例に過ぎず、EEPROMに代えて、又は、EEPROMと共に、HDD、及び/又はSSD等をNVM64として適用してもよい。また、RAM66は、各種情報を一時的に記憶し、ワークメモリとして用いられる。
 CPU62は、NVM64から必要なプログラムを読み出し、読み出したプログラムをRAM66で実行する。CPU62は、RAM66上で実行するプログラムに従って撮像装置10の全体を制御する。図2に示す例では、画像メモリ46、UI系デバイス48、外部I/F50、通信I/F52、光電変換素子ドライバ54、メカニカルシャッタドライバ56、及び制御装置36がCPU62によって制御される。
 光電変換素子72には、光電変換素子ドライバ54が接続されている。光電変換素子ドライバ54は、光電変換素子72によって行われる撮像のタイミングを規定する撮像タイミング信号を、CPU62からの指示に従って光電変換素子72に供給する。光電変換素子72は、光電変換素子ドライバ54から供給された撮像タイミング信号に従って、リセット、露光、及び電気信号の出力を行う。撮像タイミング信号としては、例えば、垂直同期信号及び水平同期信号が挙げられる。
 交換レンズ18が撮像装置本体16に装着された場合、撮像レンズ40に入射された被写体光は、撮像レンズ40によって受光面72Aに結像される。光電変換素子72は、光電変換素子ドライバ54の制御下で、受光面72Aによって受光された被写体光を光電変換し、被写体光の光量に応じた電気信号を、被写体光を示すアナログ画像データとして信号処理回路74に出力する。具体的には、信号処理回路74が、露光順次読み出し方式で、光電変換素子72から1フレーム単位で且つ水平ライン毎にアナログ画像データを読み出す。
 信号処理回路74は、アナログ画像データをデジタル化することでデジタル画像データを生成する。なお、以下では、説明の便宜上、撮像装置本体16での内部処理の対象とされるデジタル画像データと、デジタル画像データにより示される画像(すなわち、デジタル画像データに基づいて可視化されてディスプレイ28等に表示される画像)とを区別して説明する必要がない場合、「撮像画像75」と称する。
 本実施形態において、コントローラ12のCPU62は、撮像装置10によって撮像されることで得られた撮像画像75に基づいて複数の被写体を検出する。本実施形態において、被写体の検出とは、例えば、被写体を示す被写体画像の検出を指す。すなわち、CPU62は、撮像画像75から、被写体を示す被写体画像を検出することで、被写体画像に写り込んでいる被写体を検出する。また、本実施形態に係る撮像装置10では、CPU62によって被写体認識処理が行われる。被写体認識処理とは、撮像画像75に基づいて被写体を認識する処理を指す。本実施形態において、被写体の認識とは、少なくとも被写体の検出及び被写体の種類の特定を含む処理を指す。被写体認識処理は、AI方式又はテンプレートマッチング方式等によって実現される。
 メカニカルシャッタ60は、フォーカルプレーンシャッタであり、絞り40Dと受光面72Aとの間に配置されている。メカニカルシャッタ60は、先幕(図示省略)及び後幕(図示省略)を備えている。先幕及び後幕の各々は、複数枚の羽根を備えている。先幕は、後幕よりも被写体側に配置されている。
 メカニカルシャッタアクチュエータ58は、リンク機構(図示省略)、先幕用ソレノイド(図示省略)、及び後幕用ソレノイド(図示省略)を有するアクチュエータである。先幕用ソレノイドは、先幕の駆動源であり、リンク機構を介して先幕に機械的に連結されている。後幕用ソレノイドは、後幕の駆動源であり、リンク機構を介して後幕に機械的に連結されている。メカニカルシャッタドライバ56は、CPU62からの指示に従って、メカニカルシャッタアクチュエータ58を制御する。
 先幕用ソレノイドは、メカニカルシャッタドライバ56の制御下で動力を生成し、生成した動力を先幕に付与することで先幕の巻き上げ及び引き下ろしを選択的に行う。後幕用ソレノイドは、メカニカルシャッタドライバ56の制御下で動力を生成し、生成した動力を後幕に付与することで後幕の巻き上げ及び引き下ろしを選択的に行う。撮像装置10では、先幕の開閉と後幕の開閉とがCPU62によって制御されることで、光電変換素子72に対する露光量が制御される。
 撮像装置10では、ライブビュー画像用撮像と、静止画像及び/又は動画像を記録するための記録画像用の撮像とが露光順次読み出し方式(ローリングシャッタ方式)で行われる。イメージセンサ20は、電子シャッタ機能を有しており、ライブビュー画像用撮像は、メカニカルシャッタ60を全開状態にしたまま作動させずに、電子シャッタ機能を働かせることで実現される。
 これに対し、本露光を伴う撮像、すなわち、静止画像用の撮像は、電子シャッタ機能を働かせ、かつ、メカニカルシャッタ60を先幕閉状態から後幕閉状態に遷移させるようにメカニカルシャッタ60を作動させることで実現される。
 画像メモリ46には、信号処理回路74によって生成された撮像画像75が記憶される。すなわち、信号処理回路74が画像メモリ46に対して撮像画像75を記憶させる。CPU62は、画像メモリ46から撮像画像75を取得し、取得した撮像画像75を用いて各種処理を実行する。
 UI系デバイス48は、ディスプレイ28を備えており、CPU62は、ディスプレイ28に対して各種情報を表示させる。また、UI系デバイス48は、受付デバイス76を備えている。受付デバイス76は、タッチパネル30及びハードキー部78を備えている。ハードキー部78は、指示キー26(図1参照)を含む複数のハードキーである。CPU62は、タッチパネル30によって受け付けられた各種指示に従って動作する。なお、ここでは、ハードキー部78がUI系デバイス48に含まれているが、本開示の技術はこれに限定されず、例えば、ハードキー部78は、外部I/F50に接続されていてもよい。
 外部I/F50は、撮像装置10の外部に存在する装置(以下、「外部装置」とも称する)との間の各種情報の授受を司る。外部I/F50の一例としては、USBインタフェースが挙げられる。USBインタフェースには、スマートデバイス、パーソナル・コンピュータ、サーバ、USBメモリ、メモリカード、及び/又はプリンタ等の外部装置(図示省略)が直接的又は間接的に接続される。通信I/F52は、ネットワーク204(図32参照)を介してCPU62と外部コンピュータ(例えば、撮像支援装置202(図32参照))との間の情報の授受を司る。例えば、通信I/F52は、CPU62からの要求に応じた情報を、ネットワーク34を介して外部コンピュータに送信する。また、通信I/F52は、外部装置から送信された情報を受信し、受信した情報を、入出力インタフェース70を介してCPU62に出力する。
 ところで、従来既知の撮像装置の1つとして、被写体を検出する機能が搭載された撮像装置が知られている。この種の撮像装置では、検出された被写体の位置を特定可能に取り囲む検出枠がライブビュー画像等に重畳させた状態でディスプレイに表示される。近年では、AI方式で被写体を検出する性能が向上しており、人物のみならず、小動物及び乗り物等も検出対象とされている。このように検出対象が増えると、検出結果としてディスプレイに表示される検出枠も増えることが考えられる。この場合、ディスプレイに表示される検出枠が増えると、検出枠が重畳されるライブビュー画像等の視認性が悪化したり、ユーザ等が、撮像に関連する制御(例えば、AF制御及び/又は露出制御等)の対象とされる特定の被写体(以下、「特定被写体」とも称する)を選び難くなったりすることが予想される。ディスプレイに表示される検出枠の個数を制限するにしても、どの被写体に対して検出枠を表示させるかを適切に選ばないと、ユーザ等が意図する被写体に対して検出枠が表示されなくなることが予想される。そこで、本実施形態では、一例として、撮像装置10が、検出対象とされる被写体が増えることでディスプレイに表示される検出枠が密集したとしても、特定被写体とそれ以外の被写体とを区別することができるようにしている。以下、具体的な一例について説明する。
 一例として図3に示すように、撮像装置10のNVM64には、撮像支援処理プログラム80、被写体認識用モデル82、及び第1組み合わせ特定テーブル87を記憶している。被写体認識用モデル82は、一般被写体用学習済みモデル84及び特定被写体用学習済みモデル86を有する。ここで、撮像支援処理プログラム80は、本開示の技術に係る「プログラム」の一例である。
 CPU62は、NVM64から撮像支援処理プログラム80を読み出し、読み出した撮像支援処理プログラム80をRAM66上で実行する。CPU62は、RAM66上で実行する撮像支援処理プログラム80に従って撮像支援処理(図24A及び図24B参照)を行う。撮像支援処理は、CPU62が撮像支援処理プログラム80に従って取得部62A、被写体認識部62B、分類部62C、及び制御部62Dとして動作することで実現される。
 一般被写体用学習済みモデル84は、例えば、学習モデル(例えば、CNN)が機械学習によって最適化されることで生成された学習済みモデルである。ここで、学習モデルに対する機械学習で用いられる教師データは、ラベル付きデータである。ラベル付きデータは、例えば、撮像画像75と正解データとが対応付けられたデータである。正解データとしては、例えば、撮像画像75に写り込んでいる一般被写体の種類を特定可能なデータ、及び、撮像画像75内での一般被写体の位置を特定可能なデータを含むデータである。一般被写体とは、検出対象として定められた全ての被写体(例えば、人物の顔、人物全体、人物以外の動物、乗り物、昆虫、建築物、及び自然物等)を指す。
 一般被写体用学習済みモデル84は、撮像画像75が入力されると、一般被写体認識データ84Aを出力する。一般被写体認識データ84Aは、一般被写体位置特定データ84A1及び一般被写体種類特定データ84A2を有する。図4に示す例では、撮像画像75には、犬と人物の顔が写り込んでおり、一般被写体位置特定データ84A1として、撮像画像75内での人物の顔の相対的な位置を特定可能な情報、及び撮像画像75内での犬の相対的な位置を特定可能な情報が例示されている。また、図4に示す例では、一般被写体種類特定データ84A2として、撮像画像75内において、一般被写体位置特定データ84A1から特定される位置に存在する被写体が人物の顔であることを特定可能な情報、及び一般被写体位置特定データ84A1から特定される位置に存在する犬であることを特定可能な情報が例示されている。なお、一般被写体用学習済みモデル84は、本開示の技術に係る「第1基準」の一例である。
 図5には、特定被写体用学習済みモデル86(図3及び図6参照)の生成に用いられる教師データ88の作り方の一例が示されている。
 一例として図5に示すように、撮像装置10では、ディスプレイ28に撮像画像75が表示されている状態で、受付デバイス76(図5に示す例では、タッチパネル30)によって受け付けられた指示に従って選択された選択被写体が、特定被写体として指定される。すなわち、ディスプレイ28に表示されている撮像画像75内から1つの被写体画像がユーザ等によって受付デバイス76を介して指定されることで、撮像画像75内に写り込んでいる被写体のうちの1つが指定される。なお、選択被写体は、本開示の技術に係る「選択被写体」、「第1指定被写体画像」及び「第2指定被写体画像」の一例である。
 CPU62は、画像メモリ46から撮像画像75を取得する。ここで、CPU62によって画像メモリ46から取得される撮像画像75は、受付デバイス76によって指示が受け付けられたタイミングでディスプレイ28に表示される撮像画像75である。CPU62は、撮像画像75に基づいて、選択被写体に関する選択被写体データ90を生成する。選択被写体データ90は、選択被写体位置特定データ90A及び選択被写体種類特定データ90Bを有する。選択被写体位置特定データ90Aは、撮像画像75から特定されるパラメータを有するデータである。選択被写体位置特定データ90Aは、撮像画像75から特定されるパラメータとして、撮像画像75内での選択被写体の相対的な位置を特定可能なパラメータ(例えば、撮像画像75内での位置を特定可能な2次元座標)を有する。
 選択被写体種類特定データ90Bは、選択被写体の種類(例えば、犬、及び、人物の顔等)を特定可能なデータである。選択被写体種類特定データ90Bは、例えば、受付デバイス76によって指示が受け付けられた指示に従って生成されるデータである。但し、これは、あくまでも一例に過ぎず、選択被写体種類特定データ90Bは、被写体認識処理によって特定された種類を特定可能なデータであってもよい。
 CPU62は、画像メモリ46から取得した撮像画像75と、撮像画像75に基づいて生成された選択被写体データ90とを対応付けることで教師データ88を生成し、NVM64に記憶させる。NVM64には、複数フレーム分の教師データ88が記憶されている。ここで、複数フレームとは、例えば、数万フレーム(例えば、“50000”)を指す。但し、これは、あくまでも一例に過ぎず、数万フレームよりも少ないフレーム数(例えば、数千フレーム)であってもよいし、数万フレームよりも多いフレーム数(例えば、数十万フレーム)であってもよい。なお、ここで、フレームとは、撮像画像75の数を指す。
 一例として図6に示すように、特定被写体用学習済みモデル86は、モデル生成装置92によって生成される。モデル生成装置92は、CNN94を有する。また、モデル生成装置92は、NVM64に接続されている。
 モデル生成装置92は、NVM64から1フレームずつ教師データ88を読み出す。モデル生成装置92は、教師データ88から撮像画像75を取得し、取得した撮像画像75をCNN94に入力する。CNN94は、撮像画像75が入力されると、推論を行い、推論結果を示す被写体認識データ94Aを出力する。被写体認識データ94Aは、教師データ88に含まれる選択被写体データ90に含まれるデータと同項目のデータである。同項目のデータとは、例えば、CNN94に入力された撮像画像75内での特定被写体として予想された被写体の相対的な位置を特定可能な情報、及びCNN94に入力された撮像画像75内に写り込んでいる特定被写体として予想された被写体の種類を特定可能な情報等を指す。
 モデル生成装置92は、CNN94に入力した撮像画像75に対応付けられている選択被写体データ90と被写体認識データ94Aとの誤差96を算出する。誤差96とは、例えば、CNN94に入力された撮像画像75内での特定被写体として予想された被写体の相対的な位置を特定可能な情報と、選択被写体データ90に含まれる選択被写体位置特定データ90A(図5参照)との誤差、及び、CNN94に入力された撮像画像75内に写り込んでいる特定被写体として予想された被写体の種類を特定可能な情報と選択被写体データ90に含まれる選択被写体種類特定データ90Bとの誤差等を指す。
 モデル生成装置92は、誤差96を参照する複数の調整値98を算出する。そして、モデル生成装置92は、算出した複数の調整値98を用いてCNN94内の複数の最適化変数を調整する。ここで、CNN94の最適化変数とは、例えば、CNN94に含まれる複数の結合荷重及び複数のオフセット値等を指す。
 モデル生成装置92は、撮像画像75のCNN94への入力、誤差96の算出、複数の調整値98の算出、及びCNN94内の複数の最適化変数の調整、という学習処理を、NVM64に記憶されている撮像画像75のフレーム数分だけ繰り返し行う。すなわち、モデル生成装置92は、NVM64内の複数フレーム分の撮像画像75の各々について、誤差96が最小になるように算出した複数の調整値98を用いてCNN94内の複数の最適化変数を調整することで、CNN94を最適化する。
 モデル生成装置92は、CNN94を最適化することで特定被写体用学習済みモデル86を生成する。すなわち、CNN94に含まれる複数の最適化変数が調整されることによってCNN94が最適化され、これによって特定被写体用学習済みモデル86が生成される。モデル生成装置92は、生成した特定被写体用学習済みモデル86をNVM64に記憶させる。なお、特定被写体用学習済みモデル86は、本開示の技術に係る「第2基準」の一例である。
 一例として図7に示すように、取得部62Aは、画像メモリ46から撮像画像75を取得する。制御部62Dは、画像メモリ46から取得した撮像画像75をディスプレイ28に対して表示させる。この場合、例えば、制御部62Dは、ディスプレイ28に表示させるための表示用データ99を生成し、生成した表示用データ99をディスプレイ28に出力する。これにより、ディスプレイ28には、撮像画像75が表示される。ディスプレイ28に表示される撮像画像75の種類としては、例えば、ライブビュー画像が挙げられる。但し、ライブビュー画像は、あくまでも一例に過ぎず、ポストビュー画像等の他種類の画像であってもよい。なお、表示用データ99は、本開示の技術に係る「表示用データ」の一例である。
 一例として図8に示すように、被写体認識部62Bは、取得部62Aによって取得された撮像画像75に基づいて、一般被写体について被写体認識処理である一般被写体認識処理を実行する。例えば、この場合、被写体認識部62Bは、取得部62Aによって取得された撮像画像75を一般被写体用学習済みモデル84に入力する。一般被写体用学習済みモデル84は、撮像画像75が入力されると、一般被写体認識データ84Aを出力する。一般被写体認識データ84Aには、一般被写体位置特定データ84A1及び一般被写体種類特定データ84A2が含まれている。
 一例として図9に示すように、被写体認識部62Bは、一般被写体用学習済みモデル84から出力された一般被写体認識データ84Aを取得する。そして、被写体認識部62Bは、取得した一般被写体認識データ84Aを参照して、取得部62Aによって取得された撮像画像75、すなわち、一般被写体用学習済みモデル84に入力された撮像画像75内に複数の一般被写体が存在しているか否か、すなわち、一般被写体用学習済みモデル84に入力された撮像画像75内に複数の一般被写体が写り込んでいるか否かを判定する。ここで、撮像画像75内に複数の一般被写体が存在していると判定されたということは、撮像画像75に基づいて複数の一般被写体が検出されたことを意味している。
 被写体認識部62Bは、一般被写体用学習済みモデル84に入力された撮像画像75内に複数の一般被写体が存在していると判定した場合、取得部62Aによって取得された撮像画像75に基づいて、特定被写体認識処理を実行する。例えば、この場合、被写体認識部62Bは、取得部62Aによって取得された撮像画像75、すなわち、一般被写体用学習済みモデル84に入力された撮像画像75を特定被写体用学習済みモデル86に入力する。特定被写体用学習済みモデル86は、撮像画像75が入力されると、特定被写体認識データ86Aを出力する。特定被写体認識データ86Aには、特定被写体位置特定データ86A1及び特定被写体種類特定データ86A2が含まれている。
 一例として図10に示すように、被写体認識部62Bは、特定被写体用学習済みモデル86から出力された特定被写体認識データ86Aを取得する。そして、被写体認識部62Bは、取得した特定被写体認識データ86Aを参照して、取得部62Aによって取得された撮像画像75、すなわち、特定被写体用学習済みモデル86に入力された撮像画像75内に特定被写体が存在しているか否か、すなわち、特定被写体用学習済みモデル86に入力された撮像画像75内に特定被写体が写り込んでいるか否かを判定する。ここで、撮像画像75内に特定被写体が存在していると判定されたということは、撮像画像75に基づいて特定被写体が検出されたことを意味している。
 分類部62Cは、特定被写体用学習済みモデル86に入力された撮像画像75内に特定被写体が存在していると被写体認識部62Bによって判定された場合、例えば、図11~図13に示す処理を行う。
 一例として図11に示すように、分類部62Cは、撮像画像75に基づいて検出された複数の一般被写体から、特定被写体と、撮像画像75の面内方向において特定被写体から第1距離の範囲内に存在する周辺被写体とを選出する。ここで、第1距離の一例としては、撮像画像75内での距離が挙げられる。撮像画像75内での距離は、例えば、ピクセル単位で表現される。第1距離は、固定値であってもよいし、受付デバイス76等によって受け付けられた指示、及び/又は、各種条件に応じて変更される可変値であってもよい。また、特定被写体は、本開示の技術に係る「第1被写体」の一例であり、周辺被写体は、本開示の技術に係る「第2被写体」の一例である。また、第1距離は、本開示の技術に係る「第1距離」及び「既定距離」の一例である。
 分類部62Cは、被写体認識部62Bから一般被写体認識データ84A及び特定被写体認識データ86Aを取得する。そして、分類部62Cは、特定被写体認識データ86Aを参照して、取得部62Aによって取得された撮像画像75、すなわち、一般被写体用学習済みモデル84及び特定被写体用学習済みモデル86に入力された撮像画像75の面内方向の画像領域75Aに第1距離内エリア100を設定する。第1距離内エリア100は、撮像画像75の面内方向において一般被写体認識データ84Aから特定される特定被写体の特定箇所(例えば、顔の中心)から第1距離内のエリアを指す。撮像画像75の面内方向とは、奥行方向に対して垂直な面内の方向、すなわち、撮像画像75内の位置を特定する2次元座標で規定される2次元平面内の方向を指す。第1距離内エリア100は、本開示の技術に係る「撮像画像の面内方向において第1被写体から第1距離の範囲」の一例である。
 分類部62Cは、一般被写体認識データ84Aを参照して、画像領域75Aに設定した第1距離内エリア100内に一般被写体が存在しているか否か、すなわち、第1距離内エリア100内に一般被写体が写り込んでいるか否かを判定する。第1距離内エリア100内に一般被写体が存在していると判定されたということは、第1距離内エリア100内の一般被写体が選出されたことを意味している。
 一例として図12に示すように、分類部62Cは、第1距離内エリア100内に一般被写体が存在していると判定した場合、第1距離内エリア100内の一般被写体を特定被写体と周辺被写体とに分類する。
 撮像画像75において、特定被写体は、第1仮想枠102によって囲まれている。第1仮想枠102は、いわゆるバウンディングボックスと呼ばれる不可視の矩形枠である。第1仮想枠102は、特定被写体認識データ86Aに含まれる特定被写体位置特定データ86A1に従って分類部62Cによって生成される。分類部62Cは、第1仮想枠102に対して、第1仮想枠102内に特定被写体が存在していることを示す特定被写体識別子106を付加する。
 撮像画像75において、一般被写体は、第2仮想枠104によって囲まれている。第2仮想枠104は、いわゆるバウンディングボックスと呼ばれる不可視の矩形枠である。第2仮想枠104は、一般被写体認識データ84Aに含まれる一般被写体位置特定データ84A1に従って分類部62Cによって生成される。分類部62Cは、第1距離内エリア100内の第2仮想枠104に対して、第2仮想枠104内に周辺被写体が存在していることを示す周辺被写体識別子108を付加する。すなわち、撮像画像75内に存在している全ての一般被写体に対応する全ての第2仮想枠104のうち、第1距離内エリア100内の第2仮想枠104のみに周辺被写体識別子108が付加される。
 このように、分類部62Cは、第1仮想枠102に対して特定被写体識別子106を付加し、かつ、第1距離内エリア100内の第2仮想枠104に対して周辺被写体識別子108を付加することで、第1距離内エリア100内の一般被写体を特定被写体と周辺被写体とに分類する。
 一例として図13に示すように、分類部62Cは、特定被写体識別子106及び第1仮想枠102を参照して第1インディケータ110を生成し、周辺被写体識別子108及び第2仮想枠104を参照して第2インディケータ112を生成する。
 第1インディケータ110は、特定被写体を示す特定被写体画像を特定する。第1インディケータ110は、第1仮想枠102の位置、大きさ、及び形状と同一の表示用の枠であり、ディスプレイ28に対して表示されることで可視化される。第1インディケータ110は、第1仮想枠102が可視化されるように加工されることによって生成される。
 第2インディケータ112は、周辺被写体を示す周辺被写体画像を第1インディケータ110と異なる態様で特定する。第2インディケータ112は、第2仮想枠104の位置、大きさ、及び形状と同一の表示用の枠であり、ディスプレイ28に対して表示されることで可視化される。第2インディケータ112は、第2仮想枠104が可視化されるように加工されることによって生成される。
 図13に示す例では、第1インディケータ110は、実線の枠であり、第2インディケータ112は、破線の枠である。なお、これは、あくまでも一例にし過ぎず、分類部62Cは、第1インディケータ110の色と第2インディケータ112の色を変えること等により第1インディケータ110と第2インディケータ112とを区別可能な態様で生成するようにしてもよい。また、分類部62Cは、第1インディケータ110のコントラストと第2インディケータ112のコントラストとを変えることにより第1インディケータ110と第2インディケータ112とを区別可能な態様で生成するようにしてもよい。
 制御部62Dは、分類部62Cによって生成された第1インディケータ110及び第2インディケータ112を含むデータを個別型インディケータデータ114として分類部62Cから取得する。
 一例として図14に示すように、制御部62Dは、個別型インディケータデータ114に従って、ディスプレイ28に対して、第1インディケータ110及び第2インディケータ112を撮像画像75に重畳させて表示させる。この場合、例えば、制御部62Dは、個別型インディケータデータ114に基づいて表示用データ115を生成し、生成した表示用データ115をディスプレイ28に出力する。表示用データ115は、ディスプレイ28に対して、第1インディケータ110及び第2インディケータ112を表示させるためのデータである。なお、表示用データ115は、本開示の技術に係る「表示用データ」の一例である。また、ここでは、表示用データ99(図7参照)と表示用データ115とが別々に出力される形態例を挙げて説明したが、本開示の技術はこれに限定されず、表示用データ115に表示用データ99が統合されていてもよい。すなわち、表示用データ115は、撮像画像75に対して第1インディケータ110及び第2インディケータ112が重畳された表示用データであってもよい。
 一例として図15に示すように、分類部62Cは、撮像画像75に基づいて検出された複数の一般被写体から、特定被写体と、撮像画像75の面内方向において特定被写体から第2距離の範囲内に存在する周辺被写体とを選出する。ここで、第2距離の一例としては、撮像画像75内での距離が挙げられる。撮像画像75内での距離は、例えば、ピクセル単位で表現される。第2距離は、固定値であってもよいし、受付デバイス76等によって受け付けられた指示、及び/又は、各種条件に応じて変更される可変値であってもよい。また、第2距離は、第1距離よりも短い距離である。但し、これは、あくまでも一例に過ぎず、第2距離は、第1距離以上の距離であってよい。また、第2距離は、本開示の技術に係る「第2距離」及び「既定距離」の一例である。
 分類部62Cは、特定被写体認識データ86Aを参照して、取得部62Aによって取得された撮像画像75、すなわち、一般被写体用学習済みモデル84及び特定被写体用学習済みモデル86に入力された撮像画像75の面内方向の画像領域75Aに第2距離内エリア116を設定する。第2距離内エリア116は、撮像画像75の面内方向において一般被写体認識データ84Aから特定される特定被写体の特定箇所(例えば、顔の中心)から第2距離内のエリアを指す。撮像画像75の面内方向とは、奥行方向に対して垂直な面内の方向、すなわち、撮像画像75内の位置を特定する2次元座標で規定される2次元平面内の方向を指す。第2距離内エリア116は、本開示の技術に係る「撮像画像の面内方向において第2被写体から第2距離の範囲」の一例である。
 分類部62Cは、一般被写体認識データ84Aを参照して、画像領域75Aに設定した第2距離内エリア116内に一般被写体が存在しているか否か、すなわち、第2距離内エリア116内に一般被写体が写り込んでいるか否かを判定する。第2距離内エリア116内に一般被写体が存在していると判定されたということは、第2距離内エリア116内の一般被写体が選出されたことを意味している。
 一例として図16に示すように、分類部62Cは、画像領域75Aに設定した第2距離内エリア116内に一般被写体が存在していると判定された場合、第2距離内エリア116内の一般被写体を対象にして、一般被写体認識データ84Aから一般被写体種類特定データ84A2を抽出することで、第2距離内エリア116内の一般被写体の種類を取得する。また、分類部62Cは、特定被写体認識データ86Aから特定被写体種類特定データ86A2を抽出することで、特定被写体の種類を取得する。
 一例として図17に示すように、分類部62Cは、NVM64内の第1組み合わせ特定テーブル87を参照して、第2距離内エリア116内の特定被写体と一般被写体との組み合わせが第1組み合わせであるか否かを判定する。第1組み合わせ特定テーブル87には、特定被写体の種類と一般被写体の種類との組み合わせが規定されている。第1組み合わせ特定テーブル87に規定されている組み合わせは、本開示の技術に係る「第1組み合わせ」の一例である。図17に示す例では、特定被写体の種類と一般被写体の種類とが同一である場合の組み合わせが示されている。但し、これは、あくまでも一例に過ぎず、他の組み合わせであってもよい。また、第1組み合わせ特定テーブル87によって規定されている組み合わせは、固定されていてもよいし、受付デバイス76等によって受け付けられた指示、及び/又は、各種条件に応じて変更されてもよい。
 分類部62Cは、一般被写体認識データ84Aから抽出した一般被写体種類特定データ84A2によって特定される種類と、特定被写体認識データ86Aから抽出した特定被写体種類特定データ86A2によって特定される種類とが第1組み合わせ特定テーブル87で規定されている組み合わせの何れかと一致しているか否かを判定する。すなわち、分類部62Cは、第2距離内エリア116内において一般被写体の種類と特定被写体の種類との組み合わせが第1組み合わせ特定テーブル64で規定されている組み合わせの何れかと一致しているか否かを判定する。
 分類部62Cは、第2距離内エリア116内において一般被写体の種類と特定被写体の種類との組み合わせが第1組み合わせ特定テーブル64で規定されている組み合わせの何れかと一致していると判定した場合、撮像画像75内の一般被写体を第2距離内被写体と第2距離外被写体とに分類する。第2距離内被写体とは、第2距離内エリア116内に存在する特定被写体及び周辺被写体を指し、第2距離外被写体は、撮像画像75内の全ての一般被写体のうち、第2距離内エリア116内に存在する特定被写体及び周辺被写体以外の一般被写体を指す。
 一例として図18に示すように、分類部62Cは、第2距離内エリア116内の第1仮想枠102及び第2仮想枠104に対して、第1仮想枠102及び第2仮想枠104の各々が第2距離内エリア116内に存在していることを示す第2距離内識別子118を付加する。
 このように、分類部62Cは、第2距離内エリア116内の第1仮想枠102及び第2仮想枠104の各々に対して第2距離内識別子118を付加することで、撮像画像75内の全ての被写体を、第2距離内被写体と第2距離外被写体とに分類する。
 撮像画像75内の全ての被写体が、第2距離内被写体と第2距離外被写体とに分類されると、一例として図19に示すように、分類部62Cは、第1インディケータ110及び第2インディケータ112が存在している場合、第1インディケータ110及び第2インディケータ112を消去する。そして、分類部62Cは、第2距離内識別子118が付加されている第1仮想枠102、第2距離内識別子118が付加されている第2仮想枠104を参照して、第3インディケータ120を生成する。
 第3インディケータ120は、特定被写体の種類と周辺被写体の種類との組み合わせが第1組み合わせ特定テーブル64で規定されており、かつ、第2距離内エリア116内に存在する特定被写体及び周辺被写体を特定するインディケータである。第3インディケータ120は、特定被写体の種類と周辺被写体の種類との組み合わせが第1組み合わせ特定テーブル64で規定されており、かつ、第2距離内エリア116内に存在する特定被写体及び周辺被写体に対応する第1仮想枠102及び第2仮想枠104を取り囲む表示用の枠(図19に示す例では、長方形状の枠)であり、ディスプレイ28に対して表示されることで可視化される。
 制御部62Dは、分類部62Cによって生成された第3インディケータ120を含むデータを一体型インディケータデータ122として分類部62Cから取得する。
 一例として図20に示すように、制御部62Dは、一体型インディケータデータ122に従って、第1インディケータ110及び第2インディケータ112を消去し、かつ、ディスプレイ28に対して、第3インディケータ120を撮像画像75に重畳させて表示させる。この場合、例えば、制御部62Dは、一体型インディケータデータ122に基づいて表示用データ123を生成し、生成した表示用データ123をディスプレイ28に出力する。表示用データ123は、第1インディケータ110及び第2インディケータ112を消去し、ディスプレイ28に対して、第3インディケータ120を表示させるためのデータである。換言すると、表示用データ123は、第1インディケータ110及び第2インディケータ112に代えて第3インディケータ120をディスプレイ28に対して表示させるためのデータである。ここで、表示用データ123は、本開示の技術に係る「表示用データ」及び「第1データ」の一例である。
 一例として図21に示すように、ディスプレイ28に撮像画像75が表示されており、かつ、撮像画像75に第3インディケータ120が重畳されて表示されている状態で、ユーザ等が特定被写体の変更を望む場合、ユーザ等によってタッチパネル30を介して特定被写体候補124が選択される。すなわち、第3インディケータ120内に存在する何れかの周辺被写体が特定被写体候補124としてタッチパネル30を介してユーザ等によって選択される。このように、特定被写体候補124が選択されると、被写体認識部62Bは、特定被写体候補124が選択された時点でディスプレイ28に表示されている撮像画像75から特定被写体候補124を抽出し、抽出した特定被写体候補124がRAM66に記憶(上書き保存)される。なお、必ずしも第3インディケータ120が重畳されて表示されている状態で特定被写体候補124が選択される必要はなく、図14に示すように第1インディケータ110及び第2インディケータ112を撮像画像75に重畳されて表示されている状態で、いずれかの第2インディケータ112がユーザ等によって選択されることに基づき特定被写体候補124が選択されてもよい。また、特定被写体候補124は、特定被写体から第2距離の範囲外に存在する被写体から選択されてもよい。
 一例として図22に示すように、特定被写体候補124が選択されてRAM66に記憶された後、画像メモリ46に新たな撮像画像75が記憶されると、取得部62Aによって画像メモリ46から最新の撮像画像75が取得される。制御部62Dは、取得部62Aによって取得された最新の撮像画像75を表示するための表示用データ99を生成し、生成した表示用データ99をディスプレイ28に出力する。これにより、ディスプレイ28に表示される撮像画像75が、最新の撮像画像75に更新される。
 一例として図23に示すように、被写体認識部62Bは、取得部62Aによって取得された撮像画像75、すなわち、ディスプレイ28に表示される撮像画像75を一般被写体用学習済みモデル84に入力することで、一般被写体用学習済みモデル84から出力された一般被写体認識データ84Aを取得する。被写体認識部62Bは、取得した一般被写体認識データ84Aから、一般被写体用学習済みモデル84に入力された撮像画像75に複数の一般被写体が存在するか否かを判定する。
 被写体認識部62Bは、一般被写体用学習済みモデル84に入力された撮像画像75に複数の一般被写体が存在する場合、一般被写体用学習済みモデル84に入力された撮像画像75に対して、特定被写体候補124をテンプレートとして用いたテンプレートマッチング方式の被写体認識処理を実行する。
 被写体認識部62Bは、テンプレートマッチング方式の被写体認識処理を実行することで、撮像画像75内に特定被写体候補124が存在しているか否かを判定する。ここで、被写体認識部62Bは、撮像画像75内に特定被写体候補124が存在していると判定した場合、特定被写体候補124を新たな特定被写体に設定し、その後、分類部62Cが上述した処理(図11~図13等を参照)を行う。
 次に、撮像装置10の作用について図24A及び図24Bを参照しながら説明する。
 図24A及び図24Bには、撮像装置10のCPU62によって行われる撮像支援処理の流れの一例が示されている。なお、図24A及び図24Bに示す撮像支援処理の流れは、本開示の技術に係る「撮像支援方法」の一例である。
 図24Aに示す撮像支援処理では、先ず、ステップST100で、取得部62Aは、画像メモリ46に撮像画像75が記憶されたか否かを判定する。ステップST100において、画像メモリ46に撮像画像75が記憶されていない場合は、判定が否定されて、撮像支援処理は、図24Bに示すステップST144へ移行する。ステップST100において、画像メモリ46に撮像画像75が記憶された場合は、判定が肯定されて、撮像支援処理はステップST102へ移行する。
 ステップST102で、取得部62Aは、画像メモリ46から撮像画像75を取得する。ステップST102の処理が実行された後、撮像支援処理はステップST104へ移行する。
 ステップST104で、制御部62Dは、ステップST102で取得された撮像画像75をディスプレイ28に対して表示させる。ステップST104の処理が実行された後、撮像支援処理はステップST106へ移行する。
 ステップST106で、被写体認識部62Bは、ステップST102で取得された撮像画像75に基づいて、一般被写体用学習済みモデル84及び特定被写体用学習済みモデル86を用いた被写体認識処理を実行する。ステップST106の処理が実行された後、撮像支援処理はステップST108へ移行する。
 ステップST108で、被写体認識部62Bは、ステップST106の処理を実行することで一般被写体用学習済みモデル84から出力された一般被写体認識データ84A、及びステップST106の処理を実行することで特定被写体用学習済みモデル86から出力された特定被写体認識データ86Aを取得する。ステップST108の処理が実行された後、撮像支援処理はステップST110へ移行する。
 ステップST110で、被写体認識部62Bは、ステップST108で取得した一般被写体認識データ84Aを参照して、撮像画像75内に複数の一般被写体が写り込んでいるか否かを判定する。ステップST110において、撮像画像75内に複数の一般被写体が写り込んでいない場合は、判定が否定されて、撮像支援処理は、図24Bに示すステップST144へ移行する。ステップST110において、撮像画像75内に複数の一般被写体が写り込んでいる場合は、判定が肯定されて、撮像支援処理はステップST112へ移行する。
 ステップST112で、被写体認識部62Bは、1フレーム前に特定被写体候補124が選択されたか否かを判定する(図24Bに示すステップST136参照)。ステップST112において、1フレーム前に特定被写体候補124が選択されていない場合は、判定が否定されて、撮像支援処理はステップST114へ移行する。ステップST112において、1フレーム前に特定被写体候補124が選択された場合は、判定が肯定されて、撮像支援処理はステップST116へ移行する。
 ステップST114で、被写体認識部62Bは、ステップST108で取得した特定被写体認識データ86Aを参照して、撮像画像75内に写り込んでいると判定された複数の一般被写体に特定被写体が存在しているか否かを判定する。ステップST114において、撮像画像75内に写り込んでいると判定された複数の一般被写体に特定被写体が存在していない場合は、判定が否定されて、撮像支援処理は、図24Bに示すステップST144へ移行する。ステップST114において、撮像画像75内に写り込んでいると判定された複数の一般被写体に特定被写体が存在している場合は、判定が肯定されて、ステップST122へ移行する。
 ステップST116で、被写体認識部62Bは、撮像画像75に対して、1フレーム前に選択された特定被写体候補124を用いたテンプレートマッチング方式での被写体認識処理を実行する。ステップST116の処理が実行された後、撮像支援処理はステップST118へ移行する。
 ステップST118で、被写体認識部62Bは、ステップST116で実行した被写体認識処理の結果を参照して、撮像画像75内に特定被写体候補124が写り込んでいるか否かを判定する。ステップST118において、撮像画像75内に特定被写体候補124が写り込んでいない場合は、判定が否定されて、撮像支援処理はステップST122へ移行する。ステップST118において、撮像画像75内に特定被写体候補124が写り込んでいる場合は、判定が肯定されて、撮像支援処理はステップST120へ移行する。
 ステップST120で、被写体認識部62Bは、特定被写体候補124を新たな特定被写体に設定する。ステップST120の処理が実行された後、撮像支援処理はステップST122へ移行する。
 ステップST122で、分類部62Cは、特定被写体から第1距離内に一般被写体が存在しているか否かを判定する。ステップST122において、特定被写体から第1距離内に一般被写体が存在していない場合は、判定が否定されて、撮像支援処理は、図24Bに示すステップST144へ移行する。ステップST122において、特定被写体から第1距離内に一般被写体が存在している場合は、判定が肯定されて、撮像支援処理はステップST124へ移行する。
 ステップST124で、分類部62Cは、第1距離内の一般被写体を特定被写体と周辺被写体とに分類する。ステップST124の処理が実行された後、撮像支援処理はステップST126へ移行する。
 ステップST126で、制御部62Dは、特定被写体を特定する第1インディケータ110、及び周辺被写体を特定する第2インディケータ112をディスプレイ28に対して表示させる。ステップST126の処理が実行された後、撮像支援処理は、図24Bに示すステップST128へ移行する。
 図24Bに示すステップST128で、分類部62Cは、特定被写体から第2距離内に一般被写体が存在しているか否かを判定する。ステップST128において、特定被写体から第2距離内に一般被写体が存在していない場合は、判定が否定されて、撮像支援処理は、ステップST144へ移行する。ステップST128において、特定被写体から第2距離内に一般被写体が存在している場合は、判定が肯定されて、撮像支援処理はステップST130へ移行する。
 ステップST130で、分類部62Cは、特定被写体の種類と周辺被写体の種類との組み合わせが第1組み合わせテーブル87で規定されている第1組み合わせであるか否かを判定する。ステップST130において、特定被写体の種類と周辺被写体の種類との組み合わせが第1組み合わせテーブル87で規定されている第1組み合わせでない場合は、判定が否定されて、撮像支援処理はステップST144へ移行する。ステップST130において、特定被写体の種類と周辺被写体の種類との組み合わせが第1組み合わせテーブル87で規定されている第1組み合わせの場合は、判定が肯定されて、撮像支援処理はステップST132へ移行する。
 ステップST132で、制御部62Dは、第1インディケータ110及び第2インディケータ112を消去する。ステップST132の処理が実行された後、撮像支援処理はステップST134へ移行する。
 ステップST134で、制御部62Dは、ディスプレイ28に対して、第3インディケータ120を表示させる。ステップST134の処理が実行された後、撮像支援処理はステップST136へ移行する。
 ステップST136で、被写体認識部62Bは、タッチパネル30を介して特定被写体候補124が選択されたか否かを判定する。ステップST136において、タッチパネル30を介して特定被写体候補124が選択されていない場合は、判定が否定されて、撮像支援処理はステップST144へ移行する。ステップST136において、タッチパネル30を介して特定被写体候補124が選択された場合は、判定が肯定されて、撮像支援処理はステップST138へ移行する。
 ステップST138で、被写体認識部62Bは、ステップST104で取得された撮像画像75から特定被写体候補124を抽出する。ステップST138の処理が実行された後、撮像支援処理はステップST144へ移行する。
 ステップST144で、被写体認識部62Bは、撮像支援処理を終了する条件(以下、「撮像支援処理終了条件」とも称する)を満足したか否かを判定する。撮像支援処理終了条件の一例としては、撮像装置10に対して設定されている撮像モードが解除された、との条件、又は、撮像支援処理を終了させる指示が受付デバイス76によって受け付けられた、との条件等が挙げられる。ステップST144において、撮像支援処理終了条件を満足していない場合は、判定が否定されて、撮像支援処理はステップST140へ移行する。
 ステップST140で、制御部62Dは、ディスプレイ28にインディケータが表示されているか否かを判定する。ステップST140において、ディスプレイ28にインディケータ(例えば、第1インディケータ110及び第2インディケータ112、又は、第3インディケータ120)が表示されていない場合は、判定が否定されて、撮像支援処理は、図24Aに示すステップST100へ移行する。ステップST140において、ディスプレイ28にインディケータが表示されている場合は、判定が肯定されて、撮像支援処理はステップST142へ移行する。
 ステップST142で、制御部62Dは、ディスプレイ28に表示されているインディケータを消去する。ステップST142の処理が実行された後、撮像支援処理は、図24Aに示すステップST100へ移行する。
 ステップST144において、撮像支援処理終了条件を満足した場合は、判定が肯定されて、撮像支援処理が終了する。
 以上説明したように、撮像装置10では、撮像画像75に基づいて複数の一般被写体が検出され、検出された複数の一般被写体から、特定被写体と、撮像画像75の面内方向において特定被写体から第1距離の範囲内に存在する周辺被写体とが選出される。そして、撮像装置10では、ディスプレイ28に対して、表示用データ99及び115が出力される。表示用データ99は、ディスプレイ28に対して撮像画像75を表示させるためのデータであり、表示用データ115は、ディスプレイ28に対して、第1インディケータ110及び第2インディケータ112を表示させるためのデータである。第1インディケータ110は、特定被写体を特定するインディケータであり、第2インディケータ112は、周辺被写体を特定するインディケータである。従って、本構成によれば、複数の一般被写体が密集していたとしても、撮像画像75の面内方向において特定被写体から第1距離の範囲内に存在する特定被写体と周辺被写体とを区別することができる。
 また、撮像装置10では、ディスプレイ28に対して、表示用データ123が出力される。表示用データ123は、ディスプレイ28から第1インディケータ110及び第2インディケータ112に代えて第3インディケータ120を表示させるためのデータである。これにより、ディスプレイ28には、第1インディケータ110及び第2インディケータ112に代えて第3インディケータ120が表示される。第3インディケータ120は、第2距離内の特定被写体及び周辺被写体を1つのオブジェクトとして特定するインディケータである。従って、本構成によれば、複数の一般被写体のうち、特定被写体の候補とされている周辺被写体とそれ以外の一般被写体とを区別することができる。
 また、撮像装置10では、一般被写体用学習済みモデル84に従って複数の一般被写体が検出される。従って、本構成によれば、テンプレートマッチング方式の被写体認識処理によって複数の一般被写体が検出される場合に比べ、複数の一般被写体を精度良く検出することができる。
 また、第3インディケータ120は、特定被写体の種類と周辺被写体の種類との組み合わせが第1組み合わせ特定テーブル87で規定されている第1組み合わせであり、かつ、特定被写体から第2距離内に存在する特定被写体及び周辺被写体を特定するインディケータである。従って、本構成によれば、特定被写体の種類と周辺被写体の種類との組み合わせとは無関係に第2距離内の特定被写体及び周辺被写体をインディケータで特定する場合に比べ、複数の一般被写体のうち、ユーザ等が意図しない種類の組み合わせの特定被写体及び周辺被写体と、その他の被写体とが区別されることを抑制することができる。
 また、撮像装置10では、周辺被写体を選出する基準とは異なる基準に従って特定被写体が選出される。すなわち、特定被写体は、特定被写体用学習済みモデル86に従って選出される。従って、本構成によれば、周辺被写体も特定被写体と同じ基準に従って、すなわち、特定被写体用学習済みモデル86に従って選出される場合に比べ、ユーザ等が意図する被写体を特定被写体として特定し易くすることができる。
 また、撮像装置10では、受付デバイス76によって受け付けられ指示に従って得られた選択被写体に基づいて教師データ88が生成され、教師データ88を利用した機械学習が行われることによって得られた特定被写体用学習済みモデル86に従って特定被写体が選出される。従って、本構成によれば、受付デバイス76によって受け付けられた指示とは無関係に定められた基準に基づいて選出された被写体が特定被写体として特定される場合に比べ、ユーザ等が意図する被写体を特定被写体として特定し易くすることができる。
 また、撮像装置10では、第1距離内エリア100を規定している第1距離として撮像画像75内の距離が用いられている。従って、本構成によれば、実空間の被写体間の距離を測定する場合に比べ、撮像画像75の面内方向に存在する周辺被写体を容易に選出することができる。
 また、撮像装置10では、選択被写体位置特定データ90Aが教師データ88の一部として用いられている。従って、本構成によれば、ユーザ等の勘のみで特定被写体が特定される場合に比べ、複数の一般被写体のうち、撮像画像75内で頻繁に画像が指定される位置の傾向に則した一般被写体を精度良く特定被写体として特定することができる。
 なお、上記実施形態では、特定被写体の種類と周辺被写体の種類との組み合わせが第1組み合わせテーブル87で規定されている第1組み合わせであり、かつ、第2距離内に存在する特定被写体と周辺被写体とを特定するインディケータとして第3インディケータ120を例示したが、本開示の技術はこれに限定されない。例えば、特定被写体の種類と周辺被写体の種類との組み合わせが第1組み合わせとは異なる第2組み合わせであり、かつ、第2距離よりも短い第3距離内に存在する特定被写体及び周辺被写体を特定する第4インディケータ128(図25参照)がディスプレイ28に表示されるようにしてもよい。また、第3距離は、本開示の技術に係る「第3距離」及び「既定距離」の一例である。
 この場合、一例として図25に示すように、CPU62は、第2組み合わせ特定テーブル126を参照して、特定被写体の種類と周辺被写体の種類との組み合わせを特定する。第2組み合わせ特定テーブル126は、第1組み合わせ特定テーブル87とは異なる組み合わせが規定されているテーブルである。上記実施形態では、第1組み合わせ特定テーブル87の一例として、同種類の被写体の組み合わせを示したが、第2組み合わせ特定テーブル126では、特定被写体の種類と周辺被写体の種類とが異なっている。
 図25に示す例では、撮像画像75内において、第1インディケータ110で囲まれている特定被写体として人物が示されており、第2インディケータ112で囲まれている周辺被写体として犬が示されている。特定被写体としての人物と周辺被写体としての犬は、第2組み合わせ特定テーブル126で規定されている組み合わせである。
 CPU62は、撮像画像75内において、周辺被写体としての犬が特定被写体としての人物から第3距離外に存在している状態から、周辺被写体としての犬が特定被写体としての人物から第3距離内に存在している状態に遷移すると、第1インディケータ110及び第2インディケータ112を消去し、第4インディケータ128を生成する。そして、CPU62は、ディスプレイ28に対して、撮像画像75を表示させ、かつ、撮像画像75に対して第4インディケータ128を重畳表示させる。すなわち、CPU62は、第1インディケータ110及び第2インディケータ112に代えて、第4インディケータ128をディスプレイ28に対して表示させるための表示用データ130を生成する。表示用データ130は、本開示の技術に係る「表示用データ」及び「第2データ」の一例である。CPU62は、生成した表示用データ130をディスプレイ28に出力する。第4インディケータ128は、第2距離よりも短い第3距離内に存在する特定被写体としての人物と周辺被写体としての犬とを1つのオブジェクトとして特定するインディケータ(図25に示す例では、長方形状の枠)である。なお、第2組み合わせ特定テーブル126は、第1組み合わせテーブル87で規定されている組み合わせと異なる組み合わせが規定されているテーブルであればよく、固定の組み合わせであってもよいし、受付デバイス76によって受け付けられた指示に従って変更される組み合わせであってもよい。
 本構成によれば、特定被写体の種類と周辺被写体の種類との組み合わせとは無関係に第2距離よりも短い第3距離内の特定被写体及び周辺被写体をインディケータで特定する場合に比べ、複数の一般被写体のうち、ユーザ等が意図しない種類の組み合わせの特定被写体及び周辺被写体と、その他の被写体とが区別されることを抑制することができる。また、CPU62は、第4インディケータ128をディスプレイ28に対して表示させる場合、ディスプレイ28から第1インディケータ110及び第2インディケータ112を消去するので、インディケータの増加に起因して撮像画像75の視認性が悪化することを回避することができる。
 また、上記実施形態では、第1インディケータ110、第2インディケータ112、第3インディケータ120、及び第4インディケータ128を選択的にディスプレイ28に表示させる形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、CPU62は、第1インディケータ110、第2インディケータ112、及び第3インディケータ120を表示させながら、又は、第1インディケータ110、第2インディケータ112、及び第3インディケータ120を表示させずに、第1インディケータ110、第2インディケータ112、及び第3インディケータ120の少なくとも一部に対応する領域を用いて、撮像装置10によって行われる撮像に関連する制御のための制御用データを出力するようにしてもよい。
 この場合、例えば、図26に示すように、制御部62Dは、第2距離内被写体としての特定被写体(第1仮想枠102によって囲まれている領域)に対応する領域に対して、撮像に関連する制御を行う。撮像に関連する制御としては、例えば、AF制御、露出制御、及びホワイトバランス制御が挙げられる。
 図26に示す例では、第2距離内被写体としての特定被写体に対応する領域に対して、撮像に関連する制御が行われるが、これに限らず、例えば、図27に示すように、第2距離内被写体としての周辺被写体(第2仮想枠104によって囲まれる領域)に対応する領域に対して、撮像に関連する制御を行うようにしてもよい。
 また、例えば、図28に示すように、第3インディケータ120の全体に対応する領域に対して、撮像に関連する制御が行われるようにしてもよい。また、第3インディケータ120に代えて、第4インディケータ128(図25参照)の少なくとも一部に対応する領域に対して、撮像に関連する制御が行われるようにしてもよい。
 これらの構成によれば、インディケータが位置する箇所とは異なる箇所に対して撮像に関連する制御が行われる場合に比べ、ユーザ等が意図しない領域に対して撮像に関連する制御が行われることを抑制することができる。
 なお、第1インディケータ110に対応する領域は、本開示の技術に係る「第1被写体に対応する第1領域」の一例である。また、第2インディケータ112に対応する領域は、本開示の技術に係る「第2被写体に対応する第2領域」の一例である。また、第3インディケータ120及び第4インディケータ128は、本開示の技術に係る「オブジェクトインディケータ」である。また、第3インディケータ120に対応する領域及び第4インディケータ128に対応する領域は、本開示の技術に係る「第1被写体及び第2被写体に対応する第3領域」の一例である。
 また、一例として図29に示すように、第2距離内被写体としての特定被写体(第1仮想枠102によって囲まれている領域)に対応する領域、及び第2距離内被写体としての周辺被写体(第2仮想枠104によって囲まれる領域)に対応する領域に対して露出制御を行う場合、制御部62Dは、画像領域75A内の特定被写体を示す特定被写体画像領域内の輝度、及び、画像領域75A内の周辺被写体を示す周辺被写体画像領域内の輝度に基づいて露出制御を行うようにするとよい。この場合、特定被写体画像領域内の輝度、又は周辺被写体画像領域内の輝度のみを用いて露出制御が行われる場合に比べ、特定被写体及び周辺被写体が撮像される場合において特定被写体と周辺被写体との間に明るさの差に起因して特定被写体又は周辺被写体の露出過多又は露出過少が生じることを抑制することができる。なお、ここで、輝度は、本開示の技術に係る「明るさ」の一例である。
 また、一例として図29に示すように、第2距離内被写体としての特定被写体(第1仮想枠102によって囲まれている領域)に対応する領域、及び第2距離内被写体としての周辺被写体(第2仮想枠104によって囲まれる領域)に対応する領域に対してホワイトバランス制御を行う場合、制御部62Dは、画像領域75A内の特定被写体を示す特定被写体画像領域内の色(例えば、色信号)、及び、画像領域75A内の周辺被写体を示す周辺被写体画像領域内の色(例えば、色信号)に基づいてホワイトバランス制御を行うようにするとよい。この場合、特定被写体画像領域内の色、又は周辺被写体画像領域内の色のみを用いてホワイトバランス制御が行われる場合に比べ、特定被写体及び周辺被写体が撮像される場合において特定被写体と周辺被写体との間に明るさの差に起因して特定被写体又は周辺被写体のホワイトバランスに偏りが生じることを抑制することができる。
 上記実施形態では、教師データ88に含まれる選択被写体データ90として、選択被写体位置特定データ90A及び選択被写体種類特定データ90Bを含むデータを例示したが、本開示の技術はこれに限定されず、選択被写体位置特定データ90A及び選択被写体種類特定データ90Bのうちの一方又は両方が無くても本開示の技術は成立する。この場合、例えば、図30に示すように、撮像画像75に対応付けるデータとして、選択被写体位置特定データ90A及び選択被写体種類特定データ90Bのうちの少なくとも一方と共に、又は、選択被写体位置特定データ90A及び選択被写体種類特定データ90Bに代えて、被写体態様データ90C、被写界深度データ90D、距離データ90E、位置関係データ90F、及び占有率パラメータ90Gのうちの少なくとも1つを用いてもよい。すなわち、被写体の態様、被写界深度、距離、位置関係、及び/又は、占有率等についてのユーザによる選択の傾向を教師データ88として学習用のモデルに機械学習させるようにしてもよい。
 被写体態様データ90Cは、被写体の態様を特定可能なデータである。被写体の態様とは、例えば、人物の表情、帽子を被っているか否か、着衣の色、肌の色、目の色、及び/又は毛髪の色等を指す。本構成によれば、被写体の態様を考慮することなく定められた基準に基づいて特定被写体が特定される場合に比べ、ユーザ等が意図する被写体を特定被写体として特定し易くすることができる。
 被写界深度データ90Dは、撮像画像75に関する撮像で用いられた被写界深度を特定可能なデータである。本構成によれば、被写界深度を考慮することなく定められた基準に基づいて特定被写体が特定される場合に比べ、ユーザ等が意図する被写体を特定被写体として特定し易くすることができる。
 距離データ90Eは、撮像装置10から被写体までの距離(例えば、撮影距離、ワーキングディスタンス、及び/又は被写体距離)である。本構成によれば、撮像装置10から被写体までの距離を考慮することなく定められた基準に基づいて特定被写体が特定される場合に比べ、ユーザ等が意図する被写体を特定被写体として特定し易くすることができる。
 位置関係データ90Fは、選択被写体と残りの被写体との位置関係を特定可能なデータである。選択被写体と残りの被写体との位置関係を特定可能なデータとは、例えば、選択被写体を含めた集合写真を撮る場合において、選択被写体が最前列の中央に位置していることを特定可能なデータを指す。本構成によれば、ユーザ等の勘のみで特定被写体が特定される場合に比べ、特定被写体を高精度に特定することができる。
 占有率パラメータ90Gは、本開示の技術に係る「撮像画像から特定されるパラメータ」の一例である。占有率パラメータ90Gは、撮像画像75内での選択被写体が占める割合(例えば、選択被写体を示す画像が占める割合)である。図30に示す例では、占有率パラメータ90Gとして、25%が例示されている。本構成によれば、ユーザ等の勘のみで特定被写体が特定される場合に比べ、複数の一般被写体のうち、撮像画像75内で頻繁に指定される画像が撮像画像75内で占める割合の傾向に則した一般被写体を精度良く特定被写体として特定することができる。
 また、上記実施形態では、周辺被写体を特定するインディケータとして第2インディケータ112を例示したが、本開示の技術はこれに限定されない。例えば、図31に示すように、第2インディケータ112に代えて、又は、第2インディケータ112と共に、周辺被写体を特定する数字が周辺特定被写体と関連付けられた状態でディスプレイ28に表示されるようにしてもよい。また、数字に代えて、又は、数字と共に、記号が周辺特定被写体と関連付けられた状態でディスプレイ28に表示されるようにしてもよい。この場合、数字及び/又は記号は、音声認識機能によって認識された音声によって指定されるようにしてもよいし、ソフトキー又はハードキー等が操作されることによって指定されるようにしてもよい。本構成によれば、ユーザ等が数字及び/又は記号を用いて、ユーザ等が意図する周辺被写体を指定することができる。
 また、上記実施形態では、本開示の技術に係る「画像処理装置」の一例として、撮像装置10に内蔵されているコントローラ12を挙げて説明したが、これは、あくまでも一例に過ぎない。例えば、図32に示すように、撮像システム200によっても本開示の技術は成立する。図32に示す例において、撮像システム200は、撮像装置10と、本開示の技術に係る「画像処理装置」の一例である撮像支援装置202と、を備えている。撮像装置本体16は、ネットワーク204を介して撮像支援装置202に接続されている。撮像支援装置202は、上記実施形態で説明した撮像支援処理の少なくとも一部の機能を有している。
 ネットワーク204は、例えば、インターネットである。ネットワーク204は、インターネットに限らず、WAN、及び/又は、イントラネット等のLAN等であってもよい。撮像支援装置202は、撮像装置10からの要求に応じたサービスを撮像装置10に対して提供するサーバである。なお、サーバは、オンプレミスで撮像装置10と共に用いられるメインフレームであってもよいし、クラウドコンピューティングによって実現される外部サーバであってもよい。また、サーバは、フォグコンピューティング、エッジコンピューティング、又はグリッドコンピューティング等のネットワークコンピューティングによって実現される外部サーバであってもよい。ここでは、撮像支援装置202の一例として、サーバを挙げているが、これは、あくまでも一例に過ぎず、サーバに代えて、少なくとも1台のパーソナル・コンピュータ等を撮像支援装置202として用いてもよい。
 また、上記実施形態では、CPU62を例示したが、CPU62に代えて、又は、CPU62と共に、他の少なくとも1つのCPU、少なくとも1つのGPU、及び/又は、少なくとも1つのTPUを用いるようにしてもよい。
 上記実施形態では、NVM64に撮像支援処理プログラム80が記憶されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、撮像支援処理プログラム80がSSD又はUSBメモリなどの可搬型の非一時的記憶媒体に記憶されていてもよい。非一時的記憶媒体に記憶されている撮像支援処理プログラム80は、撮像装置10のコントローラ12にインストールされる。CPU62は、撮像支援処理プログラム80に従って撮像支援処理を実行する。
 また、ネットワークを介して撮像装置10に接続される他のコンピュータ又はサーバ装置等の記憶装置に撮像支援処理プログラム80を記憶させておき、撮像装置10の要求に応じて撮像支援処理プログラム80がダウンロードされ、コントローラ12にインストールされるようにしてもよい。
 なお、撮像装置10に接続される他のコンピュータ又はサーバ装置等の記憶装置、又はNVM64に撮像支援処理プログラム80の全てを記憶させておく必要はなく、撮像支援処理プログラム80の一部を記憶させておいてもよい。
 また、図1及び図2に示す撮像装置10にはコントローラ12が内蔵されているが、本開示の技術はこれに限定されず、例えば、コントローラ12が撮像装置10の外部に設けられるようにしてもよい(例えば、図32参照)。
 上記実施形態では、コントローラ12が例示されているが、本開示の技術はこれに限定されず、コントローラ12に代えて、ASIC、FPGA、及び/又はPLDを含むデバイスを適用してもよい。また、コントローラ12に代えて、ハードウェア構成及びソフトウェア構成の組み合わせを用いてもよい。
 上記実施形態で説明した撮像支援処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、撮像支援処理を実行するハードウェア資源として機能する汎用的なプロセッサであるCPUが挙げられる。また、プロセッサとしては、例えば、FPGA、PLD、又はASICなどの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで撮像支援処理を実行する。
 撮像支援処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、又はCPUとFPGAとの組み合わせ)で構成されてもよい。また、撮像支援処理を実行するハードウェア資源は1つのプロセッサであってもよい。
 1つのプロセッサで構成する例としては、第1に、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが、撮像支援処理を実行するハードウェア資源として機能する形態がある。第2に、SoCなどに代表されるように、撮像支援処理を実行する複数のハードウェア資源を含むシステム全体の機能を1つのICチップで実現するプロセッサを使用する形態がある。このように、撮像支援処理は、ハードウェア資源として、上記各種のプロセッサの1つ以上を用いて実現される。
 更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記の撮像支援処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。
 以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。
 本明細書において、「A及び/又はB」は、「A及びBのうちの少なくとも1つ」と同義である。つまり、「A及び/又はB」は、Aだけであってもよいし、Bだけであってもよいし、A及びBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「及び/又は」で結び付けて表現する場合も、「A及び/又はB」と同様の考え方が適用される。
 本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims (24)

  1.  プロセッサと、
     前記プロセッサに接続又は内蔵されたメモリと、を備え、
     前記プロセッサは、
     撮像装置により撮像されることで得られた撮像画像に基づいて複数の被写体を検出し、
     前記複数の被写体から、第1被写体と、前記撮像画像の面内方向において前記第1被写体から第1距離の範囲内に存在する第2被写体とを選出し、
     ディスプレイに対して、前記撮像画像と、前記第1被写体を示す第1被写体画像を特定する第1インディケータと、前記第2被写体を示す第2被写体画像を前記第1インディケータとは異なる態様で特定する第2インディケータと、を表示させるための表示用データを出力する
     画像処理装置。
  2.  前記表示用データは、前記面内方向において第2距離内に存在する前記第1被写体及び前記第2被写体を特定する第3インディケータを前記ディスプレイに対して表示させるための第1データを含む
     請求項1に記載の画像処理装置。
  3.  前記第1データは、前記第3インディケータを前記ディスプレイに対して表示させる場合に前記ディスプレイから前記第1インディケータ及び前記第2インディケータを消去するためのデータを含む
     請求項2に記載の画像処理装置。
  4.  前記表示用データは、前記面内方向において第2距離内に存在する前記第1被写体及び前記第2被写体を特定する第3インディケータを前記第1インディケータ及び前記第2インディケータに代えて前記ディスプレイに対して表示させるためのデータを含む
     請求項1に記載の画像処理装置。
  5.  前記プロセッサは、前記撮像画像に基づいて前記複数の被写体の各々の種類を取得し、
     前記第3インディケータは、前記第1被写体の種類と前記第2被写体の種類との組み合わせが第1組み合わせであり、かつ、前記第2距離内に存在する前記第1被写体及び前記第2被写体を特定するインディケータである
     請求項2から請求項4の何れか一項に記載の画像処理装置。
  6.  前記表示用データは、前記第1被写体の種類と前記第2被写体の種類との組み合わせが前記第1組み合わせとは異なる第2組み合わせであり、かつ、前記第2距離よりも短い第3距離内に存在する前記第1被写体及び前記第2被写体を特定する第4インディケータを前記ディスプレイに対して表示させるための第2データを含む
     請求項2から請求項5の何れか一項に記載の画像処理装置。
  7.  前記第2データは、前記第4インディケータを前記ディスプレイに対して表示させる場合、前記ディスプレイから前記第1インディケータ及び前記第2インディケータを消去するためのデータを含む
     請求項6に記載の画像処理装置。
  8.  前記プロセッサは、既定距離内に存在する前記第1被写体及び前記第2被写体を1つのオブジェクトとして特定するオブジェクトインディケータを前記ディスプレイに対して表示させる場合、前記オブジェクトインディケータから特定される前記オブジェクトの少なくとも一部に対応する領域を用いて、前記撮像装置によって行われる撮像に関連する制御のための制御用データを出力する
     請求項1から請求項7の何れか一項に記載の画像処理装置。
  9.  前記オブジェクトの少なくとも一部に対応する領域は、前記第1被写体に対応する第1領域、前記第2被写体に対応する第2領域、並びに、前記第1被写体及び前記第2被写体に対応する第3領域のうちの少なくとも1つである
     請求項8に記載の画像処理装置。
  10.  前記撮像に関連する制御は、露出制御、フォーカス制御、及びホワイトバランス制御のうちの少なくとも1つを含む請求項8又は請求項9に記載の画像処理装置。
  11.  前記オブジェクトの少なくとも一部に対応する領域は、前記第1被写体に対応する第1領域、及び前記第2被写体に対応する第2領域であり、
     前記プロセッサは、前記第1被写体に対応する第1領域の明るさ、及び前記第2被写体に対応する第2領域の明るさに基づいて、前記露出制御を行う
     請求項10に記載の画像処理装置。
  12.  前記オブジェクトの少なくとも一部に対応する領域は、前記第1被写体に対応する第1領域、及び前記第2被写体に対応する第2領域であり、
     前記プロセッサは、前記第1被写体に対応する第1領域の色、及び前記第2被写体に対応する第2領域の色に基づいて、前記ホワイトバランス制御を行う
     請求項10又は請求項11に記載の画像処理装置。
  13.  前記プロセッサは、前記複数の被写体を第1基準に従って検出する
     請求項1から請求項12の何れか一項に記載の画像処理装置。
  14.  前記プロセッサは、前記第2被写体を検出する基準とは異なる第2基準に基づいて前記第1被写体を検出する
     請求項1から請求項13の何れか一項に記載の画像処理装置。
  15.  前記第2基準は、前記撮像装置からの距離、被写界深度、及び被写体の態様のうちの少なくとも1つに基づいて定められた基準である
     請求項14に記載の画像処理装置。
  16.  前記第2基準は、受付デバイスによって受け付けられた指示に基づいて定められた基準である
     請求項14又は請求項15に記載の画像処理装置。
  17.  前記プロセッサは、前記撮像画像から特定されるパラメータ、前記複数の被写体のうちの受付デバイスによって受け付けられた指示に従って選択された選択被写体と残りの被写体との位置関係、及び前記選択被写体の態様のうちの少なくとも1つを含む情報を教師データとした機械学習が行われることで得られた学習済みモデルを用いて前記第1被写体を特定する
     請求項1から請求項16の何れか一項に記載の画像処理装置。
  18.  前記撮像画像には、前記複数の被写体のうちの指定された被写体を示す第1指定被写体画像が含まれており、
     前記パラメータは、前記撮像画像内での前記第1指定被写体画像の相対的な位置を含む
     請求項17に記載の画像処理装置。
  19.  前記撮像画像には、前記複数の被写体のうちの指定された被写体を示す第2指定被写体画像が含まれており、
     前記パラメータは、前記撮像画像内での前記第2指定被写体画像が占める割合に基づく値を含む
     請求項17又は請求項18に記載の画像処理装置。
  20.  前記第2インディケータは、前記第2被写体画像を特定する数字及び記号のうちの少なくとも一方を含む
     請求項1から請求項19の何れか一項に記載の画像処理装置。
  21.  前記第1距離は、前記撮像画像内での距離である
     請求項1から請求項20の何れか一項に記載の画像処理装置。
  22.  プロセッサと、
     前記プロセッサに接続又は内蔵されたメモリと、
     イメージセンサと、を備え、
     前記プロセッサは、
     前記イメージセンサにより撮像されることで得られた撮像画像に基づいて複数の被写体を検出し、
     前記複数の被写体から、第1被写体と、前記撮像画像の面内方向において前記第1被写体から第1距離の範囲内に存在する第2被写体とを選定し、
     ディスプレイに対して、前記撮像画像と、前記第1被写体を示す第1被写体画像を特定する第1インディケータと、前記第2被写体を示す第2被写体画像を前記第1インディケータとは異なる態様で特定する第2インディケータと、を表示させる
     撮像装置。
  23.  撮像装置により撮像されることで得られた撮像画像に基づいて複数の被写体を検出すること、
     前記複数の被写体から、第1被写体と、前記撮像画像の面内方向において前記第1被写体から第1距離の範囲内に存在する第2被写体とを選定すること、及び、
     ディスプレイに対して、前記撮像画像と、前記第1被写体を示す第1被写体画像を特定する第1インディケータと、前記第2被写体を示す第2被写体画像を前記第1インディケータとは異なる態様で特定する第2インディケータと、を表示させるための表示用データを出力すること、を含む
     画像処理方法。
  24.  コンピュータに、
     撮像装置により撮像されることで得られた撮像画像に基づいて複数の被写体を検出すること、
     前記複数の被写体から、第1被写体と、前記撮像画像の面内方向において前記第1被写体から第1距離の範囲内に存在する第2被写体とを選定すること、及び、
     ディスプレイに対して、前記撮像画像と、前記第1被写体を示す第1被写体画像を特定する第1インディケータと、前記第2被写体を示す第2被写体画像を前記第1インディケータとは異なる態様で特定する第2インディケータと、を表示させるための表示用データを出力すること、を含む処理を実行させるためのプログラム。
PCT/JP2021/047376 2020-12-28 2021-12-21 画像処理装置、撮像装置、画像処理方法、及びプログラム WO2022145294A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP21915154.5A EP4270926A1 (en) 2020-12-28 2021-12-21 Image processing apparatus, image capture apparatus, image processing method, and program
CN202180087856.5A CN116745673A (zh) 2020-12-28 2021-12-21 图像处理装置、摄像装置、图像处理方法及程序
JP2022573014A JPWO2022145294A1 (ja) 2020-12-28 2021-12-21
US18/338,190 US20230336864A1 (en) 2020-12-28 2023-06-20 Image processing apparatus, imaging apparatus, image processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020219152 2020-12-28
JP2020-219152 2020-12-28

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/338,190 Continuation US20230336864A1 (en) 2020-12-28 2023-06-20 Image processing apparatus, imaging apparatus, image processing method, and program

Publications (1)

Publication Number Publication Date
WO2022145294A1 true WO2022145294A1 (ja) 2022-07-07

Family

ID=82260467

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/047376 WO2022145294A1 (ja) 2020-12-28 2021-12-21 画像処理装置、撮像装置、画像処理方法、及びプログラム

Country Status (5)

Country Link
US (1) US20230336864A1 (ja)
EP (1) EP4270926A1 (ja)
JP (1) JPWO2022145294A1 (ja)
CN (1) CN116745673A (ja)
WO (1) WO2022145294A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009077266A (ja) 2007-09-21 2009-04-09 Fujifilm Corp デジタルカメラ、及びデジタルカメラのフォーカスエリア選択方法
JP2009164820A (ja) * 2007-12-28 2009-07-23 Casio Comput Co Ltd 撮像装置及びプログラム
JP2009231956A (ja) * 2008-03-19 2009-10-08 Fujifilm Corp 撮像装置及び撮像制御方法
JP2013135446A (ja) 2011-12-27 2013-07-08 Canon Inc 撮像装置及びその制御方法
JP2013153376A (ja) * 2012-01-26 2013-08-08 Sony Corp 画像処理装置、画像処理方法および記録媒体
JP2019097380A (ja) 2017-11-21 2019-06-20 シュネーデル、エレクトリック、インダストリーズ、エスアーエスSchneider Electric Industries Sas マイクログリッドを制御する方法
JP2019201387A (ja) 2018-05-18 2019-11-21 株式会社ザクティ 追尾制御装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009077266A (ja) 2007-09-21 2009-04-09 Fujifilm Corp デジタルカメラ、及びデジタルカメラのフォーカスエリア選択方法
JP2009164820A (ja) * 2007-12-28 2009-07-23 Casio Comput Co Ltd 撮像装置及びプログラム
JP2009231956A (ja) * 2008-03-19 2009-10-08 Fujifilm Corp 撮像装置及び撮像制御方法
JP2013135446A (ja) 2011-12-27 2013-07-08 Canon Inc 撮像装置及びその制御方法
JP2013153376A (ja) * 2012-01-26 2013-08-08 Sony Corp 画像処理装置、画像処理方法および記録媒体
JP2019097380A (ja) 2017-11-21 2019-06-20 シュネーデル、エレクトリック、インダストリーズ、エスアーエスSchneider Electric Industries Sas マイクログリッドを制御する方法
JP2019201387A (ja) 2018-05-18 2019-11-21 株式会社ザクティ 追尾制御装置

Also Published As

Publication number Publication date
US20230336864A1 (en) 2023-10-19
CN116745673A (zh) 2023-09-12
JPWO2022145294A1 (ja) 2022-07-07
EP4270926A1 (en) 2023-11-01

Similar Documents

Publication Publication Date Title
KR102480245B1 (ko) 패닝 샷들의 자동 생성
JP4961965B2 (ja) 被写体追跡プログラム、被写体追跡装置、およびカメラ
JP5018767B2 (ja) 被写体追跡プログラム、被写体追跡装置、およびカメラ
KR101679290B1 (ko) 영상 처리 방법 및 장치
JP5054063B2 (ja) 電子カメラ、画像処理装置及び画像処理方法
US20110242395A1 (en) Electronic device and image sensing device
CN105045420B (zh) 操作终端和操作方法
JP2016024489A (ja) 画像処理装置、撮像装置、画像処理方法及びプログラム
US20110273607A1 (en) Photographing apparatus and photographing control method
JP2021051573A (ja) 画像処理装置、および画像処理装置の制御方法
JP6381892B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
CN108471503A (zh) 摄像设备及其控制方法
JP2015026880A (ja) 撮像装置
JP2011223294A (ja) 撮像装置
JP2013058861A (ja) 画像処理装置、画像処理装置の制御方法およびプログラム
JP2018029270A (ja) 画像処理装置およびその制御方法、撮像装置、プログラム
US20180278826A1 (en) Microscopy system, microscopy method, and computer readable recording medium
US20230127668A1 (en) Image processing device, imaging apparatus, image processing method, and program
WO2022145294A1 (ja) 画像処理装置、撮像装置、画像処理方法、及びプログラム
WO2022145295A1 (ja) 撮像支援装置、撮像装置、撮像支援方法、及びプログラム
JP2008211534A (ja) 顔検知装置
WO2022145293A1 (ja) 撮像支援装置、撮像装置、撮像支援方法、及びプログラム
JP2021049262A (ja) 画像処理システム及びその制御方法
US20230131704A1 (en) Information processing apparatus, learning device, imaging apparatus, control method of information processing apparatus, and program
WO2022004305A1 (ja) 撮像支援装置、撮像装置、撮像支援方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21915154

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022573014

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 202180087856.5

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2021915154

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021915154

Country of ref document: EP

Effective date: 20230728