WO2022004303A1 - 情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラム - Google Patents

情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラム Download PDF

Info

Publication number
WO2022004303A1
WO2022004303A1 PCT/JP2021/021754 JP2021021754W WO2022004303A1 WO 2022004303 A1 WO2022004303 A1 WO 2022004303A1 JP 2021021754 W JP2021021754 W JP 2021021754W WO 2022004303 A1 WO2022004303 A1 WO 2022004303A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
specific subject
training data
data generation
information processing
Prior art date
Application number
PCT/JP2021/021754
Other languages
English (en)
French (fr)
Inventor
亮宏 内田
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to JP2022533785A priority Critical patent/JPWO2022004303A1/ja
Priority to CN202180045835.7A priority patent/CN115735211A/zh
Publication of WO2022004303A1 publication Critical patent/WO2022004303A1/ja
Priority to US18/146,442 priority patent/US20230131704A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • H04N23/675Focus control based on electronic image sensor signals comprising setting of focusing regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/617Upgrading or updating of programs or applications for camera control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/631Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
    • H04N23/632Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters for displaying or modifying preview images prior to image capturing, e.g. variety of image resolutions or capturing parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • H04N23/635Region indicators; Field of view indicators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • the technology of the present disclosure relates to an information processing device, a learning device, an image pickup device, a control method of the information processing device, and a program.
  • This image pickup apparatus is characterized by including a subject feature point learning means, a subject feature point learning information storage unit, a shooting candidate image information acquisition means, an image search processing means, and a shooting condition adjusting means.
  • the subject feature point learning means detects an image of a predetermined subject from image information obtained by photographing an object space, and extracts subject feature point learning information indicating the feature points of the image of the subject.
  • the subject feature point learning information storage unit stores the subject feature point learning information.
  • the shooting candidate image information acquisition means acquires a shooting candidate image, which is an image that is a shooting candidate.
  • the image search processing means previously stores the subject feature point learning information in the shooting candidate image feature point information indicating the feature points of at least one subject image included in the shooting candidate image from the acquired shooting candidate image. It is determined whether or not a feature point indicating a feature point that matches the feature point indicated by the stored subject feature point learning information is included. As a result of the determination, the shooting condition adjusting means is included in the shooting candidate image when the shooting candidate image feature point information includes a feature point that matches the feature point indicated by the subject feature point learning information. , The shooting condition optimizing means for optimizing the shooting conditions is instructed so that the shooting conditions are optimized for the subject corresponding to the shooting candidate image feature point information.
  • Japanese Patent Application Laid-Open No. 2013-80428 describes the acquisition based on the acquisition step of acquiring the first learning data adapted by the first apparatus by learning and the data format of the second learning data adapted by the second apparatus by learning.
  • a program for causing a computer to execute a data conversion step of converting the first training data to training data in a data format suitable for the data format of the second training data is disclosed.
  • data used for machine learning can be obtained as compared with the case where a specific subject image used for machine learning is manually selected from the captured images obtained by being imaged by an image sensor.
  • an information processing device that can be easily collected.
  • the first aspect according to the technique of the present disclosure is an information processing apparatus including a processor and a memory connected to or built in the processor, and the processor is accompanied by a focus operation in which a specific subject is a focus target area.
  • This is an information processing device that outputs specific subject data relating to a specific subject image indicating a specific subject in the captured image obtained by imaging as data used for machine learning when the imaging is performed by an image sensor.
  • the machine learning is supervised machine learning
  • the processor assigns a label which is information about a specific subject image to the specific subject data
  • the specific subject data is the supervised machine. It is an information processing apparatus according to the first aspect which outputs as training data used for learning.
  • a third aspect of the technique of the present disclosure is that the processor can distinguish the focus target area from other image areas while the display moving image based on the signal output from the image sensor is displayed on the monitor.
  • the information processing apparatus according to the first aspect or the second aspect, which is displayed in an aspect and the specific subject image is an image corresponding to the position of the focus target area in the captured image.
  • a fourth aspect according to the technique of the present disclosure is a third aspect in which the processor displays a focus target area in a display moving image in a manner that can be distinguished from other image areas by displaying a frame surrounding the focus target area. It is an information processing apparatus according to the aspect of.
  • the fifth aspect according to the technique of the present disclosure is the information processing apparatus according to the fourth aspect, in which the position of the frame can be changed according to a given position change instruction.
  • the sixth aspect according to the technique of the present disclosure is the information processing apparatus according to the fourth aspect or the fifth aspect, in which the size of the frame can be changed according to a given size change instruction.
  • a seventh aspect according to the technique of the present disclosure is one of the first to sixth aspects in which the processor outputs the captured image and the coordinates of the focus target area as data used for machine learning. This is the information processing device.
  • the processor displays a moving image for display based on a signal output from an image sensor on a monitor, receives a designation of a focus target area in the moving image for display, and focuses.
  • the present invention relates to the first aspect or the second aspect of extracting a specific subject image based on a predetermined area including a target area in which a similarity evaluation value indicating the degree of similarity to the focus target area is within the first predetermined range. It is an information processing device.
  • the ninth aspect according to the technique of the present disclosure is the information processing apparatus according to the eighth aspect in which the processor displays the focus target area in a manner distinguishable from other image areas.
  • a tenth aspect according to the technique of the present disclosure is an eighth aspect in which at least one of a focus target area and a specific subject image is defined in units of divided areas obtained by dividing a predetermined area.
  • the information processing apparatus according to the ninth aspect.
  • the eleventh aspect according to the technique of the present disclosure is information processing according to any one of the eighth to tenth aspects, wherein the similar evaluation value is a value based on the focus evaluation value used for the focus operation. It is a device.
  • a twelfth aspect according to the technique of the present disclosure is an information processing apparatus according to any one of the eighth to eleventh aspects, wherein the similar evaluation value is a color evaluation value based on color information in a predetermined region. be.
  • a thirteenth aspect according to the technique of the present disclosure is abnormal when the processor has a difference between the specific subject image for display showing a specific subject and the specific subject image in the moving image for display exceeds the second predetermined range.
  • the specific subject image for display which is subjected to the detection process, is an information processing device according to any one of the eighth to twelfth aspects defined based on the similarity evaluation value.
  • a fourteenth aspect according to the technique of the present disclosure is the first aspect in which the specific subject data includes the coordinates of the specific subject image, and the processor outputs the captured image and the coordinates of the specific subject image as data used for machine learning. It is an information processing apparatus which concerns on any one aspect from an aspect
  • a fifteenth aspect according to the technique of the present disclosure is a first aspect in which the specific subject data is a specific subject image cut out from the captured image, and the processor outputs the cut out specific subject image as data used for machine learning.
  • the information processing apparatus according to any one of the fourteenth aspects from the above aspect.
  • a sixteenth aspect according to the technique of the present disclosure is any one of the first to fifteenth aspects in which the processor stores data in a memory and performs machine learning using the data stored in the memory. It is an information processing device according to the embodiment.
  • a seventeenth aspect according to the technique of the present disclosure is a reception device that receives data output from the information processing apparatus according to any one of the first to fifteenth aspects, and data received by the reception device. It is a learning device including a computing device that performs machine learning using the above.
  • the eighteenth aspect according to the technique of the present disclosure is an image pickup device including an information processing device and an image sensor according to any one of the first to sixteenth aspects.
  • a nineteenth aspect according to the technique of the present disclosure is that an image sensor captures images at a plurality of focusing positions, and a processor focuses on a specific subject with respect to a plurality of captured images obtained by performing the imaging.
  • the image pickup apparatus according to an eighteenth aspect, which outputs the coordinates of a specific subject image obtained from an in-focus image as the coordinates of a specific subject image in an out-of-focus image that is not in focus on the specific subject.
  • a twentieth aspect according to the technique of the present disclosure is a specific subject indicating a specific subject in the captured image obtained by imaging when the image sensor performs imaging with a focus operation with the specific subject as the focus target area. It is a control method of an information processing apparatus including outputting specific subject data related to an image as data used for machine learning.
  • a twenty-first aspect according to the technique of the present disclosure is to capture a specific subject in an captured image obtained by imaging when an image sensor is used to image a computer with a focus operation with the specific subject as the focus target area.
  • This is a program for executing a process including outputting the specific subject data related to the specific subject image to be shown as data used for machine learning.
  • It is a rear view of the image pickup apparatus which shows an example of the aspect which changes the position of the AF frame according to the position of the face of a subject. It is a rear view of the image pickup apparatus which shows an example of the aspect which changes the size of the AF frame according to the position of the face of a subject.
  • It is explanatory drawing which shows an example of the position coordinates of an AF frame. It is explanatory drawing which shows an example of the mode in which the training data output from the information processing apparatus which concerns on 1st Embodiment is stored in a database. It is a flowchart which shows an example of the flow of the training data generation processing performed by the information processing apparatus which concerns on 1st Embodiment.
  • FIG. 14 is a conceptual diagram showing an example of incident characteristics of subject light with respect to the first phase difference pixel and the second phase difference pixel included in the photoelectric conversion element shown in FIG. 14.
  • CPU refers to the abbreviation of "Central Processing Unit".
  • RAM is an abbreviation for "RandomAccessMemory”.
  • NVM is an abbreviation for "Non-Volatile Memory”.
  • IC refers to the abbreviation of "Integrated Circuit”.
  • ASIC refers to the abbreviation of "ApplicationSpecific Integrated Circuit”.
  • PLD is an abbreviation for "Programmable Logic Device”.
  • FPGA refers to the abbreviation of "Field-Programmable Gate Array”.
  • SoC is an abbreviation for "System-on-a-chip”.
  • SSD is an abbreviation for "Solid State Drive”.
  • USB is an abbreviation for "Universal Serial Bus”.
  • HDD is an abbreviation for "Hard Disk Drive”.
  • EEPROM refers to the abbreviation of "Electrically Erasable and Programmable Read Only Memory”.
  • EL refers to the abbreviation of "Electro-Luminescence”.
  • I / F refers to the abbreviation of "Interface”.
  • UI refers to the abbreviation of "User Interface”.
  • TOF is an abbreviation for "Time of Flight”.
  • fps is an abbreviation for "frame per second”.
  • MF is an abbreviation for "Manual Focus”.
  • AF is an abbreviation for "AutoFocus”.
  • a CPU is illustrated as an example of the "processor” according to the technique of the present disclosure, but the "processor” according to the technique of the present disclosure includes a plurality of processing devices such as a CPU and a GPU. It may be a combination of.
  • the GPU operates under the control of the CPU and is responsible for executing image processing.
  • vertical refers to vertical in the sense of including an error generally allowed in the technical field to which the technology of the present disclosure belongs, in addition to perfect vertical.
  • image when “image” is expressed instead of “image data” other than “image” displayed on the monitor, “image” also means “data indicating an image (image data)”. included.
  • image data image data
  • subject in an image means a subject included as an image in the image.
  • the training data generation system 10 includes an image pickup device 12, a learning device 14, and a database 16 connected to the learning device 14.
  • the image pickup device 12 is, for example, a digital camera.
  • the image pickup device 12 is communicably connected to the learning device 14 via a communication network such as the Internet.
  • the image pickup apparatus 12 has a normal image pickup mode and a training data image pickup mode as an operation mode of the image pickup system.
  • the imaging device 12 operates the mechanical shutter 48 (see FIG. 4) to form an image formed on the light receiving surface 24A (see FIG. 4) of the image sensor 24 (hereinafter, “main exposure image””. ) Is stored in the memory.
  • the imaging device 12 outputs data related to an image showing a specific subject in the main exposed image (hereinafter, referred to as “specific subject image”) to the learning device 14 as data used for machine learning.
  • specific subject image data related to an image showing a specific subject in the main exposed image
  • the data related to the specific subject image is also referred to as "specific subject data”.
  • machine learning includes, for example, deep learning, convolutional neural networks, and the like.
  • the learning device 14 is, for example, a computer.
  • the database 16 includes storage such as an HDD or EEPROM, and stores data received by the learning device 14.
  • the data used for machine learning is, for example, training data used for building a model in machine learning.
  • the training data is labeled image data including a specific subject data and a label which is information about the specific subject image.
  • the learning device 14 constructs a class classification model for classifying the classes of the subjects shown in the image by performing supervised machine learning using the training data.
  • the user 11 of the imaging device 12 sets the imaging device 12 to the training data imaging mode and sequentially images the specific subjects A, B, and C. do.
  • the user 11 selects the label LA indicating the "face" in the image pickup apparatus 12 via the reception unit 60 (see FIG. 4).
  • the image pickup apparatus 12 associates the specific subject data related to the specific subject image SA in the main exposure image PA obtained by imaging the specific subject A with the label LA, and outputs the training data 17A to the learning device 14. do.
  • the learning device 14 receives the training data 17A and stores the specific subject data related to the specific subject image SA in association with the label LA in the database 16.
  • the user 11 selects the label LB indicating "car” in the image pickup apparatus 12 via the reception unit 60 (see FIG. 4) before taking an image of the specific subject B.
  • the image pickup apparatus 12 associates the specific subject data related to the specific subject image SB in the main exposure image PB obtained by imaging the specific subject B with the label LB, and outputs the training data 17B to the learning device 14. do.
  • the learning device 14 receives the training data 17B and stores the specific subject data related to the specific subject image SB and the label LB in association with each other in the database 16.
  • the user 11 selects the label LC indicating "flower” in the image pickup apparatus 12 via the reception unit 60 (see FIG. 4) before taking an image of the specific subject C.
  • the image pickup apparatus 12 associates the label LC with the specific subject data related to the specific subject image SC in the main exposed image PC obtained by imaging the specific subject C, and outputs the training data 17C to the learning device 14. do.
  • the learning device 14 receives the training data 17C and stores the specific subject data related to the specific subject image SC and the label LC in the database 16 in association with each other.
  • the present exposure images PA, PB, and PC are examples of “captured images” according to the technique of the present disclosure.
  • Specific subjects A, B, and C are examples of “specific subjects” according to the technique of the present disclosure.
  • Specific subject images SA, SB, and SC are examples of “specific subject images” according to the technique of the present disclosure.
  • the specific subject data is an example of "specific subject data” according to the technique of the present disclosure.
  • the present exposure image P when it is not necessary to distinguish between the main exposure images PA, PB, and PC, the present exposure image P is comprehensively referred to.
  • when it is not necessary to distinguish between the specific subjects A, B, and C they are referred to as “specific subjects” without reference numerals.
  • specific subject image S when it is not necessary to distinguish between the specific subject images SA, SB, and SC, they are collectively referred to as "specific subject image S".
  • Labels LA, LB, and LC are examples of “labels” according to the technique of the present disclosure.
  • the training data 17A, 17B, and 17C are examples of "data” and “training data” according to the technique of the present disclosure.
  • label L when it is not necessary to distinguish between labels LA, LB, and LC, they are collectively referred to as "label L”.
  • training data 17 when it is not necessary to separately explain the training data 17A, 17B, and 17C, the term "training data 17" is comprehensively referred to.
  • the image pickup apparatus 12 is a digital camera having an interchangeable lens and omitting a reflex mirror.
  • the image pickup apparatus 12 includes an image pickup apparatus main body 20 and an interchangeable lens 22 that is interchangeably attached to the image pickup apparatus main body 20.
  • a digital camera having an interchangeable lens and omitting a reflex mirror is mentioned, but the technique of the present disclosure is not limited to this, and the lens is fixed. It may be a digital camera, a digital camera in which the reflex mirror is not omitted, and various electronic devices such as smart devices, wearable terminals, cell observation devices, ophthalmic observation devices, or surgical microscopes. It may be a built-in digital camera.
  • the image sensor 24 is provided in the image pickup apparatus main body 20.
  • the image sensor 24 includes a photoelectric conversion element 80 (see FIG. 14).
  • the image sensor 24 has a light receiving surface 24A (see FIG. 14).
  • the image sensor 24 is arranged in the image pickup apparatus main body 20 so that the center of the light receiving surface 24A and the optical axis OA coincide with each other.
  • the image sensor 24 is a CMOS image sensor.
  • the interchangeable lens 22 is attached to the image pickup apparatus main body 20, the subject light indicating the subject is transmitted through the interchangeable lens 22 and imaged on the image sensor 24, and image data indicating the image of the subject is generated by the image sensor 24. Will be done.
  • the image sensor 24 is an example of an "image sensor" according to the technique of the present disclosure.
  • the CMOS image sensor is exemplified as the image sensor 24, but the technique of the present disclosure is not limited to this, and the image sensor 24 is, for example, another type of image sensor such as a CCD image sensor.
  • the technology of this disclosure is established.
  • a release button 26 and a dial 28 are provided on the upper surface of the image pickup apparatus main body 20.
  • the dial 28 is operated when setting the operation mode of the image pickup apparatus 12.
  • the operation mode of the image pickup apparatus 12 includes an operation mode of the image pickup system including a normal image pickup mode and a training data image pickup mode, and an operation mode of the reproduction system including a reproduction mode.
  • the release button 26 functions as an imaging preparation instruction unit and an imaging instruction unit, and can detect a two-step pressing operation of an imaging preparation instruction state and an imaging instruction state.
  • the imaging preparation instruction state refers to a state in which the image is pressed from the standby position to the intermediate position (half-pressed position), and the imaging instruction state is a state in which the image is pressed to the final pressed position (fully pressed position) beyond the intermediate position. Point to.
  • the "state of being pressed from the standby position to the half-pressed position” is referred to as "half-pressed state”
  • the “state of being pressed from the standby position to the full-pushed position” is referred to as "full-pressed state”.
  • the operation in which the release button 26 is pressed to the final pressed position (fully pressed position) is also referred to as “main exposure operation”.
  • the "main exposure operation” may be performed by another method such as touching the touch panel monitor 3 described later.
  • a touch panel monitor 30 and an instruction key 32 are provided on the back surface of the image pickup apparatus main body 20.
  • the touch panel monitor 30 includes a monitor 34 and a touch panel 36 (see also FIG. 4).
  • An example of the monitor 34 is an organic EL display.
  • the monitor 34 may be not an organic EL display but another type of display such as an inorganic EL display and a liquid crystal display.
  • the monitor 34 is an example of a "monitor" according to the technique of the present disclosure.
  • the monitor 34 displays images and / or character information and the like.
  • the monitor 34 is used for imaging for a live view image, that is, for displaying a live view image obtained by performing continuous imaging when the imaging device 12 is in the operation mode of the imaging system.
  • Imaging for a live view image (hereinafter, also referred to as “imaging for a live view image”) is performed according to, for example, a frame rate of 60 fps.
  • the frame rate for capturing a live view image is not limited to 60 fps, and may be higher or lower than 60 fps.
  • the live view image refers to a moving image for display based on image data obtained by being imaged by the image sensor 24.
  • the live view image is an example of a "moving image for display” according to the technique of the present disclosure.
  • Live view images are also commonly referred to as through images.
  • the monitor 34 is also used for displaying the main exposure image P. Further, the monitor 34 is also used for displaying a reproduced image and displaying a menu screen or the like when the image pickup apparatus 12 is in the reproduction mode.
  • the touch panel 36 is a transmissive touch panel and is superimposed on the surface of the display area of the monitor 34.
  • the touch panel 36 receives an instruction from the user 11 by detecting contact with an indicator such as a finger or a stylus pen.
  • an out-cell type touch panel display in which the touch panel 36 is superimposed on the surface of the display area of the monitor 34 is mentioned, but this is only an example.
  • an on-cell type or in-cell type touch panel display can be applied as the touch panel monitor 30
  • the instruction key 32 receives various instructions.
  • the "various instructions” are, for example, an instruction to display a menu screen on which various menus can be selected, an instruction to select one or a plurality of menus, an instruction to confirm the selected contents, and an instruction to delete the selected contents.
  • Zoom in, zoom out, and various instructions such as frame advance. Further, these instructions may be given by the touch panel 36.
  • the image pickup apparatus 12 includes mounts 37 and 38.
  • the mount 37 is provided on the image pickup apparatus main body 20.
  • the mount 38 is provided in the interchangeable lens 22 at a position facing the position of the mount 37.
  • the interchangeable lens 22 is interchangeably attached to the image pickup apparatus main body 20 by coupling the mount 38 to the mount 37.
  • the image pickup lens 40 includes an objective lens 40A, a focus lens 40B, and a diaphragm 40C.
  • the objective lens 40A, the focus lens 40B, and the aperture 40C are the objective lens 40A, the focus lens 40B, and the aperture 40C along the optical axis OA from the subject side (object side) to the image pickup device main body 20 side (image side). They are arranged in order.
  • the interchangeable lens 22 includes a slide mechanism 42, motors 44 and 46.
  • a focus lens 40B is attached to the slide mechanism 42 so as to be slidable along the optical axis OA.
  • a motor 44 is connected to the slide mechanism 42, and the slide mechanism 42 operates by receiving the power of the motor 44 to move the focus lens 40B along the optical axis OA.
  • the diaphragm 40C is a diaphragm with a variable opening size.
  • a motor 46 is connected to the diaphragm 40C, and the diaphragm 40C adjusts the exposure by operating under the power of the motor 46.
  • the structure and / or operation method of the interchangeable lens 22 can be changed as needed.
  • the motors 44 and 46 are connected to the image pickup apparatus main body 20 via the mount 38, and the drive is controlled according to a command from the image pickup apparatus main body 20.
  • a stepping motor is adopted as an example of the motors 44 and 46. Therefore, the motors 44 and 46 operate in synchronization with the pulse signal in response to a command from the image pickup apparatus main body 20.
  • FIG. 4 an example in which the motors 44 and 46 are provided in the interchangeable lens 22 is shown, but the present invention is not limited to this, and one of the motors 44 and 46 is provided in the image pickup apparatus main body 20. Both the motors 44 and 46 may be provided in the image pickup apparatus main body 20.
  • the image pickup device 12 is selectively set to one of the MF mode and the AF mode according to the instruction given to the image pickup device main body 20 in the case of the normal image pickup mode.
  • the MF mode is an operation mode for manually focusing. In the MF mode, for example, when the focus ring (not shown) of the interchangeable lens 22 is operated by the user 11, the focus lens 40B moves along the optical axis OA with a movement amount corresponding to the operation amount of the focus ring. This adjusts the focus.
  • the image pickup apparatus main body 20 calculates the focusing position according to the subject distance, and the focus lens 40B is moved toward the calculated focusing position. Adjust the focus by moving it. After that, the release button 26 is continuously pressed to the full position, so that the image pickup apparatus main body 20 performs the main exposure operation (described later).
  • the in-focus position refers to the position of the focus lens 40B on the optical axis OA in a state of being in focus.
  • the imaging device 12 is set to the AF mode.
  • the control for aligning the focus lens 40B with the in-focus position is also referred to as “AF control”.
  • AF control the control for aligning the focus lens 40B with the in-focus position
  • AF calculation the calculation of the in-focus position
  • the image pickup apparatus main body 20 includes a mechanical shutter 48.
  • the mechanical shutter 48 is a focal plane shutter and is arranged between the diaphragm 40C and the light receiving surface 24A.
  • the mechanical shutter 48 operates by receiving power from a drive source (not shown) such as a motor.
  • the mechanical shutter 48 has a light-shielding mechanism (not shown) that passes through the image pickup lens 40 and blocks the subject light formed on the light receiving surface 24A of the image sensor 24.
  • the image pickup apparatus 12 performs the main exposure operation according to the timing at which the mechanical shutter 48 opens and closes the light-shielding mechanism.
  • the main exposure operation refers to an operation of taking in image data of an image (main exposure image P) formed on the light receiving surface 24A and storing it in a memory.
  • the present exposure operation is an example of "imaging" according to the technique of the present disclosure.
  • the image pickup device main body 20 includes a controller 50 and a UI device 52.
  • the controller 50 controls the entire image pickup apparatus 12.
  • the UI device 52 is a device that presents information to the user 11 and receives an instruction from the user 11.
  • a UI device 52 is connected to the controller 50 via a bus line 58, and the controller 50 acquires various information from the UI device 52 and controls the UI device 52.
  • the controller 50 is an example of the "information processing device" according to the technique of the present disclosure.
  • the controller 50 includes a CPU 50A, an NVM 50B, a RAM 50C, a control I / F50D, and an input I / F50E.
  • the CPU 50A, NVM 50B, RAM 50C, control I / F 50D, and input I / F 50E are connected to each other via a bus line 58.
  • the CPU 50A is an example of a "processor” according to the technology of the present disclosure.
  • the CPU 50A controls the entire image pickup apparatus 12.
  • the NVM50B is an example of a "memory" according to the technique of the present disclosure.
  • An example of the NVM50B is EEPROM.
  • the EEPROM is merely an example, and for example, a ferroelectric memory may be used instead of the EEPROM, and any non-volatile memory that can be mounted on the image pickup apparatus 12 may be used.
  • the RAM 50C is a volatile memory used as a work area or the like when executing various programs.
  • the CPU 50A comprehensively controls the image pickup apparatus 12 by reading out the necessary program 51 from the NVM 50B and executing the read program 51 on the RAM 50C.
  • the control I / F50D is a device having an FPGA and is connected to the image sensor 24.
  • the CPU 50A controls the image sensor 24 via the control I / F 50D.
  • the control I / F50D is connected to the motors 44 and 46 via the mounts 37 and 38, and the CPU 50A controls the motors 44 and 46 via the control I / F50D.
  • the input I / F50E is connected to the image sensor 24.
  • the input I / F 50E receives the image data output from the image sensor 24.
  • the controller 50 performs a known signal processing such as white balance adjustment, sharpness adjustment, gamma correction, color space conversion processing, and color difference correction on the image data to show the main exposure image P. Generate data.
  • An external I / F 54 is connected to the bus line 58.
  • the external I / F 54 is a device having an FPGA.
  • An external device (not shown) such as a USB memory or a memory card is connected to the external I / F 54.
  • the external I / F 54 controls the exchange of various information between the CPU 50A and the external device.
  • the CPU 50A stores the main exposure image data in the external device via the external I / F 54.
  • the communication I / F 56 is connected to the bus line 58.
  • the communication I / F 56 is communicably connected to the learning device 14 via a communication network such as the Internet.
  • the CPU 50A In the training data imaging mode, the CPU 50A outputs the training data 17 to the learning device 14 via the communication I / F 56.
  • the UI device 52 includes a touch panel monitor 30 and a reception unit 60.
  • the monitor 34 and the touch panel 36 are connected to the bus line 58. Therefore, the CPU 50A causes the monitor 34 to display various information and operates according to various instructions received by the touch panel 36.
  • the reception unit 60 includes a touch panel 36 and a hard key unit 62.
  • the hard key unit 62 is a plurality of hard keys and includes a release button 26, a dial 28, and an instruction key 32.
  • the hard key unit 62 is connected to the bus line 58, and the CPU 50A operates according to various instructions received by the hard key unit 62.
  • bus line 58 In the example shown in FIG. 4, one bus is shown as the bus line 58 for convenience of illustration, but a plurality of buses may be used.
  • the bus line 58 may be a serial bus, or may be a parallel bus including a data bus, an address bus, a control bus, and the like.
  • the training data generation program 51A is included in the various programs 51 stored in the NVM50B.
  • the CPU 50A reads the training data generation program 51A from the NVM 50B and executes the read training data generation program 51A on the RAM 50C to operate as the training data generation unit 53. do.
  • the training data generation unit 53 executes the training data generation process. The training data generation process performed by the training data generation unit 53 will be specifically described below.
  • the training data generation unit 53 displays the label selection screen 64 on the touch panel monitor 30.
  • the message 64A "Please select a label to be given to the subject"
  • Table 64B in which a plurality of label candidates are listed are displayed.
  • label candidates showing relatively large attributes are displayed.
  • Candidates for large labels are, for example, “people,” “vehicles,” and “buildings.”
  • label candidates hereinafter, also referred to as “small label candidates” indicating attributes obtained by subdividing the large label candidates in the first column are displayed. For example, when the large label candidate is "person”, the small label candidate includes “face”, “male”, “female”, and “child”. The user 11 selects an arbitrary label candidate from Table 64B by touching the touch panel 36 with the indicator body.
  • the user 11 selects a “face” from the label candidates listed in Table 64B via the touch panel monitor 30. Select a label.
  • the label candidates listed in FIG. 5 are examples, and the label candidates are not limited to these. Further, the display method of the label candidate is not limited to this. In the example shown in FIG. 5, one small label candidate is selected, but a large label candidate may be selected, or a plurality of small label candidates may be selected.
  • the training data generation unit 53 accepts the selected label L.
  • the training data generation unit 53 stores the received label L in the RAM 50C.
  • the training data generation unit 53 causes the monitor 34 to display the live view image 66 based on the image pickup signal output from the image sensor 24. Further, in the training data imaging mode, the training data generation unit 53 superimposes and displays the AF frame 68 on the center of the monitor 34 on which the live view image 66 is displayed.
  • the AF frame 68 is a frame for displaying an area to be focused (hereinafter referred to as a “focus target area”) on the live view image 66 so as to be distinguishable from other image areas in the AF mode. Is.
  • the AF frame 68 is an example of a “frame” according to the technique of the present disclosure.
  • the focus target area is an example of the “focus target area” according to the technique of the present disclosure.
  • the image pickup signal is an example of a "signal" according to the technique of the present disclosure.
  • the AF frame 68 includes a rectangular frame line 68A and four triangular arrows 68B-U, 68B-D, 68B-R, and 68B-L arranged on four sides of the frame line 68A.
  • triangular arrow 68B when it is not necessary to distinguish and explain the triangular arrows 68B-U, 68B-D, 68B-R, and 68B-L, they are collectively referred to as "triangular arrow 68B".
  • the user 11 By touching the triangular arrow 68B on the touch panel 36, the user 11 gives a position change instruction to the training data generation unit 53 to move the position of the AF frame 68 in the direction indicated by each triangular arrow 68B. Can be given.
  • the training data generation unit 53 changes the position of the AF frame 68 on the monitor 34 according to the given position change instruction.
  • the position change instruction is an example of the "position change instruction" according to the technique of the present disclosure.
  • the triangular arrow 68B displayed on the touch panel 36 is only an example of a means for receiving a position change instruction from the user 11, and if the position change instruction from the user 11 can be received via the reception unit 60, The means are not limited.
  • the frame line 68A is the face of the specific subject A with respect to the training data generation unit 53.
  • a position change instruction is given to move the AF frame 68 so as to surround the area indicating.
  • the AF frame 68 moves to the position shown in FIG. 7, for example.
  • the user 11 causes the training data generation unit 53 to change the size of the frame line 68A by performing a pinch-in or pinch-out operation on the frame line 68A displayed on the touch panel monitor 30. Can be given.
  • the user 11 tells the training data generation unit 53 that the frame line 68A is the specific subject A.
  • a resizing instruction is given to reduce the size of the frame line 68A so as to surround the area showing the face of the frame line 68A.
  • the training data generation unit 53 changes the size of the frame line 68A on the monitor 34 according to the given size change instruction.
  • the size change instruction is an example of the "size change instruction" according to the technique of the present disclosure.
  • the pinch-in and pinch-out operations are merely an example of means for receiving a size change instruction from the user 11, and if the position change instruction from the user 11 can be received via the reception unit 60, the means is limited. Not done.
  • the user 11 After changing the position and size of the AF frame 68, the user 11 performs an AF operation of pressing the release button 26 to the half-pressed position.
  • the AF operation is an example of the "focus operation" according to the technique of the present disclosure.
  • the training data generation unit 53 designates the area surrounded by the frame line 68A in the live view image 66 as the focus target area F.
  • the training data generation unit 53 acquires the position coordinates indicating the position of the focus target area F.
  • the position coordinates of the focus target area F are the coordinates (X 1A , Y ) of the lower right corner Q 1A of the frame line 68A with the lower left corner of the live view image 66 as the origin O (0, 0). It is represented by 1A ) and the coordinates (X 2A , Y 2A ) of the upper left angle Q 2A of the frame line 68A.
  • the training data generation unit 53 stores the acquired position coordinates of the focus target area F in the RAM 50C.
  • the position coordinates are an example of "coordinates" according to the technique of the present disclosure.
  • the training data generation unit 53 performs the main exposure operation from the main exposure image PA to the specific subject.
  • the image SA an image showing the focus target area F is extracted.
  • the training data generation unit 53 associates the specific subject data related to the specific subject image SA with the label LA and outputs the training data 17A to the learning device 14.
  • the specific subject data relating to the specific subject image SA includes the main exposure image PA and the position coordinates indicating the position of the specific subject image SA in the main exposure image PA, that is, the position coordinates of the focus target area F.
  • the training data imaging mode when the user 11 moves the AF frame 68 so as to surround the specific subject B and then causes the imaging device 12 to perform the AF operation and the main exposure operation, the training data.
  • the generation unit 53 extracts an image showing the focus target area F as the specific subject image SB from the main exposure image PB.
  • the training data generation unit 53 associates the specific subject data related to the specific subject image SB with the label LB and outputs the training data 17B to the learning device 14.
  • the specific subject data relating to the specific subject image SB includes the main exposure image PB and the position coordinates indicating the position of the specific subject image SB in the main exposure image PB.
  • the training data imaging mode when the user 11 moves the AF frame 68 so as to surround the specific subject C and then causes the imaging device 12 to perform the AF operation and the main exposure operation, the training data.
  • the generation unit 53 extracts an image showing the focus target area F as the specific subject image SC from the main exposure image PC.
  • the training data generation unit 53 associates the specific subject data related to the specific subject image SC with the label LC and outputs the training data 17C to the learning device 14.
  • the specific subject data relating to the specific subject image SC includes the main exposure image PC and the position coordinates indicating the position of the specific subject image SC in the main exposure image PC.
  • the learning device 14 includes a computer 15 and an input / output I / O I / F 14D.
  • the input / output I / F 14D is communicably connected to the communication I / F 56 of the image pickup apparatus 12.
  • the input / output I / F 14D receives the training data 17 from the image pickup apparatus 12.
  • the computer 15 stores the training data 17 received by the input / output I / F 14D in the database 16. Further, the computer 15 reads the training data 17 from the database 16 and performs machine learning using the read training data 17.
  • the computer 15 includes a CPU 14A, an NVM 14B, and a RAM 14C.
  • the CPU 14A controls the entire learning device 14.
  • An example of the NVM14B is EEPROM.
  • the EEPROM is merely an example, and for example, a ferroelectric memory may be used instead of the EEPROM, and any non-volatile memory that can be mounted on the learning device 14 may be used.
  • the RAM 14C is a volatile memory used as a work area or the like when executing various programs.
  • the learning execution program 72 is stored in the NVM14B.
  • the CPU 14A reads the learning execution program 72 from the NVM 14B and executes the read learning execution program 72 on the RAM 14C to operate as the learning execution unit 76.
  • the learning execution unit 76 constructs a supervised learning model by training the neural network 74 using the training data 17 according to the learning execution program 72.
  • FIG. 11 shows an example of the flow of the training data generation process executed by the training data generation unit 53.
  • the training data generation process is realized by the CPU 50A executing the training data generation program 51A.
  • the training data generation process is started when the imaging device 12 is set to the training data imaging mode.
  • step ST101 the training data generation unit 53 causes the touch panel monitor 30 to display the label selection screen 64 as shown in FIG. 5, for example. After that, the training data generation process proceeds to step ST102.
  • step ST102 the training data generation unit 53 determines whether or not the label L is selected on the touch panel monitor 30. When the label L is selected in step ST102, the determination is affirmed, and the training data generation process proceeds to step ST103. If the label L is not selected in step ST102, the determination is denied and the training data generation process proceeds to step ST101.
  • step ST103 the training data generation unit 53 causes the touch panel monitor 30 to display the live view image 66. After that, the training data generation process proceeds to step ST104.
  • step ST104 the training data generation unit 53 superimposes and displays the AF frame 68 on the live view image 66 displayed on the touch panel monitor 30. After that, the training data generation process proceeds to step ST105.
  • step ST105 the training data generation unit 53 changes the position and size of the AF frame 68 according to the position change instruction and the size change instruction from the user 11.
  • the user 11 gives a position change instruction and a size change instruction via the reception unit 60 so that the area showing the specific subject is surrounded by the frame line 68A of the AF frame 68 in the live view image 66.
  • the training data generation process proceeds to step ST106.
  • step ST106 the training data generation unit 53 determines whether or not the AF operation has been performed. When the AF operation is performed in step ST106, the determination is affirmed, and the training data generation process shifts to step ST107. If the AF operation is not performed in step ST106, the determination is denied and the training data generation process shifts to step ST105.
  • step ST107 the training data generation unit 53 acquires the position coordinates of the focus target area F indicated by the AF frame 68. After that, the training data generation process proceeds to step ST108.
  • step ST108 the training data generation unit 53 determines whether or not the main exposure has been performed. When the main exposure is performed in step ST108, the determination is affirmed, and the training data generation process shifts to step ST109. If the main exposure is not performed in step ST108, the determination is denied and the training data generation process proceeds to step ST106.
  • step ST109 the training data generation unit 53 acquires the main exposure image P. After that, the training data generation process proceeds to step ST110.
  • step ST110 the training data generation unit 53 extracts an image showing the focus target area F as the specific subject image S from the main exposure image P. After that, the training data generation process proceeds to step ST111.
  • the training data generation unit 53 associates the specific subject data with the label L and outputs the data to the learning device 14.
  • the specific subject data includes the main exposure image P and the position coordinates of the specific subject image S, that is, the position coordinates of the focus target area F.
  • the learning device 14 stores the received specific subject data and the label L in the database 16 as training data 17. This ends the training data generation process.
  • the training data generation unit 53 performs the main exposure operation.
  • the specific subject data related to the specific subject image S in the obtained main exposed image P is output as training data 17 used for machine learning. Therefore, according to this configuration, the training data 17 used for machine learning is simpler than the case where the specific subject image S is manually extracted from the main exposure image P obtained by being imaged by the image sensor 24. Can be collected in.
  • machine learning is supervised machine learning.
  • the training data generation unit 53 attaches a label L, which is information about the specific subject image S, to the specific subject data, and outputs the specific subject data as training data 17 used for supervised machine learning. Therefore, according to this configuration, training data 17 necessary for supervised machine learning can be collected.
  • the training data generation unit 53 causes the monitor 34 to display the live view image 66 based on the image pickup signal output from the image sensor 24.
  • the training data generation unit 53 uses the AF frame 68 in the live view image 66 to display the focus target area F in a manner distinguishable from other image areas.
  • the specific subject image S is an image corresponding to the position of the focus target area F in the main exposure image P. Therefore, according to this configuration, the specific subject image S can be easily extracted as compared with the case where the specific subject image S is irrelevant to the position of the focus target area F.
  • the training data generation unit 53 displays the AF frame 68 surrounding the focus target area F on the live view image 66 so that the focus target area F can be distinguished from other image areas. Display with. Therefore, according to this configuration, the user 11 can easily recognize the specific subject image S as compared with the case where the AF frame 68 is not displayed.
  • the position of the AF frame 68 can be changed according to the given position change instruction. Therefore, according to this configuration, the user 11 can freely move the focus target area F as compared with the case where the position of the AF frame 68 is fixed.
  • the size of the AF frame 68 can be changed according to the given size change instruction. Therefore, according to this configuration, the user 11 can freely change the size of the focus target area F as compared with the case where the size of the AF frame 68 is fixed.
  • the specific subject data includes the position coordinates of the specific subject image S.
  • the training data generation unit 53 outputs the main exposure image P and the position coordinates of the focus target area F, that is, the position coordinates of the specific subject image S as training data 17 used for machine learning. Therefore, according to this configuration, there is an advantage that the number of processing steps can be reduced as compared with the case where the specific subject image S is cut out and output.
  • the learning device 14 uses the input / output I / F14D for receiving the specific subject data output from the controller 50 of the image pickup device 12 and the specific subject data received by the input / output I / F14D.
  • a computer 15 for performing machine learning is provided.
  • the image pickup apparatus 12 includes a controller 50 and an image sensor 24. Therefore, according to the present configuration, the learning device 14 learns as compared with the case where the specific subject image S used for learning is manually selected from the main exposure image P obtained by being imaged by the image sensor 24.
  • the training data 17 used for the above can be easily collected.
  • one user 11 captures a plurality of specific subjects A, B, and C using the same image pickup device 12, and the training data is obtained.
  • 17A, 17B, and 17C have been acquired, but the techniques of the present disclosure are not limited thereto.
  • a plurality of users may image different subjects using different image pickup devices 12, and the training data 17 may be output from the plurality of image pickup devices 12 to the same learning device 14.
  • the training data 17 acquired by a plurality of users is output to the same learning device 14, so that the learning device 14 can efficiently collect the training data 17.
  • the training data generation unit 53 outputs the coordinates of the lower right angle Q 1A and the upper left angle Q 2A of the frame line 68A as the position coordinates of the specific subject image S. Not limited to this.
  • the training data generation unit 53 may output the coordinates of the upper right angle and the lower left angle of the frame line 68A.
  • the training data generation unit 53 may output the coordinates of one corner of the frame line 68A and the lengths of the vertical and horizontal sides constituting the frame line 68A.
  • the training data generation unit 53 may output the coordinates of the center of the frame line 68A and the lengths from the center to the vertical and horizontal sides.
  • the position coordinates of the specific subject image S are represented by the coordinates when the lower left corner of the live view image 66 is the origin, but the technique of the present disclosure is not limited to this, and other corners of the live view image 66 are used. It may be the origin, or the center of the live view image 66 may be the origin.
  • the second embodiment is different from the first embodiment in that the focus target area F designated by being surrounded by the AF frame 68 is not extracted as the specific subject image S.
  • the differences from the first embodiment will be specifically described.
  • the same components and operations as those of the first embodiment are designated by the same reference numerals, and the description thereof will be omitted.
  • the touch panel monitor 30 displays a live view image 66 based on an image pickup signal output from the image sensor 24, and further, the AF frame 68 is live. It is superimposed and displayed on the view image 66.
  • the training data generation unit 53 receives a position change instruction and a size change instruction from the user 11 via the reception unit 60 in the live view image 66, thereby viewing the left eye of the specific subject A.
  • the AF frame 68 is arranged on the image shown. After that, the AF operation is performed, so that the area of the left eye of the specific subject A surrounded by the frame line 68A is designated as the focus target area F.
  • the training data generation unit 53 accepts the designation of the focus target area F in the live view image 66. After that, the image pickup apparatus 12 performs the main exposure operation, so that the training data generation unit 53 acquires the main exposure image P focused on the focus target area F.
  • the training data generation unit 53 sets a candidate area 78 including a focus target area F.
  • the candidate area 78 is a candidate area for extracting the specific subject image S.
  • the candidate area 78 is an example of a “predetermined area” according to the technique of the present disclosure.
  • the candidate area 78 is divided into, for example, a matrix of 9 rows ⁇ 9 columns.
  • reference numerals are given according to the positions of the divided regions for convenience of explanation.
  • the reference numeral D11 is attached to the divided area located in the first row and the first column of the candidate area 78
  • the reference numeral D21 is attached to the divided area located in the second row and the first column of the candidate area 78.
  • the term "divided area D" is comprehensively referred to.
  • the divided region D is an example of the "divided region" according to the technique of the present disclosure.
  • the divided area D55 located at the center of the candidate area 78 coincides with the focus target area F. That is, the position and size of the focus target area F are specified in the division area D unit.
  • the image sensor 24 includes a photoelectric conversion element 80.
  • the photoelectric conversion element 80 has a plurality of photosensitive pixels arranged in a matrix, and the light receiving surface 24A is formed by these photosensitive pixels.
  • the photosensitive pixel is a pixel having a photodiode PD, photoelectrically converts the received light, and outputs an electric signal according to the amount of received light.
  • the image data of each divided region D is generated based on the electric signals output from the plurality of photodiodes PD.
  • a color filter is arranged on the photodiode PD.
  • the color filter includes a G filter corresponding to the G (green) wavelength range, an R filter corresponding to the R (red) wavelength range, and a B filter corresponding to the B (blue) wavelength range, which contributes most to obtaining a brightness signal. include.
  • the photoelectric conversion element 80 includes two types of photosensitive pixels, a phase difference pixel 84 and a non-phase difference pixel 86, which is a pixel different from the phase difference pixel 84.
  • the non-phase difference pixel 86 is also referred to as a normal pixel.
  • the photoelectric conversion element 80 has three types of photosensitive pixels, R pixel, G pixel, and B pixel, as the non-phase difference pixel 86.
  • the R pixel, G pixel, B pixel, and retardation pixel 84 are in the row direction (for example, the horizontal direction when the bottom surface of the image pickup apparatus main body 20 is in contact with the horizontal plane) and the column direction (for example, with respect to the horizontal direction).
  • the R pixel is a pixel corresponding to the photodiode PD in which the R filter is arranged
  • the G pixel and the phase difference pixel 84 are pixels corresponding to the photodiode PD in which the G filter is arranged
  • the B pixel is B. It is a pixel corresponding to the photodiode PD in which the filter is arranged.
  • a plurality of phase difference pixel lines 82A and a plurality of non-phase difference pixel lines 82B are arranged on the light receiving surface 24A.
  • the retardation pixel line 82A is a horizontal line including the retardation pixel 84.
  • the phase difference pixel line 82A is a horizontal line in which the phase difference pixel 84 and the non-phase difference pixel 86 are mixed.
  • the non-phase difference pixel line 82B is a horizontal line including only a plurality of non-phase difference pixels 86.
  • the phase difference pixel lines 82A and the non-phase difference pixel lines 82B for a predetermined number of lines are alternately arranged along the column direction.
  • the "default number of lines" referred to here refers to, for example, two lines.
  • 2 lines are exemplified as the default number of lines, but the technique of the present disclosure is not limited to this, and the default number of lines may be 3 or more lines, or a dozen or more lines. , Dozens of lines, hundreds of lines, etc.
  • the phase difference pixel line 82A is arranged by skipping two rows in the column direction from the first row to the last row. A part of the pixels of the phase difference pixel line 82A is the phase difference pixel 84. Specifically, the phase difference pixel line 82A is a horizontal line in which the phase difference pixels 84 and the non-phase difference pixels 86 are periodically arranged.
  • the phase difference pixel 84 is roughly classified into a first phase difference pixel 84-L and a second phase difference pixel 84-R.
  • the first phase difference pixels 84-L and the second phase difference pixels 84-R are alternately arranged as G pixels at intervals of several pixels in the line direction.
  • the first phase difference pixel 84-L and the second phase difference pixel 84-R are arranged so as to appear alternately in the column direction.
  • the two phase difference pixels 84-R are arranged in this order. That is, the first phase difference pixels 84-L and the second phase difference pixels 84-R are alternately arranged along the column direction from the first row. Further, in the example shown in FIG.
  • the second phase difference pixel 84-R, the first phase difference pixel 84-L, and the second phase difference pixel 84-R are arranged along the column direction from the first row.
  • the first phase difference pixel 84-L are arranged in this order. That is, the second phase difference pixels 84-R and the first phase difference pixels 84-L are alternately arranged along the column direction from the first row.
  • the first phase difference pixel 84-L includes a light-shielding member 88-L, a microlens 90, and a photodiode PD.
  • a light-shielding member 88-L is arranged between the microlens 90 and the light-receiving surface of the photodiode PD.
  • the left half of the light receiving surface of the photodiode PD in the row direction (the left side when facing the subject from the light receiving surface, in other words, the right side when facing the light receiving surface from the subject) is shielded by the light shielding member 88-L.
  • the second phase difference pixel 84-R includes a light-shielding member 88-R, a microlens 90, and a photodiode PD.
  • the light-shielding member 88-R is arranged between the microlens 90 and the light-receiving surface of the photodiode PD.
  • the right half of the light receiving surface of the photodiode PD in the row direction (the right side when facing the subject from the light receiving surface, in other words, the left side when facing the light receiving surface from the subject) is shielded by the light shielding member 88-R.
  • the light-shielding member 88-L and 88-R are referred to as "light-shielding member 88".
  • the luminous flux passing through the exit pupil of the image pickup lens 40 is roughly classified into left region passing light 92L and right region passing light 92R.
  • the left region passing light 92L refers to the left half of the luminous flux passing through the exit pupil of the image pickup lens 40 when facing the subject side from the phase difference pixel 84 side
  • the right region passing light 92R refers to the imaging lens.
  • the luminous flux passing through the exit pupil of 40 it refers to the luminous flux of the right half when facing the subject side from the phase difference pixel 84 side.
  • the luminous flux passing through the exit pupil of the image pickup lens 40 is divided into left and right by the microlens 90 functioning as a pupil dividing portion, the light-shielding member 88-L, and the light-shielding member 88-R, and the first phase difference pixel 84-L is the subject.
  • the left region passing light 92L is received as light
  • the second phase difference pixel 84-R receives the right region passing light 92R as subject light.
  • the photoelectric conversion element 80 combines the first phase difference image data corresponding to the subject image corresponding to the left region passing light 92L and the second phase difference image data corresponding to the subject image corresponding to the right region passing light 92R. Generated.
  • the training data generation unit 53 is a first phase difference image for one line from the first phase difference pixels 84-L arranged on the same phase difference pixel line 82A among the phase difference pixels 84 that image the focus target area F. Data is acquired, and the second phase difference image data for one line is acquired from the second phase difference pixels 84-R arranged on the same phase difference pixel line 82A.
  • the training data generation unit 53 measures the distance to the focus target region F based on the deviation amount ⁇ between the first phase difference image data for one line and the second phase difference image data for one line. Since the method of deriving the distance from the deviation amount ⁇ to the focus target region F is a known technique, detailed description thereof will be omitted here.
  • the training data generation unit 53 derives the in-focus position of the focus lens 40B by performing an AF calculation based on the measured distance to the focus target area F.
  • the focusing position of the focus lens 40B derived based on the distance to the focus target area F is also referred to as a “focus target area focusing position”.
  • the training data generation unit 53 performs a focus operation for aligning the focus lens 40B with the focus target region focusing position.
  • the training data generation unit 53 includes 1 from the first phase difference pixels 84-L arranged on the same phase difference pixel line 82A among the phase difference pixels 84 that image each divided region D.
  • the first phase difference image data for one line is acquired, and the second phase difference image data for one line is acquired from the second phase difference pixels 84-R arranged on the same phase difference pixel line 82A.
  • the training data generation unit 53 measures the distance to each division region D based on the deviation amount ⁇ between the first phase difference image data for one line and the second phase difference image data for one line.
  • the training data generation unit 53 derives the in-focus position of the focus lens 40B in each division area D by performing an AF calculation based on the measured distance to each division area D.
  • the in-focus position of the focus lens 40B derived based on the distance to each division region D is also referred to as a “division region in-focus position”.
  • the distance from the focus target area focusing position to the division area focusing position (hereinafter, referred to as “distance between focusing positions”) is less than a predetermined distance threshold value. It is determined whether or not it is.
  • the training data generation unit 53 identifies that the divided region D in which the distance between the focusing positions is less than the distance threshold is a region having a high degree of similarity to the focus target region F.
  • the distance threshold value is a value derived in advance as a threshold value for extracting the specific subject image S by, for example, a test using an actual machine and / or a computer simulation.
  • the distance threshold may be a fixed value or a variable value that is changed according to given instructions and / or conditions (eg, imaging conditions, etc.).
  • the distance between the in-focus positions is an example of the "similar evaluation value” related to the technique of the present disclosure.
  • the focus target area focusing position is an example of the "focus evaluation value” according to the technique of the present disclosure.
  • the distance threshold value is an example of the "first predetermined range” according to the technique of the present disclosure.
  • the training data generation unit 53 focuses on 80 of the 81 divided areas D included in the candidate area 78, excluding the focus target area F (divided area D55). Calculate the distance between positions.
  • the training data generation unit 53 determines whether or not the calculated distance between the in-focus positions is less than the distance threshold value.
  • the divided region D indicated by hatching is a divided region determined to have a distance between focusing positions less than the distance threshold value, that is, a divided region specified to have a high degree of similarity to the focus target region F. ..
  • the training data generation unit 53 extracts the specific subject image S from the main exposure image P based on the specified divided region D.
  • the training data generation unit 53 extracts a rectangular specific subject image S in units of the divided regions D so as to surround the specified divided region D without excess or deficiency.
  • FIG. 16 shows an example of the flow of the training data generation process according to the second embodiment.
  • steps ST201 to ST209 are the same as steps ST101 to ST109 in FIG. 11, so the description thereof will be omitted.
  • step ST210 the training data generation unit 53 sets the candidate area 78 and the divided area D in the main exposure image P. After that, the training data generation process proceeds to step ST211.
  • step ST211th the training data generation unit 53 calculates the distance between the in-focus positions of each division region D. After that, the training data generation process proceeds to step ST212.
  • step ST212 the training data generation unit 53 specifies the division region D in which the distance between the in-focus positions is less than the distance threshold value. After that, the training data generation process proceeds to step ST213.
  • step ST213 the training data generation unit 53 extracts the specific subject image S from the main exposure image P based on the specified divided region D. Further, the training data generation unit 53 acquires the position coordinates of the extracted specific subject image S. After that, the training data generation process proceeds to step ST214.
  • step ST214 the training data generation unit 53 associates the specific subject data with the label L and outputs the data to the learning device 14.
  • the specific subject data is data including the main exposure image P and the position coordinates of the specific subject image S.
  • the learning device 14 stores the received specific subject data and the label L as training data 17 in the database 16. This ends the training data generation process.
  • the training data generation unit 53 causes the touch panel monitor 30 to display the live view image 66 based on the image pickup signal output from the image sensor 24.
  • the training data generation unit 53 receives the designation of the focus target area F from the user 11 via the reception unit 60 in the live view image 66.
  • the training data generation unit 53 is based on the divided region D in which the distance between the in-focus positions indicating the similarity to the focus target region F is less than the distance threshold among the candidate regions 78 including the focus target region F, and the present exposure image is obtained.
  • the specific subject image S is extracted from P.
  • the training data 17 used for learning can be collected by a simple operation as compared with the case where the entire specific subject A must be designated as the focus target area F.
  • the training data generation unit 53 displays the focus target area F in a manner distinguishable from other image areas by displaying the AF frame 68 surrounding the focus target area F. Therefore, according to this configuration, the user 11 can easily recognize the specific subject image S as compared with the case where the AF frame 68 is not displayed.
  • At least one of the focus target area F and the specific subject image S is defined by the divided area D unit obtained by dividing the candidate area 78. Therefore, according to this configuration, the processing required to extract the specific subject image S from the main exposure image P becomes easier than in the case where the candidate region 78 is not divided.
  • the distance (distance between the in-focus positions) from the in-focus position of the focus target area used for the focus operation to the in-focus position of each divided area is similar to the focus target area F. It is used as an evaluation value. Therefore, according to the present configuration, the training data generation unit 53 can easily extract the specific subject image S from the main exposure image P as compared with the case where the focus target region focusing position used for the focus operation is not used. can.
  • the focus target area F includes one divided area D55, but the focus target area F includes two or more divided areas D. May be specified as.
  • the position and size of the candidate area 78 are not limited to the example shown in FIG. 13, and the candidate area 78 can be set to any position and size as long as it includes the focus target area F.
  • the number, position, and size of the divided region D are not limited to the example shown in FIG. 13, and can be arbitrarily changed.
  • the training data generation unit 53 selects only the divided region D in which the distance between the in-focus positions with respect to the focus target region F is less than the distance threshold value, that is, the divided region D shown by hatching in FIG. 13 as a specific subject. It may be extracted as an image S.
  • the third embodiment is different from the second embodiment in that the color evaluation value based on the color information of the candidate region 78 is used as the similar evaluation value instead of the distance between the focusing positions.
  • the differences from the second embodiment will be described.
  • the same configurations and operations as those of the first and second embodiments are designated by the same reference numerals, and the description thereof will be omitted.
  • a focus target area F As shown in FIG. 17, in the present exposure image P, a focus target area F, a candidate area 78, and a plurality of divided areas D are set as in the second embodiment.
  • the training data generation unit 53 calculates the RGB integrated value of each division area D.
  • the RGB integrated value is a value obtained by integrating the electric signals for each RGB in each divided region D. Further, the training data generation unit 53 calculates an RGB value indicating the color of each divided region D based on the RGB integrated value.
  • the training data generation unit 53 calculates the color difference between the focus target area F and each divided area D (hereinafter, simply referred to as “color difference”) with reference to the color of the divided area D 55 corresponding to the focus target area F.
  • RGB value of the focus target area F is (R F, G F, B F) is, RGB values of the divided region D (R D, G D, B D) if it is, the focus target area F division
  • the color difference from the region D is calculated using the following formula.
  • the training data generation unit 53 determines whether or not the calculated color difference is less than a predetermined color difference threshold value for each divided region D.
  • the training data generation unit 53 identifies that the divided region D in which the color difference is less than the color difference threshold is a region having a high degree of similarity to the focus target region F.
  • the color difference threshold value is a value derived in advance as a threshold value for extracting the specific subject image S by, for example, a test using an actual machine and / or a computer simulation.
  • the color difference threshold may be a fixed value or a variable value that is changed according to a given instruction and / or a condition (for example, an imaging condition).
  • the RGB value is an example of "color information" according to the technique of the present disclosure.
  • the color difference is an example of the "similar evaluation value” and the "color evaluation value” according to the technique of the present disclosure.
  • the color difference threshold is an example of the "first predetermined range" according to the technique of the present disclosure.
  • the training data generation unit 53 makes a color difference for 80 divided areas D excluding the focus target area F (divided area D55) among the 81 divided areas D included in the candidate area 78. calculate.
  • the training data generation unit 53 determines whether or not the calculated color difference is less than the color difference threshold.
  • the divided region D indicated by hatching is a divided region determined to have a color difference of less than the color difference threshold value, that is, a divided region specified to have a high degree of similarity to the focus target region F.
  • the training data generation unit 53 extracts a rectangular specific subject image S from the main exposure image P in units of the divided regions D so as to surround the specified divided region D without excess or deficiency.
  • FIG. 18 shows an example of the flow of the training data generation process according to the third embodiment.
  • steps ST301 to ST309 are the same as steps ST101 to ST109 in FIG. 11, so the description thereof will be omitted.
  • step ST310 is the same as step ST210 in FIG. 16, so the description thereof will be omitted.
  • step ST311 the training data generation unit 53 calculates the color difference of each divided region D. After that, the training data generation process proceeds to step ST312.
  • step ST312 the training data generation unit 53 specifies the division region D whose color difference is less than the color difference threshold. After that, the training data generation process proceeds to step ST313.
  • step ST313 the training data generation unit 53 extracts the specific subject image S from the main exposure image P based on the specified divided region D. Further, the training data generation unit 53 acquires the position coordinates of the extracted specific subject image S. After that, the training data generation process proceeds to step ST314.
  • step ST314 the training data generation unit 53 associates the specific subject data with the label L and outputs the data to the learning device 14.
  • the specific subject data is data including the main exposure image P and the position coordinates of the specific subject image S.
  • the learning device 14 stores the received specific subject data and the label L as training data 17 in the database 16. This ends the training data generation process.
  • the color difference between the focus target area F and each divided area D is used as a similarity evaluation value. Therefore, according to the present configuration, the training data generation unit 53 can easily extract the specific subject image S from the main exposed image P as compared with the case where the color difference between the focus target area F and each divided area D is not used. can.
  • the training data generation unit 53 uses the color difference between the focus target area F and each divided area D as a similar evaluation value, but the technique of the present disclosure is not limited to this.
  • the training data generation unit 53 uses the difference in saturation between the focus target area F and each division area D as a similar evaluation value in addition to or instead of the color difference between the focus target area F and each division area D. You may use it.
  • the training data generation unit 53 extracts the specific subject image S from the main exposure image P by using both the in-focus position distance and the color difference. Since the configuration of the image pickup apparatus 12 according to the fourth embodiment is the same as that of the first embodiment, the description thereof will be omitted. Further, since the method of calculating the distance between the in-focus positions and the color difference according to the fourth embodiment is the same as that of the second and third embodiments, the description thereof will be omitted.
  • FIG. 19 shows an example of the flow of the training data generation process according to the fourth embodiment.
  • steps ST401 to ST409 are the same as steps ST101 to ST109 in FIG. 11, so the description thereof will be omitted.
  • step ST410 is the same as step ST210 in FIG. 16, so the description thereof will be omitted.
  • step ST411 the training data generation unit 53 calculates the distance between the in-focus positions of each division region D. After that, the training data generation process proceeds to step ST412.
  • step ST412 the training data generation unit 53 calculates the color difference of each divided region D. After that, the training data generation process proceeds to step ST413.
  • step ST413 the training data generation unit 53 specifies the division region D in which the distance between the in-focus positions is less than the distance threshold value and the color difference is less than the color difference threshold value. After that, the training data generation process proceeds to step ST414.
  • step ST414 the training data generation unit 53 extracts the specific subject image S from the main exposure image P based on the specified divided region D. Further, the training data generation unit 53 acquires the position coordinates of the extracted specific subject image S. After that, the training data generation process proceeds to step ST415.
  • step ST415 the training data generation unit 53 associates the specific subject data with the label L and outputs the data to the learning device 14.
  • the learning device 14 stores the received specific subject data and the label L as training data 17 in the database 16. This ends the training data generation process.
  • both the in-focus position distance and the color difference are used as similar evaluation values. Therefore, according to this configuration, the training data generation unit 53 can accurately extract the specific subject image S from the main exposure image P as compared with the case where both the in-focus position distance and the color difference are not used.
  • the fifth embodiment is effective, for example, when the specific subject is a moving object.
  • the specific subject moves between the AF operation and the main exposure operation and it is determined that the reliability of the specific subject image S extracted from the main exposure image P is low, the reliability is high. Warning information indicating low is added to the specific subject data.
  • the fifth embodiment will be described with reference to FIGS. 20 to 22. Since the configuration of the image pickup apparatus 12 according to the fifth embodiment is the same as that of the first embodiment, the description thereof will be omitted.
  • the training data generation unit 53 acquires, for example, one frame of the live view image 66 continuously captured at a frame rate of 60 fps. do.
  • the training data generation unit 53 indicates a specific subject in the live view image 66 of one frame based on the distance between the in-focus positions described in the second embodiment and / or the color difference described in the third embodiment.
  • An image (hereinafter referred to as "live view specific subject image LS") is extracted.
  • the live view specific subject image LS is an example of the "specific subject image for display" according to the technique of the present disclosure.
  • the training data generation unit 53 obtains the coordinates of the lower right angle Q 1L and the upper left angle Q 2L of the extracted live view specific subject image LS as the position coordinates of the live view specific subject image LS. Further, the training data generation unit 53 determines the size of the live view specific subject image LS and the coordinates of the center point Q CL of the live view specific subject image LS (X CL , Y) based on the position coordinates of the live view specific subject image LS. CL ) (hereinafter referred to as "center coordinates of live view specific subject image LS").
  • the training data generation unit 53 acquires the main exposure image P.
  • the training data generation unit 53 extracts the specific subject image S from the main exposure image P by the same method as the extraction of the live view specific subject image LS.
  • the training data generation unit 53 obtains the coordinates of the lower right corner Q 1E and the upper left corner Q 2E of the extracted specific subject image S as the position coordinates of the specific subject image S. Further, the training data generation unit 53 determines the size of the specific subject image S and the coordinates ( XCE , YCE ) of the center point QCE of the specific subject image S based on the position coordinates of the specific subject image S (hereinafter, “. It is referred to as "center coordinates of the specific subject image S").
  • the training data generation unit 53 calculates the degree of size difference between the live view specific subject image LS and the specific subject image S by comparing the size of the live view specific subject image LS with the size of the specific subject image S. As an example, as shown in FIG. 20, the training data generation unit 53 warns that the reliability of the extracted specific subject image S is low when the calculated size difference degree exceeds a predetermined size default range.
  • the information is output to the learning device 14 together with the specific subject data and the label L.
  • the size difference is an example of the "difference" according to the technique of the present disclosure.
  • the size default range is an example of the "second default range” according to the technique of the present disclosure.
  • the process of outputting the warning information is an example of the "abnormality detection process" according to the technique of the present disclosure.
  • the training data generation unit 53 compares the center coordinates of the live view specific subject image LS with the center coordinates of the specific subject image S to determine the center position of the live view specific subject image LS and the specific subject image S. Calculate the degree of difference. As shown in FIG. 21 as an example, the training data generation unit 53 warns that the reliability of the extracted specific subject image S is low when the calculated difference in the center position exceeds a predetermined position predetermined range.
  • the warning information to be used is output to the learning device 14 together with the specific subject data and the label L.
  • the degree of difference in the center position is an example of the "degree of difference" according to the technique of the present disclosure.
  • the position default range is an example of the "second default range” according to the technique of the present disclosure.
  • FIGS. 22A and 22B show an example of the flow of the training data generation process according to the fifth embodiment.
  • steps ST501 to ST507 are the same as steps ST101 to ST107 in FIG. 11, so the description thereof will be omitted.
  • step ST508 the training data generation unit 53 acquires one frame of the live view image 66. After that, the training data generation process proceeds to step ST509.
  • step ST509 the training data generation unit 53 sets the candidate area 78 and the divided area D in the acquired live view image 66 of one frame. After that, the training data generation process proceeds to step ST510.
  • step ST510 the training data generation unit 53 calculates the distance between the in-focus positions and / or the color difference of each division region D. After that, the training data generation process proceeds to step ST511.
  • step ST511 the training data generation unit 53 specifies a division region D that satisfies the “distance between in-focus positions ⁇ distance threshold value” and / or “color difference ⁇ color difference threshold value”. After that, the training data generation process proceeds to step ST512.
  • step ST512 the training data generation unit 53 extracts the live view specific subject image LS from the live view image 66 of one frame based on the specified divided region D. After that, the training data generation process proceeds to step ST513.
  • step ST513 the training data generation unit 53 calculates the position coordinates, size, and center coordinates of the live view specific subject image LS. After that, the training data generation process proceeds to step ST514.
  • step ST514 the training data generation unit 53 determines whether or not the main exposure has been performed. When the main exposure is performed in step ST514, the determination is affirmed, and the training data generation process shifts to step ST515. If the main exposure is not performed in step ST514, the determination is denied and the training data generation process shifts to step ST506.
  • step ST515 the training data generation unit 53 acquires the main exposure image P. After that, the training data generation process proceeds to step ST516.
  • step ST516 the training data generation unit 53 sets the candidate area 78 and the divided area D in the main exposure image P. After that, the training data generation process proceeds to step ST517.
  • step ST517 the training data generation unit 53 calculates the distance between the in-focus positions and / or the color difference of each division region D. After that, the training data generation process proceeds to step ST518.
  • step ST518 the training data generation unit 53 specifies a division region D that satisfies the “distance between in-focus positions ⁇ distance threshold value” and / or “color difference ⁇ color difference threshold value”. After that, the training data generation process proceeds to step ST519.
  • step ST519 the training data generation unit 53 extracts the specific subject image S from the main exposure image P based on the specified divided region D. After that, the training data generation process proceeds to step ST520.
  • step ST520 the training data generation unit 53 calculates the position coordinates, the size, and the center coordinates of the specific subject image S. After that, the training data generation process proceeds to step ST521.
  • step ST521 the training data generation unit 53 compares the size of the live view specific subject image LS with the size of the specific subject image S to determine the degree of size difference between the live view specific subject image LS and the specific subject image S. calculate. After that, the training data generation process proceeds to step ST522.
  • step ST522 the training data generation unit 53 determines whether or not the calculated size difference degree is within the size default range. In step ST522, if the degree of size difference is within the size default range, the determination is affirmed, and the training data generation process shifts to step ST523. If the degree of size difference exceeds the size default range in step ST522, the determination is denied and the training data generation process shifts to step ST526.
  • step ST523 the training data generation unit 53 compares the center position of the live view specific subject image LS with the center position of the specific subject image S, whereby the center position of the live view specific subject image LS and the specific subject image S is compared. Calculate the degree of difference. After that, the training data generation process proceeds to step ST524.
  • step ST524 the training data generation unit 53 determines whether or not the calculated difference in the center position is within the position default range. In step ST524, if the degree of difference in the center position is within the position default range, the determination is affirmed, and the training data generation process shifts to step ST525. If the difference in the center position exceeds the predetermined position range in step ST524, the determination is denied and the training data generation process proceeds to step ST526.
  • step ST525 the training data generation unit 53 associates the specific subject data with the label L and outputs the data to the learning device 14.
  • the specific subject data is data including the main exposure image P and the position coordinates of the specific subject image S.
  • step ST526 the training data generation unit 53 outputs warning information to the learning device 14 in addition to the specific subject data and the label L. This ends the training data generation process.
  • the training data generation unit 53 includes the live view specific subject image LS extracted from the live view image 66 and the specific subject image S extracted from the present exposure image P. If the degree of difference in size between the image and the image exceeds the default range of size, or if the degree of difference in the center position between the live view specific subject image LS and the specific subject image S exceeds the predetermined position range, the warning information is learned. Output to. Therefore, since the specific subject data related to the specific subject image S determined to have low reliability is given warning information and output to the learning device 14, the quality of the training data 17 is higher than that in the case where the warning information is not given. improves.
  • the training data generation unit 53 adds warning information to the specific subject data related to the specific subject image S determined to have low reliability and outputs the warning information to the learning device 14, which is disclosed in the present disclosure.
  • Technology is not limited to this.
  • the training data generation unit 53 does not have to output the specific subject data regarding the specific subject image S determined to have low reliability to the learning device 14.
  • the training data generation unit 53 may add a reliability degree indicating the reliability to the specific subject image S to the specific subject data and output the specific subject data to the learning device 14. In this case, the learning device 14 does not have to accept the specific subject data having a low reliability by referring to the reliability.
  • the training data generation unit 53 causes the image sensor 24 to perform the main exposure operation at a plurality of focusing positions, so that the main exposure image P is in focus on the focus target area F.
  • the main exposed image P (hereinafter, also referred to as “out-of-focus image”) out of focus on the focus target area F is acquired.
  • the training data generation unit 53 not only outputs the specific subject data regarding the specific subject image S appearing in the in-focus image as training data 17, but also outputs the specific subject data regarding the specific subject image S appearing in the out-of-focus image. Is output as training data 17.
  • the sixth embodiment will be described with reference to FIGS. 23 to 25. Since the configuration of the image pickup apparatus 12 according to the sixth embodiment is the same as that of the first embodiment, the description thereof will be omitted.
  • the training data generation unit 53 includes a plurality of in-focus positions derived by performing an AF calculation on the image sensor 24 based on the distance to the focus target area F.
  • the main exposure operation is performed at the in-focus position.
  • the training data generation unit 53 refers to the image sensor 24 based on the distance to the focus target area F.
  • the main exposure operation is performed at five in-focus positions including the in-focus position derived from the above.
  • the five focusing positions are an example of "plural focusing positions" according to the technique of the present disclosure.
  • the image sensor 24 has, in addition to the main exposure image (focused image) P3 in which the specific subject A is in focus, the main exposure image (out of focus image) P1 in which the specific subject A is out of focus.
  • the out-of-focus images P1 and P2 are front-pin images that are in focus on a subject closer to the image pickup device 12 than the specific subject A.
  • the out-of-focus images P4 and P5 are rear-focus images focused on a subject farther from the image pickup apparatus 12 than the specific subject A.
  • the in-focus image P3 is an example of the "focus image” according to the technique of the present disclosure.
  • the out-of-focus images P1, P2, P4, and P5 are examples of "out-of-focus images" according to the technique of the present disclosure.
  • the training data generation unit 53 extracts the specific subject image S from the in-focus image P3 based on the distance between the in-focus positions described in the second embodiment and / or the color difference described in the third embodiment. Further, the training data generation unit 53 obtains the position coordinates of the extracted specific subject image S.
  • the training data generation unit 53 associates the in-focus image P3 with the position coordinates of the specific subject image S with the label L and outputs the training data 17-3 to the learning device 14. do.
  • the training data generation unit 53 associates the out-of-focus images P1, P2, P4, or P5 with the position coordinates of the specific subject image S extracted from the in-focus image P3 and the label L for training. It is output to the learning device 14 as data 17-1, 17-2, 17-4, or 17-5. That is, the training data generation unit 53 outputs the position coordinates of the specific subject image S extracted from the in-focus image P3 as the position coordinates of the specific subject image S in the out-of-focus images P1, P2, P4, or P5.
  • the learning device 14 receives the training data 17-1 to 17-5 and stores them in the database 16.
  • FIG. 25 shows an example of the flow of the training data generation process according to the sixth embodiment.
  • steps ST601 to ST607 are the same as steps ST101 to ST107 in FIG. 11, so the description thereof will be omitted.
  • step ST608 the training data generation unit 53 determines whether or not the main exposure operation has been performed.
  • the main exposure operation is performed in step ST608, the determination is affirmed, the main exposure operation is performed at a plurality of focusing positions including the focusing position based on the distance to the focus target area F, and the training data.
  • the generation process proceeds to step ST609. If the main exposure operation is not performed in step ST608, the determination is denied and the training data generation process shifts to step ST606.
  • step ST609 the training data generation unit 53 acquires a plurality of main exposure images P1 to P5.
  • the main exposure image P3 is an in-focus image
  • the main exposure images P1, P2, P4, and P5 are out-of-focus images. After that, the training data generation process proceeds to step ST610.
  • step ST610 the training data generation unit 53 sets the candidate area 78 and the divided area D in the in-focus image P3. After that, the training data generation process proceeds to step ST611.
  • step ST611 the training data generation unit 53 calculates the distance between the in-focus positions and / or the color difference of each division region D. After that, the training data generation process proceeds to step ST612.
  • step ST612 the training data generation unit 53 specifies a division region D in which the distance between the in-focus positions is less than the distance threshold value and / or the color difference is less than the color difference threshold value. After that, the training data generation process proceeds to step ST613.
  • step ST613 the training data generation unit 53 extracts the specific subject image S from the main exposure image (focused image) P3 based on the specified divided region D. After that, the training data generation process proceeds to step ST614.
  • step ST614 the training data generation unit 53 acquires the position coordinates of the specific subject image S. After that, the training data generation process proceeds to step ST615.
  • step ST615 the specific subject data and the label L are associated and output to the learning device 14.
  • the specific subject data is data including each of the main exposed images P1 to P5 and the position coordinates of the specific subject image S extracted from the main exposed image P3. Therefore, in the sixth embodiment, five types of specific subject data are output by executing the training data generation process once.
  • the learning device 14 stores the specific subject data and the label L in association with each other in the database 16. This ends the training data generation process.
  • the image sensor 24 performs the main exposure operation at a plurality of focusing positions.
  • the training data generation unit 53 sets the position coordinates of the specific subject image S obtained from the in-focus image P3 for each of the plurality of main-exposure images P1 to P5 obtained by performing the main exposure operation, and sets the position coordinates of the specific subject image S to the out-of-focus image P1. , P2, P4, and P5 are output as the position coordinates of the specific subject image S. Therefore, according to this configuration, the training data generation unit 53 is out of focus with the specific subject data related to the specific subject image S included in the in-focus image P3, as compared with the case where the specific subject image S is manually extracted. It is possible to easily acquire the specific subject data related to the specific subject image S included in each of the images P1, P2, P4, and P5.
  • the training data generation unit 53 can individually assign labels to a plurality of main exposed images P1 to P5 by selecting the label L once. As a result, it is possible to save the trouble of attaching the label L to the plurality of main exposed images P1 to P5. Further, the training data generation unit 53 may attach a label L to the main exposure images P1 to P5 after shooting. Even in that case, it is desirable that the label L is given to a plurality of continuously captured main exposure images P1 to P5 by selecting the label L once. If the label L is individually attached after shooting, there may be a problem that the image cannot be identified depending on how the out-of-focus image is out of focus.
  • the training data generation unit 53 outputs five types of specific subject data obtained by performing imaging at five focusing positions in one main exposure operation.
  • the techniques of the present disclosure are not limited to this.
  • the focusing position where the image sensor 24 takes an image may be more or less than five.
  • the training data generation unit 53 outputs specific subject data for each type according to the number of in-focus positions.
  • the training data generation unit 53 may assign an AF evaluation value indicating the degree of out-of-focus to the specific subject data including the out-of-focus images P1, P2, P4, and P5. good. Further, the training data generation unit 53 may attach a label indicating “focused” or “out-focused” to the specific subject data based on the AF evaluation value. As a result, the quality of the training data 17 is improved as compared with the case where the AF evaluation value is not given.
  • the specific subject data includes the main exposed image P and the position coordinates of the specific subject image S, but the technique of the present disclosure is not limited to this.
  • the specific subject data may be the specific subject image S cut out from the main exposure image P.
  • the training data generation unit 53 associates the specific subject image S cut out from the main exposure image P with the label L and outputs it as training data 17 used for machine learning. According to this configuration, the size of the output specific subject data is smaller than that in the case where the main exposed image P is output without being cut out.
  • the training data generation unit 53 outputs the specific subject data as data used for machine learning
  • the training data generation unit 53 specifically indicates the position coordinates of the main exposure image P and the specific subject image S. It includes a storage process for storing the above, a cutout process for cutting out a specific subject image S from the main exposed image P, and the like.
  • the frame line 68A is rectangular, but the technique of the present disclosure is not limited to this, and the shape of the frame line 68A can be arbitrarily changed.
  • the focus target area F is displayed in a manner distinguishable from other image areas.
  • the disclosed technology is not limited to this.
  • the training data generation unit 53 may display an arrow on the live view image 66, and the area designated by the arrow may be the focus target area F, for example. Further, the training data generation unit 53 accepts the designation of the focus target area F by detecting the contact with the touch panel 36 by the indicator, for example, and the designated focus target area F is in a color that can be distinguished from other image areas. It may be displayed.
  • the learning device 14 stores the training data 17 output from the image pickup device 12 in the database 16, and performs machine learning using the training data 17 stored in the database 16.
  • the techniques of the present disclosure are not limited to this.
  • the CPU 50A of the image pickup apparatus 12 may store the training data 17 acquired by itself in the NVM50B, and perform machine learning using the training data 17 stored in the NVM50B. According to this configuration, since the image pickup device 12 can acquire and learn the training data 17, the number of devices is smaller than that in the case where the acquisition and learning of the training data 17 are performed by another device. It's done.
  • the training data generation unit 53 touches the label selection screen 64 before the AF operation and the main exposure operation. -Display on the monitor 30 and let the user 11 select the label L, but the technique of the present disclosure is not limited to this. After having the image sensor 24 acquire the main exposure image P, the training data generation unit 53 may display the label selection screen 64 on the touch panel monitor 30 and accept the selection of the label L from the user 11.
  • the training data generation unit 53 associates the specific subject data with the label L and outputs the training data 17 to the learning device 14 as the training data 17 used for supervised machine learning.
  • the techniques of the present disclosure are not limited to this.
  • the training data generation unit 53 may output only specific subject data to the learning device 14.
  • the user 11 may label the specific subject data in the learning device 14. Further, labeling of specific subject data does not have to be performed.
  • the specific subject data may be used as training data for unsupervised machine learning, or may be used in a conventional pattern recognition technique.
  • an example of a mode in which the non-phase difference pixel group 86G and the phase difference pixel group 84G are used in combination has been described, but the technique of the present disclosure is not limited to this.
  • an area sensor may be used in which the phase difference image data and the non-phase difference image data are selectively generated and read out.
  • a plurality of photosensitive pixels are arranged two-dimensionally on the area sensor.
  • a pair of independent photodiodes having no light-shielding member are used.
  • photoelectric conversion is performed by the entire region of the photosensitive pixel (a pair of photodiodes), and when phase difference image data is generated and read out (for example, passive distance measurement). ), Photoelectric conversion is performed by one of the pair of photodiodes.
  • one photodiode of the pair of photodiodes is a photodiode corresponding to the first phase difference pixel 84-L described in the above embodiment, and one of the pair of photodiodes is a photodiode.
  • phase difference image data and the non-phase difference image data may be selectively generated and read by all the photosensitive pixels included in the area sensor, but the present invention is not limited to this and is included in the area sensor.
  • the phase difference image data and the non-phase difference image data may be selectively generated and read by the photosensitive pixel of the unit.
  • the method of deriving the distance to the focus target region F has been described by taking the phase difference method as an example, but the technique of the present disclosure is not limited to this, and the TOF method is not limited thereto. , Or a contrast method may be used.
  • the training data generation program 51A may be stored in the storage medium 100.
  • the storage medium 100 is a non-temporary storage medium.
  • An example of the storage medium 100 is any portable storage medium such as an SSD or a USB memory.
  • the training data generation program 51A stored in the storage medium 100 is installed in the controller 50.
  • the CPU 50A executes the training data generation process according to the training data generation program 51A.
  • the training data generation program 51A is stored in a storage unit of another computer or server device connected to the controller 50 via a communication network (not shown), and training is performed in response to the request of the image pickup device 12 described above.
  • the data generation program 51A may be downloaded and installed in the controller 50.
  • controller 50 is built in the image pickup device 12
  • the technique of the present disclosure is not limited to this, and for example, the controller 50 is provided outside the image pickup device 12. You may be able to do it.
  • the CPU 50A is a single CPU, but may be a plurality of CPUs. Further, the GPU may be applied instead of the CPU 50A.
  • the controller 50 is exemplified, but the technique of the present disclosure is not limited to this, and a device including an ASIC, FPGA, and / or PLD may be applied instead of the controller 50. .. Further, instead of the controller 50, a combination of a hardware configuration and a software configuration may be used.
  • the processor includes software, that is, a CPU, which is a general-purpose processor that functions as a hardware resource for executing training data generation processing by executing a program.
  • examples of the processor include a dedicated electric circuit, which is a processor having a circuit configuration specially designed for executing a specific process such as FPGA, PLD, or ASIC.
  • a memory is built in or connected to any processor, and each processor executes a training data generation process by using the memory.
  • the hardware resource that performs the training data generation process may consist of one of these various processors, or a combination of two or more processors of the same type or dissimilarity (eg, a combination of multiple FPGAs, etc.). Alternatively, it may be composed of a combination of a CPU and an FPGA). Further, the hardware resource for executing the training data generation process may be one processor.
  • one processor is configured by a combination of one or more CPUs and software, and this processor functions as a hardware resource for executing a training data generation process.
  • this processor functions as a hardware resource for executing a training data generation process.
  • SoC there is a mode in which a processor that realizes the functions of the entire system including a plurality of hardware resources for executing training data generation processing with one IC chip is used.
  • the training data generation process is realized by using one or more of the above-mentioned various processors as a hardware resource.
  • a and / or B is synonymous with "at least one of A and B". That is, “A and / or B” means that it may be only A, it may be only B, or it may be a combination of A and B. Further, in the present specification, when three or more matters are connected and expressed by "and / or", the same concept as “A and / or B" is applied.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Studio Devices (AREA)

Abstract

情報処理装置は、プロセッサと、プロセッサに接続又は内蔵されたメモリと、を備える。プロセッサは、特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、撮像によって得られた撮像画像内の特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力する。

Description

情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラム
 本開示の技術は、情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラムに関する。
 国際公開第2008/133237号には、物体空間を撮影する撮像装置が開示されている。この撮像装置は、被写体特徴点学習手段と、被写体特徴点学習情報格納部と、撮影候補画像情報取得手段と、画像検索処理手段と、撮影条件調整手段とを備えることを特徴とする。被写体特徴点学習手段は、物体空間を撮影して得た画像情報から、所定の被写体の像を検出するとともに、被写体の像の特徴点を示す被写体特徴点学習情報を抽出する。被写体特徴点学習情報格納部は、被写体特徴点学習情報を格納する。撮影候補画像情報取得手段は、撮影の候補となる画像である撮影候補画像を取得する。画像検索処理手段は、取得した撮影候補画像から、撮影候補画像に含まれる少なくとも1つの被写体の像が有する特徴点を示す撮影候補画像特徴点情報の中に、被写体特徴点学習情報格納部に予め格納されていた被写体特徴点学習情報が示す特徴点と一致する特徴点を示すものが含まれているか否かを判定する。撮影条件調整手段は、判定の結果、撮影候補画像特徴点情報の中に、被写体特徴点学習情報が示す特徴点と一致する特徴点を示すものが含まれている場合に、撮影候補画像中の、撮影候補画像特徴点情報に対応する被写体に対して撮影条件の最適化を行わせるように、撮影条件の最適化を行う撮影条件最適化手段に指示を行う。
 特開2013-80428号公報には、第1装置が学習により適応させた第1学習データを取得する取得ステップと、第2装置が学習により適応させる第2学習データのデータ形式に基づいて、取得した第1学習データを、第2学習データのデータ形式に適合するデータ形式の学習データに変換するデータ変換ステップと、をコンピュータに実行させるプログラムが開示されている。
 本開示の技術に係る一つの実施形態は、イメージセンサによって撮像されることで得られる撮像画像から、機械学習に用いる特定被写体画像が手作業で選択される場合に比べ、機械学習に用いるデータを簡便に収集することができる情報処理装置を提供する。
 本開示の技術に係る第1の態様は、プロセッサと、プロセッサに接続又は内蔵されたメモリと、を備えた情報処理装置であって、プロセッサが、特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、撮像によって得られた撮像画像内の特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力する情報処理装置である。
 本開示の技術に係る第2の態様は、機械学習が、教師有り機械学習であり、プロセッサが、特定被写体画像に関する情報であるラベルを特定被写体データに付与し、特定被写体データを、教師有り機械学習に用いるトレーニングデータとして出力する第1の態様に係る情報処理装置である。
 本開示の技術に係る第3の態様は、プロセッサが、イメージセンサから出力された信号に基づいた表示用動画像がモニタに表示されている状態で、フォーカス対象領域を他画像領域と区別可能な態様で表示し、特定被写体画像が、撮像画像内のフォーカス対象領域の位置に対応する画像である第1の態様又は第2の態様に係る情報処理装置である。
 本開示の技術に係る第4の態様は、プロセッサが、表示用動画像において、フォーカス対象領域を取り囲む枠を表示することで、フォーカス対象領域を他画像領域と区別可能な態様で表示する第3の態様に係る情報処理装置である。
 本開示の技術に係る第5の態様は、枠の位置が、与えられた位置変更指示に従って変更可能である第4の態様に係る情報処理装置である。
 本開示の技術に係る第6の態様は、枠のサイズが、与えられたサイズ変更指示に従って変更可能である第4の態様又は第5の態様に係る情報処理装置である。
 本開示の技術に係る第7の態様は、プロセッサが、撮像画像とフォーカス対象領域の座標とを、機械学習に用いるデータとして出力する第1の態様から第6の態様の何れか一つの態様に係る情報処理装置である。
 本開示の技術に係る第8の態様は、プロセッサが、イメージセンサから出力された信号に基づいた表示用動画像をモニタに表示し、表示用動画像において、フォーカス対象領域の指定を受け付け、フォーカス対象領域を含む所定領域のうち、フォーカス対象領域に対する類似度を示す類似評価値が第1既定範囲内にある領域に基づいて、特定被写体画像を抽出する第1の態様又は第2の態様に係る情報処理装置である。
 本開示の技術に係る第9の態様は、プロセッサが、フォーカス対象領域を他画像領域と区別可能な態様で表示する第8の態様に係る情報処理装置である。
 本開示の技術に係る第10の態様は、フォーカス対象領域及び特定被写体画像のうちの少なくとも一方が、所定領域が分割されることで得られた分割領域単位で定められている第8の態様又は第9の態様に係る情報処理装置である。
 本開示の技術に係る第11の態様は、類似評価値が、フォーカス動作に使用されたフォーカス評価値に基づく値である第8の態様から第10の態様の何れか一つの態様に係る情報処理装置である。
 本開示の技術に係る第12の態様は、類似評価値が、所定領域の色情報に基づく色評価値である第8の態様から第11の態様の何れか一つの態様に係る情報処理装置である。
 本開示の技術に係る第13の態様は、プロセッサが、表示用動画像において特定被写体を示す表示用特定被写体画像と、特定被写体画像との相違度が第2既定範囲を超えている場合、異常検出処理を行い、表示用特定被写体画像は、類似評価値に基づいて定められている第8の態様から第12の態様の何れか一つの態様に係る情報処理装置である。
 本開示の技術に係る第14の態様は、特定被写体データが、特定被写体画像の座標を含み、プロセッサが、撮像画像と特定被写体画像の座標とを、機械学習に用いるデータとして出力する第1の態様から第13の態様の何れか一つの態様に係る情報処理装置である。
 本開示の技術に係る第15の態様は、特定被写体データが、撮像画像から切り出された特定被写体画像であり、プロセッサが、切り出された特定被写体画像を、機械学習に用いるデータとして出力する第1の態様から第14の態様の何れか一つの態様に係る情報処理装置である。
 本開示の技術に係る第16の態様は、プロセッサが、データをメモリに記憶し、メモリに記憶されているデータを用いて機械学習を行う第1の態様から第15の態様の何れか一つの態様に係る情報処理装置である。
 本開示の技術に係る第17の態様は、第1の態様から第15の態様の何れか一つの態様に係る情報処理装置から出力されたデータを受け付ける受付デバイスと、受付デバイスによって受け付けられたデータを用いて機械学習を行う演算装置と、を備える学習機器である。
 本開示の技術に係る第18の態様は、第1の態様から第16の態様のうちの何れか一つの態様に係る情報処理装置と、イメージセンサと、を備える撮像装置である。
 本開示の技術に係る第19の態様は、イメージセンサが、複数の合焦位置で撮像し、プロセッサが、撮像が行われることによって得られる複数の撮像画像について、特定被写体に合焦している合焦画像から得られる特定被写体画像の座標を、特定被写体に合焦していない非合焦画像における特定被写体画像の座標として出力する第18の態様に係る撮像装置である。
 本開示の技術に係る第20の態様は、特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、撮像によって得られた撮像画像内の特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力することを含む情報処理装置の制御方法である。
 本開示の技術に係る第21の態様は、コンピュータに、特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、撮像によって得られた撮像画像内の特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力することを含む処理を実行させるためのプログラムである。
トレーニングデータ生成システムの一例を示す概略図である。 撮像装置の前面側の外観の一例を示す斜視図である。 撮像装置の背面側の外観の一例を示す背面図である。 撮像装置のブロック図である。 トレーニングデータ撮像モードが選択された場合に、ラベル選択画面がモニタに表示される態様の一例を示す撮像装置の背面図である。 モニタに表示されたライブビュー画像に、AF枠を重畳表示している態様の一例を示す撮像装置の背面図である。 被写体の顔の位置に合わせてAF枠の位置を変更する態様の一例を示す撮像装置の背面図である。 被写体の顔の位置に合わせてAF枠のサイズを変更する態様の一例を示す撮像装置の背面図である。 AF枠の位置座標の一例を示す説明図である。 第1実施形態に係る情報処理装置から出力されたトレーニングデータが、データベースに記憶される態様の一例を示す説明図である。 第1実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。 被写体の左眼の位置に合わせてAF枠の位置及びサイズを変更させる態様の一例を示す撮像装置の背面図である。 第2実施形態に係る情報処理装置が、分割領域毎の合焦位置間距離に応じて、本露光画像から特定被写体画像を抽出する態様の一例を示す説明図である。 第2実施形態に係る情報処理装置を有する撮像装置の光電変換素子に含まれる各画素の配置の一例を示す概略図である。 図14に示す光電変換素子に含まれる第1位相差画素及第2位相差画素に対する被写体光の入射特性の一例を示す概念図である。 第2実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。 第3実施形態に係る情報処理装置が、分割領域毎の色差に応じて、本露光画像から特定被写体画像を抽出する態様の一例を示す説明図である。 第3実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。 第4実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。 ライブビュー画像と本露光画像との間で、特定被写体画像のサイズの相違度がサイズ既定範囲を超える場合、第5実施形態に係る情報処理装置が警告情報を学習機器に出力する態様の一例を示す説明図である。 ライブビュー画像と本露光画像との間で、特定被写体画像の中心位置の相違度が位置既定範囲を超える場合、第5実施形態に係る情報処理装置が警告情報を学習機器に出力する態様の一例を示す説明図である。 第5実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。 図22Aに示すフローチャートの続きである。 第6実施形態に係る情報処理装置が、特定被写体画像の位置座標を決定する態様の一例を示す説明図である。 第6実施形態に係る情報処理装置から出力されたトレーニングデータが、データベースに記憶される態様の一例を示す説明図である。 第6実施形態に係る情報処理装置によって行われるトレーニングデータ生成処理の流れの一例を示すフローチャートである。 本露光画像から特定被写体画像を切り出して出力する場合のトレーニングデータの一例を示す説明図である。 トレーニングデータ生成プログラムが記憶されている記憶媒体から、トレーニングデータ生成プログラムが撮像装置内のコントローラにインストールされる態様の一例を示すブロック図である。
 以下、添付図面に従って本開示の技術に係る撮像装置と撮像装置の動作方法との実施形態の一例について説明する。
 先ず、以下の説明で使用される文言について説明する。
 CPUとは、“Central Processing Unit”の略称を指す。RAMとは、“Random Access Memory”の略称を指す。NVMとは、“Non-Volatile Memory”の略称を指す。ICとは、“Integrated Circuit”の略称を指す。ASICとは、“Application Specific Integrated Circuit”の略称を指す。PLDとは、“Programmable Logic Device”の略称を指す。FPGAとは、“Field-Programmable Gate Array”の略称を指す。SoCとは、“System-on-a-chip”の略称を指す。SSDとは、“Solid State Drive”の略称を指す。USBとは、“Universal Serial Bus”の略称を指す。HDDとは、“Hard Disk Drive”の略称を指す。EEPROMとは、“Electrically Erasable and Programmable Read Only Memory”の略称を指す。ELとは、“Electro-Luminescence”の略称を指す。I/Fとは、“Interface”の略称を指す。UIとは、“User Interface”の略称を指す。TOFとは、“Time of Flight”の略称を指す。fpsとは、“frame per second”の略称を指す。MFとは、“Manual Focus”の略称を指す。AFとは、“Auto Focus”の略称を指す。以下では、説明の便宜上、本開示の技術に係る「プロセッサ」の一例として、CPUを例示しているが、本開示の技術に係る「プロセッサ」は、CPU及びGPU等のように複数の処理装置の組み合わせであってもよい。本開示の技術に係る「プロセッサ」の一例として、CPU及びGPUの組み合わせが適用される場合、GPUは、CPUの制御下で動作し、画像処理の実行を担う。
 本明細書の説明において、「垂直」とは、完全な垂直の他に、本開示の技術が属する技術分野で一般的に許容される誤差を含めた意味合いでの垂直を指す。
 以下の説明において、モニタに表示される「画像」以外で、「画像データ」ではなく「画像」と表現されている場合、「画像」には「画像を示すデータ(画像データ)」の意味も含まれる。本明細書において、「画像内の被写体」とは、画像内に像として含まれる被写体を意味する。
 [第1実施形態]
 一例として図1に示すように、トレーニングデータ生成システム10は、撮像装置12、学習機器14、及び学習機器14に接続されたデータベース16を備える。
 撮像装置12は、例えば、デジタルカメラである。撮像装置12は、インターネット等の通信網を介して、学習機器14に通信可能に接続されている。撮像装置12は、撮像系の動作モードとして、通常撮像モードと、トレーニングデータ撮像モードとを有する。通常撮像モードでは、撮像装置12は、メカニカルシャッタ48(図4参照)を作動させることで、イメージセンサ24の受光面24A(図4参照)に結像された画像(以下、「本露光画像」と称する)をメモリに記憶する。トレーニングデータ撮像モードでは、撮像装置12は、本露光画像内の特定被写体を示す画像(以下、「特定被写体画像」と称する)に関するデータを、機械学習に用いるデータとして、学習機器14に出力する。以下、特定被写体画像に関するデータを「特定被写体データ」とも称する。なお、機械学習は、例えば、ディープラーニング、及び畳み込みニューラルネットワーク等を含む。
 学習機器14は、例えば、コンピュータである。データベース16は、HDD又はEEPROM等のストレージを備え、学習機器14によって受け付けられたデータを記憶する。
 機械学習に用いるデータとは、例えば、機械学習において、モデルを構築するために用いられるトレーニングデータである。本実施形態において、トレーニングデータは、特定被写体データと、特定被写体画像に関する情報であるラベルとを含むラベル付き画像データである。学習機器14は、トレーニングデータを用いて教師有り機械学習を行うことにより、画像に写る被写体のクラスを分類するクラス分類モデルを構築する。
 図1に示す例では、撮像装置12のユーザ11(以下、単に「ユーザ11」と称する)は、撮像装置12をトレーニングデータ撮像モードに設定して、特定被写体A、B、及びCを順次撮像する。ユーザ11は、特定被写体Aを撮像する前に、撮像装置12において、受付部60(図4参照)を介して、「顔」を示すラベルLAを選択しておく。撮像装置12は、特定被写体Aを撮像することで得られた本露光画像PA内の特定被写体画像SAに関する特定被写体データと、ラベルLAとを対応付けて、トレーニングデータ17Aとして、学習機器14に出力する。学習機器14は、トレーニングデータ17Aを受け付け、特定被写体画像SAに関する特定被写体データとラベルLAとを対応付けてデータベース16に記憶する。
 同様に、ユーザ11は、特定被写体Bを撮像する前に、撮像装置12において、受付部60(図4参照)を介して、「車」を示すラベルLBを選択しておく。撮像装置12は、特定被写体Bを撮像することで得られた本露光画像PB内の特定被写体画像SBに関する特定被写体データと、ラベルLBとを対応付けて、トレーニングデータ17Bとして、学習機器14に出力する。学習機器14は、トレーニングデータ17Bを受け付け、特定被写体画像SBに関する特定被写体データとラベルLBとを対応付けてデータベース16に記憶する。
 また、ユーザ11は、特定被写体Cを撮像する前に、撮像装置12において、受付部60(図4参照)を介して、「花」を示すラベルLCを選択しておく。撮像装置12は、特定被写体Cを撮像することで得られた本露光画像PC内の特定被写体画像SCに関する特定被写体データと、ラベルLCとを対応付けて、トレーニングデータ17Cとして、学習機器14に出力する。学習機器14は、トレーニングデータ17Cを受け付け、特定被写体画像SCに関する特定被写体データとラベルLCとを対応付けてデータベース16に記憶する。
 ここで、本露光画像PA、PB、及びPCは、本開示の技術に係る「撮像画像」の一例である。特定被写体A、B、及びCは、本開示の技術に係る「特定被写体」の一例である。特定被写体画像SA、SB、及びSCは、本開示の技術に係る「特定被写体画像」の一例である。特定被写体データは、本開示の技術に係る「特定被写体データ」の一例である。なお、以下の説明において、本露光画像PA、PB、及びPCを区別して説明する必要がない場合には、包括的に「本露光画像P」と称する。また、以下の説明において、特定被写体A、B、及びCを区別して説明する必要がない場合には、符号を付けずに「特定被写体」と称する。また、以下の説明において、特定被写体画像SA、SB、及びSCを区別して説明する必要がない場合には、包括的に「特定被写体画像S」と称する。
 ラベルLA、LB、及びLCは、本開示の技術に係る「ラベル」の一例である。トレーニングデータ17A、17B、及び17Cは、本開示の技術に係る「データ」及び「トレーニングデータ」の一例である。なお、以下の説明において、ラベルLA、LB、及びLCを区別して説明する必要がない場合には、包括的に「ラベルL」と称する。また、以下の説明において、トレーニングデータ17A、17B、及び17Cを区別して説明する必要がない場合には、包括的に「トレーニングデータ17」と称する。
 一例として図2に示すように、撮像装置12は、レンズ交換式で、かつ、レフレックスミラーが省略されたデジタルカメラである。撮像装置12は、撮像装置本体20と、撮像装置本体20に交換可能に装着される交換レンズ22と、を備えている。なお、ここでは、撮像装置12の一例として、レンズ交換式で、かつ、レフレックスミラーが省略されたデジタルカメラが挙げられているが、本開示の技術はこれに限定されず、レンズ固定式のデジタルカメラであってもよいし、レフレックスミラーが省略されていないデジタルカメラであってもよいし、スマートデバイス、ウェアラブル端末、細胞観察装置、眼科観察装置、又は外科顕微鏡等の各種の電子機器に内蔵されるデジタルカメラであってもよい。
 撮像装置本体20には、イメージセンサ24が設けられている。イメージセンサ24は、光電変換素子80(図14参照)を備えている。イメージセンサ24は、受光面24A(図14参照)を有する。イメージセンサ24は、受光面24Aの中心と光軸OAとが一致するように撮像装置本体20内に配置されている。
 イメージセンサ24は、CMOSイメージセンサである。交換レンズ22が撮像装置本体20に装着された場合に、被写体を示す被写体光は、交換レンズ22を透過してイメージセンサ24に結像され、被写体の画像を示す画像データがイメージセンサ24によって生成される。ここで、イメージセンサ24は、本開示の技術に係る「イメージセンサ」の一例である。
 なお、本実施形態では、イメージセンサ24としてCMOSイメージセンサを例示しているが、本開示の技術はこれに限定されず、例えば、イメージセンサ24がCCDイメージセンサ等の他種類のイメージセンサであっても本開示の技術は成立する。
 撮像装置本体20の上面には、レリーズボタン26及びダイヤル28が設けられている。ダイヤル28は、撮像装置12の動作モードを設定する際に操作される。撮像装置12の動作モードとしては、通常撮像モードとトレーニングデータ撮像モードとを含む撮像系の動作モードと、再生モードを含む再生系の動作モードがある。
 レリーズボタン26は、撮像準備指示部及び撮像指示部として機能し、撮像準備指示状態と撮像指示状態との2段階の押圧操作が検出可能である。撮像準備指示状態とは、例えば待機位置から中間位置(半押し位置)まで押下される状態を指し、撮像指示状態とは、中間位置を超えた最終押下位置(全押し位置)まで押下される状態を指す。なお、以下では、「待機位置から半押し位置まで押下される状態」を「半押し状態」といい、「待機位置から全押し位置まで押下される状態」を「全押し状態」という。また、以下では、レリーズボタン26が最終押下位置(全押し位置)まで押下される操作を「本露光操作」ともいう。なお、「本露光操作」は、例えば後述のタッチパネル・モニタ3がタッチされる等、別の方法で行われても良い。
 一例として図3に示すように、撮像装置本体20の背面には、タッチパネル・モニタ30及び指示キー32が設けられている。
 タッチパネル・モニタ30は、モニタ34及びタッチパネル36(図4も参照)を備えている。モニタ34の一例としては、有機ELディスプレイが挙げられる。モニタ34は、有機ELディスプレイではなく、無機ELディスプレイ、液晶ディスプレイなどの他種類のディスプレイであってもよい。なお、モニタ34は、本開示の技術に係る「モニタ」の一例である。
 モニタ34は、画像及び/又は文字情報等を表示する。モニタ34は、撮像装置12が撮像系の動作モードの場合に、ライブビュー画像用の撮像、すなわち、連続的な撮像が行われることにより得られたライブビュー画像の表示に用いられる。ライブビュー画像用の撮像(以下、「ライブビュー画像用撮像」とも称する)は、例えば、60fpsのフレームレートに従って行われる。なお、ライブビュー画像用撮像のフレームレートは、60fpsに限らず、60fpsよりも高くても低くてもよい。
 ここで、ライブビュー画像とは、イメージセンサ24によって撮像されることにより得られた画像データに基づく表示用の動画像を指す。ここで、ライブビュー画像は、本開示の技術に係る「表示用動画像」の一例である。ライブビュー画像は、一般的には、スルー画像とも称される。また、モニタ34は、本露光画像Pの表示にも用いられる。更に、モニタ34は、撮像装置12が再生モードの場合の再生画像の表示及びメニュー画面等の表示にも用いられる。
 タッチパネル36は、透過型のタッチパネルであり、モニタ34の表示領域の表面に重ねられている。タッチパネル36は、指又はスタイラスペン等の指示体による接触を検知することで、ユーザ11からの指示を受け付ける。
 なお、本実施形態では、タッチパネル・モニタ30の一例として、タッチパネル36がモニタ34の表示領域の表面に重ねられているアウトセル型のタッチパネル・ディスプレイを挙げているが、これはあくまでも一例に過ぎない。例えば、タッチパネル・モニタ30として、オンセル型又はインセル型のタッチパネル・ディスプレイを適用することも可能である。
 指示キー32は、各種の指示を受け付ける。ここで、「各種の指示」とは、例えば、各種メニューを選択可能なメニュー画面の表示の指示、1つ又は複数のメニューの選択の指示、選択内容の確定の指示、選択内容の消去の指示、ズームイン、ズームアウト、及びコマ送り等の各種の指示等を指す。また、これらの指示はタッチパネル36によってされてもよい。
 一例として図4に示すように、撮像装置12は、マウント37及び38を備えている。マウント37は、撮像装置本体20に設けられている。マウント38は、交換レンズ22において、マウント37の位置に対向する位置に設けられている。交換レンズ22は、マウント37にマウント38が結合されることにより撮像装置本体20に交換可能に装着される。
 一例として図4に示すように、撮像レンズ40は、対物レンズ40A、フォーカスレンズ40B、及び絞り40Cを備えている。対物レンズ40A、フォーカスレンズ40B、及び絞り40Cは、被写体側(物体側)から撮像装置本体20側(像側)にかけて、光軸OAに沿って、対物レンズ40A、フォーカスレンズ40B、及び絞り40Cの順に配置されている。
 また、交換レンズ22は、スライド機構42、モータ44及び46を備えている。スライド機構42には、光軸OAに沿ってスライド可能にフォーカスレンズ40Bが取り付けられている。また、スライド機構42にはモータ44が接続されており、スライド機構42は、モータ44の動力を受けて作動することでフォーカスレンズ40Bを光軸OAに沿って移動させる。
 絞り40Cは、開口の大きさが可変な絞りである。絞り40Cにはモータ46が接続されており、絞り40Cは、モータ46の動力を受けて作動することで露出を調節する。なお、交換レンズ22の構成物及び/又は動作方法は、必要に応じて変更可能である。
 モータ44及び46は、マウント38を介して撮像装置本体20に接続されており、撮像装置本体20からの命令に従って駆動が制御される。なお、本実施形態では、モータ44及び46の一例として、ステッピングモータが採用されている。従って、モータ44及び46は、撮像装置本体20からの命令によりパルス信号に同期して動作する。また、図4に示す例では、モータ44及び46が交換レンズ22に設けられている例が示されているが、これに限らず、モータ44及び46のうちの一方が撮像装置本体20に設けられていてもよいし、モータ44及び46の双方が撮像装置本体20に設けられていてもよい。
 撮像装置12は、通常撮像モードの場合に、撮像装置本体20に対して与えられた指示に従って、MFモード及びAFモードのうちの一方に選択的に設定される。MFモードは、手動でピントを合わせる動作モードである。MFモードでは、例えば、ユーザ11によって交換レンズ22のフォーカスリング(図示省略)が操作されることで、フォーカスリングの操作量に応じた移動量でフォーカスレンズ40Bが光軸OAに沿って移動し、これによってピントが調節される。
 AFモードでは、レリーズボタン26が半押し状態にされることにより、撮像装置本体20が被写体距離に応じた合焦位置の演算を行い、演算して得た合焦位置に向けてフォーカスレンズ40Bを移動させることで、ピントを調節する。その後、引き続きレリーズボタン26が全押し状態にされることにより、撮像装置本体20は本露光動作(後述)を行う。ここで、合焦位置とは、ピントが合っている状態でのフォーカスレンズ40Bの光軸OA上での位置を指す。
 なお、トレーニングデータ撮像モードの場合、撮像装置12はAFモードに設定される。以下では、説明の便宜上、フォーカスレンズ40Bを合焦位置に合わせる制御を「AF制御」とも称する。また、以下では、説明の便宜上、合焦位置の演算を「AF演算」とも称する。
 撮像装置本体20は、メカニカルシャッタ48を備えている。メカニカルシャッタ48は、フォーカルプレーンシャッタであり、絞り40Cと受光面24Aとの間に配置されている。メカニカルシャッタ48は、モータ等の駆動源(図示省略)からの動力を受けることで作動する。メカニカルシャッタ48は、撮像レンズ40を透過してイメージセンサ24の受光面24Aに結像される被写体光を遮る遮光機構(図示省略)を有する。メカニカルシャッタ48が遮光機構を開閉するタイミングに応じて、撮像装置12は、本露光動作を行う。本露光動作とは、受光面24Aに結像された画像(本露光画像P)の画像データを取り込んでメモリに記憶する動作を指す。なお、本露光動作は、本開示の技術にかかる「撮像」の一例である。
 撮像装置本体20は、コントローラ50及びUI系デバイス52を備えている。コントローラ50は、撮像装置12の全体を制御する。UI系デバイス52は、ユーザ11に対して情報を提示したり、ユーザ11からの指示を受け付けたりするデバイスである。コントローラ50には、バスライン58を介してUI系デバイス52が接続されており、コントローラ50は、UI系デバイス52からの各種情報の取得、及びUI系デバイス52の制御を行う。なお、コントローラ50は、本開示の技術に係る「情報処理装置」の一例である。
 コントローラ50は、CPU50A、NVM50B、RAM50C、制御I/F50D、及び入力I/F50Eを備えている。CPU50A、NVM50B、RAM50C、制御I/F50D、及び入力I/F50Eは、バスライン58を介して相互に接続されている。
 CPU50Aは、本開示の技術に係る「プロセッサ」の一例である。CPU50Aは、撮像装置12の全体を制御する。NVM50Bは、本開示の技術に係る「メモリ」の一例である。NVM50Bの一例としては、EEPROMが挙げられる。ただし、EEPROMはあくまでも一例に過ぎず、例えば、EEPROMに代えて強誘電体メモリであってもよく、撮像装置12に搭載可能な不揮発性メモリであれば如何なるメモリであってもよい。RAM50Cは、各種プログラムの実行時のワークエリア等として用いられる揮発性のメモリである。
 NVM50Bには、各種プログラム51が記憶されている。CPU50Aは、NVM50Bから必要なプログラム51を読み出し、読み出したプログラム51をRAM50C上で実行することで、撮像装置12を統括的に制御する。
 制御I/F50Dは、FPGAを有するデバイスであり、イメージセンサ24に接続されている。CPU50Aは、制御I/F50Dを介してイメージセンサ24を制御する。また、制御I/F50Dは、マウント37及び38を介してモータ44及び46に接続されており、CPU50Aは、制御I/F50Dを介してモータ44及び46を制御する。
 入力I/F50Eは、イメージセンサ24に接続されている。入力I/F50Eは、イメージセンサ24から出力される画像データを受け付ける。コントローラ50は、画像データに対して、例えば、ホワイトバランス調整、シャープネス調整、ガンマ補正、色空間変換処理、及び色差補正などの公知の信号処理を施すことによって、本露光画像Pを示す本露光画像データを生成する。
 バスライン58には、外部I/F54が接続されている。外部I/F54は、FPGAを有するデバイスである。外部I/F54には、USBメモリ又はメモリカード等の外部装置(図示省略)が接続される。外部I/F54は、CPU50Aと外部装置との間の各種情報の授受を司る。CPU50Aは、外部I/F54を介して、本露光画像データを外部装置に記憶させる。
 また、バスライン58には、通信I/F56が接続されている。通信I/F56は、インターネット等の通信網を介して、学習機器14に通信可能に接続されている。トレーニングデータ撮像モードにおいて、CPU50Aは、通信I/F56を介して、トレーニングデータ17を学習機器14に出力する。
 UI系デバイス52は、タッチパネル・モニタ30及び受付部60を備えている。モニタ34及びタッチパネル36は、バスライン58に接続されている。従って、CPU50Aは、モニタ34に対して各種情報を表示させ、タッチパネル36によって受け付けられた各種指示に従って動作する。
 受付部60は、タッチパネル36及びハードキー部62を備えている。ハードキー部62は、複数のハードキーであり、レリーズボタン26、ダイヤル28、及び指示キー32を含む。ハードキー部62は、バスライン58に接続されており、CPU50Aは、ハードキー部62によって受け付けられた各種指示に従って動作する。
 なお、図4に示す例では、図示の都合上、バスライン58として1本のバスが図示されているが、複数本のバスであってもよい。バスライン58は、シリアルバスであってもよいし、データバス、アドレスバス、及びコントロールバス等を含むパラレルバスであってもよい。
 NVM50Bに記憶されている各種プログラム51には、トレーニングデータ生成プログラム51Aが含まれる。撮像装置12がトレーニングデータ撮像モードに設定された場合、CPU50Aは、NVM50Bからトレーニングデータ生成プログラム51Aを読み出し、読み出したトレーニングデータ生成プログラム51AをRAM50C上で実行することで、トレーニングデータ生成部53として動作する。トレーニングデータ生成部53は、トレーニングデータ生成処理を実行する。トレーニングデータ生成部53によって行われるトレーニングデータ生成処理について、以下に具体的に説明する。
 一例として図5に示すように、トレーニングデータ撮像モードにおいて、トレーニングデータ生成部53は、タッチパネル・モニタ30上にラベル選択画面64を表示する。ラベル選択画面64には、「被写体に付与するラベルを選択してください」というメッセージ64Aと、複数のラベル候補が羅列された表64Bが表示されている。
 表64Bの第1列目には、比較的大きな属性を示すラベル候補(以下、「大ラベル候補」とも称する)が表示されている。大ラベル候補は、例えば、「人物」「乗り物」及び「建築物」である。表64Bのその他の列には、第1列目の大ラベル候補を細分化した属性を示すラベル候補(以下、「小ラベル候補」とも称する)が表示される。例えば、大ラベル候補が「人物」の場合、小ラベル候補としては、「顔」「男性」「女性」及び「子供」が挙げられる。ユーザ11は、指示体でタッチパネル36に接触することで、表64Bから任意のラベル候補を選択する。
 図1に示す特定被写体Aを撮像する場合には、一例として図5に示すように、ユーザ11は、タッチパネル・モニタ30を介して、表64Bに列記されたラベル候補の中から「顔」のラベルを選択する。なお、図5に列記したラベル候補は一例であり、ラベル候補はこれに限定されない。また、ラベル候補の表示方法はこれに限定されない。図5に示す例では1つの小ラベル候補が選択されているが、大ラベル候補が選択されてもよいし、又は複数の小ラベル候補が選択されてもよい。
 トレーニングデータ生成部53は、選択されたラベルLを受け付ける。トレーニングデータ生成部53は、受け付けたラベルLをRAM50Cに記憶する。
 一例として図6に示すように、ラベルLを受け付けた後、トレーニングデータ生成部53は、イメージセンサ24から出力された撮像信号に基づいたライブビュー画像66をモニタ34に表示させる。また、トレーニングデータ撮像モードにおいて、トレーニングデータ生成部53は、ライブビュー画像66が表示されているモニタ34の中央に、AF枠68を重畳表示する。AF枠68とは、AFモードにおいて、フォーカスを合わせる対象となる領域(以下、「フォーカス対象領域」と称する)を、ライブビュー画像66上で、他の画像領域と区別可能に表示するための枠である。なお、AF枠68は、本開示の技術に係る「枠」の一例である。また、フォーカス対象領域は、本開示の技術に係る「フォーカス対象領域」の一例である。また、撮像信号は、本開示の技術に係る「信号」の一例である。
 AF枠68は、矩形の枠線68Aと、枠線68Aの四方に配置された4つの三角矢印68B-U、68B-D、68B-R、及び68B-Lとを含む。以下、三角矢印68B-U、68B-D、68B-R、及び68B-Lを区別して説明する必要がない場合には、包括的に「三角矢印68B」と称する。
 ユーザ11は、指示体で、タッチパネル36上の三角矢印68Bに接触することにより、トレーニングデータ生成部53に対して、AF枠68の位置を各三角矢印68Bが示す方向に移動させる位置変更指示を与えることができる。トレーニングデータ生成部53は、与えられた位置変更指示に従って、モニタ34上でAF枠68の位置を変更する。ここで、位置変更指示は、本開示の技術に係る「位置変更指示」の一例である。なお、タッチパネル36に表示された三角矢印68Bは、ユーザ11からの位置変更指示を受け付けるための手段の一例に過ぎず、受付部60を介してユーザ11からの位置変更指示を受け付けることができれば、その手段は限定されない。
 例えば、図6において、ユーザ11は、指示体でタッチパネル36上の三角矢印68B-U及び68B-Lに接触することにより、トレーニングデータ生成部53に対して、枠線68Aが特定被写体Aの顔を示す領域を取り囲むようにAF枠68を移動させる位置変更指示を与える。これにより、AF枠68は、例えば、図7に示す位置に移動する。
 また、ユーザ11は、タッチパネル・モニタ30に表示された枠線68A上で、ピンチイン又はピンチアウト動作を行うことにより、トレーニングデータ生成部53に対して、枠線68Aのサイズを変更させるサイズ変更指示を与えることができる。一例として図8に示すように、図7に示す例に比べて撮像レンズ40のズーム倍率を低くした場合には、ユーザ11は、トレーニングデータ生成部53に対して、枠線68Aが特定被写体Aの顔を示す領域を取り囲むように、枠線68Aのサイズを小さく変更させるサイズ変更指示を与える。トレーニングデータ生成部53は、与えられたサイズ変更指示に従って、モニタ34上で枠線68Aのサイズを変更する。なお、サイズ変更指示は、本開示の技術に係る「サイズ変更指示」の一例である。なお、ピンチイン及びピンチアウト動作は、ユーザ11からのサイズ変更指示を受け付けるための手段の一例に過ぎず、受付部60を介してユーザ11からの位置変更指示を受け付けることができれば、その手段は限定されない。
 ユーザ11は、AF枠68の位置及びサイズを変更した後、レリーズボタン26を半押し位置まで押下するAF動作を行う。ここで、AF動作は、本開示の技術に係る「フォーカス動作」の一例である。AF動作が行われた場合、トレーニングデータ生成部53は、ライブビュー画像66において、枠線68Aで取り囲まれた領域を、フォーカス対象領域Fに指定する。
 トレーニングデータ生成部53は、フォーカス対象領域Fの位置を示す位置座標を取得する。一例として図9に示すように、フォーカス対象領域Fの位置座標は、ライブビュー画像66の左下角を原点O(0,0)として、枠線68Aの右下角Q1Aの座標(X1A,Y1A)と、枠線68Aの左上角Q2Aの座標(X2A,Y2A)とで表される。トレーニングデータ生成部53は、取得したフォーカス対象領域Fの位置座標をRAM50Cに記憶する。なお、位置座標は、本開示の技術に係る「座標」の一例である。
 ユーザ11が、AF動作を行った後、レリーズボタン26を全押し位置まで押下した場合に、撮像装置12によって本露光動作が行われ、トレーニングデータ生成部53は、本露光画像PAから、特定被写体画像SAとして、フォーカス対象領域Fを示す画像を抽出する。一例として図10に示すように、トレーニングデータ生成部53は、特定被写体画像SAに関する特定被写体データとラベルLAとを対応付けて、トレーニングデータ17Aとして、学習機器14に出力する。特定被写体画像SAに関する特定被写体データは、本露光画像PAと、本露光画像PA内の特定被写体画像SAの位置を示す位置座標、すなわちフォーカス対象領域Fの位置座標とを含む。
 同様に、トレーニングデータ撮像モードにおいて、ユーザ11が、特定被写体Bを取り囲むようにAF枠68を移動させた後、撮像装置12に対して、AF動作及び本露光動作を行わせた場合、トレーニングデータ生成部53は、本露光画像PBから、特定被写体画像SBとして、フォーカス対象領域Fを示す画像を抽出する。トレーニングデータ生成部53は、特定被写体画像SBに関する特定被写体データとラベルLBとを対応付けて、トレーニングデータ17Bとして、学習機器14に出力する。特定被写体画像SBに関する特定被写体データは、本露光画像PBと、本露光画像PB内の特定被写体画像SBの位置を示す位置座標とを含む。
 同様に、トレーニングデータ撮像モードにおいて、ユーザ11が、特定被写体Cを取り囲むようにAF枠68を移動させた後、撮像装置12に対して、AF動作及び本露光動作を行わせた場合、トレーニングデータ生成部53は、本露光画像PCから、特定被写体画像SCとして、フォーカス対象領域Fを示す画像を抽出する。トレーニングデータ生成部53は、特定被写体画像SCに関する特定被写体データとラベルLCとを対応付けて、トレーニングデータ17Cとして、学習機器14に出力する。特定被写体画像SCに関する特定被写体データは、本露光画像PCと、本露光画像PC内の特定被写体画像SCの位置を示す位置座標とを含む。
 学習機器14は、コンピュータ15と、入出力I/F14Dとを備えている。入出力I/F14Dは、撮像装置12の通信I/F56と通信可能に接続されている。入出力I/F14Dは、撮像装置12からトレーニングデータ17を受け付ける。コンピュータ15は、入出力I/F14Dによって受け付けられたトレーニングデータ17をデータベース16に記憶する。また、コンピュータ15は、データベース16からトレーニングデータ17を読み出し、読み出したトレーニングデータ17を用いて機械学習を行う。
 コンピュータ15は、CPU14A、NVM14B、及びRAM14Cを備えている。CPU14Aは、学習機器14の全体を制御する。NVM14Bの一例としては、EEPROMが挙げられる。ただし、EEPROMはあくまでも一例に過ぎず、例えば、EEPROMに代えて強誘電体メモリであってもよく、学習機器14に搭載可能な不揮発性メモリであれば如何なるメモリであってもよい。RAM14Cは、各種プログラムの実行時のワークエリア等として用いられる揮発性のメモリである。
 NVM14Bには、学習実行プログラム72が記憶されている。CPU14Aは、NVM14Bから学習実行プログラム72を読み出し、読み出した学習実行プログラム72をRAM14C上で実行することで、学習実行部76として動作する。学習実行部76は、学習実行プログラム72に従って、トレーニングデータ17を使ってニューラルネットワーク74を学習させることで、教師有り学習モデルを構築する。
 次に、本第1実施形態に係る撮像装置12の作用について図11を参照しながら説明する。図11には、トレーニングデータ生成部53によって実行されるトレーニングデータ生成処理の流れの一例が示されている。トレーニングデータ生成処理は、CPU50Aが、トレーニングデータ生成プログラム51Aを実行することで実現される。トレーニングデータ生成処理は、撮像装置12がトレーニングデータ撮像モードに設定された場合に開始される。
 図11に示すトレーニングデータ生成処理では、先ず、ステップST101で、トレーニングデータ生成部53は、例えば、図5に示すようなラベル選択画面64をタッチパネル・モニタ30に表示させる。この後、トレーニングデータ生成処理は、ステップST102に移行する。
 ステップST102で、トレーニングデータ生成部53は、タッチパネル・モニタ30上でラベルLが選択されたか否かを判定する。ステップST102において、ラベルLが選択された場合、判定が肯定されて、トレーニングデータ生成処理はステップST103に移行する。ステップST102において、ラベルLが選択されていない場合、判定が否定されて、トレーニングデータ生成処理はステップST101に移行する。
 ステップST103で、トレーニングデータ生成部53は、タッチパネル・モニタ30にライブビュー画像66を表示させる。この後、トレーニングデータ生成処理は、ステップST104に移行する。
 ステップST104で、トレーニングデータ生成部53は、タッチパネル・モニタ30に表示しているライブビュー画像66に、AF枠68を重畳表示する。この後、トレーニングデータ生成処理は、ステップST105に移行する。
 ステップST105で、トレーニングデータ生成部53は、ユーザ11からの位置変更指示及びサイズ変更指示に従って、AF枠68の位置及びサイズを変更する。ユーザ11は、ライブビュー画像66において、特定被写体を示す領域がAF枠68の枠線68Aで取り囲まれるように、受付部60を介して、位置変更指示及びサイズ変更指示を与える。この後、トレーニングデータ生成処理は、ステップST106に移行する。
 ステップST106で、トレーニングデータ生成部53は、AF動作が行われたか否かを判定する。ステップST106において、AF動作が行われた場合、判定が肯定されて、トレーニングデータ生成処理はステップST107に移行する。ステップST106において、AF動作が行われていない場合、判定が否定されて、トレーニングデータ生成処理はステップST105に移行する。
 ステップST107で、トレーニングデータ生成部53は、AF枠68で示されるフォーカス対象領域Fの位置座標を取得する。この後、トレーニングデータ生成処理はステップST108に移行する。
 ステップST108で、トレーニングデータ生成部53は、本露光が行われたか否かを判定する。ステップST108において、本露光が行われた場合、判定が肯定されて、トレーニングデータ生成処理はステップST109に移行する。ステップST108において、本露光が行われていない場合、判定が否定されて、トレーニングデータ生成処理はステップST106に移行する。
 ステップST109で、トレーニングデータ生成部53は、本露光画像Pを取得する。この後、トレーニングデータ生成処理はステップST110に移行する。
 ステップST110で、トレーニングデータ生成部53は、本露光画像Pから、特定被写体画像Sとして、フォーカス対象領域Fを示す画像を抽出する。この後、トレーニングデータ生成処理はステップST111に移行する。
 ステップST111で、トレーニングデータ生成部53は、特定被写体データとラベルLとを対応付けて学習機器14に出力する。特定被写体データは、本露光画像Pと、特定被写体画像Sの位置座標、すなわちフォーカス対象領域Fの位置座標とを含む。学習機器14は、受け付けた特定被写体データとラベルLとを、トレーニングデータ17としてデータベース16に記憶する。これにより、トレーニングデータ生成処理が終了する。
 以上説明したように、本第1実施形態において、トレーニングデータ生成部53は、特定被写体をフォーカス対象領域としたフォーカス動作を伴う本露光動作がイメージセンサ24によって行われた場合に、本露光動作によって得られた本露光画像P内の特定被写体画像Sに関する特定被写体データを、機械学習に用いるトレーニングデータ17として出力する。従って、本構成によれば、イメージセンサ24によって撮像されることで得られた本露光画像Pから、特定被写体画像Sが手作業で抽出される場合に比べ、機械学習に用いるトレーニングデータ17を簡便に収集することができる。
 また、本第1実施形態において、機械学習は、教師有り機械学習である。トレーニングデータ生成部53は、特定被写体画像Sに関する情報であるラベルLを特定被写体データに付与し、特定被写体データを、教師有り機械学習に用いるトレーニングデータ17として出力する。従って、本構成によれば、教師有り機械学習に必要なトレーニングデータ17を収集することができる。
 また、本第1実施形態において、トレーニングデータ生成部53は、イメージセンサ24から出力された撮像信号に基づいたライブビュー画像66をモニタ34に表示させる。トレーニングデータ生成部53は、ライブビュー画像66において、AF枠68を用いて、フォーカス対象領域Fを他画像領域と区別可能な態様で表示する。特定被写体画像Sは、本露光画像P内のフォーカス対象領域Fの位置に対応する画像である。従って、本構成によれば、特定被写体画像Sがフォーカス対象領域Fの位置と無関係である場合に比べ、特定被写体画像Sを容易に抽出することができる。
 また、本第1実施形態において、トレーニングデータ生成部53は、ライブビュー画像66に、フォーカス対象領域Fを取り囲むAF枠68を表示することで、フォーカス対象領域Fを他画像領域と区別可能な態様で表示する。従って、本構成によれば、AF枠68が表示されない場合に比べ、ユーザ11が特定被写体画像Sを認識しやすい。
 また、本第1実施形態において、AF枠68の位置は、与えられた位置変更指示に従って変更可能である。従って、本構成によれば、AF枠68の位置が固定されている場合に比べ、ユーザ11は、フォーカス対象領域Fを自由に移動させることができる。
 また、本第1実施形態において、AF枠68のサイズは、与えられたサイズ変更指示に従って変更可能である。従って、本構成によれば、AF枠68のサイズが固定されている場合に比べ、ユーザ11は、フォーカス対象領域Fのサイズを自由に変更させることができる。
 また、本第1実施形態において、特定被写体データは、特定被写体画像Sの位置座標を含む。トレーニングデータ生成部53は、本露光画像Pと、フォーカス対象領域Fの位置座標、すなわち特定被写体画像Sの位置座標とを、機械学習に用いるトレーニングデータ17として出力する。従って、本構成によれば、特定被写体画像Sを切り出して出力する場合に比べ、処理工程が少なくて済むという利点がある。
 また、本第1実施形態において、学習機器14は、撮像装置12のコントローラ50から出力された特定被写体データを受け付ける入出力I/F14Dと、入出力I/F14Dによって受け付けられた特定被写体データを用いて機械学習を行うコンピュータ15と、を備える。また、撮像装置12は、コントローラ50と、イメージセンサ24とを備える。従って、本構成によれば、イメージセンサ24によって撮像されることで得られた本露光画像Pから、学習に用いる特定被写体画像Sが手作業で選択される場合に比べ、学習機器14は、学習に用いるトレーニングデータ17を簡便に収集することができる。
 なお、上記第1実施形態では、一例として図1に示すように、1人のユーザ11が同一の撮像装置12を使って複数の特定被写体A、B、及びCを撮像することで、トレーニングデータ17A、17B、及び17Cを取得しているが、本開示の技術はこれに限定されない。複数のユーザが、それぞれ別の撮像装置12を用いて異なる被写体を撮像し、複数の撮像装置12から同一の学習機器14にトレーニングデータ17が出力されてもよい。この場合、複数のユーザにより取得されたトレーニングデータ17が同一の学習機器14に出力されることで、学習機器14は、効率的にトレーニングデータ17を収集することができる。
 また、上記第1実施形態では、トレーニングデータ生成部53は、特定被写体画像Sの位置座標として、枠線68Aの右下角Q1A及び左上角Q2Aの座標を出力するが、本開示の技術はこれに限定されない。トレーニングデータ生成部53は、枠線68Aの右上角及び左下角の座標を出力してもよい。または、トレーニングデータ生成部53は、枠線68Aの1つ角の座標と、枠線68Aを構成する縦及び横の辺の長さを出力してもよい。または、トレーニングデータ生成部53は、枠線68Aの中心の座標と、中心から縦及び横の辺までの長さを出力してもよい。また、特定被写体画像Sの位置座標は、ライブビュー画像66の左下角を原点とした場合の座標で表したが、本開示の技術はこれに限定されず、ライブビュー画像66の他の角を原点としてもよく、又はライブビュー画像66の中心を原点としてもよい。
 [第2実施形態]
 本第2実施形態は、AF枠68で取り囲まれることによって指定されたフォーカス対象領域Fが、特定被写体画像Sとして抽出されないという点で、上記第1実施形態と異なる。以下、第1実施形態との相違点を具体的に説明する。以下の説明において、第1実施形態と同様の構成及び作用については同一の符号を付し、その説明を省略する。
 一例として図12に示すように、本第2実施形態において、タッチパネル・モニタ30には、イメージセンサ24から出力された撮像信号に基づいたライブビュー画像66が表示され、さらに、AF枠68がライブビュー画像66に重畳表示されている。図12に示す例では、トレーニングデータ生成部53は、ライブビュー画像66において、受付部60を介して、ユーザ11からの位置変更指示及びサイズ変更指示を受け付けることにより、特定被写体Aの左眼を示す画像上にAF枠68を配置する。この後、AF動作が行われることによって、枠線68Aで取り囲まれた特定被写体Aの左眼の領域が、フォーカス対象領域Fに指定される。トレーニングデータ生成部53は、ライブビュー画像66において、フォーカス対象領域Fの指定を受け付ける。この後、撮像装置12が本露光動作を行うことによって、トレーニングデータ生成部53は、フォーカス対象領域Fに合焦した本露光画像Pを取得する。
 一例として図13に示すように、撮像によって得られた本露光画像Pにおいて、トレーニングデータ生成部53は、フォーカス対象領域Fを含む候補領域78を設定する。候補領域78は、特定被写体画像Sを抽出する候補となる領域である。なお、候補領域78は、本開示の技術に係る「所定領域」の一例である。
 候補領域78は、例えば、9行×9列のマトリクス状に分割されている。以下では、各分割領域を区別して表すために、説明の便宜上、図13に示すように、各分割領域の位置に応じて符号が付されている。例えば、候補領域78の1行目1列目に位置する分割領域に符号D11を付し、候補領域78の2行目1列目に位置する分割領域に符号D21を付す。また、分割領域を区別して説明する必要がない場合には、包括的に「分割領域D」と称する。なお、分割領域Dは、本開示の技術に係る「分割領域」の一例である。
 候補領域78の中心に位置する分割領域D55は、フォーカス対象領域Fに一致している。つまり、フォーカス対象領域Fの位置及びサイズは、分割領域D単位で指定されている。
 一例として図14に示すように、イメージセンサ24は、光電変換素子80を備えている。光電変換素子80は、マトリクス状に配置された複数の感光画素を有しており、受光面24Aは、これらの感光画素によって形成されている。感光画素は、フォトダイオードPDを有する画素であり、受光した光を光電変換し、受光量に応じた電気信号を出力する。各分割領域Dの画像データは、複数のフォトダイオードPDから出力された電気信号に基づいて生成される。
 フォトダイオードPDには、カラーフィルタが配置されている。カラーフィルタは、輝度信号を得るために最も寄与するG(緑色)波長域に対応するGフィルタ、R(赤色)波長域に対応するRフィルタ、及びB(青色)波長域に対応するBフィルタを含む。
 光電変換素子80は、位相差画素84と、位相差画素84とは異なる画素である非位相差画素86との2種類の感光画素を備えている。一般的に、非位相差画素86は、通常画素とも称される。光電変換素子80は、非位相差画素86として、R画素、G画素、及びB画素の3種類の感光画素を有する。R画素、G画素、B画素、及び位相差画素84は、行方向(例えば、撮像装置本体20の底面を水平面に接触させた状態での水平方向)及び列方向(例えば、水平方向に対して垂直な方向である垂直方向)の各々に既定の周期性で規則的に配置されている。R画素は、Rフィルタが配置されたフォトダイオードPDに対応する画素であり、G画素及び位相差画素84は、Gフィルタが配置されたフォトダイオードPDに対応する画素であり、B画素は、Bフィルタが配置されたフォトダイオードPDに対応する画素である。
 受光面24Aには、複数の位相差画素ライン82Aと複数の非位相差画素ライン82Bとが配列されている。位相差画素ライン82Aは、位相差画素84を含む水平ラインである。具体的には、位相差画素ライン82Aは、位相差画素84と非位相差画素86とが混在している水平ラインである。非位相差画素ライン82Bは、複数の非位相差画素86のみを含む水平ラインである。
 受光面24Aには、位相差画素ライン82Aと、既定ライン数分の非位相差画素ライン82Bとが列方向に沿って交互に配置されている。ここで言う「既定ライン数」とは、例えば、2ラインを指す。なお、ここでは、既定ライン数として、2ラインを例示しているが、本開示の技術はこれに限らず、既定ライン数は、3ライン以上の数ラインであってもよいし、十数ライン、数十ライン、又は数百ライン等であってもよい。
 位相差画素ライン82Aは、1行目から最終行にかけて列方向に2行飛ばしで配列されている。位相差画素ライン82Aの一部の画素が位相差画素84である。具体的には、位相差画素ライン82Aは、位相差画素84と非位相差画素86とが周期的に配列された水平ラインである。
 位相差画素84は、第1位相差画素84-Lと第2位相差画素84-Rとに大別される。位相差画素ライン82Aには、G画素として第1位相差画素84-Lと第2位相差画素84-Rとがライン方向に数画素間隔で交互に配置されている。
 第1位相差画素84-L及び第2位相差画素84-Rは、列方向で交互に現れるように配置されている。図14に示す例では、4列目において、1行目から列方向に沿って第1位相差画素84-L、第2位相差画素84-R、第1位相差画素84-L、及び第2位相差画素84-Rの順に配置されている。すなわち、第1位相差画素84-Lと第2位相差画素84-Rとが1行目から列方向に沿って交互に配置されている。また、図14に示す例では、10列目において、1行目から列方向に沿って第2位相差画素84-R、第1位相差画素84-L、第2位相差画素84-R、及び第1位相差画素84-Lの順に配置されている。すなわち、第2位相差画素84-Rと第1位相差画素84-Lとが1行目から列方向に沿って交互に配置されている。
 一例として図15に示すように、第1位相差画素84-Lは、遮光部材88-L、マイクロレンズ90、及びフォトダイオードPDを備えている。第1位相差画素84-Lでは、マイクロレンズ90とフォトダイオードPDの受光面との間に遮光部材88-Lが配置されている。フォトダイオードPDの受光面における行方向の左半分(受光面から被写体を臨む場合の左側、換言すると、被写体から受光面を臨む場合の右側)は、遮光部材88-Lによって遮光されている。
 第2位相差画素84-Rは、遮光部材88-R、マイクロレンズ90、及びフォトダイオードPDを備えている。第2位相差画素84-Rでは、マイクロレンズ90とフォトダイオードPDの受光面との間に遮光部材88-Rが配置されている。フォトダイオードPDの受光面における行方向の右半分(受光面から被写体を臨む場合の右側、換言すると、被写体から受光面を臨む場合の左側)は、遮光部材88-Rによって遮光されている。なお、以下では、説明の便宜上、遮光部材88-L及び88-Rを区別して説明する必要がない場合、「遮光部材88」と称する。
 撮像レンズ40の射出瞳を通過する光束は、左領域通過光92L及び右領域通過光92Rに大別される。左領域通過光92Lとは、撮像レンズ40の射出瞳を通過する光束のうち、位相差画素84側から被写体側を臨む場合の左半分の光束を指し、右領域通過光92Rとは、撮像レンズ40の射出瞳を通過する光束のうち、位相差画素84側から被写体側を臨む場合の右半分の光束を指す。撮像レンズ40の射出瞳を通過する光束は、瞳分割部として機能するマイクロレンズ90、遮光部材88-L、及び遮光部材88-Rにより左右に分割され、第1位相差画素84-Lが被写体光として左領域通過光92Lを受光し、第2位相差画素84-Rが被写体光として右領域通過光92Rを受光する。この結果、左領域通過光92Lに対応する被写体像に相当する第1位相差画像データと、右領域通過光92Rに対応する被写体像に相当する第2位相差画像データとが光電変換素子80によって生成される。
 トレーニングデータ生成部53は、フォーカス対象領域Fを撮像する位相差画素84のうち、同一の位相差画素ライン82Aに配置された第1位相差画素84-Lから1ライン分の第1位相差画像データを取得し、同一の位相差画素ライン82Aに配置された第2位相差画素84-Rから1ライン分の第2位相差画像データを取得する。トレーニングデータ生成部53は、1ライン分の第1位相差画像データと1ライン分の第2位相差画像データとのずれ量αに基づいて、フォーカス対象領域Fまでの距離を測定する。なお、ずれ量αからフォーカス対象領域Fまでの距離が導出される方法は公知技術であるので、ここでの詳細な説明は省略する。
 トレーニングデータ生成部53は、測定されたフォーカス対象領域Fまでの距離に基づいてAF演算を行うことにより、フォーカスレンズ40Bの合焦位置を導出する。以下、フォーカス対象領域Fまでの距離に基づいて導出されたフォーカスレンズ40Bの合焦位置を「フォーカス対象領域合焦位置」とも称する。トレーニングデータ生成部53は、フォーカスレンズ40Bをフォーカス対象領域合焦位置に合わせるフォーカス動作を行う。
 また、トレーニングデータ生成部53は、各分割領域Dについて、各分割領域Dを撮像する位相差画素84のうち、同一の位相差画素ライン82Aに配置された第1位相差画素84-Lから1ライン分の第1位相差画像データを取得し、同一の位相差画素ライン82Aに配置された第2位相差画素84-Rから1ライン分の第2位相差画像データを取得する。トレーニングデータ生成部53は、1ライン分の第1位相差画像データと1ライン分の第2位相差画像データとのずれ量αに基づいて、各分割領域Dまでの距離を測定する。
 トレーニングデータ生成部53は、測定された各分割領域Dまでの距離に基づいてAF演算を行うことにより、各分割領域Dにおけるフォーカスレンズ40Bの合焦位置を導出する。以下、各分割領域Dまでの距離に基づいて導出されたフォーカスレンズ40Bの合焦位置を「分割領域合焦位置」とも称する。
 トレーニングデータ生成部53は、各分割領域Dについて、フォーカス対象領域合焦位置から分割領域合焦位置までの距離(以下、「合焦位置間距離」と称する)が、予め定められた距離閾値未満であるか否かを判定する。トレーニングデータ生成部53は、合焦位置間距離が、距離閾値未満である分割領域Dは、フォーカス対象領域Fとの類似度が高い領域であると特定する。ここで、距離閾値は、例えば、実機による試験及び/又はコンピュータ・シミュレーション等によって、特定被写体画像Sを抽出するための閾値として予め導き出された値である。距離閾値は、固定値であってもよいし、与えられた指示及び/又は条件(例えば、撮像条件等)に応じて変更される可変値であってもよい。
 なお、合焦位置間距離は、本開示の技術に係る「類似評価値」の一例である。また、フォーカス対象領域合焦位置は、本開示の技術に係る「フォーカス評価値」の一例である。また、距離閾値は、本開示の技術に係る「第1既定範囲」の一例である。
 図13に示す例では、トレーニングデータ生成部53は、候補領域78に含まれる81個の分割領域Dのうち、フォーカス対象領域F(分割領域D55)を除く80個の分割領域Dについて、合焦位置間距離を算出する。トレーニングデータ生成部53は、算出した合焦位置間距離が、距離閾値未満であるか否かを判定する。図13において、ハッチングで示される分割領域Dが、合焦位置間距離が距離閾値未満であると判定された分割領域、すなわちフォーカス対象領域Fとの類似度が高いと特定された分割領域である。
 トレーニングデータ生成部53は、特定された分割領域Dに基づいて、本露光画像Pから特定被写体画像Sを抽出する。図13に示す例では、トレーニングデータ生成部53は、特定された分割領域Dを過不足なく取り囲むように、分割領域D単位で、矩形の特定被写体画像Sを抽出している。
 次に、本第2実施形態に係る撮像装置12の作用について図16を参照しながら説明する。図16には、第2実施形態に係るトレーニングデータ生成処理の流れの一例が示されている。
 図16において、ステップST201~ステップST209は、図11のステップST101~ステップST109と同じであるので、説明を省略する。
 ステップST210で、トレーニングデータ生成部53は、本露光画像Pにおいて、候補領域78及び分割領域Dを設定する。この後、トレーニングデータ生成処理はステップST211に移行する。
 ステップST211で、トレーニングデータ生成部53は、各分割領域Dの合焦位置間距離を算出する。この後、トレーニングデータ生成処理はステップST212に移行する。
 ステップST212で、トレーニングデータ生成部53は、合焦位置間距離が距離閾値未満である分割領域Dを特定する。この後、トレーニングデータ生成処理は、ステップST213に移行する。
 ステップST213で、トレーニングデータ生成部53は、特定された分割領域Dに基づいて、本露光画像Pから特定被写体画像Sを抽出する。また、トレーニングデータ生成部53は、抽出された特定被写体画像Sの位置座標を取得する。この後、トレーニングデータ生成処理は、ステップST214に移行する。
 ステップST214で、トレーニングデータ生成部53は、特定被写体データとラベルLとを対応付けて学習機器14に出力する。特定被写体データは、本露光画像Pと特定被写体画像Sの位置座標とを含むデータである。学習機器14は、受け付けた特定被写体データ及びラベルLを、トレーニングデータ17として、データベース16に記憶する。これにより、トレーニングデータ生成処理が終了する。
 以上説明したように、本第2実施形態において、トレーニングデータ生成部53は、イメージセンサ24から出力された撮像信号に基づいたライブビュー画像66をタッチパネル・モニタ30に表示させる。トレーニングデータ生成部53は、ライブビュー画像66において、ユーザ11から受付部60を介してフォーカス対象領域Fの指定を受け付ける。トレーニングデータ生成部53は、フォーカス対象領域Fを含む候補領域78のうち、フォーカス対象領域Fに対する類似度を示す合焦位置間距離が、距離閾値未満である分割領域Dに基づいて、本露光画像Pから特定被写体画像Sを抽出する。従って、本構成によれば、ユーザ11が、特定被写体Aの一部をフォーカス対象領域Fとして撮像を行うことで、特定被写体Aの全体を示す特定被写体画像Sが本露光画像Pから抽出されるので、特定被写体Aの全体をフォーカス対象領域Fに指定しなくてはならない場合に比べ、簡単な操作で学習に用いるトレーニングデータ17を収集することができる。
 また、本第2実施形態において、トレーニングデータ生成部53は、フォーカス対象領域Fを取り囲むAF枠68を表示することで、フォーカス対象領域Fを他画像領域と区別可能な態様で表示する。従って、本構成によれば、AF枠68が表示されない場合に比べ、ユーザ11が特定被写体画像Sを認識しやすい。
 また、本第2実施形態において、フォーカス対象領域F及び特定被写体画像Sのうちの少なくとも一方は、候補領域78が分割されることで得られた分割領域D単位で定められている。従って、本構成によれば、候補領域78が分割されていない場合に比べ、本露光画像Pから特定被写体画像Sを抽出するのに要する処理が容易になる。
 また、本第2実施形態において、フォーカス動作に使用されたフォーカス対象領域合焦位置から各分割領域合焦位置までの距離(合焦位置間距離)が、フォーカス対象領域Fに対する類似度を示す類似評価値として用いられる。従って、本構成によれば、トレーニングデータ生成部53は、フォーカス動作に使用されたフォーカス対象領域合焦位置を用いない場合に比べ、本露光画像Pから特定被写体画像Sを容易に抽出することができる。
 なお、本第2実施形態において、一例として図13に示すように、フォーカス対象領域Fが1個の分割領域D55を含んでいるが、フォーカス対象領域Fは、2個以上の分割領域Dを含むように指定されてもよい。また、候補領域78の位置及びサイズは、図13に示す例に限定されず、候補領域78は、フォーカス対象領域Fを含むのであれば、任意の位置及びサイズに設定され得る。また、分割領域Dの個数、位置、及びサイズも、図13に示す例に限定されず、任意に変更可能である。
 なお、上記第2実施形態では、一例として図13に示すように、矩形の特定被写体画像Sを例示したが、本開示の技術はこれに限定されない。トレーニングデータ生成部53は、本露光画像Pのうち、フォーカス対象領域Fに対する合焦位置間距離が距離閾値未満である分割領域D、すなわち図13においてハッチングで示される分割領域Dのみを、特定被写体画像Sとして抽出してもよい。
 [第3実施形態]
 本第3実施形態は、類似評価値として、合焦位置間距離の代わりに、候補領域78の色情報に基づく色評価値を用いる点で、第2実施形態と異なっている。以下、第2実施形態との相違点を説明する。以下の説明において、第1及び第2実施形態と同様の構成及び作用については同一の符号を付し、その説明を省略する。
 一例として図17に示すように、本露光画像Pには、前記第2実施形態と同様にフォーカス対象領域F、候補領域78、及び複数の分割領域Dが設定されている。トレーニングデータ生成部53は、各分割領域DのRGB積算値を算出する。RGB積算値とは、各分割領域DのRGB毎の電気信号を積算した値である。また、トレーニングデータ生成部53は、RGB積算値に基づいて、各分割領域Dの色を示すRGB値を算出する。
 トレーニングデータ生成部53は、フォーカス対象領域Fに相当する分割領域D55の色を基準として、フォーカス対象領域Fと各分割領域Dとの色差(以下、単に「色差」と称する)を算出する。なお、フォーカス対象領域FのRGB値が(R,G,B)であり、分割領域DのRGB値が(R,G,B)である場合、フォーカス対象領域Fと分割領域Dとの色差は、次の式を用いて算出される。
 色差={(R-R+(G-G+(B-B1/2
 トレーニングデータ生成部53は、各分割領域Dについて、算出された色差が、予め定められた色差閾値未満であるか否かを判定する。トレーニングデータ生成部53は、色差が、色差閾値未満である分割領域Dは、フォーカス対象領域Fとの類似度が高い領域であると特定する。ここで、色差閾値は、例えば、実機による試験及び/又はコンピュータ・シミュレーション等によって、特定被写体画像Sを抽出するための閾値として予め導き出された値である。色差閾値は、固定値であってもよいし、与えられた指示及び/又は条件(例えば、撮像条件等)に応じて変更される可変値であってもよい。なお、RGB値は、本開示の技術に係る「色情報」の一例である。また、色差は、本開示の技術に係る「類似評価値」及び「色評価値」の一例である。また、色差閾値は、本開示の技術に係る「第1既定範囲」の一例である。
 図17に示す例では、トレーニングデータ生成部53は、候補領域78に含まれる81個の分割領域Dのうち、フォーカス対象領域F(分割領域D55)を除く80個の分割領域Dについて、色差を算出する。トレーニングデータ生成部53は、算出した色差が、色差閾値未満であるか否かを判定する。図17において、ハッチングで示される分割領域Dが、色差が色差閾値未満であると判定された分割領域、すなわちフォーカス対象領域Fとの類似度が高いと特定された分割領域である。
 トレーニングデータ生成部53は、特定された分割領域Dを過不足なく取り囲むように、分割領域D単位で、本露光画像Pから矩形の特定被写体画像Sを抽出する。
 次に、本第3実施形態に係る撮像装置12の作用について図18を参照しながら説明する。図18には、第3実施形態に係るトレーニングデータ生成処理の流れの一例が示されている。
 図18において、ステップST301~ステップST309は、図11のステップST101~ステップST109と同じであるので、説明を省略する。また、図18において、ステップST310は、図16のステップST210と同じであるので、説明を省略する。
 ステップST311で、トレーニングデータ生成部53は、各分割領域Dの色差を算出する。この後、トレーニングデータ生成処理はステップST312に移行する。
 ステップST312で、トレーニングデータ生成部53は、色差が色差閾値未満である分割領域Dを特定する。この後、トレーニングデータ生成処理は、ステップST313に移行する。
 ステップST313で、トレーニングデータ生成部53は、特定された分割領域Dに基づいて、本露光画像Pから特定被写体画像Sを抽出する。また、トレーニングデータ生成部53は、抽出された特定被写体画像Sの位置座標を取得する。この後、トレーニングデータ生成処理は、ステップST314に移行する。
 ステップST314で、トレーニングデータ生成部53は、特定被写体データとラベルLとを対応付けて学習機器14に出力する。特定被写体データは、本露光画像Pと特定被写体画像Sの位置座標とを含むデータである。学習機器14は、受け付けた特定被写体データ及びラベルLをトレーニングデータ17としてデータベース16に記憶する。これにより、トレーニングデータ生成処理が終了する。
 以上説明したように、本第3実施形態において、フォーカス対象領域Fと各分割領域Dとの色差が、類似評価値として用いられる。従って、本構成によれば、トレーニングデータ生成部53は、フォーカス対象領域Fと各分割領域Dとの色差を用いない場合に比べ、本露光画像Pから特定被写体画像Sを容易に抽出することができる。
 なお、本第3実施形態では、トレーニングデータ生成部53は、フォーカス対象領域Fと各分割領域Dとの色差を、類似評価値として用いたが、本開示の技術はこれに限らない。トレーニングデータ生成部53は、フォーカス対象領域Fと各分割領域Dとの色差に加えて、又は、色差の代わりに、フォーカス対象領域Fと各分割領域Dとの彩度の差を類似評価値として用いてもよい。
 [第4実施形態]
 本第4実施形態では、トレーニングデータ生成部53は、合焦位置間距離と色差の両方を用いて、本露光画像Pから特定被写体画像Sを抽出する。本第4実施形態に係る撮像装置12の構成は、上記第1実施形態と同じであるので、説明を省略する。また、本第4実施形態に係る合焦位置間距離及び色差の算出方法は、上記第2及び第3実施形態と同じであるので、説明を省略する。
 本第4実施形態に係る撮像装置12の作用について図19を参照しながら説明する。図19には、第4実施形態に係るトレーニングデータ生成処理の流れの一例が示されている。
 図19において、ステップST401~ステップST409は、図11のステップST101~ステップST109と同じであるので、説明を省略する。また、図19において、ステップST410は、図16のステップST210と同じであるので、説明を省略する。
 ステップST411で、トレーニングデータ生成部53は、各分割領域Dの合焦位置間距離を算出する。この後、トレーニングデータ生成処理はステップST412に移行する。
 ステップST412で、トレーニングデータ生成部53は、各分割領域Dの色差を算出する。この後、トレーニングデータ生成処理はステップST413に移行する。
 ステップST413で、トレーニングデータ生成部53は、合焦位置間距離が距離閾値未満であり、かつ、色差が色差閾値未満である分割領域Dを特定する。この後、トレーニングデータ生成処理は、ステップST414に移行する。
 ステップST414で、トレーニングデータ生成部53は、特定された分割領域Dに基づいて、本露光画像Pから特定被写体画像Sを抽出する。またトレーニングデータ生成部53は、抽出された特定被写体画像Sの位置座標を取得する。この後、トレーニングデータ生成処理は、ステップST415に移行する。
 ステップST415で、トレーニングデータ生成部53は、特定被写体データとラベルLとを対応付けて学習機器14に出力する。学習機器14は、受け付けた特定被写体データ及びラベルLを、トレーニングデータ17として、データベース16に記憶する。これにより、トレーニングデータ生成処理が終了する。
 以上説明したように、本第4実施形態において、合焦位置間距離と色差の両方が、類似評価値として用いられる。従って、本構成によれば、トレーニングデータ生成部53は、合焦位置間距離と色差の両方を用いない場合に比べ、本露光画像Pから特定被写体画像Sを精度良く抽出することができる。
 [第5実施形態]
 本第5実施形態は、例えば、特定被写体が動く物体である場合に有効である。本第5実施形態では、AF動作から本露光動作までの間に特定被写体が移動して、本露光画像Pから抽出される特定被写体画像Sの信頼度が低いと判断される場合、信頼度が低いことを示す警告情報が、特定被写体データに付与される。以下、図20~図22を参照して、本第5実施形態について説明する。なお、本第5実施形態に係る撮像装置12の構成は、上記第1実施形態と同じであるので、説明を省略する。
 一例として図20に示すように、ユーザ11がAF動作を行った場合、トレーニングデータ生成部53は、例えば、60fpsのフレームレートで連続的に撮像されたライブビュー画像66のうちの1フレームを取得する。トレーニングデータ生成部53は、1フレームのライブビュー画像66において、上記第2実施形態で説明した合焦位置間距離、及び/又は上記第3実施形態で説明した色差に基づいて、特定被写体を示す画像(以下、「ライブビュー特定被写体画像LS」と称する)を抽出する。なお、ライブビュー特定被写体画像LSは、本開示の技術に係る「表示用特定被写体画像」の一例である。
 トレーニングデータ生成部53は、抽出したライブビュー特定被写体画像LSの右下角Q1Lと左上角Q2Lの座標を、ライブビュー特定被写体画像LSの位置座標として求める。また、トレーニングデータ生成部53は、ライブビュー特定被写体画像LSの位置座標に基づいて、ライブビュー特定被写体画像LSのサイズと、ライブビュー特定被写体画像LSの中心点QCLの座標(XCL,YCL)(以下、「ライブビュー特定被写体画像LSの中心座標」と称する)とを求める。
 その後、ユーザ11が本露光操作を行った場合、トレーニングデータ生成部53は、本露光画像Pを取得する。トレーニングデータ生成部53は、上記ライブビュー特定被写体画像LSを抽出したのと同様の方法で、本露光画像Pから特定被写体画像Sを抽出する。
 トレーニングデータ生成部53は、抽出した特定被写体画像Sの右下角Q1Eと左上角Q2Eの座標を、特定被写体画像Sの位置座標として求める。また、トレーニングデータ生成部53は、特定被写体画像Sの位置座標に基づいて、特定被写体画像Sのサイズと、特定被写体画像Sの中心点QCEの座標(XCE,YCE)(以下、「特定被写体画像Sの中心座標」と称する)とを求める。
 トレーニングデータ生成部53は、ライブビュー特定被写体画像LSのサイズと、特定被写体画像Sのサイズとを比較することにより、ライブビュー特定被写体画像LSと特定被写体画像Sとのサイズ相違度を算出する。一例として図20に示すように、トレーニングデータ生成部53は、算出したサイズ相違度が予め定められたサイズ既定範囲を超える場合、抽出された特定被写体画像Sの信頼度が低いことを警告する警告情報を、特定被写体データ及びラベルLと共に学習機器14に出力する。なお、サイズ相違度は、本開示の技術に係る「相違度」の一例である。また、サイズ既定範囲は、本開示の技術に係る「第2既定範囲」の一例である。また、警告情報を出力する処理は、本開示の技術に係る「異常検出処理」の一例である。
 また、トレーニングデータ生成部53は、ライブビュー特定被写体画像LSの中心座標と、特定被写体画像Sの中心座標とを比較することにより、ライブビュー特定被写体画像LSと特定被写体画像Sとの中心位置の相違度を算出する。一例として図21に示すように、トレーニングデータ生成部53は、算出した中心位置の相違度が予め定められた位置既定範囲を超える場合、抽出された特定被写体画像Sの信頼度が低いことを警告する警告情報を、特定被写体データ及びラベルLと共に学習機器14に出力する。なお、中心位置の相違度は、本開示の技術に係る「相違度」の一例である。また、位置既定範囲は、本開示の技術に係る「第2既定範囲」の一例である。
 本第5実施形態に係る撮像装置12の作用について図22A及び図22Bを参照しながら説明する。図22A及び図22Bには、第5実施形態に係るトレーニングデータ生成処理の流れの一例が示されている。
 図22Aにおいて、ステップST501~ステップST507は、図11のステップST101~ステップST107と同じであるので、説明を省略する。
 ステップST508で、トレーニングデータ生成部53は、ライブビュー画像66のうち1フレームを取得する。この後、トレーニングデータ生成処理はステップST509に移行する。
 ステップST509で、トレーニングデータ生成部53は、取得した1フレームのライブビュー画像66において、候補領域78及び分割領域Dを設定する。この後、トレーニングデータ生成処理はステップST510に移行する。
 ステップST510で、トレーニングデータ生成部53は、各分割領域Dの合焦位置間距離及び/又は色差を算出する。この後、トレーニングデータ生成処理はステップST511に移行する。
 ステップST511で、トレーニングデータ生成部53は、“合焦位置間距離<距離閾値”及び/又は“色差<色差閾値”を満たす分割領域Dを特定する。この後、トレーニングデータ生成処理は、ステップST512に移行する。
 ステップST512で、トレーニングデータ生成部53は、特定された分割領域Dに基づいて、1フレームのライブビュー画像66からライブビュー特定被写体画像LSを抽出する。この後、トレーニングデータ生成処理は、ステップST513に移行する。
 ステップST513で、トレーニングデータ生成部53は、ライブビュー特定被写体画像LSの位置座標、サイズ、及び中心座標を算出する。この後、トレーニングデータ生成処理は、ステップST514に移行する。
 ステップST514で、トレーニングデータ生成部53は、本露光が行われたか否かを判定する。ステップST514において、本露光が行われた場合、判定が肯定されて、トレーニングデータ生成処理はステップST515に移行する。ステップST514において、本露光が行われていない場合、判定が否定されて、トレーニングデータ生成処理はステップST506に移行する。
 ステップST515で、トレーニングデータ生成部53は、本露光画像Pを取得する。この後、トレーニングデータ生成処理は、ステップST516に移行する。
 ステップST516で、トレーニングデータ生成部53は、本露光画像Pにおいて、候補領域78及び分割領域Dを設定する。この後、トレーニングデータ生成処理はステップST517に移行する。
 ステップST517で、トレーニングデータ生成部53は、各分割領域Dの合焦位置間距離及び/又は色差を算出する。この後、トレーニングデータ生成処理はステップST518に移行する。
 ステップST518で、トレーニングデータ生成部53は、“合焦位置間距離<距離閾値”及び/又は“色差<色差閾値”を満たす分割領域Dを特定する。この後、トレーニングデータ生成処理は、ステップST519に移行する。
 ステップST519で、トレーニングデータ生成部53は、特定された分割領域Dに基づいて、本露光画像Pから特定被写体画像Sを抽出する。この後、トレーニングデータ生成処理は、ステップST520に移行する。
 ステップST520で、トレーニングデータ生成部53は、特定被写体画像Sの位置座標、サイズ、及び中心座標を算出する。この後、トレーニングデータ生成処理は、ステップST521に移行する。
 ステップST521で、トレーニングデータ生成部53は、ライブビュー特定被写体画像LSのサイズと特定被写体画像Sのサイズとを比較することによって、ライブビュー特定被写体画像LSと特定被写体画像Sとのサイズ相違度を算出する。この後、トレーニングデータ生成処理はステップST522に移行する。
 ステップST522で、トレーニングデータ生成部53は、算出したサイズ相違度がサイズ既定範囲内か否かを判定する。ステップST522において、サイズ相違度がサイズ既定範囲内の場合、判定が肯定されて、トレーニングデータ生成処理はステップST523に移行する。ステップST522において、サイズ相違度がサイズ既定範囲を超える場合、判定が否定されて、トレーニングデータ生成処理はステップST526に移行する。
 ステップST523で、トレーニングデータ生成部53は、ライブビュー特定被写体画像LSの中心位置と特定被写体画像Sの中心位置とを比較することによって、ライブビュー特定被写体画像LSと特定被写体画像Sとの中心位置の相違度を算出する。この後、トレーニングデータ生成処理はステップST524に移行する。
 ステップST524で、トレーニングデータ生成部53は、算出した中心位置の相違度が位置既定範囲内か否かを判定する。ステップST524において、中心位置の相違度が位置既定範囲内の場合、判定が肯定されて、トレーニングデータ生成処理はステップST525に移行する。ステップST524において、中心位置の相違度が位置既定範囲を超える場合、判定が否定されて、トレーニングデータ生成処理はステップST526に移行する。
 ステップST525で、トレーニングデータ生成部53は、特定被写体データとラベルLとを対応付けて学習機器14に出力する。特定被写体データは、本露光画像Pと、特定被写体画像Sの位置座標とを含むデータである。一方、ステップST526で、トレーニングデータ生成部53は、特定被写体データ及びラベルLに加えて、警告情報を学習機器14に出力する。これにより、トレーニングデータ生成処理が終了する。
 以上説明したように、本第5実施形態によれば、トレーニングデータ生成部53は、ライブビュー画像66から抽出されたライブビュー特定被写体画像LSと、本露光画像Pから抽出された特定被写体画像Sとの間のサイズ相違度がサイズ既定範囲を超える場合、又はライブビュー特定被写体画像LSと特定被写体画像Sとの間の中心位置の相違度が位置既定範囲を超える場合、警告情報を学習機器14に出力する。従って、信頼度が低いと判断された特定被写体画像Sに関する特定被写体データは、警告情報が付与されて学習機器14に出力されるので、警告情報が付与されない場合に比べ、トレーニングデータ17の品質が向上する。
 なお、上記第5実施形態では、トレーニングデータ生成部53は、信頼度が低いと判断した特定被写体画像Sに関する特定被写体データに、警告情報を付与して学習機器14に出力するが、本開示の技術はこれに限定されない。トレーニングデータ生成部53は、信頼度が低いと判断した特定被写体画像Sに関する特定被写体データを、学習機器14に出力しなくてもよい。また、トレーニングデータ生成部53は、特定被写体データに、特定被写体画像Sに対する信頼度を示す信頼度数を付与して学習機器14に出力してもよい。この場合、学習機器14は、信頼度数を参照して、信頼度数が低い特定被写体データを受け付けなくてもよい。
 [第6実施形態]
 本第6実施形態では、トレーニングデータ生成部53は、イメージセンサ24に対して、複数の合焦位置で本露光動作を行わせることによって、フォーカス対象領域Fにピントが合っている本露光画像P(以下、「合焦画像」とも称する)に加えて、フォーカス対象領域Fにピントが合っていない本露光画像P(以下、「非合焦画像」とも称する)を取得させる。トレーニングデータ生成部53は、合焦画像に写っている特定被写体画像Sに関する特定被写体データを、トレーニングデータ17として出力するだけではなく、非合焦画像に写っている特定被写体画像Sに関する特定被写体データを、トレーニングデータ17として出力する。以下、図23~図25を参照して、本第6実施形態について説明する。なお、本第6実施形態に係る撮像装置12の構成は、上記第1実施形態と同じであるので、説明を省略する。
 一例として図23に示すように、トレーニングデータ生成部53は、イメージセンサ24に対して、フォーカス対象領域Fまでの距離に基づいてAF演算を行うことにより導出された合焦位置を含む、複数の合焦位置で本露光動作を行わせる。例えば、特定被写体Aの左眼の位置をフォーカス対象領域Fとして撮像を行った場合(図12参照)、トレーニングデータ生成部53は、イメージセンサ24に対して、フォーカス対象領域Fまでの距離に基づいて導出された合焦位置を含む、5か所の合焦位置で本露光動作を行わせる。なお、5か所の合焦位置は、本開示の技術に係る「複数の合焦位置」の一例である。
 これにより、イメージセンサ24は、特定被写体Aにピントが合っている本露光画像(合焦画像)P3の他に、特定被写体Aにピントが合っていない本露光画像(非合焦画像)P1、P2、P4、及びP5を出力する。非合焦画像P1及びP2は、特定被写体Aよりも撮像装置12に近い被写体に合焦している前ピン画像である。また、非合焦画像P4及びP5は、特定被写体Aよりも撮像装置12から遠い被写体に合焦している後ピン画像である。なお、合焦画像P3は、本開示の技術に係る「合焦画像」の一例である。非合焦画像P1、P2、P4、及びP5は、本開示の技術に係る「非合焦画像」の一例である。
 トレーニングデータ生成部53は、上記第2実施形態で説明した合焦位置間距離、及び/又は上記第3実施形態で説明した色差に基づいて、合焦画像P3から特定被写体画像Sを抽出する。また、トレーニングデータ生成部53は、抽出した特定被写体画像Sの位置座標を求める。
 一例として図24に示すように、トレーニングデータ生成部53は、合焦画像P3と、特定被写体画像Sの位置座標と、ラベルLとを対応付けて、トレーニングデータ17-3として学習機器14に出力する。
 また、トレーニングデータ生成部53は、各非合焦画像P1、P2、P4、又はP5と、合焦画像P3から抽出された特定被写体画像Sの位置座標と、ラベルLとを対応付けて、トレーニングデータ17-1、17-2、17-4、又は17-5として学習機器14に出力する。すなわち、トレーニングデータ生成部53は、合焦画像P3から抽出された特定被写体画像Sの位置座標を、非合焦画像P1、P2、P4、又はP5における特定被写体画像Sの位置座標として出力する。学習機器14は、トレーニングデータ17-1~17-5を受け付けて、データベース16に記憶する。
 本第6実施形態に係る撮像装置12の作用について図25を参照しながら説明する。図25には、本第6実施形態に係るトレーニングデータ生成処理の流れの一例が示されている。
 図25において、ステップST601~ステップST607は、図11のステップST101~ステップST107と同じであるので、説明を省略する。
 ステップST608で、トレーニングデータ生成部53は、本露光操作が行われたか否かを判定する。ステップST608において、本露光操作が行われた場合には、判定が肯定されて、フォーカス対象領域Fまでの距離に基づく合焦位置を含む複数の合焦位置で本露光動作が行われ、トレーニングデータ生成処理はステップST609に移行する。ステップST608において、本露光操作が行われていない場合には、判定が否定されて、トレーニングデータ生成処理はステップST606に移行する。
 ステップST609で、トレーニングデータ生成部53は、複数の本露光画像P1~P5を取得する。複数の本露光画像P1~P5のうち、本露光画像P3は合焦画像であり、本露光画像P1、P2、P4、及びP5は非合焦画像である。この後、トレーニングデータ生成処理はステップST610に移行する。
 ステップST610で、トレーニングデータ生成部53は、合焦画像P3において、候補領域78及び分割領域Dを設定する。この後、トレーニングデータ生成処理はステップST611に移行する。
 ステップST611で、トレーニングデータ生成部53は、各分割領域Dの合焦位置間距離及び/又は色差を算出する。この後、トレーニングデータ生成処理はステップST612に移行する。
 ステップST612で、トレーニングデータ生成部53は、合焦位置間距離が距離閾値未満、及び/又は、色差が色差閾値未満である分割領域Dを特定する。この後、トレーニングデータ生成処理は、ステップST613に移行する。
 ステップST613で、トレーニングデータ生成部53は、特定された分割領域Dに基づいて、本露光画像(合焦画像)P3から特定被写体画像Sを抽出する。この後、トレーニングデータ生成処理は、ステップST614に移行する。
 ステップST614で、トレーニングデータ生成部53は、特定被写体画像Sの位置座標を取得する。この後、トレーニングデータ生成処理は、ステップST615に移行する。
 ステップST615で、特定被写体データとラベルLとを対応付けて学習機器14に出力する。特定被写体データは、本露光画像P1~P5の各々と、本露光画像P3から抽出された特定被写体画像Sの位置座標とを含むデータである。従って、本第6実施形態では、トレーニングデータ生成処理を一度実行することによって、5種類の特定被写体データが出力される。学習機器14は、特定被写体データとラベルLとを対応付けてデータベース16に記憶する。これにより、トレーニングデータ生成処理が終了する。
 以上説明したように、本第6実施形態において、イメージセンサ24は、複数の合焦位置で本露光動作を行う。トレーニングデータ生成部53は、本露光動作が行われることによって得られる複数の本露光画像P1~P5の各々について、合焦画像P3から得られる特定被写体画像Sの位置座標を、非合焦画像P1、P2、P4、及びP5の各々における特定被写体画像Sの位置座標として出力する。従って、本構成によれば、特定被写体画像Sが手作業で抽出される場合に比べ、トレーニングデータ生成部53は、合焦画像P3に含まれる特定被写体画像Sに関する特定被写体データと、非合焦画像P1、P2、P4、及びP5の各々に含まれる特定被写体画像Sに関する特定被写体データとを簡便に取得することができる。
 また、本構成によれば、トレーニングデータ生成部53は、一度のラベルLの選択により複数の本露光画像P1~P5に個別にラベルを付与することができる。これにより、複数の本露光画像P1~P5にラベルLを付与する手間を省くことができる。また、トレーニングデータ生成部53は、撮影後に本露光画像P1~P5にラベルLを付与しても良い。その場合も、一度のラベルLの選択により、連続的に撮像された複数の本露光画像P1~P5にラベルLが付与されることが望ましい。撮影後に個別にラベルLを付与しようとすると、非合焦画像のボケ方によっては何の画像か分からなくなる問題が生じることがある。しかし、一度のラベルLの選択により、連続的に撮像された複数の本露光画像P1~P5に同じラベルLが付与されることにより、そのような問題を解消することができる。この場合、トレーニングデータ生成部53は、合焦画像P3に対して選択されたラベルLを、非合焦画像P1、P2、P4、及びP5の各々に付与することが望ましい。
 なお、上記第6実施形態では、一度の本露光動作において、トレーニングデータ生成部53は、5か所の合焦位置で撮像を行うことによって得られた5種類の特定被写体データを出力するが、本開示の技術はこれに限定されない。イメージセンサ24が撮像を行う合焦位置は、5か所よりも多くても少なくてもよい。トレーニングデータ生成部53は、合焦位置の数に応じた種類分の特定被写体データを出力する。
 また、上記第6実施形態において、トレーニングデータ生成部53は、非合焦画像P1、P2、P4、及びP5を含む特定被写体データに、非合焦の度合いを示すAF評価値を付与してもよい。また、トレーニングデータ生成部53は、AF評価値に基づいて、「合焦」又は「非合焦」を示すラベルを特定被写体データに付与してもよい。これにより、AF評価値が付与されない場合に比べ、トレーニングデータ17の品質が向上する。
 上記第1~第6実施形態において、特定被写体データは、本露光画像Pと、特定被写体画像Sの位置座標とを含むが、本開示の技術はこれに限定されない。一例として図26に示すように、特定被写体データは、本露光画像Pから切り出された特定被写体画像Sであってもよい。トレーニングデータ生成部53は、本露光画像Pから切り出した特定被写体画像Sを、ラベルLと対応付けて、機械学習に用いるトレーニングデータ17として出力する。この構成によれば、本露光画像Pが切り出されずに出力される場合に比べ、出力される特定被写体データのサイズが小さくなる。なお、「トレーニングデータ生成部53が、特定被写体データを機械学習に用いるデータとして出力する」とは、具体的には、トレーニングデータ生成部53が、本露光画像Pと特定被写体画像Sの位置座標とを記憶する記憶処理、又は本露光画像Pから特定被写体画像Sを切り出す切出処理等を含む。
 また、上記第1~第6実施形態において、枠線68Aは矩形であるが、本開示の技術はこれに限定されず、枠線68Aの形状は任意に変更可能である。
 また、上記第1~第6実施形態において、AF枠68で取り囲まれた領域をフォーカス対象領域Fとすることで、フォーカス対象領域Fが他画像領域と区別可能な態様で表示されるが、本開示の技術はこれに限定されない。トレーニングデータ生成部53は、例えば、ライブビュー画像66に矢印を表示し、矢印で指示された領域をフォーカス対象領域Fとしてもよい。また、トレーニングデータ生成部53は、例えば、指示体によるタッチパネル36への接触を感知することでフォーカス対象領域Fの指定を受け付け、指定されたフォーカス対象領域Fを他画像領域と区別可能な色で表示してもよい。
 また、上記第1~第6実施形態において、学習機器14は、撮像装置12から出力されたトレーニングデータ17をデータベース16に記憶し、データベース16に記憶されているトレーニングデータ17を用いて機械学習を行うが、本開示の技術はこれに限定されない。例えば、撮像装置12のCPU50Aが、自身で取得したトレーニングデータ17をNVM50Bに記憶し、NVM50Bに記憶されているトレーニングデータを17用いて機械学習を行ってもよい。この構成によれば、撮像装置12が、トレーニングデータ17の取得と学習とを実行することができるので、トレーニングデータ17の取得と学習とを別の装置で行う場合に比べ、装置の数が少なくて済む。
 また、上記第1~第6実施形態において、撮像装置12がトレーニングデータ撮像モードに設定された場合、トレーニングデータ生成部53は、AF動作及び本露光動作よりも前に、ラベル選択画面64をタッチパネル・モニタ30に表示させて、ユーザ11にラベルLを選択させるが、本開示の技術はこれに限定されない。トレーニングデータ生成部53は、イメージセンサ24に本露光画像Pを取得させた後、ラベル選択画面64をタッチパネル・モニタ30に表示させて、ユーザ11からラベルLの選択を受け付けてもよい。
 また、上記第1~第6実施形態において、トレーニングデータ生成部53は、特定被写体データとラベルLとを対応付けて、教師有り機械学習に用いるトレーニングデータ17として、学習機器14に出力するが、本開示の技術はこれに限定されない。トレーニングデータ生成部53は、特定被写体データのみを学習機器14に出力してもよい。この場合、ユーザ11は、学習機器14において、特定被写体データに対するラベル付けを行ってもよい。また、特定被写体データに対するラベル付けは、行われなくてもよい。この場合、特定被写体データは、教師無し機械学習のトレーニングデータとして用いられてもよいし、従来のパターン認識技術に用いられてもよい。
 また、上記第1~第6実施形態において、非位相差画素群86Gと位相差画素群84Gとを併用する形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、非位相差画素群86G及び位相差画素群84Gに代えて、位相差画像データと非位相差画像データとが選択的に生成されて読み出されるエリアセンサとしてもよい。この場合、エリアセンサには、複数の感光画素が2次元状に配列されている。エリアセンサに含まれる感光画素には、例えば、遮光部材を有しない独立した一対のフォトダイオードが用いられる。非位相差画像データが生成されて読み出される場合、感光画素の全領域(一対のフォトダイオード)によって光電変換が行われ、位相差画像データが生成されて読み出される場合(例えば、パッシブ方式の測距を行う場合)、一対のフォトダイオードのうちの一方のフォトダイオードによって光電変換が行われる。ここで、一対のフォトダイオードのうちの一方のフォトダイオードは、上記実施形態で説明した第1位相差画素84-Lに対応するフォトダイオードであり、一対のフォトダイオードのうちの一方のフォトダイオードは、上記実施形態で説明した第2位相差画素84-Rに対応するフォトダイオードである。なお、エリアセンサに含まれる全ての感光画素によって位相差画像データと非位相差画像データとが選択的に生成されて読み出されるようにしてもよいが、これに限らず、エリアセンサに含まれる一部の感光画素によって位相差画像データと非位相差画像データとが選択的に生成されて読み出されるようにしてもよい。
 また、上記第1~第6実施形態において、位相差方式を例に挙げて、フォーカス対象領域Fまでの距離を導出する方法について説明したが、本開示の技術はこれに限定されず、TOF方式、又はコントラスト方式を用いてもよい。
 また、上記第1~第6実施形態では、NVM50Bにトレーニングデータ生成プログラム51Aが記憶されている形態例を挙げて説明したが、本開示の技術はこれに限定されない。例えば、図27に示すように、トレーニングデータ生成プログラム51Aが記憶媒体100に記憶されていてもよい。記憶媒体100は、非一時的記憶媒体である。記憶媒体100の一例としては、SSD又はUSBメモリなどの任意の可搬型の記憶媒体が挙げられる。
 記憶媒体100に記憶されているトレーニングデータ生成プログラム51Aは、コントローラ50にインストールされる。CPU50Aは、トレーニングデータ生成プログラム51Aに従ってトレーニングデータ生成処理を実行する。
 また、通信網(図示省略)を介してコントローラ50に接続される他のコンピュータ又はサーバ装置等の記憶部にトレーニングデータ生成プログラム51Aを記憶させておき、上述の撮像装置12の要求に応じてトレーニングデータ生成プログラム51Aがダウンロードされ、コントローラ50にインストールされるようにしてもよい。
 なお、コントローラ50に接続される他のコンピュータ又はサーバ装置等の記憶部、又は記憶媒体100にトレーニングデータ生成プログラム51Aの全てを記憶させておく必要はなく、トレーニングデータ生成プログラム51Aの一部を記憶させておいてもよい。
 図4に示す例では、撮像装置12にコントローラ50が内蔵されている態様例が示されているが、本開示の技術はこれに限定されず、例えば、コントローラ50が撮像装置12の外部に設けられるようにしてもよい。
 図4に示す例では、CPU50Aは、単数のCPUであるが、複数のCPUであってもよい。また、CPU50Aに代えてGPUを適用してもよい。
 図4に示す例では、コントローラ50が例示されているが、本開示の技術はこれに限定されず、コントローラ50に代えて、ASIC、FPGA、及び/又はPLDを含むデバイスを適用してもよい。また、コントローラ50に代えて、ハードウェア構成及びソフトウェア構成の組み合わせを用いてもよい。
 上記実施形態で説明したトレーニングデータ生成処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、ソフトウェア、すなわち、プログラムを実行することで、トレーニングデータ生成処理を実行するハードウェア資源として機能する汎用的なプロセッサであるCPUが挙げられる。また、プロセッサとしては、例えば、FPGA、PLD、又はASICなどの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することでトレーニングデータ生成処理を実行する。
 トレーニングデータ生成処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、又はCPUとFPGAとの組み合わせ)で構成されてもよい。また、トレーニングデータ生成処理を実行するハードウェア資源は1つのプロセッサであってもよい。
 1つのプロセッサで構成する例としては、第1に、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが、トレーニングデータ生成処理を実行するハードウェア資源として機能する形態がある。第2に、SoCなどに代表されるように、トレーニングデータ生成処理を実行する複数のハードウェア資源を含むシステム全体の機能を1つのICチップで実現するプロセッサを使用する形態がある。このように、トレーニングデータ生成処理は、ハードウェア資源として、上記各種のプロセッサの1つ以上を用いて実現される。
 更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。また、上記のトレーニングデータ生成処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。
 以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。
 本明細書において、「A及び/又はB」は、「A及びBのうちの少なくとも1つ」と同義である。つまり、「A及び/又はB」は、Aだけであってもよいし、Bだけであってもよいし、A及びBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「及び/又は」で結び付けて表現する場合も、「A及び/又はB」と同様の考え方が適用される。
 本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims (21)

  1.  プロセッサと、
     前記プロセッサに接続又は内蔵されたメモリと、を備えた情報処理装置であって、
     前記プロセッサは、特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、前記撮像によって得られた撮像画像内の前記特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力する
     情報処理装置。
  2.  前記機械学習は、教師有り機械学習であり、
     前記プロセッサは、
    前記特定被写体画像に関する情報であるラベルを前記特定被写体データに付与し、
    前記特定被写体データを、前記教師有り機械学習に用いるトレーニングデータとして出力する
    請求項1に記載の情報処理装置。
  3.  前記プロセッサは、前記イメージセンサから出力された信号に基づいた表示用動画像がモニタに表示されている状態で、前記フォーカス対象領域を他画像領域と区別可能な態様で表示し、
     前記特定被写体画像は、前記撮像画像内の前記フォーカス対象領域の位置に対応する画像である
     請求項1又は請求項2に記載の情報処理装置。
  4.  前記プロセッサは、前記表示用動画像において、前記フォーカス対象領域を取り囲む枠を表示することで、前記フォーカス対象領域を前記他画像領域と区別可能な態様で表示する請求項3に記載の情報処理装置。
  5.  前記枠の位置は、与えられた位置変更指示に従って変更可能である請求項4に記載の情報処理装置。
  6.  前記枠のサイズは、与えられたサイズ変更指示に従って変更可能である請求項4又は請求項5に記載の情報処理装置。
  7.  前記プロセッサは、前記撮像画像と前記フォーカス対象領域の座標とを、前記機械学習に用いる前記データとして出力する請求項1から請求項6の何れか一項に記載の情報処理装置。
  8.  前記プロセッサは、
     前記イメージセンサから出力された信号に基づいた表示用動画像をモニタに表示し、
     前記表示用動画像において、前記フォーカス対象領域の指定を受け付け、
     前記フォーカス対象領域を含む所定領域のうち、前記フォーカス対象領域に対する類似度を示す類似評価値が第1既定範囲内にある領域に基づいて、前記特定被写体画像を抽出する
     請求項1又は請求項2に記載の情報処理装置。
  9.  前記プロセッサは、前記フォーカス対象領域を他画像領域と区別可能な態様で表示する請求項8に記載の情報処理装置。
  10.  前記フォーカス対象領域及び前記特定被写体画像のうちの少なくとも一方は、前記所定領域が分割されることで得られた分割領域単位で定められている請求項8又は請求項9に記載の情報処理装置。
  11.  前記類似評価値は、フォーカス動作に使用されたフォーカス評価値に基づく値である請求項8から請求項10の何れか一項に記載の情報処理装置。
  12.  前記類似評価値は、前記所定領域の色情報に基づく色評価値である請求項8から請求項11の何れか一項に記載の情報処理装置。
  13.  前記プロセッサは、前記表示用動画像において前記特定被写体を示す表示用特定被写体画像と、前記特定被写体画像との相違度が第2既定範囲を超えている場合、異常検出処理を行い、
     前記表示用特定被写体画像は、前記類似評価値に基づいて定められている
     請求項8から請求項12の何れか一項に記載の情報処理装置。
  14.  前記特定被写体データは、前記特定被写体画像の座標を含み、
    前記プロセッサは、前記撮像画像と前記特定被写体画像の座標とを、前記機械学習に用いる前記データとして出力する
    請求項1から請求項13の何れか一項に記載の情報処理装置。
  15.  前記特定被写体データは、前記撮像画像から切り出された前記特定被写体画像であり、
    前記プロセッサは、切り出された前記特定被写体画像を、前記機械学習に用いる前記データとして出力する
    請求項1から請求項14の何れか一項に記載の情報処理装置。
  16.  前記プロセッサは、
     前記データを前記メモリに記憶し、
     前記メモリに記憶されている前記データを用いて前記機械学習を行う
     請求項1から請求項15の何れか一項に記載の情報処理装置。
  17.  請求項1から請求項15の何れか一項に記載の前記情報処理装置から出力された前記データを受け付ける受付デバイスと、
     前記受付デバイスによって受け付けられた前記データを用いて前記機械学習を行う演算装置と、
     を備える学習機器。
  18.  請求項1から請求項16のうちの何れか一項に記載の情報処理装置と、
     前記イメージセンサと、
     を備える撮像装置。
  19.  前記イメージセンサは、複数の合焦位置で撮像し、
     前記プロセッサは、前記撮像が行われることによって得られる複数の前記撮像画像について、前記特定被写体に合焦している合焦画像から得られる前記特定被写体画像の座標を、前記特定被写体に合焦していない非合焦画像における前記特定被写体画像の座標として出力する
     請求項18に記載の撮像装置。
  20.  特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、前記撮像によって得られた撮像画像内の前記特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力することを含む
     情報処理装置の制御方法。
  21.  コンピュータに、
     特定被写体をフォーカス対象領域としたフォーカス動作を伴う撮像がイメージセンサによって行われた場合に、前記撮像によって得られた撮像画像内の前記特定被写体を示す特定被写体画像に関する特定被写体データを、機械学習に用いるデータとして出力することを含む
     処理を実行させるためのプログラム。
PCT/JP2021/021754 2020-06-30 2021-06-08 情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラム WO2022004303A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022533785A JPWO2022004303A1 (ja) 2020-06-30 2021-06-08
CN202180045835.7A CN115735211A (zh) 2020-06-30 2021-06-08 信息处理装置、学习设备、摄像装置、信息处理装置的控制方法及程序
US18/146,442 US20230131704A1 (en) 2020-06-30 2022-12-26 Information processing apparatus, learning device, imaging apparatus, control method of information processing apparatus, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-113522 2020-06-30
JP2020113522 2020-06-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/146,442 Continuation US20230131704A1 (en) 2020-06-30 2022-12-26 Information processing apparatus, learning device, imaging apparatus, control method of information processing apparatus, and program

Publications (1)

Publication Number Publication Date
WO2022004303A1 true WO2022004303A1 (ja) 2022-01-06

Family

ID=79315226

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/021754 WO2022004303A1 (ja) 2020-06-30 2021-06-08 情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラム

Country Status (4)

Country Link
US (1) US20230131704A1 (ja)
JP (1) JPWO2022004303A1 (ja)
CN (1) CN115735211A (ja)
WO (1) WO2022004303A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011160044A (ja) * 2010-01-29 2011-08-18 Sanyo Electric Co Ltd 撮像装置
JP2019215489A (ja) * 2018-06-14 2019-12-19 オリンパス株式会社 撮像装置および焦点調節方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011160044A (ja) * 2010-01-29 2011-08-18 Sanyo Electric Co Ltd 撮像装置
JP2019215489A (ja) * 2018-06-14 2019-12-19 オリンパス株式会社 撮像装置および焦点調節方法

Also Published As

Publication number Publication date
CN115735211A (zh) 2023-03-03
US20230131704A1 (en) 2023-04-27
JPWO2022004303A1 (ja) 2022-01-06

Similar Documents

Publication Publication Date Title
US9185317B2 (en) Image capturing apparatus capable of storing focus detection data
US9253390B2 (en) Image processing device, image capturing device, image processing method, and computer readable medium for setting a combination parameter for combining a plurality of image data
US10904425B2 (en) Image processing apparatus, control method therefor, and storage medium for evaluating a focusing state of image data
JP5938281B2 (ja) 撮像装置およびその制御方法ならびにプログラム
JP6147080B2 (ja) 顕微鏡システム、貼り合わせ領域の決定方法、及び、プログラム
JP2015194706A (ja) 焦点検出装置及びその制御方法
EP2635019B1 (en) Image processing device, image processing method, and program
JP2011191568A (ja) 撮像装置、表示方法、および、プログラム
JP2018101951A (ja) 撮像装置、撮像方法およびコンピュータのプログラム
JP6234401B2 (ja) 画像処理装置、撮像装置、画像処理方法、及びプログラム
JP2013145982A (ja) 撮像装置、画像処理装置及び方法
WO2022004303A1 (ja) 情報処理装置、学習機器、撮像装置、情報処理装置の制御方法、及びプログラム
TWI508554B (zh) 基於光場相機的影像對焦處理方法及其系統
US11899276B2 (en) Imaging apparatus, information processing method, program, and interchangeable lens
JP7173067B2 (ja) 撮像装置、撮影システム、撮像方法及びプログラム
JP2014086899A (ja) 画像処理装置、画像処理方法およびプログラム。
Zhang A practical introduction to light field microscopy
JP2017184007A (ja) 画像処理装置、撮像装置、制御方法およびプログラム
JP2016099432A (ja) 焦点検出装置及び方法、プログラム、記憶媒体
JP5769534B2 (ja) 撮像装置、撮像方法、およびプログラム
JP7421008B2 (ja) 撮像装置、撮像方法、及びプログラム
WO2022004305A1 (ja) 撮像支援装置、撮像装置、撮像支援方法、及びプログラム
JP7415079B2 (ja) 撮像装置、撮像方法、及びプログラム
WO2022004302A1 (ja) 画像処理装置、撮像装置、画像処理方法、及びプログラム
JP6016567B2 (ja) 相関演算装置、撮像装置、相関演算方法、プログラム及び記憶媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21834682

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022533785

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21834682

Country of ref document: EP

Kind code of ref document: A1