WO2021149238A1 - 情報処理装置、情報処理方法、および情報処理プログラム - Google Patents

情報処理装置、情報処理方法、および情報処理プログラム Download PDF

Info

Publication number
WO2021149238A1
WO2021149238A1 PCT/JP2020/002481 JP2020002481W WO2021149238A1 WO 2021149238 A1 WO2021149238 A1 WO 2021149238A1 JP 2020002481 W JP2020002481 W JP 2020002481W WO 2021149238 A1 WO2021149238 A1 WO 2021149238A1
Authority
WO
WIPO (PCT)
Prior art keywords
area
main subject
information processing
determined
unit
Prior art date
Application number
PCT/JP2020/002481
Other languages
English (en)
French (fr)
Inventor
秀一 後藤
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to US17/758,916 priority Critical patent/US20230128043A1/en
Priority to PCT/JP2020/002481 priority patent/WO2021149238A1/ja
Priority to EP20915045.7A priority patent/EP4096209A4/en
Publication of WO2021149238A1 publication Critical patent/WO2021149238A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • H04N23/675Focus control based on electronic image sensor signals comprising setting of focusing regions
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B7/00Mountings, adjusting means, or light-tight connections, for optical elements
    • G02B7/28Systems for automatic generation of focusing signals
    • G02B7/36Systems for automatic generation of focusing signals using image sharpness techniques, e.g. image processing techniques for generating autofocus signals
    • G02B7/38Systems for automatic generation of focusing signals using image sharpness techniques, e.g. image processing techniques for generating autofocus signals measured at different points on the optical axis, e.g. focussing on two or more planes and comparing image data
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B13/00Viewfinders; Focusing aids for cameras; Means for focusing for cameras; Autofocus systems for cameras
    • G03B13/32Means for focusing
    • G03B13/34Power focusing
    • G03B13/36Autofocus systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • H04N23/958Computational photography systems, e.g. light-field imaging systems for extended depth of field imaging
    • H04N23/959Computational photography systems, e.g. light-field imaging systems for extended depth of field imaging by adjusting depth of field during image capture, e.g. maximising or setting range based on scene characteristics

Definitions

  • This disclosure relates to an information processing device, an information processing method, and an information processing program.
  • the autofocus (AF: Auto Focus) function that automatically focuses on a camera or video camera is often provided in terminals equipped with a camera function such as mobile phones and smartphones.
  • Some AF functions focus, for example, by touching a part (hereinafter referred to as "main subject") where the user wants to focus on a subject previewed on a screen of a smartphone or the like.
  • main subject a part where the user wants to focus on a subject previewed on a screen of a smartphone or the like.
  • center-weighted AF that automatically focuses on the subject near the center of the screen is mainly adopted.
  • a shooting unit that shoots a subject and converts it into digital data to generate a shot image
  • the subject included in the predetermined area for each predetermined area of the shot image are the main subjects that the photographer wants to shoot.
  • a calculation unit that calculates the probability of being, a determination unit that determines a predetermined area whose probability exceeds a predetermined threshold as an effective data area, and a determination unit that determines a main subject area based on the effective data area, and a determined main subject area.
  • An information processing device provided with a focus unit for focusing on is provided.
  • the information processing device captures a subject, converts it into digital data to generate a captured image, and the photographer captures a subject included in the predetermined region for each predetermined region of the captured image.
  • the probability of being the main subject to be desired is calculated, a predetermined area whose probability exceeds a predetermined threshold is determined as an effective data area, the main subject area is determined based on the effective data area, and the determined main subject area is focused.
  • a method is provided to perform the matching process.
  • the information processing apparatus captures a subject, converts it into digital data to generate a captured image, and the photographer captures a subject included in the predetermined region for each predetermined region of the captured image.
  • the probability of being the main subject to be desired is calculated, a predetermined area whose probability exceeds a predetermined threshold is determined as an effective data area, the main subject area is determined based on the effective data area, and the determined main subject area is focused.
  • a program is provided that executes the matching process.
  • the information processing device 10 may be a digital camera or a digital video camera, or may be a mobile terminal such as a smartphone or a tablet PC (Personal Computer).
  • FIG. 1 is a block diagram showing a functional configuration example of the information processing device 10 according to the present embodiment.
  • the information processing apparatus 10 includes a storage unit 110, a photographing unit 120, a display unit 130, a calculation unit 140, a determination unit 150, a focus unit 160, a tracking unit 170, and a sensor unit 180.
  • a control unit 200 is provided.
  • the storage unit 110 is a storage area for temporarily or permanently storing various programs and data.
  • the storage unit 110 may store programs and data for the information processing device 10 to execute various functions.
  • the storage unit 110 may store a program for executing a camera application, a learning model for determining a main subject, management data for managing various settings, and the like.
  • shooting parameters for example, various parameters for shooting such as focus and exposure
  • UI user interface
  • the photographing unit 120 captures a moving image or a photograph based on the control by the control unit 200.
  • the photographing unit 120 includes an image sensor, a focus ring, a zoom lens, and the like.
  • the moving image or photograph taken by the photographing unit 120 is converted into digital data and stored in the storage unit 110.
  • the moving image shot by the shooting unit 120 is stored together with the voice and the environmental sound collected during shooting by a voice input unit (not shown) such as a microphone.
  • the moving images taken by the shooting unit 120 and stored in the storage unit 110 include a moving image taken during recording and a moving image for previewing the subject on the display unit 130 or the like at a time other than recording. be.
  • the former moving image is displayed on the display unit 130, temporarily stored in the RAM (Random Access Memory), and then stored in the ROM (Read Only Memory).
  • the latter moving image is also temporarily stored in the RAM, but when the RAM capacity is full, the oldest ones are deleted and are not stored in the ROM.
  • the display unit 130 displays various visual information based on the control by the control unit 200.
  • the visual information is, for example, a UI of a camera application, a subject photographed by the photographing unit 120, or the like.
  • the display unit 130 includes various display devices such as a liquid crystal display (LCD: Liquid Crystal Display) device and an OLED (Organic Light Emitting Display) display device.
  • LCD Liquid Crystal Display
  • OLED Organic Light Emitting Display
  • the calculation unit 140 has a probability (main subject degree) that the subject included in the predetermined area is the main subject for each predetermined area of the image (captured image) of one frame of the moving image taken by the shooting unit 120. : For example, 0 to 1) is calculated.
  • the main subject is an object (object) that the photographer wants to shoot.
  • the present embodiment for example, using a learning model in which a plurality of sets of an image of an object that can be a main subject and a mask image masking the main subject area are used as teacher data, one of the captured moving images is used. Determine one main subject and focus on the determined main subject.
  • the determination unit 150 determines a predetermined area having a main subject degree of a predetermined threshold value (for example, 0.7) or more as an effective data area, and sets one main subject area based on the effective data area. decide. The method of determining the main subject area based on the effective data area will be described later.
  • a predetermined threshold value for example, 0.7
  • the focus unit 160 focuses on the main subject area determined by the determination unit 150. Further, when the main subject area is not determined, the focus unit 160 focuses on the center area of the captured image (center-weighted AF).
  • the tracking unit 170 tracks the main subject determined by the determination unit 150.
  • the main subject is tracked by the tracking unit 170 and the main subject is out of frame, or when the main subject area of the main subject area is significantly reduced with respect to the main subject in which the main subject is shot, another main subject area is set by the determination unit 150. It is determined.
  • the sensor unit 180 measures the distance to the subject (also referred to as depth and depth information).
  • the sensor unit 180 includes, for example, a ToF (Time of Flight) sensor and the like.
  • the information processing device 10 may include a voice output unit that outputs various sounds and voices in addition to the above.
  • the sound output unit outputs, for example, a sound or sound according to the situation of the camera application based on the control by the control unit 200 (for example, a sound is produced at the start or end of shooting).
  • the audio output unit includes a speaker and an amplifier.
  • Control unit 200 The control unit 200 according to the present embodiment controls each configuration included in the information processing device 10. Further, the control unit 200 is characterized in that it controls camera shooting. The control of shooting includes adjusting shooting parameters and operating a focus ring included in the shooting unit 120 based on the shooting parameters. Details of the functions of the control unit 200 will be described later.
  • the functional configuration example of the information processing device 10 according to the present embodiment has been described above.
  • the above-mentioned functional configuration described with reference to FIG. 1 is merely an example, and the functional configuration of the information processing apparatus 10 according to the present embodiment is not limited to such an example.
  • the information processing device 10 does not necessarily have all of the configurations shown in FIG. 1, and each configuration such as the display unit 130 may be provided in another device different from the information processing device 10.
  • the functional configuration of the information processing apparatus 10 according to the present embodiment can be flexibly modified according to specifications and operations.
  • each component is read from a storage medium such as ROM or RAM in which an arithmetic unit such as a CPU (Central Processing Unit) stores a control program that describes a processing procedure for realizing these functions, and the control program is read out. It may be done by interpreting and executing the program. Therefore, it is possible to appropriately change the configuration to be used according to the technical level at each time when the present embodiment is implemented.
  • a storage medium such as ROM or RAM
  • an arithmetic unit such as a CPU (Central Processing Unit) stores a control program that describes a processing procedure for realizing these functions
  • the control program is read out. It may be done by interpreting and executing the program. Therefore, it is possible to appropriately change the configuration to be used according to the technical level at each time when the present embodiment is implemented.
  • An example of the hardware configuration of the information processing device 10 will be described later.
  • the control unit 200 of the information processing device 10 according to the present embodiment is characterized in that one main subject is determined from the captured moving images by using a learning model, and the determined main subject is appropriately focused. Let it be one of.
  • the learning model of the present embodiment is a model for identifying a main subject portion in a captured image.
  • the learning model is a first element belonging to a layer other than the output layer, which is any of the input layer, the output layer, and the input layer to the output layer into which the captured image (or the feature amount of the captured image) is input.
  • a second element whose value is calculated based on the first element and the weight of the first element, and the captured image according to the captured image (or the feature amount of the captured image) input to the input layer.
  • the information processing apparatus 10 is made to function so as to output data indicating a portion recognized as the main subject (for example, data indicating the degree of the main subject described later) from the output layer.
  • the generation device (for example, the information processing device 10 such as the server device) that generates the learning model of the present embodiment may use any learning algorithm to generate the above-mentioned learning model.
  • the generation device may generate the learning model of the present embodiment by using a learning algorithm such as a neural network (NN: Neural Network), a support vector machine (SVM: Support Vector Machine), clustering, and reinforcement learning.
  • NN Neural Network
  • SVM Support Vector Machine
  • the generator uses NN to generate the learning model of the present embodiment.
  • the learning model may have an input layer containing one or more neurons, an intermediate layer containing one or more neurons, and an output layer containing one or more neurons.
  • the first element learning model contains corresponds to the input data such as x 1 and x 2 (x i).
  • the weight of the first component corresponds to the coefficients a i corresponding to x i.
  • the regression model can be regarded as a simple perceptron having an input layer and an output layer.
  • the first element corresponds to any node of the input layer
  • the second element can be regarded as the node of the output layer.
  • the learning model according to the present embodiment is realized by an NN having one or a plurality of intermediate layers such as a DNN (Deep Neural Network).
  • the first element included in the learning model corresponds to either the node of the input layer or the intermediate layer.
  • the second element corresponds to a node in the next stage, which is a node to which a value is transmitted from a node corresponding to the first element.
  • the weight of the first element corresponds to a connection coefficient which is a weight considered for the value transmitted from the node corresponding to the first element to the node corresponding to the second element.
  • the main subject degree is calculated using a learning model having an arbitrary structure such as the regression model and NN described above. More specifically, in the learning model, when a captured image is input, a coefficient is set so as to output the main subject degree for each predetermined area of the captured image.
  • the learning model according to the present embodiment may be a model generated based on the result obtained by repeating the input / output of data.
  • the learning model according to the present embodiment is a model (referred to as model X) that outputs the main subject degree for each predetermined area of the photographed image when the photographed image is input. rice field.
  • the learning model according to the present embodiment may be a model generated based on the result obtained by repeating the input / output of data to the model X.
  • the learning model according to the present embodiment may be a learning model (referred to as model Y) in which the captured image is input and the main subject degree output by the model X is output.
  • the learning model according to the present embodiment may be a learning model in which the captured image is input and the main subject degree output by the model Y is output.
  • FIG. 2 is a diagram showing an example of extraction of the main subject object according to the present embodiment.
  • the left side of FIG. 2 is a photographed image of a cat in a living room with a window overlooking the outside scenery.
  • the right side of FIG. 2 is an image of a cat, which is the main subject, extracted.
  • -A learning model is generated by extracting objects such as, etc., and training an image showing an object that can be the main subject and a mask image masking the main subject part.
  • an appropriate main subject can be determined from the captured moving image (image). Further, as the teacher data of the learning model, the depth of the subject acquired by the sensor unit 180 may be used. This makes it possible to generate a learning model that takes into account the distance to the subject. It is also possible to perform deep learning by RNN (Recurrent Neural Network) that inputs time-series data including captured images of past frames of the captured video.
  • RNN Recurrent Neural Network
  • FIG. 3 is a diagram showing an example of region division for generating a main subject MAP according to the present embodiment.
  • the main subject area is determined by calculating the main subject degree for each predetermined area of the captured image and generating the main subject MAP that maps each predetermined area and the main subject degree.
  • each predetermined area is determined, for example, by dividing the captured image into 9 vertical ⁇ 11 horizontal.
  • the number of regions to be divided is not limited to 9 in the vertical direction and 11 in the horizontal direction, and the number of pixels included in each region may be constant or different.
  • the number of pixels included in each region may be divided so as to be constant, and the pixels corresponding to the fractional number of pixels may be included in the region of the outer edge of the captured image.
  • FIG. 4 is a diagram showing an example of generating a main subject MAP according to the present embodiment.
  • the main subject degree is calculated for each region of the captured image divided in FIG. 3, and the main subject MAP is generated.
  • the right side of FIG. 4 is an example of the generated main subject MAP.
  • the main subject MAP shows the main subject degree (0 to 1) calculated for each area.
  • the region including the “flower” in the captured image shows a high degree of main subject.
  • the regions having a high degree of main subject are concentrated in one place, but the regions having a high degree of main subject may be dispersed or absent depending on the captured image.
  • FIG. 5 is a diagram showing an example of rectangular region detection according to the present embodiment.
  • a predetermined area having a main subject degree of a predetermined threshold value (for example, 0.7) or more is determined as an effective data area, and adjacent effective data areas are treated as one effective data area in total. Is done.
  • adjacent effective data areas are combined and grouped into one effective data area, but for example, there may be cases where a plurality of effective data areas having different sizes are grouped together.
  • the effective data area can be determined when the main subject degree of the target area becomes equal to or higher than a predetermined threshold value continuously for a certain period of time (for example, 2 seconds).
  • a main subject MAP is generated for each of the captured images of a plurality of frames, and the effective data area is determined by processing the plurality of main subject MAPs in chronological order.
  • a rectangular area inscribed in the effective data area is detected.
  • a rectangular area is detected in each valid data area.
  • the detected rectangular area is determined as the main subject area.
  • detection conditions for example, upper limit and lower limit
  • one main subject area is determined. Therefore, when there are a plurality of main subject areas to be determined, for example, one main subject area having the largest area and / or being closest to the information processing device 10 is selected from the plurality of main subject areas. It is determined. To determine the closest main subject area, the distance between the information processing device 10 and each main subject area is measured by a sensor unit 180 such as a ToF sensor, and the closest main subject area is determined. Alternatively, the closest main subject region may be determined using the depth information acquired from the phase difference image generated by the photographing unit 120. Then, the focus is adjusted to one determined main subject area.
  • a sensor unit 180 such as a ToF sensor
  • FIG. 6 is a diagram showing an example of object tracking according to the present embodiment.
  • the learning model determines that the banana is the main subject, and the main subject surrounded by the broken line is tracked by the tracking unit 170. Even if the position of the main subject moves within the camera frame due to the photographer moving the information processing device 10, the tracking unit 170 continues to track the main subject (banana), whereby the main subject continues to be in focus.
  • the main subject is out of frame (lost of the main subject)
  • another main subject area is determined and tracked.
  • main subject area is determined. It is also possible to give some grace to the lost of the main subject. For example, instead of determining another main subject area as soon as the main subject is lost, another main subject area is determined when the main subject is lost for a certain period of time (for example, 3 seconds). You can also.
  • FIG. 7 is a flowchart showing the flow of the main subject AF processing according to the present embodiment. This process is started, for example, by converting the moving image of the subject taken by the photographing unit 120 of the information processing apparatus 10 into digital data and temporarily storing it in the RAM, and determines the main subject. This is the process of focusing on the main subject.
  • the calculation unit 140 of the information processing device 10 calculates the main subject degree for each predetermined area of one frame image (captured image) of the moving image captured by the photographing unit 120 (step). S101).
  • the predetermined area is determined by dividing the captured image into a predetermined number of divisions (for example, 9 vertical ⁇ 11 horizontal).
  • the determination unit 150 of the information processing device 10 determines a predetermined area in which the main subject degree calculated in step S101 is equal to or greater than a predetermined threshold value as an effective data area (step S102). At this time, there may be a case where the captured image does not include an object that can be a main subject in particular, and there is no region above a predetermined threshold value, so that the effective data region cannot be determined. It is also possible to process a predetermined number of captured images including past frames in chronological order, and continuously determine a predetermined area in which the main subject degree is equal to or higher than a predetermined threshold value as an effective data area for a certain period of time. This makes it possible to determine a more appropriate effective data area that includes the main subject to be focused on.
  • step S103 No
  • the process is repeated from step S101 for the image of the next frame of the captured moving image.
  • the captured image does not include an object that can be the main subject, it is possible to focus on the central region of the captured image.
  • the determination unit 150 detects a rectangular area inscribed in the effective data area that satisfies a predetermined detection condition, and uses the rectangular area as the main.
  • the subject area is determined (step S104).
  • the rectangular area satisfying a predetermined detection condition is, for example, a rectangular area in which the width and height of the rectangular area are equal to or larger than the predetermined width and the predetermined height, respectively. Therefore, there may be a plurality of rectangular regions that satisfy the detection conditions, and a plurality of main subject regions may be determined.
  • the determination unit 150 determines one main subject area from the plurality of main subject areas (step S106).
  • One main subject area is, for example, a main subject area having the largest area. Alternatively, it may be the main subject area closest to the information processing device 10.
  • step S106 When one main subject area is determined in step S106, or when there is one main subject area determined in step S104 (step S105: Yes), the focus unit 160 of the information processing apparatus 10 is determined. Focus on one main subject area (step S107). After step S107, this process ends.
  • FIG. 8 is a flowchart showing the flow of the main subject tracking process according to the present embodiment. This process is started by triggering that the main subject area is determined in the main subject AF process of FIG. 7, and is a process of tracking the main subject to be focused.
  • the tracking unit 170 of the information processing apparatus 10 tracks the main subject included in one main subject area determined in step S104 or step S106 (step S201).
  • the tracking referred to here is to monitor a main subject in a moving camera frame by the photographer moving the information processing device 10. That is, the main subject in the captured image for each frame of the moving image captured by the photographing unit 120 is continuously monitored.
  • the tracking unit 170 determines whether or not the main subject being tracked has been lost (step S202). It is also possible to determine that the main subject has been lost when a predetermined number of captured images including past frames are processed in chronological order and are continuously lost for a certain period of time.
  • step S203: No When the main subject is not lost (step S203: No), the process returns to step S201, and the tracking unit 170 tracks the main subject.
  • step S203: Yes the determination unit 150 of the information processing device 10 is separate from the effective data area including the main subject being tracked, in which the degree of the main subject is equal to or higher than a predetermined threshold value.
  • the second valid data area of is determined (step S204).
  • step S205 Yes
  • the process proceeds to step S104 of FIG. 7, the rectangular area inscribed in the second effective data area determined in step S204 is detected, and the rectangular area is detected. Is determined as the main subject area. Then, the process proceeds to step S105.
  • step S205: No when the second effective data area cannot be determined because there is no area equal to or larger than a predetermined threshold value (step S205: No), the focus unit 160 of the information processing apparatus 10 focuses on the central area of the captured image (step S205: No). S206). After step 206, this process ends.
  • FIG. 9 is a block diagram showing a hardware configuration example of the information processing device 10 according to the present embodiment.
  • the information processing device 10 includes, for example, a processor 411, a ROM 412, a RAM 413, a host bus 414, a bridge 415, an external bus 416, an interface 417, an input device 418, and an output device 419. It has a storage 420, a drive 421, a connection port 422, and a communication device 423.
  • the hardware configuration shown here is an example, and some of the components may be omitted. Further, components other than the components shown here may be further included.
  • the processor 411 functions as, for example, an arithmetic processing unit or a control device, and of each component based on various programs or various data (including a learning model) recorded on the ROM 412, the RAM 413, the storage 420, or the removable recording medium 20. Controls all or part of the operation.
  • the ROM 412 is a means for storing a program read into the processor 411, data (including a learning model) used for calculation, and the like.
  • the RAM 413 temporarily or permanently stores, for example, a program read into the processor 411 and various parameters that change as appropriate when the program is executed.
  • the processor 411, ROM 412, and RAM 413 are connected to each other via, for example, a host bus 414 capable of high-speed data transmission.
  • the host bus 414 is connected to the external bus 416, which has a relatively low data transmission speed, via, for example, a bridge 415.
  • the external bus 416 is connected to various components via the interface 417.
  • Input device 4108 For the input device 418, for example, a mouse, a keyboard, a touch panel, buttons, switches, levers, and the like are used. Further, as the input device 418, a remote controller (hereinafter referred to as a remote controller) capable of transmitting a control signal using infrared rays or other radio waves may be used. Further, the input device 418 includes a voice input device such as a microphone.
  • the output device 419 provides the user with acquired information such as a display device such as a CRT (Cathode Ray Tube), an LCD, or an organic EL, an audio output device such as a speaker or headphones, a printer, a mobile phone, or a facsimile. It is a device that can notify visually or audibly. Further, the output device 419 according to the present embodiment includes various vibration devices capable of outputting tactile stimuli.
  • the storage 420 is a device for storing various types of data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, an optical magnetic storage device, or the like is used.
  • the drive 421 is a device that reads information recorded on a removable recording medium 20 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information on the removable recording medium 20.
  • a removable recording medium 20 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • the removable recording medium 20 is, for example, a DVD medium, a Blu-ray (registered trademark) medium, an HD DVD medium, various semiconductor storage media, and the like.
  • the removable recording medium 20 may be, for example, an IC card equipped with a non-contact type IC chip, an electronic device, or the like.
  • connection port 422 is, for example, a port for connecting an external connection device 30 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (SCSI Computer System Interface), an RS-232C port, or an optical audio terminal.
  • an external connection device 30 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (SCSI Computer System Interface), an RS-232C port, or an optical audio terminal.
  • the externally connected device 30 is, for example, a printer, a portable music player, a digital camera, a digital video camera, an IC recorder, or the like.
  • the communication device 423 is a communication device for connecting to a network, and is, for example, a communication card for wired or wireless LAN, Bluetooth (registered trademark), or WUSB (Wireless USB), a router for optical communication, and ADSL (Asymmetric Digital). A router for Subscriber Line), a modem for various communications, and the like.
  • the information processing apparatus 10 includes a photographing unit 120 that photographs a subject and converts it into digital data to generate a captured image, and a subject included in the predetermined region for each predetermined region of the captured image.
  • the calculation unit 140 that calculates the probability that the photographer wants to shoot the main subject, and the predetermined area whose probability exceeds a predetermined threshold are determined as effective data areas, and the main subject area is determined based on the effective data area. It includes a determination unit 150 for determining, and a focus unit 160 for focusing on the determined main subject area.
  • the present technology can also have the following configurations.
  • a shooting unit that shoots a subject and converts it into digital data to generate a shot image.
  • a calculation unit that calculates the probability that the subject included in the predetermined area is the main subject that the photographer wants to photograph.
  • the predetermined area whose probability exceeds a predetermined threshold is determined as an effective data area, and the data area is determined.
  • a determination unit that determines the main subject area based on the effective data area, An information processing device provided with a focus unit for focusing on the determined main subject area.
  • the determination of the main subject area by the determination unit is performed. Combine the adjacent valid data areas and A rectangular area inscribed in the effective data area is detected, and the area is detected.
  • the information processing apparatus according to (1) above which comprises determining the rectangular area as the main subject area.
  • (4) Determining the rectangular area by the determination unit as the main subject area can be achieved.
  • the information processing apparatus according to (3) wherein the rectangular region in which at least one of the width and the height and the area satisfies a predetermined condition is determined as the main subject region.
  • the determination unit further has the largest area among the plurality of the main subject areas and is closest to the information processing apparatus.
  • the information processing apparatus Determine one first major subject area that satisfies at least one
  • the information processing apparatus according to any one of (1) to (4), wherein the main subject area focused by the focus unit is the first main subject area.
  • the determination of the effective data area by the determination unit is performed.
  • the information processing apparatus according to any one of (1) to (5), wherein the predetermined region whose probability exceeds the predetermined threshold value for a certain period of time is determined as the effective data region.
  • the information processing apparatus according to any one of (1) to (6), further comprising a tracking unit for tracking the main subject included in the determined main subject area. (8) Further, when the tracking main subject is out of frame, or the probability of the main subject area with respect to the tracking main subject becomes equal to or less than the predetermined threshold value for a certain period of time.
  • the information processing apparatus according to (7) above, wherein the second main subject area is determined based on the effective data area. (9) The information processing apparatus according to (8) above, wherein the focus unit further focuses on a predetermined central region of the captured image when the second main subject region is not determined. (10) A sensor unit for measuring the distance to the subject is further provided. The information processing apparatus according to (5), wherein the closest first main subject area determined by the determination unit is determined based on the measured distance. (11) The photographing unit further generates a phase difference image with respect to the subject. The information processing apparatus according to (5), wherein the closest first main subject area determined by the determination unit is determined based on depth information acquired from the phase difference image.
  • the information processing device Take a picture of the subject, convert it to digital data and generate a shot image, For each predetermined area of the captured image, the probability that the subject included in the predetermined area is the main subject that the photographer wants to photograph is calculated. The predetermined area whose probability exceeds a predetermined threshold is determined as an effective data area, and the data area is determined. Based on the valid data area, determine the main subject area and A method of performing a process of focusing on the determined main subject area.
  • Information processing device 110 Storage unit 120 Imaging unit 130 Display unit 140 Calculation unit 150 Decision unit 160 Focus unit 170 Tracking unit 180 Sensor unit 200 Control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Optics & Photonics (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

被写体を撮影し、デジタルデータに変換して撮影画像を生成する撮影部と、撮影画像の所定領域ごとに、所定領域に含まれる被写体が、撮影者が撮影したい主要被写体である確率を算出する算出部と、確率が所定の閾値を超える所定領域を有効データ領域に決定し、有効データ領域に基づいて、主要被写体領域を決定する決定部と、決定された主要被写体領域にピントを合わせるフォーカス部とを備えた、情報処理装置が提供される。これにより、主要被写体に適切にピントを合わせることができる。

Description

情報処理装置、情報処理方法、および情報処理プログラム
 本開示は、情報処理装置、情報処理方法、および情報処理プログラムに関する。
 カメラやビデオカメラなどにおいて自動的に焦点(ピント)を合わせるオートフォーカス(AF:Auto Focus)機能は、携帯電話やスマートフォンなどカメラ機能を搭載した端末においても備わっている場合が多い。AF機能には、例えば、ユーザがスマートフォンなどの画面にプレビュー表示された被写体に対してピントを合わせたい箇所(以下、「主要被写体」という)をタッチするなどしてピントを合わせるものがある。一方で、ユーザがカメラに対して主要被写体を明確に示さない場合、画面中央付近の被写体に自動的にピントを合わせる中央重点AFが主に採用されている。
特開2017-005738号公報
 しかしながら、中央重点AFの場合、主要被写体が中央から外れている場合や、中央付近に遠近の被写体が混在している場合などに、主要被写体に適切にピントが合わせられないという課題がある。
 そこで、本開示では、主要被写体に適切にピントを合わせることができる情報処理装置、情報処理方法、および情報処理プログラムを提案する。
 本開示によれば、被写体を撮影し、デジタルデータに変換して撮影画像を生成する撮影部と、撮影画像の所定領域ごとに、所定領域に含まれる前記被写体が、撮影者が撮影したい主要被写体である確率を算出する算出部と、確率が所定の閾値を超える所定領域を有効データ領域に決定し、有効データ領域に基づいて、主要被写体領域を決定する決定部と、決定された主要被写体領域にピントを合わせるフォーカス部とを備えた、情報処理装置が提供される。
 また、本開示によれば、情報処理装置が、被写体を撮影し、デジタルデータに変換して撮影画像を生成し、撮影画像の所定領域ごとに、所定領域に含まれる被写体が、撮影者が撮影したい主要被写体である確率を算出し、確率が所定の閾値を超える所定領域を有効データ領域に決定し、有効データ領域に基づいて、主要被写体領域を決定し、決定された主要被写体領域にピントを合わせる処理を実行する、方法が提供される。
 また、本開示によれば、情報処理装置に、被写体を撮影し、デジタルデータに変換して撮影画像を生成し、撮影画像の所定領域ごとに、所定領域に含まれる被写体が、撮影者が撮影したい主要被写体である確率を算出し、確率が所定の閾値を超える所定領域を有効データ領域に決定し、有効データ領域に基づいて、主要被写体領域を決定し、決定された主要被写体領域にピントを合わせる処理を実行させる、プログラムが提供される。
本実施形態に係る情報処理装置10の機能構成例を示すブロック図である。 同実施形態に係る主要被写体オブジェクトの抽出の一例を示す図である。 同実施形態に係る主要被写体MAP生成のための領域分割の一例を示す図である。 同実施形態に係る主要被写体MAP生成の一例を示す図である。 同実施形態に係る矩形領域検出の一例を示す図である。 同実施形態に係るオブジェクトトラッキングの一例を示す図である。 同実施形態に係る主要被写体AF処理の流れを示すフローチャートである。 同実施形態に係る主要被写体トラッキング処理の流れを示すフローチャートである。 同実施形態に係る情報処理装置10のハードウェア構成例を示すブロック図である。
 以下に、本実施形態について図面に基づいて詳細に説明する。なお、本明細書および図面において、実質的に同一の部位には、同一の符号を付することにより重複する説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.実施形態
  1.1.機能構成例
  1.2.機能の詳細
  1.3.機能の流れ
 2.ハードウェア構成例
 3.まとめ
<1.実施形態>
<<1.1.機能構成例>>
 まず、本実施形態に係る情報処理装置10の機能構成例について説明する。情報処理装置10は、デジタルカメラやデジタルビデオカメラであってもよいし、スマートフォンやタブレットPC(Personal Computer)などのモバイル端末であってもよい。
 図1は、本実施形態に係る情報処理装置10の機能構成例を示すブロック図である。図1に示すように、本実施形態に係る情報処理装置10は、記憶部110、撮影部120、表示部130、算出部140、決定部150、フォーカス部160、追跡部170、センサ部180、制御部200を備える。
(記憶部110)
 本実施形態に係る記憶部110は、各種プログラムやデータを一時的または恒常的に記憶するための記憶領域である。例えば、記憶部110には、情報処理装置10が各種機能を実行するためのプログラムやデータが記憶されてもよい。具体的な一例として、記憶部110には、カメラアプリケーションを実行するためのプログラムや、主要被写体を決定するための学習モデル、各種設定などを管理するための管理データなどが記憶されてよい。また、カメラアプリケーションのユーザインタフェース(UI)を介してユーザによって入力された撮影パラメータ(例えば、フォーカスや露光など、撮影のための各種パラメータ)などが記憶されてよい。もちろん、上記はあくまで一例であり、記憶部110に記憶されるデータの種別は特に限定されない。
(撮影部120)
 本実施形態に係る撮影部120は、制御部200による制御に基づいて動画や写真の撮影を行う。撮影部120は、撮像素子、フォーカスリングやズームレンズなどを備える。撮影部120によって撮影された動画や写真はデジタルデータに変換され、記憶部110に記憶される。なお、撮影部120によって撮影される動画は、マイクロフォンなど音声入力部(図示せず)によって撮影中に収集される音声や環境音と共に記憶される。また、撮影部120によって撮影され、記憶部110に記憶される動画には、録画中に撮影される動画と、録画中以外の時に、表示部130などに被写体をプレビュー表示するための動画とがある。前者の動画は、表示部130に表示されるとともにRAM(Random Access Memory)に一時的に記憶された後、ROM(Read Only Memory)に記憶される。後者の動画もRAMに一時的に記憶されるが、RAMの容量がいっぱいになったら古いものから削除されていき、ROMには記憶されない。
(表示部130)
 本実施形態に係る表示部130は、制御部200による制御に基づいて各種の視覚情報を表示する。視覚情報とは、例えば、カメラアプリケーションのUIや、撮影部120によって撮影される被写体などである。このために、表示部130は、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)ディスプレイ装置など、各種のディスプレイ装置を備える。
(算出部140)
 本実施形態に係る算出部140は、撮影部120によって撮影された動画の1フレームの画像(撮影画像)の所定領域ごとに、当該所定領域に含まれる被写体が主要被写体である確率(主要被写体度:例えば、0~1)を算出する。ここで、主要被写体とは、撮影者が撮影したい物体(オブジェクト)である。本実施形態では、例えば、主要被写体になり得る物体を撮影した画像と主要被写体領域をマスクしたマスク画像とのセットの複数を教師データとする学習モデルを用いて、撮影された動画の中から1つの主要被写体を決定し、決定された主要被写体に対しピントを合わせる。
(決定部150)
 本実施形態に係る決定部150は、主要被写体度が所定の閾値(例えば、0.7)以上の所定領域を有効データ領域に決定し、当該有効データ領域に基づいて、1つの主要被写体領域を決定する。有効データ領域に基づいて主要被写体領域を決定する方法については後述する。
(フォーカス部160)
 本実施形態に係るフォーカス部160は、決定部150によって決定された主要被写体領域にピントを合わせる。また、フォーカス部160は、主要被写体領域が決定されない場合は、撮影画像の中央領域にピントを合わせる(中央重点AF)。
(追跡部170)
 本実施形態に係る追跡部170は、決定部150によって決定された主要被写体を追跡する。追跡部170によって主要被写体を追跡し、主要被写体がフレームアウトした場合、または主要被写体を撮影した主要被写体に対する主要被写体領域の主要被写体度が著しく低下した場合、決定部150によって別の主要被写体領域が決定される。
(センサ部180)
 本実施形態に係るセンサ部180は、被写体までの距離(深度、Depth情報ともいう)を測定する。センサ部180は、例えば、ToF(Time of Flight)センサなどを備える。
(その他)
 情報処理装置10は、図示していないが上記以外にも、各種の音や音声を出力する音声出力部を備えてもよい。音声出力部は、例えば、制御部200による制御に基づいてカメラアプリケーションの状況に応じた音や音声を出力する(例えば、撮影開始や終了の際に音を鳴らす)。このために、音声出力部は、スピーカやアンプを備える。
(制御部200)
 本実施形態に係る制御部200は、情報処理装置10が備える各構成を制御する。また制御部200は、カメラ撮影を制御することを特徴の一つとする。撮影の制御には、撮影パラメータの調整を行うことや、撮影パラメータに基づいて、撮影部120が備えるフォーカスリングなどを操作することを含む。制御部200が有する機能の詳細については後述される。
 以上、本実施形態に係る情報処理装置10の機能構成例について説明した。なお、図1を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理装置10の機能構成は係る例に限定されない。例えば、情報処理装置10は、必ずしも図1に示す構成のすべてを備えなくてもよいし、表示部130などの各構成を情報処理装置10とは異なる別の装置に備えることも可能である。本実施形態に係る情報処理装置10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 また、各構成要素の機能を、CPU(Central Proccessing Unit)などの演算装置がこれらの機能を実現する処理手順を記述した制御プログラムを記憶したROMやRAMなどの記憶媒体から制御プログラムを読み出し、そのプログラムを解釈して実行することにより行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜利用する構成を変更することが可能である。また、情報処理装置10のハードウェア構成の一例については後述される。
<<1.2.機能の詳細>>
 次に、本実施形態に係る情報処理装置10が有する機能について詳細に説明する。本実施形態に係る情報処理装置10の制御部200は、撮影された動画の中から、学習モデルを用いて1つの主要被写体を決定し、決定された主要被写体に適切にピントを合わせることを特徴の1つとする。
 まず、図2を用いて、本実施形態に係る学習モデルの生成方法について説明する。本実施形態の学習モデルは、撮影画像中の主要被写体部分を特定するためのモデルである。学習モデルは、撮影画像(または撮影画像の特徴量)が入力される入力層と、出力層と、入力層から出力層までのいずれかの層であって出力層以外の層に属する第1要素と、第1要素と第1要素の重みとに基づいて値が算出される第2要素と、を含み、入力層に入力された撮影画像(または撮影画像の特徴量)に応じて、撮影画像中の主要被写体と認識される部分を示すデータ(例えば、後述の主要被写体度を示すデータ)を出力層から出力するよう、情報処理装置10を機能させる。
 なお、本実施形態の学習モデルを生成する生成装置(例えば、サーバ装置などの情報処理装置10)は、いかなる学習アルゴリズムを用いて上述の学習モデルを生成してもよい。例えば、生成装置は、ニューラルネットワーク(NN:Neural Network)、サポートベクターマシン(SVM:Support Vector Machine)、クラスタリング、強化学習などの学習アルゴリズムを用いて本実施形態の学習モデルを生成してもよい。一例として、生成装置がNNを用いて本実施形態の学習モデルを生成するとする。この場合、学習モデルは、1つ以上のニューロンを含む入力層と、1つ以上のニューロンを含む中間層と、1つ以上のニューロンを含む出力層とを有していてもよい。
 ここで、本実施形態に係る学習モデルが「y=a*x+a*x+・・・+a*x」で示す回帰モデルで実現されるとする。この場合、学習モデルが含む第1要素は、xやxなどといった入力データ(x)に対応する。また、第1要素の重みは、xに対応する係数aに対応する。ここで、回帰モデルは、入力層と出力層とを有する単純パーセプトロンとみなすことができる。各モデルを単純パーセプトロンとみなした場合、第1要素は、入力層が有するいずれかのノードに対応し、第2要素は、出力層が有するノードとみなすことができる。
 また、本実施形態に係る学習モデルがDNN(Deep Neural Network)など、1つまたは複数の中間層を有するNNで実現されるとする。この場合、学習モデルが含む第1要素は、入力層または中間層が有するいずれかのノードに対応する。また、第2要素は、第1要素と対応するノードから値が伝達されるノードである次段のノードに対応する。また、第1要素の重みは、第1要素と対応するノードから第2要素と対応するノードに伝達される値に対して考慮される重みである接続係数に対応する。
 上述した回帰モデルやNNなど、任意の構造を有する学習モデルを用いて、主要被写体度を算出する。より具体的には、学習モデルは、撮影画像が入力された場合に、当該撮影画像の所定領域ごとに主要被写体度を出力するように係数が設定される。本実施形態に係る学習モデルは、データの入出力を繰り返すことで得られる結果に基づいて生成されるモデルであってもよい。
 なお、上記例では、本実施形態に係る学習モデルが、撮影画像が入力された場合に、当該撮影画像の所定領域ごとに主要被写体度を出力するモデル(モデルXとする)である例を示した。しかしながら、本実施形態に係る学習モデルは、モデルXに対しデータの入出力を繰り返すことで得られる結果に基づいて生成されるモデルであってもよい。例えば、本実施形態に係る学習モデルは、撮影画像を入力とし、モデルXが出力する主要被写体度を出力とする学習モデル(モデルYとする)であってもよい。または、本実施形態に係る学習モデルは、撮影画像を入力とし、モデルYが出力する主要被写体度を出力とする学習モデルであってもよい。
 図2は、本実施形態に係る主要被写体オブジェクトの抽出の一例を示す図である。図2の左側は、外の景色が見える窓のあるリビングにいる猫の撮影画像である。これに対し、図2の右側は、主要被写体である猫を抽出した画像である。このように、様々な撮影画像から、主要被写体になり得る、人、動植物、建築物、車や飛行機などの移動体、文字や看板、玩具、電化製品、料理、衣類、アクセサリ、天体、・・・などのオブジェクトを抽出し、主要被写体になり得るオブジェクトが写った画像と主要被写体部分をマスクしたマスク画像とを学習させることで学習モデルを生成する。このような学習モデルにより、撮影動画(画像)から適切な主要被写体を決定することができる。また、学習モデルの教師データとして、センサ部180によって取得される、被写体の深度を用いてもよい。これにより、被写体までの距離を考慮した学習モデルを生成することができる。また、撮影動画の過去のフレームの撮影画像を含めた時系列データを入力とするRNN(Recurrent Neural Network)による深層学習を行うこともできる。
 次に、図3および4を用いて、撮影画像から主要被写体を決定するための主要被写体MAPの生成方法について説明する。図3は、本実施形態に係る主要被写体MAP生成のための領域分割の一例を示す図である。本実施形態では、撮影画像の所定領域ごとに主要被写体度を算出し、各所定領域と主要被写体度とをマッピングした主要被写体MAPを生成することで、主要被写体領域が決定される。図3に示すように、各所定領域は、例えば、撮影画像を縦9×横11に分割することで決定される。なお、分割する領域数は縦9×横11に限定されず、各領域に含まれる画素(ピクセル)数は一定であっても異なってもよい。例えば、各領域に含まれる画素数が一定になるように分割し、端数の画素数分の画素は撮影画像外縁の領域に含めるようにしてもよい。
 図4は、本実施形態に係る主要被写体MAP生成の一例を示す図である。図2での説明のように生成された学習モデルを用いて、図3において分割した撮影画像の各領域に対して主要被写体度が算出され、主要被写体MAPが生成される。図4の右側が生成された主要被写体MAPの一例である。図4の右側に示すように、主要被写体MAPには、領域ごとに算出された主要被写体度(0~1)が示されている。図4の例では、撮影画像における“花”を含んだ領域が高い主要被写体度を示している。なお、図4の例では、主要被写体度の高い領域が一箇所に集まっているが、撮影画像によっては主要被写体度の高い領域が分散したり、無かったりする場合もあり得る。
 次に、主要被写体MAPから主要被写体領域を決定するための矩形領域検出について説明する。図5は、本実施形態に係る矩形領域検出の一例を示す図である。図5の左側に示すように、主要被写体度が所定の閾値(例えば、0.7)以上の所定領域が有効データ領域に決定され、隣接する有効データ領域は合わせて1つの有効データ領域として取り扱われる。なお、図5の左側の例では、隣接する有効データ領域が合わせられ、1つの有効データ領域にまとまっているが、例えば、大きさの異なる複数の有効データ領域にまとまる場合もあり得る。また、有効データ領域は、一定時間(例えば、2秒)継続して対象領域の主要被写体度が所定の閾値以上になった場合に決定されることもできる。この場合、複数フレームの撮影画像に対してそれぞれ主要被写体MAPが生成され、複数の主要被写体MAPを時系列順に処理するなどして、有効データ領域が決定される。
 そして、図5の右側に示すように、有効データ領域に内接する矩形領域が検出される。有効データ領域が複数ある場合は、それぞれの有効データ領域において矩形領域が検出される。検出された矩形領域が主要被写体領域に決定される。なお、矩形領域の検出にあたり、矩形領域の幅や高さ、面積などに対して検出条件(例えば、上限や下限)を設けることもできる。矩形領域があまりにも小さかったり、逆に大きかったりすると、ピントを合わせるべき主要被写体領域として適切でないためである。
 また、主要被写体領域にピントを合わせるため、決定される主要被写体領域は1つである必要がある。そのため、決定される主要被写体領域が複数ある場合は、複数の主要被写体領域の中から、例えば、面積が最大であるおよび/または情報処理装置10に対して最至近である1つの主要被写体領域が決定される。なお、最至近である主要被写体領域の決定は、ToFセンサなどのセンサ部180によって情報処理装置10と各主要被写体領域との距離が測定され、最も近い主要被写体領域が決定される。または、撮影部120によって生成される位相差画像から取得される深度情報を用いて最も近い主要被写体領域が決定されてもよい。そして、決定された1つの主要被写体領域にピントが合わせられる。
 次に、ピントを合わせた主要被写体領域にある主要被写体の追跡について説明する。図6は、本実施形態に係るオブジェクトトラッキングの一例を示す図である。図6の例では、まず、図6の左側に示されるように、学習モデルによってバナナが主要被写体であると決定され、破線で囲まれた主要被写体が追跡部170によって追跡される。撮影者が情報処理装置10を動かすなどしてカメラフレーム内で主要被写体の位置が移動しても、追跡部170は主要被写体(バナナ)を追跡し続け、これにより主要被写体にピントが合い続ける。しかしながら、図6の右側に示すように、主要被写体がフレームアウトした場合(主要被写体のロスト)、別の主要被写体領域(りんご)が決定され、追跡されることになる。なお、主要被写体のロストには、その他に、主要被写体が別のオブジェクトに隠れてしまった場合や、主要被写体領域の主要被写体度が著しく低下してしまった場合が考えられる。この場合も、別の主要被写体領域が決定される。なお、主要被写体のロストにはある程度の猶予を持たせることもできる。例えば、主要被写体のロストが発生したらすぐに別の主要被写体領域が決定されるのではなく、主要被写体のロストが一定時間(例えば、3秒)継続した場合に別の主要被写体領域を決定することもできる。
 <<1.3.機能の流れ>>
 次に、図7を用いて、本実施形態に係る主要被写体AF処理の手順について説明する。図7は、本実施形態に係る主要被写体AF処理の流れを示すフローチャートである。本処理は、例えば、情報処理装置10の撮影部120が被写体を撮影した動画をデジタルデータに変換し、RAMに一時的に記憶したことをトリガーとして開始され、主要被写体を決定し、決定された主要被写体に対しピントを合わせる処理である。
 図7に示すように、まず、情報処理装置10の算出部140は、撮影部120によって撮影された動画の1フレームの画像(撮影画像)の所定領域ごとに、主要被写体度を算出する(ステップS101)。所定領域は、撮影画像を予め定められた分割数(例えば、縦9×横11)に分割することにより決定される。
 次に、情報処理装置10の決定部150は、ステップS101で算出された主要被写体度が所定の閾値以上の所定領域を有効データ領域に決定する(ステップS102)。この際、撮影画像に特に主要被写体となり得る物体が含まれず、所定の閾値以上の領域が1つもなく有効データ領域を決定できない場合もあり得る。また、過去のフレームを含む所定数の撮影画像を時系列順に処理し、一定時間継続して主要被写体度が所定の閾値以上の所定領域を有効データ領域に決定することもできる。これにより、ピントを合わせるべき主要被写体が含まれたより適切な有効データ領域を決定することができる。
 決定部150が有効データ領域を決定できない場合(ステップS103:No)、撮影された動画の次のフレームの画像に対し、ステップS101から処理を繰り返す。この際、撮影画像には主要被写体となり得る物体が含まれないため、撮影画像の中央領域にピントを合わせることもできる。
 一方、決定部150が有効データ領域を決定できた場合(ステップS103:Yes)、決定部150は、所定の検出条件を満たす、有効データ領域に内接する矩形領域を検出し、当該矩形領域を主要被写体領域に決定する(ステップS104)。所定の検出条件を満たす矩形領域とは、例えば、矩形領域の幅および高さがそれぞれ所定の幅および所定の高さ以上の矩形領域である。そのため、検出条件を満たす矩形領域は複数存在し得、複数の主要被写体領域が決定される場合もあり得る。
 ステップS104で決定された主要被写体領域が複数ある場合(ステップS105:No)、決定部150は、複数の主要被写体領域から1つの主要被写体領域を決定する(ステップS106)。1つの主要被写体領域とは、例えば、面積が最大の主要被写体領域である。または、情報処理装置10に対して最至近である主要被写体領域であってもよい。
 ステップS106で1つの主要被写体領域が決定されると、またはステップS104で決定された主要被写体領域が1つである場合(ステップS105:Yes)、情報処理装置10のフォーカス部160は、決定された1つの主要被写体領域にピントを合わせる(ステップS107)。ステップS107の後、本処理は終了する。
 次に、図8を用いて、本実施形態に係る主要被写体トラッキング処理の手順について説明する。図8は、本実施形態に係る主要被写体トラッキング処理の流れを示すフローチャートである。本処理は、図7の主要被写体AF処理において主要被写体領域が決定されたことをトリガーとして開始され、ピントを合わせるべき主要被写体を追跡する処理である。
 図8に示すように、まず、情報処理装置10の追跡部170は、ステップS104またはステップS106で決定された1つの主要被写体領域に含まれる主要被写体を追跡する(ステップS201)。ここでいう追跡とは、撮影者が情報処理装置10を動かすなどして移動するカメラフレーム内の主要被写体を監視することである。すなわち、撮影部120によって撮影された動画のフレームごとの撮影画像における主要被写体を監視し続ける。
 次に、追跡部170は、追跡している主要被写体をロストしたか否かを判定する(ステップS202)。なお、過去のフレームを含む所定数の撮影画像を時系列順に処理し、一定時間継続してロストしている場合に、主要被写体をロストしたと判定することもできる。
 主要被写体をロストしていない場合(ステップS203:No)、ステップS201に戻り、追跡部170は、主要被写体を追跡する。一方、主要被写体をロストした場合(ステップS203:Yes)、情報処理装置10の決定部150は、主要被写体度が所定の閾値以上である、追跡していた主要被写体を含む有効データ領域とは別の第2の有効データ領域を決定する(ステップS204)。
 第2の有効データ領域を決定できた場合(ステップS205:Yes)、図7のステップS104に進み、ステップS204で決定された第2の有効データ領域に内接する矩形領域を検出し、当該矩形領域を主要被写体領域に決定する。その後、ステップS105に進む。
 一方、所定の閾値以上の領域が1つもなく第2の有効データ領域を決定できない場合(ステップS205:No)、情報処理装置10のフォーカス部160は、撮影画像の中央領域にピントを合わせる(ステップS206)。ステップ206の後、本処理は終了する。
<2.ハードウェア構成例>
 次に、本実施形態に係る情報処理装置10のハードウェア構成例について説明する。図9は、本実施形態に係る情報処理装置10のハードウェア構成例を示すブロック図である。図9を参照すると、情報処理装置10は、例えば、プロセッサ411と、ROM412と、RAM413と、ホストバス414と、ブリッジ415と、外部バス416と、インターフェース417と、入力装置418と、出力装置419と、ストレージ420と、ドライブ421と、接続ポート422と、通信装置423と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
(プロセッサ411)
 プロセッサ411は、例えば、演算処理装置または制御装置として機能し、ROM412、RAM413、ストレージ420、またはリムーバブル記録媒体20に記録された各種プログラムまたは各種データ(学習モデルを含む)に基づいて各構成要素の動作全般またはその一部を制御する。
(ROM412、RAM413)
 ROM412は、プロセッサ411に読み込まれるプログラムや演算に用いるデータ(学習モデルを含む)などを格納する手段である。RAM413には、例えば、プロセッサ411に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータなどが一時的または永続的に格納される。
(ホストバス414、ブリッジ415、外部バス416、インターフェース417)
 プロセッサ411、ROM412、RAM413は、例えば、高速なデータ伝送が可能なホストバス414を介して相互に接続される。一方、ホストバス414は、例えば、ブリッジ415を介して比較的データ伝送速度が低速な外部バス416に接続される。また、外部バス416は、インターフェース417を介して種々の構成要素と接続される。
(入力装置418)
 入力装置418には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、およびレバーなどが用いられる。さらに、入力装置418としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置418には、マイクロフォンなどの音声入力装置が含まれる。
(出力装置419)
 出力装置419は、例えば、CRT(Cathode Ray Tube)、LCD、または有機ELなどのディスプレイ装置、スピーカ、ヘッドホンなどのオーディオ出力装置、プリンタ、携帯電話、またはファクシミリなど、取得した情報を利用者に対して視覚的または聴覚的に通知することが可能な装置である。また、本実施形態に係る出力装置419は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
(ストレージ420)
 ストレージ420は、各種のデータを格納するための装置である。ストレージ420としては、例えば、ハードディスクドライブ(HDD)などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどが用いられる。
(ドライブ421)
 ドライブ421は、例えば、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体20に記録された情報を読み出し、またはリムーバブル記録媒体20に情報を書き込む装置である。
(リムーバブル記録媒体20)
リムーバブル記録媒体20は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディアなどである。もちろん、リムーバブル記録媒体20は、例えば、非接触型ICチップを搭載したICカード、または電子機器などであってもよい。
(接続ポート422)
 接続ポート422は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、または光オーディオ端子などのような外部接続機器30を接続するためのポートである。
(外部接続機器30)
 外部接続機器30は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、またはICレコーダなどである。
(通信装置423)
 通信装置423は、ネットワークに接続するための通信デバイスであり、例えば、有線または無線LAN、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または各種通信用のモデムなどである。
<3.まとめ>
 以上説明したように、情報処理装置10は、被写体を撮影し、デジタルデータに変換して撮影画像を生成する撮影部120と、前記撮影画像の所定領域ごとに、前記所定領域に含まれる被写体が、撮影者が撮影したい主要被写体である確率を算出する算出部140と、前記確率が所定の閾値を超える前記所定領域を有効データ領域に決定し、前記有効データ領域に基づいて、主要被写体領域を決定する決定部150と、前記決定された主要被写体領域にピントを合わせるフォーカス部160とを備える。
 これにより、主要被写体に適切にピントを合わせることができる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)被写体を撮影し、デジタルデータに変換して撮影画像を生成する撮影部と、
 前記撮影画像の所定領域ごとに、前記所定領域に含まれる前記被写体が、撮影者が撮影したい主要被写体である確率を算出する算出部と、
 前記確率が所定の閾値を超える前記所定領域を有効データ領域に決定し、
 前記有効データ領域に基づいて、主要被写体領域を決定する決定部と、
 前記決定された主要被写体領域にピントを合わせるフォーカス部と
 を備えた、情報処理装置。
(2)前記算出部による前記確率の算出は、前記撮影画像を入力し、前記確率を出力する学習モデルを用いて算出される、前記(1)に記載の情報処理装置。
(3)前記決定部による前記主要被写体領域の決定は、
 隣接する前記有効データ領域を合わせ、
 前記有効データ領域に内接する矩形領域を検出し、
 前記矩形領域を前記主要被写体領域に決定する
 ことを含む、前記(1)に記載の情報処理装置。
(4)前記決定部による前記矩形領域を前記主要被写体領域に決定することは、
 幅および高さ、ならびに面積の少なくとも1つが所定の条件を満たす前記矩形領域を前記主要被写体領域に決定する
 ことを含む、前記(3)に記載の情報処理装置。
(5)前記決定部により決定される前記主要被写体領域が複数ある場合、前記決定部はさらに、複数の前記主要被写体領域の中から、面積が最大、および前記情報処理装置に対して最至近の少なくとも1つを満たす1つの第1の主要被写体領域を決定し、
 前記フォーカス部によってピントを合わせられる前記主要被写体領域は、前記第1の主要被写体領域である、前記(1)~(4)のいずれか1つに記載の情報処理装置。
(6)前記決定部による前記有効データ領域の決定は、
 前記確率が一定時間、前記所定の閾値を超える前記所定領域を前記有効データ領域に決定することを含む、前記(1)~(5)のいずれか1つに記載の情報処理装置。
(7)前記決定された主要被写体領域に含まれる前記主要被写体を追跡する追跡部をさらに備えた、前記(1)~(6)のいずれか1つに記載の情報処理装置。
(8)前記決定部はさらに、追跡している前記主要被写体がフレームアウトした場合、または追跡している前記主要被写体に対する前記主要被写体領域の前記確率が一定時間、前記所定の閾値以下になった場合、前記有効データ領域に基づいて、第2の主要被写体領域を決定する、前記(7)に記載の情報処理装置。
(9)前記フォーカス部さらに、前記第2の主要被写体領域が決定されない場合、前記撮影画像の所定の中央領域にピントを合わせる、前記(8)に記載の情報処理装置。
(10)前記被写体までの距離を測定するセンサ部をさらに備え、
 前記決定部により決定される前記最至近である第1の主要被写体領域は、前記測定された距離に基づいて決定される、前記(5)に記載の情報処理装置。
(11)前記撮影部はさらに、前記被写体に対する位相差画像を生成し、
 前記決定部により決定される前記最至近である第1の主要被写体領域は、前記位相差画像から取得された深度情報に基づいて決定される、前記(5)に記載の情報処理装置。
(12)前記算出部により用いられる前記学習モデルはさらに、前記主要被写体になり得る物体までの距離が入力される、前記(2)に記載の情報処理装置。
(13)情報処理装置が、
 被写体を撮影し、デジタルデータに変換して撮影画像を生成し、
 前記撮影画像の所定領域ごとに、前記所定領域に含まれる前記被写体が、撮影者が撮影したい主要被写体である確率を算出し、
 前記確率が所定の閾値を超える前記所定領域を有効データ領域に決定し、
 前記有効データ領域に基づいて、主要被写体領域を決定し、
 前記決定された主要被写体領域にピントを合わせる
 処理を実行する、方法。
(14)情報処理装置に、
 被写体を撮影し、デジタルデータに変換して撮影画像を生成し、
 前記撮影画像の所定領域ごとに、前記所定領域に含まれる前記被写体が、撮影者が撮影したい主要被写体である確率を算出し、
 前記確率が所定の閾値を超える前記所定領域を有効データ領域に決定し、
 前記有効データ領域に基づいて、主要被写体領域を決定し、
 前記決定された主要被写体領域にピントを合わせる
 処理を実行させる、プログラム。
 10  情報処理装置
 110 記憶部
 120 撮影部
 130 表示部
 140 算出部
 150 決定部
 160 フォーカス部
 170 追跡部
 180 センサ部
 200 制御部

Claims (14)

  1.  被写体を撮影し、デジタルデータに変換して撮影画像を生成する撮影部と、
     前記撮影画像の所定領域ごとに、前記所定領域に含まれる前記被写体が、撮影者が撮影したい主要被写体である確率を算出する算出部と、
     前記確率が所定の閾値を超える前記所定領域を有効データ領域に決定し、前記有効データ領域に基づいて、主要被写体領域を決定する決定部と、
     前記決定された主要被写体領域にピントを合わせるフォーカス部と
     を備えた、情報処理装置。
  2.  前記算出部による前記確率の算出は、前記撮影画像を入力し、前記確率を出力する学習モデルを用いて算出される、請求項1に記載の情報処理装置。
  3.  前記決定部による前記主要被写体領域の決定は、
     隣接する前記有効データ領域を合わせ、
     前記有効データ領域に内接する矩形領域を検出し、
     前記矩形領域を前記主要被写体領域に決定する
     ことを含む、請求項1に記載の情報処理装置。
  4.  前記決定部による前記矩形領域を前記主要被写体領域に決定することは、
     幅および高さ、ならびに面積の少なくとも1つが所定の条件を満たす前記矩形領域を前記主要被写体領域に決定する
     ことを含む、請求項3に記載の情報処理装置。
  5.  前記決定部により決定される前記主要被写体領域が複数ある場合、前記決定部はさらに、複数の前記主要被写体領域の中から、面積が最大、および前記情報処理装置に対して最至近の少なくとも1つを満たす1つの第1の主要被写体領域を決定し、
     前記フォーカス部によってピントを合わせられる前記主要被写体領域は、前記第1の主要被写体領域である、請求項1に記載の情報処理装置。
  6.  前記決定部による前記有効データ領域の決定は、
     前記確率が一定時間、前記所定の閾値を超える前記所定領域を前記有効データ領域に決定することを含む、請求項1に記載の情報処理装置。
  7.  前記決定された主要被写体領域に含まれる前記主要被写体を追跡する追跡部をさらに備えた、請求項1に記載の情報処理装置。
  8.  前記決定部はさらに、追跡している前記主要被写体がフレームアウトした場合、または追跡している前記主要被写体に対する前記主要被写体領域の前記確率が一定時間、前記所定の閾値以下になった場合、前記有効データ領域に基づいて、第2の主要被写体領域を決定する、請求項7に記載の情報処理装置。
  9.  前記フォーカス部さらに、前記第2の主要被写体領域が決定されない場合、前記撮影画像の所定の中央領域にピントを合わせる、請求項8に記載の情報処理装置。
  10.  前記被写体までの距離を測定するセンサ部をさらに備え、
     前記決定部により決定される前記最至近である第1の主要被写体領域は、前記測定された距離に基づいて決定される、請求項5に記載の情報処理装置。
  11.  前記撮影部はさらに、前記被写体に対する位相差画像を生成し、
     前記決定部により決定される前記最至近である第1の主要被写体領域は、前記位相差画像から取得された深度情報に基づいて決定される、請求項5に記載の情報処理装置。
  12.  前記算出部により用いられる前記学習モデルにはさらに、前記主要被写体になり得る物体までの距離が入力される、請求項2に記載の情報処理装置。
  13.  情報処理装置が、
     被写体を撮影し、デジタルデータに変換して撮影画像を生成し、
     前記撮影画像の所定領域ごとに、前記所定領域に含まれる前記被写体が、撮影者が撮影したい主要被写体である確率を算出し、
     前記確率が所定の閾値を超える前記所定領域を有効データ領域に決定し、
     前記有効データ領域に基づいて、主要被写体領域を決定し、
     前記決定された主要被写体領域にピントを合わせる
     処理を実行する、方法。
  14.  情報処理装置に、
     被写体を撮影し、デジタルデータに変換して撮影画像を生成し、
     前記撮影画像の所定領域ごとに、前記所定領域に含まれる前記被写体が、撮影者が撮影したい主要被写体である確率を算出し、
     前記確率が所定の閾値を超える前記所定領域を有効データ領域に決定し、
     前記有効データ領域に基づいて、主要被写体領域を決定し、
     前記決定された主要被写体領域にピントを合わせる
     処理を実行させる、プログラム。
PCT/JP2020/002481 2020-01-24 2020-01-24 情報処理装置、情報処理方法、および情報処理プログラム WO2021149238A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/758,916 US20230128043A1 (en) 2020-01-24 2020-01-24 Information processing device, information processing method, and information processing program
PCT/JP2020/002481 WO2021149238A1 (ja) 2020-01-24 2020-01-24 情報処理装置、情報処理方法、および情報処理プログラム
EP20915045.7A EP4096209A4 (en) 2020-01-24 2020-01-24 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/002481 WO2021149238A1 (ja) 2020-01-24 2020-01-24 情報処理装置、情報処理方法、および情報処理プログラム

Publications (1)

Publication Number Publication Date
WO2021149238A1 true WO2021149238A1 (ja) 2021-07-29

Family

ID=76993177

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/002481 WO2021149238A1 (ja) 2020-01-24 2020-01-24 情報処理装置、情報処理方法、および情報処理プログラム

Country Status (3)

Country Link
US (1) US20230128043A1 (ja)
EP (1) EP4096209A4 (ja)
WO (1) WO2021149238A1 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03167536A (ja) * 1989-11-27 1991-07-19 Olympus Optical Co Ltd カメラの焦点検出装置
JP2008035125A (ja) * 2006-07-27 2008-02-14 Canon Inc 撮像装置、画像処理方法およびプログラム
JP2008262001A (ja) * 2007-04-11 2008-10-30 Fujifilm Corp 撮像装置及びその主要被写体検出方法並びに合焦制御方法
JP2010087599A (ja) * 2008-09-29 2010-04-15 Fujifilm Corp 撮像装置、方法およびプログラム
JP2010107664A (ja) * 2008-10-29 2010-05-13 Fujifilm Corp 立体撮像装置及び合焦制御方法
JP2014119725A (ja) * 2012-12-19 2014-06-30 Casio Comput Co Ltd 露出、焦点制御装置、方法、およびプログラム
JP2015204023A (ja) * 2014-04-15 2015-11-16 キヤノン株式会社 被写体検出装置、被写体検出方法及びプログラム
JP2016038415A (ja) * 2014-08-05 2016-03-22 キヤノン株式会社 撮像装置及びその制御方法、プログラム、記憶媒体
JP2017005738A (ja) 2016-08-03 2017-01-05 ソニー株式会社 画像処理装置、画像処理方法、プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014109125A1 (ja) * 2013-01-09 2014-07-17 ソニー株式会社 画像処理装置、画像処理方法、プログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03167536A (ja) * 1989-11-27 1991-07-19 Olympus Optical Co Ltd カメラの焦点検出装置
JP2008035125A (ja) * 2006-07-27 2008-02-14 Canon Inc 撮像装置、画像処理方法およびプログラム
JP2008262001A (ja) * 2007-04-11 2008-10-30 Fujifilm Corp 撮像装置及びその主要被写体検出方法並びに合焦制御方法
JP2010087599A (ja) * 2008-09-29 2010-04-15 Fujifilm Corp 撮像装置、方法およびプログラム
JP2010107664A (ja) * 2008-10-29 2010-05-13 Fujifilm Corp 立体撮像装置及び合焦制御方法
JP2014119725A (ja) * 2012-12-19 2014-06-30 Casio Comput Co Ltd 露出、焦点制御装置、方法、およびプログラム
JP2015204023A (ja) * 2014-04-15 2015-11-16 キヤノン株式会社 被写体検出装置、被写体検出方法及びプログラム
JP2016038415A (ja) * 2014-08-05 2016-03-22 キヤノン株式会社 撮像装置及びその制御方法、プログラム、記憶媒体
JP2017005738A (ja) 2016-08-03 2017-01-05 ソニー株式会社 画像処理装置、画像処理方法、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4096209A4

Also Published As

Publication number Publication date
EP4096209A4 (en) 2023-01-18
US20230128043A1 (en) 2023-04-27
EP4096209A1 (en) 2022-11-30

Similar Documents

Publication Publication Date Title
WO2019137167A1 (zh) 相册管理方法、装置、存储介质及电子设备
TWI717865B (zh) 影像處理方法及裝置、電子設備、電腦可讀取的記錄媒體和電腦程式產品
RU2628494C1 (ru) Способ и устройство для генерирования фильтра изображения
JP4618166B2 (ja) 画像処理装置、画像処理方法、およびプログラム
US9692959B2 (en) Image processing apparatus and method
CN105230001A (zh) 图像处理设备、处理图像的方法、图像处理程序,以及成像设备
CN104919791A (zh) 图像处理设备、图像处理方法以及程序
TW202113670A (zh) 一種圖像處理方法、電子設備和儲存介質
US11122198B2 (en) Adjusting image capture parameters via machine learning
JP7210908B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2019140561A (ja) 撮像装置、情報端末、撮像装置の制御方法、および情報端末の制御方法
CN105635452A (zh) 移动终端及其联系人标识方法
WO2020118503A1 (zh) 一种确定图像对焦区域的方法及装置
WO2019128564A1 (zh) 对焦方法、装置、存储介质及电子设备
CN110135349A (zh) 识别方法、装置、设备及存储介质
JP2008035125A (ja) 撮像装置、画像処理方法およびプログラム
JP6230386B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
WO2021149238A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
WO2021144924A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
CN114996515A (zh) 视频特征提取模型的训练方法、文本生成方法及装置
JP2018180714A (ja) 動体検知システム、動体検知装置、動体検知方法、およびプログラム
CN112468722A (zh) 一种拍摄方法、装置、设备及存储介质
WO2021199366A1 (ja) 情報処理装置、方法、プログラム、およびモデル
WO2022030275A1 (ja) 撮像装置、情報処理装置、情報処理方法、及びプログラム
CN103312978A (zh) 通信设备、通信方法、通信系统以及通信建立方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20915045

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020915045

Country of ref document: EP

Effective date: 20220824

NENP Non-entry into the national phase

Ref country code: JP