WO2023210334A1 - 画像処理装置、撮像装置及びそれらの制御方法 - Google Patents

画像処理装置、撮像装置及びそれらの制御方法 Download PDF

Info

Publication number
WO2023210334A1
WO2023210334A1 PCT/JP2023/014607 JP2023014607W WO2023210334A1 WO 2023210334 A1 WO2023210334 A1 WO 2023210334A1 JP 2023014607 W JP2023014607 W JP 2023014607W WO 2023210334 A1 WO2023210334 A1 WO 2023210334A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
teacher data
teacher
dictionary
image processing
Prior art date
Application number
PCT/JP2023/014607
Other languages
English (en)
French (fr)
Inventor
綾菜 木下
Original Assignee
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by キヤノン株式会社 filed Critical キヤノン株式会社
Publication of WO2023210334A1 publication Critical patent/WO2023210334A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding

Definitions

  • the present invention relates to an image processing device, an imaging device, and a control method thereof using a learned model that uses machine learning to detect a specific subject.
  • Object detection is one of the fields of computer vision research and has been widely studied so far.
  • Computer vision is a technology that understands images input to a computer and automatically recognizes various characteristics of the images.
  • object detection is a task of estimating the position and type of an object present in an image.
  • Object detection is applied to autofocus technology of imaging devices, etc.
  • image processing devices that detect objects using machine learning methods such as neural networks have become known.
  • Such an image processing device detects a specific subject and performs imaging control using a learned model (dictionary data) corresponding to the specific subject.
  • Typical types of specific subjects are people, animals such as dogs and cats, and vehicles such as cars, and these subjects are in high demand as autofocus (AF) functions of imaging devices.
  • AF autofocus
  • JP 2021-57672A discloses an image processing device that collects images from a user and detects an AF point suitable for the user through additional learning. However, since images are automatically categorized and learning is performed, it is difficult to detect any new subject that the user desires to detect.
  • An object of the present invention is to provide an image processing device that makes it possible to generate or utilize dictionary data with detection performance above a certain level from a small number of positive case data.
  • an image processing device of the present invention includes a first acquisition means for acquiring first teacher data including image data of positive cases for a first object, and a first acquisition means for acquiring first teacher data including image data of positive cases for a first object; a second acquisition means for acquiring second teacher data including image data of the case; and detecting the first object based on the teacher data acquired by the first acquisition means and the second acquisition means.
  • generating means for generating first dictionary data for the first acquisition the learning means performs additional learning on the second dictionary data to generate the first dictionary data, and the learning means performs additional learning on the second dictionary data to generate the first dictionary data.
  • the number of the first teacher data acquired by the means is smaller than the number of the second teacher data acquired by the second acquisition means.
  • FIG. 1 is a configuration diagram of an image processing system according to a first embodiment of the present invention.
  • FIG. 1 is a block diagram showing a configuration example of an imaging device 100 according to a first embodiment.
  • 2 is a block diagram showing a schematic configuration of a neural network processing unit 205 according to the first embodiment.
  • FIG. 2 is a block diagram showing an example of a hardware configuration of a server 110.
  • FIG. 2 is a block diagram showing an example of a hardware configuration of a mobile terminal 120.
  • FIG. 3 is a flowchart showing processing of the imaging device according to the first embodiment.
  • FIG. 3 is a diagram for explaining an example of subject detection based on dictionary data.
  • FIG. 3 is a diagram for explaining an example of subject detection based on dictionary data.
  • FIG. 3 is a flowchart showing processing by the server according to the first embodiment.
  • 3 is a flowchart for explaining the flow of dictionary data generation processing according to the first embodiment.
  • 2 is a flowchart illustrating an example of the flow of processing executed by the mobile terminal 120 according to the first embodiment.
  • FIG. 6 is a diagram for explaining an example of an input screen for teacher data and network structure on the display unit 504 of the mobile terminal according to the first embodiment.
  • FIG. 6 is a diagram for explaining an example of an input screen for teacher data and network structure on the display unit 504 of the mobile terminal according to the first embodiment.
  • FIG. 6 is a diagram for explaining an example of an input screen for teacher data and network structure on the display unit 504 of the mobile terminal according to the first embodiment.
  • image processing devices are electronic devices with imaging functions such as digital still cameras, digital movie cameras, smartphones with cameras, tablet computers with cameras, network cameras, vehicle-mounted cameras, drone cameras, and cameras mounted on robots. include.
  • FIG. 1 is a configuration diagram of an image processing system according to the first embodiment, and the image processing system includes an imaging device 100, a server 110 as an information processing server, a mobile terminal 120 as an information processing terminal, and the like.
  • the imaging device 100 and the server 110 are connected, for example, via a wireless communication network.
  • the server 110 and the mobile terminal 120 are connected by, for example, a wireless communication network.
  • the functional blocks in the server 110 and the mobile terminal 120 shown in FIG. 1 are realized by causing the computers included in the server 110 and the mobile terminal 120, respectively, to execute computer programs stored in a memory as a storage medium. ing.
  • the image processing system performs subject detection based on a neural network and also allows a user to detect any subject.
  • a typical method for object detection is a method called a convolutional neural network (hereinafter abbreviated as CNN).
  • CNN convolutional neural network
  • inference processing is performed based on an image signal and dictionary data that is a processing parameter, and the dictionary data is generated in advance by learning processing based on teacher data.
  • the mobile terminal 120 includes a teacher data input unit 121 as a teacher data input means for inputting teacher data for object detection. Further, the teacher data input unit 121 executes a teacher data input step of inputting teacher data for object detection.
  • the teacher data input unit 121 can input a plurality of sets of teacher data, including image data and object area information of the image data in which the target object is present, as the teacher data.
  • the set can be sent to server 110.
  • an input data acquisition unit 111 as a first acquisition unit acquires positive case teacher data and negative case teacher data transmitted from the mobile terminal 120
  • an in-server data acquisition unit 112 as a second acquisition unit A predetermined number of negative case teacher data are acquired from the negative case data group 113 prepared in advance in the server 110.
  • the number of data input by the user in the teacher data input section 121 is 100 or less including positive case data and negative case data.
  • sufficient performance cannot be achieved even if learning is performed using only 100 or fewer pieces of data input by the user.
  • the in-server data acquisition unit 112 acquires 101 or more pieces of teacher data and uses them for learning.
  • the in-server data acquisition unit 112 can perform learning to increase the subject detection rate that covers at least the positive example training data from the user. This allows for sufficient learning while reducing the burden of data entry work on the user side.
  • custom dictionary data is generated in the learning unit 114 by performing additional learning on the previously learned base dictionary data.
  • the generated custom dictionary data is sent to the imaging device 100 after the determination unit 115 determines whether to further acquire negative case training data.
  • the learning unit 114 is provided in the server 110 as an information processing server different from the imaging device.
  • the imaging device 100 dictionary data transmitted from the server 110 is received, and based on the received dictionary data, the subject detection unit 101 performs inference processing based on a neural network. Next, based on the inference result, the imaging control unit 102 executes imaging control such as autofocus. That is, the imaging device 100 performs subject detection based on dictionary data, and performs predetermined imaging control (autofocus, exposure control, etc.) on the subject detected by the subject detection.
  • imaging control such as autofocus. That is, the imaging device 100 performs subject detection based on dictionary data, and performs predetermined imaging control (autofocus, exposure control, etc.) on the subject detected by the subject detection.
  • FIG. 2 is a block diagram showing a configuration example of the imaging device 100 of the first embodiment.
  • the imaging device 100 includes a CPU 201, a memory 202, a nonvolatile memory 203, an operation unit 204, a neural network processing unit 205, an imaging unit 212, an image processing unit 213, and an encoding unit 202. It has a processing section 214. Further, the imaging device 100 includes a display control section 215, a display section 216, a communication control section 217, a communication section 218, a recording medium control section 219, and an internal bus 230.
  • the imaging device 100 forms an optical image of the subject on the pixel array of the imaging unit 212 using the photographing lens 211, but the photographing lens 211 is not detachable from the body (casing, main body) of the imaging device 100. or may be detachable. Further, the imaging device 100 writes and reads image data to and from the recording medium 220 via the recording medium control unit 219, but the recording medium 220 may be removable or attachable to the imaging device 100. It may be impossible.
  • the CPU 201 controls the operation of each part (each functional block) of the imaging device 100 via the internal bus 230 by executing a computer program stored in the nonvolatile memory 203.
  • the memory 202 is a rewritable volatile memory.
  • the memory 202 temporarily records a computer program for controlling the operation of each part of the imaging apparatus 100, information such as parameters regarding the operation of each part of the imaging apparatus 100, information received by the communication control unit 217, and the like. Further, the memory 202 temporarily records images acquired by the imaging unit 212, images processed by the image processing unit 213, the encoding processing unit 214, etc., and information.
  • the memory 202 has sufficient storage capacity to temporarily record these.
  • the nonvolatile memory 203 is a memory that can be electrically erased and recorded, and for example, an EEPROM, a hard disk, etc. are used.
  • the nonvolatile memory 203 stores information such as a computer program that controls the operation of each part of the imaging apparatus 100 and parameters related to the operation of each part of the imaging apparatus 100. Various operations performed by the imaging device 100 are realized by such a computer program.
  • the nonvolatile memory 203 stores a computer program describing the processing content of the neural network and learned coefficient parameters such as weighting coefficients and bias values, which are used by the neural network processing unit 205.
  • the weighting coefficient is a value that indicates the strength of connection between nodes in a neural network
  • the bias is a value that provides an offset to the integrated value of the weighting coefficient and input data.
  • the nonvolatile memory 203 can hold a plurality of learned coefficient parameters and a plurality of computer programs describing neural network processing.
  • a plurality of computer programs describing neural network processing and a plurality of learned coefficient parameters used by the neural network processing unit 205 described above may be temporarily stored in the memory 202 instead of the memory 203.
  • the computer program describing the processing of the neural network and the learned coefficient parameters correspond to the dictionary data for subject detection.
  • the operation unit 204 provides a user interface for operating the imaging device 100.
  • the operation unit 204 includes various buttons such as a power button, a menu button, a release button for shooting, a video recording button, and a cancel button, and the various buttons are configured by switches, touch panels, and the like.
  • the CPU 201 controls the imaging apparatus 100 according to user instructions input via the operation unit 204.
  • the CPU 201 may control the imaging device 100 based on a request input from a remote controller (not shown) or the mobile terminal 120 via the communication unit 218.
  • the neural network processing unit 205 performs inference processing for the subject detection unit 101 based on dictionary data. Details will be described later using FIG. 3.
  • the photographing lens (lens unit) 211 includes a lens group including a zoom lens, a focus lens, etc., a lens control section (not shown), an aperture (not shown), and the like.
  • the photographing lens 211 can function as a zoom means that changes the angle of view.
  • the lens control unit of the photographic lens 211 adjusts the focus and controls the aperture value (F value) based on a control signal transmitted from the CPU 201.
  • the imaging unit 212 can function as an acquisition unit that sequentially acquires a plurality of images including moving images.
  • the imaging unit 212 for example, a CCD (charge coupled device) image sensor, a CMOS (complementary metal oxide semiconductor) image sensor, or the like is used.
  • the imaging unit 212 has a pixel array (not shown) in which photoelectric conversion units (pixels) that convert an optical image of a subject into an electrical signal are arranged in a matrix, that is, two-dimensionally. An optical image of the subject is formed on the pixel array by the photographing lens 211.
  • the imaging unit 212 outputs the captured image to the image processing unit 213 and the memory 202. Note that the imaging unit 212 is also capable of acquiring still images.
  • the image processing unit 213 performs predetermined image processing on the image data output from the imaging unit 212 or the image data read out from the memory 202. Examples of the image processing include dynamic range conversion processing, interpolation processing, reduction processing (resizing processing), color conversion processing, and the like. Further, the image processing unit 213 uses the image data acquired by the imaging unit 212 to perform predetermined arithmetic processing for exposure control, distance measurement control, and the like.
  • the CPU 201 performs AE (Auto Exposure) processing, AWB (Auto White Balance) processing, AF (Auto Focus) processing, and the like. These photographing controls are performed with reference to the subject detection result by the neural network processing unit 205.
  • the encoding processing unit 214 performs intra-frame predictive encoding (intra-frame predictive encoding), inter-frame predictive encoding (inter-frame predictive encoding), etc. on the image data from the image processing unit 213 to generate an image. Compress the size of data.
  • the display control section 215 controls the display section 216.
  • the display unit 216 includes a display screen (not shown).
  • the display control unit 215 generates an image that can be displayed on the display screen of the display unit 216 and outputs the image, that is, the image signal, to the display unit 216. Further, the display control section 215 can not only output image data to the display section 216 but also output image data to an external device via the communication control section 217.
  • the display unit 216 displays an image on the display screen based on the image signal sent from the display control unit 215.
  • the display unit 216 has an OSD (On Screen Display) function that displays a setting screen such as a menu on the display screen.
  • the display control unit 215 can output the image signal to the display unit 216 by superimposing the OSD image on the image signal. It is also possible to generate a subject frame based on the subject detection result by the neural network processing unit 205 and display it superimposed on the image signal.
  • the display section 216 is configured with a liquid crystal display, an organic EL display, etc., and displays the image signal sent from the display control section 215.
  • Display unit 216 may include, for example, a touch panel. When the display section 216 includes a touch panel, the display section 216 can also function as the operation section 204.
  • the communication control unit 217 is controlled by the CPU 201.
  • the communication control unit 217 generates a modulated signal that complies with wireless communication standards such as IEEE802.11, outputs the modulated signal to the communication unit 218, and transmits the modulated signal from an external device to the communication unit 218. Receive via.
  • the communication control unit 217 is capable of transmitting and receiving control signals for video signals.
  • the communication unit 218 may be controlled to send a video signal compliant with a communication standard such as HDMI (registered trademark) (High Definition Multimedia Interface) or SDI (Serial Digital Interface).
  • the communication unit 218 converts the video signal and control signal into physical electrical signals and transmits and receives them to and from external equipment. Note that the communication unit 218 not only transmits and receives video signals and control signals, but also receives dictionary data for subject detection in the neural network processing unit 205.
  • the recording medium control unit 219 controls the recording medium 220.
  • the recording medium control unit 219 outputs a control signal for controlling the recording medium 220 to the recording medium 220 based on a request from the CPU 201 .
  • the recording medium 220 for example, a nonvolatile memory, a magnetic disk, or the like is used.
  • the recording medium 220 may be removable or non-removable.
  • the recording medium 220 stores encoded image data and the like as a file in a format compatible with the file system of the recording medium 220.
  • the functional blocks 201 to 205, 212 to 215, 217, and 219 can access each other via an internal bus 230.
  • FIG. 2 Some of the functional blocks shown in FIG. 2 are realized by causing the CPU 201 as a computer included in the imaging apparatus 100 to execute a computer program stored in a nonvolatile memory 203 or the like as a storage medium. . However, some or all of them may be realized by hardware. As the hardware, a dedicated circuit (ASIC), a processor (reconfigurable processor, DSP), etc. can be used.
  • ASIC application-specific integrated circuit
  • DSP reconfigurable processor
  • the neural network processing unit 205 includes a CPU 301, a product-sum operation circuit 302, a DMA (Dynamic Memory Access) 303, an internal memory 304, etc. in a neural core 300.
  • the CPU 301 acquires a computer program describing the processing content of the neural network from the memory 202 or nonvolatile memory 203 via the internal bus 230, or from the internal memory 304, and executes it.
  • the CPU 301 also controls the product-sum calculation circuit 302 and the DMA 303.
  • the product-sum calculation circuit 302 is a circuit that performs product-sum calculation in a neural network.
  • the sum-of-products calculation circuit 302 has a plurality of sum-of-products calculation units, which can perform sum-of-products calculations in parallel. Further, the product-sum calculation circuit 302 outputs intermediate data calculated during the product-sum calculation performed in parallel by a plurality of product-sum calculation units to the internal memory 304 via the DMA 303.
  • the DMA 303 is a circuit specialized for data transfer without going through the CPU 301, and performs data transfer between the memory 202 or nonvolatile memory 203 and the internal memory 304 via the internal bus 230.
  • the DMA 303 also transfers data between the product-sum operation circuit 302 and the internal memory 304.
  • the data transferred by the DMA 303 includes a computer program describing the processing content of the neural network, learned coefficient parameters, intermediate data calculated by the product-sum calculation circuit 302, and the like.
  • the internal memory 304 stores computer programs describing the processing content of the neural network, learned coefficient parameters, intermediate data calculated by the product-sum calculation circuit 302, and the like. Further, the internal memory 304 may have a plurality of banks, and the banks may be dynamically switched.
  • FIG. 4 is a block diagram showing an example of the hardware configuration of the server 110.
  • the server 110 includes a CPU 401, a memory 402, a display section 403, an operation section 405, a recording section 406, a communication section 407, and a neural network processing section 408.
  • FIG. 4 Some of the functional blocks shown in FIG. 4 are realized by causing the CPU 401 as a computer included in the server 110 to execute a computer program stored in the recording unit 406 or the like as a storage medium. However, some or all of them may be realized by hardware. As the hardware, a dedicated circuit (ASIC), a processor (reconfigurable processor, DSP), etc. can be used.
  • ASIC application-specific integrated circuit
  • DSP digital signal processor
  • the CPU 401 controls all processing blocks that make up the server 110 by executing a computer program stored in the recording unit 406.
  • the memory 402 is primarily used as a work area for the CPU 401 and a temporary buffer area for data.
  • the display unit 403 is composed of a liquid crystal panel, an organic EL panel, etc., and displays an operation screen and the like based on instructions from the CPU 401.
  • the internal bus 404 is a bus for interconnecting each processing block within the server 110.
  • the operation unit 405 is configured with a keyboard, mouse, buttons, touch panel, remote control, etc., and receives operation instructions from the user. Operation information input from the operation unit 405 is transmitted to the CPU 401, and the CPU 401 executes control of each processing block based on the operation information.
  • the recording unit 406 is a processing block that is configured by a recording medium and stores and reads various data from the recording medium based on instructions from the CPU 401.
  • the recording medium includes, for example, an EEPROM, a built-in flash memory, a built-in hard disk, or a removable memory card.
  • the recording unit 406 stores input data, which is learning data for the neural network processing unit 408, teacher data, dictionary data, and the like.
  • the communication unit 407 includes hardware and the like for performing wireless LAN and wired LAN communication.
  • wireless LAN for example, IEEE802.11n/a/g/b processing is performed.
  • the communication unit 407 connects to an external access point via wireless LAN and performs wireless LAN communication with other wireless communication devices via the access point. Further, the communication unit 407 communicates via an external router or switching hub using an Ethernet cable or the like in a wired LAN.
  • the communication unit 407 communicates with external devices, including the imaging device 100, and exchanges information such as teacher data and dictionary data.
  • the neural network processing unit 408 performs neural network learning processing using the teacher data obtained via the communication unit 407.
  • the neural network processing unit 408 corresponds to the learning unit 114 in FIG. 1, and performs learning processing to construct dictionary data corresponding to each of subjects in different classes using teacher data.
  • the neural network processing unit 408 is composed of a GPU (Graphic Processing Unit), a DSP (Digital Signal Processor), and the like. Furthermore, dictionary data, which is the result of the learning process performed by the neural network processing unit 408, is held in the recording unit 406.
  • FIG. 5 is a block diagram showing an example of the hardware configuration of the mobile terminal 120.
  • the mobile terminal 120 includes a CPU 501, a memory 502, an imaging section 503, a display section 504, an operation section 505, a recording section 506, a communication section 507, and an internal bus 508. are doing.
  • Some of the functional blocks shown in FIG. 5 are realized by causing a CPU 501 as a computer included in the mobile terminal 120 to execute a computer program stored in a recording unit 506 or the like as a storage medium.
  • a dedicated circuit (ASIC), a processor (reconfigurable processor, DSP), etc. can be used as the hardware.
  • the CPU 501 controls all processing blocks that make up the mobile terminal 120 by executing a computer program stored in the recording unit 506.
  • the memory 502 is primarily used as a work area for the CPU 501 and a temporary buffer area for data. Programs such as an OS (Operation System) and application software are developed on the memory 502 and executed by the CPU 501.
  • OS Operating System
  • application software are developed on the memory 502 and executed by the CPU 501.
  • the imaging unit 503 includes an optical lens, a CMOS sensor, a digital image processing unit, etc., and acquires captured image data by capturing an optical image input through the optical lens and converting it into digital data. Photographed image data acquired by the imaging unit 503 is temporarily stored in the memory 502 and processed under the control of the CPU 501. For example, the recording unit 506 records on a recording medium, the communication unit 507 transmits to an external device, etc.
  • the imaging unit 503 also includes a lens control unit, and controls zoom, focus, aperture adjustment, etc. based on commands from the CPU 501.
  • the display unit 504 is composed of a liquid crystal panel, an organic EL panel, etc., and performs display based on instructions from the CPU 501. In order to select the teacher data image from the captured images and to specify the network structure, an operation screen, captured images, etc. are displayed.
  • the operation unit 505 is configured with a keyboard, a mouse, buttons, a cross key, a touch panel, a remote control, etc., and receives operation instructions from the user. Operation information input from the operation unit 505 is transmitted to the CPU 501, and the CPU 501 controls each processing block based on the operation information.
  • the recording unit 506 is a processing block that is configured by a large-capacity recording medium and stores and reads various data from the recording medium based on instructions from the CPU 501.
  • the recording medium includes, for example, a built-in flash memory, a built-in hard disk, or a removable memory card.
  • the communication unit 507 includes processing hardware for communication such as an antenna, a wireless LAN, a wired LAN, etc., and performs wireless LAN communication using, for example, IEEE802.11n/a/g/b.
  • the communication unit 507 connects to an external access point via wireless LAN and performs wireless LAN communication with other wireless communication devices via the access point.
  • the communication unit 507 transmits the teacher data input by the user via the operation unit 505 and the network structure to the server 110 .
  • the internal bus 508 is a bus for interconnecting each processing block within the mobile terminal SP.
  • FIG. 6 is a flowchart showing the processing of the imaging device according to the first embodiment.
  • dictionary data executed by the imaging device 100 in the first embodiment is received, and object detection is performed.
  • the flow of processing for controlling imaging will be explained. This operation is realized by loading the computer program stored in the nonvolatile memory 203 into the memory 202 while the power of the imaging apparatus 100 is on, and causing the CPU 201 to read and execute the computer program from the memory 202. .
  • step S601 the imaging device 100 checks with the server 110 via the communication unit 218 whether there is any dictionary data that has not yet been received from the server 110. If the server 110 has dictionary data that has not been received from the server 110 (YES in step S601), the dictionary data is acquired from the server 110 via the communication unit 218 and stored in the nonvolatile memory 203 in step S602. . If there is no dictionary data that has not been received from the server 110 (determined as NO in step S601), the process advances to step S603.
  • step S603 the neural network processing unit 205 performs object detection using the dictionary data recorded in the nonvolatile memory 203.
  • the dictionary data may be copied from the nonvolatile memory 203 to the memory 202 or the internal memory 304 of the neural network processing unit 205 for use in subject detection. Further, object detection in step S603 is performed using image data acquired by the imaging unit 212 as input data.
  • step S604 the imaging unit 212 performs imaging control such as autofocus based on the subject detection result. That is, it focuses on the detected subject and performs imaging control such as autofocus and exposure control to achieve proper exposure.
  • steps S603 and S604 function as imaging steps in which subject detection is performed based on dictionary data and predetermined imaging control is performed on the subject detected by the subject detection.
  • the step of acquiring dictionary data from the server, and the subject detection and photographing control based on the acquired dictionary data are performed in the same flow.
  • the present invention is not limited to this, and for example, a mode or timing may be provided for inquiring the server and acquiring dictionary data in advance during non-photography.
  • the dictionary data used for subject detection does not necessarily have to be obtained by inquiring the server, obtaining unobtained dictionary data, and using it as is.
  • a step for determining dictionary data before using the dictionary data for example, before step S604
  • a step of accepting user operation or a step of automatically determining the dictionary data may be provided as a step for determining dictionary data before using the dictionary data.
  • 7A and 7B are diagrams for explaining an example of subject detection based on dictionary data.
  • the dictionary data of the first embodiment includes a computer program that describes the processing content for executing the subject detection task in the dual network processing unit 205, and learned coefficient parameters for each type of subject.
  • types of subjects for which dictionary data is registered include people, animals such as dogs and cats, vehicles such as cars, and motorcycles.
  • FIGS. 7A and 7B show examples of menu screens on the display unit 216, on which the user sets the object to be detected via the operation unit 204.
  • a “person” 702 is set as the subject to be detected. If "person” is set, object detection is performed using dictionary data for "person” stored in the nonvolatile memory 203 in advance.
  • Reference numeral 703 is a photographed image displayed on the display unit 216, in which a "person" face is detected and a frame 704 is displayed in a superimposed manner.
  • custom 706 is set as the subject to be detected.
  • subject detection is performed using, for example, "fish” as the custom dictionary data received from the server 110.
  • Reference numeral 707 is a photographed image displayed on the display unit 216, in which the dictionary data of "custom” is "fish”, and a frame 708 is displayed superimposed on the detected fish.
  • FIG 8 and 9 are flowcharts showing the processing performed by the CPU 401 of the server 110 according to the first embodiment.
  • the processing in FIG. 8 is realized by loading the computer program stored in the storage unit 406 into the memory 402 while the server 110 is powered on, and the CPU 401 reading out and executing the computer program from the memory 402. be done.
  • step S801 the server 110 acquires positive case data and negative case data from the mobile terminal 120 via the communication unit 407. Further, in step S802, negative case data previously stored in the storage unit 406 is acquired.
  • steps S801 and S802 function as a teacher data acquisition means for acquiring teacher data for object detection. Furthermore, in step S803, the base dictionary data stored in the storage unit 406 is acquired.
  • step S804 it is determined whether the data necessary for dictionary data generation after steps S801 to S803 is complete. If the data is complete (YES in step S804), the process advances to step S805. If at least some of the data is not complete (determined as NO in step S804), the process advances to step S806.
  • step S804 determines whether the teacher data exists but the base dictionary data does not exist. If the determination is NO, in step S806, the portable terminal 120 is notified via the communication unit 507 that an error has occurred.
  • step S805 the neural network processing unit 408 generates custom dictionary data.
  • a method of generating dictionary data there is a method of generating dictionary data by learning from teacher data (for example, as shown in FIG. 9).
  • Step S805 functions as a learning means for generating custom dictionary data.
  • FIG. 9 is a flowchart for explaining the flow of dictionary data generation processing related to step S805.
  • step S901 dictionary data that has been learned in advance for a wide variety of objects is set as an initial value as base dictionary data.
  • base dictionary data dictionary data trained on specific types of subjects such as dogs, cats, and motorcycles may be used.
  • step S902 teacher data used for learning is read.
  • step S903 it is determined whether the read teacher data is data acquired by the input data acquisition unit, that is, whether it is data acquired from the mobile terminal 120. If the data is acquired by the input data acquisition unit, the process advances to step S904. If the data is not acquired by the input data acquisition unit, the process advances to step S905.
  • step S904 the coefficient of the loss function for the read data is set to be larger than the data acquired by the in-server data acquisition unit 112. For example, the coefficient is set so that the loss calculated during learning is doubled. This is because the training data acquired by the input data acquisition unit is considered to be data that strongly reflects the user's intentions and has high object detection accuracy.
  • step S905 the coefficient of the loss function for the read data is set to be smaller than the data acquired by the input data acquisition unit. If the negative case data acquired by the in-server data acquisition unit 112 is not data provided by the user, consider the possibility that the positive case data that the user wants to detect may be mixed into some of the negative case data. There is a need to learn. Therefore, by dividing the processing into steps S904 and S905, it is possible to reduce the negative effect of calculating a large loss when positive case data is mixed in negative case data.
  • step S906 learning is performed based on the teacher data. Since the initial value of the dictionary data is not a random number but one that has learned object-likeness, this is so-called fine tuning.
  • step S906 functions as a dictionary generation unit that generates the dictionary data by learning based on teacher data.
  • step S807 it is determined in step S807 whether to additionally acquire negative case data. For example, if the value of the learning loss function is less than or equal to a predetermined threshold, it is determined that dictionary data generation is successful; if it is greater than a predetermined threshold, dictionary data generation is determined to be unsuccessful; if the value is unsuccessful, it is determined that negative case data is to be additionally acquired.
  • step S807 functions as a determining means for determining whether the server-internal data acquisition unit 112 should further acquire negative case training data in addition to the data acquired by the server-internal data acquisition unit 112.
  • the dictionary data is transmitted to the imaging device 100 via the communication unit 407 in step S808.
  • step S807 If the generation of dictionary data fails (determined as YES in step S807), the process advances to step S809, and the in-server data acquisition unit 112 additionally acquires negative case data. After acquisition, the process returns to step S804. If dictionary data generation failure continues for a predetermined number of times, it is assumed that dictionary data generation will not succeed even if negative case data is added any more, and a NO determination is made in step S804, and an error is notified in step S808. You can do it like this.
  • FIG. 10 is a flowchart illustrating an example of the flow of processing executed by the mobile terminal 120 according to the first embodiment.
  • FIG. 10 The process flow of the flowchart in FIG. 10 will be explained using FIGS. 11A, 11B, and 11C.
  • FIGS. 11A, 11B, and 11C are diagrams for explaining examples of teacher data input screens on the display unit 504 of the mobile terminal according to the first embodiment.
  • step S1001 in FIG. 10 the user selects an image to be used as teacher data from among the captured images stored in the recording unit 506 via the operation unit 505.
  • FIG. 11A is a diagram showing an example of an image selection screen displayed on the display unit 504, in which 12 photographed images are displayed as shown at 1101. The user selects, for example, two pieces of teacher data from among these 12 captured images by touching the operation unit 505 or the like.
  • An image with a circle displayed in the upper left corner of the photographed image, such as 1102, is an image of the selected teacher data.
  • step S1002 the user uses the operation unit 505 to specify a target subject area in the two images selected as teacher data.
  • FIG. 11B is a diagram showing an example of a subject area input screen on the display unit 504, and a rectangular frame 1103 indicates the subject area input by the user.
  • a subject area is set for each image selected as training data.
  • area selection may be performed directly from an image displayed via a touch panel that is part of the operation unit 505 and is integrated with the display unit 504.
  • it may be a characteristic object area that is selected by the CPU 501 or the like by selecting from a subject frame detected by a feature amount such as an edge or by finely adjusting it.
  • step S1003 the user decides to start dictionary data generation via the operation unit 505.
  • FIG. 11C is a diagram showing an example of a confirmation screen for starting dictionary data generation on the display unit 504, and inputs YES or NO. If YES shown in 1104 is selected, teacher data and information on the type of imaging device are transmitted to the server 110 via the communication unit 507, and dictionary data is generated in the server 110. In FIG. 11C, if NO is selected, the process ends.
  • the subject area in the image data of the teacher data is treated as a positive example, and the other areas are treated as negative examples when dictionary data is generated by the server 110.
  • the above description an example was shown in which an image in which a subject area exists is selected, but an image in which a subject area does not exist may be selected. In that case, information on the subject area is not input, and the entire image is treated as a negative example.
  • the objects to which the present invention can be applied are not limited to the imaging device 100, server 110, mobile terminal 120, etc. described in the above embodiments.
  • the imaging device 100 is a system composed of a plurality of devices, it is possible to implement the same functions as in the above-described embodiments.
  • part of the processing of the imaging device 100 can be implemented by an external device on the network.
  • the processing of the mobile terminal 120 can also be performed by the imaging device 100.
  • part or all of the control in this embodiment may be supplied to the imaging system or the like via a network or various storage media.
  • a computer or CPU, MPU, etc.
  • the program and the storage medium storing the program constitute the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

画像処理装置において、第1の対象に対する正事例の画像データを含む第1の教師データを取得する第1の取得手段と、前記第1の対象に対する負事例の画像データを含む第2の教師データを取得する第2の取得手段と、前記第1の取得手段と前記第2の取得手段によって取得された教師データに基づいて前記第1の対象を検出するための第1の辞書データを生成する生成手段と、を有し、前記学習手段は、第2の辞書データに追加学習を行い、前記第1の辞書データを生成し、前記第1の取得手段で取得した前記第1の教師データの数は、前記第2の取得手段で取得した前記第2の教師データの数よりも少ないことを特徴とする。

Description

画像処理装置、撮像装置及びそれらの制御方法
 本発明は、機械学習を用いた、特定の被写体を検出する学習済モデルに係る画像処理装置、撮像装置及びそれらの制御方法に関する。
 被写体検出はコンピュータビジョン研究の分野の1つであり、これまで広く研究されている。コンピュータビジョンはコンピュータに入力された画像を理解し、その画像の様々な特性を自動的に認識する技術である。その中で被写体検出は、画像内に存在する被写体の位置と種類を推定するタスクである。被写体検出は撮像装置のオートフォーカス技術等に応用されている。
 近年では、ニューラルネットワーク等に代表される機械学習手法により被写体を検出する画像処理装置が知られている。このような画像処理装置は、特定の被写体に対応した学習済みモデル(辞書データ)を利用して、特定の被写体を検出し撮像制御を行う。特定被写体の種類は、人物、犬や猫などの動物、自動車などの乗物が代表的であり、撮像装置のオートフォーカス(AF)機能としてニーズの高い被写体である。
 特開2021-57672号公報では、ユーザーから画像を収集し、追加学習によってユーザーにとって好適なAFポイントを検出する画像処理装置が開示されている。しかし、画像を自動でカテゴリ化し学習を行うため、ユーザーが検出を所望する任意の新たな被写体を検出することは難しい。
特開2021-57672号公報
 また、ユーザーが検出を所望する任意の新たな被写体を検出できる辞書データを生成するためには、ユーザーに当該被写体の教師データを提供してもらう必要がある。しかし、ユーザーの用意できるデータ(正事例の教師データ)が少数である場合もあり、十分な検出性能の辞書データが得られないという問題があった。
 本発明の目的は、少数の正事例データから、一定以上の検出性能を持った辞書データを生成または利用することを可能にした画像処理装置を提供することである。
 上記目的を達成するために、本発明の画像処理装は、第1の対象に対する正事例の画像データを含む第1の教師データを取得する第1の取得手段と、前記第1の対象に対する負事例の画像データを含む第2の教師データを取得する第2の取得手段と、前記第1の取得手段と前記第2の取得手段によって取得された教師データに基づいて前記第1の対象を検出するための第1の辞書データを生成する生成手段と、を有し、前記学習手段は、第2の辞書データに追加学習を行い、前記第1の辞書データを生成し、前記第1の取得手段で取得した前記第1の教師データの数は、前記第2の取得手段で取得した前記第2の教師データの数よりも少ないことを特徴とする。
 本発明によれば、少数の正事例データから、一定以上の検出性能を持った辞書データを生成または利用することができる。
本発明の第1の実施形態に係る画像処理システムの構成図である。 第1の実施形態の撮像装置100の構成例を示すブロック図である。 第1の実施形態に係るニューラルネットワーク処理部205の概略構成を示すブロック図である。 サーバー110のハードウェア構成例を示すブロック図である。 携帯端末120のハードウェア構成例を示すブロック図である。 第1の実施形態に係る撮像装置の処理を示すフローチャートである。 辞書データに基づく被写体検出の例を説明するための図である。 辞書データに基づく被写体検出の例を説明するための図である。 第1の実施形態に係るサーバーの処理を示すフローチャートである。 第1の実施形態に係る辞書データ生成の処理の流れを説明するためのフローチャートである。 第1の実施形態に係る携帯端末120で実行される処理の流れの例を示すフローチャートである。 第1の実施形態に係る携帯端末の表示部504の教師データ及びネットワーク構造の入力画面例を説明するための図である。 第1の実施形態に係る携帯端末の表示部504の教師データ及びネットワーク構造の入力画面例を説明するための図である。 第1の実施形態に係る携帯端末の表示部504の教師データ及びネットワーク構造の入力画面例を説明するための図である。
 以下、添付図面を参照して、本発明の好適な実施の形態について実施例を用いて説明する。尚、各図において、同一の部材ないし要素については同一の参照番号を付し、重複する説明は省略ないし簡略化する。
 又、本実施形態においては、画像処理装置として情報処理サーバーに適用した例について説明する。しかし、画像処理装置はデジタルスチルカメラ、デジタルムービーカメラ、カメラ付きのスマートフォン、カメラ付きのタブレットコンピュータ、ネットワークカメラ、車載カメラ、ドローンカメラ、ロボットに搭載されたカメラなどの撮像機能を有する電子機器等を含む。
 <第1の実施形態>
 以下、第1の実施形態に係る画像処理システムに関して、詳細に説明する。
 図1は、第1の実施形態に係る画像処理システムの構成図であり、画像処理システムは、撮像装置100、情報処理サーバーとしてのサーバー110、情報処理端末としての携帯端末120等からなる。撮像装置100とサーバー110は例えば無線による通信ネットワークにより接続される。又、サーバー110と携帯端末120は例えば無線による通信ネットワークにより接続される。
 尚、図1に示されるサーバー110、携帯端末120内の機能ブロックは夫々サーバー110、携帯端末120に含まれるコンピュータに、記憶媒体としてのメモリに記憶されたコンピュータプログラムを実行させることによって夫々実現されている。
 第1の実施形態に係る画像処理システムは、ニューラルネットワークに基づく被写体検出を行うと共に、ユーザーによる任意の被写体を検出可能とする。被写体検出の代表的な手法として、コンボリューショナル・ニューラル・ネットワーク(以下、CNNと略記する)と呼ばれる手法がある。CNNでは、画像信号と処理パラメータである辞書データに基づき推論処理が実行され、辞書データは予め教師データに基づき学習処理によって生成しておく。
 第1の実施形態の画像処理システムでは、携帯端末120は、被写体検出のための教師データを入力する教師データ入力手段としての教師データ入力部121を有している。又、教師データ入力部121は被写体検出のための教師データを入力する教師データ入力ステップを実行する。
 又、教師データ入力部121では、教師データとして、画像データと、目的とする被写体が存在する前記画像データの被写体領域情報とをセットとし、複数セットの教師データを入力可能であって、その複数セットをサーバー110へ送信可能である。
 サーバー110では、第1の取得手段としての入力データ取得部111で携帯端末120から送信された正事例教師データおよび負事例教師データを取得し、第2の取得手段としてのサーバー内データ取得部112であらかじめサーバー110内に用意された負事例データ群113から所定の数の負事例教師データを取得する。このとき、教師データ入力部121でユーザーが入力するデータ数は正事例データおよび負事例データを含めて100以下とする。ここでユーザーの意図する被写体を検出できるようにするためにより好ましくは5以上の正事例教師データがユーザーから入力されることが望ましい。しかし、ユーザーが入力する100以下のデータのみで学習を行っても十分な性能を達成できない。
 そこで、サーバー内データ取得部112で101以上の教師データを取得し、学習に用いる。ここで例えばサーバー内データ取得部112は10000以上の負事例教師データを用いることで、ユーザーからの正事例教師データが少なくともそれをカバーした被写体検出率をあげる学習を行うことができる。これにより、ユーザー側のデータ入力作業の負荷を軽減しつつ、十分な学習を行うことができる。
 取得したデータに基づき、あらかじめ学習済みのベース辞書データに追加学習を行う形で学習部114においてカスタム辞書データを生成する。生成されたカスタム辞書データは判定部115によってさらに負事例教師データを取得するか判定された後、撮像装置100へ送信される。第1の実施形態では、学習部114は、撮像装置とは異なる情報処理サーバーとしてのサーバー110に設けられている。
 撮像装置100では、サーバー110から送信された辞書データを受信し、受信した辞書データに基づき被写体検出部101でニューラルネットワークに基づく推論処理を行う。次いで、推論結果に基づき、撮像制御部102においてオートフォーカスなどの撮像制御を実行する。即ち、撮像装置100は、辞書データに基づき被写体検出を行い、被写体検出により検出された被写体に対して所定の撮像制御(オートフォーカスや露出制御等)を行う。
 図2は第1の実施形態の撮像装置100の構成例を示すブロック図である。図2に示すように、撮像装置100は、CPU201と、メモリ202と、不揮発性メモリ203と、操作部204と、ニューラルネットワーク処理部205と、撮像部212と、画像処理部213と、符号化処理部214とを有している。更に、撮像装置100は、表示制御部215と、表示部216と、通信制御部217と、通信部218と、記録媒体制御部219と、内部バス230とを有している。
 又、撮像装置100は、撮影レンズ211を用いて被写体の光学像を撮像部212の画素アレイに結像するが、撮影レンズ211は、撮像装置100のボディ(筐体、本体)から、着脱不能であってもよいし、着脱可能であってもよい。又、撮像装置100は、記録媒体制御部219を介して画像データの書き込み及び読み出しを記録媒体220に対して行うが、記録媒体220は、撮像装置100に着脱可能であってもよいし、着脱不能であってもよい。
 CPU201は、不揮発性メモリ203に記憶されているコンピュータプログラムを実行することによって、内部バス230を介して撮像装置100の各部(各機能ブロック)の動作を制御する。
 メモリ202は、書き換え可能な揮発性メモリである。メモリ202は、撮像装置100の各部の動作を制御するためのコンピュータプログラム、撮像装置100の各部の動作に関するパラメータ等の情報、通信制御部217によって受信される情報等を一時的に記録する。又、メモリ202は、撮像部212によって取得された画像、画像処理部213、符号化処理部214等によって処理された画像及び情報を一時的に記録する。メモリ202は、これらを一時的に記録するために十分な記憶容量を備えている。
 不揮発性メモリ203は、電気的に消去及び記録が可能なメモリであり、例えばEEPROM、ハードディスク等が用いられる。不揮発性メモリ203は、撮像装置100の各部の動作を制御するコンピュータプログラム及び撮像装置100の各部の動作に関するパラメータ等の情報を記憶する。かかるコンピュータプログラムにより、撮像装置100によって行われる各種動作が実現される。更に、不揮発性メモリ203は、ニューラルネットワーク処理部205で使用する、ニューラルネットワークの処理内容を記述したコンピュータプログラムと、重み係数やバイアス値等の学習済み係数パラメータを格納する。
 尚、重み係数とはニューラルネットワークにおいてノード間の接続の強さを示すための値であり、バイアスは重み係数と入力データの積算値に対してオフセットを与えるための値である。不揮発性メモリ203は、学習済み係数パラメータと、ニューラルネットワークの処理を記述したコンピュータプログラムとを夫々複数保持することが可能である。
 尚、メモリ203ではなくメモリ202に、上述したニューラルネットワーク処理部205で使用する、ニューラルネットワークの処理を記述したコンピュータプログラム及び学習済み係数パラメータを、夫々一時的に複数格納するようにしてもよい。尚、ニューラルネットワークの処理を記述したコンピュータプログラム及び学習済み係数パラメータが、被写体検出の辞書データに相当する。
 操作部204は、撮像装置100を操作するためのユーザインタフェースを提供する。操作部204は、電源ボタン、メニューボタン、撮影用のレリーズボタン、動画録画ボタン、キャンセルボタン等の各種ボタンを含んでおり、各種ボタンはスイッチ、タッチパネル等により構成される。CPU201は、操作部204を介して入力されたユーザーの指示に従って撮像装置100を制御する。
 尚、ここでは、操作部204を介して入力される操作に基づいてCPU201が撮像装置100を制御する場合を例に説明したが、これに限定されるものではない。例えば、不図示のリモートコントローラ、携帯端末120から通信部218を介して入力される要求に基づいて、CPU201が撮像装置100を制御してもよい。
 ニューラルネットワーク処理部205では、辞書データに基づく被写体検出部101の推論処理を行う。詳細は、図3を用いて後述する。
 撮影レンズ(レンズユニット)211は、ズームレンズ、フォーカスレンズ等を含むレンズ群、不図示のレンズ制御部、不図示の絞り等によって構成される。撮影レンズ211は、画角を変更するズーム手段として機能し得る。撮影レンズ211のレンズ制御部は、CPU201から送信される制御信号により、焦点の調整及び絞り値(F値)の制御を行う。
 撮像部212は、動画像を含む複数の画像を順次取得する取得手段として機能し得る。撮像部212としては、例えばCCD(電荷結合素子)イメージセンサ、CMOS(相補型金属酸化膜半導体)イメージセンサ等が用いられる。撮像部212は、被写体の光学像を電気信号に変換する光電変換部(画素)が行列状、即ち、2次元的に配列された不図示の画素アレイを有している。当該画素アレイには、被写体の光学像が撮影レンズ211によって結像される。撮像部212は、撮像した画像を画像処理部213やメモリ202に出力する。尚、撮像部212は、静止画像を取得することも可能である。
 画像処理部213は、撮像部212から出力される画像データ、又は、メモリ202から読み出された画像データに対し、所定の画像処理を行う。当該画像処理の例としては、ダイナミックレンジ変換処理、補間処理、縮小処理(リサイズ処理)、色変換処理等が挙げられる。又、画像処理部213は、撮像部212によって取得された画像データを用いて、露光制御、測距制御等のための所定の演算処理を行う。
 そして画像処理部213による演算処理によって得られた演算結果に基づいて、露光制御、測距制御等がCPU201によって行われる。具体的には、AE(Auto Exposure)処理、AWB(Auto White Balance)処理、AF(Auto Focus)処理等がCPU201によって行われる。これら撮影制御は、ニューラルネットワーク処理部205による被写体検出結果を参照して行われる。
 符号化処理部214は、画像処理部213からの画像データに対してフレーム内予測符号化(画面内予測符号化)、フレーム間予測符号化(画面間予測符号化)等を行うことによって、画像データのサイズを圧縮する。
 表示制御部215は、表示部216を制御する。表示部216は、不図示の表示画面を備える。表示制御部215は、表示部216の表示画面に表示可能な画像を生成し、当該画像、即ち、画像信号を表示部216に出力する。又、表示制御部215は表示部216に画像データを出力するだけでなく、通信制御部217を介して外部機器に画像データを出力することも可能である。表示部216は、表示制御部215から送られてくる画像信号に基づいて、表示画面に画像を表示する。
 表示部216は、表示画面にメニュー等の設定画面を表示する機能であるOSD(On Screen Display)機能を備えている。表示制御部215は、画像信号にOSD画像を重畳して表示部216に画像信号を出力し得る。ニューラルネットワーク処理部205による被写体検出結果に基づき被写体枠を生成して、画像信号に重畳して表示することもできる。表示部216は、液晶ディスプレイ、有機ELディスプレイ等により構成されており、表示制御部215から送られてきた画像信号を表示する。表示部216は、例えばタッチパネルを含んでもよい。表示部216がタッチパネルを含む場合、表示部216は、操作部204としても機能し得る。
 通信制御部217は、CPU201に制御される。通信制御部217は、IEEE802.11等のような無線通信規格に適合する変調信号を生成して、当該変調信号を通信部218に出力すると共に、外部の機器からの変調信号を、通信部218を介して受信する。又、通信制御部217は映像信号の制御信号を送受信することが可能である。例えば、通信部218を制御して、HDMI(登録商標)(High Definition Multimedia Interface)やSDI(Serial Digital Interface)などの通信規格に準拠した映像信号を送るようにしてもよい。
 通信部218は映像信号と制御信号を物理的な電気信号に変換して外部機器と送受信する。尚、通信部218によって映像信号や制御信号の送受信を行うだけでなく、ニューラルネットワーク処理部205における被写体検出のための辞書データの受信等も行う。
 記録媒体制御部219は、記録媒体220を制御する。記録媒体制御部219は、CPU201からの要求に基づいて、記録媒体220を制御するための制御信号を記録媒体220に出力する。記録媒体220としては、例えば不揮発性メモリや磁気ディスク等が用いられる。記録媒体220は、上述したように、着脱可能であってもよいし、着脱不能であってもよい。記録媒体220は、符号化された画像データ等を、記録媒体220のファイルシステムに適合した形式でファイルとして保存する。
 各々の機能ブロック201~205、212~215、217、219は、内部バス230を介して互いにアクセス可能となっている。
 尚、図2に示される機能ブロックの一部は、撮像装置100に含まれるコンピュータとしてのCPU201に、記憶媒体としての不揮発性メモリ203等に記憶されたコンピュータプログラムを実行させることによって実現されている。しかし、それらの一部又は全部をハードウェアで実現するようにしても構わない。ハードウェアとしては、専用回路(ASIC)やプロセッサ(リコンフィギュラブルプロセッサ、DSP)などを用いることができる。
 図3に示すように、ニューラルネットワーク処理部205はニューラルコア300の中に、CPU301、積和演算回路302、DMA(Dynamic Memory Access)303、内部メモリ304等が含まれる。
 CPU301は、ニューラルネットワークの処理内容を記述したコンピュータプログラムを、内部バス230を介してメモリ202又は不揮発性メモリ203から、或いは内部メモリ304から取得し、これを実行する。またCPU301は積和演算回路302及びDMA303の制御も行う。
 積和演算回路302は、ニューラルネットワークにおける積和演算を行う回路である。積和演算回路302は、積和演算部を複数有し、これらは並列に積和演算の実行をすることが可能である。又、積和演算回路302は、複数の積和演算部により並列に実行される積和演算の際に算出される中間データを、DMA303を介して内部メモリ304に出力する。
 DMA303は、CPU301を介さずにデータ転送に特化した回路であり、内部バス230を介してメモリ202又は不揮発性メモリ203と内部メモリ304との間のデータ転送を行う。又、DMA303は積和演算回路302と内部メモリ304と間のデータ転送も行う。DMA303が転送するデータとしては、ニューラルネットワークの処理内容を記述したコンピュータプログラムや、学習済み係数パラメータ、積和演算回路302で算出した中間データ等である。
 内部メモリ304は、ニューラルネットワークの処理内容を記述したコンピュータプログラムや、学習済み係数パラメータ、積和演算回路302で算出した中間データ等を格納する。又、内部メモリ304は複数のバンクを有してもよく、動的にバンクを切り替えてもよい。
 図4は、サーバー110のハードウェア構成例を示すブロック図である。
 図4に示す様に、サーバー110は、CPU401と、メモリ402と、表示部403と、操作部405と、記録部406と、通信部407と、ニューラルネットワーク処理部408とを有している。
 尚、図4に示される機能ブロックの一部は、サーバー110に含まれるコンピュータとしてのCPU401に、記憶媒体としての記録部406等に記憶されたコンピュータプログラムを実行させることによって実現されている。しかし、それらの一部又は全部をハードウェアで実現するようにしても構わない。ハードウェアとしては、専用回路(ASIC)やプロセッサ(リコンフィギュラブルプロセッサ、DSP)などを用いることができる。
 CPU401は、記録部406に記憶されているコンピュータプログラムを実行することによって、サーバー110を構成するすべての処理ブロックの制御を行う。
 メモリ402は、主にCPU401のワークエリアや、データの一時バッファ領域として使用されるメモリである。
 表示部403は、液晶パネル、又は有機ELパネル等で構成され、CPU401の指示に基づいて、操作画面等の表示を行う。
 内部バス404は、サーバー110内の各処理ブロックを相互に接続するためのバスである。
 操作部405は、キーボード、マウス、ボタン、タッチパネル、又はリモコン等によって構成され、ユーザーの操作指示を受け付ける。操作部405から入力された操作情報は、CPU401に送信され、CPU401は操作情報に基づいて各処理ブロックの制御を実行する。
 記録部406は記録媒体によって構成され、CPU401の指示に基づいて記録媒体に様々なデータを格納したり読み出したりする処理ブロックである。記録媒体は、例えばEEPROM、内蔵フラッシュメモリ、内蔵ハードディスク、或いは着脱可能なメモリカード等で構成される。記録部406には、コンピュータプログラムの他に、ニューラルネットワーク処理部408における学習用データである入力データと教師データや辞書データなどを保存しておく。
 通信部407は、無線LAN及び有線LANの通信を行うためのハードウェア等を備えている。無線LANにおいては、例えばIEEE802.11n/a/g/b方式の処理を行う。通信部407は、外部のアクセスポイントと無線LANで接続し、アクセスポイント経由で他の無線通信機器と無線LAN通信を行う。又、通信部407は有線LANにおいてEthernetケーブル等により外部ルータ、又はスイッチングハブを介して通信を行う。通信部407は、撮像装置100を含む、外部の機器と通信を行い、教師データ、辞書データなどの情報のやり取りを行う。
 ニューラルネットワーク処理部408は、通信部407を介して得られた教師データより、ニューラルネットワークの学習処理を行う。ニューラルネットワーク処理部408は、図1の学習部114に相当し、教師データを用いて異なるクラスの被写体の夫々に対応する辞書データを構築するための学習処理を行う。
 ニューラルネットワーク処理部408はGPU(Graphic Processing Unit)や、DSP(Digital Signal Processor)等で構成される。又、ニューラルネットワーク処理部408により行われた学習処理の結果である、辞書データは記録部406に保持される。
 図5は、携帯端末120のハードウェア構成例を示すブロック図である。
 図5に示す様に、携帯端末120は、CPU501と、メモリ502と、撮像部503と、表示部504と、操作部505と、記録部506と、通信部507と、内部バス508とを有している。図5に示される機能ブロックの一部は、携帯端末120に含まれるコンピュータとしてのCPU501に、記憶媒体としての記録部506等に記憶されたコンピュータプログラムを実行させることによって実現されている。しかし、それらの一部又は全部をハードウェアで実現するようにしても構わない。ハードウェアとしては、専用回路(ASIC)やプロセッサ(リコンフィギュラブルプロセッサ、DSP)などを用いることができる。
 CPU501は、記録部506に記憶されているコンピュータプログラムを実行することによって、携帯端末120を構成するすべての処理ブロックの制御を行う。
 メモリ502は、主にCPU501のワークエリアや、データの一時バッファ領域として使用されるメモリである。OS(Operation System)やアプリケーションソフト等のプログラムは、メモリ502上に展開され、CPU501により実行される。
 撮像部503は、光学レンズ、CMOSセンサ、デジタル画像処理部等を備え、光学レンズを介して入力される光学像を撮像し、デジタルデータに変換することにより撮像画像データを取得する。撮像部503によって取得された撮影画像データは、メモリ502に一時的に格納され、CPU501の制御に基づいて処理される。例えば、記録部506による記録媒体への記録や、通信部507による外部機器への送信などが行われる。また撮像部503は、レンズ制御部も備えており、CPU501からの指令に基づいて、ズーム、フォーカス、絞り調整等の制御を行う。
 表示部504は、液晶パネル、又は有機ELパネル等で構成され、CPU501の指示に基づいて、表示を行う。撮影画像から教師データの画像を選択すると共に、ネットワーク構造を指定するために、操作画面や、撮影画像等の表示を行う。
 操作部505は、キーボード、マウス、ボタン、十字キー、タッチパネル、又はリモコン等によって構成され、ユーザーの操作指示を受け付ける。操作部505から入力された操作情報は、CPU501に送信され、CPU501は操作情報に基づいて各処理ブロックの制御を実行する。
 記録部506は、大容量の記録媒体によって構成され、CPU501の指示に基づいて記録媒体に様々なデータを格納したり読み出したりする処理ブロックである。記録媒体は、例えば内蔵フラッシュメモリ、内蔵ハードディスク、或いは着脱可能なメモリカード等で構成される。
 通信部507は、アンテナ、無線LAN、有線LAN等の通信を行うための処理ハードウェア等を備え、例えばIEEE802.11n/a/g/b方式の無線LAN通信を行う。通信部507は、外部のアクセスポイントと無線LANで接続し、アクセスポイント経由で他の無線通信機器と無線LAN通信を行う。通信部507によって、ユーザーから操作部505を介して入力された教師データや、ネットワーク構造をサーバー110へ送信する。
 内部バス508は、携帯端末SP内の各処理ブロックを相互に接続するためのバスである。
 図6は、第1の実施形態に係る撮像装置の処理を示すフローチャートであり、図6を用いて、第1の実施形態において撮像装置100で実行される辞書データを受信し、被写体検出を行って撮像制御する処理の流れについて説明する。この動作は、撮像装置100の電源がオンの状態において、不揮発性メモリ203に格納されているコンピュータプログラムがメモリ202に展開され、CPU201がメモリ202のコンピュータプログラムを読み出して実行することにより実現される。
 ステップS601において、撮像装置100は、サーバー110から未だ受信していない辞書データがないかを、通信部218を介してサーバー110に確認する。サーバー110から受信していない辞書データがサーバー110にあれば(ステップS601でYESと判定)、ステップS602において、通信部218を介してサーバー110から辞書データを取得し、不揮発性メモリ203へ記憶する。サーバー110から受信していない辞書データがなければ(ステップS601でNOと判定)、ステップS603へ進む。
 ステップS603では、不揮発性メモリ203に記録されている辞書データを用いて、ニューラルネットワーク処理部205で被写体検出を行う。辞書データは、不揮発性メモリ203から、メモリ202又は、ニューラルネットワーク処理部205の内部メモリ304へコピーして、被写体検出で使用するようにしてもよい。又、ステップS603における被写体検出は、撮像部212によって取得された画像データを入力データとして行われる。
 ステップS604では、被写体検出結果に基づき撮像部212でオートフォーカスなどの撮像制御を行う。即ち、検出された被写体にピントを合わせると共に、適正露出となるようにオートフォーカスや露出制御などの撮像制御を行う。ここで、ステップS603,S604は、辞書データに基づき被写体検出を行い、被写体検出により検出された被写体に対して所定の撮像制御を行う撮像ステップとして機能している。
 本実施例では、サーバーから辞書データを取得するステップと、取得した辞書データに基づく被写体検出および撮影制御を同一フローで行っている。しかし、これに限らず、たとえば非撮影時にあらかじめサーバーに問合せ辞書データを取得するモードないしタイミングが設けられていてもよい。また、被写体検出に用いられる辞書データは、必ずしもサーバーに問合せて、未取得であった辞書データを取得し、それをそのまま使わなくてもよい。例えば、辞書データを利用する前に(例えば、ステップS604の前に)辞書データを決定するためのステップとして、ユーザー操作を受け付けるステップや自動で決定するステップを設けてもよい。
 図7A、図7Bは、辞書データに基づく被写体検出の例を説明するための図である。
 第1の実施形態の辞書データは、二ューラルネットワーク処理部205で被写体検出タスクを実行するための処理内容を記述したコンピュータプログラムや、学習済み係数パラメータを被写体の種類ごとに持っている。
 例えば、辞書データが登録される被写体の種類としては、人物や動物の犬、猫や自動車などの乗物、バイクなどがある。
 図7A、図7Bの701、705は表示部216のメニュー画面の例を示しており、検出する被写体を、操作部204を介してユーザーが設定する。図7Aでは、検出する被写体として「人物」702が設定されている。「人物」が設定されている場合、予め不揮発性メモリ203に格納されている「人物」の辞書データを用いて被写体検出を行う。703は表示部216で表示されている撮影画像であり、「人物」の顔が検出され、枠704が重畳されて表示されている状態を示している。
 図7Bでは、検出する被写体として「カスタム」706が設定されている。「カスタム」の場合は、サーバー110より受信したカスタム用の辞書データとして例えば「魚」を用いて被写体検出を行う。707は表示部216で表示されている撮影画像であり、「カスタム」の辞書データが「魚」の場合であり、検出された魚に枠708が重畳されて表示された状態を示している。
 図8、図9は、第1の実施形態に係るサーバー110のCPU401が行う処理を示すフローチャートである。
 尚、図8の処理は、サーバー110の電源がオンの状態において、記録部406に格納されているコンピュータプログラムがメモリ402に展開され、CPU401がメモリ402のコンピュータプログラムを読み出して実行することにより実現される。
 図8を用いて、サーバー110のCPU401が行う処理から、携帯端末120から教師データとネットワーク構造に関する情報を取得し、辞書データを生成し、生成した辞書データを撮像装置100へ送信する処理に関して抜粋して説明する。
 ステップS801において、サーバー110は、通信部407を介して、携帯端末120より正事例データと負事例データを取得する。又、ステップS802において、あらかじめ記憶部406に保存されていた負事例データを取得する。ここで、ステップS801およびS802は被写体検出のための教師データを取得する教師データ取得手段として機能している。さらに、ステップS803において、記憶部406に保存されていたベース辞書データを取得する。
 次いで、ステップS804において、ステップS801~S803をへて辞書データ生成に必要なデータが揃っているかを判定する。データが揃っていれば(ステップS804でYESと判定)、ステップS805へ進む。少なくとも一部のデータが揃っていなければ(ステップS804でNOと判定)、ステップS806へ進む。
 例えば、教師データは存在するが、ベース辞書データが存在しない場合ステップS804でNOと判定される。NOと判定された場合、ステップS806において、通信部507へ介して、携帯端末120へエラーが発生したことを通知する。
 ステップS805において、ニューラルネットワーク処理部408でカスタム辞書データの生成を行う。辞書データの生成としては、教師データから学習によって辞書データを生成する方法(例えば図9)がある。ステップS805はカスタム辞書データを生成する学習手段として機能している。
 図9は、ステップS805に係る辞書データ生成の処理の流れを説明するためのフローチャートである。
 辞書データの初期値が乱数の状態から学習をするとなると多数の教師データが必要となる。多数の教師データが必要となるとユーザーの教師データを入力する手間がかかるため、少数の教師データで学習する方法が望まれる。
 そこで、ステップS901において、多種多様な物体を予め学習した辞書データをベース辞書データとして初期値に設定する。ベース辞書データとして、犬や猫、バイクのように特定の種類の被写体を学習させた辞書データを用いてもよい。
 ステップS902において、学習に用いる教師データの読み込みを行う。
 ステップS903において、読み込んだ教師データが入力データ取得部で取得したデータかどうか、すなわち携帯端末120から取得したデータであるか否かを判定する。入力データ取得部で取得したデータであれば、ステップS904に進む。入力データ取得部で取得したデータでなければ、ステップS905に進む。
 ステップS904において、読み込んだデータに対するロス関数の係数をサーバー内データ取得部112で取得したデータよりも大きく設定する。例えば、学習時に計算されるロスが2倍になるように係数を設定する。これは入力データ取得部で取得した教師データはユーザーの意図が色濃く反映された、被写体検出精度の高いデータだと考えるからである。
 また、ステップS905において、読み込んだデータに対するロス関数の係数を入力データ取得部で取得したデータよりも小さく設定する。サーバー内データ取得部112で取得した負事例データがユーザーから提供されたデータではない場合、負事例データの一部にユーザーの検出したい正事例データが紛れ込んでいる可能性があることを考慮して学習を行う必要がある。そこで、ステップS904およびステップS905のように処理を分けることで、負事例データ中に正事例データが混在している場合のロスが大きく計算されてしまう悪影響を低減することができる。
 ステップS906において、教師データに基づき学習を行う。辞書データの初期値が乱数ではなく、物体らしさを学習したものであるので、所謂ファインチューニングとなる。ここで、ステップS906は、教師データに基づき学習をすることによって前記辞書データを生成する辞書生成手段として機能している。
 図8のフローチャートの説明に戻る。ステップS805において辞書データ生成を行うと、ステップS807で負事例データを追加取得するかを判定する。例えば、学習の損失関数の値が、所定の閾値以下であれば辞書データ生成成功、所定の閾値よりも大きければ辞書データ生成失敗とし、失敗した場合は負事例データを追加取得すると判定する。ここで、ステップS807はサーバー内データ取得部112で取得したデータに加えてさらに負事例教師データをサーバー内データ取得部112で取得するかを判定する判定手段として機能している。
 辞書データの生成に成功すれば(ステップS807でNOと判定)、ステップS808において、辞書データを通信部407へ介して、撮像装置100へ送信する。
 辞書データの生成に失敗すれば(ステップS807でYESと判定)、ステップS809に進み、サーバー内データ取得部112で負事例データを追加で取得する。取得後はステップS804に戻る。辞書データの生成失敗が所定回数続いた場合は、これ以上負事例データを追加しても辞書データの生成は成功しないと仮定して、ステップS804でNOと判定し、ステップS808でエラーを通知するようにしてもよい。
 図10は、第1の実施形態に係る携帯端末120で実行される処理の流れの例を示すフローチャートである。
 携帯端末120において、教師データとネットワーク構造に関する情報を入力し、サーバー110へ学習開始を通知するための、携帯端末120での処理に関して抜粋して説明する。この動作は、携帯端末120の電源がオンの状態において、記録部506に格納されているコンピュータプログラムがメモリ502に展開され、CPU501がメモリ502のコンピュータプログラムを読み出して実行することにより実現される。
 図11A、図11B、図11Cを用いて、図10のフローチャートの処理の流れを説明する。
 図11A、図11B、図11Cは、第1の実施形態に係る携帯端末の表示部504の教師データの入力画面例を説明するための図である。
 図10のステップS1001において、ユーザーは、操作部505を介して、記録部506に記憶されている撮影画像の中から教師データとして利用する画像の選択を行う。図11Aは、表示部504による画像選択画面の例を示す図であり、1101に示すように撮影画像が12個表示されている。ユーザーはこの12個の撮影画像の中から操作部505によるタッチ等で教師データを例えば2つ選択する。1102のように撮影画像の左上に丸が表示されているものが選択された教師データの画像とする。
 ステップS1002において、ユーザーは、操作部505を介して、教師データとして選択した2つの画像に対して、画像中の目的とする被写体領域を指定する。図11Bは、表示部504による被写体領域の入力画面の例を示す図であり、1103の矩形枠は、ユーザーが入力した被写体領域を示す。教師データとして選択した各画像に対して、被写体領域を設定する。被写体領域の設定方法としては、操作部505の一部であり表示部504と一体のタッチパネルを介して表示された画像から領域選択を直接行ってもよい。
 或いは、CPU501などにより簡易的にエッジ等の特徴量で検出された被写体枠から選択、微調整するなどして選択する特徴的な物体領域であってもよい。
 ステップS1003において、ユーザーは、操作部505を介して、辞書データ生成の開始を決定する。図11Cは、表示部504による辞書データ生成の開始の確認画面例を示す図であり、YESかNOかを入力する。1104に示すYESが選択されれば、通信部507を介して、サーバー110へ教師データと撮像装置の種別の情報が送信され、サーバー110において辞書データ生成が行われる。図11Cで、NOが選択されれば、処理を終了する。
 尚、教師データの画像データ中の被写体領域が正事例、その他の領域が負事例として、サーバー110での辞書データ生成で扱われる。上述した説明では、被写体領域が存在する画像を選択する例を示したが、被写体領域が存在しない画像を選択してもよい。その場合は、被写体領域の情報は入力せず、画像全体を負事例として扱う。
 以上のように、第1の実施形態の画像処理システムによれば、少数の正事例教師データから、ユーザーによる任意の辞書データが生成可能となる。
 <他の実施例>
 以上、本発明をその好適な実施例に基づいて詳述してきたが、本発明は上記実施例に限定されるものではなく、本発明の主旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。
 本発明が適用され得る対象は、上述の実施例で説明した撮像装置100、サーバー110、携帯端末120等に限定されるものではない。例えば、撮像装置100を複数の装置から構成されるシステムとした場合であっても上述の実施例と同様の機能を実現することが可能である。更に、撮像装置100の処理の一部をネットワーク上の外部装置により実施して実現することが可能である。又、携帯端末120の処理を撮像装置100で実施することも可能である。
 尚、本実施例における制御の一部又は全部を上述した実施例の機能を実現するコンピュータプログラムをネットワーク又は各種記憶媒体を介して撮像システム等に供給するようにしてもよい。そしてその撮像システム等におけるコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行するようにしてもよい。その場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することとなる。
 本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために以下の請求項を添付する。
 本願は、2022年4月28日提出の日本国特許出願特願2022-074365を基礎として優先権を主張するものであり、その記載内容の全てをここに援用する。

Claims (15)

  1.  第1の対象に対する正事例の画像データを含む第1の教師データを取得する第1の取得手段と、
     前記第1の対象に対する負事例の画像データを含む第2の教師データを取得する第2の取得手段と、
     前記第1の取得手段と前記第2の取得手段によって取得された教師データに基づいて前記第1の対象を検出するための第1の辞書データを生成する生成手段と、を有し、
     前記学習手段は、第2の辞書データに追加学習を行い、前記第1の辞書データを生成し、前記第1の取得手段で取得した前記第1の教師データの数は、前記第2の取得手段で取得した前記第2の教師データの数よりも少ないことを特徴とする画像処理装置。
  2.  前記第1の教師データの取得する先と、前記第2の教師データの取得する先が異なることを特徴とする請求項1に記載の画像処理装置。
  3.  前記第1の教師データのうち、少なくとも1つはユーザーから提供された教師データであることを特徴とする請求項1または請求項2に記載の画像処理装置。
  4.  前記第2の取得手段はあらかじめ用意されていたデータを取得することを特徴とする請求項1乃至3のいずれか1項に記載の画像処理装置。
  5.  前記第1の取得手段は、取得した第1の教師データに加えて前記第2の教師データを取得することを特徴とする請求項1乃至4のいずれか1項に記載の画像処理装置。
  6.  前記第2の対象は、前記第1の対象をより限定したものであることを特徴とする請求項1乃至5のいずれか1項に記載の画像処理装置。
  7.  前記第1の対象は、特徴的な物体領域であることを特徴とする請求項1乃至6のいずれか1項に記載の画像処理装置。
  8.  前記第1の対象は、特定の被写体であることを特徴とする請求項1乃至6のいずれか1項に記載の画像処理装置。
  9.  前記学習手段は前記第2の取得手段で取得した第2の教師データに加えてさらに負事例の画像データを含む第2の教師データを前記第2の取得手段で取得するかを判定する判定手段を有することを特徴とする請求項1乃至8のいずれか1項に記載の画像処理装置。
  10.  前記第1の取得手段で取得した第1の教師データの数は100以下であり、前記第2の取得手段で取得したデータの数は101以上であることを特徴とする請求項1乃至9のいずれか1項に記載の画像処理装置。
  11.  前記学習手段によって生成された辞書データに基づき被写体検出を行い撮影制御する制御手段を有することを特徴とする請求項1乃至10のいずれか1項に記載の画像処理装置。
  12.  前記学習手段は前記第2の取得手段で取得したデータで学習する場合のロス関数の係数よりも、前記第1の取得手段で取得したデータで学習する場合のロス関数の係数の方が大きくすることを特徴とする請求項1乃至11のいずれか1項に記載の画像処理装置。
  13.  第1の対象に対する正事例の画像データを含む第1の教師データを送信する送信手段と、
     前記送信手段によって送信した前記第1の教師データと前記第1の対象に対する負事例の画像データを含む第2の教師データとを用いて生成された第1の辞書データを受信する受信手段と、
     前記受信手段によって受信された辞書データに基づき被写体検出を行い撮影制御する制御手段と、
     を有し、
     前記第1の辞書データは、第2の辞書データに前記第1の教師データと前記第1の対象に対する負事例の画像データを含む第2の教師データとを用いて追加学習を行うことで生成された辞書データであり、
     前記第1の教師データの数は、前記第2の教師データの数よりも少ない
     ことを特徴とする撮像装置。
  14.  第1の対象に対する正事例の画像データを含む第1の教師データを取得する第1の取得工程と、
     前記第1の対象に対する負事例の画像データを含む第2の教師データを取得する第2の取得工程と、
     前記第1の取得手段と前記第2の取得手段によって取得された教師データに基づいて前記第1の対象を検出するための第1の辞書データを生成する生成工程と、を有し、
     前記学習工程では、第2の辞書データに追加学習を行い、前記第1の辞書データを生成し、前記第1の取得工程で取得した前記第1の教師データの数は、前記第2の取得工程で取得した前記第2の教師データの数よりも少ないことを特徴とする画像処理装置の制御方法。
  15.  第1の対象に対する正事例の画像データを含む第1の教師データを送信する送信工程と、
     前記送信工程にて送信した前記第1の教師データと前記第1の対象に対する負事例の画像データを含む第2の教師データとを用いて生成された第1の辞書データを受信する受信工程と、
     前記受信工程にて受信された辞書データに基づき被写体検出を行い撮影制御する制御工程と、
     を有し、
     前記第1の辞書データは、第2の辞書データに前記第1の教師データと前記第1の対象に対する負事例の画像データを含む第2の教師データとを用いて追加学習を行うことで生成された辞書データであり、
     前記第1の教師データの数は、前記第2の教師データの数よりも少ない
     ことを特徴とする撮像装置の制御方法。
PCT/JP2023/014607 2022-04-28 2023-04-10 画像処理装置、撮像装置及びそれらの制御方法 WO2023210334A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022074365A JP2023163443A (ja) 2022-04-28 2022-04-28 画像処理装置、撮像装置及びそれらの制御方法
JP2022-074365 2022-04-28

Publications (1)

Publication Number Publication Date
WO2023210334A1 true WO2023210334A1 (ja) 2023-11-02

Family

ID=88518389

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/014607 WO2023210334A1 (ja) 2022-04-28 2023-04-10 画像処理装置、撮像装置及びそれらの制御方法

Country Status (2)

Country Link
JP (1) JP2023163443A (ja)
WO (1) WO2023210334A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090413A (ja) * 2009-10-20 2011-05-06 Canon Inc 画像認識装置、その処理方法及びプログラム
JP2020071873A (ja) * 2018-10-25 2020-05-07 キヤノン株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2020126434A (ja) * 2019-02-04 2020-08-20 キヤノン株式会社 画像処理装置及びその制御方法、プログラム、記憶媒体
JP2020135494A (ja) * 2019-02-20 2020-08-31 株式会社 日立産業制御ソリューションズ 画像検索装置および教師データ抽出方法
JP2021189554A (ja) * 2020-05-26 2021-12-13 Fcnt株式会社 携帯端末、情報処理方法及び情報処理プログラム
JP2021189616A (ja) * 2020-05-27 2021-12-13 キヤノン株式会社 認識装置、認識方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090413A (ja) * 2009-10-20 2011-05-06 Canon Inc 画像認識装置、その処理方法及びプログラム
JP2020071873A (ja) * 2018-10-25 2020-05-07 キヤノン株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2020126434A (ja) * 2019-02-04 2020-08-20 キヤノン株式会社 画像処理装置及びその制御方法、プログラム、記憶媒体
JP2020135494A (ja) * 2019-02-20 2020-08-31 株式会社 日立産業制御ソリューションズ 画像検索装置および教師データ抽出方法
JP2021189554A (ja) * 2020-05-26 2021-12-13 Fcnt株式会社 携帯端末、情報処理方法及び情報処理プログラム
JP2021189616A (ja) * 2020-05-27 2021-12-13 キヤノン株式会社 認識装置、認識方法

Also Published As

Publication number Publication date
JP2023163443A (ja) 2023-11-10

Similar Documents

Publication Publication Date Title
US8411152B2 (en) File management apparatus and control method thereof
KR101822661B1 (ko) 비전 인식 장치 및 방법
JP6574878B2 (ja) 画像処理装置及び画像処理方法、撮像装置、プログラム、並びに記憶媒体
TW201007491A (en) System and method for efficiently performing image processing operations
JP7453772B2 (ja) 情報処理装置及びその制御方法、撮像装置システム、プログラム
US8681235B2 (en) Apparatus for processing digital image signal that obtains still image at desired point in time and method of controlling the apparatus
JP2021093568A (ja) 撮像装置、情報処理装置、及びこれらの制御方法並びにプログラム、学習済みモデル選択システム
JP4499908B2 (ja) 電子カメラシステム、電子カメラ、サーバコンピュータおよび撮影条件修正方法
WO2023210334A1 (ja) 画像処理装置、撮像装置及びそれらの制御方法
JP6702792B2 (ja) 画像処理装置およびその制御方法
JP7458806B2 (ja) 画像処理装置および画像処理方法
US20210058552A1 (en) Imaging apparatus and controlling method
JP2021118403A (ja) 画像処理装置、その制御方法、プログラム並びに画像処理システム
WO2023063167A1 (ja) 撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及び記憶媒体
JP6447595B2 (ja) 制御装置、処理実行装置、制御方法、処理実行方法及び制御システム
US11496682B2 (en) Information processing apparatus that performs arithmetic processing of neural network, and image pickup apparatus, control method, and storage medium
WO2023145632A1 (ja) 撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及びコンピュータプログラム
JP2006186930A (ja) 撮像装置、画像処理方法及びプログラム
US11736820B2 (en) Image capture apparatus and control method for raw images
US20230370566A1 (en) Image capture apparatus and control method
US20230196708A1 (en) Image processing apparatus and method for controlling the same, and non-transitory computer-readable storage medium
JP2006033160A (ja) 撮像システム
US20230260299A1 (en) Image processing apparatus, image processing method, image capturing apparatus, and storage medium
JP2011130198A (ja) 撮像装置、その制御方法及びプログラム
JP2016139924A (ja) 撮影装置、撮影方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23796079

Country of ref document: EP

Kind code of ref document: A1