WO2023145632A1 - 撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及びコンピュータプログラム - Google Patents

撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及びコンピュータプログラム Download PDF

Info

Publication number
WO2023145632A1
WO2023145632A1 PCT/JP2023/001647 JP2023001647W WO2023145632A1 WO 2023145632 A1 WO2023145632 A1 WO 2023145632A1 JP 2023001647 W JP2023001647 W JP 2023001647W WO 2023145632 A1 WO2023145632 A1 WO 2023145632A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
dictionary
information
subject
imaging
Prior art date
Application number
PCT/JP2023/001647
Other languages
English (en)
French (fr)
Inventor
良介 辻
Original Assignee
キヤノン株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by キヤノン株式会社 filed Critical キヤノン株式会社
Publication of WO2023145632A1 publication Critical patent/WO2023145632A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene

Definitions

  • the present invention relates to an imaging system, an imaging device, an information processing server, an imaging method, an information processing method, and a computer program using a neural network.
  • Object detection is one of the fields of computer vision research and has been extensively studied.
  • Computer vision is a technology that understands an image input to a computer and automatically recognizes various characteristics of that image.
  • object detection is the task of estimating the position and type of objects present in a natural image.
  • Object detection is applied to autofocus technology of imaging devices and the like.
  • imaging devices that detect subjects using machine learning techniques such as neural networks.
  • Such an imaging apparatus uses a learned model (dictionary data) corresponding to a specific subject to detect a specific subject and perform imaging control.
  • Typical types of specific subjects are people, animals such as dogs and cats, and vehicles such as automobiles.
  • An object of the present invention is to provide an imaging system that allows a user to generate arbitrary dictionary data.
  • Japanese Patent Laying-Open No. 2011-90410 discloses an image processing device that receives dictionary data for recognizing a subject existing at a predetermined location from a server device. Although the dictionary data is switched according to the situation, it is not configured to allow the user to detect any specific subject.
  • Japanese Patent Application Laid-Open No. 2011-90413 discloses an image processing apparatus that realizes a subject detector suitable for the user through additional learning. Since it is additive learning, it is difficult to detect arbitrary new subjects by the user. In addition, although it is assumed that learning and inference are performed in an image processing device, additional learning cannot be performed appropriately in imaging devices, for example, because restrictions on the network structure for subject detection may differ. Sometimes. SUMMARY OF THE INVENTION Accordingly, it is an object of the present invention to provide an imaging system that allows a user to generate arbitrary dictionary data.
  • the present invention In an imaging system that detects a subject based on a neural network, teacher data input means for inputting teacher data for detecting the subject; network structure designating means for designating network structure constraints in the subject detection; dictionary generating means for generating dictionary data for detecting the subject based on the teacher data and the constraints of the network structure; an imaging device that detects the subject based on the dictionary data generated by the dictionary generation means, and performs predetermined imaging control on the subject detected by the subject detection.
  • FIG. 1 is a configuration diagram of an imaging system according to Example 1 of the present invention
  • FIG. 1 is a block diagram showing a configuration example of an image capturing apparatus 100 of Example 1.
  • FIG. 2 is a block diagram showing a schematic configuration of a neural network processing unit 205 according to Example 1;
  • FIG. 4 is a diagram showing an example of constraints in terms of network structure;
  • 3 is a block diagram showing a hardware configuration example of the server 110;
  • FIG. 2 is a block diagram showing an example hardware configuration of a mobile terminal 120.
  • FIG. 5 is a flow chart showing processing of the imaging device according to the first embodiment;
  • FIG. 4 is a diagram for explaining an example of subject detection based on dictionary data;
  • 4 is a diagram for explaining an example of subject detection based on dictionary data
  • 6 is a flow chart showing processing of the server according to the first embodiment
  • 5 is a flowchart for explaining the flow of dictionary data generation processing according to the first embodiment
  • 5 is a flowchart for explaining the flow of dictionary data generation processing according to the first embodiment
  • 4 is a flow chart showing an example of the flow of processing executed by the mobile terminal 120 according to the first embodiment
  • 6 is a diagram for explaining an example of an input screen for teacher data and a network structure on the display unit 604 of the mobile terminal according to the first embodiment
  • FIG. 6 is a diagram for explaining an example of an input screen for teacher data and a network structure on the display unit 604 of the mobile terminal according to the first embodiment
  • FIG. 6 is a diagram for explaining an example of an input screen for teacher data and a network structure on the display unit 604 of the mobile terminal according to the first embodiment
  • FIG. 6 is a diagram for explaining an example of an input screen for teacher data and a network structure on the display unit 604 of the mobile terminal according to the first embodiment;
  • FIG. 6 is a diagram for explaining an example of an input screen for teacher data and a network structure on the display unit 604 of the mobile terminal according to the first embodiment;
  • FIG. 11 is a diagram illustrating a configuration example of an imaging system according to Example 2;
  • 10 is a flow chart showing an example of processing in the imaging device according to the second embodiment;
  • FIG. 10 is a diagram illustrating imaging control before and after enabling a user custom dictionary;
  • FIG. 10 is a diagram illustrating imaging control before and after enabling a user custom dictionary;
  • FIG. 10 is a diagram illustrating imaging control before and after enabling a user custom dictionary;
  • FIG. 11 is a configuration diagram of an imaging system according to Example 3; 10 is a flow chart for explaining processing of the imaging apparatus 100 in Example 3.
  • FIG. 10 is a flow chart for explaining processing of the imaging apparatus 100 in Example 3.
  • FIG. 17B is a flowchart for explaining the flow of processing for inputting teacher data in FIG. 17B;
  • FIG. 19 is a diagram showing an example of a teacher data input screen in FIG. 18;
  • FIG. 19 is a diagram showing an example of a teacher data input screen in FIG. 18;
  • FIG. 7 is a diagram for explaining an example of information confirmation of dictionary data in the imaging device 100;
  • imaging devices include electronic devices with imaging functions such as digital movie cameras, smartphones with cameras, tablet computers with cameras, network cameras, in-vehicle cameras, drone cameras, and cameras mounted on robots.
  • Example 1 The imaging system according to Example 1 of the present invention will be described below in detail.
  • FIG. 1 is a configuration diagram of an imaging system according to Embodiment 1 of the present invention.
  • the imaging system includes an imaging device 100, a server 110 as an information processing server, and a mobile terminal 120 as an information processing terminal different from the imaging device 100. etc.
  • the imaging device 100 and the server 110 are connected by, for example, a wireless communication network.
  • the server 110 and the mobile terminal 120 are connected by, for example, a wireless communication network.
  • the functional blocks in the server 110 and the mobile terminal 120 shown in FIG. 1 are realized by causing the computers included in the server 110 and the mobile terminal 120 to execute computer programs stored in the memory as a storage medium. ing. This also applies to FIGS. 13, 16, etc., which will be described later.
  • the imaging system performs subject detection based on a neural network and allows the user to detect any subject.
  • a representative technique for object detection is a technique called a convolutional neural network (hereinafter abbreviated as CNN).
  • CNN convolutional neural network
  • inference processing is executed based on the image signal and dictionary data as processing parameters, and the dictionary data is generated in advance by learning processing based on teacher data.
  • the mobile terminal 120 has a teacher data input unit 121 as teacher data input means for inputting teacher data for object detection. Also, the teacher data input unit 121 executes a teacher data input step of inputting teacher data for object detection.
  • training data input unit 121 as training data, image data and subject area information of the image data in which a target subject exists can be set, and a plurality of sets of training data can be input.
  • the set can be sent to server 110 .
  • the teacher data transmitted from the mobile terminal 120 is acquired, and the dictionary data generation unit 111 generates dictionary data based on the acquired teacher data.
  • the generated dictionary data is transmitted to the imaging device 100 .
  • a dictionary data generation unit 111 as a dictionary generation means is provided in a server 110 as an information processing server different from the imaging device.
  • the dictionary data transmitted from the server 110 is received, and the subject detection unit 101 performs neural network-based inference processing based on the received dictionary data.
  • the imaging control unit 102 executes imaging control such as autofocus. That is, the imaging apparatus 100 performs subject detection based on the dictionary data, and performs predetermined imaging control (autofocus, exposure control, etc.) on the subject detected by the subject detection.
  • the mobile terminal 120 is provided with a network structure designating section 122 as network structure designating means.
  • the network structure designating unit 122 designates the model name, ID, etc. of the imaging device to designate the constraints of the network structure as information relating to the network structure, and transmits the information to the server 110 .
  • the network structure designating unit 122 executes a network structure designating step of designating information about the network structure.
  • a dictionary data generation unit 111 in the server 110 generates dictionary data for subject detection based on the teacher data and information on the network structure.
  • FIG. 2 is a block diagram showing a configuration example of the imaging device 100 of the first embodiment.
  • the imaging apparatus 100 includes a CPU 201, a memory 202, a nonvolatile memory 203, an operation unit 204, a neural network processing unit 205, an imaging unit 212, an image processing unit 213, an encoding and a processing unit 214 .
  • the imaging apparatus 100 has a display control section 215 , a display section 216 , a communication control section 217 , a communication section 218 , a recording medium control section 219 and an internal bus 230 .
  • the imaging apparatus 100 forms an optical image of a subject on the pixel array of the imaging unit 212 using the imaging lens 211 , but the imaging lens 211 cannot be detached from the body of the imaging apparatus 100 . or it may be detachable. Also, the imaging apparatus 100 writes and reads image data to and from the recording medium 220 via the recording medium control unit 219.
  • the recording medium 220 may be detachable from the imaging apparatus 100, or may be detachable from the imaging apparatus 100. It may be impossible.
  • the CPU 201 controls the operation of each unit (each functional block) of the imaging apparatus 100 via the internal bus 230 by executing computer programs stored in the nonvolatile memory 203 .
  • the memory 202 is a rewritable volatile memory.
  • the memory 202 temporarily records a computer program for controlling the operation of each unit of the imaging apparatus 100, information such as parameters related to the operation of each unit of the imaging apparatus 100, information received by the communication control unit 217, and the like.
  • the memory 202 also temporarily records the image acquired by the imaging unit 212 and the image and information processed by the image processing unit 213, the encoding processing unit 214, and the like.
  • the memory 202 has sufficient storage capacity to temporarily record them.
  • the non-volatile memory 203 is an electrically erasable and recordable memory, such as an EEPROM, a hard disk, or the like.
  • the nonvolatile memory 203 stores information such as a computer program for controlling the operation of each unit of the imaging apparatus 100 and parameters related to the operation of each unit of the imaging apparatus 100 .
  • Various operations performed by the imaging apparatus 100 are realized by such a computer program.
  • the nonvolatile memory 203 stores a computer program describing the processing details of the neural network used in the neural network processing unit 205, and learned coefficient parameters such as weight coefficients and bias values.
  • a weighting factor is a value that indicates the strength of connection between nodes in a neural network
  • a bias is a value that gives an offset to the integrated value of the weighting factor and input data.
  • the nonvolatile memory 203 can hold a plurality of learned coefficient parameters and a plurality of computer programs describing neural network processing.
  • the memory 202 instead of the memory 203 may temporarily store a plurality of computer programs describing neural network processing and learned coefficient parameters used by the neural network processing unit 205 described above.
  • the computer program describing the processing of the neural network and the learned coefficient parameters correspond to dictionary data for object detection.
  • the operation unit 204 provides a user interface for operating the imaging device 100 .
  • An operation unit 204 includes various buttons such as a power button, a menu button, a release button for shooting, a video recording button, and a cancel button, and the various buttons are configured by switches, touch panels, and the like.
  • the CPU 201 controls the imaging apparatus 100 according to user instructions input via the operation unit 204 .
  • the CPU 201 may control the imaging device 100 based on a request input via the communication unit 218 from a remote controller (not shown) or the mobile terminal 120 .
  • the neural network processing unit 205 performs inference processing for the subject detection unit 101 based on dictionary data. Details will be described later with reference to FIG.
  • a photographing lens (lens unit) 211 is composed of a lens group including a zoom lens, a focus lens, etc., a lens control unit (not shown), an aperture (not shown), and the like.
  • the taking lens 211 can function as zoom means for changing the angle of view.
  • a lens control unit of the photographing lens 211 performs focus adjustment and aperture value (F value) control according to a control signal transmitted from the CPU 201 .
  • the imaging unit 212 can function as acquisition means for sequentially acquiring a plurality of images including moving images.
  • the imaging unit 212 for example, a CCD (charge-coupled device) image sensor, a CMOS (complementary metal oxide semiconductor) image sensor, or the like is used.
  • the imaging unit 212 has a pixel array (not shown) in which photoelectric conversion units (pixels) that convert an optical image of a subject into electrical signals are arranged in a matrix, that is, two-dimensionally. An optical image of a subject is formed on the pixel array by a photographing lens 211 .
  • the imaging unit 212 outputs the captured image to the image processing unit 213 and the memory 202 . Note that the imaging unit 212 can also acquire a still image.
  • the image processing unit 213 performs predetermined image processing on image data output from the imaging unit 212 or image data read from the memory 202 .
  • Examples of the image processing include dynamic range conversion processing, interpolation processing, reduction processing (resize processing), color conversion processing, and the like.
  • the image processing unit 213 uses the image data acquired by the imaging unit 212 to perform predetermined arithmetic processing for exposure control, ranging control, and the like.
  • the CPU 201 performs exposure control, distance measurement control, etc. based on the calculation result obtained by the calculation processing by the image processing unit 213 . Specifically, the CPU 201 performs AE (Auto Exposure) processing, AWB (Auto White Balance) processing, AF (Auto Focus) processing, and the like. These shooting controls are performed with reference to subject detection results by the neural network processing unit 205 .
  • the encoding processing unit 214 performs intra-frame predictive encoding (intra-screen predictive encoding), inter-frame predictive encoding (inter-screen predictive encoding), etc. on the image data from the image processing unit 213 to convert the image data into an image. Compress the size of data.
  • the display control unit 215 controls the display unit 216.
  • the display unit 216 has a display screen (not shown).
  • the display control unit 215 generates an image that can be displayed on the display screen of the display unit 216 and outputs the image, that is, an image signal to the display unit 216 . Further, the display control unit 215 can output image data not only to the display unit 216 but also to an external device via the communication control unit 217 .
  • the display unit 216 displays an image on the display screen based on the image signal sent from the display control unit 215 .
  • the display unit 216 has an OSD (On Screen Display) function that displays a setting screen such as a menu on the display screen.
  • the display control unit 215 can superimpose the OSD image on the image signal and output the image signal to the display unit 216 . It is also possible to generate a subject frame based on the result of subject detection by the neural network processing unit 205 and superimpose it on the image signal for display.
  • the display unit 216 is composed of a liquid crystal display, an organic EL display, or the like, and displays image signals sent from the display control unit 215 .
  • the display unit 216 may include, for example, a touch panel. When display unit 216 includes a touch panel, display unit 216 can also function as operation unit 204 .
  • the communication control unit 217 is controlled by the CPU 201.
  • the communication control unit 217 generates a modulated signal conforming to a wireless communication standard such as IEEE802.11, outputs the modulated signal to the communication unit 218, and transmits the modulated signal from an external device to the communication unit 218. to receive via Also, the communication control unit 217 can transmit and receive control signals for video signals.
  • the communication unit 218 may be controlled to send a video signal conforming to a communication standard such as HDMI (registered trademark) (High Definition Multimedia Interface) or SDI (Serial Digital Interface).
  • the communication unit 218 converts the video signal and the control signal into physical electrical signals and transmits/receives them to/from an external device.
  • the communication unit 218 not only transmits and receives video signals and control signals, but also receives dictionary data for object detection in the neural network processing unit 205 and the like.
  • the recording medium control unit 219 controls the recording medium 220 .
  • the recording medium control unit 219 outputs a control signal for controlling the recording medium 220 to the recording medium 220 based on a request from the CPU 201 .
  • the recording medium 220 for example, a nonvolatile memory, a magnetic disk, or the like is used.
  • the recording medium 220 may be removable or non-removable as described above.
  • the recording medium 220 stores encoded image data and the like as files in a format compatible with the file system of the recording medium 220 .
  • the respective functional blocks 201-205, 212-215, 217, 219 are accessible to each other via the internal bus 230.
  • Some of the functional blocks shown in FIG. 2 are realized by causing the CPU 201 as a computer included in the imaging apparatus 100 to execute a computer program stored in the nonvolatile memory 203 or the like as a storage medium. . However, some or all of them may be realized by hardware. As hardware, a dedicated circuit (ASIC), a processor (reconfigurable processor, DSP), or the like can be used.
  • ASIC application-specific integrated circuit
  • DSP reconfigurable processor
  • FIG. 3 is a block diagram showing a schematic configuration of the neural network processing unit 205 according to the first embodiment.
  • the neural network processing unit 205 executes neural network processing using previously learned coefficient parameters.
  • the processing of the neural network is composed of, for example, a fully connected layer of CNN, but is not limited to this.
  • the learned coefficient parameters described above correspond to weight coefficients and bias values possessed by edges connecting nodes in each layer in a fully connected layer, and weight coefficients and bias values of kernels in a CNN.
  • the neural network processing unit 205 includes a CPU 301, a sum-of-products operation circuit 302, a DMA (Dynamic Memory Access) 303, an internal memory 304, etc. in a neural core 300.
  • a CPU 301 a central processing unit 301
  • a sum-of-products operation circuit 302 a DMA (Dynamic Memory Access) 303
  • an internal memory 304 etc. in a neural core 300.
  • the CPU 301 acquires a computer program describing the processing details of the neural network from the memory 202 or the nonvolatile memory 203, or from the internal memory 304 via the internal bus 230, and executes it.
  • the CPU 301 also controls the sum-of-products arithmetic circuit 302 and the DMA 303 .
  • the sum-of-products operation circuit 302 is a circuit that performs sum-of-products operation in the neural network.
  • the sum-of-products operation circuit 302 has a plurality of sum-of-products operation units, which can execute the sum-of-products operation in parallel. Further, the sum-of-products operation circuit 302 outputs to the internal memory 304 via the DMA 303 intermediate data calculated during the sum-of-products operation executed in parallel by the plurality of sum-of-products operation units.
  • the DMA 303 is a circuit specialized for data transfer without going through the CPU 301 , and performs data transfer between the memory 202 or the nonvolatile memory 203 and the internal memory 304 via the internal bus 230 .
  • the DMA 303 also transfers data between the sum-of-products operation circuit 302 and the internal memory 304 .
  • the data transferred by the DMA 303 includes a computer program describing the processing details of the neural network, learned coefficient parameters, intermediate data calculated by the sum-of-products operation circuit 302, and the like.
  • the internal memory 304 stores computer programs describing the processing details of the neural network, learned coefficient parameters, intermediate data calculated by the sum-of-products operation circuit 302, and the like. Also, the internal memory 304 may have a plurality of banks, and the banks may be switched dynamically.
  • Constraints may differ depending on the model of imaging apparatus, and if the constraints differ, computer programs and learned coefficient parameters will also differ. That is, the dictionary data for object detection is different.
  • FIG. 4 is a diagram showing an example of constraints in terms of network structure.
  • the horizontal axis indicates the model name of the imaging device
  • the vertical axis indicates information related to the network structure such as restrictions of each network structure.
  • the image size of the input data, the number of channels of the input data, and the number of network parameters are restrictions depending on the capacity of the internal memory 304.
  • the image capturing apparatus A has a smaller memory capacity than the image capturing apparatus B, so the restriction is large.
  • the types of layers and the types of activation functions are restrictions on the computational specifications of the sum-of-products computation circuit 302, and imaging device A has fewer types of computations that can be represented than imaging device B, and has greater restrictions. That is, the information about the network structure includes information about at least one of the image size of the input data, the number of channels of the input data, the number of network parameters, the memory capacity, the type of layer, the type of activation function, and the specifications of the sum-of-products operation. .
  • FIG. 5 is a block diagram showing a hardware configuration example of the server 110. As shown in FIG. 5
  • the server 110 has a CPU 501, a memory 502, a display section 503, an operation section 505, a recording section 506, a communication section 507, and a neural network processing section 508.
  • Some of the functional blocks shown in FIG. 5 are realized by causing the CPU 501 as a computer included in the server 110 to execute a computer program stored in the recording unit 506 as a storage medium. However, some or all of them may be realized by hardware. As hardware, a dedicated circuit (ASIC), a processor (reconfigurable processor, DSP), or the like can be used.
  • ASIC application-specific integrated circuit
  • DSP reconfigurable processor
  • the CPU 501 controls all processing blocks that make up the server 110 by executing computer programs stored in the recording unit 506 .
  • the memory 502 is a memory that is mainly used as a work area for the CPU 501 and a temporary buffer area for data.
  • the display unit 503 is composed of a liquid crystal panel, an organic EL panel, or the like, and displays an operation screen or the like based on instructions from the CPU 501 .
  • the internal bus 504 is a bus for interconnecting each processing block within the server 110 .
  • the operation unit 505 is composed of a keyboard, a mouse, buttons, a touch panel, a remote controller, or the like, and receives user's operation instructions. Operation information input from the operation unit 505 is transmitted to the CPU 501, and the CPU 501 executes control of each processing block based on the operation information.
  • a recording unit 506 is a processing block that is configured by a recording medium and that stores and reads out various data in the recording medium based on instructions from the CPU 501 .
  • the recording medium is, for example, an EEPROM, a built-in flash memory, a built-in hard disk, or a removable memory card.
  • the recording unit 506 stores input data, teacher data, dictionary data, etc., which are data for learning in the neural network processing unit 508 .
  • the communication unit 507 includes hardware and the like for performing wireless LAN and wired LAN communications.
  • wireless LAN for example, IEEE802.11n/a/g/b system processing is performed.
  • a communication unit 507 connects to an external access point via a wireless LAN, and performs wireless LAN communication with another wireless communication device via the access point. Also, the communication unit 507 performs communication via an external router or a switching hub using an Ethernet cable or the like in a wired LAN.
  • a communication unit 507 communicates with external devices including the imaging apparatus 100 to exchange information such as teacher data and dictionary data.
  • the neural network processing unit 508 selects a neural network model from the teacher data obtained via the communication unit 507 and the constraint information of the network structure obtained via the communication unit 507, and performs the learning process of the neural network. conduct.
  • a neural network processing unit 508 corresponds to the dictionary data generation unit 111 in FIG. 1, and performs learning processing for constructing dictionary data corresponding to different classes of subjects using teacher data.
  • the neural network processing unit 508 is composed of a GPU (Graphic Processing Unit), a DSP (Digital Signal Processor), and the like. Dictionary data, which is the result of learning processing performed by the neural network processing unit 508, is held in the recording unit 506.
  • FIG. 1 Graphic Processing Unit
  • DSP Digital Signal Processor
  • FIG. 6 is a block diagram showing a hardware configuration example of the mobile terminal 120. As shown in FIG. 6
  • the mobile terminal 120 has a CPU 601, a memory 602, an imaging unit 603, a display unit 604, an operation unit 605, a recording unit 606, a communication unit 607, and an internal bus 608. are doing.
  • Some of the functional blocks shown in FIG. 6 are implemented by causing CPU 601 as a computer included in mobile terminal 120 to execute a computer program stored in recording unit 606 as a storage medium. However, some or all of them may be realized by hardware.
  • a dedicated circuit (ASIC), a processor (reconfigurable processor, DSP), or the like can be used.
  • the CPU 601 controls all processing blocks that make up the mobile terminal 120 by executing computer programs stored in the recording unit 606 .
  • the memory 602 is a memory that is mainly used as a work area for the CPU 601 and a temporary buffer area for data. Programs such as an OS (Operation System) and application software are expanded on the memory 602 and executed by the CPU 601 .
  • OS Operating System
  • application software are expanded on the memory 602 and executed by the CPU 601 .
  • the imaging unit 603 includes an optical lens, a CMOS sensor, a digital image processing unit, etc., and acquires captured image data by capturing an optical image input through the optical lens and converting it into digital data.
  • the captured image data acquired by the imaging unit 603 is temporarily stored in the memory 602 and processed under the control of the CPU 601 . For example, recording on a recording medium by the recording unit 606, transmission to an external device by the communication unit 607, and the like are performed.
  • the imaging unit 603 also includes a lens control unit, and controls zoom, focus, aperture adjustment, etc. based on commands from the CPU 601 .
  • the display unit 604 is composed of a liquid crystal panel, an organic EL panel, or the like, and performs display based on instructions from the CPU 601 .
  • An image of training data is selected from the captured images, and an operation screen, captured images, etc. are displayed in order to specify the network structure.
  • the operation unit 605 is composed of a keyboard, a mouse, buttons, a cross key, a touch panel, a remote controller, or the like, and receives user's operation instructions. Operation information input from the operation unit 605 is transmitted to the CPU 601, and the CPU 601 executes control of each processing block based on the operation information.
  • the recording unit 606 is a processing block configured by a large-capacity recording medium and storing and reading various data in the recording medium based on instructions from the CPU 601 .
  • the recording medium is composed of, for example, a built-in flash memory, a built-in hard disk, or a removable memory card.
  • the communication unit 607 includes processing hardware and the like for performing communication such as an antenna, wireless LAN, wired LAN, etc., and performs wireless LAN communication in accordance with, for example, the IEEE802.11n/a/g/b system.
  • a communication unit 607 connects to an external access point via a wireless LAN, and performs wireless LAN communication with another wireless communication device via the access point.
  • the communication unit 607 transmits the teacher data input by the user via the operation unit 605 and the network structure to the server 110 .
  • the internal bus 608 is a bus for interconnecting each processing block within the mobile terminal SP.
  • FIG. 7 is a flowchart showing the processing of the imaging apparatus according to the first embodiment.
  • dictionary data executed by the imaging apparatus 100 in the first embodiment is received, subject detection is performed, and imaging is controlled.
  • a processing flow will be described. This operation is realized by loading a computer program stored in the non-volatile memory 203 into the memory 202 while the imaging apparatus 100 is powered on, and reading and executing the computer program from the memory 202 by the CPU 201. .
  • step S701 the imaging device 100 checks with the server 110 via the communication unit 218 whether there is any dictionary data that has not yet been received from the server 110. If there is dictionary data in the server 110 that has not been received from the server 110 (YES in step S701), the dictionary data is acquired from the server 110 via the communication unit 218 and stored in the nonvolatile memory 203 in step S702. . If there is no dictionary data that has not been received from the server 110 (NO in step S701), the process proceeds to step S703.
  • step S703 subject detection is performed by the neural network processing unit 205 using the dictionary data recorded in the nonvolatile memory 203.
  • the dictionary data may be copied from the non-volatile memory 203 to the memory 202 or the internal memory 304 of the neural network processing unit 205 and used for object detection. Further, subject detection in step S703 is performed using image data acquired by the imaging unit 212 as input data.
  • step S704 the imaging unit 212 performs imaging control such as autofocus based on the subject detection result.
  • imaging control such as autofocus and exposure control is performed so as to achieve proper exposure.
  • steps S703 and S704 function as imaging steps for performing subject detection based on dictionary data and performing predetermined imaging control on the subject detected by the subject detection.
  • the step of acquiring dictionary data from the server and subject detection and shooting control based on the acquired dictionary data are performed in the same flow.
  • the present invention is not limited to this, and a mode or timing for acquiring inquiry dictionary data from the server in advance may be provided, for example, when shooting is not performed.
  • dictionary data used for object detection does not necessarily have to be obtained by inquiring of the server to obtain dictionary data that has not yet been obtained, and used as it is.
  • a step for determining the dictionary data before using the dictionary data for example, before step S704
  • a step of accepting a user operation or a step of automatically determining may be provided as a step for determining the dictionary data before using the dictionary data.
  • FIGS. 8A and 8B are diagrams for explaining an example of subject detection based on dictionary data.
  • the dictionary data of Example 1 has a computer program describing the processing details for executing the subject detection task in the neural network processing unit 205 and a learned coefficient parameter for each type of subject.
  • types of subjects include people and animals such as dogs, cats, vehicles such as cars, and motorcycles.
  • FIGS. 8A and 8B show examples of menu screens of the display unit 216, and the user sets the subject to be detected via the operation unit 204.
  • FIG. 8A a "person” 802 is set as a subject to be detected.
  • object detection is performed using dictionary data of "person” stored in advance in the nonvolatile memory 203 .
  • Reference numeral 803 denotes a photographed image displayed on the display unit 216, in which the face of a "person” is detected and displayed with a frame 804 superimposed thereon.
  • custom 806 is set as the subject to be detected.
  • subject detection is performed using, for example, “fish” as custom dictionary data received from the server 110 .
  • Reference numeral 803 denotes a photographed image displayed on the display unit 216 when the "custom" dictionary data is "fish”, and shows a state in which a frame 806 is superimposed on the detected fish and displayed.
  • FIG. 9 is a flowchart showing server processing according to the first embodiment.
  • the processing in FIG. 9 is realized by loading the computer program stored in the recording unit 506 into the memory 502 while the power of the server 110 is on, and reading and executing the computer program from the memory 502 by the CPU 501. be done.
  • the processing of the server 110 that acquires teacher data and network structure information from the mobile terminal 120, generates dictionary data, and transmits the generated dictionary data to the imaging device 100 will be described.
  • step S901 the server 110 acquires teacher data from the mobile terminal 120 via the communication unit 507.
  • step S901 functions as teacher data acquisition means for acquiring teacher data for object detection.
  • step S902 information on the network structure is also acquired from the portable terminal 120 via the communication unit 507, and the network structure is specified.
  • the information about the network structure is, for example, the model name of the imaging device, and the correspondence between the model name of the imaging device and the network structure is recorded in the recording unit 506 .
  • Step S902 functions as network structure acquisition means for acquiring information about the network structure.
  • step S903 it is confirmed whether the data necessary for generating dictionary data is complete. If the data are complete (YES in step S903), the process proceeds to step S904. If the data are not complete (NO in step S903), the process proceeds to step S907.
  • step S903 For example, if there is image data in the teacher data but the subject area is not set, it will be determined as NO in step S903.
  • step S904 the neural network processing unit 508 generates dictionary data.
  • dictionary data there is a method of generating a large number of dictionary data in advance and selecting appropriate dictionary data from teacher data (for example, FIG. 10A).
  • a method of generating dictionary data by learning from teacher data for example, FIG. 10B is also applicable.
  • Step S904 functions as dictionary generation means (dictionary generation step).
  • 10A and 10B are flowcharts for explaining the flow of dictionary data generation processing according to the first embodiment.
  • FIG. 10A is a flowchart showing the flow of processing for an example of dictionary data generation based on selection.
  • subject detection is performed from the image data of the teacher data.
  • a well-known subject detection method such as YOLO or FastR-CNN can be applied, assuming that a plurality of types of subjects can be detected.
  • step S1002a a detection result that matches the area of the teacher data is extracted from the area information of the teacher data and the position information and size of the subject detection result.
  • step S1003a the type of teacher data is estimated from the extracted detection results. If there is a plurality of teacher data, the type of subject is determined from the average value of the scores for each type of subject.
  • step S1004a the estimated dictionary data is selected.
  • a plurality of dictionary data are prepared in advance for each type of network structure, and the dictionary data of the target network structure is selected.
  • step S1004a functions as dictionary generation means for selecting a dictionary suitable for the subject of the teacher data from a plurality of prepared dictionary data.
  • FIG. 10B is a flow chart showing the processing flow of an example of dictionary data generation based on learning. If the initial values of the dictionary data are to be learned from the state of random numbers, a large amount of teacher data is required. If a large amount of teacher data is required, it takes time and effort to input the user's teacher data, so a method of learning with a small number of teacher data is desired.
  • step S1001b dictionary data in which a wide variety of objects are learned in advance is set as an initial value.
  • step S1002b learning is performed based on teacher data. Since the initial value of the dictionary data is not a random number but a learned object-likeness, so-called fine tuning is performed.
  • step S1002b functions as dictionary generation means for generating the dictionary data by learning based on the teacher data.
  • step S905 it is determined in step S905 whether or not dictionary data generation has succeeded.
  • dictionary data generation is based on selection as shown in FIG. 10A
  • success occurs when the dictionary can be selected
  • failure occurs when the dictionary cannot be selected, such as when a detection result belonging to teacher data cannot be obtained.
  • the dictionary data generation is based on learning as shown in FIG. 10B, for example, if the value of the learning loss function is equal to or less than a predetermined threshold, it is considered successful, and if it is greater than the predetermined threshold, it is determined to be a failure. .
  • step S905 If the dictionary data is successfully generated (YES in step S905), the dictionary data is transmitted to the imaging device 100 via the communication unit 507 in step S906.
  • step S ⁇ b>906 functions as dictionary data transmission means for transmitting dictionary data generated by the dictionary generation means to the imaging apparatus 100 .
  • step S907 the portable terminal 120 is notified that an error has occurred via the communication unit 507.
  • FIG. 11 is a flowchart illustrating an example of the flow of processing executed by the mobile terminal 120 according to the first embodiment.
  • FIGS. 12A, 12B, 12C, and 12D The flow of processing in the flowchart of FIG. 11 will be described using FIGS. 12A, 12B, 12C, and 12D.
  • 12A, 12B, 12C, and 12D are diagrams for explaining examples of input screens for teacher data and network structure on the display unit 604 of the mobile terminal according to the first embodiment.
  • step S1101 of FIG. 11 the user selects an image to be used as teacher data from the captured images stored in the recording unit 606 via the operation unit 605.
  • FIG. 12A is a diagram showing an example of an image selection screen on the display unit 604. As indicated by 1201, 12 captured images are displayed. The user selects, for example, two pieces of teacher data from these 12 captured images by touching the operation unit 605 or the like. It is assumed that the selected teacher data image has a circle displayed in the upper left corner of the captured image, such as 1202 .
  • step S1102 the user designates, via the operation unit 605, a target subject area in the two images selected as teacher data.
  • FIG. 12B is a diagram showing an example of a subject area input screen on the display unit 604.
  • a rectangular frame 1203 indicates the subject area input by the user.
  • a subject area is set for each image selected as training data.
  • an area may be directly selected from an image displayed via a touch panel which is part of the operation unit 605 and integrated with the display unit 604 .
  • the CPU 601 or the like may simply select from subject frames detected by feature amounts such as edges, and perform fine adjustment.
  • step S1103 the user specifies constraints on the network structure (specifies information about the network structure) via the operation unit 605. Specifically, for example, the type of imaging device is selected.
  • FIG. 12C is a diagram showing an example of a network structure input screen on the display unit 604, in which a plurality of model names of imaging apparatuses are displayed. From among these, the user selects one model name of an imaging apparatus for which imaging control using dictionary data is desired. Assume that 1204 is selected.
  • step S1104 the user decides to start generating dictionary data via the operation unit 605.
  • FIG. 12D is a diagram showing an example of a confirmation screen for starting dictionary data generation on the display unit 604, and YES or NO is input. If YES indicated in 1205 is selected, the teacher data and information on the type of imaging device are transmitted to the server 110 via the communication unit 607, and the server 110 generates dictionary data. If NO is selected in FIG. 12D, the process ends.
  • the subject area in the image data of the teacher data is treated as a positive case, and the other areas are treated as negative cases in dictionary data generation by the server 110 .
  • the above description an example of selecting an image in which a subject region exists is shown, but an image in which no subject region exists may be selected. In that case, the entire image is treated as a negative example without inputting information on the subject area.
  • the imaging system of the first embodiment it is possible for the user to generate arbitrary dictionary data that can be used by the imaging device.
  • Example 2 An imaging system according to a second embodiment of the present invention will be described in detail below. A description of the same parts as in the first embodiment is omitted.
  • FIG. 13 is a diagram showing a configuration example of an imaging system according to Example 2.
  • the imaging system includes an imaging device 100, a server 110 as an information processing device, and a mobile terminal 120 as an information input device. Also, the imaging device 100, the server 110, and the portable terminal 120 are connected by a wireless communication network.
  • the user can generate arbitrary (custom) subject detection dictionary data using predetermined application software installed in the mobile terminal 120 in the same manner as in the first embodiment.
  • the imaging apparatus 100 can activate a service for generating user-customized dictionary data (referred to as a user custom dictionary) by billing.
  • the imaging device 100 displays the detection result based on the user custom dictionary in a frame. This allows an evaluation of the detectability.
  • the imaging control function using the user custom dictionary in the imaging apparatus 100 becomes valid (available).
  • the mobile terminal 120 is provided with a dictionary validator 123 . Then, when the user custom dictionary is activated by billing in the mobile terminal 120, the imaging control based on the subject detection result using the user custom dictionary in the imaging device 100 is enabled.
  • the dictionary validation unit 123 functions as dictionary validation means for validating the dictionary data generated by the dictionary generation means by charging.
  • FIG. 14 is a flowchart showing an example of processing in the imaging device according to the second embodiment, and the flow of processing executed by the imaging device 100 according to the second embodiment will be described using FIG.
  • the operation of this flowchart is implemented by loading a computer program stored in the nonvolatile memory 203 into the memory 202 while the imaging apparatus 100 is powered on, and reading and executing the computer program from the memory 202 by the CPU 201. be done.
  • step S1401 the neural network processing unit 205 performs subject detection using the user custom dictionary. It is assumed that the imaging apparatus 100 is set to use the custom dictionary, as described with reference to FIG. 8B.
  • step S1402 the display control unit 215 superimposes the subject detection result as a frame on the captured image of the imaging device and displays it on the display unit 216 as display means. This allows the user to check whether the dictionary data for subject detection is what the user intended. If the intended subject is detected and no object other than the intended subject is detected, it can be evaluated that the dictionary data intended by the user has been generated. If the dictionary data for subject detection is not what the user intended, the user may add teacher data to the portable terminal 12 to regenerate the dictionary data. That is, in step S1402, a screen may be displayed for selecting whether or not to proceed to the flow of regenerating dictionary data (FIG. 11) while displaying the subject detection result.
  • a screen may be displayed for selecting whether or not to proceed to the flow of regenerating dictionary data (FIG. 11) while displaying the subject detection result.
  • step S1403 the CPU 201 determines whether the user custom dictionary is valid.
  • the initial state of the user custom dictionary is disabled, and is changed to enabled by the mobile terminal 120 .
  • the communication unit 607 notifies the imaging device 100 of that fact.
  • step S1403 if the user custom dictionary is valid, in step S1404, imaging control is performed using the detection result based on the dictionary data. If the user custom dictionary is invalid in step S1403, imaging control is performed without using the detection result based on the dictionary data in step S1405.
  • the imaging apparatus 100 when the dictionary data is validated by the dictionary validating means, the imaging apparatus 100 performs predetermined imaging control (AF, AE, etc.) on the subject detected by the subject detection based on the user custom dictionary data. I do. Further, when the dictionary data is not validated by the dictionary validating means, the imaging apparatus 100 is controlled so as not to perform predetermined imaging control based on the user custom dictionary data.
  • predetermined imaging control AF, AE, etc.
  • FIG. 15A and 15B are diagrams for explaining imaging control before and after enabling the user custom dictionary
  • FIG. 15A is an example of a photographed image of the display unit 216 after the user custom dictionary is enabled.
  • a captured image 1501 is displayed with the still image recording switch of the imaging apparatus 100 turned off, and a subject detection result 1502 based on the user custom dictionary superimposed on the captured image of the imaging apparatus as a frame.
  • a captured image 1503 shows a state in which the still image recording switch of the imaging apparatus 100 is turned on, and imaging control such as autofocus and exposure control is being performed based on the subject detection result 1504 based on the user custom dictionary.
  • FIG. 15B is an example of a captured image of the display unit 216 before the user custom dictionary is activated.
  • a captured image 1505 is displayed with the still image recording switch of the imaging apparatus 100 turned off, and a subject detection result 1506 based on the user custom dictionary superimposed on the captured image of the imaging apparatus as a frame.
  • the subject detection result 1502 is represented by a solid line
  • the subject detection result 1506 is represented by a dotted line. This is so that the user can easily confirm that the user custom dictionary is not yet valid (invalid).
  • the shape and color of the frame may be changed without being limited to the solid line and the dotted line.
  • a captured image 1507 shows a state in which the still image recording switch of the imaging device 100 is turned on, and imaging control such as autofocus and exposure control is being performed based on subject detection results 1508 different from the user custom dictionary.
  • dictionary data related to the face of “person”, which is different from the user custom dictionary is used, and a frame is superimposed on the person's face as the subject detection result 1508 .
  • the user custom dictionary is of one type, but it is not limited to one type, and multiple types may be set.
  • valid/invalid processing is applied by charging for each user custom dictionary. That is, when there are a plurality of dictionary data generated by the dictionary generating means, the dictionary validating means validates each dictionary data by charging.
  • the imaging system of the second embodiment after confirming the object detection performance of the acquired dictionary data by the imaging device 100, it is possible to make a decision to purchase the dictionary data. Further, since it is possible to confirm whether or not the subject detection performance of the dictionary data is sufficient, it is possible to provide teacher data again and further enhance the subject detection performance of the created dictionary.
  • Example 3 An imaging system according to Example 3 of the present invention will be described in detail below. A description of the same parts as in the first embodiment is omitted.
  • FIG. 16 is a configuration diagram of an imaging system according to Example 3.
  • the imaging system according to Example 3 is a system including an imaging device 100 and a server 110 as an information processing device. are connected by a wireless communication network.
  • the difference from the first embodiment is that there is no mobile terminal 120 as an information processing terminal, and the imaging device 100 plays a role of inputting teacher data and a network structure.
  • the third embodiment is configured to assist the preparation of teacher data. That is, in the imaging system according to the third embodiment, the imaging apparatus 100 is provided with the teacher data generation unit 103 as a teacher data generation unit, and the user inputs the teacher data by the teacher data input unit 121 based on the result.
  • the teacher data generation unit 103 uses the inference result of the subject detection unit 101 (neural network processing unit 205).
  • the processing in the subject detection unit 101 differs depending on whether the processing is for shooting control during shooting or the processing is for teaching data generation during non-shooting. Details will be described later.
  • the network structure specifying unit 122 is provided in the mobile terminal 120 different from the imaging device, and the network structure restrictions differ depending on the model of the imaging device. Therefore, the user specifies the model name of the imaging device. was configured as On the other hand, in the imaging system of the third embodiment, the network structure specifying unit 122 is provided in the imaging device 100, and the CPU 201 of the imaging device 100, not the user, specifies the network structure, shall be notified to
  • Some of the functional blocks shown in FIG. 16 are realized by causing the CPU 201 as a computer included in the imaging apparatus 100 to execute a computer program stored in the non-volatile memory 203 or the like as a storage medium.
  • a computer program stored in the non-volatile memory 203 or the like may be realized by hardware.
  • a dedicated circuit (ASIC), a processor (reconfigurable processor, DSP), or the like can be used as hardware.
  • FIGS. 17A and 17B are flowcharts for explaining the processing of the imaging device 100 according to the third embodiment.
  • the flow of processing will be described by focusing on the difference between the neural network processing for shooting control during shooting of the imaging apparatus 100 in the third embodiment and for generating teacher data when not shooting.
  • FIG. 17A is a flowchart showing the flow of processing during shooting
  • FIG. 17B is a flowchart showing the flow of processing during non-shooting.
  • step S1701a an image is acquired from the imaging means.
  • the subject detection unit 101 performs subject detection in step S1702a.
  • the imaging control unit 102 performs imaging control in step S1703a. Since the subject detection result is used in imaging control such as autofocus, subject detection by the subject detection unit 101 (neural network processing unit 205) needs to be processed at high speed.
  • a subject to be detected is selected by menu setting, and dictionary data for detecting only the selected subject is used.
  • dictionary data for detecting only the selected subject is used.
  • step S1701b an image is acquired from the recording medium 220 as recording means, a server, or the like. Using this image, in step S1702b, subject detection is performed by the subject detection unit 101 (neural network processing unit 205). Based on this detection result, teacher data is generated in step S1703b.
  • step S1703b Since the purpose of step S1703b is for the user to create arbitrary training data, it is necessary for the subject detection unit 101 (neural network processing unit 205) to detect various types of subjects. In order to detect a wide variety of objects, it is necessary to increase the number of parameters expressing the characteristics of the objects, and the number of product-sum operations increases for feature extraction. Therefore, it will be processed at a low speed.
  • FIG. 18 is a flowchart explaining the flow of processing for inputting teacher data in FIG. 17B.
  • 19A and 19B are diagrams showing an example of the teacher data input screen in FIG. 18.
  • FIG. 18 is a flowchart explaining the flow of processing for inputting teacher data in FIG. 17B.
  • 19A and 19B are diagrams showing an example of the teacher data input screen in FIG. 18.
  • FIG. 18 is a flowchart explaining the flow of processing for inputting teacher data in FIG. 17B.
  • 19A and 19B are diagrams showing an example of the teacher data input screen in FIG. 18.
  • the teacher data is input by the user through the operation unit 204 based on the information displayed on the screen 1900 (FIGS. 19A and 19B) of the display unit 216 of the imaging device 100.
  • step S1801 the user selects an image to be used as teacher data from the captured images recorded in the recording medium 220.
  • step S1802 the user selects whether the selected image is a positive example or a negative example. If the target subject exists in the selected image, a positive case is selected, and the process advances to step S1803. On the other hand, if the target subject does not exist in the selected image, a negative example is selected and the process ends. In this case, the entire image is treated as a region of negative examples. For example, it is used when selecting a subject that you do not want to detect.
  • step S1803 the position of the target subject is specified for the selected image.
  • the operation unit 204 is a touch panel
  • the target position of the subject can be designated by touching.
  • the initial value of the position of the object that is intended for the focus area at the time of photographing may be used.
  • 19A and 19B, 1901 is the selected image, and 1902 shows an example of the specified position.
  • step S1804 the screen 1900 of the display unit 216 displays training data candidates, and confirms whether there is a target subject area. Based on the subject detection result of the neural network processing unit 205, subject areas close to the specified position are used as teacher data candidates.
  • FIG. 19B shows an example of training data candidates. An example of three training data candidates having the same subject but different regions is shown. 1902 is the whole body, 1903 is the face, and 1904 is the eyes as training data candidates.
  • step S1804 if there is a target subject area among the teaching data candidates, the process proceeds to step S1805, and one of the teaching data candidates is set as the correct area of the teaching data. In step S1804, if there is no target subject area among the training data candidates, the process advances to step S1806, and the user inputs a subject area to be used as training data.
  • the imaging system of the third embodiment it is possible to generate teacher data using the imaging device 100 itself, and reduce the user's burden of generating teacher data.
  • the configuration is not limited to this, and a configuration in which a plurality of dictionary data are created and the plurality of dictionary data can be received by the imaging device 100 may be employed. At this time, information for distinguishing/dividing each dictionary data is required. Therefore, the dictionary data recorded in the recording unit 506 and transmitted to the imaging apparatus 100 is provided with information identifying (representing) the dictionary as header information in addition to the computer program and learned coefficient parameters.
  • the header information includes, for example, the name of the dictionary data, the type (classification) of the subject to be detected, the creation date and update date of the dictionary data, the name of the creator of the dictionary data, the number of teacher data used to generate the dictionary data (positive case, negative case).
  • the teacher data itself used for learning may be given as effective information for identifying or evaluating the dictionary data.
  • the teacher data may be stored in the server 110 and the address of the corresponding teacher data in the server 110 may be stored in the dictionary data. With these pieces of information, it is possible to confirm what kind of teacher data is used for each dictionary data. When teacher data is attached to dictionary data, the amount of data increases if the number of teacher data is large.
  • the accompanying teacher data may be specified by the user, or may be selected by the CPU 501 of the server 110 based on the evaluation value.
  • FIG. 20 shows an example of a dictionary data confirmation screen on the imaging device 100.
  • FIG. Menus 2001, 2003, 2007, and 2009 in FIG. 20 show examples of menu screens displayed on the display unit 216 when the CPU 201 confirms the contents of the dictionary data.
  • a menu 2001 is a menu screen for the user to set a subject to be detected via the operation unit 204, and "custom" 2002 is set. If there is a plurality of custom dictionary data received from the server 110, the screen transitions to a menu 2003 for selecting custom dictionary data.
  • a menu 2003 shows a state in which “fish”, “beetle”, and “mascot A” have been received by the imaging device 100 as custom dictionary data.
  • the names of the dictionary data "fish”, “beetle”, and “mascot A” are stored in the header information of the dictionary data. This name is set by the user via the operation unit 605 when setting the teacher data on the mobile terminal 120 .
  • "fish” 2005 is selected as dictionary data, and subject detection is performed using the "fish” dictionary data.
  • "INFO" 2006 is selected via the operation unit 204, a transition is made to a menu screen 2007 displaying header information of "fish”.
  • the menu 2007 shows an example of displaying the dictionary data creation date, the dictionary data creator, the number of learning data sheets, and the version of the dictionary, which are stored as the header information of the "fish” dictionary data.
  • the dictionary data creation date the date when the dictionary data was created by the server 100 is stored in the header information of the dictionary data.
  • the dictionary data creator stores the owner information in the mobile terminal 120 into the header information of the dictionary data.
  • the number of teacher data is stored in the dictionary data based on the number of images when the teacher data is set. For the header information stored in these header areas, the user may directly input numerical values and names when setting (receiving) the teacher data.
  • the dictionary data may be configured so that it can be updated even after it has been generated once. For example, it is possible to re-learn by adding new teacher data using the current learned coefficient parameters as initial values.
  • the version of the menu 2007 indicates its updated information and shall be assigned by the server each time it is re-learned. Although the outline of the dictionary data can be grasped from these header information, it is difficult to grasp the details such as what kind of subject is easy to detect. In order to understand the characteristics of subject detection, it is best to check the training data itself. Therefore, when "INFO" 2008 is selected via the operation unit 204, a transition is made to a menu 2009 showing teacher data of "fish" dictionary data.
  • the address of teacher data stored in the server 100 is stored in the dictionary data, and in this embodiment, the CPU 201 causes the display unit 216 to display it via the communication unit 218 . At this time, whether it is a positive case or a negative case, frame information indicating the corresponding subject area, and not limited to this, at least a part of the teacher data is received and recorded accompanying the dictionary data as described above. may In this case, the CPU 201 causes the display unit 216 to display teacher data corresponding to the dictionary data recorded together with the dictionary data in the recording medium 220 or the memory 202 .
  • the mobile terminal 120 may also be configured to check the information.
  • the type of imaging device indicating the restrictions of the network structure set at the time of inputting the training data is additionally stored in the dictionary data and displayed on the display unit 604 .
  • the portable terminal 120 receives dictionary data for generating and supplying training data for generating dictionary data
  • the device used for subject detection processing is a separate device from the imaging device 100. Not limited to this, both devices may be configured by the same device.
  • Targets to which the present invention can be applied are not limited to the imaging device 100, server 110, mobile terminal 120, etc. described in the above embodiments.
  • the imaging device 100 is a system composed of a plurality of devices, it is possible to realize functions similar to those of the above-described embodiments.
  • part of the processing of the imaging device 100 can be implemented by an external device on the network.
  • a computer program that implements the functions of the above-described embodiments for part or all of the control in this embodiment may be supplied to an imaging system or the like via a network or various storage media.
  • a computer or CPU, MPU, etc.
  • the program and the storage medium storing the program constitute the present invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

ニューラルネットワークに基づき被写体検出を行う撮像システムにおいて、前記被写体検出のための教師データを入力する教師データ入力手段と、前記被写体検出におけるネットワーク構造の制約を指定するネットワーク構造指定手段と、前記教師データと前記ネットワーク構造の制約に基づき前記被写体検出のための辞書データを生成する辞書生成手段と、前記辞書生成手段によって生成された前記辞書データに基づき前記被写体検出を行い、前記被写体検出により検出された被写体に対して所定の撮像制御を行う撮像装置と、を有し、前記辞書データには、ヘッダ情報として該辞書データの生成に用いられた教師データの枚数の情報を含む。

Description

撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及びコンピュータプログラム
 本発明は、ニューラルネットワークを用いる撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及びコンピュータプログラムに関する。
 被写体検出はコンピュータビジョン研究の分野の1つであり、これまで広く研究されている。コンピュータビジョンはコンピュータに入力された画像を理解し、その画像の様々な特性を自動的に認識する技術である。その中で被写体検出は、自然画像内に存在する被写体の位置と種類を推定するタスクである。被写体検出は撮像装置のオートフォーカス技術等に応用されている。
 近年では、ニューラルネットワーク等に代表される機械学習手法により被写体を検出する撮像装置が知られている。このような撮像装置は、特定の被写体に対応した学習済みモデル(辞書データ)を利用して、特定の被写体を検出し撮像制御を行う。特定被写体の種類は、人物、犬や猫などの動物、自動車などの乗物が代表的であり、撮像装置のオートフォーカス機能としてニーズの高い被写体である。
 本発明は、ユーザーによる任意の辞書データを生成可能な撮像システムを提供することを目的とする。
特開2011-90410号公報 特開2011-90413号公報
 特開2011-90410号公報では、所定の場所に存在する被写体認識の辞書データをサーバー装置から受信する画像処理装置が開示されている。状況に応じて辞書データを切り替えているものの、ユーザーによる任意の特定被写体を検出可能な構成にはなっていない。
 又、特開2011-90413号公報では、追加学習によってユーザーにとって好適な被写体検出器を実現する画像処理装置が開示されている。追加学習であるため、ユーザーによる任意の新たな被写体を検出することは難しい。又、画像処理装置において、学習と推論が実行される状況が前提となっているが、例えば撮像装置等においては被写体検出のネットワーク構造の制約等が異なる場合があるため、追加学習が適切にできない場合がある。そこで本発明は、ユーザーによる任意の辞書データを生成可能な撮像システムを提供することを目的とする。
 上述の課題を解決するため、本発明は、
 ニューラルネットワークに基づき被写体検出を行う撮像システムにおいて、
 前記被写体検出のための教師データを入力する教師データ入力手段と、
 前記被写体検出におけるネットワーク構造の制約を指定するネットワーク構造指定手段と、
 前記教師データと前記ネットワーク構造の制約に基づき前記被写体検出のための辞書データを生成する辞書生成手段と、
 前記辞書生成手段によって生成された前記辞書データに基づき前記被写体検出を行い、前記被写体検出により検出された被写体に対して所定の撮像制御を行う撮像装置と、を有することを特徴とする。
 本発明によれば、ユーザーによる任意の辞書データを生成可能な撮像システムを実現できる。
本発明の実施例1に係る撮像システムの構成図である。 実施例1の撮像装置100の構成例を示すブロック図である。 実施例1に係るニューラルネットワーク処理部205の概略構成を示すブロック図である。 ネットワーク構造の観点で制約条件の例を示した図である。 サーバー110のハードウェア構成例を示すブロック図である。 携帯端末120のハードウェア構成例を示すブロック図である。 実施例1に係る撮像装置の処理を示すフローチャートである。 辞書データに基づく被写体検出の例を説明するための図である。 辞書データに基づく被写体検出の例を説明するための図である。 実施例1に係るサーバーの処理を示すフローチャートである。 実施例1に係る辞書データ生成の処理の流れを説明するためのフローチャートである。 実施例1に係る辞書データ生成の処理の流れを説明するためのフローチャートである。 実施例1に係る携帯端末120で実行される処理の流れの例を示すフローチャートである。 実施例1に係る携帯端末の表示部604の教師データ及びネットワーク構造の入力画面例を説明するための図である。 実施例1に係る携帯端末の表示部604の教師データ及びネットワーク構造の入力画面例を説明するための図である。 実施例1に係る携帯端末の表示部604の教師データ及びネットワーク構造の入力画面例を説明するための図である。 実施例1に係る携帯端末の表示部604の教師データ及びネットワーク構造の入力画面例を説明するための図である。 実施例2の係る撮像システムの構成例を示す図である。 実施例2に係る撮像装置における処理例を示すフローチャートである。 ユーザーカスタム辞書の有効化前後の撮像制御に関して説明する図である。 ユーザーカスタム辞書の有効化前後の撮像制御に関して説明する図である。 実施例3に係る撮像システムの構成図である。 実施例3における撮像装置100の処理を説明するためのフローチャートである。 実施例3における撮像装置100の処理を説明するためのフローチャートである。 図17Bにおける教師データ入力の処理の流れを説明するフローチャートである。 図18における教師データ入力画面の1例を示す図である。 図18における教師データ入力画面の1例を示す図である。 撮像装置100での辞書データの情報確認の例を説明するための図である。
 以下、添付図面を参照して、本発明の好適な実施の形態について実施例を用いて説明する。尚、各図において、同一の部材ないし要素については同一の参照番号を付し、重複する説明は省略ないし簡略化する。
 実施例においては、撮像装置としてデジタルスチルカメラに適用した例について説明する。しかし、撮像装置はデジタルムービーカメラ、カメラ付きのスマートフォン、カメラ付きのタブレットコンピュータ、ネットワークカメラ、車載カメラ、ドローンカメラ、ロボットに搭載されたカメラなどの撮像機能を有する電子機器等を含む。
 <実施例1>
 以下、本発明の実施例1に係る撮像システムに関して、以下に詳細に説明する。
 図1は、本発明の実施例1に係る撮像システムの構成図であり、撮像システムは、撮像装置100、情報処理サーバーとしてのサーバー110、撮像装置100とは異なる情報処理端末としての携帯端末120等からなる。撮像装置100とサーバー110は例えば無線による通信ネットワークにより接続される。又、サーバー110と携帯端末120は例えば無線による通信ネットワークにより接続される。
 尚、図1に示されるサーバー110、携帯端末120内の機能ブロックは夫々サーバー110、携帯端末120に含まれるコンピュータに、記憶媒体としてのメモリに記憶されたコンピュータプログラムを実行させることによって夫々実現されている。尚、これは後出の図13、図16等においても当てはまる。
 実施例1に係る撮像システムは、ニューラルネットワークに基づく被写体検出を行うと共に、ユーザーによる任意の被写体を検出可能とする。被写体検出の代表的な手法として、コンボリューショナル・ニューラル・ネットワーク(以下、CNNと略記する)と呼ばれる手法がある。CNNでは、画像信号と処理パラメータである辞書データに基づき推論処理が実行され、辞書データは予め教師データに基づき学習処理によって生成しておく。
 実施例1の撮像システムでは、携帯端末120は、被写体検出のための教師データを入力する教師データ入力手段としての教師データ入力部121を有している。又、教師データ入力部121は被写体検出のための教師データを入力する教師データ入力ステップを実行する。
 又、教師データ入力部121では、教師データとして、画像データと、目的とする被写体が存在する前記画像データの被写体領域情報とをセットとし、複数セットの教師データを入力可能であって、その複数セットをサーバー110へ送信可能である。
 サーバー110では、携帯端末120から送信された教師データを取得し、取得した教師データに基づき辞書データ生成部111で辞書データを生成する。生成された辞書データは撮像装置100へ送信される。実施例1では、辞書生成手段としての辞書データ生成部111は、撮像装置とは異なる情報処理サーバーとしてのサーバー110に設けられている。
 撮像装置100では、サーバー110から送信された辞書データを受信し、受信した辞書データに基づき被写体検出部101でニューラルネットワークに基づく推論処理を行う。次いで、推論結果に基づき、撮像制御部102においてオートフォーカスなどの撮像制御を実行する。即ち、撮像装置100は、辞書データに基づき被写体検出を行い、被写体検出により検出された被写体に対して所定の撮像制御(オートフォーカスや露出制御等)を行う。
 撮像装置100の機種によって、被写体検出のネットワーク構造の制約が異なる場合がある。その場合、ネットワーク構造の制約に応じて辞書データも異なる。そこで、携帯端末120には、ネットワーク構造指定手段としてのネットワーク構造指定部122が設けられている。ネットワーク構造指定部122では、撮像装置の機種名やIDなどを指定することによって、ネットワーク構造の制約条件等をネットワーク構造に関する情報として指定し、サーバー110へ送信する。
 即ち、ネットワーク構造指定部122はネットワーク構造に関する情報を指定するネットワーク構造指定ステップを実行する。
 サーバー110における、辞書データ生成部111は、教師データとネットワーク構造に関する情報に基づき被写体検出のための辞書データを生成する。
 図2は実施例1の撮像装置100の構成例を示すブロック図である。図2に示すように、撮像装置100は、CPU201と、メモリ202と、不揮発性メモリ203と、操作部204と、ニューラルネットワーク処理部205と、撮像部212と、画像処理部213と、符号化処理部214とを有している。更に、撮像装置100は、表示制御部215と、表示部216と、通信制御部217と、通信部218と、記録媒体制御部219と、内部バス230とを有している。
 又、撮像装置100は、撮影レンズ211を用いて被写体の光学像を撮像部212の画素アレイに結像するが、撮影レンズ211は、撮像装置100のボディ(筐体、本体)から、着脱不能であっても良いし、着脱可能であっても良い。又、撮像装置100は、記録媒体制御部219を介して画像データの書き込み及び読み出しを記録媒体220に対して行うが、記録媒体220は、撮像装置100に着脱可能であっても良いし、着脱不能であっても良い。
 CPU201は、不揮発性メモリ203に記憶されているコンピュータプログラムを実行することによって、内部バス230を介して撮像装置100の各部(各機能ブロック)の動作を制御する。
 メモリ202は、書き換え可能な揮発性メモリである。メモリ202は、撮像装置100の各部の動作を制御するためのコンピュータプログラム、撮像装置100の各部の動作に関するパラメータ等の情報、通信制御部217によって受信される情報等を一時的に記録する。又、メモリ202は、撮像部212によって取得された画像、画像処理部213、符号化処理部214等によって処理された画像及び情報を一時的に記録する。メモリ202は、これらを一時的に記録するために十分な記憶容量を備えている。
 不揮発性メモリ203は、電気的に消去及び記録が可能なメモリであり、例えばEEPROM、ハードディスク等が用いられる。不揮発性メモリ203は、撮像装置100の各部の動作を制御するコンピュータプログラム及び撮像装置100の各部の動作に関するパラメータ等の情報を記憶する。かかるコンピュータプログラムにより、撮像装置100によって行われる各種動作が実現される。更に、不揮発性メモリ203は、ニューラルネットワーク処理部205で使用する、ニューラルネットワークの処理内容を記述したコンピュータプログラムと、重み係数やバイアス値等の学習済み係数パラメータを格納する。
 尚、重み係数とはニューラルネットワークにおいてノード間の接続の強さを示すための値であり、バイアスは重み係数と入力データの積算値に対してオフセットを与えるための値である。不揮発性メモリ203は、学習済み係数パラメータと、ニューラルネットワークの処理を記述したコンピュータプログラムとを夫々複数保持することが可能である。
 尚、メモリ203ではなくメモリ202に、上述したニューラルネットワーク処理部205で使用する、ニューラルネットワークの処理を記述したコンピュータプログラム及び学習済み係数パラメータを、夫々一時的に複数格納するようにしても良い。尚、ニューラルネットワークの処理を記述したコンピュータプログラム及び学習済み係数パラメータが、被写体検出の辞書データに相当する。
 操作部204は、撮像装置100を操作するためのユーザインタフェースを提供する。操作部204は、電源ボタン、メニューボタン、撮影用のレリーズボタン、動画録画ボタン、キャンセルボタン等の各種ボタンを含んでおり、各種ボタンはスイッチ、タッチパネル等により構成される。CPU201は、操作部204を介して入力されたユーザーの指示に従って撮像装置100を制御する。
 尚、ここでは、操作部204を介して入力される操作に基づいてCPU201が撮像装置100を制御する場合を例に説明したが、これに限定されるものではない。例えば、不図示のリモートコントローラ、携帯端末120から通信部218を介して入力される要求に基づいて、CPU201が撮像装置100を制御しても良い。
 ニューラルネットワーク処理部205では、辞書データに基づく被写体検出部101の推論処理を行う。詳細は、図3を用いて後述する。
 撮影レンズ(レンズユニット)211は、ズームレンズ、フォーカスレンズ等を含むレンズ群、不図示のレンズ制御部、不図示の絞り等によって構成される。撮影レンズ211は、画角を変更するズーム手段として機能し得る。撮影レンズ211のレンズ制御部は、CPU201から送信される制御信号により、焦点の調整及び絞り値(F値)の制御を行う。
 撮像部212は、動画像を含む複数の画像を順次取得する取得手段として機能し得る。撮像部212としては、例えばCCD(電荷結合素子)イメージセンサ、CMOS(相補型金属酸化膜半導体)イメージセンサ等が用いられる。撮像部212は、被写体の光学像を電気信号に変換する光電変換部(画素)が行列状、即ち、2次元的に配列された不図示の画素アレイを有している。当該画素アレイには、被写体の光学像が撮影レンズ211によって結像される。撮像部212は、撮像した画像を画像処理部213やメモリ202に出力する。尚、撮像部212は、静止画像を取得することも可能である。
 画像処理部213は、撮像部212から出力される画像データ、又は、メモリ202から読み出された画像データに対し、所定の画像処理を行う。当該画像処理の例としては、ダイナミックレンジ変換処理、補間処理、縮小処理(リサイズ処理)、色変換処理等が挙げられる。又、画像処理部213は、撮像部212によって取得された画像データを用いて、露光制御、測距制御等のための所定の演算処理を行う。
 そして画像処理部213による演算処理によって得られた演算結果に基づいて、露光制御、測距制御等がCPU201によって行われる。具体的には、AE(Auto Exposure)処理、AWB(Auto White Balance)処理、AF(Auto Focus)処理等がCPU201によって行われる。これら撮影制御は、ニューラルネットワーク処理部205による被写体検出結果を参照して行われる。
 符号化処理部214は、画像処理部213からの画像データに対してフレーム内予測符号化(画面内予測符号化)、フレーム間予測符号化(画面間予測符号化)等を行うことによって、画像データのサイズを圧縮する。
 表示制御部215は、表示部216を制御する。表示部216は、不図示の表示画面を備える。表示制御部215は、表示部216の表示画面に表示可能な画像を生成し、当該画像、即ち、画像信号を表示部216に出力する。又、表示制御部215は表示部216に画像データを出力するだけでなく、通信制御部217を介して外部機器に画像データを出力することも可能である。表示部216は、表示制御部215から送られてくる画像信号に基づいて、表示画面に画像を表示する。
 表示部216は、表示画面にメニュー等の設定画面を表示する機能であるOSD(On Screen Display)機能を備えている。表示制御部215は、画像信号にOSD画像を重畳して表示部216に画像信号を出力し得る。ニューラルネットワーク処理部205による被写体検出結果に基づき被写体枠を生成して、画像信号に重畳して表示することもできる。表示部216は、液晶ディスプレイ、有機ELディスプレイ等により構成されており、表示制御部215から送られてきた画像信号を表示する。表示部216は、例えばタッチパネルを含んでも良い。表示部216がタッチパネルを含む場合、表示部216は、操作部204としても機能し得る。
 通信制御部217は、CPU201に制御される。通信制御部217は、IEEE802.11等のような無線通信規格に適合する変調信号を生成して、当該変調信号を通信部218に出力すると共に、外部の機器からの変調信号を、通信部218を介して受信する。又、通信制御部217は映像信号の制御信号を送受信することが可能である。例えば、通信部218を制御して、HDMI(登録商標)(High Definition Multimedia Interface)やSDI(Serial Digital Interface)などの通信規格に準拠した映像信号を送るようにしても良い。
 通信部218は映像信号と制御信号を物理的な電気信号に変換して外部機器と送受信する。尚、通信部218によって映像信号や制御信号の送受信を行うだけでなく、ニューラルネットワーク処理部205における被写体検出のための辞書データの受信等も行う。
 記録媒体制御部219は、記録媒体220を制御する。記録媒体制御部219は、CPU201からの要求に基づいて、記録媒体220を制御するための制御信号を記録媒体220に出力する。記録媒体220としては、例えば不揮発性メモリや磁気ディスク等が用いられる。記録媒体220は、上述したように、着脱可能であっても良いし、着脱不能であっても良い。記録媒体220は、符号化された画像データ等を、記録媒体220のファイルシステムに適合した形式でファイルとして保存する。
 各々の機能ブロック201~205、212~215、217、219は、内部バス230を介して互いにアクセス可能となっている。
 尚、図2に示される機能ブロックの一部は、撮像装置100に含まれるコンピュータとしてのCPU201に、記憶媒体としての不揮発性メモリ203等に記憶されたコンピュータプログラムを実行させることによって実現されている。しかし、それらの一部又は全部をハードウェアで実現するようにしても構わない。ハードウェアとしては、専用回路(ASIC)やプロセッサ(リコンフィギュラブルプロセッサ、DSP)などを用いることができる。
 図3は、実施例1に係るニューラルネットワーク処理部205の概略構成を示すブロック図である。
 ニューラルネットワーク処理部205は予め学習済み係数パラメータを用いてニューラルネットワークの処理を実行する。尚、ニューラルネットワークの処理は、例えばCNNの全結合層などで構成されるものであるが、これに限定するものではない。また上述の学習済み係数パラメータは、全結合層では各層のノード間を結ぶエッジ毎に持つ重み係数やバイアス値、CNNにおけるカーネルの重み係数やバイアス値に相当する。
 図3に示すように、ニューラルネットワーク処理部205はニューラルコア300の中に、CPU301、積和演算回路302、DMA(Dynamic Memory Access)303、内部メモリ304等が含まれる。
 CPU301は、ニューラルネットワークの処理内容を記述したコンピュータプログラムを、内部バス230を介してメモリ202又は不揮発性メモリ203から、或いは内部メモリ304から取得し、これを実行する。またCPU301は積和演算回路302及びDMA303の制御も行う。
 積和演算回路302は、ニューラルネットワークにおける積和演算を行う回路である。積和演算回路302は、積和演算部を複数有し、これらは並列に積和演算の実行をすることが可能である。又、積和演算回路302は、複数の積和演算部により並列に実行される積和演算の際に算出される中間データを、DMA303を介して内部メモリ304に出力する。
 DMA303は、CPU301を介さずにデータ転送に特化した回路であり、内部バス230を介してメモリ202又は不揮発性メモリ203と内部メモリ304との間のデータ転送を行う。又、DMA303は積和演算回路302と内部メモリ304と間のデータ転送も行う。DMA303が転送するデータとしては、ニューラルネットワークの処理内容を記述したコンピュータプログラムや、学習済み係数パラメータ、積和演算回路302で算出した中間データ等である。
 内部メモリ304は、ニューラルネットワークの処理内容を記述したコンピュータプログラムや、学習済み係数パラメータ、積和演算回路302で算出した中間データ等を格納する。又、内部メモリ304は複数のバンクを有してもよく、動的にバンクを切り替えても良い。
 尚、内部メモリ304の容量や、積和演算回路302の演算仕様には制約があり、所定の制約を満たしてニューラルネットワークの処理をすることとなる。撮像装置の機種によって、制約条件は異なる場合があり、制約条件が異なればコンピュータプログラムや、学習済み係数パラメータが異なる。つまり、被写体検出の辞書データが異なる。
 図4は、ネットワーク構造の観点で制約条件の例を示した図である。
 図4では横軸が撮像装置の機種名、縦軸が各ネットワーク構造の制約等のネットワーク構造に関する情報を示している。入力データの画像サイズ、入力データのチャンネル数、ネットワークのパラメータ数は内部メモリ304の容量に依存する制約であり、撮像装置Bに対して撮像装置Aはメモリ容量が少なく、制約が大きい。
 又、レイヤーの種類や活性化関数の種類は、積和演算回路302の演算仕様の制約であり、撮像装置Bに対して撮像装置Aは表現可能な演算の種類が少なく制約が大きい。即ち、ネットワーク構造に関する情報は、入力データの画像サイズ、入力データのチャンネル数、ネットワークのパラメータ数、メモリ容量、レイヤーの種類や活性化関数の種類、積和演算仕様の少なくとも1つに関する情報を含む。
 図5は、サーバー110のハードウェア構成例を示すブロック図である。
 図5に示す様に、サーバー110は、CPU501と、メモリ502と、表示部503と、操作部505と、記録部506と、通信部507と、ニューラルネットワーク処理部508とを有している。
 尚、図5に示される機能ブロックの一部は、サーバー110に含まれるコンピュータとしてのCPU501に、記憶媒体としての記録部506等に記憶されたコンピュータプログラムを実行させることによって実現されている。しかし、それらの一部又は全部をハードウェアで実現するようにしても構わない。ハードウェアとしては、専用回路(ASIC)やプロセッサ(リコンフィギュラブルプロセッサ、DSP)などを用いることができる。
 CPU501は、記録部506に記憶されているコンピュータプログラムを実行することによって、サーバー110を構成するすべての処理ブロックの制御を行う。
 メモリ502は、主にCPU501のワークエリアや、データの一時バッファ領域として使用されるメモリである。
 表示部503は、液晶パネル、又は有機ELパネル等で構成され、CPU501の指示に基づいて、操作画面等の表示を行う。
 内部バス504は、サーバー110内の各処理ブロックを相互に接続するためのバスである。
 操作部505は、キーボード、マウス、ボタン、タッチパネル、又はリモコン等によって構成され、ユーザーの操作指示を受け付ける。操作部505から入力された操作情報は、CPU501に送信され、CPU501は操作情報に基づいて各処理ブロックの制御を実行する。
 記録部506は記録媒体によって構成され、CPU501の指示に基づいて記録媒体に様々なデータを格納したり読み出したりする処理ブロックである。記録媒体は、例えばEEPROM、内蔵フラッシュメモリ、内蔵ハードディスク、或いは着脱可能なメモリカード等で構成される。記録部506には、コンピュータプログラムの他に、ニューラルネットワーク処理部508における学習用データである入力データと教師データや辞書データなどを保存しておく。
 通信部507は、無線LAN及び有線LANの通信を行うためのハードウェア等を備えている。無線LANにおいては、例えばIEEE802.11n/a/g/b方式の処理を行う。通信部507は、外部のアクセスポイントと無線LANで接続し、アクセスポイント経由で他の無線通信機器と無線LAN通信を行う。又、通信部507は有線LANにおいてEthernetケーブル等により外部ルータ、又はスイッチングハブを介して通信を行う。通信部507は、撮像装置100を含む、外部の機器と通信を行い、教師データ、辞書データなどの情報のやり取りを行う。
 ニューラルネットワーク処理部508は、通信部507を介して得られた教師データと、通信部507を介して取得したネットワーク構造の制約情報より、ニューラルネットワークのモデルを選定して、ニューラルネットワークの学習処理を行う。ニューラルネットワーク処理部508は、図1の辞書データ生成部111に相当し、教師データを用いて異なるクラスの被写体の夫々に対応する辞書データを構築するための学習処理を行う。
 ニューラルネットワーク処理部508はGPU(Graphic Processing Unit)や、DSP(Digital Signal Processor)等で構成される。又、ニューラルネットワーク処理部508により行われた学習処理の結果である、辞書データは記録部506に保持される。
 図6は、携帯端末120のハードウェア構成例を示すブロック図である。
 図6に示す様に、携帯端末120は、CPU601と、メモリ602と、撮像部603と、表示部604と、操作部605と、記録部606と、通信部607と、内部バス608とを有している。図6に示される機能ブロックの一部は、携帯端末120に含まれるコンピュータとしてのCPU601に、記憶媒体としての記録部606等に記憶されたコンピュータプログラムを実行させることによって実現されている。しかし、それらの一部又は全部をハードウェアで実現するようにしても構わない。ハードウェアとしては、専用回路(ASIC)やプロセッサ(リコンフィギュラブルプロセッサ、DSP)などを用いることができる。
 CPU601は、記録部606に記憶されているコンピュータプログラムを実行することによって、携帯端末120を構成するすべての処理ブロックの制御を行う。
 メモリ602は、主にCPU601のワークエリアや、データの一時バッファ領域として使用されるメモリである。OS(Operation System)やアプリケーションソフト等のプログラムは、メモリ602上に展開され、CPU601により実行される。
 撮像部603は、光学レンズ、CMOSセンサ、デジタル画像処理部等を備え、光学レンズを介して入力される光学像を撮像し、デジタルデータに変換することにより撮像画像データを取得する。撮像部603によって取得された撮影画像データは、メモリ602に一時的に格納され、CPU601の制御に基づいて処理される。例えば、記録部606による記録媒体への記録や、通信部607による外部機器への送信などが行われる。また撮像部603は、レンズ制御部も備えており、CPU601からの指令に基づいて、ズーム、フォーカス、絞り調整等の制御を行う。
 表示部604は、液晶パネル、又は有機ELパネル等で構成され、CPU601の指示に基づいて、表示を行う。撮影画像から教師データの画像を選択すると共に、ネットワーク構造を指定するために、操作画面や、撮影画像等の表示を行う。
 操作部605は、キーボード、マウス、ボタン、十字キー、タッチパネル、又はリモコン等によって構成され、ユーザーの操作指示を受け付ける。操作部605から入力された操作情報は、CPU601に送信され、CPU601は操作情報に基づいて各処理ブロックの制御を実行する。
 記録部606は、大容量の記録媒体によって構成され、CPU601の指示に基づいて記録媒体に様々なデータを格納したり読み出したりする処理ブロックである。記録媒体は、例えば内蔵フラッシュメモリ、内蔵ハードディスク、或いは着脱可能なメモリカード等で構成される。
 通信部607は、アンテナ、無線LAN、有線LAN等の通信を行うための処理ハードウェア等を備え、例えばIEEE802.11n/a/g/b方式の無線LAN通信を行う。通信部607は、外部のアクセスポイントと無線LANで接続し、アクセスポイント経由で他の無線通信機器と無線LAN通信を行う。通信部607によって、ユーザーから操作部605を介して入力された教師データや、ネットワーク構造をサーバー110へ送信する。
 内部バス608は、携帯端末SP内の各処理ブロックを相互に接続するためのバスである。
 図7は、実施例1に係る撮像装置の処理を示すフローチャートであり、図7を用いて、実施例1において撮像装置100で実行される辞書データを受信し、被写体検出を行って撮像制御する処理の流れについて説明する。この動作は、撮像装置100の電源がオンの状態において、不揮発性メモリ203に格納されているコンピュータプログラムがメモリ202に展開され、CPU201がメモリ202のコンピュータプログラムを読み出して実行することにより実現される。
 ステップS701において、撮像装置100は、サーバー110から未だ受信していない辞書データがないかを、通信部218を介してサーバー110に確認する。サーバー110から受信していない辞書データがサーバー110にあれば(ステップS701でYESと判定)、ステップS702において、通信部218を介してサーバー110から辞書データを取得し、不揮発性メモリ203へ記憶する。サーバー110から受信していない辞書データがなければ(ステップS701でNOと判定)、ステップS703へ進む。
 ステップS703では、不揮発性メモリ203に記録されている辞書データを用いて、ニューラルネットワーク処理部205で被写体検出を行う。辞書データは、不揮発性メモリ203から、メモリ202又は、ニューラルネットワーク処理部205の内部メモリ304へコピーして、被写体検出で使用するようにしても良い。又、ステップS703における被写体検出は、撮像部212によって取得された画像データを入力データとして行われる。
 ステップS704では、被写体検出結果に基づき撮像部212でオートフォーカスなどの撮像制御を行う。即ち、検出された被写体にピントを合わせると共に、適正露出となるようにオートフォーカスや露出制御などの撮像制御を行う。ここで、ステップS703,S704は、辞書データに基づき被写体検出を行い、被写体検出により検出された被写体に対して所定の撮像制御を行う撮像ステップとして機能している。
 本実施例では、サーバーから辞書データを取得するステップと、取得した辞書データに基づく被写体検出および撮影制御を同一フローで行っている。しかし、これに限らず、たとえば非撮影時にあらかじめサーバーに問合せ辞書データを取得するモードないしタイミングが設けられていてもよい。また、被写体検出に用いられる辞書データは、必ずしもサーバーに問合せて、未取得であった辞書データを取得し、それをそのまま使わなくても良い。例えば、辞書データを利用する前に(例えば、ステップS704の前に)辞書データを決定するためのステップとして、例えばユーザー操作を受け付けるステップや自動で決定するステップを設けても良い。
 図8A、図8Bは、辞書データに基づく被写体検出の例を説明するための図である。
 実施例1の辞書データは、二ューラルネットワーク処理部205で被写体検出タスクを実行するための処理内容を記述したコンピュータプログラムや、学習済み係数パラメータを被写体の種類ごとに持っている。
 例えば、被写体の種類としては、人物や動物の犬、猫や自動車などの乗物、バイクなどがある。
 図8A、図8Bの801、805は表示部216のメニュー画面の例を示しており、検出する被写体を、操作部204を介してユーザーが設定する。図8Aでは、検出する被写体として「人物」802が設定されている。「人物」が設定されている場合、予め不揮発性メモリ203に格納されている「人物」の辞書データを用いて被写体検出を行う。803は表示部216で表示されている撮影画像であり、「人物」の顔が検出され、枠804が重畳されて表示されている状態を示している。
 図8Bでは、検出する被写体として「カスタム」806が設定されている。「カスタム」の場合は、サーバー110より受信したカスタム用の辞書データとして例えば「魚」を用いて被写体検出を行う。803は表示部216で表示されている撮影画像であり、「カスタム」の辞書データが「魚」の場合であり、検出された魚に枠806が重畳されて表示された状態を示している。
 図9は、実施例1に係るサーバーの処理を示すフローチャートである。
 尚、図9の処理は、サーバー110の電源がオンの状態において、記録部506に格納されているコンピュータプログラムがメモリ502に展開され、CPU501がメモリ502のコンピュータプログラムを読み出して実行することにより実現される。
 図9を用いて、携帯端末120から教師データとネットワーク構造に関する情報を取得し、辞書データを生成し、生成した辞書データを撮像装置100へ送信するサーバー110の処理に関して抜粋して説明する。
 ステップS901において、サーバー110は、通信部507を介して、携帯端末120より教師データを取得する。ここで、ステップS901は被写体検出のための教師データを取得する教師データ取得手段として機能している。又、ステップS902において、通信部507を介して、携帯端末120よりネットワーク構造に関する情報も取得し、ネットワーク構造を特定する。ネットワーク構造に関する情報とは、例えば、撮像装置の機種名等であり、撮像装置の機種名とネットワーク構造との対応関係が記録部506に記録されているものとする。ステップS902は、ネットワーク構造に関する情報を取得するネットワーク構造取得手段として機能している。
 次いで、ステップS903において、辞書データ生成に必要なデータが揃っているかを確認する。データが揃っていれば(ステップS903でYESと判定)、ステップS904へ進む。データが揃っていなければ(ステップS903でNOと判定)、ステップS907へ進む。
 例えば、教師データに画像データはあるが、被写体領域が設定されていないケースではステップS903でNOと判定される。
 ステップS904において、ニューラルネットワーク処理部508で辞書データの生成を行う。辞書データの生成としては、予め多数の辞書データを生成しておき、教師データから適切な辞書データを選択する方法(例えば図10A)がある。又、教師データから学習によって辞書データを生成する方法(例えば図10B)も適用可能である。ステップS904は辞書生成手段(辞書生成ステップ)として機能している。
 図10A、図10Bは、実施例1に係る辞書データ生成の処理の流れを説明するためのフローチャートである。
 図10Aは選択に基づく辞書データ生成例の処理の流れを示すフローチャートである。ステップS1001aにおいて、教師データの画像データから被写体検出を行う。ここでの被写体検出は、複数種類の被写体を検出できるものとして、YOLOやFastR-CNNなど公知の被写体検出方法が適用できる。
 検出結果として、xy座標の位置情報、サイズ、検出スコア、被写体種類等が出力される。ステップS1002aにおいて、教師データの領域情報と被写体検出結果の位置情報及びサイズから、教師データの領域と合致する検出結果を抽出する。
 ステップS1003aにおいて、抽出した検出結果から教師データの種類を推定する。複数の教師データがある場合、被写体種類毎のスコアの平均値から被写体の種類を決める。
 ステップS1004aにおいて、推定した辞書データを選定する。辞書データは、ネットワーク構造の種類毎に予め複数用意しておき、目的とするネットワーク構造の辞書データを選定する。ここで、ステップS1004aは、予め用意した複数の辞書データから前記教師データの被写体に適した辞書を選定する辞書生成手段として機能している。
 図10Bは学習に基づく辞書データ生成例の処理の流れを示すフローチャートである。辞書データの初期値が乱数の状態から学習をするとなると多数の教師データが必要となる。多数の教師データが必要となるとユーザーの教師データを入力する手間がかかるため、少数の教師データで学習する方法が望まれる。
 そこで、ステップS1001bにおいて、多種多様な物体を予め学習した辞書データを初期値に設定する。ステップS1002bにおいて、教師データに基づき学習を行う。辞書データの初期値が乱数ではなく、物体らしさを学習したものであるので、所謂ファインチューニングとなる。ここで、ステップS1002bは、教師データに基づき学習をすることによって前記辞書データを生成する辞書生成手段として機能している。
 図9のフローチャートの説明に戻る。ステップS904において辞書データ生成を行うと、ステップS905で辞書データ生成に成功できたか否かを判定する。辞書データの生成が図10Aのような選定に基づく手法の場合には、辞書選択できた場合は成功、教師データに属する検出結果が得られなかったなど辞書選択ができなかった場合は失敗となる。又、辞書データの生成が図10Bのような学習に基づく手法の場合には、例えば、学習の損失関数の値が、所定の閾値以下であれば成功、所定の閾値よりも大きければ失敗とする。
 辞書データの生成に成功すれば(ステップS905でYESと判定)、ステップS906において、辞書データを通信部507へ介して、撮像装置100へ送信する。ここでステップS906は辞書生成手段により生成した辞書データを撮像装置100へ送信する辞書データ送信手段として機能している。
 辞書データの生成に失敗すれば(ステップS905でNOと判定)、ステップS907において、通信部507へ介して、携帯端末120へエラーが発生したことを通知する。
 図11は、実施例1に係る携帯端末120で実行される処理の流れの例を示すフローチャートである。
 携帯端末120において、教師データとネットワーク構造に関する情報を入力し、サーバー110へ学習開始を通知するための、携帯端末120での処理に関して抜粋して説明する。この動作は、携帯端末120の電源がオンの状態において、記録部606に格納されているコンピュータプログラムがメモリ602に展開され、CPU601がメモリ602のコンピュータプログラムを読み出して実行することにより実現される。
 図12A、図12B、図12C、図12Dを用いて、図11のフローチャートの処理の流れを説明する。
 図12A、図12B、図12C、図12Dは、実施例1に係る携帯端末の表示部604の教師データ及びネットワーク構造の入力画面例を説明するための図である。
 図11のステップS1101において、ユーザーは、操作部605を介して、記録部606に記憶されている撮影画像の中から教師データとして利用する画像の選択を行う。図12Aは、表示部604による画像選択画面の例を示す図であり、1201に示すように撮影画像が12個表示されている。ユーザーはこの12個の撮影画像の中から操作部605によるタッチ等で教師データを例えば2つ選択する。1202のように撮影画像の左上に丸が表示されているものが選択された教師データの画像とする。
 ステップS1102において、ユーザーは、操作部605を介して、教師データとして選択した2つの画像に対して、画像中の目的とする被写体領域を指定する。図12Bは、表示部604による被写体領域の入力画面の例を示す図であり、1203の矩形枠は、ユーザーが入力した被写体領域を示す。教師データとして選択した各画像に対して、被写体領域を設定する。被写体領域の設定方法としては、操作部605の一部であり表示部604と一体のタッチパネルを介して表示された画像から領域選択を直接行っても良い。
 或いは、CPU601などにより簡易的にエッジ等の特徴量で検出された被写体枠から選択、微調整するなどして選択しても良い。
 ステップS1103において、ユーザーは、操作部605を介して、ネットワーク構造の制約を指定(ネットワーク構造に関する情報を指定)する。具体的には、例えば撮像装置の種別を選定する。図12Cは、表示部604によるネットワーク構造の入力画面の例を示す図であり、撮像装置の機種名が複数個表示されている。この中からユーザーは辞書データを用いた撮像制御を行いたい撮像装置の機種名を1つ選択する。1204が選択されたたものとする。
 ステップS1104において、ユーザーは、操作部605を介して、辞書データ生成の開始を決定する。図12Dは、表示部604による辞書データ生成の開始の確認画面例を示す図であり、YESかNOかを入力する。1205に示すYESが選択されれば、通信部607を介して、サーバー110へ教師データと撮像装置の種別の情報が送信され、サーバー110において辞書データ生成が行われる。図12Dで、NOが選択されれば、処理を終了する。
 尚、教師データの画像データ中の被写体領域が正事例、その他の領域が負事例として、サーバー110での辞書データ生成で扱われる。上述した説明では、被写体領域が存在する画像を選択する例を示したが、被写体領域が存在しない画像を選択しても良い。その場合は、被写体領域の情報は入力せず、画像全体を負事例として扱う。
 以上のように、実施例1の撮像システムによれば、撮像装置で利用可能な、ユーザーによる任意の辞書データが生成可能となる。
 <実施例2>
 本発明の実施例2に係る撮像システムに関して、以下に詳細に説明する。実施例1と同様な部分に関しては、説明を省略する。
 図13は、実施例2の係る撮像システムの構成例を示す図であり、撮像システムは撮像装置100、情報処理装置としてのサーバー110、情報入力装置としての携帯端末120からなる。又、撮像装置100とサーバー110と携帯端末120が無線による通信ネットワークにより接続される。
 実施例2においても、実施例1と同様の方法で、携帯端末120にインストールされた所定のアプリケーションソフトを用いて、ユーザーによる任意の(カスタムの)被写体検出の辞書データが生成可能となる。但し、実施例2では、課金によりユーザーによるカスタムの辞書データ(ユーザーカスタム辞書と呼ぶ。)を生成するサービスを、撮像装置100で有効化できるものとする。
 この課金サービスにおいて、ユーザーカスタム辞書が意図したものになっているかを確認できなければ、辞書データの価値が判断できない。
 そこで、撮像装置100で、ユーザーカスタム辞書に基づく検出結果を枠表示する。それにより検出能力の評価が可能となる。そして、当該辞書データを購入することで、撮像装置100においてユーザーカスタム辞書を用いた撮像制御機能が有効(利用可能)となる課金システムとする。
 携帯端末120では、辞書有効化部123を備える。そして、ユーザーカスタム辞書が、携帯端末120における課金によって有効化されれば、撮像装置100においてユーザーカスタム辞書を用いた被写体検出結果に基づく撮像制御を可能とする。ここで、辞書有効化部123は、辞書生成手段によって生成された辞書データを課金によって有効化する辞書有効化手段として機能している。
 図14は、実施例2に係る撮像装置における処理例を示すフローチャートであり、図14を用いて、実施例2における撮像装置100で実行される処理の流れに関して説明する。このフローチャートの動作は、撮像装置100の電源がオンの状態において、不揮発性メモリ203に格納されているコンピュータプログラムがメモリ202に展開され、CPU201がメモリ202のコンピュータプログラムを読み出して実行することにより実現される。
 ステップS1401において、ニューラルネットワーク処理部205では、ユーザーカスタム辞書を用いて被写体検出を行う。尚、図8Bで説明したように、撮像装置100はカスタム辞書を使う状態に設定されているものとする。
 ステップS1402において、表示制御部215によって、被写体検出結果を枠として撮像装置の撮影画像に重畳して表示手段としての表示部216で表示する。これによって、ユーザーは、被写体検出の辞書データがユーザーの意図したものになっているかを確認できる。目的としている被写体が検出され、目的としている被写体以外が検出されない状態であれば、ユーザーの意図した辞書データが生成できていると評価できる。被写体検出の辞書データがユーザーの意図したものでなければ、ユーザーは携帯端末12において教師データを追加して、辞書データを再生成しても良い。すなわち、ステップS1402で被写体検出結果を表示するとともに辞書データの再生成フロー(図11)へ移行するか否かを選択させる画面を表示してもよい。
 ステップS1403において、CPU201は、ユーザーカスタム辞書が有効な状態であるかを判定する。ユーザーカスタム辞書の初期状態は無効状態とし、携帯端末120より、有効状態に変更される。携帯端末120において、操作部605を介して、課金により辞書データを有効にする処理が実行されれば、通信部607を介して、撮像装置100へそのことが通知される。
 ステップS1403において、ユーザーカスタム辞書が有効な状態であれば、ステップS1404において、当該辞書データによる検出結果を用いた撮像制御が行われる。ステップS1403において、ユーザーカスタム辞書が無効な状態であれば、ステップS1405において、当該辞書データによる検出結果を利用せずに撮像制御が行われる。
 即ち、辞書有効化手段によって辞書データが有効化されている場合には、撮像装置100は、被写体検出により検出された被写体に対してユーザーカスタム辞書データに基づく所定の撮像制御(AFやAEなど)を行う。又、辞書有効化手段によって辞書データが有効化されていない場合には、撮像装置100は、ユーザーカスタム辞書データに基づく所定の撮像制御を行わないように制御される。
 図15A、図15Bは、ユーザーカスタム辞書の有効化前後の撮像制御に関して説明する図であり、図15Aは、ユーザーカスタム辞書の有効化後の表示部216の撮影画像の例である。撮影画像1501は、撮像装置100の静止画記録スイッチがOFFな状態であり、ユーザーカスタム辞書に基づく被写体検出結果1502が枠として撮像装置の撮影画像に重畳されて表示されている。撮影画像1503では、撮像装置100の静止画記録スイッチがONになり、ユーザーカスタム辞書による被写体検出結果1504に基づき、オートフォーカスや露出制御などの撮像制御を行っている状態を示す。
 図15Bは、ユーザーカスタム辞書の有効化前の表示部216の撮影画像の例である。撮影画像1505は、撮像装置100の静止画記録スイッチがOFFな状態であり、ユーザーカスタム辞書に基づく被写体検出結果1506が枠として撮像装置の撮影画像に重畳されて表示される。ここで、図15Aでは被写体検出結果1502は実線となっているのに対して、被写体検出結果1506は点線で表現している。これは、ユーザーカスタム辞書が未だ有効でない(無効)ことをユーザーが確認しやすいようにするためである。尚、実線と点線に限らず、枠の形状や色などを変えても良い。
 撮影画像1507では、撮像装置100の静止画記録スイッチがONになり、ユーザーカスタム辞書とは異なる被写体検出結果1508に基づき、オートフォーカスや露出制御などの撮像制御が行なわれている状態を示す。撮影画像1507では、ユーザーカスタム辞書とは異なる、「人物」の顔に関する辞書データが用いられて、被写体検出結果1508として、人物の顔に枠が重畳表示されている。
 上述した説明では、ユーザーカスタム辞書が1種類の場合を説明したが、1種類に限定されず複数種類設定できるようにしても良い。その場合、ユーザーカスタム辞書毎に課金によって有効/無効の処理が適用される。即ち、辞書有効化手段は、辞書生成手段によって生成された辞書データが複数ある場合に、課金により辞書データ毎の有効化を行う。
 また、上述した説明では、ユーザーカスタム辞書の有効/無効を課金対象とする例を示したが、予め各装置内やサーバーに登録された、サービス提供者により作成された既成の辞書データについても、課金により辞書を追加するサービスとして成立する。すなわち、各装置のメモリ内あるいはサーバー110に予め記憶させた既成の辞書データに対しても、辞書有効化手段による有効、無効の設定が可能となるようにしても良い。
 以上のように、実施例2の撮像システムによれば、取得した辞書データの被写体検出性能を撮像装置100で確認したうえで、当該辞書データの購入判断が可能となる。また、当該辞書データの被写体検出性能が十分であるか否かを確認できるので、教師データを再度提供し、作成した辞書の被写体検出性能をさらに強化することが可能となる。
 <実施例3>
 本発明の実施例3に係る撮像システムに関して、以下に詳細に説明する。実施例1と同様な部分に関しては、説明を省略する。
 図16は、実施例3に係る撮像システムの構成図であり、実施例3に係る撮像システムは、撮像装置100、情報処理装置としてのサーバー110からなるシステムであり、撮像装置100とサーバー110とが無線による通信ネットワークにより接続される。実施例1との違いは、情報処理端末としての携帯端末120が存在せず、撮像装置100において、教師データとネットワーク構造の入力の役割を担う点にある。
 実施例1の撮像システムでは、ユーザーによる任意の辞書データが生成可能となる。ただし、ユーザーによる教師データの作成が必要であり、手間がかかる。この手間を解消するため、実施例3では教師データの作成をアシストするように構成されている。即ち、実施例3に係る撮像システムでは、撮像装置100に教師データ生成手段としての教師データ生成部103を備え、その結果に基づきユーザーが教師データ入力部121で教師データの入力を行う。
 教師データ生成部103では、被写体検出部101(ニューラルネットワーク処理部205)での推論結果を利用する。被写体検出部101(ニューラルネットワーク処理部205)における処理は、撮影時の撮影制御向けの処理をする場合と、非撮影時の教師データ生成向けの処理をする場合とで処理内容が異なる。詳細は後述する。
 実施例1の撮像システムでは、ネットワーク構造指定部122は撮像装置とは異なる携帯端末120に備えられ、撮像装置の機種によって、ネットワーク構造の制約が異なるため、撮像装置の機種名をユーザーが指定するように構成されていた。一方、実施例3の撮像システムでは、ネットワーク構造指定部122は撮像装置100に備えられており、ユーザーではなく撮像装置100のCPU201がネットワーク構造を指定して、通信部218を介して、サーバー110へ通知するもとのとする。
 尚、図16に示される機能ブロックの一部は、撮像装置100に含まれるコンピュータとしてのCPU201に、記憶媒体としての不揮発性メモリメモリ203等に記憶されたコンピュータプログラムを実行させることによって実現されている。しかし、それらの一部又は全部をハードウェアで実現するようにしても構わない。ハードウェアとしては、専用回路(ASIC)やプロセッサ(リコンフィギュラブルプロセッサ、DSP)などを用いることができる。
 図17A、図17Bは、実施例3における撮像装置100の処理を説明するためのフローチャートである。図17A、図17Bを用いて、実施例3における撮像装置100の撮影時の撮影制御向けと非撮影時の教師データ生成向けのニューラルネットワーク処理の差異に着眼して、処理の流れを説明する。図17Aは撮影時の処理の流れを示すフローチャート、図17Bは非撮影時の処理の流れを示すフローチャートである。
 これらの動作は、撮像装置100の電源がオンの状態において、不揮発性メモリ203に格納されているコンピュータプログラムがメモリ202に展開され、CPU201がメモリ202のコンピュータプログラムを読み出して実行することにより実現される。後述の図18のフローチャートについても同様である。
 図17Aの撮影時の処理では、ステップS1701aにおいて、撮像手段から画像を取得する。当該画像を用いて、ステップS1702aにおいて、被写体検出部101(ニューラルネットワーク処理部205)で被写体検出を行う。この検出結果に基づき、ステップS1703aにおいて、撮像制御部102によって撮像制御を行う。オートフォーカスなどの撮像制御において被写体検出結果を用いるため、被写体検出部101(ニューラルネットワーク処理部205)での被写体検出は高速に処理する必要がある。
 高速処理を行うため、検出する被写体の種類は限定する。例えば、図8A、図8Bを用いて説明したように、メニュー設定で検出する被写体を選択し、選択した被写体のみを検出する辞書データを利用する。検出する被写体を限定することで、被写体の特徴を表現するパラメータが少なくてよく、特徴抽出のため積和演算回数が少なくなるため、高速処理が可能になる。
 一方で、図17Bの非撮影時の処理では、ステップS1701bにおいて、記録手段としての記録媒体220或いはサーバー等から画像を取得する。当該画像を用いて、ステップS1702bにおいて、被写体検出部101(ニューラルネットワーク処理部205)で被写体検出を行う。この検出結果に基づき、ステップS1703bにおいて、教師データの生成を行う。
 ステップS1703bにおいては、ユーザーによる任意の教師データの作成が目的であるため、被写体検出部101(ニューラルネットワーク処理部205)での被写体検出では多種の被写体を検出する必要がある。多種の被写体を検出するためには、被写体の特徴を表現するパラメータを多くする必要があり、特徴抽出のため積和演算回数が多くなる。そのため、低速に処理することになる。
 図18は、図17Bにおける教師データ入力の処理の流れを説明するフローチャートである。又、図19A、図19Bは、図18における教師データ入力画面の1例を示す図である。
 教師データの入力は、ユーザーが撮像装置100の表示部216の画面1900(図19A、図19B)に表示された情報に基づき、操作部204を介して、入力することで行われる。
 ステップS1801において、ユーザーは、記録媒体220に記録されている撮影画像から教師データに利用したい画像を選択する。
 ステップS1802において、ユーザーは選択した画像が正事例であるか、負事例であるかを選択する。選択した画像に目的とする被写体が存在すれば、正事例を選択して、ステップS1803へ進む。一方で、選択した画像に目的とする被写体が存在しなければ、負事例を選択して処理を終了する。この場合、画像全体が負事例の領域として扱われる。例えば、検出したくない被写体を選択する際に利用される。
 ステップS1803において、選択した画像に対して、目的とする被写体の位置を指定する。例えば、操作部204がタッチパネルの場合、タッチすることで目的とする被写体の位置を指定できる。撮影時のフォーカス領域を目的とする被写体の位置の初期値としても良い。図19A、図19Bの1901が選択した画像であり、1902に指定位置の例を示す。
 ステップS1804において、表示部216の画面1900に教師データ候補を表示させ、目的とする被写体領域があるかを確認する。ニューラルネットワーク処理部205の被写体検出結果に基づき、指定位置に近い被写体領域を教師データ候補とする。図19Bに教師データ候補の例を示す。被写体としては同じであるものの、領域が異なる3つの教師データ候補の例を示す。1902は全身を、1903は顔を、1904は瞳を教師データ候補としている。
 ステップS1804において、教師データ候補の中に目的する被写体領域があれば、ステップS1805へ進み、教師データ候補の1つを教師データの正領域とする。ステップS1804において、教師データ候補の中に目的とする被写体領域がなければ、ステップS1806へ進み、ユーザーが教師データとする被写体領域を入力する。
 以上のように、実施例3の撮像システムによれば、撮像装置100自身を用いて教師データ生成ができると共に、教師データ生成のユーザーの負担を軽減できる。
 上述した実施例では、ユーザーカスタムの辞書データは1つの場合に関して説明した。しかしこれに限らず、複数の辞書データを作成し、複数の辞書データを撮像装置100で受信可能な構成であってもよい。このとき、各辞書データを区別・区分する情報が必要となる。そこで、記録部506に記録され、撮像装置100に送信される辞書データには、コンピュータプログラムや学習済み係数パラメータに加え、辞書を識別(表現)する情報がヘッダ情報として付与されるものとする。ヘッダ情報としては例えば辞書データの名称、検出する被写体の種類(分類)、辞書データの作成日、更新日、辞書データの作成者名、辞書データ生成に用いた教師データの枚数(正事例、負事例を区別してもしなくてもよい)、現在のバージョン情報などである。また、辞書データを識別するあるいは評価する上で有効な情報として学習に利用した教師データそのものを付与してもよい。もしくは教師データはサーバー110に記憶され、辞書データには、サーバー110内の該当する教師データのアドレスを記憶しておいてもよい。これらの情報によって、各辞書データが、どのような教師データを使用したかを確認することができる。辞書データに教師データを付帯させる場合、教師データ数が多いとデータ量が多くなってしまうので、付帯上限枚数を設定し、一部の教師データを付帯させるよう構成してもよい。付帯する教師データはユーザーが指定してもよいし、サーバー110のCPU501が評価値に基づいて選択してもよい。
 図20に撮像装置100での辞書データの確認画面の例を示す。図20のメニュー2001、2003、2007、2009はCPU201が辞書データ内容の確認時に表示部216に表示させるメニュー画面の例を示している。メニュー2001は、検出する被写体を、操作部204を介してユーザーが設定するメニュー画面であり、「カスタム」2002を設定している。サーバー110より受信したカスタム用の辞書データが複数ある場合は、カスタム辞書データを選択するメニュー2003へ遷移する。メニュー2003では、カスタム辞書データとして、「魚」、「カブトムシ」、「マスコットA」が撮像装置100に受信された状態を示す。「魚」、「カブトムシ」、「マスコットA」の辞書データの名称は、辞書データのヘッダ情報に記憶されている。この名称は、携帯端末120で、教師データの設定時に操作部605を介して、ユーザーが設定する。メニュー2003では、辞書データとして「魚」2005が選択されており、「魚」の辞書データを用いて被写体検出を行う。ここで、「INFO」2006が操作部204を介して選択されると、「魚」のヘッダ情報を表示したメニュー画面2007へ遷移する。メニュー2007では、「魚」辞書データのヘッダ情報として記憶されている、辞書データ作成日、辞書データ作成者、学習データ枚数、辞書のバージョンを表示している例を示す。辞書データ作成日はサーバー100で辞書データ生成を行った日付を辞書データのヘッダ情報に記憶しておく。辞書データ作成者は、携帯端末120での所有者情報から辞書データのヘッダ情報へ記憶する。教師データ枚数は、教師データの設定時の画像枚数に基づき、辞書データに記憶しておく。これらのヘッダ領域に記憶されているヘッダ情報は、教師データの設定(受信)時にユーザーが直接数値、名称を入力してもよい。
 また辞書データは一度生成した後であっても更新が可能である構成としてもよい。たとえば、現在の学習済み係数パラメータを初期値として、新たに教師データを追加して、再学習することができる。メニュー2007のバージョンはその更新情報を示し、再学習の度に、サーバーが割り当てるものとする。これらのヘッダ情報によって、辞書データの概要は把握できるものの、どのような被写体を検出しやすいかなどの詳細を把握しにくい。被写体検出の特性を把握するためには、教師データそのものを確認するのが最適である。そこで、「INFO」2008を、操作部204を介して選択すると、「魚」辞書データの教師データを示すメニュー2009へ遷移する。辞書データに、サーバー100に記憶されている教師データのアドレスが記憶されており、本実施形態では通信部218を介してCPU201が表示部216に表示させる。このとき正事例および負事例のいずれであるか、また該当する被写体領域を示す枠情報、またこれに限らず、上述した通り少なくとも一部の教師データは辞書データに付帯して受信・記録されていてもよい。この場合、CPU201は記録媒体220あるいはメモリ202に辞書データとともに記録された、該辞書データに対応する教師データを表示部216に表示させる。
 以上によって、複数のカスタム辞書データがある場合でも、辞書データの違いを確認することができる。上述では、撮像装置100で辞書データの情報を確認する内容に関して説明したが、携帯端末120でも確認できる構成であってもよい。この場合、辞書データのヘッダ情報としては、教師データ入力時に設定したネットワーク構造の制約を示す撮像装置種類が辞書データに追加で記憶されており、表示部604で表示するものとする。
 また本実施形態では辞書データ生成のための教師データの生成、供給が携帯端末120で辞書データ受信、被写体検出処理に利用する装置が撮像装置100と別個の装置である実施例を示したが、これに限らず、両装置が同一の装置で構成されていてもよい。
 <他の実施例>
 以上、本発明をその好適な実施例に基づいて詳述してきたが、本発明は上記実施例に限定されるものではなく、本発明の主旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。
 本発明が適用され得る対象は、上述の実施例で説明した撮像装置100、サーバー110、携帯端末120等に限定されるものではない。例えば、撮像装置100を複数の装置から構成されるシステムとした場合であっても上述の実施例と同様の機能を実現することが可能である。更に、撮像装置100の処理の一部をネットワーク上の外部装置により実施して実現することが可能である。
 尚、本実施例における制御の一部又は全部を上述した実施例の機能を実現するコンピュータプログラムをネットワーク又は各種記憶媒体を介して撮像システム等に供給するようにしてもよい。そしてその撮像システム等におけるコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行するようにしてもよい。その場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することとなる。
 本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために以下の請求項を添付する。
 本願は、2022年1月28日提出の日本国特許出願特願2022-012054を基礎として優先権を主張するものであり、その記載内容の全てをここに援用する。

Claims (32)

  1.  ニューラルネットワークに基づき被写体検出を行う撮像システムにおいて、
     前記被写体検出のための教師データを入力する教師データ入力手段と、
     前記被写体検出におけるネットワーク構造に関する情報を指定するネットワーク構造指定手段と、
     前記教師データと前記ネットワーク構造に関する情報に基づき前記被写体検出のための辞書データを生成する辞書生成手段と、
     前記辞書生成手段によって生成された前記辞書データに基づき前記被写体検出を行い、
     前記被写体検出により検出された被写体に対して所定の撮像制御を行う撮像装置と、を有し、
     前記辞書データには、ヘッダ情報として該辞書データの生成に用いられた教師データの枚数の情報を含むことを特徴とする撮像システム。
  2.  前記撮像装置は、前記辞書データを受信する通信部を備えると共に、前記通信部によって受信された前記辞書データに基づき前記被写体検出をすることを特徴とする請求項1に記載の撮像システム。
  3.  前記ネットワーク構造に関する情報は、入力データの画像サイズ、前記入力データのチャンネル数、ネットワークのパラメータ数、メモリ容量、レイヤーの種類や活性化関数の種類、積和演算仕様の少なくとも1つに関する情報を含むことを特徴とする請求項1又は2に記載の撮像システム。
  4.  前記ヘッダ情報には、前記辞書データについての作成日、作成者、更新日、バージョンのうち少なくとも1つに関する情報を含むことを特徴とする請求項1~3のいずれか1項に記載の撮像システム。
  5.  前記ヘッダ情報の少なくとも一部を表示部に表示する表示手段を有することを特徴とする請求項4に記載の撮像システム。
  6.  前記教師データは、画像データおよび該画像データに含まれる正事例あるいは負事例としての被写体領域の情報を含むことを特徴とする請求項1~4のいずれか1項に記載の撮像システム。
  7.  前記教師データを表示部に表示する表示手段を有することを特徴とする請求項6に記載の撮像システム。
  8.  前記辞書生成手段は、前記撮像装置とは異なる情報処理サーバーに設けられていることを特徴とする請求項1~7のいずれか1項に記載の撮像システム。
  9.  前記情報処理サーバーは、
     前記被写体検出のための前記教師データを取得する教師データ取得手段と、
     前記ネットワーク構造に関する情報を取得するネットワーク構造取得手段と、
     前記辞書生成手段と、
     前記辞書生成手段により生成した前記辞書データを前記撮像装置へ送信する辞書データ送信手段を有することを特徴とする請求項8に記載の撮像システム。
  10.  前記辞書生成手段は、予め用意した複数の前記辞書データから前記教師データの被写体に適した辞書を選定することを特徴とする請求項1~9のいずれか1項に記載の撮像システム。
  11.  前記辞書生成手段は、前記教師データに基づき学習をすることによって前記辞書データを生成することを特徴とする請求項1~10のいずれか1項に記載の撮像システム。
  12.  前記教師データ入力手段と、前記ネットワーク構造指定手段は、前記撮像装置とは異なる情報処理端末に設けられていることを特徴とする請求項1~11のいずれか1項に記載の撮像システム。
  13.  前記教師データは、画像データと、目的とする被写体が存在する前記画像データの領域情報を含むことを特徴とする請求項1~12のいずれか1項に記載の撮像システム。
  14.  前記ネットワーク構造指定手段は、前記撮像装置の機種を指定することにより前記ネットワーク構造を指定することを特徴とする請求項1~13のいずれか1項に記載の撮像システム。
  15.  前記辞書生成手段によって生成された前記辞書データを有効化する辞書有効化手段を備え、
     前記辞書有効化手段によって前記辞書データが有効化されている場合、前記撮像装置は、前記被写体検出により検出された被写体に対して前記所定の撮像制御を行い、
     前記辞書有効化手段によって前記辞書データが有効化されていない場合、前記撮像装置は、前記所定の撮像制御を行わないことを特徴とする請求項1~14のいずれか1項に記載の撮像システム。
  16.  前記被写体検出の結果を枠として、前記撮像装置からの画像に重畳させて表示する表示手段を有することを特徴とする請求項1~15のいずれか1項に記載の撮像システム。
  17.  前記辞書有効化手段は、課金により前記辞書データを有効化することを特徴とする請求項15又は16に記載の撮像システム。
  18.  前記辞書有効化手段は、前記辞書生成手段によって生成された前記辞書データが複数ある場合に、課金により前記辞書データ毎の有効化をすることを特徴とする請求項1~17のいずれか1項に記載の撮像システム。
  19.  前記撮像装置は、前記教師データを生成する教師データ生成手段を備えることを特徴とする請求項1~18のいずれか1項に記載の撮像システム。
  20.  ニューラルネットワークに基づき被写体検出を行う撮像装置であって、
     前記被写体検出のための教師データを入力する教師データ入力手段と、
     前記被写体検出におけるネットワーク構造に関する情報を指定するネットワーク構造指定手段と、
     前記教師データと前記ネットワーク構造に関する情報を情報処理サーバーに送信する通信部と、
     前記情報処理サーバーにおいて、前記教師データと前記ネットワーク構造に関する情報に基づき生成された前記被写体検出のための辞書データを、前記通信部を介して前記情報処理サーバーから取得し、前記辞書データに基づき前記被写体検出を行い、前記被写体検出により検出された被写体に対して所定の撮像制御を行う撮像制御手段と、を有し、
     前記辞書データには、ヘッダ情報として該辞書データの生成に用いられた教師データの枚数の情報を含むことを特徴とする撮像装置。
  21.  前記ネットワーク構造に関する情報は、入力データの画像サイズ、前記入力データのチャンネル数、ネットワークのパラメータ数、メモリ容量、レイヤーの種類や活性化関数の種類、積和演算仕様の少なくとも1つに関する情報を含むことを特徴とする請求項20記載の撮像装置。
  22.  前記被写体検出の結果を枠として、画像に重畳させて表示する表示手段を有することを特徴とする請求項20又は21に記載の撮像装置。
  23.  前記ヘッダ情報には、前記辞書データについての作成日、作成者、更新日、バージョンのうち少なくとも1つに関する情報を含むことを特徴とする請求項20~22のいずれか1項に記載の撮像装置。
  24.  被写体検出のための教師データを取得する教師データ取得手段と、
     撮像装置のネットワーク構造に関する情報を取得するネットワーク構造取得手段と、
     前記教師データと前記ネットワーク構造に関する情報に基づき被写体検出のための辞書データを生成する辞書生成手段と、
     前記辞書生成手段により生成した前記辞書データを前記撮像装置へ送信する辞書データ送信手段と、を有し、
     前記辞書データには、ヘッダ情報として該辞書データの生成に用いられた教師データの枚数の情報を含むことを特徴とする情報処理サーバー。
  25.  前記辞書生成手段は、予め用意した複数の前記辞書データから前記教師データの被写体に適した辞書を選定することを特徴とする請求項24に記載の情報処理サーバー。
  26.  前記辞書生成手段は、前記教師データに基づき学習をすることによって前記辞書データを生成することを特徴とする請求項24に記載の情報処理サーバー。
  27.  前記教師データと、前記ネットワーク構造に関する情報は、前記撮像装置又は、前記撮像装置とは異なる情報処理端末から取得することを特徴とする請求項24~26のいずれか1項に記載の情報処理サーバー。
  28.  前記ネットワーク構造に関する情報は、入力データの画像サイズ、前記入力データのチャンネル数、ネットワークのパラメータ数、メモリ容量、レイヤーの種類や活性化関数の種類、積和演算仕様、前記撮像装置の機種の少なくとも1つに関する情報を含むことを特徴とする請求項24~27のいずれか1項に記載の情報処理サーバー。
  29.  ニューラルネットワークに基づき被写体検出を行う撮像方法において、
     前記被写体検出のための教師データを入力する教師データ入力ステップと、
     前記被写体検出におけるネットワーク構造に関する情報を指定するネットワーク構造指定ステップと、
     前記教師データと前記ネットワーク構造の制約に基づき前記被写体検出のための辞書データを生成する辞書生成ステップと、
     前記辞書生成ステップによって生成された前記辞書データに基づき前記被写体検出を行い、前記被写体検出により検出された被写体に対して所定の撮像制御を行う撮像ステップと、を有し、
     前記辞書データには、ヘッダ情報として該辞書データの生成に用いられた教師データの枚数の情報を含むことを特徴とする撮像方法。
  30.  ニューラルネットワークに基づき被写体検出を行う撮像方法であって、
     前記被写体検出のための教師データを入力する教師データ入力ステップと、
     前記被写体検出におけるネットワーク構造に関する情報を指定するネットワーク構造指定ステップと、
     前記教師データと前記ネットワーク構造に関する情報を情報処理サーバーに送信する通信ステップと、
     前記情報処理サーバーにおいて、前記教師データと前記ネットワーク構造に関する情報に基づき生成された前記被写体検出のための辞書データを、前記情報処理サーバーから取得し、前記辞書データに基づき前記被写体検出を行い、前記被写体検出により検出された被写体に対して所定の撮像制御を行う撮像制御ステップと、を有し、
     前記辞書データには、ヘッダ情報として該辞書データの生成に用いられた教師データの枚数の情報を含むことを特徴とする撮像方法。
  31.  被写体検出のための教師データを取得する教師データ取得ステップと、
     撮像装置のネットワーク構造に関する情報を取得するネットワーク構造取得ステップと、
     前記教師データと前記ネットワーク構造に関する情報に基づき被写体検出のための辞書データを生成する辞書生成ステップと、
     前記辞書生成ステップにより生成した前記辞書データを撮像装置へ送信する辞書データ送信ステップと、を有し、
     前記辞書データには、ヘッダ情報として該辞書データの生成に用いられた教師データの枚数の情報を含むことを特徴とする情報処理方法。
  32.  請求項1~19のいずれか1項に記載の撮像システム、又は請求項20~23のいずれか1項に記載の撮像装置、又は請求項24~28のいずれか1項に記載の情報処理サーバーの各手段をコンピュータにより制御するためのコンピュータプログラム。
PCT/JP2023/001647 2022-01-28 2023-01-20 撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及びコンピュータプログラム WO2023145632A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-012054 2022-01-28
JP2022012054A JP7543328B2 (ja) 2022-01-28 2022-01-28 撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
WO2023145632A1 true WO2023145632A1 (ja) 2023-08-03

Family

ID=87471854

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/001647 WO2023145632A1 (ja) 2022-01-28 2023-01-20 撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及びコンピュータプログラム

Country Status (2)

Country Link
JP (1) JP7543328B2 (ja)
WO (1) WO2023145632A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090410A (ja) * 2009-10-20 2011-05-06 Canon Inc 画像処理装置、画像処理システムおよび画像処理装置の制御方法
JP2021043881A (ja) * 2019-09-13 2021-03-18 株式会社クレスコ 情報処理装置、情報処理方法および情報処理プログラム
JP2021077377A (ja) * 2019-11-07 2021-05-20 キヤノン株式会社 物体認識モデルを学習するための方法および装置
JP6914562B1 (ja) * 2020-07-08 2021-08-04 株式会社ヒューマノーム研究所 情報処理システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090410A (ja) * 2009-10-20 2011-05-06 Canon Inc 画像処理装置、画像処理システムおよび画像処理装置の制御方法
JP2021043881A (ja) * 2019-09-13 2021-03-18 株式会社クレスコ 情報処理装置、情報処理方法および情報処理プログラム
JP2021077377A (ja) * 2019-11-07 2021-05-20 キヤノン株式会社 物体認識モデルを学習するための方法および装置
JP6914562B1 (ja) * 2020-07-08 2021-08-04 株式会社ヒューマノーム研究所 情報処理システム

Also Published As

Publication number Publication date
JP7543328B2 (ja) 2024-09-02
JP2023110541A (ja) 2023-08-09

Similar Documents

Publication Publication Date Title
JP6324063B2 (ja) 画像再生装置及びその制御方法
JP4692849B2 (ja) 立体画像記録装置および立体画像記録方法
CN112788230B (zh) 摄像设备及系统、信息处理设备、其控制方法和存储介质
JP2017059984A (ja) 情報処理装置、制御方法及びプログラム
CN110929615B (zh) 图像处理方法、图像处理装置、存储介质与终端设备
WO2023145632A1 (ja) 撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及びコンピュータプログラム
WO2023063167A1 (ja) 撮像システム、撮像装置、情報処理サーバー、撮像方法、情報処理方法、及び記憶媒体
US11659275B2 (en) Information processing apparatus that performs arithmetic processing of neural network, and image pickup apparatus, control method, and storage medium
US11546553B2 (en) Image capturing apparatus using learned model, information processing apparatus, methods of controlling respective apparatuses, learned model selection system, and storage medium
JP7455575B2 (ja) 画像処理装置、画像処理方法、学習装置、学習方法、プログラムおよびシステム
JP2022184712A (ja) 情報処理装置、撮像装置、制御方法、プログラム、および記憶媒体
WO2023210334A1 (ja) 画像処理装置、撮像装置及びそれらの制御方法
CN116128739A (zh) 下采样模型的训练方法、图像处理方法及装置
JP7570806B2 (ja) 撮像装置、情報処理装置、及びこれらの制御方法並びにプログラム、学習済みモデル選択システム
TWI448976B (zh) 超廣角影像處理方法與其系統
JP7213657B2 (ja) 撮像装置及びその制御方法及びプログラム
JP2007300163A (ja) 撮像装置及び画像管理システム
JP6702698B2 (ja) 撮像装置及び情報処理方法
JP2023089743A (ja) 画像処置装置とその制御方法、撮像装置、及び、プログラム
JP2016082276A (ja) 撮像装置
JP6292912B2 (ja) 通信機器及び通信機器の制御方法
JP2022175451A (ja) 撮像装置およびその制御方法ならびにプログラム
JP2021140336A (ja) 情報処理装置、推論装置、それらの制御方法、プログラム、記憶媒体
JP2015095771A (ja) 撮像装置およびその制御方法、プログラム、並びに記憶媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23746845

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE