WO2020202572A1 - 画像処理システム、推定装置、処理方法及びプログラム - Google Patents

画像処理システム、推定装置、処理方法及びプログラム Download PDF

Info

Publication number
WO2020202572A1
WO2020202572A1 PCT/JP2019/015210 JP2019015210W WO2020202572A1 WO 2020202572 A1 WO2020202572 A1 WO 2020202572A1 JP 2019015210 W JP2019015210 W JP 2019015210W WO 2020202572 A1 WO2020202572 A1 WO 2020202572A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
learning
lens
estimation
content
Prior art date
Application number
PCT/JP2019/015210
Other languages
English (en)
French (fr)
Inventor
健全 劉
俊男 李
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2021511070A priority Critical patent/JP7124957B2/ja
Priority to PCT/JP2019/015210 priority patent/WO2020202572A1/ja
Priority to US17/600,711 priority patent/US20220189151A1/en
Publication of WO2020202572A1 publication Critical patent/WO2020202572A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/147Details of sensors, e.g. sensor lenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Definitions

  • the present invention relates to a processing system, an estimation device, a processing method and a program.
  • Patent Document 1 discloses a technique for performing machine learning using a training image and information for identifying the location of a business store. Further, Patent Document 1 discloses that a panoramic image, an image having a field of view larger than 180 °, a spherical or substantially spherical panoramic image, or the like can be used as a training image.
  • the characteristics that appear in the image may differ even for the same subject.
  • the characteristics of the subject appearing in the image may differ between the case of shooting with a fisheye lens having a wide angle of view where distortion of the image can occur and the case of shooting with a so-called standard lens having an angle of view of about 40 ° to 60 °.
  • An object of the present invention is to provide a new method for generating an estimation model for estimating the content of an image.
  • a sample image generation means for generating a plurality of sample images, each of which corresponds to a part of a region of the first image for learning, from a first image for learning generated by photographing with the first lens. , Generated by machine learning using learning data including a second image generated by photographing with a second lens whose characteristics are different from those of the first lens and a label indicating the content of the second image.
  • An estimation means for inputting the sample image into the estimation model and generating an image content estimation result indicating the content for each sample image.
  • a task execution means for estimating the relative positional relationship of a plurality of the sample images in the first image for learning based on the image content estimation result of each of the sample images.
  • a determination means for determining whether the estimation result of the relative positional relationship is correct When it is determined that the estimation result of the relative positional relationship is incorrect, a correction means for correcting the value of the parameter of the estimation model and a correction means.
  • a processing system having the above is provided.
  • An estimation model that estimates the contents of a panoramic image obtained by expanding the fisheye lens image in a plane by transfer learning using learning data including a fisheye lens image generated by photographing with a fisheye lens and a label indicating the contents of the fisheye lens image.
  • a processing system having a transfer learning means applied to a region for estimating the content of the fisheye lens image.
  • a sample image generation means for generating a plurality of sample images, each of which corresponds to a part of a region of the first image for learning, from a first image for learning generated by photographing with the first lens.
  • Generated by machine learning using learning data including a second image generated by photographing with a second lens whose characteristics are different from those of the first lens and a label indicating the content of the second image.
  • An estimation means for inputting the sample image into the estimation model and generating an image content estimation result indicating the content for each sample image.
  • a task execution means for estimating the relative positional relationship of a plurality of the sample images in the first image for learning based on the image content estimation result of each of the sample images.
  • a determination means for determining whether the estimation result of the relative positional relationship is correct When it is determined that the estimation result of the relative positional relationship is incorrect, the estimation model whose parameter values are adjusted by a processing system having a correction means for correcting the parameter values of the estimation model is used.
  • An estimation device for estimating the content of an image of an estimation target generated by photographing with the first lens or an image obtained by expanding the image of the estimation target in a plane is provided.
  • the computer From the first image for learning generated by photographing with the first lens, a plurality of sample images, each corresponding to a part of the region of the first image for learning, are generated. Generated by machine learning using learning data including a second image generated by photographing with a second lens whose characteristics are different from those of the first lens and a label indicating the content of the second image.
  • the sample image is input to the estimation model, and an image content estimation result indicating the content of each sample image is generated.
  • the relative positional relationship of the plurality of the sample images in the first image for learning is estimated. Judging whether the estimation result of the relative positional relationship is correct, When it is determined that the estimation result of the relative positional relationship is incorrect, a processing method for correcting the value of the parameter of the estimation model is provided.
  • a sample image generation means for generating a plurality of sample images, each of which corresponds to a part of a region of the first image for learning, from a first image for learning generated by photographing with the first lens. Generated by machine learning using learning data including a second image generated by photographing with a second lens whose characteristics are different from those of the first lens and a label indicating the content of the second image.
  • An estimation means that inputs the sample image to the estimation model and generates an image content estimation result indicating the content of each sample image.
  • a task execution means for estimating the relative positional relationship of a plurality of the sample images in the first image for learning based on the image content estimation result of each of the sample images. Judgment means for determining whether the estimation result of the relative positional relationship is correct, If it is determined that the estimation result of the relative positional relationship is incorrect, the correction means for correcting the value of the parameter of the estimation model,
  • a program is provided to function as.
  • the processing system uses a fisheye lens (for example, a fisheye lens (for example, an angle of view of around 40 ° to around 60 °) to set the parameter values of an estimation model adjusted so that the content of a normal image generated by shooting with a standard lens can be accurately estimated.
  • a fisheye lens for example, a fisheye lens (for example, an angle of view of around 40 ° to around 60 °)
  • the panorama in which the fisheye lens image is developed in a plane Adjust the parameter values of the estimation model so that the contents of the image can be estimated accurately.
  • Figure 1 shows the outline of this process.
  • a machine learning using training data including a normal image and a label indicating the content of the normal image has been executed, and an estimation model in which parameter values are adjusted so that the content of the normal image can be estimated accurately is obtained. Be prepared. In the initial state, the estimation model can accurately estimate the object, place, scene, situation, etc. indicated by the normal image.
  • the processing system inputs a plurality of sample images generated from a panoramic image obtained by expanding the fisheye lens image in a plane into the estimation model, and acquires the estimation result (image content estimation result) of the content of each sample image output from the estimation model. ..
  • the parameter values of the estimation model are usually adjusted so that the contents of the image can be estimated accurately.
  • the estimation result output from the estimation model may be "error". Will be higher.
  • “Incorrect estimation result” indicates a state in which the content indicated by the image and the content indicated by the estimation result do not match.
  • “the estimation result is correct” indicates a state in which the content indicated by the image and the content indicated by the estimation result match.
  • the processing system inputs the image content estimation result of each sample image into the task model and acquires the task result output from the task model.
  • the image content estimation result of each sample image output from the estimation model is "correct”
  • the task result by the task model can easily satisfy a predetermined condition.
  • the image content estimation result of each sample image output from the estimation model is "error”
  • the processing system inputs the result of the task to the judgment device and acquires the judgment result output from the judgment device.
  • the determination device determines whether or not the result of the task satisfies a predetermined condition.
  • the processing system inputs to that effect to the corrector.
  • the corrector corrects the value of the parameter of the estimation model (updates to the value of the new parameter).
  • the processing system repeats the cycle until the judgment result by the judgment device satisfies a predetermined end condition.
  • acquisition means “the own device goes to fetch the data stored in another device or storage medium” based on the user input or the instruction of the program (active). Acquisition) ”, for example, requesting or inquiring about another device to receive the data, accessing another device or a storage medium to read the data, and the like.
  • acquisition means “inputting data output from another device to the own device (passive acquisition)” based on user input or program instruction, for example, distribution (or distribution (or). , Transmission, push notification, etc.) may include receiving data.
  • acquisition means to select and acquire from received data or information, and “edit data (text conversion, data sorting, partial data extraction, file format change, etc.)". It may include “to generate new data and acquire the new data”.
  • Each functional unit of the processing system is stored in the CPU (Central Processing Unit) of an arbitrary computer, memory, a program loaded in the memory, and a storage unit such as a hard disk for storing the program (stored from the stage of shipping the device in advance).
  • a storage unit such as a hard disk for storing the program (stored from the stage of shipping the device in advance).
  • it can also store programs downloaded from storage media such as CDs (Compact Discs) and servers on the Internet), and is realized by any combination of hardware and software centered on the network connection interface. Program.
  • CDs Compact Discs
  • FIG. 2 is a block diagram illustrating the hardware configuration of the processing system.
  • the processing system includes a processor 1A, a memory 2A, an input / output interface 3A, a peripheral circuit 4A, and a bus 5A.
  • the peripheral circuit 4A includes various modules.
  • the processing system does not have to have the peripheral circuit 4A.
  • the processing system may be composed of a plurality of physically and / or logically separated devices, or may be composed of one physically and / or logically integrated device. When the processing system is composed of a plurality of physically and / or logically separated devices, each of the plurality of devices can be provided with the above hardware configuration.
  • the bus 5A is a data transmission path for the processor 1A, the memory 2A, the peripheral circuit 4A, and the input / output interface 3A to send and receive data to and from each other.
  • the processor 1A is, for example, an arithmetic processing unit such as a CPU or a GPU (Graphics Processing Unit).
  • the memory 2A is, for example, a memory such as a RAM (RandomAccessMemory) or a ROM (ReadOnlyMemory).
  • the input / output interface 3A includes an interface for acquiring information from an input device, an external device, an external server, an external sensor, a camera, etc., an interface for outputting information to an output device, an external device, an external server, etc. ..
  • the input device is, for example, a keyboard, a mouse, a microphone, a physical button, a touch panel, or the like.
  • the output device is, for example, a display, a speaker, a printer, a mailer, or the like.
  • the processor 1A can issue commands to each module and perform calculations based on the calculation results thereof.
  • FIG. 3 shows an example of a functional block diagram of the processing system 10.
  • FIG. 4 shows an example of the data flow of the processing system 10.
  • the processing system 10 includes a sample image generation unit 11, an estimation unit 12, a storage unit 13, a task execution unit 14, a determination unit 15, a correction unit 16, and a repetition control unit 17. ..
  • the processing system 10 does not have to have the storage unit 13.
  • an external device configured to communicate with the processing system 10 includes a storage unit 13.
  • a plurality of sample image generation units 11 correspond to a part of a fisheye lens image for learning from a fisheye lens image for learning (first image) generated by photographing with a fisheye lens (first lens). Generate a sample image of.
  • the fisheye lens image is a so-called omnidirectional image, spherical image, all-around image, 360 ° image, or the like.
  • the sample image generation unit 11 extracts a part of a panoramic image for learning in which the fisheye lens image for learning is developed in a plane as a sample image.
  • the sample image generation unit 11 may unfold the entire fisheye lens image for learning in a plane and then cut out a sample image from the panoramic image for learning obtained by the plane unfolding.
  • the sample image generation unit 11 may generate a sample image by cutting out a part from the fisheye lens image for learning and developing the cut out part in a plane. In either case, a part of the panoramic image for learning in which the fisheye lens image for learning is expanded in a plane can be extracted as a sample image. Since the method of developing the fisheye lens image in a plane is widely known, the description thereof is omitted here.
  • the sample image generation unit 11 can cut out each of a plurality of adjacent partial regions in the panoramic image for learning as a sample image. It is preferable that the plurality of sample images are adjacent to each other without a gap, but they may be adjacent to each other with a slight gap between them.
  • the position, size, number, and the like of cutting out the sample image can be designed according to the content of the task executed by the task execution unit 14.
  • the sample image generation unit 11 passes the generated sample image to the estimation unit 12. Further, the sample image generation unit 11 passes information indicating the relative positional relationship of a plurality of sample images in the fisheye lens image for learning (panoramic image for learning) to the determination unit 15.
  • the relative positional relationship of the plurality of sample images indicates the horizontal arrangement order of the plurality of sample images adjacent to the left and right, the vertical arrangement order of the plurality of sample images adjacent to the top and bottom, and the like.
  • the sample image generation unit 11 cuts out three sample images adjacent to the left and right, and passes information indicating the order of arrangement of the three sample images to the determination unit 15, but the present invention is not limited to this.
  • the storage unit 13 stores the estimation model.
  • the estimation model is, for example, CNN (convolutional neural network), but is not limited to this.
  • the estimation model has already performed machine learning using training data including a second image generated by shooting with the second lens and a label indicating the content of the second image, and the second image. The value of the parameter is adjusted so that the contents of the image can be estimated accurately.
  • the characteristics of the second lens are different from those of the fisheye lens.
  • the different characteristics between the second lens and the fisheye lens can affect the characteristics of the subject appearing in the image (ie, different characteristics can result in different characteristics of the subject appearing in the image), such as the angle of view.
  • the focal length and the like are exemplified.
  • the first lens is a fisheye lens and the second lens is a standard lens. That is, the estimation model stored in the storage unit 13 has already executed machine learning using learning data including a normal image generated by shooting with a standard lens and a label indicating the content of the normal image. Yes, the parameter values are usually adjusted so that the contents of the image can be estimated accurately.
  • the second lens may be a lens different from the fisheye lens, and may be a lens other than the standard lens.
  • the estimation unit 12 inputs a sample image into the estimation model stored in the storage unit 13 and generates an image content estimation result indicating the content of each sample image.
  • the image content estimation result indicates an object, a place, a scene, a situation, etc. indicated by the sample image.
  • the parameter values of the estimation model are usually adjusted so that the contents of the image can be estimated accurately. Therefore, in the state before the parameter value is corrected by the correction unit 16 and in the state where the parameter value is not sufficiently corrected by the correction unit 16, the content of the sample image indicated by the image content estimation result is It is more likely to be an "error".
  • the estimation unit 12 passes the image content estimation result of each of the generated plurality of sample images to the task execution unit 14.
  • the task execution unit 14 executes a predetermined task based on the image content estimation result of each sample image.
  • the task execution unit 14 estimates the relative positional relationship of a plurality of sample images in the fisheye lens image for learning (panoramic image for learning). More specifically, in the case of the present embodiment in which the sample image generation unit 11 cuts out three sample images adjacent to the left and right, the task execution unit 14 estimates the arrangement order of the three sample images in the horizontal direction. For example, the task execution unit 14 inputs the image content estimation result of each sample image into the estimation model that estimates the relative positional relationship of the plurality of images based on the image content estimation result of each of the plurality of images. The image content estimation result of each image may be acquired.
  • the task execution unit 14 passes the estimation result of the relative positional relationship of the plurality of sample images to the determination unit 15.
  • the estimation result passed to the determination unit 15 by the task execution unit 14 may be any one indicating the relative positional relationship of the plurality of sample images, and may be, for example, the order of the plurality of sample images, or the three sample images. It may be the identification information of the sample image presumed to be in a predetermined arrangement position (eg, the middle of the three sample images) in, or it may be other.
  • the determination unit 15 estimates the relative positional relationship between the information (correct answer information) indicating the relative positional relationship of the plurality of sample images acquired from the sample image generation unit 11 and the plurality of sample images acquired from the task execution unit 14. Based on the above, it is determined whether the estimation result of the relative positional relationship by the task execution unit 14 is correct.
  • the repetition control unit 17 is described above by the sample image generation unit 11, the estimation unit 12, the task execution unit 14, the determination unit 15, and the correction unit 16 until the estimation result of the relative positional relationship of the plurality of sample images satisfies the end condition.
  • the process is executed repeatedly.
  • the end conditions are "the estimated result of the relative positional relationship of multiple sample images was determined to be correct” and “the cumulative number of times the estimated result of the relative positional relationship of multiple sample images was determined to be correct reached the threshold value". ",” It was determined that the estimation result of the relative positional relationship of a plurality of sample images was correct for a predetermined number of times in a row, "and the like, but the present invention is not limited to these.
  • the correction unit 16 corrects the parameter value of the estimation model stored in the storage unit 13 (new parameter value). Update to value).
  • the correction unit 16 can correct the weights of a plurality of layers of the estimation model by the stochastic gradient descent method.
  • the example here is just an example, and the estimation model may be updated by another method.
  • the sample image generation unit 11 generates a plurality of sample images, each of which corresponds to a part of the learning fisheye lens image, from the learning fisheye lens image generated by photographing with the fisheye lens. For example, the sample image generation unit 11 cuts out three regions adjacent to each other in the learning panoramic image obtained by expanding the learning fisheye lens image in a plane to obtain three sample images.
  • the estimation unit 12 inputs a sample image into the estimation model stored in the storage unit 13 to generate an image content estimation result indicating the content of each sample image.
  • the task execution unit 14 estimates the relative positional relationship of a plurality of sample images in the fisheye lens image for learning (panoramic image for learning) based on the image content estimation result of each sample image.
  • the determination unit 15 determines whether the estimation result of the relative positional relationship of the plurality of sample images generated in S12 is correct.
  • the correction unit 16 corrects the parameter value of the estimation model stored in the storage unit 13 by re-execution of machine learning (S16).
  • S15 it is determined whether or not the estimation result of the relative positional relationship of the plurality of sample images generated in S12 satisfies the end condition. If the end condition is not satisfied (No in S15), the process returns to S10 and the process is repeated. If the end condition is satisfied (Yes in S15), the process ends.
  • the fisheye lens is used to set the parameter values of the estimation model adjusted so that the contents of the normal image generated by the shooting using the standard lens can be estimated accurately.
  • the fisheye lens image generated by shooting based on the result of a predetermined task using the panoramic image developed in a plane and the estimation model, the content of the panoramic image obtained by expanding the fisheye lens image in a plane can be estimated accurately.
  • the value of the parameter of the estimation model can be adjusted.
  • the fisheye lens image is flattened without preparing a large amount of training data including a panoramic image obtained by flattening the fisheye lens image and a label indicating the content of the panoramic image. It is possible to generate an estimation model that can accurately estimate the contents of the developed panoramic image.
  • good convergence can be obtained by modifying the value of the parameter of the estimation model based on the stochastic gradient descent method.
  • the processing system 10 of the present embodiment obtains the contents of a panoramic image obtained by plane-developing a fisheye lens image by transfer learning using learning data including a fisheye lens image for transfer learning and a label indicating the contents of the fisheye lens image for transfer learning.
  • An estimation model whose parameter values have been adjusted so that it can be estimated accurately is applied to the region for estimating the contents of the fisheye lens image.
  • FIG. 6 shows an example of a functional block diagram of the processing system 10.
  • the processing system 10 is transferred to a sample image generation unit 11, an estimation unit 12, a storage unit 13, a task execution unit 14, a determination unit 15, a correction unit 16, a repetition control unit 17, and the like. It has a learning unit 18.
  • the configuration of the sample image generation unit 11, the estimation unit 12, the storage unit 13, the task execution unit 14, the determination unit 15, the correction unit 16, and the repetition control unit 17 is the same as in the first embodiment.
  • FIG. 7 shows another example of the functional block diagram of the processing system 10. As shown in the figure, the processing system 10 has a transfer learning unit 18 and a storage unit 19.
  • the storage unit 13 and the storage unit 19 store an estimation model in which the parameter values are adjusted so that the contents of the panoramic image obtained by expanding the fisheye lens image in a plane can be accurately estimated.
  • the estimation model may be an estimation model generated by the method described in the first embodiment.
  • the estimation model may be an estimation model generated by machine learning learning data including a panoramic image obtained by developing a fisheye lens image in a plane and a label indicating the content of the panorama image.
  • the estimation model is, for example, CNN, but is not limited to this.
  • the transfer learning unit 18 accurately estimates the content of the panoramic image obtained by expanding the fisheye lens image in a plane by transfer learning using the learning data including the fisheye lens image for transfer learning and the label indicating the content of the fisheye lens image for transfer learning.
  • An estimation model whose parameter values have been adjusted so as possible is applied to the region for estimating the contents of the fisheye lens image.
  • the transfer learning unit 18 can adopt any transfer learning method.
  • An example of the hardware configuration of the processing system 10 is the same as that of the first embodiment.
  • the processing system 10 of the present embodiment by using the transfer learning, the content of the fisheye lens image without preparing a large amount of learning data including the fisheye lens image and the label indicating the content of the fisheye lens image. Can be generated to generate an estimation model that can accurately estimate.
  • the estimation device 20 of the present embodiment adds a fisheye lens image to be estimated or a panoramic image (fisheye lens image) to be estimated to the estimation model generated by the processing system 10 of the first or second embodiment.
  • the estimation device 20 By inputting a plane-expanded image), the content of the fisheye lens image to be estimated or the panoramic image to be estimated is estimated.
  • An example of the hardware configuration of the estimation device 20 is shown in FIG. 2 as in the processing system 10.
  • the fisheye lens image is developed in a plane without preparing a large amount of learning data including a panoramic image obtained by developing the fisheye lens image in a plane and a label indicating the contents of the panorama image.
  • the contents of the panoramic image can be estimated accurately.
  • the estimation device 20 can recognize a scene, an object, and the like.
  • the estimation device 20 can recognize a scene (scene) such as a cafe from an image as shown in FIG. 9, and can recognize an object such as a motorcycle or a person from the image as shown in FIG.
  • the content of the fisheye lens image can be accurately estimated without preparing a large amount of learning data including a fisheye lens image and a label indicating the content of the fisheye lens image. ..
  • the first lens is a fisheye lens
  • the second lens is a standard lens
  • the processing system 10 is "usually generated by photographing with a standard lens”.
  • the parameter values of the estimation model adjusted so that the content of the image can be estimated accurately are adjusted so that the content of the fisheye lens image generated by shooting with the fisheye lens can be estimated accurately.
  • the first lens is a wide-angle lens that is not classified as a fisheye lens
  • the second lens is a standard lens
  • the processing system 10 is "contents of a normal image generated by shooting with a standard lens”.
  • the value of the parameter of the estimation model adjusted so that the image can be estimated accurately may be adjusted so that the content of the image generated by shooting with a wide-angle lens not classified as a fisheye lens can be estimated accurately.
  • the first lens is a fisheye lens
  • the second lens is a wide-angle lens not classified as a fisheye lens
  • the processing system 10 is "an image generated by shooting with a wide-angle lens not classified as a fisheye lens”.
  • the value of the parameter of the estimation model adjusted so that the content of the above can be estimated accurately may be adjusted so that the content of the fisheye lens image generated by the image taken with the fisheye lens can be estimated accurately.
  • the first lens is a wide-angle lens that is not classified as a fisheye lens
  • the second lens is a fisheye lens
  • the processing system 10 "accurates the content of the fisheye lens image generated by shooting with a fisheye lens”.
  • the value of the parameter of the estimation model adjusted so that it can be estimated well may be adjusted so that the content of the image generated by shooting with a wide-angle lens that is not classified as a fisheye lens can be estimated accurately.
  • the task execution unit 14 executes a task of estimating the relative positional relationship of a plurality of sample images.
  • the task executed by the task execution unit 14 tends to satisfy a predetermined condition when the image content estimation result of the sample image generated by the estimation unit 12 is correct, and the sample image generated by the estimation unit 12 is easily satisfied. It is not limited to the above example as long as the result of the task is difficult to satisfy the above-mentioned predetermined condition when the image content estimation result is not correct.
  • a sample image generation means for generating a plurality of sample images, each of which corresponds to a part of a region of the first image for learning, from a first image for learning generated by photographing with the first lens. , Generated by machine learning using learning data including a second image generated by photographing with a second lens whose characteristics are different from those of the first lens and a label indicating the content of the second image.
  • An estimation means for inputting the sample image into the estimation model and generating an image content estimation result indicating the content for each sample image.
  • a task execution means for estimating the relative positional relationship of a plurality of the sample images in the first image for learning based on the image content estimation result of each of the sample images.
  • the correction means is a processing system that corrects the value of the parameter of the estimation model based on the stochastic gradient descent method. 3. 3. In the processing system according to 1 or 2.
  • the sample image generation means is a processing system that extracts a part of a panoramic image for learning, which is a plan view of the first image for learning generated by photographing with a fisheye lens, as the sample image. 6.
  • the estimation that estimates the content of the panoramic image by transfer learning using learning data including a fisheye lens image for transfer learning generated by photographing with a fisheye lens and a label indicating the content of the fisheye lens image for transfer learning.
  • a processing system having a transfer learning means that applies a model to a region for estimating the content of the fisheye lens image. 7.
  • An estimation model that estimates the contents of a panoramic image obtained by expanding the fisheye lens image in a plane by transfer learning using learning data including a fisheye lens image generated by photographing with a fisheye lens and a label indicating the contents of the fisheye lens image is obtained.
  • a sample image generation means for generating a plurality of sample images, each of which corresponds to a part of a region of the first image for learning, from a first image for learning generated by photographing with the first lens.
  • An estimation means for inputting the sample image into the estimation model and generating an image content estimation result indicating the content for each sample image.
  • a task execution means for estimating the relative positional relationship of a plurality of the sample images in the first image for learning based on the image content estimation result of each of the sample images.
  • a determination means for determining whether the estimation result of the relative positional relationship is correct, When it is determined that the estimation result of the relative positional relationship is incorrect, the estimation model whose parameter values are adjusted by a processing system having a correction means for correcting the parameter values of the estimation model is used.
  • An estimation device that estimates the content of an image of an estimation target generated by photographing with the first lens, or an image obtained by expanding the image of the estimation target in a plane.
  • the computer From the first image for learning generated by photographing with the first lens, a plurality of sample images, each corresponding to a part of the region of the first image for learning, are generated. Generated by machine learning using learning data including a second image generated by photographing with a second lens whose characteristics are different from those of the first lens and a label indicating the content of the second image.
  • the sample image is input to the estimation model, and an image content estimation result indicating the content of each sample image is generated.
  • a sample image generation means for generating a plurality of sample images, each of which corresponds to a part of a region of the first image for learning, from a first image for learning generated by photographing with the first lens. Generated by machine learning using learning data including a second image generated by photographing with a second lens whose characteristics are different from those of the first lens and a label indicating the content of the second image.
  • An estimation means that inputs the sample image to the estimation model and generates an image content estimation result indicating the content of each sample image.
  • a task execution means for estimating the relative positional relationship of a plurality of the sample images in the first image for learning based on the image content estimation result of each of the sample images.
  • Judgment means for determining whether the estimation result of the relative positional relationship is correct, If it is determined that the estimation result of the relative positional relationship is incorrect, the correction means for correcting the value of the parameter of the estimation model,
  • a program that functions as.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Vascular Medicine (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Studio Devices (AREA)

Abstract

本発明は、第1のレンズを用いた撮影で生成された学習用の第1の画像から、各々が学習用の第1の画像の一部領域に対応した複数のサンプル画像を生成するサンプル画像生成部(11)と、特性が第1のレンズと異なる第2のレンズを用いた撮影で生成された第2の画像と、第2の画像の内容を示すラベルとを含む学習データを用いた機械学習で生成された推定モデルにサンプル画像を入力し、サンプル画像毎に内容を示す画像内容推定結果を生成する推定部(12)と、サンプル画像各々の画像内容推定結果に基づき、学習用の第1の画像内での複数の前記サンプル画像の相対的位置関係を推定するタスク実行部(14)と、相対的位置関係の推定結果が正しいか判定する判定部(15)と、相対的位置関係の推定結果が誤っていると判定された場合、推定モデルのパラメタの値を修正する修正部(16)と、を有する処理システム(10)を提供する。

Description

[規則37.2に基づきISAが決定した発明の名称] 画像処理システム、推定装置、処理方法及びプログラム
 本発明は、処理システム、推定装置、処理方法及びプログラムに関する。
 特許文献1は、トレーニング画像と事業店舗位置を識別する情報とで機械学習を行う技術を開示している。そして、特許文献1は、パノラマ画像、視野が180°より大きい画像、球形又はほぼ球形であるパノラマ画像等をトレーニング画像にできることを開示している。
特表2018-524678号
 特性(画角等)が異なるレンズで撮影されると、同一の被写体であっても画像に現れる特徴が異なり得る。例えば、画像の歪みが発生し得る画角が広い魚眼レンズで撮影した場合と、画角が40°~60°前後のいわゆる標準レンズで撮影した場合とでは、画像に現れる被写体の特徴が異なり得る。
 近年、機械学習で生成された推定モデルを用いて画像の内容を推定することがなされている。十分な推定精度を有する推定モデルを生成するためには大量の学習データが必要となるが、特性が異なるレンズごとに大量の学習データ(各レンズを用いた撮影で生成された画像と、その画像の内容を示すラベルとの組み合わせ)を用意することは多大な労力を要する。本発明は、画像の内容を推定する推定モデルを生成する新たな手法を提供することを課題とする。
 本発明によれば、
 第1のレンズを用いた撮影で生成された学習用の第1の画像から、各々が前記学習用の第1の画像の一部領域に対応した複数のサンプル画像を生成するサンプル画像生成手段と、
 特性が前記第1のレンズと異なる第2のレンズを用いた撮影で生成された第2の画像と、前記第2の画像の内容を示すラベルとを含む学習データを用いた機械学習で生成された推定モデルに前記サンプル画像を入力し、前記サンプル画像毎に内容を示す画像内容推定結果を生成する推定手段と、
 前記サンプル画像各々の前記画像内容推定結果に基づき、前記学習用の第1の画像内での複数の前記サンプル画像の相対的位置関係を推定するタスク実行手段と、
 前記相対的位置関係の推定結果が正しいか判定する判定手段と、
 前記相対的位置関係の推定結果が誤っていると判定された場合、前記推定モデルのパラメタの値を修正する修正手段と、
を有する処理システムが提供される。
 また、本発明によれば、
 魚眼レンズを用いた撮影で生成された魚眼レンズ画像と前記魚眼レンズ画像の内容を示すラベルとを含む学習データを用いた転移学習により、前記魚眼レンズ画像を平面展開したパノラマ画像の内容を推定する推定モデルを、前記魚眼レンズ画像の内容を推定する領域に適用させる転移学習手段を有する処理システム。
 また、本発明によれば、
 第1のレンズを用いた撮影で生成された学習用の第1の画像から、各々が前記学習用の第1の画像の一部領域に対応した複数のサンプル画像を生成するサンプル画像生成手段と、
 特性が前記第1のレンズと異なる第2のレンズを用いた撮影で生成された第2の画像と、前記第2の画像の内容を示すラベルとを含む学習データを用いた機械学習で生成された推定モデルに前記サンプル画像を入力し、前記サンプル画像毎に内容を示す画像内容推定結果を生成する推定手段と、
 前記サンプル画像各々の前記画像内容推定結果に基づき、前記学習用の第1の画像内での複数の前記サンプル画像の相対的位置関係を推定するタスク実行手段と、
 前記相対的位置関係の推定結果が正しいか判定する判定手段と、
 前記相対的位置関係の推定結果が誤っていると判定された場合、前記推定モデルのパラメタの値を修正する修正手段と、を有する処理システムによりパラメタの値を調整された前記推定モデルを用いて、前記第1のレンズを用いた撮影で生成された推定対象の画像、又は、前記推定対象の画像を平面展開した画像の内容を推定する推定装置が提供される。
 また、本発明によれば、
 コンピュータが、
 第1のレンズを用いた撮影で生成された学習用の第1の画像から、各々が前記学習用の第1の画像の一部領域に対応した複数のサンプル画像を生成し、
 特性が前記第1のレンズと異なる第2のレンズを用いた撮影で生成された第2の画像と、前記第2の画像の内容を示すラベルとを含む学習データを用いた機械学習で生成された推定モデルに前記サンプル画像を入力し、前記サンプル画像毎に内容を示す画像内容推定結果を生成し、
 前記サンプル画像各々の前記画像内容推定結果に基づき、前記学習用の第1の画像内での複数の前記サンプル画像の相対的位置関係を推定し、
 前記相対的位置関係の推定結果が正しいか判定し、
 前記相対的位置関係の推定結果が誤っていると判定された場合、前記推定モデルのパラメタの値を修正する処理方法が提供される。
 また、本発明によれば、
 コンピュータを、
 第1のレンズを用いた撮影で生成された学習用の第1の画像から、各々が前記学習用の第1の画像の一部領域に対応した複数のサンプル画像を生成するサンプル画像生成手段、
 特性が前記第1のレンズと異なる第2のレンズを用いた撮影で生成された第2の画像と、前記第2の画像の内容を示すラベルとを含む学習データを用いた機械学習で生成された推定モデルに前記サンプル画像を入力し、前記サンプル画像毎に内容を示す画像内容推定結果を生成する推定手段、
 前記サンプル画像各々の前記画像内容推定結果に基づき、前記学習用の第1の画像内での複数の前記サンプル画像の相対的位置関係を推定するタスク実行手段、
 前記相対的位置関係の推定結果が正しいか判定する判定手段、
 前記相対的位置関係の推定結果が誤っていると判定された場合、前記推定モデルのパラメタの値を修正する修正手段、
として機能させるプログラムが提供される。
 本発明によれば、画像の内容を推定する推定モデルを生成する新たな手法が実現される。
 上述した目的、および、その他の目的、特徴および利点は、以下に述べる好適な実施の形態、および、それに付随する以下の図面によって、さらに明らかになる。
本実施形態の処理システムの処理の概念を示す図である。 本実施形態の処理システム及び推定装置のハードウエア構成の一例を示す図である。 本実施形態の処理システムの機能ブロック図の一例である。 本実施形態の処理システムのデータの流れの一例を示す図である。 本実施形態の処理システムの処理の流れの一例を示すフローチャートである。 本実施形態の処理システムの機能ブロック図の一例である。 本実施形態の処理システムの機能ブロック図の一例である。 本実施形態の推定装置の構成を説明するための図である。 本実施形態の推定装置が推定する画像の一例を示す図である。 本実施形態の推定装置が推定する画像の一例を示す図である。
<第1の実施形態>
 まず、本実施形態の処理システムの概要を説明する。処理システムは、標準レンズ(例えば画角40°前後~60°前後)を用いた撮影で生成された通常画像の内容を精度よく推定できるように調整された推定モデルのパラメタの値を、魚眼レンズ(例えば画角180°前後)を用いた撮影で生成された魚眼レンズ画像を平面展開したパノラマ画像と当該推定モデルとを用いた所定のタスクの結果に基づき修正することで、魚眼レンズ画像を平面展開したパノラマ画像の内容を精度よく推定できるように当該推定モデルのパラメタの値を調整する。
 図1に、この処理の概要を示す。まず、通常画像とその通常画像の内容を示すラベルとを含む学習データを用いた機械学習を実行済みであり、通常画像の内容を精度よく推定できるようにパラメタの値が調整された推定モデルが準備される。初期状態において、当該推定モデルは、通常画像が示す物体、場所、場面、状況等を、精度よく推定できる。
 処理システムは、魚眼レンズ画像を平面展開したパノラマ画像から生成された複数のサンプル画像を推定モデルに入力し、推定モデルから出力された各サンプル画像の内容の推定結果(画像内容推定結果)を取得する。上述の通り、初期状態において、推定モデルのパラメタの値は、通常画像の内容を精度よく推定できるように調整されている。図示するサイクルを繰り返すことで、魚眼レンズ画像を平面展開したパノラマ画像の内容を精度よく推定できるようになるが、サイクルの初期段階では、推定モデルから出力された推定結果が「誤り」である可能性が高くなる。
 「推定結果が誤り」とは、画像が示す内容と、推定結果が示す内容とが一致しない状態を示す。一方、「推定結果が正しい」とは、画像が示す内容と、推定結果が示す内容とが一致する状態を示す。
 その後、処理システムは、各サンプル画像の画像内容推定結果をタスクモデルに入力し、タスクモデルから出力されたタスクの結果を取得する。推定モデルから出力された各サンプル画像の画像内容推定結果が「正しい」場合、タスクモデルによるタスクの結果が所定の条件を満たしやすくなる。一方、推定モデルから出力された各サンプル画像の画像内容推定結果が「誤り」である場合、タスクモデルによるタスクの結果が所定の条件を満たし難くなる。
 その後、処理システムは、タスクの結果を判定器に入力し、判定器から出力された判定結果を取得する。判定器は、タスクの結果が所定の条件を満たすか否かを判定する。
 そして、処理システムは、判定器の判定結果が「タスクの結果が所定の条件を満たさない」である場合、その旨を修正器に入力する。修正器は、推定モデルのパラメタの値を修正する(新しいパラメタの値に更新する)。
 処理システムは、判定器による判定結果が所定の終了条件を満たすまで、当該サイクルを繰り返す。
 なお、本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと(能動的な取得)」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等を含んでもよい。また、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること(受動的な取得)」、たとえば、配信(または、送信、プッシュ通知等)されるデータを受信すること等を含んでもよい。また、「取得」とは、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集(テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等)などして新たなデータを生成し、当該新たなデータを取得すること」を含んでもよい。
 次に、処理システムの構成を詳細に説明する。まず、処理システムのハードウエア構成の一例について説明する。処理システムが備える各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
 図2は、処理システムのハードウエア構成を例示するブロック図である。図2に示すように、処理システムは、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。処理システムは周辺回路4Aを有さなくてもよい。なお、処理システムは物理的及び/又は論理的に分かれた複数の装置で構成されてもよいし、物理的及び/又は論理的に一体となった1つの装置で構成されてもよい。処理システムが物理的及び/又は論理的に分かれた複数の装置で構成される場合、複数の装置各々が上記ハードウエア構成を備えることができる。
 バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサー、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
 次に、処理システムの機能構成を説明する。図3に、処理システム10の機能ブロック図の一例を示す。図4に、処理システム10のデータの流れの一例を示す。図示するように、処理システム10は、サンプル画像生成部11と、推定部12と、記憶部13と、タスク実行部14と、判定部15と、修正部16と、繰り返し制御部17とを有する。なお、処理システム10は記憶部13を有さなくてもよい。この場合、処理システム10と通信可能に構成された外部装置が記憶部13を備える。
 サンプル画像生成部11は、魚眼レンズ(第1のレンズ)を用いた撮影で生成された学習用の魚眼レンズ画像(第1の画像)から、各々が学習用の魚眼レンズ画像の一部領域に対応した複数のサンプル画像を生成する。魚眼レンズ画像は、いわゆる、全方位画像、全天球画像、全周画像、360°画像等である。
 サンプル画像生成部11は、学習用の魚眼レンズ画像を平面展開した学習用のパノラマ画像内の一部領域を、サンプル画像として抽出する。サンプル画像生成部11は、学習用の魚眼レンズ画像全体を平面展開した後に、当該平面展開により得られた学習用のパノラマ画像からサンプル画像を切り出してもよい。その他、サンプル画像生成部11は、学習用の魚眼レンズ画像から一部を切り出し、切り出した一部を平面展開してサンプル画像を生成してもよい。いずれにおいても、学習用の魚眼レンズ画像を平面展開した学習用のパノラマ画像内の一部領域を、サンプル画像として抽出することができる。なお、魚眼レンズ画像を平面展開する手法は広く知られているので、ここでの説明は省略する。
 本実施形態では、サンプル画像生成部11は、学習用のパノラマ画像内の互いに隣接する複数の一部領域各々をサンプル画像として切り出すことができる。複数のサンプル画像は、隙間なく互いに隣接していることが好ましいが、多少の隙間を挟んで隣接していてもよい。なお、サンプル画像を切り出す位置、大きさ及び数等は、タスク実行部14が実行するタスクの内容に応じて設計できる。
 サンプル画像生成部11は、図4に示すように、生成したサンプル画像を推定部12に渡す。また、サンプル画像生成部11は、学習用の魚眼レンズ画像(学習用のパノラマ画像)内における複数のサンプル画像の相対的位置関係を示す情報を、判定部15に渡す。複数のサンプル画像の相対的位置関は、左右に隣接する複数のサンプル画像の左右の並び順や、上下に隣接する複数のサンプル画像の上下の並び順等を示す。本実施形態では、サンプル画像生成部11は、左右に隣接する3つのサンプル画像を切り出し、この3つのサンプル画像の並び順を示す情報を判定部15に渡すものとするが、これに限定されない。
 記憶部13は、推定モデルを記憶する。推定モデルは、例えばCNN(convolutional neural network)であるが、これに限定されない。推定モデルは、第2のレンズを用いた撮影で生成された第2の画像と、その第2の画像の内容を示すラベルとを含む学習データを用いた機械学習を実行済みであり、第2の画像の内容を精度よく推定できるようにパラメタの値が調整されている。
 第2のレンズの特性は、魚眼レンズの特性と異なる。第2のレンズと魚眼レンズとの間で異なる特性は、画像に現れる被写体の特徴に影響し得るものであり(すなわち、特性が異なれば画像に現れる被写体の特徴も異なり得る)、例えば、画角、焦点距離等が例示される。
 本実施形態では、第1のレンズは魚眼レンズであり、第2のレンズは標準レンズである。すなわち、記憶部13に記憶されている推定モデルは、標準レンズを用いた撮影で生成された通常画像と、その通常画像の内容を示すラベルとを含む学習データを用いた機械学習を実行済みであり、通常画像の内容を精度よく推定できるようにパラメタの値が調整されている。なお、第2のレンズは、魚眼レンズと異なるレンズであればよく、標準レンズ以外のレンズであってもよい。
 推定部12は、記憶部13に記憶されている推定モデルにサンプル画像を入力し、サンプル画像毎に内容を示す画像内容推定結果を生成する。画像内容推定結果は、サンプル画像が示す物体、場所、場面、状況等を示す。なお、上述の通り、初期状態において、推定モデルのパラメタの値は通常画像の内容を精度よく推定できるように調整されている。このため、修正部16によるパラメタの値の修正がなされる前の状態、また、修正部16によるパラメタの値の修正が不十分な状態においては、画像内容推定結果が示すサンプル画像の内容は、「誤り」である可能性が高くなる。
 図4に示すように、推定部12は、生成した複数のサンプル画像各々の画像内容推定結果を、タスク実行部14に渡す。
 タスク実行部14は、サンプル画像各々の画像内容推定結果に基づき、所定のタスクを実行する。本実施形態では、タスク実行部14は、学習用の魚眼レンズ画像(学習用のパノラマ画像)内における複数のサンプル画像の相対的位置関係を推定する。より具体的には、サンプル画像生成部11が左右に隣接する3つのサンプル画像を切り出す本実施形態の場合、タスク実行部14はこの3つのサンプル画像の横方向の並び順を推定する。例えば、タスク実行部14は、複数の画像各々の画像内容推定結果に基づき、複数の画像の相対的位置関係を推定する推定モデルに、サンプル画像各々の画像内容推定結果を入力することで、サンプル画像各々の画像内容推定結果を取得してもよい。
 図4に示すように、タスク実行部14は、複数のサンプル画像の相対的位置関係の推定結果を判定部15に渡す。タスク実行部14が判定部15に渡す推定結果は複数のサンプル画像の相対的位置関係を示すものであればよく、例えば、複数のサンプル画像の並び順であってもよいし、3つのサンプル画像の中の所定の並び位置(例:3つのサンプル画像の真ん中)にあると推定されたサンプル画像の識別情報であってもよいし、その他であってもよい。
 判定部15は、サンプル画像生成部11から取得した複数のサンプル画像の相対的位置関係を示す情報(正解情報)と、タスク実行部14から取得した複数のサンプル画像の相対的位置関係の推定結果とに基づき、タスク実行部14による相対的位置関係の推定結果が正しいか判定する。
 繰り返し制御部17は、複数のサンプル画像の相対的位置関係の推定結果が終了条件を満たすまで、サンプル画像生成部11、推定部12、タスク実行部14、判定部15及び修正部16による上述した処理を繰り返し実行させる。
 終了条件は、「複数のサンプル画像の相対的位置関係の推定結果が正しいと判定された」、「複数のサンプル画像の相対的位置関係の推定結果が正しいと判定された累積回数が閾値に達した」、「所定回数連続で、複数のサンプル画像の相対的位置関係の推定結果が正しいと判定された」等であるが、これらに限定されない。
 修正部16は、複数のサンプル画像の相対的位置関係の推定結果が誤っていると判定された場合、記憶部13に記憶されている推定モデルのパラメタの値を修正する(パラメタの値を新しい値に更新する)。例えば、修正部16は、確率的勾配降下法により、推定モデルの複数のレイヤ(層)のウエイトを修正することができる。なお、ここでの例示はあくまで一例であり、その他の手法で推定モデルを更新してもよい。
 次に、図5のフローチャートを用いて、処理システム10の処理の流れの一例を説明する。なお、各ステップで各機能部が行う処理の詳細は上述したので、ここでの説明は省略する。
 S10では、サンプル画像生成部11は、魚眼レンズを用いた撮影で生成された学習用の魚眼レンズ画像から、各々が学習用の魚眼レンズ画像の一部領域に対応した複数のサンプル画像を生成する。例えば、サンプル画像生成部11は、学習用の魚眼レンズ画像を平面展開した学習用のパノラマ画像内において互いに隣接した3つの領域を切り出し、3つのサンプル画像とする。
 S11では、推定部12は、記憶部13に記憶されている推定モデルにサンプル画像を入力することで、サンプル画像毎に内容を示す画像内容推定結果を生成する。
 S12では、タスク実行部14は、サンプル画像各々の画像内容推定結果に基づき、学習用の魚眼レンズ画像(学習用のパノラマ画像)内での複数のサンプル画像の相対的位置関係を推定する。
 S13では、判定部15は、S12で生成された複数のサンプル画像の相対的位置関係の推定結果が正しいか判定する。
 誤っている場合(S14のNo)、修正部16は、機械学習の再実行により、記憶部13に記憶されている推定モデルのパラメタの値を修正する(S16)。
 正しい場合(S14のYes)、及び、S16の後に、S15に進む。S15では、S12で生成された複数のサンプル画像の相対的位置関係の推定結果が終了条件を満たすか判定する。終了条件を満たさない場合(S15のNo)、S10に戻り、処理を繰り返す。終了条件を満たす場合(S15のYes)、処理を終了する。
 以上説明した本実施形態の処理システム10によれば、標準レンズを用いた撮影で生成された通常画像の内容を精度よく推定できるように調整された推定モデルのパラメタの値を、魚眼レンズを用いた撮影で生成された魚眼レンズ画像を平面展開したパノラマ画像と当該推定モデルとを用いた所定のタスクの結果に基づき修正することで、魚眼レンズ画像を平面展開したパノラマ画像の内容を精度よく推定できるように当該推定モデルのパラメタの値を調整することができる。
 このような本実施形態の処理システム10によれば、魚眼レンズ画像を平面展開したパノラマ画像と、そのパノラマ画像の内容を示すラベルとを含む学習データを大量に用意することなしに、魚眼レンズ画像を平面展開したパノラマ画像の内容を精度よく推定できる推定モデルを生成することができる。
 また、本実施形態の処理システム10によれば、確率的勾配降下法に基づき推定モデルのパラメタの値を修正することで、良好な収束性が得られる。
<第2の実施形態>
 本実施形態の処理システム10は、転移学習用の魚眼レンズ画像と転移学習用の魚眼レンズ画像の内容を示すラベルとを含む学習データを用いた転移学習により、魚眼レンズ画像を平面展開したパノラマ画像の内容を精度よく推定できるようにパラメタの値を調整された推定モデルを、魚眼レンズ画像の内容を推定する領域に適用させる。
 図6に、処理システム10の機能ブロック図の一例を示す。図示するように、処理システム10は、サンプル画像生成部11と、推定部12と、記憶部13と、タスク実行部14と、判定部15と、修正部16と、繰り返し制御部17と、転移学習部18とを有する。サンプル画像生成部11、推定部12、記憶部13、タスク実行部14、判定部15、修正部16及び繰り返し制御部17の構成は、第1の実施形態と同様である。
 図7に、処理システム10の機能ブロック図の他の一例を示す。図示するように、処理システム10は、転移学習部18と、記憶部19とを有する。
 記憶部13及び記憶部19には、魚眼レンズ画像を平面展開したパノラマ画像の内容を精度よく推定できるようにパラメタの値を調整された推定モデルが記憶されている。当該推定モデルは、第1の実施形態で説明した手法で生成された推定モデルであってもよい。その他、当該推定モデルは、魚眼レンズ画像を平面展開したパノラマ画像と、そのパノラマ画像の内容を示すラベルとを含む学習データを機械学習することで生成された推定モデルであってもよい。推定モデルは、例えばCNNであるが、これに限定されない。
 転移学習部18は、転移学習用の魚眼レンズ画像と転移学習用の魚眼レンズ画像の内容を示すラベルとを含む学習データを用いた転移学習により、魚眼レンズ画像を平面展開したパノラマ画像の内容を精度よく推定できるようにパラメタの値を調整された推定モデルを、魚眼レンズ画像の内容を推定する領域に適用させる。転移学習部18は、あらゆる転移学習の手法を採用することができる。
 処理システム10のハードウエア構成の一例は、第1の実施形態と同様である。
 以上、本実施形態の処理システム10によれば、転移学習を利用することで、魚眼レンズ画像とその魚眼レンズ画像の内容を示すラベルとを含む学習データを大量に用意することなしに、魚眼レンズ画像の内容を精度よく推定できる推定モデルを生成することができる。
<第3の実施形態>
 本実施形態の推定装置20は、図8に示すように、第1又は第2の実施形態の処理システム10が生成した推定モデルに、推定対象の魚眼レンズ画像又は推定対象のパノラマ画像(魚眼レンズ画像を平面展開した画像)を入力することで、推定対象の魚眼レンズ画像又は推定対象のパノラマ画像の内容を推定する。推定装置20のハードウエア構成の一例は、処理システム10と同様図2で示される。
 以上、本実施形態の推定装置20によれば、魚眼レンズ画像を平面展開したパノラマ画像と、そのパノラマ画像の内容を示すラベルとを含む学習データを大量に用意することなしに、魚眼レンズ画像を平面展開したパノラマ画像の内容を精度よく推定できるようになる。推定装置20は、場面(シーン)の認識や物体の認識等を行うことができる。例えば、推定装置20は、図9に示すように、画像からカフェなどの場面(シーン)を認識したり、図10に示すように、画像からバイクや人物等の物体を認識したりできる。
 また、本実施形態の推定装置20によれば、魚眼レンズ画像とその魚眼レンズ画像の内容を示すラベルとを含む学習データを大量に用意することなしに、魚眼レンズ画像の内容を精度よく推定できるようになる。
<変形例>
 ここで、変形例を説明する。第1乃至第3の実施形態では、「第1のレンズが魚眼レンズ」であり、「第2のレンズが標準レンズ」であり、処理システム10は、「標準レンズを用いた撮影で生成された通常画像の内容を精度よく推定できるように調整された推定モデルのパラメタの値を、魚眼レンズを用いた撮影で生成された魚眼レンズ画像の内容を精度よく推定できるように調整する」例を説明した。
 しかし、これに限定されない。例えば、「第1のレンズは魚眼レンズに分類されない広角レンズ」であり、「第2のレンズは標準レンズ」であり、処理システム10は、「標準レンズを用いた撮影で生成された通常画像の内容を精度よく推定できるように調整された推定モデルのパラメタの値を、魚眼レンズに分類されない広角レンズを用いた撮影で生成された画像の内容を精度よく推定できるように調整」してもよい。
 その他、「第1のレンズは魚眼レンズ」であり、「第2のレンズは魚眼レンズに分類されない広角レンズ」であり、処理システム10は、「魚眼レンズに分類されない広角レンズを用いた撮影で生成された画像の内容を精度よく推定できるように調整された推定モデルのパラメタの値を、魚眼レンズを用いた撮影で生成された魚眼レンズ画像の内容を精度よく推定できるように調整」してもよい。
 その他、「第1のレンズは魚眼レンズに分類されない広角レンズ」であり、「第2のレンズは魚眼レンズ」であり、処理システム10は、「魚眼レンズを用いた撮影で生成された魚眼レンズ画像の内容を精度よく推定できるように調整された推定モデルのパラメタの値を、魚眼レンズに分類されない広角レンズを用いた撮影で生成された画像の内容を精度よく推定できるように調整」してもよい。
 また、第1乃至第3の実施形態で説明した例では、タスク実行部14は複数のサンプル画像の相対的位置関係を推定するタスクを実行した。しかし、タスク実行部14が実行するタスクは、推定部12が生成したサンプル画像の画像内容推定結果が正しい場合にタスクの結果が所定の条件を満たしやすくなり、推定部12が生成したサンプル画像の画像内容推定結果が正しくない場合にタスクの結果が上記所定の条件を満たし難くなるものであればよく、上記例に限定されない。
 以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。
1. 第1のレンズを用いた撮影で生成された学習用の第1の画像から、各々が前記学習用の第1の画像の一部領域に対応した複数のサンプル画像を生成するサンプル画像生成手段と、
 特性が前記第1のレンズと異なる第2のレンズを用いた撮影で生成された第2の画像と、前記第2の画像の内容を示すラベルとを含む学習データを用いた機械学習で生成された推定モデルに前記サンプル画像を入力し、前記サンプル画像毎に内容を示す画像内容推定結果を生成する推定手段と、
 前記サンプル画像各々の前記画像内容推定結果に基づき、前記学習用の第1の画像内での複数の前記サンプル画像の相対的位置関係を推定するタスク実行手段と、
 前記相対的位置関係の推定結果が正しいか判定する判定手段と、
 前記相対的位置関係の推定結果が誤っていると判定された場合、前記推定モデルのパラメタの値を修正する修正手段と、
を有する処理システム。
2. 1に記載の処理システムにおいて、
 前記修正手段は確率的勾配降下法に基づき、前記推定モデルのパラメタの値を修正する処理システム。
3. 1又は2に記載の処理システムにおいて、
 前記相対的位置関係の推定結果が終了条件を満たすまで、前記サンプル画像生成手段、前記推定手段、前記タスク実行手段、前記判定手段及び前記修正手段による処理を繰り返し実行させる繰り返し制御手段をさらに有する処理システム。
4. 1から3のいずれかに記載の処理システムにおいて、
 前記第1のレンズは魚眼レンズであり、前記第2のレンズは魚眼レンズと異なるレンズである処理システム。
5. 4に記載の処理システムにおいて、
 前記サンプル画像生成手段は、魚眼レンズを用いた撮影で生成された前記学習用の第1の画像を平面展開した学習用のパノラマ画像内の一部領域を、前記サンプル画像として抽出する処理システム。
6. 5に記載の処理システムにおいて、
 魚眼レンズを用いた撮影で生成された転移学習用の魚眼レンズ画像と前記転移学習用の魚眼レンズ画像の内容を示すラベルとを含む学習データを用いた転移学習により、前記パノラマ画像の内容を推定する前記推定モデルを、前記魚眼レンズ画像の内容を推定する領域に適用させる転移学習手段を有する処理システム。
7. 魚眼レンズを用いた撮影で生成された魚眼レンズ画像と前記魚眼レンズ画像の内容を示すラベルとを含む学習データを用いた転移学習により、前記魚眼レンズ画像を平面展開したパノラマ画像の内容を推定する推定モデルを、前記魚眼レンズ画像の内容を推定する領域に適用させる転移学習手段を有する処理システム。
8. 第1のレンズを用いた撮影で生成された学習用の第1の画像から、各々が前記学習用の第1の画像の一部領域に対応した複数のサンプル画像を生成するサンプル画像生成手段と、
 特性が前記第1のレンズと異なる第2のレンズを用いた撮影で生成された第2の画像と、前記第2の画像の内容を示すラベルとを含む学習データを用いた機械学習で生成された推定モデルに前記サンプル画像を入力し、前記サンプル画像毎に内容を示す画像内容推定結果を生成する推定手段と、
 前記サンプル画像各々の前記画像内容推定結果に基づき、前記学習用の第1の画像内での複数の前記サンプル画像の相対的位置関係を推定するタスク実行手段と、
 前記相対的位置関係の推定結果が正しいか判定する判定手段と、
 前記相対的位置関係の推定結果が誤っていると判定された場合、前記推定モデルのパラメタの値を修正する修正手段と、を有する処理システムによりパラメタの値を調整された前記推定モデルを用いて、前記第1のレンズを用いた撮影で生成された推定対象の画像、又は、前記推定対象の画像を平面展開した画像の内容を推定する推定装置。
9. コンピュータが、
 第1のレンズを用いた撮影で生成された学習用の第1の画像から、各々が前記学習用の第1の画像の一部領域に対応した複数のサンプル画像を生成し、
 特性が前記第1のレンズと異なる第2のレンズを用いた撮影で生成された第2の画像と、前記第2の画像の内容を示すラベルとを含む学習データを用いた機械学習で生成された推定モデルに前記サンプル画像を入力し、前記サンプル画像毎に内容を示す画像内容推定結果を生成し、
 前記サンプル画像各々の前記画像内容推定結果に基づき、前記学習用の第1の画像内での複数の前記サンプル画像の相対的位置関係を推定し、
 前記相対的位置関係の推定結果が正しいか判定し、
 前記相対的位置関係の推定結果が誤っていると判定された場合、前記推定モデルのパラメタの値を修正する処理方法。
10. コンピュータを、
 第1のレンズを用いた撮影で生成された学習用の第1の画像から、各々が前記学習用の第1の画像の一部領域に対応した複数のサンプル画像を生成するサンプル画像生成手段、
 特性が前記第1のレンズと異なる第2のレンズを用いた撮影で生成された第2の画像と、前記第2の画像の内容を示すラベルとを含む学習データを用いた機械学習で生成された推定モデルに前記サンプル画像を入力し、前記サンプル画像毎に内容を示す画像内容推定結果を生成する推定手段、
 前記サンプル画像各々の前記画像内容推定結果に基づき、前記学習用の第1の画像内での複数の前記サンプル画像の相対的位置関係を推定するタスク実行手段、
 前記相対的位置関係の推定結果が正しいか判定する判定手段、
 前記相対的位置関係の推定結果が誤っていると判定された場合、前記推定モデルのパラメタの値を修正する修正手段、
として機能させるプログラム。

Claims (10)

  1.  第1のレンズを用いた撮影で生成された学習用の第1の画像から、各々が前記学習用の第1の画像の一部領域に対応した複数のサンプル画像を生成するサンプル画像生成手段と、
     特性が前記第1のレンズと異なる第2のレンズを用いた撮影で生成された第2の画像と、前記第2の画像の内容を示すラベルとを含む学習データを用いた機械学習で生成された推定モデルに前記サンプル画像を入力し、前記サンプル画像毎に内容を示す画像内容推定結果を生成する推定手段と、
     前記サンプル画像各々の前記画像内容推定結果に基づき、前記学習用の第1の画像内での複数の前記サンプル画像の相対的位置関係を推定するタスク実行手段と、
     前記相対的位置関係の推定結果が正しいか判定する判定手段と、
     前記相対的位置関係の推定結果が誤っていると判定された場合、前記推定モデルのパラメタの値を修正する修正手段と、
    を有する処理システム。
  2.  請求項1に記載の処理システムにおいて、
     前記修正手段は確率的勾配降下法に基づき、前記推定モデルのパラメタの値を修正する処理システム。
  3.  請求項1又は2に記載の処理システムにおいて、
     前記相対的位置関係の推定結果が終了条件を満たすまで、前記サンプル画像生成手段、前記推定手段、前記タスク実行手段、前記判定手段及び前記修正手段による処理を繰り返し実行させる繰り返し制御手段をさらに有する処理システム。
  4.  請求項1から3のいずれか1項に記載の処理システムにおいて、
     前記第1のレンズは魚眼レンズであり、前記第2のレンズは魚眼レンズと異なるレンズである処理システム。
  5.  請求項4に記載の処理システムにおいて、
     前記サンプル画像生成手段は、魚眼レンズを用いた撮影で生成された前記学習用の第1の画像を平面展開した学習用のパノラマ画像内の一部領域を、前記サンプル画像として抽出する処理システム。
  6.  請求項5に記載の処理システムにおいて、
     魚眼レンズを用いた撮影で生成された転移学習用の魚眼レンズ画像と前記転移学習用の魚眼レンズ画像の内容を示すラベルとを含む学習データを用いた転移学習により、前記パノラマ画像の内容を推定する前記推定モデルを、前記魚眼レンズ画像の内容を推定する領域に適用させる転移学習手段を有する処理システム。
  7.  魚眼レンズを用いた撮影で生成された魚眼レンズ画像と前記魚眼レンズ画像の内容を示すラベルとを含む学習データを用いた転移学習により、前記魚眼レンズ画像を平面展開したパノラマ画像の内容を推定する推定モデルを、前記魚眼レンズ画像の内容を推定する領域に適用させる転移学習手段を有する処理システム。
  8.  第1のレンズを用いた撮影で生成された学習用の第1の画像から、各々が前記学習用の第1の画像の一部領域に対応した複数のサンプル画像を生成するサンプル画像生成手段と、
     特性が前記第1のレンズと異なる第2のレンズを用いた撮影で生成された第2の画像と、前記第2の画像の内容を示すラベルとを含む学習データを用いた機械学習で生成された推定モデルに前記サンプル画像を入力し、前記サンプル画像毎に内容を示す画像内容推定結果を生成する推定手段と、
     前記サンプル画像各々の前記画像内容推定結果に基づき、前記学習用の第1の画像内での複数の前記サンプル画像の相対的位置関係を推定するタスク実行手段と、
     前記相対的位置関係の推定結果が正しいか判定する判定手段と、
     前記相対的位置関係の推定結果が誤っていると判定された場合、前記推定モデルのパラメタの値を修正する修正手段と、を有する処理システムによりパラメタの値を調整された前記推定モデルを用いて、前記第1のレンズを用いた撮影で生成された推定対象の画像、又は、前記推定対象の画像を平面展開した画像の内容を推定する推定装置。
  9.  コンピュータが、
     第1のレンズを用いた撮影で生成された学習用の第1の画像から、各々が前記学習用の第1の画像の一部領域に対応した複数のサンプル画像を生成し、
     特性が前記第1のレンズと異なる第2のレンズを用いた撮影で生成された第2の画像と、前記第2の画像の内容を示すラベルとを含む学習データを用いた機械学習で生成された推定モデルに前記サンプル画像を入力し、前記サンプル画像毎に内容を示す画像内容推定結果を生成し、
     前記サンプル画像各々の前記画像内容推定結果に基づき、前記学習用の第1の画像内での複数の前記サンプル画像の相対的位置関係を推定し、
     前記相対的位置関係の推定結果が正しいか判定し、
     前記相対的位置関係の推定結果が誤っていると判定された場合、前記推定モデルのパラメタの値を修正する処理方法。
  10.  コンピュータを、
     第1のレンズを用いた撮影で生成された学習用の第1の画像から、各々が前記学習用の第1の画像の一部領域に対応した複数のサンプル画像を生成するサンプル画像生成手段、
     特性が前記第1のレンズと異なる第2のレンズを用いた撮影で生成された第2の画像と、前記第2の画像の内容を示すラベルとを含む学習データを用いた機械学習で生成された推定モデルに前記サンプル画像を入力し、前記サンプル画像毎に内容を示す画像内容推定結果を生成する推定手段、
     前記サンプル画像各々の前記画像内容推定結果に基づき、前記学習用の第1の画像内での複数の前記サンプル画像の相対的位置関係を推定するタスク実行手段、
     前記相対的位置関係の推定結果が正しいか判定する判定手段、
     前記相対的位置関係の推定結果が誤っていると判定された場合、前記推定モデルのパラメタの値を修正する修正手段、
    として機能させるプログラム。
PCT/JP2019/015210 2019-04-05 2019-04-05 画像処理システム、推定装置、処理方法及びプログラム WO2020202572A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021511070A JP7124957B2 (ja) 2019-04-05 2019-04-05 画像処理システム、推定装置、処理方法及びプログラム
PCT/JP2019/015210 WO2020202572A1 (ja) 2019-04-05 2019-04-05 画像処理システム、推定装置、処理方法及びプログラム
US17/600,711 US20220189151A1 (en) 2019-04-05 2019-04-05 Processing system, estimation apparatus, processing method, and non-transitory storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/015210 WO2020202572A1 (ja) 2019-04-05 2019-04-05 画像処理システム、推定装置、処理方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2020202572A1 true WO2020202572A1 (ja) 2020-10-08

Family

ID=72666439

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/015210 WO2020202572A1 (ja) 2019-04-05 2019-04-05 画像処理システム、推定装置、処理方法及びプログラム

Country Status (3)

Country Link
US (1) US20220189151A1 (ja)
JP (1) JP7124957B2 (ja)
WO (1) WO2020202572A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220198216A1 (en) * 2020-12-17 2022-06-23 Fujitsu Limited Computer-readable recording medium storing image output program, image output method, and image output apparatus

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230186590A1 (en) * 2021-12-13 2023-06-15 Robert Bosch Gmbh Method for omnidirectional dense regression for machine perception tasks via distortion-free cnn and spherical self-attention
CN115661728B (zh) * 2022-12-29 2023-03-31 北京正大创新医药有限公司 基于图像识别的病毒采样到位判断方法及病毒采样系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000048187A (ja) * 1998-07-29 2000-02-18 Fuji Photo Film Co Ltd 画像変換方法
JP2017224156A (ja) * 2016-06-15 2017-12-21 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2018005405A (ja) * 2016-06-29 2018-01-11 株式会社東芝 情報処理装置および情報処理方法
JP2018005357A (ja) * 2016-06-29 2018-01-11 株式会社東芝 情報処理装置および情報処理方法
JP2019500687A (ja) * 2016-04-21 2019-01-10 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 顔認証方法、装置及びコンピュータ記憶媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000048187A (ja) * 1998-07-29 2000-02-18 Fuji Photo Film Co Ltd 画像変換方法
JP2019500687A (ja) * 2016-04-21 2019-01-10 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 顔認証方法、装置及びコンピュータ記憶媒体
JP2017224156A (ja) * 2016-06-15 2017-12-21 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2018005405A (ja) * 2016-06-29 2018-01-11 株式会社東芝 情報処理装置および情報処理方法
JP2018005357A (ja) * 2016-06-29 2018-01-11 株式会社東芝 情報処理装置および情報処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220198216A1 (en) * 2020-12-17 2022-06-23 Fujitsu Limited Computer-readable recording medium storing image output program, image output method, and image output apparatus

Also Published As

Publication number Publication date
JP7124957B2 (ja) 2022-08-24
JPWO2020202572A1 (ja) 2020-10-08
US20220189151A1 (en) 2022-06-16

Similar Documents

Publication Publication Date Title
KR102476294B1 (ko) Ar/vr 디지털 콘텐츠를 생성하기 위한 디지털 이미지 적합성 결정
WO2020202572A1 (ja) 画像処理システム、推定装置、処理方法及びプログラム
US20210097650A1 (en) Image processing method, storage medium, image processing apparatus, learned model manufacturing method, and image processing system
US11301669B2 (en) Face recognition system and method for enhancing face recognition
EP2960859B1 (en) Constructing a 3d structure
US20220198609A1 (en) Modifying sensor data using generative adversarial models
CN110796201A (zh) 一种标注框的修正方法、电子设备及存储介质
JP2015523018A (ja) キャプチャされたデータの強化
CN111144215A (zh) 图像处理方法、装置、电子设备及存储介质
US20230237777A1 (en) Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium
CN115393815A (zh) 道路信息生成方法、装置、电子设备和计算机可读介质
CN113516697B (zh) 图像配准的方法、装置、电子设备及计算机可读存储介质
CN111881740A (zh) 人脸识别方法、装置、电子设备及介质
CN114742722A (zh) 文档矫正方法、装置、电子设备及存储介质
JP2020123139A (ja) 情報処理システム、端末装置、クライアント装置、それらの制御方法、プログラム、記憶媒体
JP6937782B2 (ja) 画像処理方法及びデバイス
CN111429353A (zh) 图像拼接及全景图拼接方法和装置、存储介质、电子设备
CN114638921B (zh) 动作捕捉方法、终端设备及存储介质
CN113298098B (zh) 基础矩阵估计方法及相关产品
US11238624B2 (en) Image transform method and image transform network
CN111383199A (zh) 图像处理方法、装置、计算机可读存储介质及电子设备
JP6694907B2 (ja) 判定装置、判定方法及び判定プログラム
JP6967150B2 (ja) 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム
KR20210087494A (ko) 인체 방향 검출 방법, 장치, 전자 기기 및 컴퓨터 저장 매체
JP6839771B2 (ja) 補正パターン分析による映像補正方法およびシステム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19922680

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021511070

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19922680

Country of ref document: EP

Kind code of ref document: A1