WO2019167277A1 - 画像収集装置、画像収集システム、画像収集方法、画像生成装置、画像生成システム、画像生成方法、およびプログラム - Google Patents

画像収集装置、画像収集システム、画像収集方法、画像生成装置、画像生成システム、画像生成方法、およびプログラム Download PDF

Info

Publication number
WO2019167277A1
WO2019167277A1 PCT/JP2018/008144 JP2018008144W WO2019167277A1 WO 2019167277 A1 WO2019167277 A1 WO 2019167277A1 JP 2018008144 W JP2018008144 W JP 2018008144W WO 2019167277 A1 WO2019167277 A1 WO 2019167277A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
display
images
display surface
photographing
Prior art date
Application number
PCT/JP2018/008144
Other languages
English (en)
French (fr)
Inventor
壮馬 白石
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2018/008144 priority Critical patent/WO2019167277A1/ja
Priority to US16/977,252 priority patent/US11461585B2/en
Priority to JP2020502773A priority patent/JPWO2019167277A1/ja
Publication of WO2019167277A1 publication Critical patent/WO2019167277A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data

Definitions

  • the present invention relates to an object recognition technique using an image.
  • Patent Document 1 An example of a technique for recognizing an object using an image is disclosed in Patent Document 1 below, for example.
  • Patent Document 1 below discloses a product registration device having a function of identifying an object captured by a camera as an object by identifying the object as a product and registering the product as a purchase target product.
  • the present invention has been made in view of the above problems.
  • One of the objects of the present invention is to provide a technique for reducing labor when constructing a classifier used for object recognition.
  • the image collecting apparatus of the present invention Display control means for switching and displaying a plurality of first images having different contents on the display surface of the display when photographing an object placed on the display surface of the display; Image acquisition means for acquiring a plurality of second images generated by photographing the object on the display surface of the display while the plurality of first images are switched and displayed and storing the plurality of second images in a storage device When, Is provided.
  • the image collection system of the present invention includes: A display whose display surface is used as an object placement surface; An imaging device for photographing an object placed on the display surface of the display; Display control means for switching and displaying a plurality of first images having different contents on the display surface of the display when photographing the object; Image acquisition means for acquiring a plurality of second images generated by photographing the object on the display surface of the display while the plurality of first images are switched and displayed and storing the plurality of second images in a storage device When, Is provided.
  • the image collection method of the present invention includes: Computer When photographing an object placed on the display surface of the display, a plurality of first images having different contents are switched and displayed on the display surface of the display, Acquiring a plurality of second images generated by photographing the object on the display surface of the display while switching and displaying the plurality of first images, and storing them in a storage device; Including that.
  • the first program of the present invention causes a computer to execute the above-described image collection method.
  • the image generation apparatus of the present invention Display control means for displaying a predetermined first image on the display surface of the display when photographing an object placed on the display surface of the display; Image acquisition means for acquiring a second image generated by photographing an object on a display surface of the display during display of the first image; Extraction means for extracting an object region image indicating the region of the object from the second image; Image generation means for generating a third image by combining the object region image with a background image, and storing the third image in a storage device; Is provided.
  • the image generation system of the present invention includes: A display whose display surface is used as an object placement surface; An imaging device for photographing an object placed on the display surface of the display; Display control means for displaying a predetermined first image on the display surface of the display when photographing the object; Image acquisition means for acquiring a second image generated by photographing an object on a display surface of the display during display of the first image; Extraction means for extracting an object region image indicating the region of the object from the second image; Image generation means for generating a third image by combining the object region image with a background image, and storing the third image in a storage device; Is provided.
  • the image generation method of the present invention includes: Computer When shooting an object placed on the display surface of the display, a predetermined first image is displayed on the display surface of the display, Obtaining a second image generated by photographing an object on a display surface of the display during display of the first image; Extracting an object region image indicating the region of the object from the second image; Generating a third image by combining the object region image with another background image, and storing the third image in a storage device; Including that.
  • the second program of the present invention causes a computer to execute the above-described image generation method.
  • FIG. 2 is a block diagram illustrating a hardware configuration of the image acquisition system 1.
  • FIG. It is a sequence diagram which illustrates the flow of processing of image collection system 1 of a 1st embodiment. It is a figure which shows illustratively the drawing data which a display control part transmits. It is a figure which shows the structural example of the image collection system 1 of 2nd Embodiment. It is a flowchart which illustrates the flow of the learning process performed by the image collection system 1 of 2nd Embodiment. It is a flowchart which illustrates the flow of the evaluation process performed by the image collection system 1 of 2nd Embodiment.
  • FIG. 1 is a diagram illustrating a basic configuration example of an image generation system 2.
  • FIG. 2 is a block diagram illustrating a hardware configuration of an image generation system 2.
  • FIG. It is a sequence diagram which illustrates the flow of a process of the image generation system 2 of 3rd Embodiment. It is a figure which illustrates the 1st method of extracting an object area image from a 2nd image. It is a figure which illustrates the 2nd method of extracting an object field image from the 2nd image. It is a figure which illustrates the 3rd method of extracting an object area image from a 2nd image. It is a figure which shows the other example of the 3rd method of extracting an object area
  • each block diagram represents a functional unit configuration, not a hardware unit configuration.
  • FIG. 1 is a diagram illustrating a basic configuration example of an image collection system 1 according to the first embodiment.
  • the image collection system 1 has a configuration capable of efficiently generating an image that can be used for learning and evaluation of an object identification engine (discriminator) (not shown).
  • the image collection system 1 includes an image collection device 10, an imaging device 30, and a display 40.
  • the image collection device 10 is connected to the imaging device 30 and the display 40 by wiring or the like not shown.
  • Display 40 displays various images on its display surface. Further, the display 40 displays a specific image (hereinafter referred to as “first image”) in accordance with control by the image collection device 10 described later.
  • the display surface of the display 40 is also used as a placement surface on which the object OBJ is placed as shown in the figure.
  • the object OBJ is an object to be learned by an object identification engine (not shown).
  • the object OBJ is a product sold in a store such as a retail store.
  • the imaging device 30 is arranged so as to include the display 40 in the imaging range, and captures the object OBJ placed on the display surface of the display 40 and the first image displayed on the display surface.
  • the image collection apparatus 10 of the present embodiment includes a display control unit 110 and an image acquisition unit 120.
  • the display control unit 110 and the image acquisition unit 120 communicate with the display 40 and the imaging device 30, respectively, as indicated by dotted lines.
  • the imaging device 30 captures an object OBJ placed on the display surface of the display 40
  • the display control unit 110 switches and displays a plurality of images (first images) having different contents on the display surface of the display 40.
  • the imaging device 30 captures the object OBJ while the display control unit 110 switches and displays the plurality of first images on the display 40, and distinguishes them from the plurality of images (hereinafter, distinguished from the first image described above.
  • An image generated by the imaging device 30 is expressed as “second image”).
  • each of the plurality of second images includes any one of the plurality of first images as the background of the object OBJ.
  • the image acquisition unit 120 acquires the plurality of second images generated in this way and stores them in a predetermined storage device.
  • the predetermined storage device may be a non-volatile storage device such as a hard disk drive, or may be a volatile storage device such as a RAM (Random Access Memory).
  • the image acquisition system 1 may be realized by hardware (eg, a hard-wired electronic circuit) that implements each functional component, or a combination of hardware and software (eg: an electronic circuit and it). Or a combination of programs to be controlled).
  • hardware eg, a hard-wired electronic circuit
  • software eg: an electronic circuit and it.
  • a combination of programs to be controlled e.g., a combination of programs to be controlled.
  • FIG. 2 is a block diagram illustrating a hardware configuration of the image collection system 1.
  • the image collection apparatus 10 includes a bus 1010, a processor 1020, a memory 1030, a storage device 1040, an input / output interface 1050, and a network interface 1060.
  • the bus 1010 is a data transmission path through which the processor 1020, the memory 1030, the storage device 1040, the input / output interface 1050, and the network interface 1060 exchange data with each other.
  • the method of connecting the processors 1020 and the like to each other is not limited to bus connection.
  • the processor 1020 is a processor realized by a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit).
  • the memory 1030 is a main storage device realized by a RAM (Random Access Memory) or the like.
  • the storage device 1040 is an auxiliary storage device realized by an HDD (Hard Disk Drive), an SSD (Solid State Drive), a memory card, a ROM (Read Only Memory), or the like.
  • the storage device 1040 stores program modules that implement the functions of the image collection device 10 (such as the display control unit 110 and the image acquisition unit 120).
  • the processor 1020 reads each program module onto the memory 1030 and executes it, thereby realizing each function corresponding to the program module.
  • the input / output interface 1050 is an interface for connecting the image collection apparatus 10 and various input / output devices.
  • the image collection device 10 is connected to the imaging device 30 and the display 40 via an input / output interface 1050.
  • the imaging device 30 is, for example, a camera equipped with a CCD (Charge-Coupled Device) image sensor or a CMOS (Complementary Metal-Oxide Semiconductor) image sensor.
  • the imaging device 30 is installed so as to include the display 40 (and the object OBJ placed on the display 40) in the imaging range.
  • the display 40 is a general display device.
  • the display 40 is also used as a placement surface for the object OBJ.
  • the display 40 is preferably a flat display such as an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), and an organic EL (Electro Luminescence).
  • the display 40 may be a touch panel that can accept an input operation by the user.
  • the input / output interface 1050 may be further connected to an input device such as a mouse or a keyboard.
  • the network interface 1060 is an interface for connecting the image collection apparatus 10 to the network.
  • This network is, for example, a LAN (Local Area Network) or a WAN (Wide Area Network).
  • the method of connecting the network interface 1060 to the network may be a wireless connection or a wired connection.
  • FIG. 2 is merely an example, and the hardware configuration of the image collection device 10 is not limited to the example of FIG.
  • the image collection device 10 may be connected to the imaging device 30 and the display 40 via the network interface 1060.
  • other devices may be connected to the image collection device 10.
  • a business device such as a barcode scanner, cashier, drawer, or automatic change machine may be connected to the image collection device 10.
  • FIG. 3 is a sequence diagram illustrating the processing flow of the image collection system 1 according to the first embodiment.
  • the flow in the case where the object OBJ is a product sold in a store such as a retail store is illustrated.
  • a user who uses the image collection system 1 places a product (object OBJ) as a learning target of the object identification engine at an arbitrary position on the display 40 (S102). Thereafter, the user instructs the image collecting apparatus 10 to execute processing, and the image collecting apparatus 10 receives the instruction (S104).
  • the user can operate the touch panel display 40 or an input / output device such as a mouse or keyboard connected to the input / output interface 1050 to instruct the image collection device 10 to execute processing.
  • the display control unit 110 and the image acquisition unit 120 each start to operate.
  • the display control unit 110 transmits drawing data for switching and displaying a plurality of first images at a predetermined timing to the display 40 (S106). Then, the display 40 displays a plurality of first images while switching based on the drawing data received from the display control unit 110 (S108).
  • FIG. 4 is a diagram exemplarily showing drawing data transmitted by the display control unit 110.
  • t0, t1, and t2 indicate times.
  • Time t0 indicates the reception timing of the data of the first first image [1].
  • the time t1 indicates the timing of switching to the data of the first image [2] next to the first image [1].
  • the time t2 indicates the timing of switching to the data of the first image [3] (not shown) next to the first image [2].
  • the display 40 first displays the first image [1] from time t0 to time t1. Thereafter, the display 40 displays the first image [2] from time t1 to time t2.
  • the display 40 also switches and displays the plurality of first images as described above according to the drawing data from the display control unit 110 in the period after time t2.
  • each of the plurality of first images may be an image generated at random (for example, a combined image of random geometric figures).
  • the plurality of first images may be, for example, a plurality of plain images each having a different color.
  • the plurality of first images may be images tuned according to the usage environment of the object identification engine.
  • the plurality of first images may be images in which at least one of the product type and arrangement is different from each other. In this case, noise other than the product may be included in at least some of the plurality of first images.
  • display content such as a screen or GUI (Graphical User Interface) that is actually displayed in a business in a store, or a person's hand or finger is included in at least a part of the plurality of first images as noise. It may be included.
  • the usage environment of the object identification engine specifically, the products to be purchased are placed on the display 40, and the products are recognized together by the upper imaging device 30). Such a system) can accurately reproduce situations that can actually occur.
  • the data of a plurality of first images as exemplified above are stored in the storage device 1040, for example, and the display control unit 110 can read out the data of each first image from the storage device 1040 or the like.
  • the display control unit 110 when using a plurality of first images tuned according to the usage environment of the object identification engine, the display control unit 110 combines a plurality of part images stored in the storage device 1040 randomly or according to a predetermined rule. The first image may be generated.
  • the image acquisition unit 120 transmits a shooting instruction to the imaging device 30 in accordance with the switching timing of the first image (S110). For example, when drawing data as illustrated in FIG. 4 is transmitted, the image acquisition unit 120 performs at least once each between the time t0 and the time t1 and between the time t1 and the time t2. An imaging instruction is transmitted to the imaging device 30. Then, the imaging device 30 performs a shooting operation in response to a shooting instruction from the image acquisition unit 120, and generates a plurality of second images (S112). According to the example of FIG.
  • the image collection system 1 of the present embodiment when the object OBJ placed on the display 40 is photographed, a plurality of first images having different contents are switched and displayed on the display surface of the display 40. Then, a plurality of second images including the object OBJ and any of the plurality of first images are generated by the imaging device 30 including the display 40 in the imaging range, and stored in a predetermined storage device.
  • the image collection system 1 of the present embodiment various images can be easily generated as images for optimizing the object identification engine. In other words, since the efficiency of generating an image for optimizing the classifier is improved, it is possible to reduce time and labor when constructing a classifier used for object recognition.
  • FIG. 5 is a diagram illustrating a configuration example of the image collection system 1 according to the second embodiment.
  • the image collection device 10 further includes a learning unit 130 and an evaluation unit 140.
  • the learning unit 130 generates or updates an object identification engine (discriminator) using the plurality of second images acquired by the image acquisition unit 120.
  • the evaluation unit 140 evaluates the identification accuracy of the object identification engine (classifier) using the plurality of second images acquired by the image acquisition unit 120.
  • the image collection system 1 of this embodiment has the same hardware configuration (for example, FIG. 2) as that of the first embodiment.
  • the storage device 1040 of this embodiment further stores program modules that realize the functions of the learning unit 130 and the evaluation unit 140 described above.
  • the processor 1020 reads these program modules onto the memory 1030 and executes them, thereby realizing the functions of the learning unit 130 and the evaluation unit 140 of the present embodiment.
  • FIG. 6 is a flowchart illustrating the flow of the learning process executed by the image collection system 1 of the second embodiment.
  • FIG. 7 is a flowchart illustrating the flow of evaluation processing executed by the image collection system 1 of the second embodiment.
  • the learning unit 130 displays the plurality of second images acquired by the image acquisition unit 120 in S114 of FIG. 3 on the display 40 or another monitor (not shown) (S202). Then, the user who uses the image collection system 1 confirms the second image displayed on the display 40 or another monitor (not shown), and indicates information indicating the object OBJ (for example, identification of the object name or the object). Information) and information indicating the area of the object OBJ. In the following, a combination of information indicating what the object OBJ is (for example, object name and object identification information) and information indicating the area of the object OBJ is referred to as “correct information”. Then, the learning unit 130 acquires correct information for each second image input by the user (S204).
  • the learning part 130 produces
  • the learning unit 130 performs object recognition of the object identification engine based on each of the plurality of second images and correct information for each second image acquired in the process of S204.
  • Generate parameters for The generated object identification engine is stored in the storage device 1040, for example.
  • the learning unit 130 determines the object of the object identification engine based on each of the plurality of second images and correct information for each second image acquired in the process of S204. Update the recognition parameters.
  • the object identification engine can be easily generated and updated using the plurality of second images generated in the first embodiment.
  • the evaluation unit 140 inputs the plurality of second images acquired by the image acquisition unit 120 in S114 of FIG. 3 to the object identification engine to be evaluated (S302). Then, the evaluation unit 140 displays the identification result of the object identification engine to be evaluated on, for example, the display 40 or another monitor (not shown) (S304). Then, the user who uses the image collection system 1 confirms the identification result displayed on the display 40 or another monitor (not shown), and confirms that there are no errors in the identification results of the plurality of second images ( S306). If there is no error in the identification result (S306: NO), the subsequent processing is not executed.
  • the user inputs correct correct information (correction information) regarding the second image in which the identification result has an error.
  • the evaluation unit 140 acquires the correction information input by the user (S308), and passes the correction information to the learning unit 130.
  • the learning unit 130 updates the parameters of the object identification engine based on the correction information (S310).
  • FIG. 8 is a diagram illustrating a basic configuration example of the image generation system 2.
  • the image generation system 2 includes an image generation device 20, an imaging device 30, and a display 40.
  • the image generation device 20 is connected to the imaging device 30 and the display 40 by wiring or the like (not shown). Note that the description of the imaging device 30 and the display 40 is the same as that of the image collection system 1 described above, and is omitted.
  • the image generation apparatus 20 of this embodiment includes a display control unit 210, an image acquisition unit 220, an extraction unit 230, and an image generation unit 240.
  • the display control unit 210 and the image acquisition unit 220 communicate with the display 40 and the imaging device 30, respectively, as indicated by the dotted lines.
  • the display control unit 210 displays a predetermined first image on the display surface of the display 40.
  • the display control unit 210 may display one specific type of first image on the display surface of the display 40, or a plurality of first images having different contents on the display surface of the display 40 as in the first embodiment. Images may be switched and displayed.
  • the imaging device 30 captures the object OBJ while the image acquisition unit 220 displays the first image on the display 40, and generates a second image. Then, the image acquisition unit 120 acquires the second image generated by the imaging device 30.
  • the extraction unit 230 extracts a partial image (hereinafter referred to as “object region image”) indicating the region of the object OBJ from the second image. A specific example of the operation of the extraction unit 230 will be described later.
  • the image generation unit 240 generates a new image (hereinafter referred to as “third image”) by combining the object region image extracted by the extraction unit 230 with a background image, and stores the new image in a predetermined storage device.
  • the predetermined storage device may be a non-volatile storage device such as a hard disk drive, or may be a volatile storage device such as a RAM (Random Access Memory).
  • the image generation system 2 may be realized by hardware (for example, a hard-wired electronic circuit) that implements each functional component, or a combination of hardware and software (for example, an electronic circuit and it). Or a combination of programs to be controlled).
  • hardware for example, a hard-wired electronic circuit
  • software for example, an electronic circuit and it.
  • a combination of programs to be controlled for example, a case where the image generation system 2 is realized by a combination of hardware and software will be further described.
  • FIG. 9 is a block diagram illustrating a hardware configuration of the image generation system 2.
  • the image generation apparatus 20 includes a bus 2010, a processor 2020, a memory 2030, a storage device 2040, an input / output interface 2050, and a network interface 2060.
  • the bus 2010 is a data transmission path through which the processor 2020, the memory 2030, the storage device 2040, the input / output interface 2050, and the network interface 2060 exchange data with each other.
  • the method of connecting the processors 2020 and the like is not limited to bus connection.
  • the processor 2020 is a processor realized by a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit).
  • the memory 2030 is a main storage device realized by a RAM (Random Access Memory) or the like.
  • the storage device 2040 is an auxiliary storage device realized by an HDD (Hard Disk Drive), an SSD (Solid State Drive), a memory card, a ROM (Read Only Memory), or the like.
  • the storage device 2040 stores program modules that implement the functions of the image generation apparatus 20 (such as the display control unit 210, the image acquisition unit 220, the extraction unit 230, and the image generation unit 240).
  • the processor 2020 reads each program module on the memory 2030 and executes it, thereby realizing each function corresponding to the program module.
  • the input / output interface 2050 is an interface for connecting the image generating apparatus 20 and various input / output devices.
  • the image generation device 20 is connected to the imaging device 30 and the display 40 via the input / output interface 2050.
  • the imaging device 30 is, for example, a camera equipped with a CCD (Charge-Coupled Device) image sensor or a CMOS (Complementary Metal-Oxide Semiconductor) image sensor. As illustrated, the imaging device 30 is installed so as to include the display 40 (and the object OBJ placed on the display 40) in the imaging range.
  • the display 40 is a general display device. The display 40 is also used as a placement surface for the object OBJ.
  • the display 40 is preferably a flat display such as an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), and an organic EL (Electro Luminescence).
  • the display 40 may be a touch panel that can accept an input operation by the user.
  • the input / output interface 2050 may further be connected to an input device such as a mouse or a keyboard.
  • the network interface 2060 is an interface for connecting the image generating apparatus 20 to the network.
  • This network is, for example, a LAN (Local Area Network) or a WAN (Wide Area Network).
  • the method of connecting the network interface 2060 to the network may be a wireless connection or a wired connection.
  • FIG. 9 is merely an example, and the hardware configuration of the image generation apparatus 20 is not limited to the example of FIG.
  • the image generation device 20 may be connected to the imaging device 30 and the display 40 via the network interface 2060.
  • other devices may be connected to the image generation device 20.
  • a business device such as a barcode scanner, cashier, drawer, or automatic change machine may be connected to the image generation device 20.
  • FIG. 10 is a sequence diagram illustrating the flow of processing of the image generation system 2 according to the third embodiment.
  • the flow in the case where the object OBJ is a product sold in a store such as a retail store is illustrated.
  • a user who uses the image generation system 2 places a product (object OBJ) as a learning target of the object identification engine at an arbitrary position on the display 40 (S402). Thereafter, the user instructs the image generation apparatus 20 to execute the process, and the image generation apparatus 20 receives the instruction (S404).
  • the user can operate the touch panel display 40 or an input / output device such as a mouse or a keyboard connected to the input / output interface 2050 to instruct the image generation apparatus 20 to execute processing.
  • the display control unit 210 and the image acquisition unit 220 each start to operate.
  • the display control unit 210 transmits drawing data of a predetermined first image to the display 40 (S406).
  • the drawing data of the predetermined first image is stored in the storage device 2040, for example, and the display control unit 210 can read out the drawing data of the predetermined first image from the storage device 2040 or the like. Then, the display 40 displays the first image based on the drawing data received from the display control unit 210 (S408).
  • the image acquisition unit 220 transmits a shooting instruction to the imaging device 30 (S410). Then, the imaging device 30 performs a shooting operation in response to a shooting instruction from the image acquisition unit 220, and generates a second image in which the product (object OBJ) is reflected against a predetermined first image (S412). . Then, the image acquisition unit 220 communicates with the imaging device 30 and acquires the second image generated in S412.
  • the extraction part 230 extracts the object area
  • object OBJ region of goods
  • FIG. 11 is a diagram illustrating a first technique for extracting an object region image from the second image.
  • the display control unit 210 causes the display 40 to display plain images having different colors, as a plurality of first images having different contents.
  • first images (1a to 1c) having a background color of red (hatched portion in the drawing), white (solid portion in the drawing), and blue (vertical line portion in the drawing) are used. It is shown.
  • These images are stored in the storage device 2040, for example.
  • FIG. 11 is merely an example, and the color combination and the number of colors of the first image are not limited to the example of FIG.
  • the image acquisition unit 220 has the second image (2a) in which the product (object OBJ) is reflected with the red first image (1a) in the background and the product with the white first image (1b) in the background. It is possible to obtain the second image (2c) in which the product is reflected against the background of the second image (2b) and the first blue image (1c).
  • the product (object OBJ) is placed on the display surface of the display 40. Therefore, when the three second images (2a to 2c) are compared, the color change is clearly smaller than the display surface of the display 40 in the area where the product is placed.
  • the extraction unit 230 can extract the object region image using the amount of change in luminance between the plurality of second images. Specifically, the extraction unit 230 first calculates a luminance dispersion value for each pixel of each of the three second images (2a to 2c).
  • the extraction unit 230 uses a predetermined threshold value, a pixel collection region (background region) in which the variance value of luminance exceeds the threshold value among the three second images (2a to 2c), and luminance And a pixel collection region (foreground region, that is, a product region) whose change amount is less than the threshold value.
  • This predetermined threshold is defined in the program module of the extraction unit 230, for example.
  • the extraction unit 230 generates a mask image M1 that masks the background area using the result specified as described above. Then, the extraction unit 230 uses the generated mask image M1 to extract an object region image P1 indicating the region of the product (object OBJ) from the second image.
  • the extraction unit 230 associates the generated mask image M1 and the object region image P1 of the extracted product (object OBJ) with information (for example, product name, product identification number, etc.) identifying the product (object OBJ).
  • the data is stored in the storage device 2040 or another storage device.
  • FIG. 12 is a diagram illustrating a second technique for extracting an object region image from the second image.
  • the display control unit 210 displays a known background image (1d) on the display 40 as the predetermined first image.
  • the known background image (1d) is stored in the storage device 2040, for example.
  • the image acquisition unit 220 captures an image after the product (object OBJ) is placed on the display 40 on which the known background image (1d) is displayed. 2d) can be obtained.
  • the product (object OBJ) is placed on the display surface of the display 40. Therefore, in the second image (2d), a partial region of the known background image (1d) is hidden by the product (object OBJ).
  • the extraction unit 230 can specify a set region of pixels different from the known background image (1d) in the second image (2d) as the product region. Further, the extraction unit 230 can specify a set region of pixels equal to the known background image (1d) in the second image (2d) as the background region. Then, the extraction unit 230 generates a mask image M2 that masks the background area using the result specified as described above. Then, the extraction unit 230 uses the generated mask image M2 to extract an object region image P2 indicating the region of the product (object OBJ) from the second image.
  • the extraction unit 230 associates the generated mask image M2 and the extracted object region image P2 of the product (object OBJ) with information (for example, product name, product identification number, etc.) identifying the product (object OBJ).
  • the data is stored in the storage device 2040 or another storage device.
  • the second method is different from the first method in that the region of the product (object OBJ) is specified by utilizing a known image pattern shift. Therefore, even if the product placed on the display 40 is a transparent object (for example, a plastic bottle drink), the area of the product (object OBJ) can be specified with high accuracy.
  • the extraction unit 230 may use a plurality of known images. In this case, the extraction unit 230 can specify the region of the product (object OBJ) based on the result of specifying different pixel collection regions for each of a plurality of known images.
  • FIG. 13 is a diagram illustrating a third technique for extracting an object region image from the second image.
  • the display control unit 210 causes the display 40 to display a known background image (1e) as the predetermined first image.
  • the third method is different from the second method in that a plain image is used as a known background image.
  • the known background image (1e) is stored in the storage device 2040, for example.
  • the image acquisition unit 220 causes the second image (shown in FIG. 2e) can be obtained.
  • the product (object OBJ) is placed on the display surface of the display 40.
  • the extraction unit 230 sets a pixel collection region having a color different from that of the known background image (1e) in the second image (2e) to the product region. Can be specified as In addition, the extraction unit 230 can specify, from the second image (2e), a set region of pixels having the same color as the known background image (1e) as the background region. Then, the extraction unit 230 generates a mask image M3 that masks the background region using the result specified as described above.
  • the extraction unit 230 uses the generated mask image M3 to extract the object region image P3 indicating the region of the product (object OBJ) from the second image.
  • the extracting unit 230 associates the generated mask image M3 and the extracted object region image P3 of the product (object OBJ) with information (for example, product name, product identification number, etc.) identifying the product (object OBJ).
  • the data is stored in the storage device 2040 or another storage device.
  • the third method extracts a product (object OBJ) region based on the color of the background image. Therefore, unlike the first method using the variance value of luminance, the third method can deal with a translucent product.
  • the known background image may be a plurality of images having different colors (for example, FIG. 14).
  • FIG. 14 is a diagram illustrating another example of the third technique.
  • three known background images (1f) each having a red color (hatched portion R in the drawing), white (a plain portion W in the drawing), and blue (a vertical line portion B in the drawing) are illustrated.
  • the extraction unit 230 can generate mask images (color-specific mask images M R , M W , and M B ) for each of red, white, and blue in the same manner as the flow described in FIG.
  • color-by-color mask image M R is an image to mask a red region.
  • color-by-color mask image M W is an image to mask a white area.
  • color-by-color mask image M B is an image to mask the blue region.
  • color-coded mask image M R is I include package portion of the product (red region excluding the region of the white label L) to the mask region.
  • color-by-color mask image M W is I include regions of white label L affixed to the product in the mask region.
  • the extraction unit 230 for example, can generate these Color mask image M R, M W, from the logical product of the mask region of the M B, the final mask image M3 '.
  • the extraction unit 230 can extract an object region image indicating the region of the product (object OBJ) from the second image using the generated mask image M3 ′.
  • FIG. 15 is a diagram illustrating a fourth technique for extracting an object region image from the second image.
  • the display control unit 210 causes the display 40 to display a moving image (1g) as the predetermined first image.
  • FIG. 15 illustrates a moving image (1g) in which two figures (circle and triangle) move with time.
  • the display control unit 210 is not limited to the example of FIG. 15 and can display an arbitrary moving image.
  • the image acquisition unit 220 can acquire a plurality of second images, for example, as indicated by reference numeral 2g in the drawing.
  • the product (object OBJ) is placed on the display surface of the display 40.
  • the extraction unit 230 can specify a collection region of pixels with little motion (a region of an object that is continuously stopped) as a product region in the plurality of second images.
  • the extraction unit 230 can specify a product area using an optical flow, a background difference, or the like.
  • the extraction unit 230 can specify a collection region of pixels having a certain amount of movement as a background region.
  • the extraction unit 230 extracts an object region image P4 indicating the region of the product (object OBJ) from the second image.
  • the extraction unit 230 associates the generated mask image M4 and the extracted object region image P4 of the product (object OBJ) with information (for example, product name, product identification number, etc.) identifying the product (object OBJ).
  • the data is stored in the storage device 2040 or another storage device.
  • the extraction unit 230 obtains a mask image and an object area image of the object for each object as follows. It can be stored in a storage device. Specifically, the extraction unit 230 first divides the obtained mask image into individual regions by connected component analysis or the like, and generates a mask image for each object. Then, the extraction unit 230 stores the mask image for each object and the object region image of the object extracted by the mask image in association with information for identifying the object in the storage device.
  • the extraction unit 230 may store the second image acquired by the image acquisition unit 220 in the storage device instead of the object region image. Even in this case, by using the second image and the mask image stored in the storage device, the object region image of the target object can be generated as necessary.
  • the image generation unit 240 generates a new image (third image) by synthesizing the object region image extracted in the process of S414 with the background image (S416).
  • the image generation unit 240 may generate the third image by using the object area image of another object extracted in the past process in addition to the object area image extracted in the process of S414.
  • Object region images of other objects extracted by past processing are accumulated in, for example, the storage device 2040.
  • the image generation unit 240 can select an object region image to be read from the storage device 2040 in accordance with a user selection input or a preset rule.
  • the image generation unit 240 may randomly select the type and number of object region images to be combined.
  • FIG. 16 is a diagram specifically illustrating the operation of the image generation unit 240.
  • the object area image P A of the commodity A and the object area image P B of the commodity B are generated from the second images 2 A and 2 B of the two objects (the commodity A and the commodity B), respectively.
  • the image generation unit 240 may combine the object region image P A of the product A and the object region image P B of the product B with the background image to generate a third image as indicated by reference numeral 3, for example. it can.
  • the image generating unit 240 is able to process the object-area image P B of the object-area image P A and Product B Product A (rotation, translation, etc.). In addition, the image generation unit 240 can determine the number of arrangements of the object area image P A of the product A and the object area image P B of the product B. The image generation unit 240 can determine the processing method and the number of arrangements in accordance with user-specified input, predetermined rules, or entirely at random. In addition, the image generation unit 240 generates a list of object region images that are combined with the background image when the third image is generated.
  • This list stores, for example, the position coordinates in the background image and information indicating the product such as the name and identification number of the object for each object region image synthesized with the background image. That is, this list can be used as information indicating which object is present at which position in the third image.
  • the image generation unit 240 stores the third image generated as described above in a predetermined storage device such as the memory 2030 and the storage device 2040 (S418). At this time, the image generation unit 240 stores the third image and the list in association with each other. As described above, the image generation unit 240 according to the present embodiment can create an infinite number of images according to various situations using the object region image.
  • the first image is displayed on the display surface of the display 40, thereby including the object OBJ and the first image.
  • a second image is generated.
  • an object region image indicating the region of the object OBJ is extracted from the second image.
  • the third image is generated by synthesizing the extracted object region image with the background image.
  • a third image with an infinite number of patterns is easily generated as an image for learning or evaluation of an object identification engine (discriminator) using the extracted object region image. It becomes possible. That is, according to the image generation system 2 of the present embodiment, the efficiency of generating an image for optimizing the classifier is improved, so that it is possible to reduce time and labor when constructing a classifier used for object recognition. it can.
  • FIG. 17 is a diagram illustrating a configuration example of the image generation system 2 according to the fourth embodiment.
  • the image collection device 10 further includes a learning unit 250 and an evaluation unit 260.
  • the learning unit 250 generates or updates an object identification engine (discriminator) using the third image generated by the image generation unit 240.
  • the evaluation unit 260 uses the third image generated by the image generation unit 240 to evaluate the identification accuracy of the object identification engine (identifier).
  • the image generation system 2 of this embodiment has the same hardware configuration (example: FIG. 9) as that of the third embodiment.
  • the storage device 2040 of this embodiment further stores program modules that implement the functions of the learning unit 250 and the evaluation unit 260 described above.
  • the processor 2020 reads out and executes these program modules on the memory 2030, thereby realizing the functions of the learning unit 250 and the evaluation unit 260 of the present embodiment.
  • the learning unit 250 and the evaluation unit 260 of the present embodiment operate in the same manner as the learning unit 130 and the evaluation unit 140 of the second embodiment, except that the third image generated by the image generation unit 240 is used (example: 6 and 7).
  • Display control means for switching and displaying a plurality of first images having different contents on the display surface of the display when photographing an object placed on the display surface of the display;
  • Image acquisition means for acquiring a plurality of second images generated by photographing the object on the display surface of the display while the plurality of first images are switched and displayed and storing the plurality of second images in a storage device
  • An image collecting apparatus comprising: 2.
  • the image acquisition means acquires the plurality of second images as learning or evaluation images of a discriminator that identifies the object.
  • Learning means for generating or updating the classifier using the plurality of second images; 2.
  • An evaluation unit that evaluates the identification accuracy of the classifier using the plurality of second images; 2. Or 3. The image collection device described in 1. 5.
  • the object is a commodity; 1. To 4. The image collection device according to any one of the above. 6).
  • the display control means displays a plain image having a different color as each of the plurality of first images. 1. To 5. The image collection device according to any one of the above. 7).
  • a display whose display surface is used as an object placement surface; An imaging device for photographing an object placed on the display surface of the display; Display control means for switching and displaying a plurality of first images having different contents on the display surface of the display when photographing the object; Image acquisition means for acquiring a plurality of second images generated by photographing the object on the display surface of the display while the plurality of first images are switched and displayed and storing the plurality of second images in a storage device
  • An image collection system comprising: 8).
  • the image acquisition means acquires the plurality of second images as learning or evaluation images of a discriminator that identifies the object. 7).
  • the image collection system described in 1. 9.
  • An evaluation unit that evaluates the identification accuracy of the classifier using the plurality of second images 8). Or 9.
  • the object is a commodity; 7).
  • the display control means displays a plain image having a different color as each of the plurality of first images. 7).
  • To 11. The image collection system as described in any one of these. 13.
  • An image collecting method including: 14
  • the computer is Obtaining the plurality of second images as learning or evaluation images of a discriminator for identifying the object; 13. Including An image collecting method described in 1. 15.
  • the computer is Generating or updating the discriminator using the plurality of second images; Including. An image collecting method described in 1. 16.
  • the computer is Using the plurality of second images to evaluate the identification accuracy of the classifier; Including. Or 15. An image collecting method described in 1. 17.
  • the object is a commodity; 13. To 16.
  • the computer is As the plurality of first images, plain images having different colors are displayed. 13. Including To 17.
  • In the computer 13. To 18.
  • Display control means for displaying a predetermined first image on the display surface of the display when photographing an object placed on the display surface of the display;
  • Image acquisition means for acquiring a second image generated by photographing an object on a display surface of the display during display of the first image;
  • Extraction means for extracting an object region image indicating the region of the object from the second image;
  • Image generation means for generating a third image by combining the object region image with a background image, and storing the third image in a storage device;
  • An image generation apparatus comprising: 21.
  • the image generating means generates the third image as an image for learning or evaluation of a discriminator for identifying the object; 20.
  • the image generating apparatus described in 1. 22.
  • Learning means for generating or updating the discriminator using the learning or evaluation image; 21.
  • the object is a commodity; 20. To 23.
  • the display control means switches and displays a plurality of first images having different contents on the display surface of the display, 20. To 24.
  • the display control means displays a plain image having a different color as each of the plurality of first images. 25.
  • the display control means displays a moving image as the plurality of first images. 25.
  • a display whose display surface is used as an object placement surface; An imaging device for photographing an object placed on the display surface of the display; Display control means for displaying a predetermined first image on the display surface of the display when photographing the object; Image acquisition means for acquiring a second image generated by photographing an object on a display surface of the display during display of the first image; Extraction means for extracting an object region image indicating the region of the object from the second image; Image generation means for generating a third image by combining the object region image with a background image, and storing the third image in a storage device; An image generation system comprising: 29. The image generating means generates the third image as an image for learning or evaluation of a discriminator for identifying the object; 28. The image generation system described in 1. 30.
  • the object is a commodity; 28. To 31.
  • the display control means switches and displays a plurality of first images having different contents on the display surface of the display, 28. To 32.
  • the display control means displays a plain image having a different color as each of the plurality of first images.
  • the display control means displays a moving image as the plurality of first images. 33.
  • Computer When shooting an object placed on the display surface of the display, a predetermined first image is displayed on the display surface of the display, Obtaining a second image generated by photographing an object on a display surface of the display during display of the first image; Extracting an object region image indicating the region of the object from the second image; Generating a third image by combining the object region image with another background image, and storing the third image in a storage device; An image generation method including the above.
  • the computer is Generating the third image as an image for learning or evaluation of a discriminator for identifying the object; Including.
  • the computer is Generating or updating the classifier using the learning or evaluation image; 37.
  • the computer is Using the learning or evaluation image to evaluate the identification accuracy of the classifier; 37. Or 38.
  • the object is a commodity; 36. To 39.
  • the computer is On the display surface of the display, a plurality of first images having different contents are switched and displayed. Including. To 40.
  • the computer is As the plurality of first images, plain images having different colors are displayed. 41.
  • the computer is Displaying a moving image as the plurality of first images; 41.
  • the program which performs the image generation method as described in any one of these.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

画像収集システム(1)は、画像収集装置(10)、撮像装置(30)、およびディスプレイ(40)を有する。ディスプレイ(40)は、表示面が物体(OBJ)の載置面としても利用される。撮像装置(30)は、ディスプレイ(40)の表示面に載置された物体(OBJ)を撮影する。画像収集装置(10)は、表示制御部(110)および画像取得部(120)を備える。表示制御部(110)は、物体の撮影時に、ディスプレイ(40)の表示面に、それぞれ内容の異なる複数の第1画像を切り替えて表示させる。画像取得部(120)は、複数の第1画像を切り替えて表示している間にディスプレイ(40)の表示面上の物体(OBJ)を撮影することにより生成される、複数の第2画像を取得して記憶装置に記憶させる。

Description

画像収集装置、画像収集システム、画像収集方法、画像生成装置、画像生成システム、画像生成方法、およびプログラム
 本発明は、画像を用いた物体認識技術に関する。
 画像を用いて物体を認識する技術の一例が、例えば、下記特許文献1に開示されている。下記特許文献1では、カメラにより撮像された対象物をオブジェクト認識することで当該対象物を商品として識別し、その商品を購入対象商品として登録する機能を備える商品登録装置が開示されている。
特開2016-62545号公報
 画像を用いて物体を識別可能とするためには、識別対象の物体毎に学習用および評価用の画像を多数用意し、かつ、それらの画像を使って識別器を構築する作業が必要となる。しかしながら、この作業には非常に手間がかかる。
 本発明は、上記の課題に鑑みてなされたものである。本発明の目的の一つは、物体認識に利用される識別器を構築する際の手間を低減させる技術を提供することである。
 本発明の画像収集装置は、
 ディスプレイの表示面上に載置された物体の撮影時に、前記ディスプレイの表示面に、それぞれ内容の異なる複数の第1画像を切り替えて表示させる表示制御手段と、
 前記複数の第1画像を切り替えて表示している間に前記ディスプレイの表示面上の前記物体を撮影することにより生成される、複数の第2画像を取得して記憶装置に記憶させる画像取得手段と、
 を備える。
 本発明の画像収集システムは、
 表示面が物体の載置面として利用されるディスプレイと、
 前記ディスプレイの表示面に載置された物体を撮影する撮像装置と、
 前記物体の撮影時に、前記ディスプレイの表示面に、それぞれ内容の異なる複数の第1画像を切り替えて表示させる表示制御手段と、
 前記複数の第1画像を切り替えて表示している間に前記ディスプレイの表示面上の前記物体を撮影することにより生成される、複数の第2画像を取得して記憶装置に記憶させる画像取得手段と、
 を備える。
 本発明の画像収集方法は、
 コンピュータが、
 ディスプレイの表示面上に載置された物体の撮影時に、前記ディスプレイの表示面に、それぞれ内容の異なる複数の第1画像を切り替えて表示させ、
 前記複数の第1画像を切り替えて表示している間に前記ディスプレイの表示面上の前記物体を撮影することにより生成される、複数の第2画像を取得して記憶装置に記憶させる、
 ことを含む。
 本発明の第1のプログラムは、コンピュータに上述の画像収集方法を実行させる。
 本発明の画像生成装置は、
 ディスプレイの表示面上に載置された物体の撮影時に、前記ディスプレイの表示面に所定の第1画像を表示させる表示制御手段と、
 前記第1画像の表示中に前記ディスプレイの表示面上の物体を撮影することにより生成される第2画像を取得する画像取得手段と、
 前記第2画像から前記物体の領域を示す物体領域画像を抽出する抽出手段と、
 前記物体領域画像を背景画像に合成することにより第3画像を生成し、前記第3画像を記憶装置に記憶させる画像生成手段と、
 を備える。
 本発明の画像生成システムは、
 表示面が物体の載置面として利用されるディスプレイと、
 前記ディスプレイの表示面上に載置された物体を撮影する撮像装置と、
 前記物体の撮影時に、前記ディスプレイの表示面に所定の第1画像を表示させる表示制御手段と、
 前記第1画像の表示中に前記ディスプレイの表示面上の物体を撮影することにより生成される第2画像を取得する画像取得手段と、
 前記第2画像から前記物体の領域を示す物体領域画像を抽出する抽出手段と、
 前記物体領域画像を背景画像に合成することにより第3画像を生成し、前記第3画像を記憶装置に記憶させる画像生成手段と、
 を備える。
 本発明の画像生成方法は、
 コンピュータが、
 ディスプレイの表示面上に載置された物体の撮影時に、前記ディスプレイの表示面に所定の第1画像を表示させ、
 前記第1画像の表示中に前記ディスプレイの表示面上の物体を撮影することにより生成される第2画像を取得し、
 前記第2画像から前記物体の領域を示す物体領域画像を抽出し、
 前記物体領域画像を他の背景画像に合成することにより第3画像を生成し、前記第3画像を記憶装置に記憶させる、
 ことを含む。
 本発明の第2のプログラムは、コンピュータに上述の画像生成方法を実行させる。
 本発明によれば、物体認識に利用される識別器を構築する際の手間を低減させることができる。
 上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
第1実施形態の画像収集システム1の基本的な構成例を示す図である。 画像収集システム1のハードウエア構成を例示するブロック図である。 第1実施形態の画像収集システム1の処理の流れを例示するシーケンス図である。 表示制御部が送信する描画データを例示的に示す図である。 第2実施形態の画像収集システム1の構成例を示す図である。 第2実施形態の画像収集システム1により実行される学習処理の流れを例示するフローチャートである。 第2実施形態の画像収集システム1により実行される評価処理の流れを例示するフローチャートである。 画像生成システム2の基本的な構成例を示す図である。 画像生成システム2のハードウエア構成を例示するブロック図である。 第3実施形態の画像生成システム2の処理の流れを例示するシーケンス図である。 第2画像から物体領域画像を抽出する第1の手法の例示する図である。 第2画像から物体領域画像を抽出する第2の手法を例示する図である。 第2画像から物体領域画像を抽出する第3の手法の例示する図である。 第2画像から物体領域画像を抽出する第3の手法の他の例を示す図である。 第2画像から物体領域画像を抽出する第4の手法を例示する図である。 画像生成部の動作を具体的に例示する図である。 第4実施形態の画像生成システム2の構成例を示す図である。
 以下、本発明の実施形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。
 [第1実施形態]
 〔システム構成例〕
 図1は、第1実施形態の画像収集システム1の基本的な構成例を示す図である。画像収集システム1は、図示しない物体識別エンジン(識別器)の学習や評価に利用可能な画像を効率的に生成できる構成を有する。例えば、図1に示されるように、画像収集システム1は、画像収集装置10、撮像装置30、およびディスプレイ40を含んで構成される。画像収集装置10は、図示しない配線等によって撮像装置30およびディスプレイ40と接続されている。
 ディスプレイ40は、様々な画像をその表示面上に表示する。また、ディスプレイ40は、後述の画像収集装置10による制御に従って、特定の画像(以下、「第1画像」と表記)を表示する。また、ディスプレイ40の表示面は、図示されるように、物体OBJを載置する載置面としても利用される。なお、物体OBJは、図示しない物体識別エンジンの学習対象の物体である。例えば、物体OBJは、小売店等の店舗で販売される商品などである。
 撮像装置30は、ディスプレイ40を撮像範囲に含むように配置されており、ディスプレイ40の表示面に載置された物体OBJおよび当該表示面に表示された第1画像を撮影する。
 図1に例示されるように、本実施形態の画像収集装置10は、表示制御部110および画像取得部120を備える。なお、表示制御部110および画像取得部120は、点線で示されるように、それぞれ、ディスプレイ40および撮像装置30と通信を行う。表示制御部110は、撮像装置30がディスプレイ40の表示面に載置された物体OBJを撮影する時、当該ディスプレイ40の表示面にそれぞれ内容の異なる複数の画像(第1画像)を切り替えて表示させる。撮像装置30は、表示制御部110がディスプレイ40に複数の第1画像を切り替えて表示している間に物体OBJを撮影して、複数の画像(以下、上述の第1画像と区別するため、撮像装置30により生成される画像を「第2画像」と表記)を生成する。つまり、複数の第2画像は、それぞれ、複数の第1画像のいずれかを物体OBJの背景として含んでいる。そして、画像取得部120は、このようにして生成された複数の第2画像を取得し、所定の記憶装置に記憶させる。ここで、所定の記憶装置は、例えば、ハードディスクドライブのような不揮発性の記憶装置であってもよいし、RAM(Random Access Memory)のような揮発性の記憶装置であってもよい。
 〔ハードウエア構成例〕
 画像収集システム1は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、画像収集システム1がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
 図2は、画像収集システム1のハードウエア構成を例示するブロック図である。
 画像収集装置10は、バス1010、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060を有する。
 バス1010は、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1020などを互いに接続する方法は、バス接続に限定されない。
 プロセッサ1020は、CPU(Central Processing Unit) やGPU(Graphics Processing Unit)などで実現されるプロセッサである。
 メモリ1030は、RAM(Random Access Memory)などで実現される主記憶装置である。
 ストレージデバイス1040は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、又はROM(Read Only Memory)などで実現される補助記憶装置である。ストレージデバイス1040は画像収集装置10の各機能(表示制御部110および画像取得部120など)を実現するプログラムモジュールを記憶している。プロセッサ1020がこれら各プログラムモジュールをメモリ1030上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。
 入出力インタフェース1050は、画像収集装置10と各種入出力デバイスとを接続するためのインタフェースである。図2では、画像収集装置10は、撮像装置30およびディスプレイ40と入出力インタフェース1050を介して接続されている。撮像装置30は、例えば、CCD(Charge Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサを搭載するカメラである。撮像装置30は、図示されるように、ディスプレイ40(およびディスプレイ40上に載置される物体OBJ)を撮像範囲に含むように設置される。ディスプレイ40は、一般的な表示用のデバイスである。なお、ディスプレイ40は、物体OBJの載置面としても利用される。そのため、ディスプレイ40は、好ましくは、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro Luminescence)などの平面型ディスプレイである。また、ディスプレイ40は、ユーザの入力操作を受け付け可能なタッチパネルであってもよい。また、入出力インタフェース1050には、マウスやキーボードなど入力装置が更に接続されていてもよい。
 ネットワークインタフェース1060は、画像収集装置10をネットワークに接続するためのインタフェースである。このネットワークは、例えばLAN(Local Area Network)やWAN(Wide Area Network)である。ネットワークインタフェース1060がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。
 図2は、あくまで一例であり、画像収集装置10のハードウエア構成は図2の例に制限されない。例えば、画像収集装置10は、ネットワークインタフェース1060を介して、撮像装置30およびディスプレイ40と接続されていてもよい。また、画像収集装置10には、その他の装置が接続されていてもよい。例えば、画像収集装置10が小売店などで利用される場合、画像収集装置10に、バーコードスキャナ、キャッシャ、ドロワ、自動釣銭機などの業務用の装置が接続されていてもよい。
 〔処理の流れ〕
 図3を用いて、本実施形態の画像収集システム1により実行される処理の流れを説明する。図3は、第1実施形態の画像収集システム1の処理の流れを例示するシーケンス図である。なお、本図の例では、物体OBJが小売店等の店舗で販売される商品である場合の流れを例示する。
 まず、画像収集システム1を利用するユーザは、物体識別エンジンの学習対象である商品(物体OBJ)をディスプレイ40上の任意の位置に載置する(S102)。その後、ユーザは画像収集装置10に対して処理の実行を指示し、画像収集装置10がその指示を受信する(S104)。例えば、ユーザは、タッチパネル式のディスプレイ40や、入出力インタフェース1050に接続されたマウスやキーボードなどの入出力装置を操作して、画像収集装置10に対して処理の実行指示を行うことができる。
 S104の指示に応じて、表示制御部110および画像取得部120は、それぞれ動作を開始する。
 表示制御部110は、複数の第1画像を所定のタイミングで切り替えて表示させる描画データをディスプレイ40に送信する(S106)。そして、ディスプレイ40は、表示制御部110から受信した描画データに基づいて、複数の第1画像を切り替えながら表示する(S108)。
 上述のS106およびS108の処理の流れを、図4を用いて具体的に例示する。図4は、表示制御部110が送信する描画データを例示的に示す図である。図4において、t0、t1、およびt2は、それぞれ時刻を示している。時刻t0は、先頭の第1画像[1]のデータの受信タイミングを示す。また、時刻t1は、第1画像[1]の次の第1画像[2]のデータに切り替わるタイミングを示す。また、時刻t2は、第1画像[2]の次の、図示しない第1画像[3]のデータに切り替わるタイミングを示す。図4に例示される描画データを受信した場合、ディスプレイ40は、まず、時刻t0から時刻t1までの間、第1画像[1]を表示する。その後、ディスプレイ40は、時刻t1から時刻t2までの間、第1画像[2]を表示する。ディスプレイ40は、時刻t2より後の期間についても、表示制御部110からの描画データに従って、上述したように複数の第1画像を切り替えて表示する。
 ここで、複数の第1画像は、それぞれランダムに生成された画像(例えば、それぞれランダムな幾何学図形の結合画像など)であってもよい。また例えば、複数の第1画像は、例えば、それぞれ互いに色の異なる複数の無地の画像であってもよい。また、複数の第1画像は、物体識別エンジンの利用環境に合わせてチューニングされた画像であってもよい。例えば、物体識別エンジンが商品の識別に利用される場合、複数の第1画像は、商品の種類および配置の少なくとも一方がそれぞれ互いに異なる画像であってもよい。この場合において、複数の第1画像の少なくとも一部に、商品以外のノイズが含まれていてもよい。具体的には、店舗での業務において実際に表示される画面やGUI(Graphical User Interface)などの表示コンテンツ、または、人物の手や指などが、ノイズとして複数の第1画像の少なくとも一部に含まれていてもよい。このようなノイズを第1画像に含めることにより、物体識別エンジンの利用環境(具体的には、ディスプレイ40上に購入対象の商品を載置し、上部の撮像装置30で商品をまとめて認識するようなシステム)で実際に起こり得る状況を精度よく再現できる。
 上記で例示したような複数の第1画像のデータは、例えばストレージデバイス1040などに記憶されており、表示制御部110は、ストレージデバイス1040などから各第1画像のデータを読み出すことができる。また、物体識別エンジンの利用環境に合わせてチューニングされた複数の第1画像を使う場合、表示制御部110は、ストレージデバイス1040に記憶されているパーツ画像をランダム或いは所定のルールに従って組み合わせて複数の第1画像を生成するように構成されていてもよい。
 図3に戻り、ディスプレイ40において第1画像が切り替え表示されている間、画像取得部120は、第1画像の切り替えタイミングに合わせて、撮像装置30に撮影指示を送信する(S110)。例えば、図4に例示されるような描画データが送信される場合に、画像取得部120は、時刻t0から時刻t1までの間および時刻t1から時刻t2までの間のそれぞれにおいて、少なくとも1回、撮像装置30に撮影指示を送信する。そして、撮像装置30は、画像取得部120からの撮影指示に応じて撮影動作を実行し、複数の第2画像を生成する(S112)。図4の例によれば、第1画像[1]を背景に商品(物体OBJ)が写っている第2画像[1]と、第1画像[2]を背景に同商品(同一の物体OBJ)が写っている第2画像[2]が生成される。そして、画像取得部120は、撮像装置30と通信して、S112で生成された複数の第2画像を取得し、メモリ1030やストレージデバイス1040といった、所定の記憶装置に記憶する(S114)。
 以上、本実施形態の画像収集システム1では、ディスプレイ40に載置された物体OBJを撮影する際、ディスプレイ40の表示面にそれぞれ内容の異なる複数の第1画像が切り替えて表示される。そして、ディスプレイ40を撮像範囲に含む撮像装置30により、物体OBJと複数の第1画像のいずれかとを含む第2画像が複数生成され、所定の記憶装置に記憶される。
 上述の構成によれば、様々なシチュエーションに応じた撮影用のセットを人手で作成することなく、様々なシチュエーションでの物体OBJの画像を容易に生成することができる。例えば、実際に画像認識を行う際に起こり得るシチュエーションの画像をディスプレイ40上で切り替えて表示させることにより、あたかも、物体OBJ以外の物体やその他の表示がディスプレイ40の表示面上に存在するかのような画像を容易に生成することができる。そして、このように生成された複数の第2画像は、物体OBJを識別する識別器の最適化(学習または評価)用の画像として利用することができる。つまり、本実施形態の画像収集システム1によれば、物体識別エンジンを最適化するための画像として多様な画像を容易に生成できる。言い換えれば、識別器の最適化するための画像の生成効率が向上するため、物体認識に利用される識別器を構築する際の手間を低減させることができる。
 [第2実施形態]
 本実施形態は、以下の点を除き、第1実施形態と同様である。
 〔システム構成例〕
 図5は、第2実施形態の画像収集システム1の構成例を示す図である。本実施形態では、画像収集装置10は、学習部130および評価部140を更に備える。学習部130は、画像取得部120により取得された複数の第2画像を用いて、物体識別エンジン(識別器)を生成または更新する。評価部140は、画像取得部120により取得された複数の第2画像を用いて、物体識別エンジン(識別器)の識別精度を評価する。
 〔ハードウエア構成例〕
 本実施形態の画像収集システム1は、第1実施形態と同様のハードウエア構成(例:図2)を有する。本実施形態のストレージデバイス1040は、上述の学習部130および評価部140の機能を実現するプログラムモジュールを更に記憶している。プロセッサ1020が、これらのプログラムモジュールをメモリ1030上に読み出して実行することにより、本実施形態の学習部130および評価部140の機能が実現される。
 〔処理の流れ〕
 図6および図7を用いて、本実施形態の画像収集システム1により実行される処理の流れを説明する。図6は、第2実施形態の画像収集システム1により実行される学習処理の流れを例示するフローチャートである。また、図7は、第2実施形態の画像収集システム1により実行される評価処理の流れを例示するフローチャートである。
 <学習処理>
 まず、図6を用いて学習処理の流れについて説明する。
 学習部130は、図3のS114で画像取得部120により取得された複数の第2画像を、ディスプレイ40や図示しない別のモニタなどに表示させる(S202)。そして、画像収集システム1を利用するユーザは、ディスプレイ40や図示しない別のモニタに表示された第2画像を確認して、物体OBJが何であるかを示す情報(例えば、物体名や物体の識別情報など)および物体OBJの領域を示す情報を入力する。なお、以下において、物体OBJが何であるかを示す情報(例えば、物体名や物体の識別情報など)と物体OBJの領域を示す情報とを組み合わせたものを、「正解情報」と呼ぶ。そして、学習部130は、ユーザによって入力された第2画像毎の正解情報を取得する(S204)。そして、学習部130は、複数の第2画像のそれぞれと、S204の処理で取得した第2画像毎の正解情報とに基づいて、物体識別エンジンを生成または更新する(S206)。学習部130は、物体識別エンジンが未だ生成されていない状態では、複数の第2画像のそれぞれと、S204の処理で取得した第2画像毎の正解情報とに基づいて、物体識別エンジンの物体認識用パラメータを生成する。生成された物体識別エンジンは、例えば、ストレージデバイス1040などに記憶される。また、物体識別エンジンが生成されている場合は、学習部130は、複数の第2画像のそれぞれと、S204の処理で取得した第2画像毎の正解情報とに基づいて、物体識別エンジンの物体認識用パラメータを更新する。
 このように、本実施形態では、第1実施形態で生成された複数の第2画像を用いて、物体識別エンジンを容易に生成および更新することができる。
 <評価処理>
 次に、図7を用いて評価処理の流れについて説明する。評価処理は、評価対象の物体識別エンジンが既に用意されている場合に実行される。
 評価部140は、図3のS114で画像取得部120により取得された複数の第2画像を、評価対象の物体識別エンジンに入力する(S302)。そして、評価部140は、評価対象の物体識別エンジンでの識別結果を、例えば、ディスプレイ40や図示しない別のモニタなどに表示させる(S304)。そして、画像収集システム1を利用するユーザは、ディスプレイ40や図示しない別のモニタに表示された識別結果を確認して、複数の第2画像の識別結果の中に誤りがないかを確認する(S306)。識別結果に誤りがない場合(S306:NO)、以降の処理は実行されない。一方、識別結果に誤りがある場合(S306:YES)、ユーザは、識別結果に誤りのあった第2画像に関する正しい正解情報(修正情報)を入力する。評価部140は、ユーザによって入力された修正情報を取得し(S308)、その修正情報を学習部130に渡す。学習部130は、修正情報に基づいて、物体識別エンジンのパラメータを更新する(S310)。
 このように、本実施形態では、第1実施形態で生成された複数の第2画像を用いて、物体識別エンジンの識別精度を評価することができる。また、物体識別エンジンの識別結果に誤りがあった場合に修正情報の入力を受け付けることにより、物体識別エンジンの識別精度を向上させることができる。
 [第3実施形態]
 本実施形態では、上述の各実施形態の画像収集システム1とは異なる方法で、物体識別エンジンの学習や評価に利用可能な画像を効率的に生成可能とするシステムについて説明する。
 〔システム構成例〕
 図8は、画像生成システム2の基本的な構成例を示す図である。図8に示されるように、画像生成システム2は、画像生成装置20、撮像装置30、およびディスプレイ40を含んで構成される。画像生成装置20は、図示しない配線等によって撮像装置30およびディスプレイ40と接続されている。なお、撮像装置30およびディスプレイ40についての説明は、上述の画像収集システム1と同様であるため、省略する。
 図8に例示されるように、本実施形態の画像生成装置20は、表示制御部210、画像取得部220、抽出部230、および、画像生成部240を備える。なお、表示制御部210および画像取得部220は点線で示されるように、それぞれ、ディスプレイ40および撮像装置30と通信を行う。表示制御部210は、撮像装置30がディスプレイ40の表示面に載置された物体OBJを撮影する時、当該ディスプレイ40の表示面に所定の第1画像を表示させる。表示制御部210は、特定の1種類の第1画像をディスプレイ40の表示面に表示させてもよいし、第1実施形態と同様に、ディスプレイ40の表示面にそれぞれ内容の異なる複数の第1画像を切り替えて表示させてもよい。撮像装置30は、画像取得部220がディスプレイ40に第1画像を表示している間に物体OBJを撮影して第2画像を生成する。そして、画像取得部120は、撮像装置30により生成された第2画像を取得する。抽出部230は、第2画像から物体OBJの領域を示す部分画像(以下、「物体領域画像」と表記)を抽出する。なお、抽出部230の動作の具体例については、後述する。画像生成部240は、抽出部230により抽出された物体領域画像を背景画像に合成することにより新たな画像(以下、「第3画像」と表記)を生成し、所定の記憶装置に記憶させる。ここで、所定の記憶装置は、例えば、ハードディスクドライブのような不揮発性の記憶装置であってもよいし、RAM(Random Access Memory)のような揮発性の記憶装置であってもよい。
 〔ハードウエア構成例〕
 画像生成システム2は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、画像生成システム2がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
 図9は、画像生成システム2のハードウエア構成を例示するブロック図である。
 画像生成装置20は、バス2010、プロセッサ2020、メモリ2030、ストレージデバイス2040、入出力インタフェース2050、及びネットワークインタフェース2060を有する。
 バス2010は、プロセッサ2020、メモリ2030、ストレージデバイス2040、入出力インタフェース2050、及びネットワークインタフェース2060が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ2020などを互いに接続する方法は、バス接続に限定されない。
 プロセッサ2020は、CPU(Central Processing Unit) やGPU(Graphics Processing Unit)などで実現されるプロセッサである。
 メモリ2030は、RAM(Random Access Memory)などで実現される主記憶装置である。
 ストレージデバイス2040は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、又はROM(Read Only Memory)などで実現される補助記憶装置である。ストレージデバイス2040は画像生成装置20の各機能(表示制御部210、画像取得部220、抽出部230および画像生成部240など)を実現するプログラムモジュールを記憶している。プロセッサ2020がこれら各プログラムモジュールをメモリ2030上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。
 入出力インタフェース2050は、画像生成装置20と各種入出力デバイスとを接続するためのインタフェースである。図9では、画像生成装置20は、撮像装置30およびディスプレイ40と入出力インタフェース2050を介して接続されている。撮像装置30は、例えば、CCD(Charge Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサを搭載するカメラである。撮像装置30は、図示されるように、ディスプレイ40(およびディスプレイ40上に載置される物体OBJ)を撮像範囲に含むように設置される。ディスプレイ40は、一般的な表示用のデバイスである。なお、ディスプレイ40は、物体OBJの載置面としても利用される。そのため、ディスプレイ40は、好ましくは、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro Luminescence)などの平面型ディスプレイである。また、ディスプレイ40は、ユーザの入力操作を受け付け可能なタッチパネルであってもよい。また、入出力インタフェース2050には、マウスやキーボードなど入力装置が更に接続されていてもよい。
 ネットワークインタフェース2060は、画像生成装置20をネットワークに接続するためのインタフェースである。このネットワークは、例えばLAN(Local Area Network)やWAN(Wide Area Network)である。ネットワークインタフェース2060がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。
 図9は、あくまで一例であり、画像生成装置20のハードウエア構成は図9の例に制限されない。例えば、画像生成装置20は、ネットワークインタフェース2060を介して、撮像装置30およびディスプレイ40と接続されていてもよい。また、画像生成装置20には、その他の装置が接続されていてもよい。例えば、画像生成装置20が小売店などで利用される場合、画像生成装置20に、バーコードスキャナ、キャッシャ、ドロワ、自動釣銭機などの業務用の装置が接続されていてもよい。
 〔処理の流れ〕
 図10を用いて、本実施形態の画像生成システム2により実行される処理の流れを説明する。図10は、第3実施形態の画像生成システム2の処理の流れを例示するシーケンス図である。なお、本図の例では、物体OBJが小売店等の店舗で販売される商品である場合の流れを例示する。
 まず、画像生成システム2を利用するユーザは、物体識別エンジンの学習対象である商品(物体OBJ)をディスプレイ40上の任意の位置に載置する(S402)。その後、ユーザは画像生成装置20に対して処理の実行を指示し、画像生成装置20がその指示を受信する(S404)。例えば、ユーザは、タッチパネル式のディスプレイ40や、入出力インタフェース2050に接続されたマウスやキーボードなどの入出力装置を操作して、画像生成装置20に対して処理の実行指示を行うことができる。
 S404の指示に応じて、表示制御部210および画像取得部220は、それぞれ動作を開始する。
 表示制御部210は、所定の第1画像の描画データをディスプレイ40に送信する(S406)。所定の第1画像の描画データは、例えば、ストレージデバイス2040などに記憶されており、表示制御部210は、ストレージデバイス2040などから所定の第1画像の描画データを読み出すことができる。そして、ディスプレイ40は、表示制御部210から受信した描画データに基づいて、当該第1画像を表示する(S408)。
 ディスプレイ40において第1画像が表示されている間に、画像取得部220は、撮像装置30に撮影指示を送信する(S410)。そして、撮像装置30は、画像取得部220からの撮影指示に応じて撮影動作を実行し、所定の第1画像を背景に商品(物体OBJ)が写っている第2画像を生成する(S412)。そして、画像取得部220は、撮像装置30と通信して、S412で生成された第2画像を取得する。
 そして、抽出部230は、第2画像から商品(物体OBJ)の領域を示す物体領域画像を抽出する(S414)。以下、図を用いて、第2画像から物体領域画像を抽出する具体的な手法をいくつか例示する。
 <第1の手法>
 図11は、第2画像から物体領域画像を抽出する第1の手法の例示する図である。図11の手法では、表示制御部210は、それぞれ互いに内容の異なる複数の第1画像として、それぞれ互いに色の異なる無地の画像をディスプレイ40に表示させる。図11では、それぞれ、赤(図中斜線部)、白(図中無地部)、青(図中縦線部)を地色とする3枚の第1画像(1a~1c)を用いる例が示されている。これらの画像は、例えば、ストレージデバイス2040に記憶されている。なお、図11はあくまで例示であり、第1画像の色の組み合わせや色の数は図11の例に制限されない。この場合、画像取得部220は、赤色の第1画像(1a)を背景に商品(物体OBJ)が写っている第2画像(2a)と、白色の第1画像(1b)を背景に商品が写っている第2画像(2b)と、青色の第1画像(1c)を背景に商品が写っている第2画像(2c)を取得することができる。ここで、商品(物体OBJ)はディスプレイ40の表示面上に載置されている。そのため3枚の第2画像(2a~2c)を比べた場合、商品の載置されている領域については、ディスプレイ40の表示面のよりも色の変化が明らかに小さくなる。すなわち、複数の第2画像をそれぞれ比較した場合、商品が載置されている領域の輝度の変化量は、それ以外の領域(すなわち、ディスプレイ40の表示面)の輝度の変化量よりも明らかに小さくなる。よって、抽出部230は、複数の第2画像間での輝度の変化量を利用して、物体領域画像を抽出することができる。具体的には、抽出部230は、まず、3枚の第2画像(2a~2c)それぞれの各ピクセルについて輝度の分散値を算出する。次に、抽出部230は、所定の閾値を用いて、3枚の第2画像(2a~2c)間で輝度の分散値が当該閾値を超えているピクセルの集合領域(背景領域)と、輝度の変化量が当該閾値未満のピクセルの集合領域(前景領域、すなわち、商品の領域)と、をそれぞれ特定する。この所定の閾値は、例えば、抽出部230のプログラムモジュール内で定義されている。次に、抽出部230は、上記のように特定した結果を用いて、背景領域をマスクするマスク画像M1を生成する。そして、抽出部230は、生成したマスク画像M1を用いて、第2画像から商品(物体OBJ)の領域を示す物体領域画像P1を抽出する。抽出部230は、生成したマスク画像M1および抽出した商品(物体OBJ)の物体領域画像P1を、その商品(物体OBJ)を識別する情報(例えば、商品名や商品識別番号など)と対応付けて、ストレージデバイス2040や他の記憶装置などに記憶する。
 <第2の手法>
 図12は、第2画像から物体領域画像を抽出する第2の手法を例示する図である。図12の手法では、表示制御部210は、所定の第1画像として、既知の背景画像(1d)をディスプレイ40に表示させる。既知の背景画像(1d)は、例えば、ストレージデバイス2040に記憶されている。既知の背景画像(1d)を表示させたディスプレイ40上に商品(物体OBJ)を載置した後で撮像装置30が撮影を行うことにより、画像取得部220は、図示するような第2画像(2d)を取得することができる。ここで、商品(物体OBJ)はディスプレイ40の表示面上に載置されている。そのため、第2画像(2d)において、既知の背景画像(1d)の一部領域は商品(物体OBJ)で隠されることになる。つまり、抽出部230は、第2画像(2d)のうち、既知の背景画像(1d)と異なるピクセルの集合領域を、商品の領域として特定することができる。また、抽出部230は、第2画像(2d)のうち、既知の背景画像(1d)と等しいピクセルの集合領域を背景領域として特定することができる。そして、抽出部230は、上記のように特定した結果を用いて、背景領域をマスクするマスク画像M2を生成する。そして、抽出部230は、生成したマスク画像M2を用いて、第2画像から商品(物体OBJ)の領域を示す物体領域画像P2を抽出する。抽出部230は、生成したマスク画像M2および抽出した商品(物体OBJ)の物体領域画像P2を、その商品(物体OBJ)を識別する情報(例えば、商品名や商品識別番号など)と対応付けて、ストレージデバイス2040や他の記憶装置などに記憶する。
 第2の手法は、第1の手法と異なり、既知の画像の模様のズレなどを活用し、商品(物体OBJ)の領域を特定している。そのため、ディスプレイ40上に載置された商品が透明な物体(例えば、ペットボトル飲料など)であっても、商品(物体OBJ)の領域を精度よく特定することができる。なお、第2の手法において、抽出部230は、複数の既知の画像を利用してもよい。この場合、抽出部230は、複数の既知の画像それぞれについて異なるピクセルの集合領域を特定した結果に基づいて、商品(物体OBJ)の領域を特定することができる。
 <第3の手法>
 図13は、第2画像から物体領域画像を抽出する第3の手法の例示する図である。図13の手法では、表示制御部210は、所定の第1画像として、既知の背景画像(1e)をディスプレイ40に表示させる。なお、第3の手法は、既知の背景画像として無地の画像を用いている点で、第2の手法とは異なる。既知の背景画像(1e)は、例えば、ストレージデバイス2040に記憶されている。既知の背景画像(1e)を表示させたディスプレイ40上に商品(物体OBJ)を載置した後で撮像装置30が撮影を行うことにより、画像取得部220は、図示するような第2画像(2e)を取得することができる。ここで、商品(物体OBJ)はディスプレイ40の表示面上に載置されている。そのため、第2画像(2e)において、既知の背景画像(1e)の一部領域は商品(物体OBJ)で隠されることになる。更に、既知の背景画像(1e)が無地であることから、抽出部230は、第2画像(2e)のうち、既知の背景画像(1e)と色の異なるピクセルの集合領域を、商品の領域として特定することができる。また、抽出部230は、第2画像(2e)のうち、既知の背景画像(1e)と同色のピクセルの集合領域を背景領域として特定することができる。そして、抽出部230は、上記のように特定した結果を用いて、背景領域をマスクするマスク画像M3を生成する。そして、抽出部230は、生成したマスク画像M3を用いて、第2画像から商品(物体OBJ)の領域を示す物体領域画像P3を抽出する。抽出部230は、生成したマスク画像M3および抽出した商品(物体OBJ)の物体領域画像P3を、その商品(物体OBJ)を識別する情報(例えば、商品名や商品識別番号など)と対応付けて、ストレージデバイス2040や他の記憶装置などに記憶する。
 第3の手法は、背景画像の色に基づいて、商品(物体OBJ)の領域を抽出している。そのため、第3の手法は、輝度の分散値を利用する第1の手法とは異なり、半透明な商品にも対応可能である。
 なお、第3の手法において、既知の背景画像はそれぞれ色の異なる複数の画像であってもよい(例:図14)。図14は、第3の手法の他の例を示す図である。図14では、それぞれ、赤色(図中斜線部R)、白色(図中無地部W)、青色(図中縦線部B)を有する既知の3枚の背景画像(1f)が例示されている。なお、本図の例において、商品(物体OBJ)のパッケージの色が赤色であり、かつ、商品(物体OBJ)には白色のラベルLが貼り付けられているとする。この場合、抽出部230は、図13で説明した流れと同様にして、赤、白、青のそれぞれについて、マスク画像(色別マスク画像M、M、M)を生成することができる。なお、色別マスク画像Mは、赤色の領域をマスクする画像である。また、色別マスク画像Mは、白色の領域をマスクする画像である。また、色別マスク画像Mは、青色の領域をマスクする画像である。図示されるように、色別マスク画像Mは、商品のパッケージ部分(白色のラベルLの領域を除く赤色の領域)をマスク領域に含んでしまっている。また、色別マスク画像Mは、商品に貼り付けられた白色のラベルLの領域をマスク領域に含んでしまっている。このような場合において、抽出部230は、例えばこれらの色別マスク画像M、M、Mのマスク領域の論理積から、最終的なマスク画像M3’を生成することができる。そして、抽出部230は、生成したマスク画像M3’を用いて、第2画像から商品(物体OBJ)の領域を示す物体領域画像を抽出することができる。このようにすることで、例えば、商品の少なくとも一部の色が背景画像の色と偶然同じであった場合であっても、商品の領域を正確に抽出するマスク画像を生成することができる。
 <第4の手法>
 図15は、第2画像から物体領域画像を抽出する第4の手法を例示する図である。図15の手法では、表示制御部210は、所定の第1画像として、動画(1g)をディスプレイ40に表示させる。なお、図15では、2つの図形(円と三角形)が時間と共に移動する動画(1g)が例示されている。なお、表示制御部210は、図15の例に限らず、任意の動画を表示させることができる。この場合、画像取得部220は、例えば、図中の符号2gで示すような、複数の第2画像を取得することができる。ここで、商品(物体OBJ)はディスプレイ40の表示面上に載置されている。そのため、第2画像(2g)において、動画(1g)の中で移動する図形の少なくとも一部が、商品(物体OBJ)により隠されることがある(例:2g(2))。つまり、複数の第2画像において、商品(物体OBJ)が載置されている領域は、背景の動画部分と比較して動きが小さくなる。よって、抽出部230は、複数の第2画像において、動きの少ないピクセルの集合領域(継続して止まっている物体の領域)を、商品の領域として特定することができる。具体的には、抽出部230は、オプティカルフローや背景差分などを用いて、商品の領域を特定することができる。また、抽出部230は、一定以上の動きのあるピクセルの集合領域を背景領域として特定することができる。そして、上記のように特定した結果を用いて、背景領域をマスクするマスク画像M4を生成する。そして、抽出部230は、生成したマスク画像M4を用いて、第2画像から商品(物体OBJ)の領域を示す物体領域画像P4を抽出する。抽出部230は、生成したマスク画像M4および抽出した商品(物体OBJ)の物体領域画像P4を、その商品(物体OBJ)を識別する情報(例えば、商品名や商品識別番号など)と対応付けて、ストレージデバイス2040や他の記憶装置などに記憶する。
 なお、上述の各手法おいて、複数の物体が同時にディスプレイ40上に載置された場合、抽出部230は、次のようにして、個々の物体毎にマスク画像と当該物体の物体領域画像を記憶装置に記憶することができる。具体的には、抽出部230は、まず、得られたマスク画像を連結成分分析などによって個々の領域に分割し、物体毎のマスク画像を生成する。そして、抽出部230は、物体毎のマスク画像と、マスク画像によって抽出される物体の物体領域画像とを、その物体を識別する情報と対応付けて記憶装置に記憶する。
 また、抽出部230は、物体領域画像の代わりに、画像取得部220により取得された第2画像を記憶装置に記憶してもよい。この場合でも、記憶装置に記憶された第2画像とマスク画像とを利用することにより、対象の物体の物体領域画像を必要に応じて生成することができる。
 図10に戻り、画像生成部240は、S414の処理で抽出された物体領域画像を背景画像に合成して、新たな画像(第3画像)を生成する(S416)。なお、画像生成部240は、S414の処理で抽出された物体領域画像のほか、過去の処理で抽出された他の物体の物体領域画像を使って、第3画像を生成してもよい。過去の処理で抽出された他の物体の物体領域画像は、例えば、ストレージデバイス2040に蓄積されている。この場合、画像生成部240は、ユーザの選択入力または予め設定されたルールに従って、ストレージデバイス2040から読み出す物体領域画像を選択することができる。また、画像生成部240は、合成する物体領域画像の種類や個数をランダムに選択してもよい。
 図16を用いて、画像生成部240の動作を具体的に説明する。図16は、画像生成部240の動作を具体的に例示する図である。図16の例では、2つの物体(商品Aおよび商品B)の第2画像2および2から、それぞれ、商品Aの物体領域画像Pおよび商品Bの物体領域画像Pが生成された場合を想定している。この場合、画像生成部240は、商品Aの物体領域画像Pおよび商品Bの物体領域画像Pを背景画像に合成して、例えば、符号3で示すような第3画像を生成することができる。図示されるように、画像生成部240は、商品Aの物体領域画像Pおよび商品Bの物体領域画像Pを加工(回転、移動など)することができる。また、画像生成部240は、商品Aの物体領域画像Pおよび商品Bの物体領域画像Pの配置数を決定することができる。画像生成部240は、ユーザの指定入力や所定のルールに従って、あるいは、全くのランダムに、加工の仕方や配置数を決定することができる。また、画像生成部240は、第3画像の生成時に背景画像に合成した物体領域画像のリストを生成する。このリストは、例えば、背景画像内での位置座標と、物体の名称や識別番号といった商品を示す情報とを、背景画像に合成した物体領域画像毎に記憶している。つまり、このリストは、第3画像において、どの物体がどの位置に存在するかを示す情報として利用できる。
 画像生成部240は、上述のように生成した第3画像を、メモリ2030やストレージデバイス2040といった、所定の記憶装置に記憶する(S418)。このとき、画像生成部240は、第3画像とリストとを対応付けて記憶する。このように、本実施形態の画像生成部240は、物体領域画像を用いて、様々なシチュエーションに則した画像を無数に作成することができる。
 以上、本実施形態の画像生成システム2では、ディスプレイ40に載置された物体OBJを撮影する際、ディスプレイ40の表示面に第1画像を表示することによって、物体OBJと第1画像とを含む第2画像が生成される。そして、第1画像を表示するディスプレイ40上に物体OBJを載置していることで第2画像に生じる特性に基づいて、第2画像からその物体OBJの領域を示す物体領域画像が抽出される。そして、抽出された物体領域画像を背景画像に合成することにより、第3画像が生成される。
 本実施形態の画像生成システム2によれば、抽出された物体領域画像を用いて、物体識別エンジン(識別器)の学習または評価用の画像として、無数のパターンの第3画像を容易に生成することが可能となる。つまり、本実施形態の画像生成システム2によれば、識別器の最適化するための画像の生成効率が向上するため、物体認識に利用される識別器を構築する際の手間を低減させることができる。
 [第4実施形態]
  本実施形態は、以下の点を除き、第3実施形態と同様である。
 〔システム構成例〕
 図17は、第4実施形態の画像生成システム2の構成例を示す図である。本実施形態では、画像収集装置10は、学習部250および評価部260を更に備える。学習部250は、画像生成部240により生成された第3画像を用いて、物体識別エンジン(識別器)を生成または更新する。評価部260は、画像生成部240により生成された第3画像を用いて、物体識別エンジン(識別器)の識別精度を評価する。
 〔ハードウエア構成例〕
 本実施形態の画像生成システム2は、第3実施形態と同様のハードウエア構成(例:図9)を有する。本実施形態のストレージデバイス2040は、上述の学習部250および評価部260の機能を実現するプログラムモジュールを更に記憶している。プロセッサ2020が、これらのプログラムモジュールをメモリ2030上に読み出して実行することにより、本実施形態の学習部250および評価部260の機能が実現される。
 〔処理の流れ〕
 本実施形態の学習部250および評価部260は、画像生成部240により生成された第3画像を用いる点を除き、第2実施形態の学習部130および評価部140と同様に動作する(例:図6、図7)。
 以上、本実施形態では、第3実施形態で生成された第3画像を用いて、物体識別エンジンの識別精度を評価することができる。また、物体識別エンジンの識別結果に誤りがあった場合に修正情報の入力を受け付けることにより、物体識別エンジンの識別精度を向上させることができる。
 以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
 また、上述の説明で用いた複数のシーケンス図やフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。
 上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1.
 ディスプレイの表示面上に載置された物体の撮影時に、前記ディスプレイの表示面に、それぞれ内容の異なる複数の第1画像を切り替えて表示させる表示制御手段と、
 前記複数の第1画像を切り替えて表示している間に前記ディスプレイの表示面上の前記物体を撮影することにより生成される、複数の第2画像を取得して記憶装置に記憶させる画像取得手段と、
 を備える画像収集装置。
2.
 前記画像取得手段は、前記複数の第2画像を、前記物体を識別する識別器の学習用または評価用の画像として取得する、
 1.に記載の画像収集装置。
3.
 前記複数の第2画像を用いて、前記識別器を生成または更新する学習手段を更に備える、
 2.に記載の画像収集装置。
4.
 前記複数の第2画像を用いて、前記識別器の識別精度を評価する評価手段を更に備える、
 2.または3.に記載の画像収集装置。
5.
 前記物体は商品である、
 1.から4.のいずれか1つに記載の画像収集装置。
6.
 前記表示制御手段は、前記複数の第1画像として、それぞれ互いに色の異なる無地の画像を表示させる、
 1.から5.のいずれか1つに記載の画像収集装置。
7.
 表示面が物体の載置面として利用されるディスプレイと、
 前記ディスプレイの表示面に載置された物体を撮影する撮像装置と、
 前記物体の撮影時に、前記ディスプレイの表示面に、それぞれ内容の異なる複数の第1画像を切り替えて表示させる表示制御手段と、
 前記複数の第1画像を切り替えて表示している間に前記ディスプレイの表示面上の前記物体を撮影することにより生成される、複数の第2画像を取得して記憶装置に記憶させる画像取得手段と、
 を備える画像収集システム。
8.
 前記画像取得手段は、前記複数の第2画像を、前記物体を識別する識別器の学習用または評価用の画像として取得する、
 7.に記載の画像収集システム。
9.
 前記複数の第2画像を用いて、前記識別器を生成または更新する学習手段を更に備える、
 8.に記載の画像収集システム。
10.
 前記複数の第2画像を用いて、前記識別器の識別精度を評価する評価手段を更に備える、
 8.または9.に記載の画像収集システム。
11.
 前記物体は商品である、
 7.から10.のいずれか1つに記載の画像収集システム。
12.
 前記表示制御手段は、前記複数の第1画像として、それぞれ互いに色の異なる無地の画像を表示させる、
 7.から11.のいずれか1つに記載の画像収集システム。
13.
 コンピュータが、
 ディスプレイの表示面上に載置された物体の撮影時に、前記ディスプレイの表示面に、それぞれ内容の異なる複数の第1画像を切り替えて表示させ、
 前記複数の第1画像を切り替えて表示している間に前記ディスプレイの表示面上の前記物体を撮影することにより生成される、複数の第2画像を取得して記憶装置に記憶させる、
 ことを含む画像収集方法。
14.
 前記コンピュータが、
 前記複数の第2画像を、前記物体を識別する識別器の学習用または評価用の画像として取得する、
 ことを含む13.に記載の画像収集方法。
15.
 前記コンピュータが、
 前記複数の第2画像を用いて、前記識別器を生成または更新する、
 ことを含む14.に記載の画像収集方法。
16.
 前記コンピュータが、
 前記複数の第2画像を用いて、前記識別器の識別精度を評価する、
 ことを含む14.または15.に記載の画像収集方法。
17.
 前記物体は商品である、
 13.から16.のいずれか1つに記載の画像収集方法。
18.
 前記コンピュータが、
 前記複数の第1画像として、それぞれ互いに色の異なる無地の画像を表示させる、
 ことを含む13.から17.のいずれか1つに記載の画像収集方法。
19.
 コンピュータに、13.から18.のいずれか1つに記載の画像収集方法を実行させるプログラム。
20.
 ディスプレイの表示面上に載置された物体の撮影時に、前記ディスプレイの表示面に所定の第1画像を表示させる表示制御手段と、
 前記第1画像の表示中に前記ディスプレイの表示面上の物体を撮影することにより生成される第2画像を取得する画像取得手段と、
 前記第2画像から前記物体の領域を示す物体領域画像を抽出する抽出手段と、
 前記物体領域画像を背景画像に合成することにより第3画像を生成し、前記第3画像を記憶装置に記憶させる画像生成手段と、
 を備える画像生成装置。
21.
 前記画像生成手段は、前記物体を識別する識別器の学習用または評価用の画像として、前記第3画像を生成する、
 20.に記載の画像生成装置。
22.
 前記学習用または評価用の画像を用いて、前記識別器を生成または更新する学習手段を更に備える、
 21.に記載の画像生成装置。
23.
 前記学習用または評価用の画像を用いて、前記識別器の識別精度を評価する評価手段を更に備える、
 21.または22.に記載の画像生成装置。
24.
 前記物体は商品である、
 20.から23.のいずれか1つに記載の画像生成装置。
25.
 前記表示制御手段は、前記ディスプレイの表示面に、それぞれ内容の異なる複数の第1画像を切り替えて表示させる、
 20.から24.のいずれか1つに記載の画像生成装置。
26.
 前記表示制御手段は、前記複数の第1画像として、それぞれ互いに色の異なる無地の画像を表示させる、
 25.に記載の画像生成装置。
27.
 前記表示制御手段は、前記複数の第1画像として、動画を表示させる、
 25.に記載の画像生成装置。
28.
 表示面が物体の載置面として利用されるディスプレイと、
 前記ディスプレイの表示面上に載置された物体を撮影する撮像装置と、
 前記物体の撮影時に、前記ディスプレイの表示面に所定の第1画像を表示させる表示制御手段と、
 前記第1画像の表示中に前記ディスプレイの表示面上の物体を撮影することにより生成される第2画像を取得する画像取得手段と、
 前記第2画像から前記物体の領域を示す物体領域画像を抽出する抽出手段と、
 前記物体領域画像を背景画像に合成することにより第3画像を生成し、前記第3画像を記憶装置に記憶させる画像生成手段と、
 を備える画像生成システム。
29.
 前記画像生成手段は、前記物体を識別する識別器の学習用または評価用の画像として、前記第3画像を生成する、
 28.に記載の画像生成システム。
30.
 前記学習用または評価用の画像を用いて、前記識別器を生成または更新する学習手段を更に備える、
 29.に記載の画像生成システム。
31.
 前記学習用または評価用の画像を用いて、前記識別器の識別精度を評価する評価手段を更に備える、
 29.または30.に記載の画像生成システム。
32.
 前記物体は商品である、
 28.から31.のいずれか1つに記載の画像生成システム。
33.
 前記表示制御手段は、前記ディスプレイの表示面に、それぞれ内容の異なる複数の第1画像を切り替えて表示させる、
 28.から32.のいずれか1つに記載の画像生成システム。
34.
 前記表示制御手段は、前記複数の第1画像として、それぞれ互いに色の異なる無地の画像を表示させる、
 33.に記載の画像生成システム。
35.
 前記表示制御手段は、前記複数の第1画像として、動画を表示させる、
 33.に記載の画像生成システム。
36.
 コンピュータが、
 ディスプレイの表示面上に載置された物体の撮影時に、前記ディスプレイの表示面に所定の第1画像を表示させ、
 前記第1画像の表示中に前記ディスプレイの表示面上の物体を撮影することにより生成される第2画像を取得し、
 前記第2画像から前記物体の領域を示す物体領域画像を抽出し、
 前記物体領域画像を他の背景画像に合成することにより第3画像を生成し、前記第3画像を記憶装置に記憶させる、
 ことを含む画像生成方法。
37.
 前記コンピュータが、
 前記物体を識別する識別器の学習用または評価用の画像として、前記第3画像を生成する、
 ことを含む36.に記載の画像生成装置。
38.
 前記コンピュータが、
 前記学習用または評価用の画像を用いて、前記識別器を生成または更新する、
 ことを含む37.に記載の画像生成装置。
39.
 前記コンピュータが、
 前記学習用または評価用の画像を用いて、前記識別器の識別精度を評価する、
 ことを含む37.または38.に記載の画像生成装置。
40.
 前記物体は商品である、
 36.から39.のいずれか1つに記載の画像生成装置。
41.
 前記コンピュータが、
 前記ディスプレイの表示面に、それぞれ内容の異なる複数の第1画像を切り替えて表示させる、
 ことを含む36.から40.のいずれか1つに記載の画像生成装置。
42.
 前記コンピュータが、
 前記複数の第1画像として、それぞれ互いに色の異なる無地の画像を表示させる、
 ことを含む41.に記載の画像生成装置。
43.
 前記コンピュータが、
 前記複数の第1画像として、動画を表示させる、
 ことを含む41.に記載の画像生成装置。
44.
 コンピュータに、36.から43.のいずれか1つに記載の画像生成方法を実行させるプログラム。

Claims (20)

  1.  ディスプレイの表示面上に載置された物体の撮影時に、前記ディスプレイの表示面に、それぞれ内容の異なる複数の第1画像を切り替えて表示させる表示制御手段と、
     前記複数の第1画像を切り替えて表示している間に前記ディスプレイの表示面上の前記物体を撮影することにより生成される、複数の第2画像を取得して記憶装置に記憶させる画像取得手段と、
     を備える画像収集装置。
  2.  前記画像取得手段は、前記複数の第2画像を、前記物体を識別する識別器の学習用または評価用の画像として取得する、
     請求項1に記載の画像収集装置。
  3.  前記複数の第2画像を用いて、前記識別器を生成または更新する学習手段を更に備える、
     請求項2に記載の画像収集装置。
  4.  前記複数の第2画像を用いて、前記識別器の識別精度を評価する評価手段を更に備える、
     請求項2または3に記載の画像収集装置。
  5.  前記物体は商品である、
     請求項1から4のいずれか1項に記載の画像収集装置。
  6.  前記表示制御手段は、前記複数の第1画像として、それぞれ互いに色の異なる無地の画像を表示させる、
     請求項1から5のいずれか1項に記載の画像収集装置。
  7.  表示面が物体の載置面として利用されるディスプレイと、
     前記ディスプレイの表示面に載置された物体を撮影する撮像装置と、
     前記物体の撮影時に、前記ディスプレイの表示面に、それぞれ内容の異なる複数の第1画像を切り替えて表示させる表示制御手段と、
     前記複数の第1画像を切り替えて表示している間に前記ディスプレイの表示面上の前記物体を撮影することにより生成される、複数の第2画像を取得して記憶装置に記憶させる画像取得手段と、
     を備える画像収集システム。
  8.  コンピュータが、
     ディスプレイの表示面上に載置された物体の撮影時に、前記ディスプレイの表示面に、それぞれ内容の異なる複数の第1画像を切り替えて表示させ、
     前記複数の第1画像を切り替えて表示している間に前記ディスプレイの表示面上の前記物体を撮影することにより生成される、複数の第2画像を取得して記憶装置に記憶させる、
     ことを含む画像収集方法。
  9.  コンピュータに、請求項8に記載の画像収集方法を実行させるプログラム。
  10.  ディスプレイの表示面上に載置された物体の撮影時に、前記ディスプレイの表示面に所定の第1画像を表示させる表示制御手段と、
     前記第1画像の表示中に前記ディスプレイの表示面上の物体を撮影することにより生成される第2画像を取得する画像取得手段と、
     前記第2画像から前記物体の領域を示す物体領域画像を抽出する抽出手段と、
     前記物体領域画像を背景画像に合成することにより第3画像を生成し、前記第3画像を記憶装置に記憶させる画像生成手段と、
     を備える画像生成装置。
  11.  前記画像生成手段は、前記物体を識別する識別器の学習用または評価用の画像として、前記第3画像を生成する、
     請求項10に記載の画像生成装置。
  12.  前記学習用または評価用の画像を用いて、前記識別器を生成または更新する学習手段を更に備える、
     請求項11に記載の画像生成装置。
  13.  前記学習用または評価用の画像を用いて、前記識別器の識別精度を評価する評価手段を更に備える、
     請求項11または12に記載の画像生成装置。
  14.  前記物体は商品である、
     請求項10から13のいずれか1項に記載の画像生成装置。
  15.  前記表示制御手段は、前記ディスプレイの表示面に、それぞれ内容の異なる複数の第1画像を切り替えて表示させる、
     請求項10から14のいずれか1項に記載の画像生成装置。
  16.  前記表示制御手段は、前記複数の第1画像として、それぞれ互いに色の異なる無地の画像を表示させる、
     請求項15に記載の画像生成装置。
  17.  前記表示制御手段は、前記複数の第1画像として、動画を表示させる、
     請求項15に記載の画像生成装置。
  18.  表示面が物体の載置面として利用されるディスプレイと、
     前記ディスプレイの表示面上に載置された物体を撮影する撮像装置と、
     前記物体の撮影時に、前記ディスプレイの表示面に所定の第1画像を表示させる表示制御手段と、
     前記第1画像の表示中に前記ディスプレイの表示面上の物体を撮影することにより生成される第2画像を取得する画像取得手段と、
     前記第2画像から前記物体の領域を示す物体領域画像を抽出する抽出手段と、
     前記物体領域画像を背景画像に合成することにより第3画像を生成し、前記第3画像を記憶装置に記憶させる画像生成手段と、
     を備える画像生成システム。
  19.  コンピュータが、
     ディスプレイの表示面上に載置された物体の撮影時に、前記ディスプレイの表示面に所定の第1画像を表示させ、
     前記第1画像の表示中に前記ディスプレイの表示面上の物体を撮影することにより生成される第2画像を取得し、
     前記第2画像から前記物体の領域を示す物体領域画像を抽出し、
     前記物体領域画像を他の背景画像に合成することにより第3画像を生成し、前記第3画像を記憶装置に記憶させる、
     ことを含む画像生成方法。
  20.  コンピュータに、請求項19に記載の画像生成方法を実行させるプログラム。
PCT/JP2018/008144 2018-03-02 2018-03-02 画像収集装置、画像収集システム、画像収集方法、画像生成装置、画像生成システム、画像生成方法、およびプログラム WO2019167277A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2018/008144 WO2019167277A1 (ja) 2018-03-02 2018-03-02 画像収集装置、画像収集システム、画像収集方法、画像生成装置、画像生成システム、画像生成方法、およびプログラム
US16/977,252 US11461585B2 (en) 2018-03-02 2018-03-02 Image collection apparatus, image collection system, image collection method, image generation apparatus, image generation system, image generation method, and program
JP2020502773A JPWO2019167277A1 (ja) 2018-03-02 2018-03-02 画像収集装置、画像収集システム、画像収集方法、画像生成装置、画像生成システム、画像生成方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/008144 WO2019167277A1 (ja) 2018-03-02 2018-03-02 画像収集装置、画像収集システム、画像収集方法、画像生成装置、画像生成システム、画像生成方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2019167277A1 true WO2019167277A1 (ja) 2019-09-06

Family

ID=67806051

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/008144 WO2019167277A1 (ja) 2018-03-02 2018-03-02 画像収集装置、画像収集システム、画像収集方法、画像生成装置、画像生成システム、画像生成方法、およびプログラム

Country Status (3)

Country Link
US (1) US11461585B2 (ja)
JP (1) JPWO2019167277A1 (ja)
WO (1) WO2019167277A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023234061A1 (ja) * 2022-05-31 2023-12-07 京セラ株式会社 データ取得装置、データ取得方法、及びデータ取得台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008097191A (ja) * 2006-10-10 2008-04-24 Fujifilm Corp 画像合成システム
JP2010213124A (ja) * 2009-03-11 2010-09-24 Nippon Telegr & Teleph Corp <Ntt> 画像撮影・表示方法、画像撮影・表示装置、プログラムおよび記録媒体
JP2014178957A (ja) * 2013-03-15 2014-09-25 Nec Corp 学習データ生成装置、学習データ作成システム、方法およびプログラム
JP2016181068A (ja) * 2015-03-24 2016-10-13 株式会社明電舎 学習サンプル撮影装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006337152A (ja) * 2005-06-01 2006-12-14 Sharp Corp 教示用画像生成方法および装置、画像処理アルゴリズム生成方法および装置、画像検査方法および装置、プログラムならびに記録媒体
JP6555866B2 (ja) 2014-09-22 2019-08-07 カシオ計算機株式会社 商品登録装置及びプログラム
JP6255125B2 (ja) * 2017-04-07 2017-12-27 キヤノン株式会社 画像処理装置、画像処理システム、および画像処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008097191A (ja) * 2006-10-10 2008-04-24 Fujifilm Corp 画像合成システム
JP2010213124A (ja) * 2009-03-11 2010-09-24 Nippon Telegr & Teleph Corp <Ntt> 画像撮影・表示方法、画像撮影・表示装置、プログラムおよび記録媒体
JP2014178957A (ja) * 2013-03-15 2014-09-25 Nec Corp 学習データ生成装置、学習データ作成システム、方法およびプログラム
JP2016181068A (ja) * 2015-03-24 2016-10-13 株式会社明電舎 学習サンプル撮影装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023234061A1 (ja) * 2022-05-31 2023-12-07 京セラ株式会社 データ取得装置、データ取得方法、及びデータ取得台

Also Published As

Publication number Publication date
US11461585B2 (en) 2022-10-04
JPWO2019167277A1 (ja) 2021-02-12
US20210042571A1 (en) 2021-02-11

Similar Documents

Publication Publication Date Title
US6641269B2 (en) Indicated position detection by multiple resolution image analysis
JP4747970B2 (ja) 画像処理装置
JP4990211B2 (ja) 光学ナビゲーションのために画像データのフレーム内の特徴クラスタにラベル付けするシステムおよび方法
US8401274B2 (en) Image processing apparatus and method
CN108604373A (zh) 用于使用多个相机实施无缝缩放功能的系统和方法
CN101946519B (zh) 图像处理装置、成像装置、校正系数计算方法
US10929078B2 (en) Electronic apparatus for generating screen image to be displayed by display apparatus and control method thereof
JP4648958B2 (ja) 画像フレームのデータにおいてクラスタピクセルを特定してラベル付けする光学ナビゲーションのためのシステム及び方法
JP2019525365A (ja) コンピュータプログラムを生成するデバイス及びコンピュータプログラムを生成する方法
US7706024B2 (en) Image processing apparatus
CN110084765A (zh) 一种图像处理方法、图像处理装置及终端设备
CN106528742A (zh) 一种信息查询方法及装置
JP2019109727A (ja) 画像処理システムおよび画像処理方法
WO2019167277A1 (ja) 画像収集装置、画像収集システム、画像収集方法、画像生成装置、画像生成システム、画像生成方法、およびプログラム
JP4682782B2 (ja) 画像処理装置
JP5251841B2 (ja) 画像処理装置および画像処理プログラム
WO2019167278A1 (ja) 店舗装置、店舗システム、画像取得方法、およびプログラム
JP4724800B1 (ja) 物品検出装置およびプログラム
JP6903824B2 (ja) 投影装置とその制御方法及び制御プログラム
WO2020050354A1 (ja) 画像検索システム、画像検索方法、およびプログラム
JP2009245366A (ja) 入力システム、指示装置および入力システムの制御プログラム
JP6694760B2 (ja) 画像合成装置及び画像合成プログラム
WO2022239202A1 (ja) 画像処理装置
JP2019158711A (ja) 画像処理システム、画像処理装置、画像処理プログラム
JP4972576B2 (ja) 画像表示方法、画像表示装置および処理システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18907799

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020502773

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18907799

Country of ref document: EP

Kind code of ref document: A1