WO2021214991A1 - モデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラム - Google Patents

モデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラム Download PDF

Info

Publication number
WO2021214991A1
WO2021214991A1 PCT/JP2020/017739 JP2020017739W WO2021214991A1 WO 2021214991 A1 WO2021214991 A1 WO 2021214991A1 JP 2020017739 W JP2020017739 W JP 2020017739W WO 2021214991 A1 WO2021214991 A1 WO 2021214991A1
Authority
WO
WIPO (PCT)
Prior art keywords
shape
region portion
model generation
image
object region
Prior art date
Application number
PCT/JP2020/017739
Other languages
English (en)
French (fr)
Inventor
理史 藤塚
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2020/017739 priority Critical patent/WO2021214991A1/ja
Priority to JP2022516804A priority patent/JPWO2021214991A1/ja
Priority to US17/919,779 priority patent/US20230177797A1/en
Publication of WO2021214991A1 publication Critical patent/WO2021214991A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Definitions

  • the present invention relates to a model generation system for recognizing the shape of an object, a shape recognition system, a model generation method, a shape recognition method, and a technical field of a computer program.
  • Patent Document 1 discloses a technique for identifying an object by using the characteristics (texture, color, shape, boundary, etc.) of the object.
  • Patent Document 2 discloses a technique for inferring the same object from the shape of the object.
  • Patent Document 3 discloses a technique for searching an image using the similarity of objects in the image.
  • the present invention has been made in view of the above problems, and provides a model generation system, a shape recognition system, a model generation method, a shape recognition method, and a computer program capable of appropriately recognizing the shape of an object. That is the issue.
  • One aspect of the model generation system of the present invention is an extraction means for extracting an object region portion which is an region occupied by an object from a target image, and machine learning is executed by inputting the object region portion as an input to classify the shape of the object. It is provided with a generation means for generating a shape classification model for the purpose.
  • One aspect of the shape recognition system of the present invention is to use an extraction means for extracting an object region portion which is an region occupied by an object from an object image and a shape classification model for classifying the shape of the object. It is provided with an estimation means for estimating the shape of the object of the portion.
  • One aspect of the model generation method of the present invention is to extract an object region portion, which is a region occupied by an object, from a target image, execute machine learning using the object region portion as an input, and classify the shape of the object. Generate a shape classification model.
  • the object region portion which is a region occupied by an object
  • the shape classification model for classifying the shape of the object is used to describe the object region portion. Estimate the shape of the object.
  • One aspect of the computer program of the present invention is a shape for extracting an object region portion which is an region occupied by an object from a target image, executing machine learning using the object region portion as an input, and classifying the shape of the object. Operate the computer to generate a classification model.
  • One aspect of the computer program of the present invention is to extract an object region portion, which is a region occupied by an object, from a target image, and use a shape classification model for classifying the shape of the object to use the object in the object region portion. Operate the computer to estimate the shape of.
  • model generation system the shape recognition system, the model generation method, the shape recognition method, and the embodiment of the computer program will be described with reference to the drawings.
  • FIG. 1 is a block diagram showing a hardware configuration of the model generation system according to the first embodiment.
  • the model generation system 10 includes a CPU (Central Processing Unit) 11, a RAM (Random Access Memory) 12, a ROM (Read Only Memory) 13, and a storage device 14. It has.
  • the model generation system 10 may further include an input device 15 and an output device 16.
  • the CPU 11, the RAM 12, the ROM 13, the storage device 14, the input device 15, and the output device 16 are connected via the data bus 17.
  • the CPU 11 reads a computer program.
  • the CPU 11 is configured to read a computer program stored in at least one of the RAM 12, the ROM 13, and the storage device 14.
  • the CPU 11 may read a computer program stored in a computer-readable recording medium using a recording medium reading device (not shown).
  • the CPU 11 may acquire (that is, may read) a computer program from a device (not shown) located outside the model generation system 10 via a network interface.
  • the CPU 11 controls the RAM 12, the storage device 14, the input device 15, and the output device 16 by executing the read computer program.
  • a functional block for generating a shape classification model for identifying the shape of an object is realized in the CPU 11.
  • the RAM 12 temporarily stores the computer program executed by the CPU 11.
  • the RAM 12 temporarily stores data temporarily used by the CPU 11 when the CPU 11 is executing a computer program.
  • the RAM 12 may be, for example, a D-RAM (Dynamic RAM).
  • the ROM 13 stores a computer program executed by the CPU 11.
  • the ROM 13 may also store fixed data.
  • the ROM 13 may be, for example, a P-ROM (Programmable ROM).
  • the storage device 14 stores data stored in the model generation system 10 for a long period of time.
  • the storage device 14 may operate as a temporary storage device of the CPU 11.
  • the storage device 14 may include, for example, at least one of a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), and a disk array device.
  • the input device 15 is a device that receives an input instruction from the user of the model generation system 10.
  • the input device 15 may include, for example, at least one of a keyboard, a mouse and a touch panel.
  • the output device 16 is a device that outputs information about the model generation system 10 to the outside.
  • the output device 16 may be a display device (for example, a display) capable of displaying information about the model generation system 10.
  • FIG. 2 is a block diagram showing a functional block included in the model generation system according to the first embodiment.
  • the model generation system 10 includes an object region partial extraction unit 110 and a model generation unit 120. These functional blocks are realized, for example, in the CPU 11 (see FIG. 1).
  • the object area partial extraction unit 110 is configured to be able to extract an object region portion that is an area occupied by an object having a predetermined shape (in other words, a shape to be recognized) from the image data input to the system.
  • the object region partial extraction unit 110 extracts the object region portion using the insta-segmentation model 200.
  • FIG. 3 is a conceptual diagram showing extraction of an object region portion using an instance segmentation model.
  • the instance segmentation model 200 it is possible to extract only the object region portion from the image including the object. For example, from an image of a round object such as an apple or a golf ball, a mask image obtained by cutting out only the area occupied by them (that is, only the round area) can be extracted. Similarly, a mask image obtained by cutting out only the area occupied by them (that is, only the square area) can be extracted from the image of a square object such as a smartphone or a personal computer monitor.
  • a square object such as a smartphone or a personal computer monitor.
  • the instance segmentation model 200 is a model that extracts an object region portion by processing an image for each of a plurality of unit regions (for example, processing the image in pixel units), but the technology is existing. Therefore, a more detailed description here will be omitted. Further, although the method using the instance segmentation model is mentioned here, the object region portion may be extracted by another method.
  • the object region partial extraction unit 110 outputs the object region portion extracted using the instance segmentation model 200.
  • the information about the object region portion output from the object region portion extraction unit 110 is output to the model generation unit 120.
  • the object region partial extraction unit 110 is a specific example of the “extraction means”.
  • the model generation unit 120 is configured to be able to execute machine learning by using the object area portion extracted by the object region portion extraction unit 110 as input data (in other words, teacher data).
  • the model generation unit 120 generates a shape classification model for recognizing the shape of an object by this machine learning.
  • the object region portion may be manually annotated (for example, adding information indicating what the extracted shape is actually) before being input to the model generation unit 120. ..
  • An existing learning method can be appropriately applied to the machine learning of the model generation unit 120.
  • the model generation unit 120 is a specific example of the “generation means”.
  • FIG. 4 is a flowchart showing an operation flow of the model generation system according to the first embodiment.
  • an image data group composed of a plurality of image data is input to the model generation system 10 according to the first embodiment (step S101).
  • the image data group input here is image data obtained by capturing an object having a predetermined shape (for example, a round object or a square object) to be recognized by the shape classification model.
  • a predetermined shape for example, a round object or a square object
  • the object region portion extraction unit 110 extracts the object region portion occupied by an object having a predetermined shape from the input image data group (step S102). Then, the model generation unit 120 executes machine learning using the extracted object region portion as input data (step S103). The model generation unit 120 outputs a shape classification model for recognizing the shape of an object as a result of machine learning (step S104).
  • an object region portion is extracted using the instance segmentation model 200, and the shape classification model is obtained by machine learning in which the object region portion is input. Is generated.
  • the shape classification model generated in this way it is possible to appropriately recognize the shape of the object in the image. More specifically, by extracting the object region portion, it is possible to appropriately extract only the information regarding the shape of the object included in the image. For example, in a mask image as shown in FIG. 2, information other than the shape (for example, information about a color or a pattern) is scraped off, and only information about the shape of an object is surely extracted.
  • model generation system 10 it is possible to generate a shape classification model capable of appropriately recognizing the shape of an object.
  • a shape classification model by inputting an object region portion as an input, it is possible to realize recognition that allows ambiguity of the shape. Specifically, it is possible to recognize an ambiguous shape such as a round shape or a square shape (that is, a shape far from a beautiful square or a circle).
  • FIG. 5 is a block diagram showing a functional block included in the model generator according to the second embodiment.
  • the same components as those shown in FIG. 2 are designated by the same reference numerals.
  • the model generation device 10 according to the second embodiment includes an object area partial extraction unit 110, a model generation unit 120, a designated image extraction unit 130, and a box area extraction unit 140. .. That is, the model generation device 10 according to the second embodiment is configured to further include a designated image extraction unit 130 and a box area extraction unit 140 in addition to the configuration of the first embodiment (see FIG. 2). ..
  • the designated image extraction unit 130 is configured to be able to extract only an image including an object having a predetermined shape to be recognized from the image data group (that is, a plurality of image data) input to the model generation system 10. Has been done.
  • the designated image extraction unit 130 may be configured so that a predetermined shape can be specified. In this case, for example, when the user specifies a predetermined shape (s), the designated image extraction unit 130 displays an image including an object having the specified predetermined shape (hereinafter, appropriately referred to as a "designated image"). Extract only. More specifically, for example, when the user specifies a shape of "round", only an image including a round object such as an apple or a ball is extracted from a plurality of images.
  • the designated image extraction unit 130 extracts a designated image using the instance segmentation model 200. However, the designated image extraction unit 130 may extract the designated image without using the instance segmentation model 200.
  • the designated image extracted by the designated image extraction unit 130 is output to the box area extraction unit 140.
  • the designated image extraction unit 130 is a specific example of the "third extraction means".
  • the box area extraction unit 140 is a box area (specifically, a box area (specifically,) indicating the position of an object in the image from the designated image (that is, an image including an object having a predetermined shape) extracted by the designated image extraction unit 130. , A rectangular area surrounding an object) can be extracted.
  • the box area extraction unit 140 may extract a plurality of box areas from one designated image.
  • the box area extraction unit 140 extracts the box area using the instance segmentation model 200. However, the box area extraction unit 140 may extract the box area extraction unit 140 without using the instance segmentation model 200.
  • the box area extracted by the box area extraction unit 140 is configured to be output to the object area partial extraction unit 110.
  • the box area extraction unit 140 is a specific example of the “second extraction means”.
  • FIG. 6 is a flowchart showing an operation flow of the model generation system according to the second embodiment.
  • the same reference numerals are given to the same processes as those shown in FIG.
  • step S101 an image data group composed of a plurality of image data is input (step S101).
  • the designated image extraction unit 130 extracts a designated image including an object having a predetermined shape from the input image data group (step S102). Then, the box area extraction unit 140 extracts a box area indicating the position of the object from the designated image (step S103).
  • the object region partial extraction unit 110 extracts the object region portion occupied by an object having a predetermined shape from the extracted box region (step S102). Specifically, the object region partial extraction unit 110 extracts the object region portion by processing the rectangular region extracted as the box region, for example, in pixel units.
  • the model generation unit 120 executes machine learning using the extracted object region portion as input data (step S103).
  • the model generation unit 120 outputs a shape classification model for recognizing the shape of an object as a result of machine learning (step S104).
  • a designated image including an object having a predetermined shape is extracted from the image data group, and the position of the object is shown from the designated image.
  • the box area is extracted.
  • the object region portion can be extracted more easily and with high accuracy.
  • the color information for example, R, G, B information
  • the color information for example, red, green, blue, yellow, white, black, etc.
  • the pattern may be discriminated from the color distribution of the object and information regarding the pattern of the object may be added.
  • the color information described above may be added so as to be added to the information regarding the shape.
  • the model generation unit 120 may learn information about the shape of the object and information about the color to generate a model capable of recognizing the shape and color of the object.
  • the color information may be given in place of the information regarding the shape.
  • the model generation unit 120 may learn information about the color of the object and generate a model capable of recognizing the color of the object.
  • the shape recognition system 20 according to the third embodiment has some configurations and operations in common with the model generation system 10 according to the first and second embodiments described above (for example, the hardware configuration is shown in FIG. It may have the same configuration as the model generation system 10 shown in 1). Therefore, in the following, the matters already explained will be omitted, and the non-overlapping parts will be explained in detail.
  • FIG. 7 is a block diagram showing a functional block included in the shape recognition system according to the third embodiment.
  • the same components as those shown in FIGS. 2 and 5 are designated by the same reference numerals.
  • the shape recognition system 20 includes an object region partial extraction unit 110 and a shape estimation unit 150.
  • the object region partial extraction unit 110 is the same as that provided in the model generation system 10 according to the first and second embodiments (see FIGS. 2 and 5), and the image segmentation model 200 is used to obtain an image. It is configured so that the object area part can be extracted from the data.
  • the shape estimation unit 150 is configured to be able to estimate the shape of the object from the object region portion extracted by the object region portion extraction unit 110.
  • the shape estimation unit 150 estimates the shape of the object by using the shape classification model 300 (that is, the model generated by the model generation system 10 according to the first and second embodiments).
  • the shape estimation unit 150 is a specific example of the “estimation means”.
  • FIG. 8 is a flowchart showing an operation flow of the shape recognition system 20 according to the third embodiment.
  • image data is first input to the shape recognition system 20 according to the third embodiment (step S301).
  • the image input here is an image including an object whose shape is to be recognized.
  • a plurality of images may be input. In that case, the following processing may be executed for each image.
  • the object region partial extraction unit 110 extracts the object region portion occupied by an object having a predetermined shape from the input image (step S302). Then, the shape estimation unit 150 estimates the shape of the object corresponding to the extracted object region portion by using the shape classification model 300 (step S303). Finally, the shape estimation unit 150 outputs information indicating the shape of the object as the estimation result (step S304).
  • the shape estimation unit 150 may output information indicating which of the predetermined shapes the object corresponding to the object region portion has (for example, whether it is round or square with it). Specifically, a score indicating the roundness or a score indicating the squareness of the object may be output. This score may be output as, for example, a numerical value indicating the certainty indicating whether the object is a round object (or a square object). Further, when the object has a shape that is not classified into any of the predetermined shapes, information such as "unestimable" may be output.
  • FIG. 9 is a conceptual diagram showing a specific operation example of the shape recognition system according to the third embodiment.
  • FIG. 10 is a diagram (No. 1) showing a specific output example of the shape recognition system according to the third embodiment.
  • FIG. 11 is a diagram (No. 2) showing a specific output example of the shape recognition system according to the third embodiment.
  • the image shown in FIG. 9 includes a keyboard and a mouse.
  • the instance segmentation model 200 By applying the instance segmentation model 200 to such an image, it is possible to extract the object region portion of each of the keyboard and the mouse.
  • a score (0 to 1) indicating the shape of the object corresponding to the object region portion is displayed.
  • a score of "square (1.00)” is shown for the keyboard (keyboard). This result means that the keyboard in the image is very close to a square shape.
  • a score of "cycle (1.00)” is shown for the mouse. This result means that the mouse in the image is very close to a round shape.
  • the image shown in FIG. 10 includes a refrigerator and a microwave oven.
  • a score of "square (1.00)" is shown for the refrigerator (refrigerator). This result means that the refrigerator in the image is very close to a square shape.
  • the score of "square (1.00)” is also shown for the microwave oven. This result means that the microwave oven in the image is very close to a square shape.
  • the image shown in FIG. 11 includes a monitor (TV), a keyboard, a mouse, and a cup.
  • a score of "square (1.00)” is shown for the monitor (tv). This result means that the monitor in the image is very close to a square shape.
  • a score of "square (1.00)” is also shown for the keyboard (keyboard). This result means that the keyboard in the image is very close to a square shape.
  • a score of "cycle (1.00)” is shown for the mouse. This result means that the mouse in the image is very close to a round shape.
  • a score of "cycle (0.56)” is shown. This result means that the cup in the image is close to a slightly round shape.
  • the score indicating the shape of the object it is possible to intuitively grasp what kind of shape the object is.
  • the shape other than the round and square may be recognized.
  • it may be configured to recognize a triangular shape, a star shape, or a more complicated shape.
  • the object region portion is extracted using the instance segmentation model 200.
  • the shape of the object is estimated by using the shape classification model 300 for the object region portion.
  • the shape classification model 300 is generated as a model in which the shape of the object can be appropriately recognized, as already described in the first and second embodiments.
  • the shape is estimated after extracting the object region portion by the instance segmentation model 200, it is possible to estimate the shape of the object with extremely high accuracy.
  • the shape classification model generated by inputting the object region portion as an input it is possible to realize recognition that allows ambiguity of the shape. Specifically, it is possible to recognize an ambiguous shape such as a round shape or a square shape (that is, a shape far from a beautiful square or a circle).
  • the shape recognition system 20 according to the fourth embodiment will be described with reference to FIGS. 12 to 14. It should be noted that the fourth embodiment is different from the third embodiment described above only in a part of the configuration and operation, and the other parts are substantially the same. Therefore, in the following, the parts different from the third embodiment will be described in detail, and the description of other overlapping parts will be omitted as appropriate.
  • FIG. 12 is a block diagram showing a functional block included in the shape recognition system according to the fourth embodiment.
  • the same components as those shown in FIG. 7 are designated by the same reference numerals.
  • the shape recognition system 20 includes an object region partial extraction unit 110, a box region extraction unit 140, and a shape estimation unit 150. That is, the model generation device 10 according to the fourth embodiment is configured to further include a box region extraction unit 140 in addition to the configuration of the third embodiment (see FIG. 7). As described in the second embodiment, the box area extraction unit 140 extracts the box area indicating the position of the object from the image.
  • FIG. 13 is a flowchart showing an operation flow of the shape recognition system according to the fourth embodiment.
  • the same reference numerals are given to the same processes as those shown in FIG.
  • image data is first input (step S301).
  • the box area extraction unit 140 extracts a box area indicating the position of the object from the input image (step S401). Then, the object region partial extraction unit 110 extracts the object region portion occupied by the object having a predetermined shape from the extracted box region (step S302).
  • the shape estimation unit 150 estimates the shape of the object corresponding to the extracted object region portion using the shape classification model 300 (step S303). Finally, the shape estimation unit 150 outputs information indicating the shape of the object as the estimation result (step S304).
  • a box area indicating the position of an object is extracted from the input image.
  • the object region portion can be extracted more easily and with high accuracy.
  • FIG. 14 is a flowchart showing an operation flow of the shape recognition system according to the modified example.
  • the same reference numerals are given to the same processes as those shown in FIG.
  • the video data may be treated as a time series set of a plurality of image data.
  • N which is a parameter for counting repeated processing
  • step S501 is set to "1" (step S501).
  • "1" here is a predetermined initial value
  • the process of step S501 is a process of initializing N.
  • video data is input to the shape recognition system 20 (step S502).
  • the video data consists of T time-series image data.
  • the shape recognition system 20 extracts the Nth image data from the video data (step S503).
  • the box area extraction unit 140 extracts a box area indicating the position of the object from the extracted Nth image (step S401). Then, the object region partial extraction unit 110 extracts the object region portion occupied by the object having a predetermined shape from the extracted box region (step S302).
  • the shape estimation unit 150 estimates the shape of the object corresponding to the extracted object region portion using the shape classification model 300 (step S303). Then, the shape estimation unit 150 outputs information indicating the shape of the object as the estimation result (step S304).
  • step S505 NO
  • the process is executed again from step S503. Therefore, the processes of steps S503 to S504 are repeatedly executed until the processing of the last image data included in the video data is completed.
  • step S505: YES the series of processes ends.
  • the query of "When” can be handled by the information obtained from the time stamp of the video.
  • the "Where” query can be handled by the GPS information (latitude / longitude information) of the video.
  • the "What” query can be handled with information that can be obtained using existing object detection.
  • the shape recognition system 20 it is possible to respond to a "what (How)" query with information on the shape of the object recognized from the video data.
  • the user may specify the shape of the object, and the image including the object having the specified shape may be searched for and output from the plurality of image data constituting the video data.
  • the shape may be specified by the user using, for example, the input device 15 (see FIG. 1).
  • the output of the searched image may be performed using, for example, an output device 16 (see FIG. 1).
  • a search query such as "a round car seen in Kyoto last August” by extracting an object having a "round” shape.
  • the shape recognition system 20 according to the modified example has an extremely useful effect in the free text query search of the video data.
  • the model generation system according to Appendix 1 is for extracting the object region portion which is the region occupied by the object from the target image and executing machine learning by inputting the object region portion to classify the shape of the object. It is a model generation system characterized by having a generation means for generating the shape classification model of the above.
  • Appendix 2 The model generation system according to Appendix 2 is the model generation system according to Appendix 1, wherein the extraction means processes a target image for each of a plurality of unit regions to extract the object region portion.
  • the model generation system according to Appendix 3 further includes a second extraction means for extracting a rectangular region including the object from the target image, and the extraction means extracts the object region portion from the rectangular region.
  • the model generation system according to Appendix 4 uses a designation means for designating a shape to be classified by the shape classification model and an image including an object having a shape designated by the designation means as the target image from a plurality of images.
  • the model generation system according to any one of Supplementary note 1 to 3, further comprising a third extraction means for extraction.
  • the model generation system according to the appendix 5 is any one of the appendices 1 to 4, further comprising a color information imparting means for detecting the color of the object region portion and imparting the color information to the object region portion.
  • the shape recognition system uses an extraction means for extracting an object region portion, which is an region occupied by an object, from an object image, and a shape classification model for classifying the shape of the object, to use the object region portion. It is a shape recognition system characterized by including an estimation means for estimating the shape of the object.
  • the shape recognition system according to Appendix 7 is the shape recognition system according to Appendix 6, wherein the extraction means processes a target image for each of a plurality of unit regions to extract the object region portion.
  • the shape recognition system according to Appendix 8 further includes a second extraction means for extracting a rectangular region including the object from the target image, and the extraction means extracts the object region portion from the rectangular region.
  • the shape recognition system according to Appendix 9 includes a reception means that accepts the designation of the shape of the object, and an image including the object of the specified shape from a plurality of the target images based on the estimation result of the estimation means.
  • Appendix 10 The shape recognition system according to Appendix 10, wherein the estimation means estimates the color of the object in the object region portion in addition to the shape of the object in the object region portion.
  • the shape recognition system according to any one of the items.
  • the model generation method according to Appendix 11 extracts an object region portion that is an region occupied by an object from a target image, executes machine learning using the object region portion as an input, and classifies the shape of the object. It is a model generation method characterized by generating a model.
  • the shape recognition method according to Appendix 12 extracts an object region portion that is an area occupied by an object from a target image, and uses a shape classification model for classifying the shape of the object to use the shape classification model of the object region portion. It is a shape recognition method characterized by estimating a shape.
  • Appendix 13 The computer program according to Appendix 13 is a shape classification model for extracting an object region portion, which is an region occupied by an object, from an object image, executing machine learning using the object region portion as an input, and classifying the shape of the object. It is a computer program characterized by operating a computer so as to generate.
  • Appendix 14 The computer program according to Appendix 14 extracts an object region portion that is an area occupied by an object from an object image, and uses a shape classification model for classifying the shape of the object to form the shape of the object in the object region portion. It is a computer program characterized by operating a computer so as to estimate.
  • the present invention can be appropriately modified within the scope of claims and within a range not contrary to the gist or idea of the invention that can be read from the entire specification, and a model generation system, a shape recognition system, a model generation method, etc.
  • the shape recognition method and the computer program are also included in the technical idea of the present invention.
  • Model generation system 10
  • Shape recognition system 10
  • Object area partial extraction unit 120
  • Designated image extraction unit 140
  • Box area extraction unit 150
  • Shape estimation unit 200
  • Instance segmentation model 300
  • Shape classification model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

モデル生成システム(1)は、対象画像から物体が占める領域である物体領域部分を抽出する抽出手段(110)と、物体領域部分を入力として機械学習を実行し、物体の形状を分類するための形状分類モデル(300)を生成する生成手段(120)とを備える。このようにして生成される形状分類モデルを用いれば、画像中の物体の形状を適切に認識することが可能となる。

Description

モデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラム
 本発明は、物体の形状を認識するためのモデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラムの技術分野に関する。
 この種のシステムとして、画像内の物体を認識するものが知られている。例えば特許文献1では、物体の特徴(質感、色、形状、境界等)を用いて物体を識別する技術が開示されている。その他の関連する技術として、特許文献2では、物体の形状から同一物であることを推測する技術が開示されている。特許文献3では、画像内のオブジェクトの類似度を用いて画像を検索する技術が開示されている。
特表2020-507855号公報 特開2019-070467号公報 特開平10-240771号公報
 物体の形状を認識するためには、形状に関する情報を用いて機械学習を行う方法が考えられる。しかしながら、上述した特許文献1に記載されているような技術では、画像中の背景の違いや、物体の色の違いなど様々な特徴が含まれている中から、形状だけの特徴を捉えて学習させることが極めて困難である。即ち、上述した技術を適用したとしても、物体の形状を適切に認識するシステムを構築するのは容易ではない。
 本発明は、上記問題点に鑑みてなされたものであり、物体の形状を適切に認識することが可能なモデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラムを提供することを課題とする。
 本発明のモデル生成システムの一の態様は、対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成する生成手段とを備える。
 本発明の形状認識システムの一の態様は、対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する推定手段とを備える。
 本発明のモデル生成方法の一の態様は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成する。
 本発明の形状認識方法の一の態様は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する。
 本発明のコンピュータプログラムの一の態様は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成するようにコンピュータを動作させる。
 本発明のコンピュータプログラムの一の態様は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定するようにコンピュータを動作させる。
 上述したモデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラムのそれぞれの一の態様によれば、物体の形状を適切に認識することが可能である。
第1実施形態に係るモデル生成システムのハードウェア構成を示すブロック図である。 第1実施形態に係るモデル生成システムが備える機能ブロックを示すブロック図である。 インスタンスセグメンテーションモデルを用いた物体領域部分の抽出を示す概念図である。 第1実施形態に係るモデル生成システムの動作の流れを示すフローチャートである。 第2実施形態に係るモデル生成システムが備える機能ブロックを示すブロック図である。 第2実施形態に係るモデル生成システムの動作の流れを示すフローチャートである。 第3実施形態に係る形状認識システムが備える機能ブロックを示すブロック図である。 第3実施形態に係る形状認識システムの動作の流れを示すフローチャートである。 第3実施形態に係る形状認識システムの具体的な動作例を示す概念図である。 第3実施形態に係る形状認識システムの具体的な出力例を示す図(その1)である。 第3実施形態に係る形状認識システムの具体的な出力例を示す図(その2)である。 第4実施形態に係る形状認識システムが備える機能ブロックを示すブロック図である。 第4実施形態に係る形状認識システムの動作の流れを示すフローチャートである。 変形例に係る形状認識システムの動作の流れを示すフローチャートである。
 以下、図面を参照しながら、モデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラムの実施形態について説明する。
 <第1実施形態>
 まず、第1実施形態に係るモデル生成システムについて、図1から図4を参照して説明する。
 (ハードウェア構成)
 図1を参照しながら、第1実施形態に係るモデル生成システムのハードウェア構成について説明する。図1は、第1実施形態に係るモデル生成システムのハードウェア構成を示すブロック図である。
 図1に示すように、第1実施形態に係るモデル生成システム10は、CPU(Central Processing Unit)11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、記憶装置14とを備えている。モデル生成システム10は更に、入力装置15と、出力装置16とを備えていてもよい。CPU11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16とは、データバス17を介して接続されている。
 CPU11は、コンピュータプログラムを読み込む。例えば、CPU11は、RAM12、ROM13及び記憶装置14のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、CPU11は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。CPU11は、ネットワークインタフェースを介して、モデル生成システム10の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、読み込んでもよい)。CPU11は、読み込んだコンピュータプログラムを実行することで、RAM12、記憶装置14、入力装置15及び出力装置16を制御する。本実施形態では特に、CPU11が読み込んだコンピュータプログラムを実行すると、CPU11内には、物体の形状を識別する形状分類モデルを生成するための機能ブロックが実現される。
 RAM12は、CPU11が実行するコンピュータプログラムを一時的に記憶する。RAM12は、CPU11がコンピュータプログラムを実行している際にCPU11が一時的に使用するデータを一時的に記憶する。RAM12は、例えば、D-RAM(Dynamic RAM)であってもよい。
 ROM13は、CPU11が実行するコンピュータプログラムを記憶する。ROM13は、その他に固定的なデータを記憶していてもよい。ROM13は、例えば、P-ROM(Programmable ROM)であってもよい。
 記憶装置14は、モデル生成システム10が長期的に保存するデータを記憶する。記憶装置14は、CPU11の一時記憶装置として動作してもよい。記憶装置14は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
 入力装置15は、モデル生成システム10のユーザからの入力指示を受け取る装置である。入力装置15は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。
 出力装置16は、モデル生成システム10に関する情報を外部に対して出力する装置である。例えば、出力装置16は、モデル生成システム10に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。
 (システム構成)
 続いて、図2を参照しながら、第1実施形態に係るモデル生成システム10の機能的構成について説明する。図2は、第1実施形態に係るモデル生成システムが備える機能ブロックを示すブロック図である。
 図2に示すように、第1実施形態に係るモデル生成システム10は、物体領域部分抽出部110と、モデル生成部120とを備えて構成されている。これらの機能ブロックは、例えばCPU11(図1参照)において実現される。
 物体領域部分抽出部110は、システムに入力された画像データから、所定の形状(言い換えれば、認識すべき形状)の物体が占める領域である物体領域部分を抽出可能に構成されている。物体領域部分抽出部110は、インスタセグメンテーションモデル200を用いて、物体領域部分を抽出する。ここで図3を参照して、インタンスセグメンテーションモデル200を用いた物体領域部分の抽出方法について説明する。図3は、インスタンスセグメンテーションモデルを用いた物体領域部分の抽出を示す概念図である。
 図3に示すように、インスタンスセグメンテーションモデル200を用いれば、物体が含まれる画像から、物体領域部分だけを抽出することができる。例えば、リンゴやゴルフボールのような丸いものの画像からは、それらが占める領域だけ(即ち、丸い領域だけ)を切り取ったマスク画像を抽出することができる。同様に、スマートフォンやパソコンモニタのような四角いものの画像からは、それらが占める領域だけ(即ち、四角い領域だけ)を切り取ったマスク画像を抽出することができる。
 なお、インスタンスセグメーテーションモデル200は、画像を複数の単位領域ごとに処理する(例えば、画像をピクセル単位で処理する)ことで物体領域部分を抽出するモデルであるが、その技術は既存のものであるため、ここでのより詳細な説明は省略するものとする。また、ここではインスタンスセグメンテーションモデルを用いた手法を挙げたが、その他の手法で物体領域部分を抽出してもよい。
 図2に戻り、物体領域部分抽出部110は、インスタンスセグメーテーションモデル200を用いて抽出した物体領域部分を出力する。物体領域部分抽出部110から出力された物体領域部分に関する情報は、モデル生成部120に出力される構成となっている。なお、物体領域部分抽出部110は、「抽出手段」の一具体例である。
 モデル生成部120は、物体領域部分抽出部110で抽出された物体領域部分を入力データ(言い換えれば、教師データ)として、機械学習を実行可能に構成されている。モデル生成部120は、この機械学習によって、物体の形状を認識するための形状分類モデルを生成する。なお、物体領域部分は、モデル生成部120に入力される前に手動でアノテーション(例えば、抽出された形状が実際にどのような形状であるかを示す情報の付与)が行われても構わない。モデル生成部120の機械学習には、適宜既存の学習手法を適用することが可能である。モデル生成部120は、「生成手段」の一具体例である。
 (動作説明)
 次に、図4を参照しながら、第1実施形態に係るモデル生成システム10の動作の流れについて説明する。図4は、第1実施形態に係るモデル生成システムの動作の流れを示すフローチャートである。
 図4に示すように、第1実施形態に係るモデル生成システム10には、まず複数の画像データからなる画像データ群が入力される(ステップS101)。ここで入力される画像データ群は、形状分類モデルで認識すべき所定の形状の物体(例えば、丸い物体や四角い物体)が撮像された画像データである。ただし、すべての画像データに所定の形状の物体が含まれている必要はない。
 次に、物体領域部分抽出部110が、入力された画像データ群から、所定の形状の物体が占める物体領域部分を抽出する(ステップS102)。そして、モデル生成部120は、抽出された物体領域部分を入力データとして機械学習を実行する(ステップS103)。モデル生成部120は、機械学習の結果として、物体の形状を認識するための形状分類モデルを出力する(ステップS104)。
 (技術的効果)
 次に、第1実施形態に係るモデル生成システム10によって得られる技術的効果について説明する。
 図1から図4で説明したように、第1実施形態に係るモデル生成システム10では、インスタンスセグメンテーションモデル200を用いて物体領域部分が抽出され、その物体領域部分を入力した機械学習により形状分類モデルが生成される。このようにして生成した形状分類モデルを用いれば、画像内の物体の形状を適切に認識することが可能である。より具体的には、物体領域部分を抽出することで、画像内に含まれる物体の形状に関する情報だけを適切に抽出することができる。例えば、図2に示すようなマスク画像では、形状以外の他の情報(例えば、色や模様に関する情報等)が削ぎ落とされ、物体の形状に関する情報のみが確実に抽出されている。また、画像内で互いに重なっている物体(即ち、重なりによって形状が判別し難くなっている物体)についても、その物体領域部分のみを抽出することで、どのような形状であるかを判別し易くなっている。従って、第1実施形態に係るモデル生成システム10によれば、物体の形状を適切に認識することが可能な形状分類モデルを生成することができる。
 また、本実施形態では特に、物体領域部分を入力として形状分類モデルを生成することで、形状の曖昧さを許容した認識を実現することができる。具体的には、丸っぽい形状、四角っぽい形状のような曖昧な形状(即ち、きれいな四角や丸からかけ離れた形状)についても認識することが可能となる。
 <第2実施形態>
 次に、第2実施形態に係るモデル生成システム10について、図5及び図6を参照して説明する。なお、第2実施形態は、上述した第1実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については概ね同様である。このため、以下では第1実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
 (システム構成)
 まず、図5を参照しながら、第2実施形態に係るモデル生成システム10の機能的構成について説明する。図5は、第2実施形態に係るモデル生成装置が備える機能ブロックを示すブロック図である。なお、図5では、図2で示した構成要素と同様のものに同一の符号を付している。
 図5に示すように、第2実施形態に係るモデル生成装置10は、物体領域部分抽出部110と、モデル生成部120と、指定画像抽出部130と、箱領域抽出部140とを備えている。即ち、第2実施形態に係るモデル生成装置10は、第1実施形態の構成(図2参照)に加えて、指定画像抽出部130と、箱領域抽出部140とを更に備えて構成されている。
 指定画像抽出部130は、モデル生成システム10に入力される画像データ群(即ち、複数の画像データ)の中から、認識すべき所定の形状の物体が含まれている画像のみを抽出可能に構成されている。指定画像抽出部130は、所定の形状を指定可能に構成されてもよい。この場合、例えばユーザが所定の形状(複数でもよい)を指定すると、指定画像抽出部130が、指定された所定の形状の物体が含まれている画像(以下、適宜「指定画像」と称する)のみを抽出する。より具体的には、例えばユーザが「丸い」という形状を指定すると、複数の画像の中からリンゴやボールのような丸い物体が含まれる画像のみが抽出される。指定画像抽出部130は、インスタンスセグメンテーションモデル200を用いて指定画像を抽出する。ただし、指定画像抽出部130は、インスタンスセグメンテーションモデル200を用いずに指定画像を抽出してもよい。指定画像抽出部130で抽出された指定画像は、箱領域抽出部140に出力される構成となっている。なお、指定画像抽出部130は、「第3の抽出手段」の一具体例である。
 箱領域抽出部140は、指定画像抽出部130で抽出された指定画像(即ち、所定の形状の物体が含まれている画像)から、画像中の物体の位置を示す箱領域(具体的には、物体を囲む矩形領域)を抽出可能に構成されている。箱領域抽出部140は、1枚の指定画像から複数の箱領域を抽出してもよい。箱領域抽出部140は、インスタンスセグメンテーションモデル200を用いて箱領域を抽出する。ただし、箱領域抽出部140は、インスタンスセグメンテーションモデル200を用いずに箱領域抽出部140を抽出してもよい。箱領域抽出部140で抽出された箱領域は、物体領域部分抽出部110に出力される構成となっている。なお、箱領域抽出部140は、「第2の抽出手段」の一具体例である。
 (動作説明)
 次に、図6を参照しながら、第2実施形態に係るモデル生成システム10の動作の流れについて説明する。図6は、第2実施形態に係るモデル生成システムの動作の流れを示すフローチャートである。なお、図6では、図4で示した処理と同様の処理に同一の符号を付している。
 図6に示すように、第2実施形態に係るモデル生成システム10の動作時には、まず複数の画像データからなる画像データ群が入力される(ステップS101)。
 次に、指定画像抽出部130が、入力された画像データ群の中から所定の形状の物体が含まれる指定画像を抽出する(ステップS102)。そして、箱領域抽出部140が、指定画像から、物体の位置を示す箱領域を抽出する(ステップS103)。
 次に、物体領域部分抽出部110が、抽出された箱領域から、所定の形状の物体が占める物体領域部分を抽出する(ステップS102)。具体的には、物体領域部分抽出部110は、箱領域として抽出された矩形領域を例えばピクセル単位で処理することで、物体領域部分を抽出する。
 次に、モデル生成部120は、抽出された物体領域部分を入力データとして機械学習を実行する(ステップS103)。モデル生成部120は、機械学習の結果として、物体の形状を認識するための形状分類モデルを出力する(ステップS104)。
 (技術的効果)
 次に、第2実施形態に係るモデル生成システム10によって得られる技術的効果について説明する。
 図5及び図6で説明したように、第2実施形態に係るモデル生成システム10では、画像データ群から所定の形状の物体が含まれる指定画像が抽出され、更に指定画像から物体の位置を示す箱領域が抽出される。このようにすれば、より容易に且つ高い精度で物体領域部分を抽出することができる。この結果、第2実施形態に係るモデル生成システム10によれば、物体の形状をより適切に認識することが可能な形状分類モデルを生成することができる。
 <変形例>
 上述した例では、インスタンスセグメンテーションモデル200を用いて、物体の形状に関する情報を抽出する例について説明したが、物体の色情報に関する情報を抽出するようにしてもよい。
 例えば、インステンスセグメンテーションモデル200を用いれば、物体領域部分の色情報(例えばR,G,B情報)を抽出することができる。よって、物体上のR,G,Bの分布から、物体の色情報(例えば、赤、緑、青、黄色、白、黒等)を付与することが可能である。この場合、物体上でほぼ一様に同じ色なら1つの色とすればよいし、様々な色が分布しているなら「カラフル」のように特別な色情報を付与してもよい。或いは、物体の色分布から模様を判別して、物体の模様に関する情報を付与するようにしてもよい。
 上述した色情報は、形状に関する情報に付加するように付与されてもよい。この場合、モデル生成部120は、物体の形状に関する情報と色に関する情報とを学習して、物体の形状及び色を認識可能なモデルを生成してもよい。或いは、色情報は、形状に関する情報に代えて付与されてもよい。この場合、モデル生成部120は、物体の色に関する情報を学習して、物体の色を認識可能なモデルを生成してもよい。
 <第3実施形態>
 次に、第3実施形態に係る形状認識システム20について、図7から図11を参照して説明する。なお、第3実施形態に係る形状認識システム20は、上述した第1及び第2実施形態に係るモデル生成システム10と一部の構成や動作が共通している(例えば、ハードウェア構成は、図1に示したモデル生成システム10と同様の構成であってよい)。このため、以下ではすでに説明した事項については説明を省略し、重複しない部分について詳しく説明するものとする。
 (システム構成)
 まず、図7を参照しながら、第3実施形態に係る形状認識システム20の機能的構成について説明する。図7は、第3実施形態に係る形状認識システムが備える機能ブロックを示すブロック図である。なお、図7では、図2及び図5で示した構成要素と同様のものに同一の符号を付している。
 図7に示すように、第3実施形態に係る形状認識システム20は、物体領域部分抽出部110と、形状推定部150とを備えている。なお、物体領域部分抽出部110は、第1及び第2実施形態に係るモデル生成システム10が備えるもの(図2や図5参照)と同様のものであり、インスタンスセグメンテーションモデル200を用いて、画像データから物体領域部分を抽出可能に構成されている。
 形状推定部150は、物体領域部分抽出部110で抽出された物体領域部分から、その物体の形状を推定可能に構成されている。形状推定部150は、形状分類モデル300(即ち、第1及び第2実施形態に係るモデル生成システム10で生成されたモデル)を用いて、物体の形状を推定する。形状推定部150は、「推定手段」の一具体例である。
 (動作説明)
 次に、図8を参照しながら、第3実施形態に係る形状認識システム20の動作の流れについて説明する。図8は、第3実施形態に係る形状認識システム20の動作の流れを示すフローチャートである。
 図8に示すように、第3実施形態に係る形状認識システム20には、まず画像データが入力される(ステップS301)。ここで入力される画像は、形状を認識したい物体が含まれている画像である。なお、画像は複数枚入力されてもよい。その場合、以下の処理が各画像に対してそれぞれ実行されればよい。
 次に、物体領域部分抽出部110が、入力された画像から、所定の形状の物体が占める物体領域部分を抽出する(ステップS302)。そして、形状推定部150は、形状分類モデル300を用いて、抽出された物体領域部分に対応する物体の形状を推定する(ステップS303)。最後に、形状推定部150は、推定結果として物体の形状を示す情報を出力する(ステップS304)。
 なお、形状推定部150は、物体領域部分に対応する物体が、所定の形状のいずれであるのか(例えば、丸いのか、それとの四角いのか等)を示す情報を出力すればよい。具体的には、その物体の丸さを示すスコアや四角さを示すスコアを出力すればよい。このスコアは、例えば、物体が丸い物体(或いは、四角い物体)であるかを示す確からしさを示す数値として出力されてもよい。また、物体が所定の形状のいずれにも分類されない形状である場合には「推定不可」等の情報を出力してもよい。
 <具体的な出力例>
 次に、図9から図11を参照しながら、第3実施形態に係る形状認識システム20の具体的な出力例について説明する。図9は、第3実施形態に係る形状認識システムの具体的な動作例を示す概念図である。図10は、第3実施形態に係る形状認識システムの具体的な出力例を示す図(その1)である。図11は、第3実施形態に係る形状認識システムの具体的な出力例を示す図(その2)である。
 図9に示す画像には、キーボード及びマウスが含まれている。このような画像に対してインスタンスセグメンテーションモデル200を適用すると、キーボード及びマウス各々の物体領域部分を抽出することができる。
 続いて、物体領域部分に形状分類モデル300を適用すると、物体領域部分に対応する物体の形状を示すスコア(0~1)が表示される。ここでは、キーボード(keyboard)について「square(1.00)」というスコアが示されている。この結果は、画像中のキーボードが極めて四角い形状に近いことを意味している。一方、マウス(mouse)について「circle(1.00)」というスコアが示されている。この結果は、画像中のマウスが極めて丸い形状に近いことを意味している。
 図10に示す画像には、冷蔵庫及び電子レンジが含まれている。このような画像について同様に形状認識を行うと、冷蔵庫(refrigerator)について「square(1.00)」というスコアが示される。この結果は、画像中の冷蔵庫が極めて四角い形状に近いことを意味している。一方、電子レンジ(microwave)についても「square(1.00)」というスコアが示される。この結果は、画像中の電子レンジが極めて四角い形状に近いことを意味している。
 図11に示す画像には、モニタ(TV)、キーボード、マウス、及びカップが含まれている。このような画像について同様に形状認識を行うと、モニタ(tv)について「square(1.00)」というスコアが示される。この結果は、画像中のモニタが極めて四角い形状に近いことを意味している。また、キーボード(keyboard)についても「square(1.00)」というスコアが示される。この結果は、画像中のキーボードが極めて四角い形状に近いことを意味している。また、マウス(mouse)については「circle(1.00)」というスコアが示されている。この結果は、画像中のマウスが極めて丸い形状に近いことを意味している。更に、カップ(cup)については「circle(0.56)」というスコアが示されている。この結果は、画像中のカップがやや丸い形状に近いことを意味している。
 以上のように、物体の形状を示すスコアを表示すれば、物体がどのような形状なのかを直感的に把握することが可能である。また、スコアの大小によって、どの程度丸い形状に近いのか、或いはどの程度四角い形状に近いのかを判別することができる。よって、完全に丸い形状ではなくても、やや丸っぽい形状として判別することが可能であり、完全に四角い形状ではなくても、やや四角っぽい形状として判別することが可能である。
 なお、上述した例では、物体が丸いか又は四角いかを認識するケースを挙げたが、丸及び四角以外の形状を認識可能に構成されてもよい。例えば、三角や星型、或いは更に複雑な形状を認識可能に構成されてもよい。
 (技術的効果)
 次に、第3実施形態に係る形状認識システム20によって得られる技術的効果について説明する。
 図7から図11で説明したように、第3実施形態に係る形状認識システム20では、インスタンスセグメンテーションモデル200を用いて物体領域部分が抽出される。そして、物体領域部分に対して形状分類モデル300を用いることで物体の形状が推定される。ここで、形状分類モデル300は、すでに第1及び第2実施形態で説明したように、物体の形状を適切に認識可能なモデルとして生成されている。加えて、インスタンスセグメンテーションモデル200により物体領域部分を抽出してから形状推定を行っているため、極めて高い精度で物体の形状を推定することが可能である。
 また、本実施形態では特に、物体領域部分を入力として生成された形状分類モデルを用いることで、形状の曖昧さを許容した認識を実現することができる。具体的には、丸っぽい形状、四角っぽい形状のような曖昧な形状(即ち、きれいな四角や丸からかけ離れた形状)についても認識することが可能となる。
 <第4実施形態>
 次に、第4実施形態に係る形状認識システム20について、図12から図14を参照して説明する。なお、第4実施形態は、上述した第3実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については概ね同様である。このため、以下では第3実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。
 (システム構成)
 まず、図12を参照しながら、第4実施形態に係る形状認識システム20機能的構成について説明する。図12は、第4実施形態に係る形状認識システムが備える機能ブロックを示すブロック図である。なお、図12では、図7で示した構成要素と同様のものに同一の符号を付している。
 図12に示すように、第4実施形態に係る形状認識システム20は、物体領域部分抽出部110と、箱領域抽出部140と、形状推定部150とを備えている。即ち、第4実施形態に係るモデル生成装置10は、第3実施形態の構成(図7参照)に加えて、箱領域抽出部140を更に備えて構成されている。なお、箱領域抽出部140は、第2実施形態で説明したように、画像から物体の位置を示す箱領域を抽出するものである。
 (動作説明)
 次に、図13を参照しながら、第4実施形態に係る形状認識システム20の動作の流れについて説明する。図13は、第4実施形態に係る形状認識システムの動作の流れを示すフローチャートである。なお、図13では、図8で示した処理と同様の処理に同一の符号を付している。
 図13に示すように、第4実施形態に係る形状認識システム20の動作時には、まず画像データが入力される(ステップS301)。
 次に、箱領域抽出部140が、入力された画像から、物体の位置を示す箱領域を抽出する(ステップS401)。そして、物体領域部分抽出部110が、抽出された箱領域から、所定の形状の物体が占める物体領域部分を抽出する(ステップS302)。
 次に、形状推定部150は、形状分類モデル300を用いて、抽出された物体領域部分に対応する物体の形状を推定する(ステップS303)。最後に、形状推定部150は、推定結果として物体の形状を示す情報を出力する(ステップS304)。
 (技術的効果)
 次に、第4実施形態に係る形状認識システム20によって得られる技術的効果について説明する。
 図12及び図13で説明したように、第4実施形態に係る形状認識システム20では、入力された画像から物体の位置を示す箱領域が抽出される。このようにすれば、より容易に且つ高い精度で物体領域部分を抽出することができる。この結果、第4実施形態に係る形状認識システム20によれば、より高い精度で物体の形状を推定することが可能である。
 <変形例>
 次に、図14を参照しながら、上述した第4実施形態に係る形状認識システム20の変形例について説明する。図14は、変形例に係る形状認識システムの動作の流れを示すフローチャートである。なお、図14では、図13で示した処理と同様の処理に同一の符号を付している。
 第4実施形態では、画像データに含まれる物体の形状を推定する例を挙げたが、同様の手法で、映像データに含まれる物体の形状を推定することも可能である。この場合、映像データを複数の画像データの時系列集合として扱えばよい。
 図14に示すように、変形例に係る形状認識システム20の動作時には、まず繰り返し処理をカウントするためのパラメータであるNが“1”とされる(ステップS501)。なお、ここでの“1”は所定の初期値であり、ステップS501の処理はNを初期化する処理である。
 次に、形状認識システム20には、映像データが入力される(ステップS502)。映像データは、T枚の時系列画像データからなるものである。形状認識システム20は、映像データから、N番目の画像データを抽出する(ステップS503)。
 次に、箱領域抽出部140が、抽出したN番目の画像から、物体の位置を示す箱領域を抽出する(ステップS401)。そして、物体領域部分抽出部110が、抽出された箱領域から、所定の形状の物体が占める物体領域部分を抽出する(ステップS302)。
 次に、形状推定部150は、形状分類モデル300を用いて、抽出された物体領域部分に対応する物体の形状を推定する(ステップS303)。そして、形状推定部150は、推定結果として物体の形状を示す情報を出力する(ステップS304)。
 次に、形状認識システム20は、Nをインクリメントする(ステップS504)。そして、形状認識システム20は、N=Tであるか否かを判定する(ステップS505)。言い換えれば、映像データに含まれる最後の画像データの処理が終了したか否かを判定する。
 ここで、N=Tでないと判定された場合(ステップS505:NO)、ステップS503から処理が再び実行される。よって、映像データに含まれる最後の画像データの処理が終了するまでは、ステップS503~ステップS504の処理が繰り返し実行されることになる。一方で、N=Tであると判定された場合(ステップS505:YES)、一連の処理は終了する。
 以上説明した変形例によれば、映像データに含まれる物体の形状を適切に認識することが可能である。なお、映像データに関しては、ライフログ等の普及により映像検索システムへの活用が想定される。そして、自由テキストクエリによる映像検索を実現しようとする場合、「いつ(When)」、「どこで(Where)」、「どのような(How)」、「もの(What)」等のクエリに対応することが要求されことになる。
 ここで、「いつ(When)」のクエリについては、映像のタイムスタンプから取得した情報で対応できる。「どこで(Where)」のクエリについては、映像のGPS情報(緯度・経度情報)で対応できる。「もの(What)」のクエリについては、既存の物体検出を用いて取得できる情報で対応できる。その一方で、「どのような(How)」のクエリについては、既存の技術で取得できる情報では対応が難しい。
 これに対し、上述した変形例に係る形状認識システム20によれば、映像データから認識した物体の形状に関する情報で「どのような(How)」のクエリに対応することが可能となる。具体的には、ユーザから物体の形状に関する指定を受け付け、映像データを構成する複数の画像データの中から、指定された形状の物体が含まれる画像を検索して出力するようにすればよい。この場合、ユーザからの形状の指定は、例えば入力装置15(図1参照)を用いて行われてもよい。また、検索した画像の出力は、例えば出力装置16(図1参照)を用いて行われてもよい。このようにすれば、例えば、「去年の8月に京都で見た丸い車」のような検索クエリに対して、「丸い」形状を有する物体を抽出して対応することができる。このように、変形例に係る形状認識システム20は、映像データの自由テキストクエリ検索において、極めて有益な効果を奏することが考えられる。
 <付記>
 以上説明した実施形態に関して、更に以下の付記を開示する。
 (付記1)
 付記1に記載のモデル生成システムは、対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成する生成手段とを備えることを特徴とするモデル生成システムである。
 (付記2)
 付記2に記載のモデル生成システムは、前記抽出手段は、対象画像を複数の単位領域ごとに処理して前記物体領域部分を抽出することを特徴とする付記1に記載のモデル生成システムである。
 (付記3)
 付記3に記載のモデル生成システムは、前記対象画像から前記物体が含まれる矩形領域を抽出する第2の抽出手段を更に備え、前記抽出手段は、前記矩形領域から前記物体領域部分を抽出することを特徴とする付記1又は2に記載のモデル生成システムである。
 (付記4)
 付記4に記載のモデル生成システムは、前記形状分類モデルが分類する形状を指定する指定手段と、前記指定手段で指定された形状の物体を含む画像を、複数の画像の中から前記対象画像として抽出する第3の抽出手段とを更に備えることを特徴とする付記1から3のいずれか一項に記載のモデル生成システムである。
 (付記5)
 付記5に記載のモデル生成システムは、前記物体領域部分の色を検出し、前記物体領域部分に色情報を付与する色情報付与手段を更に備えることを特徴とする付記1から4のいずれか一項に記載のモデル生成システムである。
 (付記6)
 付記6に記載の形状認識システムは、対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する推定手段とを備えることを特徴とする形状認識システムである。
 (付記7)
 付記7に記載の形状認識システムは、前記抽出手段は、対象画像を複数の単位領域ごとに処理して前記物体領域部分を抽出することを特徴とする付記6に記載の形状認識システムである。
 (付記8)
 付記8に記載の形状認識システムは、前記対象画像から前記物体が含まれる矩形領域を抽出する第2の抽出手段を更に備え、前記抽出手段は、前記矩形領域から前記物体領域部分を抽出することを特徴とする付記6又は7に記載の形状認識システムである。
 (付記9)
 付記9に記載の形状認識システムは、前記物体の形状の指定を受け付ける受付手段と、前記推定手段の推定結果に基づいて、複数の前記対象画像から前記指定された形状の物体が含まれる画像を出力する出力手段とを更に備えることを特徴とする付記6から8のいずれか一項に記載の形状認識システムである。
 (付記10)
 付記10に記載の形状認識システムは、前記推定手段は、前記物体領域部分の前記物体の形状に加えて、前記物体領域部分の前記物体の色を推定することを特徴とする付記6から9のいずれか一項に記載の形状認識システムである。
 (付記11)
 付記11に記載のモデル生成方法は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成することを特徴とするモデル生成方法である。
 (付記12)
 付記12に記載の形状認識方法は、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定することを特徴とする形状認識方法である。
 (付記13)
 付記13に記載のコンピュータプログラムは、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。
 (付記14)
 付記14に記載のコンピュータプログラムは、対象画像から物体が占める領域である物体領域部分を抽出し、前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。
 本発明は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴うモデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラムもまた本発明の技術思想に含まれる。
 10 モデル生成システム
 20 形状認識システム
 110 物体領域部分抽出部
 120 モデル生成部
 130 指定画像抽出部
 140 箱領域抽出部
 150 形状推定部
 200 インスタンスセグメンテーションモデル
 300 形状分類モデル

Claims (14)

  1.  対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、
     前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成する生成手段と
     を備えることを特徴とするモデル生成システム。
  2.  前記抽出手段は、対象画像を複数の単位領域ごとに処理して前記物体領域部分を抽出することを特徴とする請求項1に記載のモデル生成システム。
  3.  前記対象画像から前記物体が含まれる矩形領域を抽出する第2の抽出手段を更に備え、
     前記抽出手段は、前記矩形領域から前記物体領域部分を抽出する
     ことを特徴とする請求項1又は2に記載のモデル生成システム。
  4.  前記形状分類モデルが分類する形状を指定する指定手段と、
     前記指定手段で指定された形状の物体を含む画像を、複数の画像の中から前記対象画像として抽出する第3の抽出手段と
     を更に備えることを特徴とする請求項1から3のいずれか一項に記載のモデル生成システム。
  5.  前記物体領域部分の色を検出し、前記物体領域部分に色情報を付与する色情報付与手段を更に備えることを特徴とする請求項1から4のいずれか一項に記載のモデル生成システム。
  6.  対象画像から物体が占める領域である物体領域部分を抽出する抽出手段と、
     前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する推定手段と
     を備えることを特徴とする形状認識システム。
  7.  前記抽出手段は、対象画像を複数の単位領域ごとに処理して前記物体領域部分を抽出することを特徴とする請求項6に記載の形状認識システム。
  8.  前記対象画像から前記物体が含まれる矩形領域を抽出する第2の抽出手段を更に備え、
     前記抽出手段は、前記矩形領域から前記物体領域部分を抽出する
     ことを特徴とする請求項6又は7に記載の形状認識システム。
  9.  前記物体の形状の指定を受け付ける受付手段と、
     前記推定手段の推定結果に基づいて、複数の前記対象画像から前記指定された形状の物体が含まれる画像を出力する出力手段と
     を更に備えることを特徴とする請求項6から8のいずれか一項に記載の形状認識システム。
  10.  前記推定手段は、前記物体領域部分の前記物体の形状に加えて、前記物体領域部分の前記物体の色を推定する
     ことを特徴とする請求項6から9のいずれか一項に記載の形状認識システム。
  11.  対象画像から物体が占める領域である物体領域部分を抽出し、
     前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成する
     ことを特徴とするモデル生成方法。
  12.  対象画像から物体が占める領域である物体領域部分を抽出し、
     前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する
     ことを特徴とする形状認識方法。
  13.  対象画像から物体が占める領域である物体領域部分を抽出し、
     前記物体領域部分を入力として機械学習を実行し、前記物体の形状を分類するための形状分類モデルを生成する
     ようにコンピュータを動作させることを特徴とするコンピュータプログラム。
  14.  対象画像から物体が占める領域である物体領域部分を抽出し、
     前記物体の形状を分類するための形状分類モデルを用いて、前記物体領域部分の前記物体の形状を推定する
     ようにコンピュータを動作させることを特徴とするコンピュータプログラム。
PCT/JP2020/017739 2020-04-24 2020-04-24 モデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラム WO2021214991A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/017739 WO2021214991A1 (ja) 2020-04-24 2020-04-24 モデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラム
JP2022516804A JPWO2021214991A1 (ja) 2020-04-24 2020-04-24
US17/919,779 US20230177797A1 (en) 2020-04-24 2020-04-24 Model generation system, shape recognition system, model generation method, shaperecognition method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/017739 WO2021214991A1 (ja) 2020-04-24 2020-04-24 モデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
WO2021214991A1 true WO2021214991A1 (ja) 2021-10-28

Family

ID=78270636

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/017739 WO2021214991A1 (ja) 2020-04-24 2020-04-24 モデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US20230177797A1 (ja)
JP (1) JPWO2021214991A1 (ja)
WO (1) WO2021214991A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019095827A (ja) * 2017-11-17 2019-06-20 日本電気株式会社 情報処理システム、情報処理方法及びプログラム
JP2019220116A (ja) * 2018-06-22 2019-12-26 日立造船株式会社 情報処理装置、判定方法、および対象物判定プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019095827A (ja) * 2017-11-17 2019-06-20 日本電気株式会社 情報処理システム、情報処理方法及びプログラム
JP2019220116A (ja) * 2018-06-22 2019-12-26 日立造船株式会社 情報処理装置、判定方法、および対象物判定プログラム

Also Published As

Publication number Publication date
US20230177797A1 (en) 2023-06-08
JPWO2021214991A1 (ja) 2021-10-28

Similar Documents

Publication Publication Date Title
CN112434721B (zh) 一种基于小样本学习的图像分类方法、系统、存储介质及终端
Dvornik et al. On the importance of visual context for data augmentation in scene understanding
US20190279014A1 (en) Method and apparatus for detecting object keypoint, and electronic device
US10565703B2 (en) Image inspection device, image inspection method, and image inspection program
CN109447958B (zh) 图像处理方法、装置、存储介质及计算机设备
CN101097564A (zh) 参数学习方法及设备、模式识别方法及设备
CN110175609B (zh) 界面元素检测方法、装置及设备
CN110210480B (zh) 文字识别方法、装置、电子设备和计算机可读存储介质
US9165220B2 (en) Image object recognition based on a feature vector with context information
CN109409388B (zh) 一种基于图形基元的双模深度学习描述子构造方法
US10937150B2 (en) Systems and methods of feature correspondence analysis
US10657672B2 (en) Image processing device, image processing method and storage medium
US11314991B2 (en) Information display method, information display system, and storage medium
Tan et al. Distinctive accuracy measurement of binary descriptors in mobile augmented reality
JP6623851B2 (ja) 学習方法、情報処理装置および学習プログラム
Gupta et al. Automated valve detection in piping and instrumentation (P&ID) diagrams
WO2021214991A1 (ja) モデル生成システム、形状認識システム、モデル生成方法、形状認識方法、及びコンピュータプログラム
CN111222558B (zh) 图像处理方法及存储介质
US9384729B2 (en) Method and system for detecting boundary of coarticulated units from isolated speech
Lindstedt et al. Simple agglomerative visual grouping for ACT-R
US11127158B2 (en) Image indexing and retrieval using local image patches for object three-dimensional pose estimation
CN111753919A (zh) 一种基于对抗网络的图像设计作品抄袭检测方法
Chu et al. Automated GUI testing for android news applications
EP3477434A1 (en) Information processing device, information processing method, and program
CN115049899B (zh) 模型训练方法、指代表达式生成方法及相关设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20931999

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022516804

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20931999

Country of ref document: EP

Kind code of ref document: A1