WO2021241266A1 - 画像処理装置および方法 - Google Patents

画像処理装置および方法 Download PDF

Info

Publication number
WO2021241266A1
WO2021241266A1 PCT/JP2021/018356 JP2021018356W WO2021241266A1 WO 2021241266 A1 WO2021241266 A1 WO 2021241266A1 JP 2021018356 W JP2021018356 W JP 2021018356W WO 2021241266 A1 WO2021241266 A1 WO 2021241266A1
Authority
WO
WIPO (PCT)
Prior art keywords
clustering
image
unit
local
pixels
Prior art date
Application number
PCT/JP2021/018356
Other languages
English (en)
French (fr)
Inventor
優介 森内
憲一郎 中村
基 三原
貴之 佐々木
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2022526888A priority Critical patent/JPWO2021241266A1/ja
Priority to CN202180037062.8A priority patent/CN115668295A/zh
Priority to US17/918,500 priority patent/US20230141005A1/en
Publication of WO2021241266A1 publication Critical patent/WO2021241266A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions

Definitions

  • the present disclosure relates to an image processing apparatus and method, and more particularly to an image processing apparatus and method capable of suppressing an increase in processing time for image clustering.
  • Patent Document 1 discloses a method of performing clustering on an image, performing pixel interpolation using the class data, and restoring thinned pixels.
  • the present disclosure has been made in view of such a situation, and is intended to suppress an increase in the processing time of image clustering.
  • the image processing device of one aspect of the present technology complements a clustering unit that clusters sparse pixels contained in an image and sparse information obtained by the clustering by the clustering unit by image filtering using an image signal as a guide.
  • This is an image processing apparatus including a complementary processing unit for deriving a dense clustering result.
  • the image processing method of one aspect of the present technology clusters sparse pixels contained in an image, and complements the sparse information obtained by the clustering by image filtering using an image signal as a guide for dense clustering. It is an image processing method that derives the result.
  • the image processing apparatus of another aspect of the present technology is clustering of dense pixels included in a local region of the image by using information obtained in wide area clustering, which is clustering of sparse pixels included in a wide area of an image. It is an image processing apparatus including a clustering unit that performs local clustering.
  • Another aspect of the image processing method of the present technology is clustering of dense pixels contained in a local region of the image using information obtained in wide area clustering, which is clustering of sparse pixels contained in a wide area of the image. This is an image processing method that performs local clustering.
  • clustering of sparse pixels included in an image is performed, and the sparse information obtained by the clustering is complemented by image filtering guided by an image signal. Derives a dense clustering result.
  • wide area clustering which is clustering of sparse pixels contained in a wide area of an image
  • dense pixels contained in a local region of the image are used.
  • Local clustering which is the clustering of the above, is performed.
  • Patent Document 1 discloses a method of performing clustering on an image, performing pixel interpolation using the class data, and restoring thinned pixels.
  • image clustering is used when a field is imaged multiple times from the sky while moving by a so-called drone or an airplane, and vegetation analysis (vegetation and soil classification, etc.) is performed using the captured images.
  • vegetation analysis vegetable and soil classification, etc.
  • ⁇ Sparse clustering and image filtering> Therefore, clustering of sparse pixels included in the image is performed, and the sparse information obtained by the clustering is complemented by image filtering using the image signal as a guide to derive a dense clustering result.
  • the information for performing this image filtering may be, for example, a learning model coefficient, a clustering result, or the like.
  • “Complementation" by this image filtering means that not only information interpolation (filling in missing data) but also optimization according to the image structure is performed as appropriate. That is, this image filtering yields optimized, dense clustering results.
  • FIG. 1 is a block diagram showing an example of the configuration of an image processing apparatus to which the present technology is applied.
  • the image processing device 100 shown in FIG. 1 is a device that performs image clustering.
  • the image processing device 100 takes the captured image 20 as an input, performs image clustering on the captured image 20, and outputs the clustering result 30.
  • the captured image 20 may be, for example, a stitching image in which a plurality of captured images (P1 to Pn) are bonded together. Further, it may be a moving image composed of a plurality of frame images. Further, it may be a file (captured image group) in which a plurality of captured images are combined into one, or it may be a single captured image. Of course, it may be an image other than the captured image (for example, a CG image). Further, the captured image 20 may be an image in the wavelength range of visible light (RGB), or may be an image of the wavelength range of invisible light such as near-infrared light. It may also be both of them.
  • RGB wavelength range of visible light
  • invisible light such as near-infrared light
  • FIG. 1 shows the main things such as the processing unit and the data flow, and not all of them are shown in FIG. That is, in the image processing apparatus 100, there may be a processing unit that is not shown as a block in FIG. 1, or there may be a process or data flow that is not shown as an arrow or the like in FIG.
  • the image processing apparatus 100 includes a sampling pixel selection unit 111, a clustering unit 112, and a complement processing unit 113.
  • the sampling pixel selection unit 111 performs processing related to selection of sampling pixels that are target pixels for clustering. For example, the sampling pixel selection unit 111 acquires the captured image 20. Further, the sampling pixel selection unit 111 selects a part of the pixels of the captured image 20 as sampling pixels. At that time, the sampling pixel selection unit 111 selects the sampling pixels so as to be in a sparse state.
  • the "sparse state” is a state of a pixel group (or information corresponding to the pixel group) composed of some pixels of the captured image, and at least less pixels than the "dense state” described later. Indicates the state of a pixel group (or information corresponding to the pixel group) composed of. For example, a pixel group (or information corresponding to the pixel group) composed of pixels having a positional relationship not adjacent to each other may be set as a “sparse state”. That is, in the case of sampling pixels, sampling pixels in which only pixels having a positional relationship not adjacent to each other in the captured image 20 are selected may be used as sampling pixels in a sparse state (also referred to as sparse sampling pixels).
  • a pixel group (or information corresponding to the pixel group) selected from a predetermined image at a ratio (number) smaller than a predetermined threshold value may be set as a “sparse state”. That is, in the case of sampling pixels, sampling pixels selected at a ratio (number) smaller than a predetermined threshold value with respect to the number of pixels of the captured image 20 may be used as sparse sampling pixels.
  • the sampling pixel selection unit 111 supplies the selected sparse sampling pixels to the clustering unit 112.
  • the clustering unit 112 performs processing related to clustering. For example, the clustering unit 112 acquires sparse sampling pixels supplied from the sampling pixel selection unit 111. The clustering unit 112 performs clustering on the acquired sparse sampling pixels as a processing target. This clustering method is arbitrary. For example, GMM, k-means method, etc. may be applied. The clustering unit 112 supplies the sparse information obtained by this clustering to the complementary processing unit 113.
  • This sparse information is information corresponding to each sampling pixel (that is, in a sparse state) obtained by clustering of sparse sampling pixels.
  • it may be a learning model coefficient, a clustering result, or both.
  • Complementary processing unit 113 performs processing related to complementation of sparse information. For example, the complement processing unit 113 acquires sparse information (learning model coefficients, clustering results, etc.) supplied from the clustering unit 112. Further, the complement processing unit 113 acquires the captured image 20.
  • sparse information learning model coefficients, clustering results, etc.
  • the captured image 20 may be the same as the captured image supplied to the sampling pixel selection unit 111 (that is, the captured image to be clustered), or has substantially the same time and range as the clustered captured image.
  • the captured image may be different from the clustered captured image. For example, it may be another captured image obtained by another imaging at substantially the same time and at substantially the same angle of view as the imaging for obtaining the clustered captured image.
  • the captured image 20 in the wavelength range of visible light (RGB) is supplied to the sampling pixel selection unit 111, and the captured image 20 that images the wavelength range of invisible light such as near infrared light is supplied to the complementary processing unit 113. It may be done.
  • the complement processing unit 113 performs image filtering (complementary processing) using the image signal (acquired captured image 20) as a guide for the sparse information acquired from the clustering unit 112, and derives a clustering result in a dense state. ..
  • the "dense state” is a state of a pixel group (or information corresponding to the pixel group) composed of a part or all pixels of the captured image, and is at least higher than the above-mentioned "dense state".
  • the state of a pixel group (or information corresponding to the pixel group) composed of a large number of pixels is shown.
  • a pixel group (or information corresponding to the pixel group) including pixels in a positional relationship adjacent to each other may be set as a “dense state”. That is, in the case of the clustering result, the clustering result of the sampling pixels including the pixels having a positional relationship adjacent to each other in the captured image 20 may be set as a dense state (also referred to as a dense subclustering result).
  • a pixel group (or information corresponding to the pixel group) selected from a predetermined image at a ratio (number) equal to or higher than a predetermined threshold value may be set as a “dense state”. That is, in the case of the clustering result, the clustering result of the sampling pixels selected at a ratio (number) equal to or more than a predetermined threshold value with respect to the number of pixels of the captured image 20 may be used as a dense clustering result.
  • the complement processing unit 113 takes the likelihood (likelihood image) of each pixel for each class as an input, sequentially applies image filtering using the original image as a guide, complements the image, and starts from the filtered likelihood image. , Get dense clustering results by redetermining the class.
  • image filtering regularization along the geometric structure of the guide image can be reflected in the clustering result, so that the complement processing unit 113 can be used for an image with a large change in the lighting environment outdoors, or in the same subject due to cast shadow or shading. Even if the image has uneven signal distribution in, it is possible to obtain the result classified by subject for each subject. For example, it is possible to suppress the occurrence of a phenomenon in which a part of the same color portion of the same subject is shaded and is classified into another class due to the difference in brightness.
  • the complement processing unit 113 outputs the clustering result 30 (dense clustering result) obtained by the complement processing to the outside of the image processing device 100 as an image processing result by the image processing device 100.
  • Image filtering This image filtering (complementary processing) method is arbitrary. Image filtering is faster than predicted for all pixels by using fast-moving edge-preserving filtering such as Fast Global Smother filtering, Domain Transform filtering, Fast Bilateral Solver filtering, or Domain Transform Solver filtering. Moreover, it is possible to obtain a clustering result that is robust against noise and disturbance influences.
  • the complement processing unit 113 minimizes the energy of the clustering result by GrabCut described in Jianbo Li, et.al, "KM_GrabCut: a fast interactive image segmentation algorithm", ICGIP2014. (Also referred to as Non-Patent Document 1).
  • Information may be densified by using the FGS filter described in et.al, "Fast Global Image Smoothing Based on Weighted Least Squares", IEEE TIP2014. (Also referred to as Non-Patent Document 3).
  • FGWLS Frest Global Weighted Least Squares Filter
  • Z Farbman et Al.
  • WLS Weighted Least Squares Filter
  • (4) is decomposed into a one-dimensional recursive filter and repeatedly applied in the x and y axis directions to obtain an overall optimum solution in a constant time operation.
  • sparse data is expanded and densified according to the image structure such as texture and edge (according to the adjacency relationship between pixels obtained based on the structure).
  • the pixels of the first color region 131 shown by the diagonal line pattern and the pixel of the first color region 131 shown by the mesh pattern are shown by the mesh pattern, using the image 130 composed of the gray and white spiral pattern as a guide. It is assumed that the image filtering as described above is performed on the pixels of the region 132 of the two colors.
  • the first color region 131 is located in the gray region of the image 130.
  • the second color region 132 is located in the white region of the image 130.
  • the region 131 of the first color becomes gray in the image 130 as shown in B of FIG. 2, C of FIG. 2, and D of FIG. Expand in the area.
  • the second color region 132 expands in the white region of the image 130.
  • the region on the image 130 is filled with the region 131 of the first color and the region 132 of the second color. That is, the region 131 of the first color and the region 132 of the second color, which were in a sparse state in A of FIG. 2 (which was a small part in the region on the image 130), are shown in FIG.
  • a dense state (a state in which the area on the image 130 is filled) is obtained.
  • the image processing apparatus 100 can obtain more accurate clustering results.
  • "complementation" by this filtering means that not only information interpolation (filling in missing data) but also optimization according to the image structure is appropriately performed. That is, this image filtering yields optimized, dense clustering results. Therefore, the image processing apparatus 100 can obtain more accurate clustering results.
  • image filtering can be performed on Eduardo SL Gastal and Manuel M Oliveira, "Domain transform for edge-aware image and video processing", In ACM Transactions on Graphics (TOG), volume 30, page 69. ACM, 2011.
  • (Also referred to as Non-Patent Document 5) Jonathan T Barron and Ben Poole, "The Fast Bilateral Solver", In European Conference on Computer Vision (ECCV), pages 617-632. Springer International Publishing, 2016.
  • Non-Patent Document 6 Akash Bapat, Jan-Michael Frahm, "The Domain Transform Solver", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 6014-6023.
  • Non-Patent Document 7 (Also referred to as Non-Patent Document 7), etc. Rule-based filtering may be applied.
  • Hang Su Valun Jampani, Deqing Sun, Orazio Gallo, Erik Learned-Miller, Jan Kautz, "Pixel-Adaptive Convolutional Neural Networks", Proceedings of the IEEE Conference on Computer Vision 2019 (Also referred to as Patent Document 8), Yu-Kai Huang, Tsuung-Han Wu, Yueh-Cheng Liu, Winston H. Hsu, "Indoor Depth Completion with Boundary Consistency and Self-Attention", (ICCV), 2019.
  • the clustering unit 112 performs clustering as described above, and supplies sparse information (model coefficients, clustering results, etc.) to the complementary processing unit 113.
  • FIG. 3 is a diagram showing an example of the result of visualizing a part of the model coefficient.
  • the complement processing unit 113 is supplied with the sparse model coefficient 141 as shown in A of FIG. 3 from the clustering unit 112.
  • the model coefficient 142 of B in FIG. 3 is an enlargement of a part of the model coefficient 141 of A in FIG.
  • the gray point cloud shown in the model coefficient 142 indicates the model coefficient of the pixel at that position.
  • the model coefficient 141 is composed of sparse information (model coefficients of some pixels).
  • C in FIG. 3 is a diagram schematically showing the structure of such a sparse model coefficient 141.
  • the square shown in gray indicates the pixel in which the model coefficient exists.
  • the model coefficient 141 is composed of a model coefficient 144 for one pixel provided for each region 143 of a predetermined size. For example, assuming that the area 143 is 4x4 pixels, the amount of data of the model coefficient 141 is 1/16 of the dense case (model coefficient of all pixels).
  • the complement processing unit 113 performs image filtering using the image signal as a guide.
  • FIG. 4 is a diagram showing an example of a part of the image used as the guide.
  • the complement processing unit 113 performs image filtering on the sparse model coefficient 141 using the image 151 (A in FIG. 4) included in the captured image 20 as a guide.
  • the image 152 shown in B of FIG. 4 is an enlargement of a part of the image 151.
  • FIG. 5 is a diagram showing an example of the result of visualizing a part of the model coefficients obtained by the image filtering.
  • a model coefficient 161 as shown in A of FIG. 5 can be obtained.
  • the model coefficient 162 shown in FIG. 5B is an enlargement of a part of the model coefficient 161.
  • the model coefficient 162 that is, the model coefficient 161 is in a dense state.
  • C in FIG. 5 is a diagram schematically showing the structure of such a model coefficient 161.
  • the square shown in gray indicates the pixel in which the model coefficient exists. That is, in the case of this example, the model coefficient 161 is composed of the model coefficients of all pixels. For example, assuming that the area 163 has 4x4 pixels, each area 163 has a model coefficient 164 for 16 pixels. Therefore, the amount of data of the model coefficient 161 (A in FIG. 5) is 16 times the amount of data of the model coefficient 141 (A in FIG. 3).
  • the clustering result 171 shown in A of FIG. 6 shows an example of the clustering result derived by using such a dense model coefficient 161.
  • the clustering result 172 shown in FIG. 6B is an enlargement of a part of the clustering result 171.
  • the total processing time is about one-third to one-fourth of the case where the dense model coefficient 161 is obtained by clustering. That is, as described above, by applying sparse clustering and image filtering, the image processing apparatus 100 can obtain a dense clustering result at a higher speed. That is, it is possible to suppress an increase in processing time.
  • step S102 the sampling pixel selection unit 111 selects and determines sparse sampling pixels from the captured image acquired in step S101.
  • step S103 the clustering unit 112 performs clustering on the sparse sampling pixels determined in step S102.
  • step S104 the complementary processing unit 113 acquires the captured image 20 and uses the captured image 20 as a guide to perform image filtering on the sparse information (learning model coefficient and clustering result) obtained by the processing in step S103. This is done, and the sparse information is complemented to derive a dense clustering result.
  • step S105 the complement processing unit 113 outputs the dense clustering result obtained by the processing of step S104 as the clustering result 30.
  • the clustering process is completed.
  • the image processing apparatus 100 can suppress an increase in the processing time for image clustering.
  • ⁇ Use of field information> For example, when analyzing vegetation (classification of vegetation and soil, etc.) for a field, there is a method of clustering a stitching image in which a plurality of captured images of the field are imaged from the sky. In such a case, clustering of the area other than the field among the areas included in the stitching image is unnecessary. However, in general, it is difficult to perform imaging according to the range of the field and control so as not to image the outside of the field, and the stitching image in which the captured images are bonded includes the area outside the field. .. Therefore, when clustering is performed on the entire stitching image, clustering is also performed on the area outside the field, so that unnecessary processing may unnecessarily increase the processing time.
  • the field information is information about the field, and is, for example, information indicating the range of the field which is a target area for image clustering. Therefore, using such field information, the area of the field included in the captured image is specified, and the sampling pixel is selected only in the specified field. By doing so, it is possible to suppress an increase in unnecessary clustering and suppress an increase in unnecessary processing time.
  • FIG. 8 is a block diagram showing a main configuration example of the image processing apparatus 100 in this case.
  • the captured image 20 is a stitching image in which a plurality of captured images of a field to be processed for clustering are imaged from the sky.
  • the image processing apparatus 100 has a field area storage unit 201 in addition to the configuration shown in FIG.
  • the field area storage unit 201 has a storage medium, and stores information indicating an area (field area) of the field to be processed in the storage medium (storage area).
  • the information indicating this field area may be any information.
  • it may be information indicating a field area using coordinate information (also referred to as GPS coordinate information) based on GPS (Global Positioning System) or the like, or indicates which pixel of the captured image 20 is in the field area. It may be information or may be other than these.
  • the field area storage unit 201 uses, for example, information indicating a field area stored in (a storage area) of its own storage medium as field information in response to a request from the sampling pixel selection unit 111, as a sampling pixel selection unit. Supply to 111.
  • the sampling pixel selection unit 111 acquires the field information and specifies the field area included in the captured image 20 based on the field information. For example, in the case of field information indicating a field area using GPS coordinate information, the sampling pixel selection unit 111 compares it with the GPS coordinate information indicating the imaging range of the captured image 20 included in the metadata of the captured image or the like. , The corresponding pixel is specified in the field area of the captured image 20.
  • the field area 211 which is a part of the captured image as shown in A of FIG. 9 is the processing target.
  • the field area storage unit 201 stores information indicating the field area 211, and supplies the field information to the sampling pixel selection unit 111.
  • the sampling pixel selection unit 111 selects sampling pixels in the field area 211 based on the field information, and omits selection of sampling pixels in areas other than the field area 211, as shown in FIG. 9B.
  • the sampling pixel selection method is the same as in FIG. 1. That is, the sampling pixel selection unit 111 selects sparse sampling pixels in the field region 211 indicated by the field information and supplies them to the clustering unit 112.
  • the sampling pixels to be processed by the clustering unit 112 are composed of only the pixels in the field area. That is, it is possible to prevent the clustering unit 112 and the complementary processing unit 113 from processing pixels outside the field area. Therefore, the image processing apparatus 100 can suppress an increase in unnecessary clustering and suppress an increase in unnecessary processing time.
  • the sampling pixel selection unit 111 acquires the captured image 20 in step S121. Further, the sampling pixel selection unit 111 acquires field information from the field area storage unit 201.
  • step S122 the sampling pixel selection unit 111 selects and determines sparse sampling pixels from the field area included in the captured image acquired in step S121 based on the field information.
  • Each process of steps S123 to S125 is executed in the same manner as each process of steps S103 to S105 (FIG. 7).
  • the clustering process is completed.
  • the image processing apparatus 100 can suppress an increase in the processing time for image clustering.
  • ⁇ Use of stitching information> For example, when a plurality of captured images obtained by capturing a part of a field as described above are bonded together to generate a stitching image including the entire field, the regions of the captured images generally include a portion overlapping with each other. In other words, it is generally difficult to control imaging so that regions of each captured image do not overlap each other.
  • the sampling pixels are selected independently of each other in each captured image, the pixels in the region where the plurality of captured images are superimposed may be selected as the sampling pixels for each of the plurality of captured images. That is, in a plurality of captured images, pixels at the same positions as each other may be selected as sampling pixels. If a plurality of sampling pixels at the same position are generated in this way, clustering will be performed a plurality of times for one position. Therefore, such redundant processing may unnecessarily increase the processing time.
  • the stitching image is generated by selecting one of the captured images for the region where the plurality of captured images are superimposed and joining the captured images in a state where the plurality of captured images are not superimposed. That is, in each captured image, a stitching bonding area is set so as not to overlap with another captured image, and the stitching bonding areas of the captured images are bonded to each other to generate a stitching image.
  • pixels in such a region may be selected as sampling pixels.
  • clustering may be performed even for pixels in a region that does not need to be clustered, and unnecessary processing may unnecessarily increase the processing time.
  • the above-mentioned stitching bonding area can be set so as not to include such an unnecessary area. Therefore, by pasting the stitching stitching regions of each captured image, it is possible to generate a stitching image that does not include the region that is not the target of clustering processing.
  • sampling pixels are selected in the region where a plurality of captured images are superimposed. That is, in the region where a plurality of captured images are superimposed, sampling pixels are selected only in any one captured image. In addition, the sampling pixels are selected so as not to include the pixels in the region that is not the target of clustering.
  • the stitching information is information including information indicating such a stitching bonding area of each captured image. That is, the stitching information includes information on overlapping of captured images and a region to be processed for clustering. Therefore, using such stitching information, a stitching bonding area is specified, and sampling pixels are selected only within the specified stitching bonding area. By doing so, it is possible to suppress an increase in redundant clustering and unnecessary clustering, and suppress an increase in unnecessary processing time.
  • FIG. 11 is a block diagram showing a main configuration example of the image processing apparatus 100 in this case.
  • the captured image 20 is a stitching image in which a plurality of captured images of a field to be processed for clustering are imaged from the sky.
  • the image processing apparatus 100 has a stitching information storage unit 231 in addition to the configuration shown in FIG.
  • the stitching information storage unit 231 has a storage medium, and stores stitching information including information indicating a stitching bonding area of each captured image in the storage medium (storage area).
  • the information indicating the stitching bonding area may be any information.
  • the information may be information indicating the stitching bonding area using GPS coordinate information, or may be information indicating the stitching bonding area using the coordinate information in the captured image.
  • the stitching information storage unit 231 supplies the stitching information stored in (the storage area of) its own storage medium to the sampling pixel selection unit 111, for example, in response to a request from the sampling pixel selection unit 111.
  • the sampling pixel selection unit 111 acquires the stitching information and specifies the stitching bonding area of each captured image based on the stitching information. For example, as shown in FIG. 12A, when a sampling pixel is selected in the captured image 241 used for generating the stitching image 240, the sampling pixel selection unit 111 (imaging the periphery thereof) is based on the stitching information. (Considering the overlap with the image 242 and the captured image 243), a stitching bonding area such as the shaded area shown in FIG. 12B is specified, and sampling pixels are selected in the stitching bonding area.
  • the region where the captured image 241 and the captured image 242 overlap each other is the stitching bonding region of the captured image 242. Therefore, in the processing for the captured image 242, the sampling pixels are selected. Will be. Similarly, since the region where the captured image 241 and the captured image 243 overlap each other is the stitching bonding region of the captured image 243, sampling pixels are selected in the processing for the captured image 243.
  • the sampling pixel selection unit 111 is based on the stitching information (as a target of clustering). In consideration of the area), a stitching bonding area such as the shaded area shown in FIG. 12C is specified, and sampling pixels are selected in the stitching bonding area.
  • the region outside the stitching image 240 of the captured image 244 is defined as the outside of the stitching bonding region. That is, the region of the captured image 244 in the stitching image 240 is defined as the stitching bonding region.
  • the sampling pixel selection method is the same as in FIG. 1. That is, the sampling pixel selection unit 111 selects sparse sampling pixels in the stitching bonding region indicated by the stitching information and supplies them to the clustering unit 112.
  • the image processing apparatus 100 can suppress that clustering is performed a plurality of times for one position and that clustering of unnecessary regions is performed. That is, the image processing apparatus 100 can suppress an increase in redundant clustering and unnecessary clustering, and can suppress an increase in unnecessary processing time.
  • the sampling pixel selection unit 111 acquires the captured image 20 in step S141. Further, the sampling pixel selection unit 111 acquires stitching information from the stitching information storage unit 231.
  • step S142 the sampling pixel selection unit 111 selects and determines sparse sampling pixels from the stitching bonding region of the captured image acquired in step S141 based on the stitching information.
  • Each process of steps S143 to S145 is executed in the same manner as each process of steps S103 to S105 (FIG. 7).
  • the clustering process is completed.
  • the image processing apparatus 100 can suppress an increase in the processing time for image clustering.
  • the corners and edges of the captured image are portions where pixels of different classes are in contact with each other, and it is difficult to determine from which adjacent pixel the color can be propagated. That is, the flat region has higher clustering accuracy than the corners and edges.
  • the sampling pixels are selected in the flat region so that the pixels in the flat region can be clustered. That is, the flat region of the captured image is specified by using the flat region information which is the information about the flat region, and the sampling pixel is selected in the flat region. By doing so, more accurate clustering results can be obtained.
  • FIG. 14 is a block diagram showing a main configuration example of the image processing apparatus 100 in this case. As shown in FIG. 14, in this case, the image processing apparatus 100 has a flat region detection unit 261 in addition to the configuration shown in FIG.
  • the flat area detection unit 261 performs processing related to detection of a flat area. For example, the flat region detection unit 261 acquires the captured image 20.
  • the captured image 20 is the same as the captured image supplied to the sampling pixel selection unit 111 (that is, the captured image to be clustered) and the captured image supplied to the complement processing unit 113 (that is, the captured image used as a guide). It may be a captured image that is different from the clustered captured image or the captured image used as the guide at substantially the same time and in the same range as the clustered captured image or the captured image used as the guide. You may. For example, it may be another captured image obtained by another imaging at substantially the same time and an angle of view as the imaging for obtaining a clustered captured image or a captured image used as a guide.
  • the captured image 20 in the wavelength range of visible light is supplied to the sampling pixel selection unit 111 and the complementary processing unit 113, and the captured image 20 that images the wavelength range of invisible light such as near infrared light is flat. It may be supplied to the area detection unit 261.
  • the flat area detection unit 261 detects the flat area of the captured image. Further, the flat area detection unit 261 supplies the flat area information, which is information indicating the detected flat area, to the sampling pixel selection unit 111.
  • the sampling pixel selection unit 111 acquires the flat area information and selects sampling pixels in the flat area included in the captured image 20 based on the flat area information. In this case as well, the sampling pixel selection method is the same as in FIG. 1. That is, the sampling pixel selection unit 111 selects sparse sampling pixels in the flat region and supplies them to the clustering unit 112.
  • the image processing apparatus 100 can obtain more accurate clustering results.
  • step S162 the flat region detection unit 261 acquires the captured image 20 and detects the flat region of the captured image 20.
  • step S163 the sampling pixel selection unit 111 selects and determines sparse sampling pixels from the flat region detected in step S162 of the captured image acquired in step S161.
  • Each process of steps S164 to S166 is executed in the same manner as each process of steps S103 to S105 (FIG. 7).
  • the clustering process is completed.
  • the image processing apparatus 100 can obtain a more accurate clustering result.
  • the image processing apparatus 100 selects sampling pixels using any of auxiliary information, stitching information, and flat area information, but the present invention is not limited to this, and the image processing apparatus 100 is not limited to this.
  • sampling pixels may be selected using at least two or more of the field information, stitching information, and flat area information. By doing so, the effect when each information is used can be obtained.
  • the image processing apparatus 100 may select sampling pixels by using information other than those described above in addition to any one or more of these information.
  • Second Embodiment> ⁇ Wide area clustering and sparse local clustering>
  • local clustering which is the clustering of pixels in a local area (also referred to as a local area)
  • wide area clustering which is the clustering of sparse pixels in a wide area (also referred to as a global area). You may do so.
  • clustering is performed on a stitching image 270 (captured image of the entire field) in which a plurality of captured images 271 (stitching bonded regions) obtained by imaging the field are bonded together, and the clustering is performed.
  • a stitching image 270 captured image of the entire field
  • a plurality of captured images 271 switching bonded regions obtained by imaging the field are bonded together
  • the entire field (entire stitching image 270) is set as a wide area, and as pre-learning, wide area clustering is performed for that wide area (that is, the entire stitching image 270).
  • wide area that is, the entire stitching image 270.
  • sparse wide area sampling pixels 272 (white circles in the figure) are selected as wide area sampling pixels that are sampling pixels to be targeted for wide area clustering.
  • clustering of the wide area sampling pixels 272 that is, wide area clustering
  • each captured image 271 (frame image) is set as a local region, and as additional learning, local clustering for each captured image 271 is performed using information obtained by wide area clustering (for example, learning model, clustering result, etc.). conduct.
  • wide area clustering for example, learning model, clustering result, etc.
  • the local sampling pixel is selected from the captured image 271A as the local sampling pixel which is the sampling pixel to be the target of the local clustering. Then, the local sampling pixels are clustered (that is, local clustering).
  • the captured image 271A it is also local from the captured image around the captured image 271A to be processed (for example, the captured image 271B processed immediately before the captured image 271A, the captured image 271C processed one after the captured image 271A, and the like).
  • the sampling pixel may be selected.
  • this additional learning is performed by using the information obtained by the additional learning of the previous captured image (that is, the information obtained by the local clustering of the captured image 271B (for example, the learning model, the clustering result, etc.)). It may be done (that is, it may be sequential learning).
  • the present technique described in the first embodiment is applied.
  • the sparse information obtained by the clustering for example, a training model or clustering result
  • image filtering guided by an image signal This leads to a dense clustering result.
  • FIG. 17 is a block diagram showing a main configuration example of the image processing device in that case.
  • the image processing device 300 shown in FIG. 17 is a device that performs image clustering, similar to the image processing device 100. That is, the image processing device 300 takes the captured image 20 as an input, performs image clustering on the captured image 20, and outputs the clustering result 30.
  • the captured image 20 may be, for example, a stitching image in which a plurality of captured images (P1 to Pn) are laminated. Further, it may be a moving image composed of a plurality of frame images. Further, it may be a file (captured image group) in which a plurality of captured images are combined into one, or it may be a single captured image. Of course, it may be an image other than the captured image (for example, a CG image). Further, the captured image 20 may be an image in the wavelength range of visible light (RGB), or may be an image of the wavelength range of invisible light such as near-infrared light. It may also be both of them.
  • RGB wavelength range of visible light
  • invisible light such as near-infrared light
  • the captured image 20 will be described as corresponding to the stitching image 270 corresponding to the entire field in which the captured images 271 obtained by capturing a part of the field as in the example of FIG. 16 are laminated. Further, a wide area (global area) will be described as the entire stitching image 270, and a local area (local area) will be described as each captured image 271 (captured image for one frame).
  • FIG. 17 shows the main things such as the processing unit and the data flow, and not all of them are shown in FIG. That is, in the image processing apparatus 300, there may be a processing unit that is not shown as a block in FIG. 17, or there may be a process or data flow that is not shown as an arrow or the like in FIG.
  • the image processing device 300 has a pre-learning unit 311, an additional learning unit 312, and a coefficient storage unit 313.
  • the pre-learning unit 311 performs image clustering (wide area clustering) for a wide area (for example, the entire captured image 20) as pre-learning. At that time, the pre-learning unit 311 performs wide area clustering for sparse pixels.
  • the pre-learning unit 311 has a sampling pixel selection unit 321 and a clustering unit 322.
  • the sampling pixel selection unit 321 performs a process related to selection of a wide area sampling pixel which is a target pixel of wide area clustering. For example, the sampling pixel selection unit 321 acquires the captured image 20. Further, the sampling pixel selection unit 321 selects wide-area sampling pixels from the captured image 20 so as to be in a sparse state.
  • the sampling pixel selection unit 321 supplies the selected sparse wide area sampling pixels to the clustering unit 322.
  • the clustering unit 322 performs processing related to wide area clustering. For example, the clustering unit 322 acquires sparse wide area sampling pixels supplied from the sampling pixel selection unit 321. The clustering unit 322 performs wide area clustering (pre-learning) on the acquired sparse wide area sampling pixels as a processing target.
  • This method of wide area clustering is arbitrary. For example, GMM (Gaussian Mixture Model), k-means method, etc. may be applied to this pre-learning.
  • the clustering unit 322 supplies the information obtained by this pre-learning (wide area clustering), for example, the model coefficient of the pre-learning, the wide area clustering result, and the like to the coefficient storage unit 313.
  • the additional learning unit 312 uses the information obtained by wide area clustering as the initial value as the additional learning performed by using the information obtained by the pre-learning as the initial value, and describes the local region (for example, each captured image pasted together). Perform image clustering (local clustering). Similar to the image processing device 100, the additional learning unit 312 performs clustering of sparsely sampled pixels and image filtering using the captured image 20 as a guide for the sparse information obtained by the clustering, thereby producing a dense clustering result. Derived.
  • the additional learning unit 312 has a sampling pixel selection unit 111, a clustering unit 112, and a complement processing unit 113.
  • the sampling pixel selection unit 111 performs processing related to selection of sparse sampling pixels, as in the case of FIG. 1. For example, the sampling pixel selection unit 111 acquires the captured image 20. At that time, the entire stitching image may be supplied to the sampling pixel selection unit 111, or each captured image (frame image) constituting the stitching image may be supplied to the sampling pixel selection unit 111 one by one.
  • the sampling pixel selection unit 111 selects sparse sampling pixels (local sampling pixels) from each captured image (local region). At that time, the sampling pixel selection unit 111 may use the captured image (local region) around the captured image to be processed, for example, the captured image (local region) that was the previous processing target or the next processing target. The captured image (local region) may also be selected as a local sampling pixel. That is, the sampling pixel selection unit 111 may select sparse local sampling pixels from the local region to be processed or the local region around them.
  • the sampling pixel selection unit 111 supplies the selected local sampling pixels to the clustering unit 112.
  • the clustering unit 112 performs local clustering of the sparse local sampling pixels, and complements the obtained sparse information (for example, model coefficients of additional learning, wide area clustering results, etc.) in the complementary processing unit 113.
  • the clustering unit 112 acquires information obtained by pre-learning (wide area clustering) stored in the coefficient storage unit 313, for example, a model coefficient of pre-learning, a wide area clustering result, etc., and obtains the information by the pre-learning.
  • Local clustering is performed using the information to be obtained (model coefficient of pre-learning, wide area clustering result, etc.) as the initial value.
  • the clustering unit 112 acquires sparse local sampling pixels supplied from the sampling pixel selection unit 111. Further, the clustering unit 112 acquires sparse information (for example, a model coefficient of pre-learning, a wide area clustering result, etc.) obtained by pre-learning (wide area clustering) stored in the coefficient storage unit 313. The clustering unit 112 targets the acquired sparse local sampling as a processing target, sets the information obtained by the pre-learning (model coefficient of the pre-learning, wide area clustering result, etc.) as an initial value, and performs local clustering as additional learning. The clustering unit 112 supplies sparse information (for example, model coefficients of additional learning, local clustering results, etc.) obtained by this additional learning (local clustering) to the complementary processing unit 113.
  • sparse information for example, a model coefficient of pre-learning, a wide area clustering result, etc.
  • the clustering unit 112 further uses the information obtained in the local clustering for the local region of the previous processing target (previous local clustering) to perform the local clustering for the local region of the current processing target (current local clustering). ) May be performed. That is, the clustering unit 112 may perform sequential learning using the previous learning model, learning result, or the like as additional learning.
  • the clustering unit 112 stores the information obtained by the sequential learning (for example, the model coefficient of the sequential learning, the local clustering result, etc.) in the coefficient storage unit 313. That is, the clustering unit 112 acquires not only the information obtained by the prior learning but also the information obtained by the previous sequential learning from the coefficient storage unit 313, and performs local clustering (sequential learning). Then, the clustering unit 112 supplies the information obtained by the sequential learning (for example, the model coefficient of the sequential learning, the local clustering result, etc.) to the complementary processing unit 113, and also supplies the information to the coefficient storage unit 313 and stores it. The information stored in the coefficient storage unit 313 is used for the next sequential learning (local clustering for the local region to be processed next).
  • the sequential learning for example, the model coefficient of the sequential learning, the local clustering result, etc.
  • the information obtained by the additional learning (model coefficient of additional learning, local clustering result, etc.) is supplied to the coefficient storage unit 313 (that is, in FIG. 17).
  • the arrow 341) can be omitted.
  • Completion processing unit 113 performs processing related to complementation of sparse information, as in the case of FIG. For example, the complement processing unit 113 acquires sparse information (model coefficients of additional learning and clustering results) supplied from the clustering unit 112. Further, the complement processing unit 113 performs image filtering (complementary processing) using the image signal as a guide for the sparse information, and derives a dense clustering result as a local clustering result. The complement processing unit 113 outputs the clustering result 30 (dense clustering result) obtained by the complement processing to the outside of the image processing device 100 as an image processing result by the image processing device 100.
  • the complement processing unit 113 acquires sparse information (model coefficients of additional learning and clustering results) supplied from the clustering unit 112. Further, the complement processing unit 113 performs image filtering (complementary processing) using the image signal as a guide for the sparse information, and derives a dense clustering result as a local clustering result. The complement processing unit 113 outputs the cluster
  • the coefficient storage unit 313 acquires information (model coefficient of pre-learning and wide area clustering result) obtained by pre-learning supplied from the pre-learning unit 311 (clustering unit 322), and has its own storage medium (storage area).
  • the coefficient storage unit 313 uses the information obtained by the sequential learning supplied from the additional learning unit 312 (clustering unit 112 of the additional learning unit 312) (model coefficient of sequential learning and wide area clustering result). ) Is acquired and stored in (the storage area of) its own storage medium. Further, the coefficient storage unit 313 collects the information obtained by the pre-learning and the information obtained by the sequential learning stored in (the storage area of) the own storage medium, for example, based on the request of the clustering unit 112. Supply to 112.
  • the image processing apparatus 300 can use the model once estimated by using the information obtained in the wide area clustering, so that it is stable at high speed in the local clustering (initial value fluctuation). You can get a model (with less impact). Further, the image processing apparatus 100 can obtain clustering results at high speed by targeting sparse sampling pixels in wide area clustering. Further, the image processing apparatus 100 performs local sampling pixels for sparse local sampling pixels, and performs image filtering using an image as a guide for the sparse information obtained in the local sampling, thereby densely performing at high speed. Sampling results are derived. Therefore, the image processing apparatus 300 can suppress an increase in processing time while suppressing a decrease in robustness of image clustering.
  • the sampling pixel selection unit 321 of the pre-learning unit 311 determines the captured image 20 of the stitching image (for example, the stitching image 270) as a global image which is an image of the global region (wide area) in step S201. ).
  • step S202 the sampling pixel selection unit 321 selects and determines a sparse wide area sampling pixel from the global image acquired in step S201.
  • step S203 the clustering unit 322 performs wide area clustering on the sparse wide area sampling pixels determined in step S202 as pre-learning.
  • step S204 the coefficient storage unit 313 stores the information obtained by the pre-learning performed in step S203 (for example, the model coefficient of the pre-learning and the result of wide area clustering).
  • step S205 the sampling pixel selection unit 111 of the additional learning unit 312 has a local image to be processed from among a plurality of local images (images of the local area (local area)) included in the global image acquired in step S201. To get. Further, the sampling pixel selection unit 111 selects and determines sparse local sampling pixels from the local image to be processed.
  • step S206 the clustering unit 112 performs local clustering on the sparse local sampling pixels determined in step S205 as additional learning. At that time, the clustering unit 112 performs sequential learning using the information obtained by the prior learning stored in the coefficient storage unit 313 and the information obtained by the previous additional learning (sequential learning).
  • the coefficient storage unit 313 stores information (for example, model coefficients of additional learning and local clustering results) obtained by the additional learning (sequential learning) performed in step S206.
  • step S208 the complementary processing unit 113 acquires the captured image 20 and uses the captured image 20 as a guide to perform image filtering on the sparse information (model coefficient of additional learning and clustering result) obtained by the processing in step S206. And complement the sparse information to derive a dense clustering result.
  • the sparse information model coefficient of additional learning and clustering result
  • step S209 the additional learning unit 312 determines whether or not additional learning has been performed for all the local images. If it is determined that the unprocessed local image exists, the process returns to step S205, and the subsequent processes are executed with the next local image as the process target. That is, each process of step S205 to step S209 is executed for each local image. If it is determined in step S209 that all the local images have been processed, the process proceeds to step S210.
  • step S210 the complement processing unit 113 outputs the clustering result 30 optimized as described above.
  • the clustering process is completed.
  • the image processing apparatus 300 can suppress an increase in processing time while suppressing a decrease in robustness of image clustering.
  • step S207 If sequential learning is not performed as additional learning, the process of step S207 can be omitted. Further, in step S206, the clustering unit 112 performs additional learning using the information obtained by the pre-learning stored in the coefficient storage unit 313.
  • the local sampling pixel may be selected in consideration of the selection result of the wide area sampling pixel. For example, a local sampling pixel may be selected from pixels other than the wide area sampling pixel. That is, the wide area sampling pixel may be excluded from the candidates for the local sampling pixel.
  • the sampling pixel selection unit 111 further performs the previous time.
  • the current local sampling pixel may be selected in consideration of the selection result of the local sampling pixel. For example, the current local sampling pixel may be selected from the pixels other than the previous local sampling pixel. That is, the previous local sampling pixel may be excluded from the candidates for the current local sampling pixel.
  • FIG. 19 is a block diagram showing a main configuration example of the image processing apparatus 300 in that case.
  • the image processing apparatus 300 in this case has a sampling pixel storage unit 351 in addition to the configuration of the example of FIG.
  • the sampling pixel selection unit 321 of the pre-learning unit 311 supplies the selected wide-area sampling pixels to the clustering unit 322 and also supplies the sampling pixel storage unit 351.
  • the sampling pixel storage unit 351 has a storage medium and performs processing related to storage of sampling pixels. For example, the sampling pixel storage unit 351 acquires wide-area sampling pixels supplied from the pre-learning unit 311 (sampling pixel selection unit 321) and stores them in its own storage medium (storage area).
  • sampling pixel storage unit 351 supplies the wide area sampling pixel stored in (the storage area) of its own storage medium to the sampling pixel selection unit 111, for example, based on the request of the sampling pixel selection unit 111.
  • the sampling pixel selection unit 111 acquires wide-area sampling pixels stored in the sampling pixel storage unit 351.
  • the sampling pixel selection unit 111 selects sparse local sampling pixels from pixels other than the wide area sampling pixels in the local region (frame image) to be processed, and supplies them to the clustering unit 112.
  • the clustering unit 112 can suppress an increase in clustering redundancy and further suppress a decrease in image clustering robustness.
  • the sampling pixel selection unit 111 of the additional learning unit 312 supplies the selected local sampling pixels to the clustering unit 112 and also supplies the sampling pixel storage unit 351.
  • the sampling pixel storage unit 351 acquires the local sampling pixels supplied from the additional learning unit 312 (sampling pixel selection unit 111) and stores them in its own storage medium (storage area). Further, the sampling pixel storage unit 351 selects a wide area sampling pixel and a previous local sampling pixel stored in (a storage area) of its own storage medium (a storage area) based on a request of the sampling pixel selection unit 111, for example. Supply to.
  • the sampling pixel selection unit 111 acquires the wide area sampling pixel and the previous local sampling pixel from the sampling pixel storage unit 351.
  • the sampling pixel selection unit 111 selects sparse local sampling pixels from the wide area sampling pixels and pixels other than the previous local sampling pixels in the local region (frame image) to be processed, and supplies them to the clustering unit 112.
  • the clustering unit 112 can suppress an increase in clustering redundancy and further suppress a decrease in image clustering robustness.
  • the supply of the local sampling pixels to the sampling pixel storage unit 351 (that is, the arrow 361 in FIG. 19) can be omitted.
  • step S253 the sampling pixel storage unit 351 stores the sparse wide area sampling pixels determined in step S252.
  • each process of step S254 and step S255 is executed in the same manner as each process of step S203 and step S204 (FIG. 18).
  • step S256 the sampling pixel selection unit 111 of the additional learning unit 312 acquires the local image to be processed from the local image group included in the global image acquired in step S251. Further, the sampling pixel selection unit 111 selects and determines a sparse local sampling pixel from the wide area sampling pixel and the pixel other than the previous local sampling pixel of the local image to be processed.
  • step S257 the sampling pixel storage unit 351 stores the sparse local sampling pixels (current local sampling pixels) determined in step S256.
  • step S257 When step S257 is completed, each process of steps S258 to S260 is executed in the same manner as each process of steps S206 to S208 (FIG. 18).
  • step S261 the additional learning unit 312 determines whether or not additional learning has been performed for all local images. If it is determined that the unprocessed local image exists, the process returns to step S256, and the subsequent processes are executed with the next local image as the process target. That is, each process of step S256 to step S261 is executed for each local image. If it is determined in step S261 that all the local images have been processed, the process proceeds to step S262.
  • step S262 the complement processing unit 113 outputs the clustering result 30 optimized as described above.
  • the clustering process is completed.
  • the image processing apparatus 300 can suppress an increase in processing time while suppressing a decrease in robustness of image clustering.
  • step S255 and step S259 can be omitted.
  • step S256 the sampling pixel selection unit 111 selects sampling pixels by using the wide area sampling pixels stored in the sampling pixel storage unit 351. Then, in step S258, the clustering unit 112 performs additional learning using the information obtained by the pre-learning stored in the coefficient storage unit 313.
  • the pre-learning unit 311 may be configured as another device. That is, the image processing device 300 may have an additional learning unit 312 and a coefficient storage unit 313.
  • the coefficient storage unit 313 acquires and stores sparse information (model coefficient of pre-learning, clustering result, etc.) obtained in another device (pre-learning unit 311). Further, the additional learning unit 312 performs local clustering of sparse local sampling pixels by using sparse information obtained by another device (pre-learning unit 311) stored in the coefficient storage unit 313.
  • the pre-learning unit 311 and the coefficient storage unit 313 may be configured as other devices. That is, the image processing device 300 may have an additional learning unit 312.
  • the additional learning unit 312 uses the sparse information obtained in the other device (pre-learning unit 311) stored in the other device (coefficient storage unit 313) to sparse local sampling pixels. Local clustering of.
  • the image processing apparatus 300 can suppress an increase in processing time while suppressing a decrease in robustness of image clustering.
  • the pre-learning unit 311 may be configured as another device. That is, the image processing device 300 may have an additional learning unit 312, a coefficient storage unit 313, and a sampling pixel storage unit 351.
  • the coefficient storage unit 313 acquires and stores sparse information (model coefficient of pre-learning, clustering result, etc.) obtained in another device (pre-learning unit 311).
  • the sampling pixel storage unit 351 acquires and stores sparse wide area sampling pixels selected by another device (pre-learning unit 311).
  • the additional learning unit 312 selects sparse local sampling pixels based on the sparse wide area sampling pixels selected in the other device (pre-learning unit 311) stored in the sampling pixel storage unit 351. Using the sparse information obtained in another device (pre-learning unit 311) stored in the coefficient storage unit 313, local clustering of the selected sparse local sampling pixels is performed.
  • the pre-learning unit 311 and the coefficient storage unit 313 may be configured as other devices. That is, the image processing device 300 may have an additional learning unit 312 and a sampling pixel storage unit 351.
  • the sampling pixel storage unit 351 acquires and stores wide-area sampling pixels selected by another device (pre-learning unit 311).
  • the additional learning unit 312 selects sparse local sampling pixels based on the sparse wide area sampling pixels selected in the other device (pre-learning unit 311) stored in the sampling pixel storage unit 351. Local clustering of the selected sparse local sampling pixels is performed using the sparse information obtained in the other device (pre-learning unit 311) stored in the other device (coefficient storage unit 313).
  • the pre-learning unit 311 and the sampling pixel storage unit 351 may be configured as other devices. That is, the image processing device 300 may have an additional learning unit 312 and a coefficient storage unit 313.
  • the coefficient storage unit 313 acquires and stores the information (model coefficient of pre-learning, clustering result, etc.) obtained in another device (pre-learning unit 311).
  • the additional learning unit 312 is sparsely localized based on the sparse wide area sampling pixels selected in the other device (pre-learning unit 311) stored in the other device (sampling pixel storage unit 351). Sampling pixels are selected, and local clustering of the selected sparse local sampling pixels is performed using the sparse information obtained by another device (pre-learning unit 311) stored in the coefficient storage unit 313.
  • the pre-learning unit 311, the coefficient storage unit 313, and the sampling pixel storage unit 351 may be configured as other devices. That is, the image processing device 300 may have an additional learning unit 312.
  • the additional learning unit 312 is sparse based on the sparse wide area sampling pixels selected in the other device (pre-learning unit 311) stored in the other device (sampling pixel storage unit 351). Local sampling Pixels are selected, and the selected sparse local sampling is used using the sparse information obtained in the other device (pre-learning unit 311) stored in the other device (coefficient storage unit 313). Perform local clustering of pixels.
  • the image processing apparatus 300 can suppress an increase in processing time while suppressing a decrease in robustness of image clustering.
  • the additional learning unit 312 can perform the above-mentioned sequential learning as additional learning, as in the case of FIGS. 17 and 19.
  • the image processing apparatus 300 may select the local sampling pixel by using at least one of the field information, the stitching information, and the flat area information described in the first embodiment. good. By doing so, it is possible to obtain the effect when each information is used in the additional learning.
  • the image processing apparatus 300 may select sampling pixels by using information other than those described above in addition to any one or more of these information.
  • the captured image 20 is a stitching image
  • the captured image 20 may be a moving image composed of a plurality of frame images, or may be a plurality of images. It may be a file (captured image group) in which the captured images of the above are combined into one, or it may be a single captured image. Of course, it may be an image other than the captured image (for example, a CG image).
  • the captured image 20 may be an image in the wavelength range of visible light (RGB), or may be an image of the wavelength range of invisible light such as near-infrared light. It may also be both of them.
  • the wide area does not have to be the entire captured image 20
  • the local area does not have to be the captured image for one frame.
  • the local region may be a region within a wide area that is narrower than the wide area. To this extent, the wide area and the local area may be any area in the captured image 20, respectively.
  • local clustering may be performed using sparse information obtained in, for example, wide-area clustering of sparse wide-area sampling pixels in image clustering. Then, the local clustering may be performed on the locally sampled pixels in a dense state. That is, instead of performing local clustering of sparse locally sampled pixels and deriving a dense clustering result by image filtering using an image signal as a guide for the obtained sparse information as in the second embodiment. , Local clustering of locally sampled pixels in a dense state may be performed.
  • the model once estimated in the wide area clustering can be used, so that a fast and stable model (less affected by the initial value fluctuation) can be obtained in the local clustering. be able to. Further, even in wide area clustering, clustering results can be obtained at high speed by targeting sparse sampling pixels. Therefore, it is possible to suppress an increase in processing time while suppressing a decrease in the robustness of image clustering.
  • FIG. 21 is a block diagram showing a main configuration example of the image processing apparatus in that case.
  • the image processing device 400 shown in FIG. 21 is a device that performs image clustering, similar to the image processing device 300. That is, the image processing device 400 takes the captured image 20 as an input, performs image clustering on the captured image 20, and outputs the clustering result 30.
  • the captured image 20 may be, for example, a stitching image in which a plurality of captured images (P1 to Pn) are laminated. Further, it may be a moving image composed of a plurality of frame images. Further, it may be a file (captured image group) in which a plurality of captured images are combined into one, or it may be a single captured image. Of course, it may be an image other than the captured image (for example, a CG image). Further, the captured image 20 may be an image in the wavelength range of visible light (RGB), or may be an image of the wavelength range of invisible light such as near-infrared light. It may also be both of them.
  • RGB visible light
  • invisible light such as near-infrared light
  • the captured image 20 will be described as corresponding to the stitching image 270 corresponding to the entire field in which the captured images 271 obtained by capturing a part of the field as in the example of FIG. 16 are laminated. Further, a wide area (global area) will be described as the entire stitching image 270, and a local area (local area) will be described as each captured image 271 (captured image for one frame).
  • FIG. 21 shows the main things such as the processing unit and the data flow, and not all of them are shown in FIG. 21. That is, in the image processing apparatus 400, there may be a processing unit that is not shown as a block in FIG. 21, or there may be a process or data flow that is not shown as an arrow or the like in FIG. 21.
  • the image processing device 400 has a pre-learning unit 311, an additional learning unit 312, and a coefficient storage unit 313, similarly to the image processing device 300 (FIG. 17).
  • the pre-learning unit 311 has a sampling pixel selection unit 321 and a clustering unit 322 as in the case of the image processing device 300 (FIG. 17), and performs wide-area clustering of sparse wide-area sampling pixels as pre-learning.
  • the information obtained by learning is supplied to the coefficient storage unit 313.
  • the information obtained by this pre-learning is the information corresponding to each sampling pixel (that is, in a sparse state) obtained by wide area clustering. For example, it may be a pre-learning model coefficient, a clustering result, or both.
  • the coefficient storage unit 313 has the same configuration as that of the image processing device 300 (FIG. 17), and stores sparse information supplied from the pre-learning unit 311 (for example, pre-learning model coefficients, wide area clustering results, etc.).
  • the coefficient storage unit 313 supplies the sparsely stored information to the additional learning unit 312 (clustering unit 412), for example, in response to a request from the additional learning unit 312 (clustering unit 412).
  • the additional learning unit 312 uses the sparse information obtained by the pre-learning (for example, the model coefficient of the pre-learning, the wide area clustering result, etc.) as the initial value for the additional learning. I do. However, in this case, the additional learning unit 312 performs local clustering of dense local sampling pixels as additional learning, and derives a dense clustering result.
  • the pre-learning for example, the model coefficient of the pre-learning, the wide area clustering result, etc.
  • This local clustering method is arbitrary.
  • SC-GMM Structure-constrained Gaussian Mixture Model
  • optimization considering image structure information is introduced for clustering in the color space. For example, the adjacency between pixels is obtained by using the structure of texture or edge, and the classification is performed based on the adjacency. By doing so, more accurate clustering can be performed.
  • the additional learning unit 312 in this case has a sampling pixel selection unit 411, a clustering unit 412, and an optimization unit 413.
  • the sampling pixel selection unit 411 performs processing related to selection of local sampling pixels. For example, the sampling pixel selection unit 411 acquires the captured image 20. At that time, the entire stitching image may be supplied to the sampling pixel selection unit 411, or each captured image (frame image) constituting the stitching image may be supplied to the sampling pixel selection unit 411 one by one. May be good.
  • the sampling pixel selection unit 411 selects a part or all of the pixels of each captured image (local area) as the local sampling pixel. At that time, the sampling pixel selection unit 411 selects local sampling pixels so as to be in a dense state.
  • the sampling pixel selection unit 411 becomes a captured image (local region) around the captured image to be processed, for example, the captured image (local region) that was the previous processing target or the processing target after the previous processing.
  • the captured image (local region) may also be selected as a local sampling pixel. That is, the sampling pixel selection unit 411 may select dense local sampling pixels from the local region to be processed or the local region around them.
  • the sampling pixel selection unit 411 supplies the selected dense local sampling pixels to the clustering unit 412.
  • the clustering unit 412 performs processing related to local clustering. For example, the clustering unit 412 acquires dense local sampling pixels supplied from the sampling pixel selection unit 411. Further, the clustering unit 412 acquires sparse information (for example, a model coefficient of pre-learning, a wide area clustering result, etc.) obtained by pre-learning (wide area clustering) stored in the coefficient storage unit 313.
  • sparse information for example, a model coefficient of pre-learning, a wide area clustering result, etc.
  • the clustering unit 412 uses the sparse information obtained by the pre-learning as an initial value, and performs local clustering of dense local sampling.
  • the clustering unit 412 supplies the information obtained by this additional learning (local clustering of dense local sampling pixels) to the optimization unit 413.
  • the information obtained by this additional learning is the information corresponding to each sampling pixel (that is, in a dense state) obtained by local clustering. For example, it may be a model coefficient of additional learning, a clustering result, or both.
  • the clustering unit 412 further uses the information obtained in the local clustering for the local region of the previous processing target (previous local clustering) to local clustering for the local region of the current processing target (current local clustering). ) May be performed. That is, the clustering unit 412 may perform sequential learning using the previous learning model, the clustering result, or the like as additional learning.
  • the clustering unit 412 stores the dense information (model coefficient of the sequential learning, local clustering result, etc.) obtained by the sequential learning in the coefficient storage unit 313. Further, the clustering unit 412 acquires not only the sparse information obtained by the prior learning but also the dense information obtained by the previous sequential learning from the coefficient storage unit 313, and performs local clustering (sequential learning). Then, the clustering unit 412 supplies the information (model coefficient of the sequential learning, local clustering result, etc.) obtained by the sequential learning to the optimization unit 413, and also supplies and stores the information to the coefficient storage unit 313. The information stored in the coefficient storage unit 313 is used for the next sequential learning (local clustering for the local region to be processed next).
  • the information obtained by the additional learning (model coefficient of additional learning, local clustering result, etc.) is supplied to the coefficient storage unit 313 (that is, in FIG. 21).
  • the arrow 421) can be omitted.
  • the optimization unit 413 performs processing related to optimization of the clustering result. For example, the optimization unit 413 acquires information (model coefficients of additional learning, local clustering results, etc.) obtained by additional learning supplied from the clustering unit 412. Further, the optimization unit 413 acquires the captured image 20.
  • the captured image 20 may be the same as the captured image 20 (that is, the captured image to be clustered) supplied to the sampling pixel selection unit 321 and the sampling pixel selection unit 411, or is substantially the same as the clustered captured image.
  • the captured image may be different from the clustered captured image in the same time range. For example, it may be another captured image obtained by another imaging at substantially the same time and at substantially the same angle of view as the imaging for obtaining the clustered captured image.
  • the captured image 20 in the wavelength range of visible light (RGB) is supplied to the sampling pixel selection unit 321 and the sampling pixel selection unit 411, and the captured image 20 that images the wavelength range of invisible light such as near infrared light is obtained. It may be supplied to the optimization unit 413.
  • the optimization unit 413 optimizes the dense information obtained by the additional learning using the captured image 20, and derives the optimized dense clustering result. For example, the optimization unit 413 obtains the adjacency between pixels in consideration of the image structure information (texture and edge structure) of the captured image 20, and optimizes the model coefficient and the clustering result based on the adjacency. ..
  • the optimization unit 413 outputs the clustering result 30 obtained by this processing (that is, the clustering result obtained by the optimization processing) to the outside of the image processing device 400 as the image processing result by the image processing device 400.
  • the image processing apparatus 400 can perform local clustering using a model once estimated in wide area clustering. Therefore, the image processing apparatus 400 can obtain a fast and stable model (less affected by initial value fluctuation) in local clustering. Further, by having such a configuration, the image processing apparatus 400 can target sparse sampling pixels even in wide area clustering and obtain clustering results at high speed. Therefore, the image processing apparatus 400 can suppress an increase in processing time while suppressing a decrease in robustness of image clustering.
  • the clustering result 431 shown in A of FIG. 22 shows an example of the clustering result derived by the image processing apparatus 400. Further, the clustering result 432 shown in B of FIG. 22 shows an example of the clustering result derived by the image processing apparatus 300. That is, almost the same clustering result can be obtained by any image processing device. That is, the image processing device 400 can suppress an increase in processing time while suppressing a decrease in robustness of image clustering, as in the case of the image processing device 300.
  • step S305 the sampling pixel selection unit 411 of the additional learning unit 312 acquires the local image to be processed from the local image group included in the global image acquired in step S301. Further, the sampling pixel selection unit 411 selects and determines dense local sampling pixels from the local image to be processed.
  • step S306 the clustering unit 412 performs local clustering on the dense local sampling pixels determined in step S305 as additional learning. At that time, the clustering unit 412 performs sequential learning using the information obtained by the prior learning stored in the coefficient storage unit 313 and the information obtained by the previous additional learning (sequential learning).
  • the coefficient storage unit 313 stores information (for example, model coefficients of additional learning and local clustering results) obtained by the additional learning (sequential learning) performed in step S306.
  • step S308 the optimization unit 413 optimizes the information obtained by the additional learning (sequential learning) performed in step S306 (for example, the model coefficient of the additional learning and the local clustering result), and the optimization is performed. Derive the clustering result.
  • step S309 the additional learning unit 312 determines whether or not additional learning has been performed for all the local images. If it is determined that the unprocessed local image exists, the process returns to step S305, and the subsequent processes are executed with the next local image as the processing target. That is, each process of step S305 to step S309 is executed for each local image. If it is determined in step S309 that all the local images have been processed, the process proceeds to step S310.
  • step S310 the optimization unit 413 outputs the clustering result 30 optimized as described above.
  • the clustering process is completed.
  • the image processing apparatus 400 can suppress an increase in processing time while suppressing a decrease in robustness of image clustering.
  • step S307 If sequential learning is not performed as additional learning, the process of step S307 can be omitted. Further, in step S306, the clustering unit 412 performs additional learning using the information obtained by the pre-learning stored in the coefficient storage unit 313.
  • the local sampling pixels may be selected in consideration of the selection result of the wide area sampling pixels.
  • a local sampling pixel may be selected from pixels other than the wide area sampling pixel. That is, the wide area sampling pixel may be excluded from the candidates for the local sampling pixel.
  • the sampling pixel selection unit 411 further performs the previous time.
  • the current local sampling pixel may be selected in consideration of the selection result of the local sampling pixel. For example, the current local sampling pixel may be selected from the pixels other than the previous local sampling pixel. That is, the previous local sampling pixel may be excluded from the candidates for the current local sampling pixel.
  • FIG. 24 is a block diagram showing a main configuration example of the image processing apparatus 400 in that case.
  • the image processing apparatus 400 in this case has a sampling pixel storage unit 351 in addition to the configuration of the example of FIG. 21 as in the case of the image processing apparatus 300 of FIG.
  • the sampling pixel selection unit 321 of the pre-learning unit 311 supplies the selected wide-area sampling pixels to the clustering unit 322 and also supplies the sampling pixel storage unit 351.
  • the sampling pixel storage unit 351 has a storage medium and performs processing related to storage of sampling pixels, as in the case of FIG. For example, the sampling pixel storage unit 351 acquires wide-area sampling pixels supplied from the pre-learning unit 311 (sampling pixel selection unit 321) and stores them in its own storage medium (storage area).
  • sampling pixel storage unit 351 supplies the wide area sampling pixel stored in (the storage area) of its own storage medium to the sampling pixel selection unit 411, for example, based on the request of the sampling pixel selection unit 411.
  • the sampling pixel selection unit 411 acquires a wide-area sampling pixel stored in the sampling pixel storage unit 351.
  • the sampling pixel selection unit 411 selects dense local sampling pixels from pixels other than the wide area sampling pixels in the local region (frame image) to be processed, and supplies them to the clustering unit 412.
  • the clustering unit 412 can suppress an increase in clustering redundancy and further suppress a decrease in image clustering robustness.
  • the sampling pixel selection unit 411 of the additional learning unit 312 supplies the selected local sampling pixels to the clustering unit 412 and also supplies the sampling pixel storage unit 351.
  • the sampling pixel storage unit 351 acquires the local sampling pixels supplied from the additional learning unit 312 (sampling pixel selection unit 411) and stores them in its own storage medium (storage area). Further, the sampling pixel storage unit 351 selects wide-area sampling pixels and previous local sampling pixels stored in (the storage area) of its own storage medium (storage area) based on the request of the sampling pixel selection unit 411, for example. Supply to.
  • the sampling pixel selection unit 411 acquires the wide area sampling pixel and the previous local sampling pixel from the sampling pixel storage unit 351.
  • the sampling pixel selection unit 411 selects dense local sampling pixels from pixels other than the wide area sampling pixels and the previous local sampling pixels in the local region (frame image) to be processed, and supplies them to the clustering unit 412.
  • the clustering unit 412 can suppress an increase in clustering redundancy and further suppress a decrease in image clustering robustness.
  • the supply of the local sampling pixels to the sampling pixel storage unit 351 (that is, the arrow 441 in FIG. 24) can be omitted.
  • step S353 the sampling pixel storage unit 351 stores the sparse wide area sampling pixels determined in step S352.
  • step S353 When the process of step S353 is completed, each process of step S354 and step S355 is executed in the same manner as each process of step S303 and step S304 (FIG. 23).
  • step S356 the sampling pixel selection unit 411 of the additional learning unit 312 acquires the local image to be processed from the local image group included in the global image acquired in step S351. Further, the sampling pixel selection unit 411 selects and determines dense local sampling pixels from pixels other than the wide area sampling pixels and the previous local sampling pixels of the local image to be processed.
  • step S357 the sampling pixel storage unit 351 stores the dense local sampling pixels (current local sampling pixels) determined in step S356.
  • step S357 When step S357 is completed, each process of steps S358 to S360 is executed in the same manner as each process of steps S306 to S308 (FIG. 23).
  • step S361 the additional learning unit 312 determines whether or not additional learning has been performed for all the local images. If it is determined that the unprocessed local image exists, the process returns to step S356, and the subsequent processes are executed with the next local image as the process target. That is, each process of step S356 to step S361 is executed for each local image. If it is determined in step S361 that all the local images have been processed, the process proceeds to step S362.
  • step S362 the optimization unit 413 outputs the clustering result 30 optimized as described above.
  • the clustering process is completed.
  • the image processing apparatus 400 can suppress an increase in processing time while suppressing a decrease in robustness of image clustering.
  • step S355 and step S359 can be omitted. Further, in step S356, the sampling pixel selection unit 411 selects sampling pixels by using the wide area sampling pixels stored in the sampling pixel storage unit 351. Then, in step S358, the clustering unit 412 performs additional learning using the information obtained by the pre-learning stored in the coefficient storage unit 313.
  • the pre-learning unit 311 may be configured as another device. That is, the image processing device 400 may have an additional learning unit 312 and a coefficient storage unit 313.
  • the coefficient storage unit 313 acquires and stores sparse information (model coefficient of pre-learning, clustering result, etc.) obtained in another device (pre-learning unit 311).
  • the additional learning unit 312 performs local clustering of dense local sampling pixels by using sparse information obtained by another device (pre-learning unit 311) stored in the coefficient storage unit 313.
  • the pre-learning unit 311 and the coefficient storage unit 313 may be configured as other devices. That is, the image processing device 400 may have an additional learning unit 312.
  • the additional learning unit 312 uses the sparse information obtained in the other device (pre-learning unit 311) stored in the other device (coefficient storage unit 313) to dense local sampling pixels. Local clustering of.
  • the image processing apparatus 400 can suppress an increase in processing time while suppressing a decrease in robustness of image clustering.
  • the pre-learning unit 311 may be configured as another device. That is, the image processing device 400 may include an additional learning unit 312, a coefficient storage unit 313, and a sampling pixel storage unit 351.
  • the coefficient storage unit 313 acquires and stores sparse information (model coefficient of pre-learning, clustering result, etc.) obtained in another device (pre-learning unit 311).
  • the sampling pixel storage unit 351 acquires and stores sparse wide area sampling pixels selected by another device (pre-learning unit 311).
  • the additional learning unit 312 selects dense local sampling pixels based on the sparse wide area sampling pixels selected in the other device (pre-learning unit 311) stored in the sampling pixel storage unit 351. Using the sparse information obtained in the other device (pre-learning unit 311) stored in the coefficient storage unit 313, local clustering of the selected dense local sampling pixels is performed.
  • the pre-learning unit 311 and the coefficient storage unit 313 may be configured as other devices. That is, the image processing device 400 may have an additional learning unit 312 and a sampling pixel storage unit 351.
  • the sampling pixel storage unit 351 acquires and stores wide-area sampling pixels selected by another device (pre-learning unit 311).
  • the additional learning unit 312 selects dense local sampling pixels based on the sparse wide area sampling pixels selected in the other device (pre-learning unit 311) stored in the sampling pixel storage unit 351. Local clustering of the selected dense local sampling pixels is performed using the sparse information obtained in the other device (pre-learning unit 311) stored in the other device (coefficient storage unit 313).
  • the pre-learning unit 311 and the sampling pixel storage unit 351 may be configured as other devices. That is, the image processing device 400 may have an additional learning unit 312 and a coefficient storage unit 313.
  • the coefficient storage unit 313 acquires and stores the information (model coefficient of pre-learning, clustering result, etc.) obtained in another device (pre-learning unit 311).
  • the additional learning unit 312 is densely localized based on the sparse wide area sampling pixels selected in the other device (pre-learning unit 311) stored in the other device (sampling pixel storage unit 351). Sampling pixels are selected, and local clustering of the selected dense local sampling pixels is performed using sparse information obtained by another device (pre-learning unit 311) stored in the coefficient storage unit 313.
  • the pre-learning unit 311, the coefficient storage unit 313, and the sampling pixel storage unit 351 may be configured as other devices. That is, the image processing device 400 may have an additional learning unit 312.
  • the additional learning unit 312 is dense based on the sparse wide area sampling pixels selected in the other device (pre-learning unit 311) stored in the other device (sampling pixel storage unit 351). Local sampling Pixels are selected, and the selected dense local sampling is performed using the sparse information obtained in the other device (pre-learning unit 311) stored in the other device (coefficient storage unit 313). Perform local clustering of pixels.
  • the image processing apparatus 400 can suppress an increase in processing time while suppressing a decrease in robustness of image clustering.
  • the additional learning unit 312 can perform the above-mentioned sequential learning as additional learning, as in the case of FIGS. 21 and 24.
  • the image processing apparatus 400 may select the local sampling pixel by using at least one of the field information, the stitching information, and the flat area information described in the first embodiment. good. By doing so, it is possible to obtain the effect when each information is used in the additional learning.
  • the image processing apparatus 400 may select sampling pixels by using information other than those described above in addition to any one or more of these information.
  • the captured image 20 is a stitching image
  • the captured image 20 may be a moving image composed of a plurality of frame images, or may be a plurality of images. It may be a file (captured image group) in which the captured images of the above are combined into one, or it may be a single captured image. Of course, it may be an image other than the captured image (for example, a CG image).
  • the captured image 20 may be an image in the wavelength range of visible light (RGB), or may be an image of the wavelength range of invisible light such as near-infrared light. It may also be both of them.
  • the wide area does not have to be the entire captured image 20
  • the local area does not have to be the captured image for one frame.
  • the local region may be a region within a wide area that is narrower than the wide area. To this extent, the wide area and the local area may be any area in the captured image 20, respectively.
  • the image processing apparatus 500 shown in FIG. 26 is a diagram showing an example of an embodiment of an image processing apparatus to which the present technology is applied.
  • This image processing device 500 is a device that analyzes a vegetation region. For example, an captured image 20 obtained by imaging a field or the like is input, and the captured image 20 is analyzed for the vegetation region using image clustering, and the analysis result thereof. The vegetation area information 520 is output.
  • the captured image 20 may be, for example, a stitching image in which a plurality of captured images (P1 to Pn) are bonded together. Further, it may be a moving image composed of a plurality of frame images. Further, it may be a file (captured image group) in which a plurality of captured images are combined into one, or it may be a single captured image. Further, the captured image 20 may be an image in the wavelength range of visible light (RGB), or may be an image of the wavelength range of invisible light such as near-infrared light. It may also be both of them.
  • RGB visible light
  • invisible light such as near-infrared light
  • FIG. 26 shows the main things such as the processing unit and the flow of data, and not all of them are shown in FIG. 26. That is, in the image processing apparatus 500, there may be a processing unit that is not shown as a block in FIG. 26, or there may be a process or data flow that is not shown as an arrow or the like in FIG. 26.
  • the image processing apparatus 500 has a clustering unit 511 and a vegetation area determination unit 512.
  • the clustering unit 511 clusters the captured image 20 and derives a dense clustering result.
  • the above-mentioned image processing apparatus can be applied to the clustering unit 511. That is, the clustering unit 511 has the same configuration as any of the above-mentioned image processing devices, and performs the same processing (clustering) to derive the clustering result from the captured image 20.
  • the clustering unit 511 supplies the clustering result to the vegetation area determination unit 512.
  • the vegetation area determination unit 512 performs processing related to determination of the vegetation area. For example, the vegetation area determination unit 512 acquires the clustering result supplied from the clustering unit 511. Further, the vegetation area determination unit 512 acquires the captured image 20. The vegetation area determination unit 512 determines the vegetation area using these information, and outputs the vegetation area information 520 which is the analysis result. By doing so, the image processing apparatus 500 can generate the analysis result of the vegetation region in which the decrease in robustness is suppressed at a higher speed.
  • step S502 the clustering unit 511 performs a clustering process and obtains a dense clustering result.
  • the above-mentioned clustering process can be applied to this clustering process. That is, the clustering unit 511 derives a dense clustering result by performing the clustering process in the same flow as any one of the above-mentioned flowcharts.
  • step S503 the vegetation area determination unit 512 determines the vegetation area based on the clustering result obtained in step S502, and obtains the vegetation area information 520.
  • step S504 the vegetation area determination unit 512 outputs the vegetation area information 520 obtained by the process of step S503.
  • the clustering process is completed.
  • the image processing apparatus 500 can obtain a more accurate clustering result. Therefore, the image processing apparatus 500 can generate vegetation region information 520 with suppressed reduction in robustness at a higher speed.
  • a CT (Computed Tomography) inspection device irradiates a human body with X-rays while rotating them, collects the intensity of the transmitted X-rays with a detector, analyzes and calculates the obtained data with a computer, and performs various methods. Create an image.
  • the CT examination device can obtain a tomographic image of an arbitrary position / direction such as an XY plane, a YZ plane, and an XZ plane by irradiating the patient 601 with X-rays. can.
  • CT images 611-1 to 611-5 shown in FIG. 28B a plurality of CT images 611 can be obtained.
  • the present technique may be applied to the clustering of a plurality of CT images 611 obtained by such a CT examination.
  • the entire CT image 651 (CT Slice) is set as a wide area (global area), and for example, a predetermined part area 652 of the CT image 651 such as a block is set.
  • a local area local area
  • the clustering may be performed by applying the above-mentioned technique. That is, in this case, both the wide area and the local area are set as a two-dimensional plane, and each CT image is clustered one by one. In this case, the processing can be performed in the same manner as in the case of the above-mentioned captured image of the field.
  • wide area clustering (pre-learning) is performed on sparse wide-area sampling pixels selected from the entire CT image 651, and the obtained sparse information (pre-learning model coefficient) is performed. And clustering results) as initial values, local clustering (additional learning) is performed for dense local sampling pixels in each block, and dense clustering results are derived.
  • wide area clustering is performed on sparse wide-area sampling pixels selected from the entire CT image 651, and the obtained sparse information (pre-learning model) is performed.
  • Local clustering is performed for sparse local sampling pixels in each block using (coefficients, clustering results, etc.) as initial values, and the sparse information obtained (model coefficients of additional learning, clustering results, etc.) Is complemented by filtering using a two-dimensional image as a guide, and a dense clustering result is derived.
  • the filtering is a two-dimensional process in which the colors of adjacent pixels on the two-dimensional plane (that is, on the same CT image) are propagated.
  • the following equation (1) is used to derive the processing target pixel x i from the peripheral pixels x j on the same CT image.
  • Wi and j are weighting coefficients and are derived as shown in the following equation (2).
  • clustering is performed on sparse sampling pixels selected from the entire CT image 651, and the obtained sparse information (learning model coefficients, clustering results, etc.) is used. 2. Complement by filtering using a two-dimensional image as a guide to derive a dense clustering result.
  • the filtering is a two-dimensional process in which the colors of adjacent pixels on the two-dimensional plane (that is, on the same CT image) are propagated.
  • the processing target pixel x i is derived from the peripheral pixels x j on the same CT image.
  • Wi and j are weighting coefficients and are derived as in the above equation (2).
  • the CT image 651 (CT Slice) is set as a local region (local region), and the CT volume 653 (CT Volume), which is a three-dimensional region composed of a plurality of CT images 651, is set as a wide area (CT Volume).
  • CT Volume which is a three-dimensional region composed of a plurality of CT images 651
  • CT Volume is set as a wide area (CT Volume).
  • the clustering may be performed by applying the above-mentioned technique. That is, in this case, the wide area is a set of two-dimensional planes (three-dimensional region), the local region is a two-dimensional plane, and the clustering of CT volumes is performed collectively.
  • wide area clustering is performed on sparse wide area sampling pixels selected from CT volume 653 (all CT images 651), and the sparse information obtained is obtained.
  • local clustering is performed on dense local sampling pixels in each CT image 651, and dense clustering results are derived.
  • wide area clustering (pre-learning) is performed on sparse wide area sampling pixels selected from CT volume 653 (all CT images 651), and the obtained sparse area is obtained.
  • information model coefficients of pre-learning, clustering results, etc.
  • local clustering (additional learning) is performed for sparse local sampling pixels in each CT image 651, and the sparse information obtained (additional learning) is performed.
  • Model coefficients, clustering results, etc. are complemented by filtering using a two-dimensional image as a guide, and a dense clustering result is derived.
  • the filtering performs a three-dimensional process of propagating the colors of adjacent pixels in the three-dimensional space. That is, in this case, not only the color of the adjacent pixel on the same CT image can be propagated, but also the color of the adjacent pixel on the adjacent CT image can be propagated.
  • the processing target pixel x i is derived from the peripheral pixels x j on the same CT image or the adjacent CT image.
  • the weighting coefficients Wi and j in this case are derived as shown in the following equation (3).
  • clustering is performed on the sparse sampling pixels selected from the CT volume 653 (all CT images 651), and the sparse information obtained (learning model coefficient) is performed.
  • Clustering results, etc. are complemented by filtering using a two-dimensional image as a guide, and a dense clustering result is derived.
  • the filtering performs the above-mentioned three-dimensional processing.
  • the processing target pixel x i is derived from the peripheral pixels x j on the same CT image.
  • Wi and j are weighting coefficients and are derived as in the above equation (3).
  • a CT volume 653 (CT Volume) is set as a wide area (global region), and a voxel 654 (Voxel), which is a three-dimensional region having a predetermined size obtained by dividing the CT volume 653, is formed.
  • CT Volume a CT volume 653
  • Voxel a voxel 654
  • the clustering may be performed by applying the above-mentioned technique. That is, in this case, both the wide area and the local area are set as three-dimensional areas, and the clustering of CT volumes is performed collectively.
  • wide area clustering is performed on sparse wide area sampling pixels selected from CT volume 653 (all CT images 651), and the sparse information obtained is obtained.
  • local clustering is performed on dense local sampling pixels in each voxel 654, and dense clustering results are derived.
  • wide area clustering (pre-learning) is performed on sparse wide area sampling pixels selected from CT volume 653 (all CT images 651), and the obtained sparse area is obtained.
  • information model coefficients of pre-learning, clustering results, etc.
  • local clustering (additional learning) is performed for sparse local sampling pixels in each voxel 654, and the sparse information obtained (additional learning).
  • Model coefficients, clustering results, etc.) are complemented by filtering using 3D data as a guide, and dense clustering results are derived.
  • the filtering performs a three-dimensional process of propagating the colors of adjacent pixels in the three-dimensional space. That is, in this case, the colors of adjacent pixels in the three-dimensional space are propagated.
  • the processing target pixel x i is derived from the peripheral pixels x j on the same CT image or the adjacent CT image.
  • the weighting coefficients Wi and j in this case are derived as in the above equation (3).
  • clustering is performed on the sparse sampling pixels selected from the CT volume 653 (all CT images 651), and the sparse information obtained (learning model coefficient) is performed.
  • Clustering results, etc. are complemented by filtering using 3D data as a guide, and dense clustering results are derived.
  • the filtering performs the above-mentioned three-dimensional processing.
  • the processing target pixel x i is derived from the peripheral pixels x j on the same CT image.
  • Wi and j are weighting coefficients and are derived as in the above equation (3).
  • the correlation of the image structure between the images is generally high, so that even in the case of 3D processing, more accurate clustering results can be obtained as in the case of 2D processing. Can be done. Therefore, even when the present technology is applied to the medical device as described above, it is possible to suppress an increase in processing time while suppressing a decrease in robustness of image clustering.
  • FIG. 30 shows a main configuration example of the image processing apparatus in this case.
  • the image processing device 700 shown in FIG. 30 is a device that performs clustering of CT images (CT volume), receives a captured image 710 that is a CT image (CT volume) as an input, clusters the captured image 710, and performs clustering thereof.
  • the clustered CT image 720 is output as a clustering result.
  • FIG. 30 shows the main things such as the processing unit and the flow of data, and not all of them are shown in FIG. 30. That is, in the image processing apparatus 700, there may be a processing unit that is not shown as a block in FIG. 30, or there may be a process or data flow that is not shown as an arrow or the like in FIG. 30.
  • the image processing apparatus 700 has a clustering unit 711 and an analysis unit 712.
  • the clustering unit 711 performs clustering on the captured image 710 and derives a dense clustering result.
  • the above-mentioned image processing apparatus can be applied to the clustering unit 711. That is, the clustering unit 711 has the same configuration as any of the above-mentioned image processing devices, and performs the same processing (clustering) to derive the clustering result from the captured image 710.
  • the clustering unit 711 supplies the clustering result to the analysis unit 712.
  • the analysis unit 712 performs processing related to image analysis based on the clustering result. For example, the analysis unit 712 acquires the clustering result supplied by the clustering unit 711. Further, the analysis unit 712 acquires the captured image 710. The analysis unit 712 analyzes and images the structure of the human body, which is the subject in the captured image 710, based on the clustering result. The analysis unit 712 outputs the generated CT image 720 as an analysis result. By doing so, the image processing apparatus 700 can generate a CT image 720 with suppressed reduction in robustness at a higher speed.
  • step S702 the clustering unit 711 performs a clustering process and obtains a dense clustering result.
  • the above-mentioned clustering process can be applied to this clustering process. That is, the clustering unit 711 derives a dense clustering result by performing the clustering process in the same flow as any one of the above-mentioned flowcharts.
  • step S703 the analysis unit 712 analyzes the image based on the clustering result obtained in step S702.
  • step S704 the analysis unit 712 outputs a CT image 720 as the analysis result obtained by the process of step S703.
  • the clustering process is completed.
  • the image processing apparatus 700 can obtain a more accurate clustering result. Therefore, the image processing apparatus 700 can generate a CT image 720 with suppressed reduction in robustness at a higher speed.
  • the series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed in the computer.
  • the computer includes a computer embedded in dedicated hardware and, for example, a general-purpose personal computer capable of executing various functions by installing various programs.
  • FIG. 32 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes by a program.
  • the CPU Central Processing Unit
  • ROM ReadOnly Memory
  • RAM RandomAccessMemory
  • the input / output interface 910 is also connected to the bus 904.
  • An input unit 911, an output unit 912, a storage unit 913, a communication unit 914, and a drive 915 are connected to the input / output interface 910.
  • the input unit 911 includes, for example, a keyboard, a mouse, a microphone, a touch panel, an input terminal, and the like.
  • the output unit 912 includes, for example, a display, a speaker, an output terminal, and the like.
  • the storage unit 913 is composed of, for example, a hard disk, a RAM disk, a non-volatile memory, or the like.
  • the communication unit 914 is composed of, for example, a network interface.
  • the drive 915 drives a removable medium 921 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 901 loads the program stored in the storage unit 913 into the RAM 903 via the input / output interface 910 and the bus 904 and executes the above-mentioned series. Is processed.
  • the RAM 903 also appropriately stores data and the like necessary for the CPU 901 to execute various processes.
  • the program executed by the computer can be recorded and applied to the removable media 921 as a package media or the like, for example.
  • the program can be installed in the storage unit 913 via the input / output interface 910 by mounting the removable media 921 in the drive 915.
  • the program can also be provided via wired or wireless transmission media such as local area networks, the Internet, and digital satellite broadcasts.
  • the program can be received by the communication unit 914 and installed in the storage unit 913.
  • this program can also be installed in advance in ROM 902 or storage unit 913.
  • this technology is a transmitter or receiver (for example, a television receiver or mobile phone) in satellite broadcasting, cable broadcasting such as cable TV, distribution on the Internet, and distribution to terminals by cellular communication, or It can be applied to various electronic devices such as devices (for example, hard disk recorders and cameras) that record images on media such as optical disks, magnetic disks, and flash memories, and reproduce images from these storage media.
  • devices for example, hard disk recorders and cameras
  • the present technology includes a processor as a system LSI (Large Scale Integration) (for example, a video processor), a module using a plurality of processors (for example, a video module), and a unit using a plurality of modules (for example, a video unit).
  • a processor as a system LSI (Large Scale Integration) (for example, a video processor), a module using a plurality of processors (for example, a video module), and a unit using a plurality of modules (for example, a video unit).
  • a processor as a system LSI (Large Scale Integration) (for example, a video processor), a module using a plurality of processors (for example, a video module), and a unit using a plurality of modules (for example, a video unit).
  • a processor as a system LSI (Large Scale Integration) (for example, a video processor), a module using a plurality of processors (for example,
  • this technology can be applied to a network system composed of a plurality of devices.
  • the present technology may be implemented as cloud computing that is shared and jointly processed by a plurality of devices via a network.
  • this technology is implemented in a cloud service that provides services related to images (moving images) to any terminal such as computers, AV (AudioVisual) devices, portable information processing terminals, and IoT (Internet of Things) devices. You may try to do it.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a device in which a plurality of modules are housed in one housing are both systems. ..
  • Systems, devices, processing units, etc. to which this technology is applied can be used in any field such as transportation, medical care, crime prevention, agriculture, livestock industry, mining, beauty, factories, home appliances, weather, nature monitoring, etc. .. The use is also arbitrary.
  • the configuration described as one device (or processing unit) may be divided and configured as a plurality of devices (or processing units).
  • the configurations described above as a plurality of devices (or processing units) may be collectively configured as one device (or processing unit).
  • a part of the configuration of one device (or processing unit) may be included in the configuration of another device (or other processing unit). ..
  • the above-mentioned program may be executed in any device.
  • the device may have necessary functions (functional blocks, etc.) so that necessary information can be obtained.
  • each step of one flowchart may be executed by one device, or may be shared and executed by a plurality of devices.
  • one device may execute the plurality of processes, or the plurality of devices may share and execute the plurality of processes.
  • a plurality of processes included in one step can be executed as processes of a plurality of steps.
  • the processes described as a plurality of steps can be collectively executed as one step.
  • the processing of the steps for writing the program may be executed in chronological order in the order described in the present specification, and may be executed in parallel or in a row. It may be executed individually at the required timing such as when it is broken. That is, as long as there is no contradiction, the processes of each step may be executed in an order different from the above-mentioned order. Further, the processing of the step for describing this program may be executed in parallel with the processing of another program, or may be executed in combination with the processing of another program.
  • a plurality of technologies related to this technology can be independently implemented independently as long as there is no contradiction.
  • any plurality of the present technologies can be used in combination.
  • some or all of the techniques described in any of the embodiments may be combined with some or all of the techniques described in other embodiments.
  • a part or all of any of the above-mentioned techniques may be carried out in combination with other techniques not described above.
  • the present technology can also have the following configurations.
  • a clustering unit that clusters sparse pixels contained in an image
  • An image processing apparatus including a complement processing unit that derives a dense clustering result by complementing the sparse information obtained by the clustering by the clustering unit by image filtering using an image signal as a guide.
  • the sparse information is a model coefficient or a clustering result obtained in the clustering.
  • sampling pixel selection unit selects the sampling pixel from a portion of the image included in the processing target area based on the information regarding the processing target area.
  • the image is a stitching image in which a plurality of images are bonded together.
  • the sampling pixel selection unit selects the sampling pixels based on stitching information which is information on overlapping of the plurality of images in the stitching image.
  • (6) The image processing apparatus according to any one of (3) to (5), wherein the sampling pixel selection unit selects the sampling pixel from the flat region of the image based on the information regarding the flat region.
  • the clustering unit uses sparse information obtained by wide-area clustering, which is clustering of sparse pixels included in a wide area of the image, as the clustering, to obtain sparse pixels included in a local region of the image.
  • Perform local clustering which is clustering, The image according to any one of (1) to (6), wherein the complement processing unit complements the sparse information obtained by the local clustering by the image filtering to derive a dense clustering result of the local region.
  • Processing device (8)
  • the sparse information obtained by the wide area clustering is a model coefficient or a clustering result.
  • the image processing apparatus according to (7).
  • the clustering unit further performs the local clustering of the local region of the processing target by using the sparse information obtained in the local clustering of the local region of the previous processing target (7) or.
  • a sampling pixel selection unit for selecting sparse sampling pixels from the local region is provided.
  • (11) The image processing apparatus according to (10), wherein the sampling pixel selection unit selects the sampling pixels from the pixels in the local region excluding the pixels on which the wide area clustering is performed.
  • the image processing apparatus according to any one of (7) to (11), wherein the clustering unit performs the local clustering using the information obtained in the wide area clustering performed by the wide area clustering unit. (13) Clustering of sparse pixels included in the image is performed. An image processing method for deriving a dense clustering result by complementing the sparse information obtained by the clustering by image filtering using an image signal as a guide.
  • 100 image processing device 111 sampling pixel selection unit, 112 clustering unit, 113 complementary processing unit, 201 field area storage unit, 231 stitching information storage unit, 261 flat area storage unit, 300 image processing unit, 311 pre-learning unit, 312 Additional learning unit, 313 coefficient storage unit, 321 sampling pixel selection unit, 322 clustering unit, 351 sampling pixel storage unit, 400 image processing device, 411 sampling pixel selection unit, 412 clustering unit, 413 optimization unit, 500 image processing unit, 511 clustering unit, 512 vegetation area determination unit, 700 image processing device, 711 clustering unit, 712 analysis unit, 900 computer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本開示は、画像のクラスタリングの処理時間の増大を抑制することができるようにする画像処理装置および方法に関する。 画像に含まれる疎な画素のクラスタリングを行い、そのクラスタリングにより得られる疎な情報を、画像信号をガイドにした画像フィルタリングにより補完することにより、密なクラスタリング結果を導出する。例えば、疎な情報は、クラスタリングにおいて得られるモデル係数またはクラスタリング結果である。本開示は、例えば、画像処理装置や画像処理方法等に適用することができる。

Description

画像処理装置および方法
 本開示は、画像処理装置および方法に関し、特に、画像のクラスタリングの処理時間の増大を抑制することができるようにした画像処理装置および方法に関する。
 従来、画像のクラスタリングは様々な画像処理に利用されている(例えば特許文献1参照)。例えば、特許文献1には、画像に対してクラスタリングを行い、そのクラスデータを用いて画素補間を行い、間引き画素を復元する方法が開示されている。
特開平5-328185号公報
 しかしながら、従来の方法のクラスタリングでは、処理対象の画像の全画素をクラスタリングするので処理時間が増大するおそれがあった。
 本開示は、このような状況に鑑みてなされたものであり、画像のクラスタリングの処理時間の増大を抑制することができるようにするものである。
 本技術の一側面の画像処理装置は、画像に含まれる疎な画素のクラスタリングを行うクラスタリング部と、前記クラスタリング部による前記クラスタリングにより得られる疎な情報を、画像信号をガイドにした画像フィルタリングにより補完することにより、密なクラスタリング結果を導出する補完処理部とを備える画像処理装置である。
 本技術の一側面の画像処理方法は、画像に含まれる疎な画素のクラスタリングを行い、前記クラスタリングにより得られる疎な情報を、画像信号をガイドにした画像フィルタリングにより補完することにより、密なクラスタリング結果を導出する画像処理方法である。
 本技術の他の側面の画像処理装置は、画像の広域に含まれる疎な画素のクラスタリングである広域クラスタリングにおいて得られる情報を用いて、前記画像の局所領域に含まれる密な画素のクラスタリングである局所クラスタリングを行うクラスタリング部を備える画像処理装置である。
 本技術の他の側面の画像処理方法は、画像の広域に含まれる疎な画素のクラスタリングである広域クラスタリングにおいて得られる情報を用いて、前記画像の局所領域に含まれる密な画素のクラスタリングである局所クラスタリングを行う画像処理方法である。
 本技術の一側面の画像処理装置および方法においては、画像に含まれる疎な画素のクラスタリングが行われ、そのクラスタリングにより得られる疎な情報が、画像信号をガイドにした画像フィルタリングにより補完されることにより、密なクラスタリング結果が導出される。
 本技術の他の側面の画像処理装置および方法においては、画像の広域に含まれる疎な画素のクラスタリングである広域クラスタリングにおいて得られる情報が用いられて、その画像の局所領域に含まれる密な画素のクラスタリングである局所クラスタリングが行われる。
画像処理装置の主な構成例を示すブロック図である。 画像フィルタリングの様子の例を説明する図である。 疎なモデル係数の例を説明する図である。 ガイドの例を説明する図である。 密なモデル係数の例を説明する図である。 クラスタリング結果の例を説明する図である。 クラスタリング処理の流れの例を説明するフローチャートである。 画像処理装置の主な構成例を示すブロック図である。 圃場の例を説明する図である。 クラスタリング処理の流れの例を説明するフローチャートである。 画像処理装置の主な構成例を示すブロック図である。 スティッチング情報の例を説明する図である。 クラスタリング処理の流れの例を説明するフローチャートである。 画像処理装置の主な構成例を示すブロック図である。 クラスタリング処理の流れの例を説明するフローチャートである。 画像クラスタリングの概要の例を説明する図である。 画像処理装置の主な構成例を示すブロック図である。 クラスタリング処理の流れの例を説明するフローチャートである。 画像処理装置の主な構成例を示すブロック図である。 クラスタリング処理の流れの例を説明するフローチャートである。 画像処理装置の主な構成例を示すブロック図である。 クラスタリング結果比較の様子の例を説明する図である。 クラスタリング処理の流れの例を説明するフローチャートである。 画像処理装置の主な構成例を示すブロック図である。 クラスタリング処理の流れの例を説明するフローチャートである。 画像処理装置の主な構成例を示すブロック図である。 クラスタリング処理の流れの例を説明するフローチャートである。 CT画像生成の様子の例を説明する図である。 グローバル領域とローカル領域との例を示すCT画像生成の様子の例を説明する図である。 画像処理装置の主な構成例を示すブロック図である。 クラスタリング処理の流れの例を説明するフローチャートである。 コンピュータの主な構成例を示すブロック図である。
 以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
 1.第1の実施の形態(疎なクラスタリングと画像フィルタリング)
 2.第2の実施の形態(広域クラスタリングと疎な局所クラスタリング)
 3.第3の実施の形態(広域クラスタリングと密な局所クラスタリング)
 4.第4の実施の形態(植生領域解析におけるクラスタリング)
 5.第5の実施の形態(CT画像のクラスタリング)
 6.付記
 <1.第1の実施の形態>
  <画像のクラスタリング>
 従来、画像のクラスタリングは様々な画像処理に利用されている。例えば、特許文献1には、画像に対してクラスタリングを行い、そのクラスデータを用いて画素補間を行い、間引き画素を復元する方法が開示されている。
 また、例えば、所謂ドローンや飛行機等によって移動しながら圃場を上空から複数回撮像し、その撮像画像を用いて植生の解析(植生と土壌の分類等)を行う際に、画像のクラスタリングが利用される。
 しかしながら、従来の方法のクラスタリングでは、処理対象の画像の全画素をクラスタリングするので、処理時間が増大するおそれがあった。
  <疎なクラスタリングと画像フィルタリング>
 そこで、画像に含まれる疎な画素のクラスタリングを行い、そのクラスタリングにより得られる疎な情報を、画像信号をガイドにした画像フィルタリングにより補完することにより、密なクラスタリング結果を導出する。この画像フィルタリングを行う情報は、例えば、学習のモデル係数やクラスタリング結果等であってもよい。この画像フィルタリングによる「補完」は、情報の補間(欠損データの穴埋め)だけでなく、適宜、画像構造に応じた最適化等も行われることを意味する。つまり、この画像フィルタリングにより、最適化された密なクラスタリング結果が得られる。
 例えば圃場の撮像画像の場合、屋外環境下で撮像が行われるため、撮像作業中の照明環境の変化が大きく、キャストシャドウやシェーディング等により、同一被写体内での信号分布にムラが生じる(同一被写体の複数の画素間で互いに異なる信号特性を有する)可能性があった。上述のようにクラスタリングを行うことにより、このような場合においても、周囲の画像構造情報を用いたクラスタリング結果を高速に得ることが可能となる。つまり、本技術を適用することにより、ガイド画像の幾何構造に沿った正則化をクラスタリング結果に反映させることができるため、屋外で照明環境の変化が大きい画像や、キャストシャドウやシェーディングにより同一被写体内での信号分布にムラがある画像であっても、被写体毎にクラス分類された結果を得ることができる。
  <画像処理装置>
 図1は、本技術を適用した画像処理装置の構成の一例を示すブロック図である。図1に示される画像処理装置100は、画像クラスタリングを行う装置である。画像処理装置100は、撮像画像20を入力とし、その撮像画像20について画像クラスタリングを行い、そのクラスタリング結果30を出力する。
 撮像画像20は、例えば、複数の撮像画像(P1乃至Pn)を張り合わせたスティッチング画像であってもよい。また、複数のフレーム画像からなる動画像であってもよい。さらに、複数の撮像画像を1つにまとめたファイル(撮像画像群)であってもよいし、1枚の撮像画像であってもよい。もちろん、撮像画像以外の画像(例えばCG画像等)であってもよい。また、この撮像画像20は、可視光(RGB)の波長域の画像であってもよいし、近赤外光のような不可視光の波長域を画像化したものであってもよい。また、それらの両方であってもよい。
 なお、図1においては、処理部やデータの流れ等の主なものを示しており、図1に示されるものが全てとは限らない。つまり、この画像処理装置100において、図1においてブロックとして示されていない処理部が存在したり、図1において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
 図1に示されるように、画像処理装置100は、サンプリング画素選択部111、クラスタリング部112、および補完処理部113を有する。
 サンプリング画素選択部111は、クラスタリングの対象画素であるサンプリング画素の選択に関する処理を行う。例えば、サンプリング画素選択部111は、撮像画像20を取得する。また、サンプリング画素選択部111は、その撮像画像20の一部の画素をサンプリング画素として選択する。その際、サンプリング画素選択部111は、疎な状態となるようにサンプリング画素を選択する。
 「疎な状態」とは、撮像画像の一部の画素により構成される画素群(または、その画素群に対応する情報)の状態であり、少なくとも、後述する「密な状態」よりも少ない画素により構成される画素群(または、その画素群に対応する情報)の状態を示す。例えば、互いに隣接しない位置関係にある画素により構成される画素群(または、その画素群に対応する情報)を「疎な状態」としてもよい。つまり、サンプリング画素の場合、撮像画像20において互いに隣接しない位置関係にある画素のみが選択されたサンプリング画素を、疎な状態のサンプリング画素(疎なサンプリング画素とも称する)としてもよい。また、所定の画像から所定の閾値より少ない割合(数)で選択された画素群(または、その画素群に対応する情報)を「疎な状態」としてもよい。つまり、サンプリング画素の場合、撮像画像20の画素数に対して所定の閾値より少ない割合(数)で選択されたサンプリング画素を、疎なサンプリング画素としてもよい。
 サンプリング画素選択部111は、選択した疎なサンプリング画素をクラスタリング部112に供給する。
 クラスタリング部112は、クラスタリングに関する処理を行う。例えば、クラスタリング部112は、サンプリング画素選択部111から供給される疎なサンプリング画素を取得する。クラスタリング部112は、その取得した疎なサンプリング画素を処理対象とし、クラスタリングを行う。このクラスタリングの方法は任意である。例えば、GMMやk-means法等を適用してもよい。クラスタリング部112は、このクラスタリングにより得られる疎な情報を補完処理部113に供給する。
 この疎な情報は、疎なサンプリング画素のクラスタリングにより得られる、各サンプリング画素に対応する(すなわち疎な状態の)情報である。例えば、学習のモデル係数であってもよいし、クラスタリング結果であってもよいし、その両方であってもよい。
 補完処理部113は、疎な情報の補完に関する処理を行う。例えば、補完処理部113は、クラスタリング部112から供給される疎な情報(学習のモデル係数やクラスタリング結果等)を取得する。また、補完処理部113は、撮像画像20を取得する。
 この撮像画像20は、サンプリング画素選択部111に供給される撮像画像(つまり、クラスタリングされる撮像画像)と同一であってもよいし、クラスタリングされる撮像画像と略同時刻、略同範囲の、そのクラスタリングされる撮像画像と異なる撮像画像であってもよい。例えば、クラスタリングされる撮像画像を得るための撮像と略同時刻、略同画角の他の撮像により得られた他の撮像画像であってもよい。例えば、可視光(RGB)の波長域の撮像画像20がサンプリング画素選択部111に供給され、近赤外光のような不可視光の波長域を画像化した撮像画像20が補完処理部113に供給されるようにしてもよい。
 補完処理部113は、クラスタリング部112から取得した疎な情報に対して、画像信号(取得した撮像画像20)をガイドにした画像フィルタリング(補完処理)を行い、密な状態のクラスタリング結果を導出する。
 「密な状態」とは、撮像画像の一部または全部の画素により構成される画素群(または、その画素群に対応する情報)の状態であり、少なくとも、上述した「密な状態」よりも多い画素により構成される画素群(または、その画素群に対応する情報)の状態を示す。例えば、互いに隣接する位置関係にある画素も含む画素群(または、その画素群に対応する情報)を「密な状態」としてもよい。つまり、クラスタリング結果の場合、撮像画像20において互いに隣接する位置関係にある画素も含むサンプリング画素のクラスタリング結果を、密な状態の(密なサクラスタリング結果とも称する)としてもよい。また、所定の画像から所定の閾値以上の割合(数)で選択された画素群(または、その画素群に対応する情報)を「密な状態」としてもよい。つまり、クラスタリング結果の場合、撮像画像20の画素数に対して所定の閾値以上の割合(数)で選択されたサンプリング画素のクラスタリング結果を、密なクラスタリング結果としてもよい。
 例えば、補完処理部113は、各クラスに対する各画素の尤度(尤度画像)を入力として、元画像をガイドに使用した画像フィルタリングを順次適用して補完し、そのフィルタリング後の尤度画像から、クラスを再決定することで、密なクラスタリング結果を獲得する。画像フィルタリングにより、ガイド画像の幾何構造に沿った正則化をクラスタリング結果に反映させることができるため、補完処理部113は、屋外で照明環境の変化が大きい画像や、キャストシャドウやシェーディングにより同一被写体内での信号分布にムラがある画像であっても、被写体毎にクラス分類された結果を得ることができる。例えば、同一被写体の同一色の部分の一部が日陰となることにより明暗の差によって他のクラスに分類されてしまうといった現象の発生を抑制することができる。
 補完処理部113は、その補完処理により得られたクラスタリング結果30(密なクラスタリング結果)を、画像処理装置100による画像処理結果として、画像処理装置100の外部に出力する。
  <画像フィルタリング>
 この画像フィルタリング(補完処理)の方法は任意である。画像フィルタリングには、Fast Global Smotherフィルタリング、Domain Transformフィルタリング、Fast Bilateral Solverフィルタリング、またはDomain Transform Solverフィルタリング等の、高速に動作するエッジ保存型のフィルタリングを用いることで、全画素で予測するよりも高速で、且つ、ノイズや外乱影響に頑健なクラスタリング結果を得ることができる。
 例えば、補完処理部113は、Jianbo Li, et.al, "KM_GrabCut: a fast interactive image segmentation algorithm", ICGIP2014.(非特許文献1とも称する)に記載のGrabCutにより、クラスタリング結果のエネルギー最小化を行い、C. Rhemann, et.al, "Fast Cost-Volume Filtering for Visual Correspondence and Beyond", CVPR2011.(非特許文献2とも称する)に記載のCost-Volume Filteringによる広域最適化を行い、D. Min, et.al, "Fast Global Image Smoothing Based on Weighted Least Squares", IEEE TIP2014.(非特許文献3とも称する)に記載のFGSフィルタを利用することで、情報の高密度化を行ってもよい。
 非特許文献3に記載のFGWLS(Fast Global Weighted Least Squares Filter)は、Z Farbman, et Al., “Edge-Preserving Decompositions for Multi-Scale Tone and Detail Manipulation,” Proceedings of ACM SIGGRAPH 2008.(非特許文献4とも称する)に記載のWLS(Weighted Least Squares Filter)を1次元リカーシブフィルタに分解し、x,y軸方向に繰り返し適用することで、定数時間動作で全体最適解を得る処理である。この処理により、テクスチャやエッジ等の画像構造に従って(その構造に基づいて求められる画素間の隣接関係に応じて)、疎なデータが拡張され、高密化される。
 例えば、図2のAに示されるように、グレーと白色の渦巻き状の絵柄からなる画像130をガイドとして、斜線模様で示される第1の色の領域131の画素と、網目模様で示される第2の色の領域132の画素とに対して、上述のような画像フィルタリングを行うとする。第1の色の領域131は、画像130のグレーの領域に位置する。第2の色の領域132は、画像130の白色の領域に位置する。
 隣接画素の線形リカーシブ演算をx,y方向に繰り返し実施することにより、図2のB、図2のC、図2のDのように、第1の色の領域131が、画像130のグレーの領域において拡大していく。同様に、第2の色の領域132が、画像130の白色の領域において拡大していく。そして、図2のDの状態に居て、画像130上の領域が、第1の色の領域131と第2の色の領域132とで埋められる。つまり、図2のAにおいては疎な状態であった(画像130上の領域の中の僅かな部分であった)第1の色の領域131と第2の色の領域132とが、図2のDにおいては密な状態(画像130上の領域を埋め尽くした状態)になる。
 このように、画像フィルタリングを行うことにより、ガイドとした画像の構造に従って疎なデータを補完し、高密度化することができる。したがって、画像処理装置100は、より正確なクラスタリング結果を得ることができる。なお、上述したように、このフィルタリングによる「補完」は、情報の補間(欠損データの穴埋め)だけでなく、適宜、画像構造に応じた最適化等も行われることを意味する。つまり、この画像フィルタリングにより、最適化された密なクラスタリング結果が得られる。したがって、画像処理装置100は、より正確なクラスタリング結果を得ることができる。
 画像フィルタリングは、上述の例の他、Eduardo SL Gastal and Manuel M Oliveira, "Domain transform for edge-aware image and video processing", In ACM Transactions on Graphics (TOG), volume 30, page 69. ACM, 2011.(非特許文献5とも称する)、Jonathan T Barron and Ben Poole, "The Fast Bilateral Solver", In European Conference on Computer Vision (ECCV), pages 617-632. Springer International Publishing, 2016.(非特許文献6とも称する)、Akash Bapat, Jan-Michael Frahm, "The Domain Transform Solver", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 6014-6023.(非特許文献7とも称する)等に記載のルールベースのフィルタリングを適用してもよい。また、Hang Su, Varun Jampani, Deqing Sun, Orazio Gallo, Erik Learned-Miller, Jan Kautz, "Pixel-Adaptive Convolutional Neural Networks", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.(非特許文献8とも称する)、Yu-Kai Huang, Tsung-Han Wu, Yueh-Cheng Liu, Winston H. Hsu, "Indoor Depth Completion with Boundary Consistency and Self-Attention", (ICCV), 2019.(非特許文献9とも称する)、Jie Tang, Fei-Peng Tian, Wei Feng, Jian Li, Ping Tan, "Learning Guided Convolutional Network for Depth Completion", arXiv preprint arXiv:1908.01238, 2019.(非特許文献10とも称する)等に記載の深層学習(DNN(Deep Neural Network))ベースのフィルタリングを適用してもよい。
 クラスタリング部112は、上述したようにクラスタリングを行い、疎な情報(モデル係数やクラスタリング結果等)を補完処理部113に供給する。
 図3は、モデル係数の一部を可視化した結果の例を示す図である。例えば、補完処理部113に、クラスタリング部112から図3のAに示されるような疎なモデル係数141が供給されるとする。図3のBのモデル係数142は、図3のAのモデル係数141の一部を拡大したものである。モデル係数142において示されるグレーの点群が、その位置の画素のモデル係数を示している。このようにモデル係数141は、疎な情報(一部の画素のモデル係数)により構成される。
 図3のCは、このような疎なモデル係数141の構造を模式的に示す図である。図3のCにおいて、グレーで示される四角はモデル係数が存在する画素を示している。この例に示されるように、モデル係数141は、所定の大きさの領域143毎に設けられた1画素分のモデル係数144により構成される。例えば、領域143を4x4画素とすると、モデル係数141のデータ量は、密な場合(全画素のモデル係数)の16分の1となる。
 このような疎なモデル係数141に対して、補完処理部113は、画像信号をガイドとして画像フィルタリングを行う。図4は、そのガイドとする画像の一部の例を示す図である。例えば、補完処理部113は、疎なモデル係数141に対して、撮像画像20に含まれる画像151(図4のA)をガイドとして画像フィルタリングを行う。図4のBに示される画像152は、画像151の一部を拡大したものである。
 図5は、その画像フィルタリングにより得られるモデル係数の一部を可視化した結果の例を示す図である。例えば、補完処理部113による画像フィルタリングにより、図5のAに示されるようなモデル係数161が得られる。図5のBに示されるモデル係数162は、モデル係数161の一部を拡大したものである。モデル係数142(図3のB)と比較して明らかなように、モデル係数162(すなわちモデル係数161)は、密な状態となっている。
 図5のCはこのようなモデル係数161の構造を模式的に示す図である。図5のCにおいて、グレーで示される四角はモデル係数が存在する画素を示している。つまり、この例の場合、モデル係数161は、全画素のモデル係数により構成される。例えば、領域163が4x4画素であるとすると、各領域163には、16画素分のモデル係数164が存在する。したがって、モデル係数161(図5のA)のデータ量は、モデル係数141(図3のA)のデータ量の16倍である。
 図6のAに示されるクラスタリング結果171は、このような密なモデル係数161を用いて導出されたクラスタリング結果の例を示す。図6のBに示されるクラスタリング結果172は、クラスタリング結果171の一部を拡大したものである。このように、画像フィルタリングを行うことにより、疎なモデル係数から、密なクラスタリング結果が得られる。
 例えば、図3のCおよび図5のCの構造例の場合、疎なモデル係数141が得られるクラスタリングの処理時間は、クラスタリングに用いる手法による差はあるが、例えば、単純なk-means法であっても、計算量のオーダーOはデータ数をNとして、反復回数を定数kとして扱えばO=(Nk).であり、密なモデル係数161が得られるクラスタリング処理時間の約16分の1である。画像フィルタリングの処理時間を加味すると、全体の処理時間は、密なモデル係数161をクラスタリングにより得る場合の約3分の1乃至4分の1程度となる。つまり、上述のように、疎なクラスタリングと画像フィルタリングを適用することにより、画像処理装置100は、より高速に密なクラスタリング結果を得ることができる。つまり、処理時間の増大を抑制することができる。
  <クラスタリング処理の流れ>
 このような画像処理装置1000が実行するクラスタリング処理の流れの例を、図7のフローチャートを参照して説明する。クラスタリング処理が開始されると、サンプリング画素選択部111は、ステップS101において、撮像画像20を取得する。
 ステップS102において、サンプリング画素選択部111は、ステップS101において取得した撮像画像から疎なサンプリング画素を選択し、決定する。
 ステップS103において、クラスタリング部112は、ステップS102において決定された疎なサンプリング画素に対するクラスタリングを行う。
 ステップS104において、補完処理部113は、撮像画像20を取得し、その撮像画像20をガイドとし、ステップS103の処理により得られる疎な情報(学習のモデル係数やクラスタリング結果)に対して画像フィルタリングを行い、その疎な情報を補完して密なクラスタリング結果を導出する。
 ステップS105において、補完処理部113は、ステップS104の処理により得られる密なクラスタリング結果を、クラスタリング結果30として出力する。ステップS105の処理が終了すると、クラスタリング処理が終了する。
 以上のように各処理を実行することにより、画像処理装置100は、画像のクラスタリングの処理時間の増大を抑制することができる。
  <圃場情報の利用>
 例えば、圃場を対象として植生の解析(植生と土壌の分類等)を行う際に、その圃場を上空から撮像した複数の撮像画像を張り合わせたスティッチング画像に対してクラスタリングを行う方法がある。そのような場合、スティッチング画像に含まれる領域の内、その圃場以外の領域のクラスタリングは不要である。しかしながら、一般的に、圃場の範囲に合わせて撮像を行い、圃場の外を撮像しないように制御することは困難であり、撮像画像を張り合わせたスティッチング画像には、圃場外の領域も含まれる。そのため、スティッチング画像全体を対象としてクラスタリングを行うと、圃場外の領域についてもクラスタリングを行うことになるため、不要な処理により処理時間が不要に増大する可能性がある。
 そこで、圃場内の画素のみをサンプリング画素として選択する(つまり、圃場外の領域の画素をサンプリング画素として選択しないようにする)。圃場情報(フィールドバウンダリー情報)は、圃場に関する情報であり、例えば、画像のクラスタリングを行う対象領域である圃場の範囲を示す情報である。そこで、このような圃場情報を用いて、撮像画像内に含まれる圃場の領域を特定し、その特定した圃場内においてのみサンプリング画素を選択するようにする。このようにすることにより、不要なクラスタリングの増大を抑制し、不要な処理時間の増大を抑制することができる。
  <画像処理装置>
 図8は、この場合の画像処理装置100の主な構成例を示すブロック図である。撮像画像20は、クラスタリングの処理対象となる圃場を上空から撮像した複数の撮像画像を張り合わせたスティッチング画像であるものとする。図8に示されるように、画像処理装置100は、この場合、図1に示される構成に加え、圃場領域記憶部201を有する。
 圃場領域記憶部201は、記憶媒体を有し、処理対象となる圃場の領域(圃場領域)を示す情報をその記憶媒体(の記憶領域)に記憶する。この圃場領域を示す情報はどのような情報であってもよい。例えば、GPS(Global Positioning System)等に基づく座標情報(GPS座標情報とも称する)を用いて圃場領域を示す情報であってもよいし、撮像画像20のどの画素が圃場領域内であるかを示す情報であってもよいし、これら以外であってもよい。
 圃場領域記憶部201は、例えばサンプリング画素選択部111の要求に応じて、自身の記憶媒体(の記憶領域)に記憶されている、圃場の領域を示す情報を、圃場情報として、サンプリング画素選択部111に供給する。
 サンプリング画素選択部111は、その圃場情報を取得し、その圃場情報に基づいて、撮像画像20に含まれる圃場領域を特定する。例えば、GPS座標情報を用いて圃場領域を示す圃場情報の場合、サンプリング画素選択部111は、撮像画像のメタデータ等に含まれるその撮像画像20の撮像範囲を示すGPS座標情報と照らし合わせることにより、撮像画像20の圃場領域内に対応する画素を特定する。
 例えば、図9のAに示されるような撮像画像の一部である圃場領域211を処理対象とする。圃場領域記憶部201は、この圃場領域211を示す情報を記憶しており、その圃場情報をサンプリング画素選択部111に供給する。サンプリング画素選択部111は、その圃場情報に基づいて、図9のBに示されるように、この圃場領域211内においてサンプリング画素の選択を行い、圃場領域211以外におけるサンプリング画素の選択を省略する。
 この場合もサンプリング画素の選択方法は、図1の場合と同様である。つまり、サンプリング画素選択部111は、圃場情報により示される圃場領域211内において、疎なサンプリング画素を選択し、クラスタリング部112に供給する。
 このようにすることにより、クラスタリング部112が処理対象とするサンプリング画素は、圃場領域内の画素のみにより構成される。つまり、クラスタリング部112や補完処理部113が圃場領域外の画素を処理対象としないようにすることができる。したがって、画像処理装置100は、不要なクラスタリングの増大を抑制し、不要な処理時間の増大を抑制することができる。
  <クラスタリング処理の流れ>
 この場合のクラスタリング処理の流れの例を、図10のフローチャートを参照して説明する。クラスタリング処理が開始されると、サンプリング画素選択部111は、ステップS121において、撮像画像20を取得する。また、サンプリング画素選択部111は、圃場領域記憶部201から圃場情報を取得する。
 ステップS122において、サンプリング画素選択部111は、その圃場情報に基づいて、ステップS121において取得した撮像画像に含まれる圃場領域から疎なサンプリング画素を選択し、決定する。
 ステップS123乃至ステップS125の各処理は、ステップS103乃至ステップS105の各処理(図7)と同様に実行される。ステップS125の処理が終了するとクラスタリング処理が終了する。
 以上のように各処理を実行することにより、画像処理装置100は、画像のクラスタリングの処理時間の増大を抑制することができる。
  <スティッチング情報の利用>
 例えば上述したように圃場の一部を撮像した複数の撮像画像を張り合わせて、圃場全体を含むスティッチング画像を生成する場合、一般的に、各撮像画像の領域は互いに重畳する部分を含む。換言するに、一般的に、各撮像画像の領域が互いに重畳しないように撮像を制御することは困難である。
 仮に、各撮像画像においてサンプリング画素の選択を互いに独立に行うと、複数の撮像画像が重畳する領域の画素は、その複数の撮像画像のそれぞれについてサンプリング画素として選択される可能性がある。つまり、複数の撮像画像において、互いに同一の位置の画素がサンプリング画素として選択される可能性がある。仮にこのように互いに同一の位置の複数のサンプリング画素が発生すると、クラスタリングが1つの位置について複数回行われることになる。したがって、このような冗長な処理により処理時間が不要に増大する可能性がある。
 スティッチング画像は、このような複数の撮像画像が重畳する領域について、いずれか1つの撮像画像が選択され、複数の撮像画像が重畳しないような状態で各撮像画像が繋ぎ合わされて生成される。つまり、各撮像画像において、他の撮像画像と重畳しないようにスティッチング張り合わせ領域が設定され、その各撮像画像のスティッチング張り合わせ領域同士が張り合わせられてスティッチング画像が生成される。
 また、撮像画像にクラスタリングの対象となる領域外(例えば圃場領域外)が含まれる場合、そのような領域の画素がサンプリング画素として選択される可能性がある。そのような場合、クラスタリングを行う必要のない領域の画素についてもクラスタリングを行う可能性があり、不要な処理により処理時間が不要に増大する可能性がある。
 上述のスティッチング張り合わせ領域は、このような不要な領域も含まないように設定することができる。したがって、各撮像画像のスティッチング張り合わせ領域を張り合わせることにより、クラスタリングの処理対象とならない領域を含まないスティッチング画像を生成することができる。
 そこで、このようなスティッチング張り合わせ領域内の画素のみをサンプリング画素として選択する。つまり、複数の撮像画像が重畳する領域は、いずれか1つの撮像画像においてのみサンプリング画素の選択が行われるようにする。また、クラスタリングの対象とならない領域の画素は含まないようにサンプリング画素の選択が行われるようにする。
 スティッチング情報は、各撮像画像の、このようなスティッチング張り合わせ領域を示す情報を含む情報である。つまり、スティッチング情報は、撮像画像同士の重なりやクラスタリングの処理対象となる領域に関する情報を含む。そこで、このようなスティッチング情報を用いて、スティッチング張り合わせ領域を特定し、その特定したスティッチング張り合わせ領域内においてのみサンプリング画素を選択するようにする。このようにすることにより、冗長なクラスタリングや不要なクラスタリングの増大を抑制し、不要な処理時間の増大を抑制することができる。
  <画像処理装置>
 図11は、この場合の画像処理装置100の主な構成例を示すブロック図である。撮像画像20は、クラスタリングの処理対象となる圃場を上空から撮像した複数の撮像画像を張り合わせたスティッチング画像であるものとする。図11に示されるように、画像処理装置100は、この場合、図1に示される構成に加え、スティッチング情報記憶部231を有する。
 スティッチング情報記憶部231は、記憶媒体を有し、各撮像画像のスティッチング張り合わせ領域を示す情報を含むスティッチング情報をその記憶媒体(の記憶領域)に記憶する。このスティッチング張り合わせ領域を示す情報はどのような情報であってもよい。例えば、GPS座標情報を用いてスティッチング張り合わせ領域を示す情報であってもよいし、撮像画像における座標情報を用いてスティッチング張り合わせ領域を示す情報であってもよい。
 スティッチング情報記憶部231は、例えばサンプリング画素選択部111の要求に応じて、自身の記憶媒体(の記憶領域)に記憶されているスティッチング情報を、サンプリング画素選択部111に供給する。
 サンプリング画素選択部111は、そのスティッチング情報を取得し、そのスティッチング情報に基づいて、各撮像画像のスティッチング張り合わせ領域を特定する。例えば、図12のAに示されるように、スティッチング画像240の生成に用いられる撮像画像241においてサンプリング画素を選択する場合、サンプリング画素選択部111は、スティッチング情報に基づいて(その周辺の撮像画像242や撮像画像243との重なりを考慮し)、図12のBに示される斜線部分のようなスティッチング張り合わせ領域を特定し、そのスティッチング張り合わせ領域においてサンプリング画素の選択を行う。
 図12のBの例の場合、撮像画像241と撮像画像242とが互いに重畳する領域は、撮像画像242のスティッチング張り合わせ領域とされるため、撮像画像242に対する処理において、サンプリング画素の選択が行われる。同様に、撮像画像241と撮像画像243とが互いに重畳する領域は、撮像画像243のスティッチング張り合わせ領域とされるため、撮像画像243に対する処理において、サンプリング画素の選択が行われる。
 また、図12のAに示されるように、スティッチング画像240の生成に用いられる撮像画像244においてサンプリング画素を選択する場合、サンプリング画素選択部111は、スティッチング情報に基づいて(クラスタリングの対象となる領域を考慮し)、図12のCに示される斜線部分のようなスティッチング張り合わせ領域を特定し、そのスティッチング張り合わせ領域においてサンプリング画素の選択を行う。
 図12のCの例の場合、撮像画像244の、スティッチング画像240の外の領域は、スティッチング張り合わせ領域外とされる。つまり、撮像画像244の、スティッチング画像240内の領域が、スティッチング張り合わせ領域とされる。
 この場合もサンプリング画素の選択方法は、図1の場合と同様である。つまり、サンプリング画素選択部111は、スティッチング情報により示されるスティッチング張り合わせ領域内において、疎なサンプリング画素を選択し、クラスタリング部112に供給する。
 このようにすることにより、画像処理装置100は、クラスタリングが1つの位置について複数回行われることや、不要な領域のクラスタリングが行われることを抑制することができる。つまり、画像処理装置100は、冗長なクラスタリングや不要なクラスタリングの増大を抑制し、不要な処理時間の増大を抑制することができる。
  <クラスタリング処理の流れ>
 この場合のクラスタリング処理の流れの例を、図13のフローチャートを参照して説明する。クラスタリング処理が開始されると、サンプリング画素選択部111は、ステップS141において、撮像画像20を取得する。また、サンプリング画素選択部111は、スティッチング情報記憶部231からスティッチング情報を取得する。
 ステップS142において、サンプリング画素選択部111は、そのスティッチング情報に基づいて、ステップS141において取得した撮像画像のスティッチング張り合わせ領域から疎なサンプリング画素を選択し、決定する。
 ステップS143乃至ステップS145の各処理は、ステップS103乃至ステップS105の各処理(図7)と同様に実行される。ステップS145の処理が終了するとクラスタリング処理が終了する。
 以上のように各処理を実行することにより、画像処理装置100は、画像のクラスタリングの処理時間の増大を抑制することができる。
  <平坦領域情報の利用>
 一般的に、撮像画像のコーナーやエッジの部分は、クラスが互いに異なる画素が接する部分であり、いずれの隣接画素から色を伝搬させて良いかの判断が困難である。つまり、平坦領域の方がコーナーやエッジよりもクラスタリングの精度が高い。
 そこで、平坦領域の画素をクラスタリングすることができるように、平坦領域においてサンプリング画素を選択する。つまり、平坦領域に関する情報である平坦領域情報を用いて撮像画像の平坦領域を特定し、その平坦領域においてサンプリング画素を選択する。このようにすることにより、より正確なクラスタリング結果を得ることができる。
  <画像処理装置>
 図14は、この場合の画像処理装置100の主な構成例を示すブロック図である。図14に示されるように、画像処理装置100は、この場合、図1に示される構成に加え、平坦領域検出部261を有する。
 平坦領域検出部261は、平坦領域の検出に関する処理を行う。例えば、平坦領域検出部261は、撮像画像20を取得する。
 この撮像画像20は、サンプリング画素選択部111に供給される撮像画像(つまり、クラスタリングされる撮像画像)や補完処理部113に供給される撮像画像(つまり、ガイドとして利用される撮像画像)と同一であってもよいし、クラスタリングされる撮像画像やガイドとして利用される撮像画像と略同時刻、略同範囲の、そのクラスタリングされる撮像画像やガイドとして利用される撮像画像と異なる撮像画像であってもよい。例えば、クラスタリングされる撮像画像やガイドとして利用される撮像画像を得るための撮像と略同時刻、略同画角の他の撮像により得られた他の撮像画像であってもよい。例えば、可視光(RGB)の波長域の撮像画像20がサンプリング画素選択部111や補完処理部113に供給され、近赤外光のような不可視光の波長域を画像化した撮像画像20が平坦領域検出部261に供給されるようにしてもよい。
 また、平坦領域検出部261は、その撮像画像の平坦領域を検出する。さらに、平坦領域検出部261は、検出した平坦領域を示す情報である平坦領域情報をサンプリング画素選択部111に供給する。
 サンプリング画素選択部111は、その平坦領域情報を取得し、その平坦領域情報に基づいて、撮像画像20に含まれる平坦領域においてサンプリング画素の選択を行う。この場合もサンプリング画素の選択方法は、図1の場合と同様である。つまり、サンプリング画素選択部111は、平坦領域内において、疎なサンプリング画素を選択し、クラスタリング部112に供給する。
 このようにすることにより、画像処理装置100は、より正確なクラスタリング結果を得ることができる。
  <クラスタリング処理の流れ>
 この場合のクラスタリング処理の流れの例を、図15のフローチャートを参照して説明する。クラスタリング処理が開始されると、サンプリング画素選択部111は、ステップS161において、撮像画像20を取得する。
 ステップS162において、平坦領域検出部261は、撮像画像20を取得し、その撮像画像20の平坦領域を検出する。
 ステップS163において、サンプリング画素選択部111は、ステップS161において取得した撮像画像の、ステップS162において検出された平坦領域から疎なサンプリング画素を選択し、決定する。
 ステップS164乃至ステップS166の各処理は、ステップS103乃至ステップS105の各処理(図7)と同様に実行される。ステップS166の処理が終了するとクラスタリング処理が終了する。
 以上のように各処理を実行することにより、画像処理装置100は、より正確なクラスタリング結果を得ることができる。
  <複数情報の利用>
 以上においては、画像処理装置100が、補助情報、スティッチング情報、または平坦領域情報のいずれかを用いてサンプリング画素の選択を行うように説明したが、これに限らず、例えば、画像処理装置100が、圃場情報、スティッチング情報、および平坦領域情報の内の少なくとも2つ以上を用いてサンプリング画素の選択を行うようにしてもよい。このようにすることにより、各情報を用いた場合の効果を得ることができる。もちろん、画像処理装置100が、これらの情報の内のいずれか1つ以上に加え、上述した以外の情報を用いてサンプリング画素の選択を行うようにしてもよい。
 <2.第2の実施の形態>
  <広域クラスタリングと疎な局所クラスタリング>
 画像のクラスタリングにおいて、例えば、広域(グローバル領域とも称する)の疎な画素のクラスタリングである広域クラスタリングにおいて得られる情報を用いて、局所領域(ローカル領域とも称する)の画素のクラスタリングである局所クラスタリングを行うようにしてもよい。
 例えば、図16の右側に示されるような、圃場を撮像した複数の撮像画像271(のスティッチング張り合わせ領域)を張り合わせたスティッチング画像270(圃場全体の撮像画像)に対してクラスタリングを行い、その圃場の植生の解析を行うとする。
 このようなクラスタリングにおいて、まず、圃場全体(スティッチング画像270全体)を広域とし、事前学習として、その広域(つまりスティッチング画像270全体)についての広域クラスタリングを行う。例えば、スティッチング画像270全体(広域全体)から、広域クラスタリングの対象となるサンプリング画素である広域サンプリング画素として、疎な広域サンプリング画素272(図中の白丸)を選択する。そして、その広域サンプリング画素272のクラスタリング(つまり、広域クラスタリング)を行う。
 次に、各撮像画像271(フレーム画像)を局所領域とし、追加学習として、広域クラスタリングにより得られる情報(例えば、学習のモデルやクラスタリング結果等)を用いて、各撮像画像271についての局所クラスタリングを行う。例えば、撮像画像271Aを処理対象とする場合、その撮像画像271Aから、局所クラスタリングの対象となるサンプリング画素である局所サンプリング画素として、局所サンプリング画素を選択する。そして、その局所サンプリング画素のクラスタリング(つまり、局所クラスタリング)を行う。
 なお、処理対象の撮像画像271Aの周辺の撮像画像(例えば、撮像画像271Aの1つ前に処理された撮像画像271Bや、撮像画像271Aの1つ後に処理される撮像画像271C等)からも局所サンプリング画素を選択するようにしてもよい。また、この追加学習は、1つ前の撮像画像の追加学習で得られる情報(つまり、撮像画像271Bの局所クラスタリングにより得られる情報(例えば、学習のモデルやクラスタリング結果等))を利用して行われるようにしてもよい(つまり、逐次学習でもよい)。
 このように広域クラスタリングにおいて得られる情報を用いることにより、一度推定したモデルを利用することができるので、局所クラスタリングにおいて高速に安定した(初期値変動の影響が少ない)モデルを得ることができる。また、広域クラスタリングにおいても疎なサンプリング画素を対象とすることにより、高速にクラスタリング結果を得ることができる。したがって、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
 このようなクラスタリング手法において、第1の実施の形態において説明した本技術を適用する。例えば、上述の局所クラスタリングにおいて、疎な局所サンプリング画素のクラスタリングを行い、そのクラスタリングにより得られる疎な情報(例えば、学習のモデルやクラスタリング結果等)を、画像信号をガイドにした画像フィルタリングにより補完することにより、密なクラスタリング結果を導出する。このようにすることにより、局所クラスタリングにおいて、第1の実施の形態において説明したように処理時間の増大を抑制することができる。
  <画像処理装置>
 図17は、その場合の画像処理装置の主な構成例を示すブロック図である。
 図17に示される画像処理装置300は、画像処理装置100と同様に、画像クラスタリングを行う装置である。つまり、画像処理装置300は、撮像画像20を入力とし、その撮像画像20について画像クラスタリングを行い、そのクラスタリング結果30を出力する。
 第1の実施の形態の場合と同様に、撮像画像20は、例えば、複数の撮像画像(P1乃至Pn)を張り合わせたスティッチング画像であってもよい。また、複数のフレーム画像からなる動画像であってもよい。さらに、複数の撮像画像を1つにまとめたファイル(撮像画像群)であってもよいし、1枚の撮像画像であってもよい。もちろん、撮像画像以外の画像(例えばCG画像等)であってもよい。また、この撮像画像20は、可視光(RGB)の波長域の画像であってもよいし、近赤外光のような不可視光の波長域を画像化したものであってもよい。また、それらの両方であってもよい。
 以下においては、撮像画像20が、図16の例のような圃場の一部を撮像した撮像画像271を張り合わせた圃場全体に対応するスティッチング画像270に対応するものとして説明する。また、広域(グローバル領域)をそのスティッチング画像270全体とし、局所領域(ローカル領域)を各撮像画像271(1フレーム分の撮像画像)として説明する。
 なお、図17においては、処理部やデータの流れ等の主なものを示しており、図17に示されるものが全てとは限らない。つまり、この画像処理装置300において、図17においてブロックとして示されていない処理部が存在したり、図17において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
 図17に示されるように、画像処理装置300は、事前学習部311、追加学習部312、および係数記憶部313を有する。
 事前学習部311は、事前学習として、広域(例えば撮像画像20全体)についての画像クラスタリング(広域クラスタリング)を行う。その際、事前学習部311は、疎な画素について広域クラスタリングを行う。事前学習部311は、サンプリング画素選択部321およびクラスタリング部322を有する。
 サンプリング画素選択部321は、広域クラスタリングの対象画素である広域サンプリング画素の選択に関する処理を行う。例えば、サンプリング画素選択部321は、撮像画像20を取得する。また、サンプリング画素選択部321は、その撮像画像20から、疎な状態となるように広域サンプリング画素を選択する。
 サンプリング画素選択部321は、選択した疎な広域サンプリング画素をクラスタリング部322に供給する。
 クラスタリング部322は、広域クラスタリングに関する処理を行う。例えば、クラスタリング部322は、サンプリング画素選択部321から供給される疎な広域サンプリング画素を取得する。クラスタリング部322は、その取得した疎な広域サンプリング画素を処理対象とし、広域クラスタリング(事前学習)を行う。この広域クラスタリングの方法は任意である。例えば、GMM(Gaussian Mixture Model)やk-means法等をこの事前学習に適用してもよい。
 クラスタリング部322は、この事前学習(広域クラスタリング)により得られる情報、例えば、事前学習のモデル係数や広域クラスタリング結果等を係数記憶部313に供給する。
 また、追加学習部312は、事前学習により得られる情報を初期値として用いて行う追加学習として、広域クラスタリングにより得られる情報を初期値として用いて、局所領域(例えば張り合わせた各撮像画像)についての画像クラスタリング(局所クラスタリング)を行う。追加学習部312は、画像処理装置100と同様に、疎なサンプリング画素のクラスタリングと、そのクラスタリングにより得られる疎な情報に対する撮像画像20をガイドとした画像フィルタリングを行うことにより、密なクラスタリング結果を導出する。
 画像処理装置100(図1)と同様に、追加学習部312は、サンプリング画素選択部111、クラスタリング部112、および補完処理部113を有する。
 サンプリング画素選択部111は、図1の場合と同様に、疎なサンプリング画素の選択に関する処理を行う。例えば、サンプリング画素選択部111は、撮像画像20を取得する。その際、スティッチング画像全体がサンプリング画素選択部111に供給されてもよいし、スティッチング画像を構成する各撮像画像(フレーム画像)が1枚ずつサンプリング画素選択部111に供給されてもよい。
 サンプリング画素選択部111は、その各撮像画像(局所領域)から疎なサンプリング画素(局所サンプリング画素)を選択する。その際、サンプリング画素選択部111は、処理対象の撮像画像の周辺の撮像画像(局所領域)、例えば、1つ前の処理対象であった撮像画像(局所領域)や1つ後の処理対象となる撮像画像(局所領域)も局所サンプリング画素の選択対象としてもよい。つまり、サンプリング画素選択部111が、処理対象の局所領域やこれらの周辺の局所領域から、疎な局所サンプリング画素を選択してもよい。
 サンプリング画素選択部111は、選択した局所サンプリング画素をクラスタリング部112に供給する。
 クラスタリング部112は、図1の場合と同様に、その疎な局所サンプリング画素の局所クラスタリングを行い、得られた疎な情報(例えば、追加学習のモデル係数や広域クラスタリング結果等)を補完処理部113に供給する。ただし、この場合のクラスタリング部112は、係数記憶部313に記憶されている事前学習(広域クラスタリング)により得られる情報、例えば事前学習のモデル係数や広域クラスタリング結果等を取得し、その事前学習により得られる情報(事前学習のモデル係数や広域クラスタリング結果等)を初期値とし、局所クラスタリングを行う。
 つまり、クラスタリング部112は、サンプリング画素選択部111から供給される疎な局所サンプリング画素を取得する。また、クラスタリング部112は、係数記憶部313に記憶されている事前学習(広域クラスタリング)により得られる疎な情報(例えば事前学習のモデル係数や広域クラスタリング結果等)を取得する。クラスタリング部112は、その取得した疎な局所サンプリングを処理対象とし、その事前学習により得られる情報(事前学習のモデル係数や広域クラスタリング結果等)を初期値とし、追加学習として、局所クラスタリングを行う。クラスタリング部112は、この追加学習(局所クラスタリング)により得られる疎な情報(例えば、追加学習のモデル係数や局所クラスタリング結果等)を補完処理部113に供給する。
 なお、クラスタリング部112は、さらに、1つ前の処理対象の局所領域に対する局所クラスタリング(前回の局所クラスタリング)において得られる情報も用いて、今回の処理対象の局所領域に対する局所クラスタリング(今回の局所クラスタリング)を行ってもよい。つまり、クラスタリング部112は、追加学習として、前回の学習モデルや学習結果等を利用する逐次学習を行ってもよい。
 その場合、クラスタリング部112は、逐次学習により得られる情報(例えば、逐次学習のモデル係数や局所クラスタリング結果等)を係数記憶部313に保持させる。つまり、クラスタリング部112は、係数記憶部313から、事前学習により得られる情報の他、前回の逐次学習により得られる情報も取得し、局所クラスタリング(逐次学習)を行う。そして、クラスタリング部112は、その逐次学習により得られる情報(例えば、逐次学習のモデル係数や局所クラスタリング結果等)を、補完処理部113に供給するとともに、係数記憶部313に供給し、記憶させる。この係数記憶部313に記憶された情報は、次回の逐次学習(次の処理対象となる局所領域に対する局所クラスタリング)に利用される。
 このような逐次学習により、広域クラスタリング結果と隣接の局所領域のクラスタリング結果を反映したクラスタリング結果を、局所領域において高速に導出することができる。したがって、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
 換言するに、追加学習として上述のような逐次学習を行わない場合、追加学習により得られる情報(追加学習のモデル係数や局所クラスタリング結果等)の係数記憶部313への供給(つまり、図17の矢印341)は省略することができる。
 補完処理部113は、図1の場合と同様に、疎な情報の補完に関する処理を行う。例えば、補完処理部113は、クラスタリング部112から供給された疎な情報(追加学習のモデル係数やクラスタリング結果)を取得する。また、補完処理部113は、その疎な情報に対して、画像信号をガイドにした画像フィルタリング(補完処理)を行い、局所クラスタリング結果として密なクラスタリング結果を導出する。補完処理部113は、その補完処理により得られたクラスタリング結果30(密なクラスタリング結果)を、画像処理装置100による画像処理結果として、画像処理装置100の外部に出力する。
 係数記憶部313は、事前学習部311(のクラスタリング部322)から供給される事前学習により得られる情報(事前学習のモデル係数や広域クラスタリング結果)を取得し、自身の記憶媒体(の記憶領域)に記憶する。また、追加学習部312が逐次学習を行う場合、係数記憶部313は、その追加学習部312(のクラスタリング部112)から供給される逐次学習により得られる情報(逐次学習のモデル係数や広域クラスタリング結果)を取得し、自身の記憶媒体(の記憶領域)に記憶する。さらに、係数記憶部313は、例えばクラスタリング部112の要求に基づいて、自身の記憶媒体(の記憶領域)に記憶されている、事前学習により得られる情報や逐次学習により得られる情報を、クラスタリング部112に供給する。
 画像処理装置300は、このような構成を有することにより、広域クラスタリングにおいて得られる情報を用いることにより、一度推定したモデルを利用することができるので、局所クラスタリングにおいて高速に安定した(初期値変動の影響が少ない)モデルを得ることができる。また、画像処理装置100は、広域クラスタリングにおいて、疎なサンプリング画素を対象とし、高速にクラスタリング結果を得ることができる。さらに、画像処理装置100は、疎な局所サンプリング画素を対象として局所サンプリング画素を行い、その局所サンプリングにおいて得られる疎な情報に対して、画像をガイドとする画像フィルタリングを行うことにより、高速に密なクラスタリング結果を導出する。したがって、画像処理装置300は、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
  <クラスタリング処理の流れ>
 この場合のクラスタリング処理の流れの例を、図18のフローチャートを参照して説明する。クラスタリング処理が開始されると、事前学習部311のサンプリング画素選択部321は、ステップS201において、グローバル領域(広域)の画像であるグローバル画像として、スティッチング画像の撮像画像20(例えばスティッチング画像270)を取得する。
 ステップS202において、サンプリング画素選択部321は、ステップS201において取得したグローバル画像から疎な広域サンプリング画素を選択し、決定する。
 ステップS203において、クラスタリング部322は、事前学習として、ステップS202において決定された疎な広域サンプリング画素に対する広域クラスタリングを行う。
 ステップS204において、係数記憶部313は、ステップS203において行われた事前学習により得られる情報(例えば、事前学習のモデル係数や広域クラスタリング結果)を記憶する。
 ステップS205において、追加学習部312のサンプリング画素選択部111は、ステップS201において取得されたグローバル画像に含まれる複数のローカル画像(ローカル領域(局所領域)の画像)の中から、処理対象のローカル画像を取得する。また、サンプリング画素選択部111は、その処理対象のローカル画像から疎な局所サンプリング画素を選択し、決定する。
 ステップS206において、クラスタリング部112は、追加学習として、ステップS205において決定された疎な局所サンプリング画素に対する局所クラスタリングを行う。その際、クラスタリング部112は、係数記憶部313に記憶されている事前学習により得られる情報や、前回の追加学習(逐次学習)により得られる情報を用いて、逐次学習を行う。
 ステップS207において、係数記憶部313は、ステップS206において行われた追加学習(逐次学習)により得られる情報(例えば、追加学習のモデル係数や局所クラスタリング結果)を記憶する。
 ステップS208において、補完処理部113は、撮像画像20を取得し、その撮像画像20をガイドとし、ステップS206の処理により得られる疎な情報(追加学習のモデル係数やクラスタリング結果)に対して画像フィルタリングを行い、その疎な情報を補完して密なクラスタリング結果を導出する。
 ステップS209において、追加学習部312は、全てのローカル画像について追加学習を行ったか否かを判定する。未処理のローカル画像が存在すると判定された場合、処理はステップS205に戻り、次のローカル画像を処理対象としてそれ以降の処理が実行される。つまり、各ローカル画像について、ステップS205乃至ステップS209の各処理が実行される。ステップS209において、全てのローカル画像が処理されたと判定された場合、処理はステップS210に進む。
 ステップS210において、補完処理部113は、以上のように最適化されたクラスタリング結果30を出力する。ステップS210の処理が終了すると、クラスタリング処理が終了する。
 以上のように各処理を実行することにより、画像処理装置300は、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
 なお、追加学習として逐次学習を行わない場合、ステップS207の処理は省略することができる。また、ステップS206において、クラスタリング部112は、係数記憶部313に記憶されている事前学習により得られる情報を用いて、追加学習を行う。
  <広域サンプリング画素の参照>
 なお、広域サンプリング画素の選択結果を考慮して、局所サンプリング画素の選択を行ってもよい。例えば、広域サンプリング画素以外の画素から局所サンプリング画素を選択してもよい。つまり、広域サンプリング画素を局所サンプリング画素の候補から除外してもよい。
 また、追加学習部312(クラスタリング部112)が追加学習として、前回の局所クラスタリングにより得られる情報を用いて今回の局所クラスタリングを行う逐次学習を行う場合、サンプリング画素選択部111は、さらに、前回の局所サンプリング画素の選択結果を考慮して、今回の局所サンプリング画素の選択を行ってもよい。例えば、前回の局所サンプリング画素以外の画素から今回の局所サンプリング画素を選択してもよい。つまり、前回の局所サンプリング画素を今回の局所サンプリング画素の候補から除外してもよい。
 このように、追加学習において、広域サンプリング画素を除外して局所クラスタリングを行うことにより、クラスタリングの冗長性の増大を抑制し、画像のクラスタリングの頑健性の低減をより抑制することができる。また、逐次学習において、前回の局所サンプリング画素を除外して今回の局所クラスタリングを行うことにより、クラスタリングの冗長性の増大を抑制し、画像のクラスタリングの頑健性の低減をより抑制することができる。したがって、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
  <画像処理装置>
 図19は、その場合の画像処理装置300の主な構成例を示すブロック図である。図19に示されるように、この場合の画像処理装置300は、図17の例の構成に加え、サンプリング画素記憶部351を有する。
 この場合、事前学習部311のサンプリング画素選択部321は、選択した広域サンプリング画素を、クラスタリング部322に供給するとともに、サンプリング画素記憶部351にも供給する。
 サンプリング画素記憶部351は、記憶媒体を有し、サンプリング画素の記憶に関する処理を行う。例えば、サンプリング画素記憶部351は、事前学習部311(のサンプリング画素選択部321)から供給される広域サンプリング画素を取得し、自身の記憶媒体(の記憶領域)に記憶する。
 また、サンプリング画素記憶部351は、例えばサンプリング画素選択部111の要求に基づいて、自身の記憶媒体(の記憶領域)に記憶されている広域サンプリング画素をサンプリング画素選択部111に供給する。
 この場合、サンプリング画素選択部111は、サンプリング画素記憶部351に記憶されている広域サンプリング画素を取得する。サンプリング画素選択部111は、処理対象の局所領域(フレーム画像)の、その広域サンプリング画素以外の画素から疎な局所サンプリング画素を選択し、クラスタリング部112に供給する。このようにすることにより、クラスタリング部112は、クラスタリングの冗長性の増大を抑制し、画像のクラスタリングの頑健性の低減をより抑制することができる。
 なお、追加学習部312が逐次学習を行う場合、追加学習部312のサンプリング画素選択部111は、選択した局所サンプリング画素を、クラスタリング部112に供給するとともに、サンプリング画素記憶部351にも供給する。
 その場合、サンプリング画素記憶部351は、その追加学習部312(のサンプリング画素選択部111)から供給される局所サンプリング画素を取得し、自身の記憶媒体(の記憶領域)に記憶する。また、サンプリング画素記憶部351は、例えばサンプリング画素選択部111の要求に基づいて、自身の記憶媒体(の記憶領域)に記憶されている広域サンプリング画素および前回の局所サンプリング画素をサンプリング画素選択部111に供給する。
 そして、サンプリング画素選択部111は、サンプリング画素記憶部351から、その広域サンプリング画素および前回の局所サンプリング画素を取得する。サンプリング画素選択部111は、処理対象の局所領域(フレーム画像)の、その広域サンプリング画素および前回の局所サンプリング画素以外の画素から疎な局所サンプリング画素を選択し、クラスタリング部112に供給する。このようにすることにより、クラスタリング部112は、クラスタリングの冗長性の増大を抑制し、画像のクラスタリングの頑健性の低減をより抑制することができる。
 換言するに、追加学習として上述のような逐次学習を行わない場合、局所サンプリング画素のサンプリング画素記憶部351への供給(つまり、図19の矢印361)は省略することができる。
  <クラスタリング処理の流れ>
 この場合の画像処理装置300が実行するクラスタリング処理の流れの例を、図20のフローチャートを参照して説明する。クラスタリング処理が開始されると、ステップS251およびステップS252の各処理が、ステップS201およびステップS202の各処理(図18)と同様に実行される。
 ステップS253において、サンプリング画素記憶部351は、ステップS252において決定された疎な広域サンプリング画素を記憶する。
 ステップS253の処理が終了すると、ステップS254およびステップS255の各処理が、ステップS203およびステップS204の各処理(図18)と同様に実行される。
 ステップS256において、追加学習部312のサンプリング画素選択部111は、ステップS251において取得されたグローバル画像に含まれるローカル画像群の中から、処理対象のローカル画像を取得する。また、サンプリング画素選択部111は、その処理対象のローカル画像の、広域サンプリング画素および前回の局所サンプリング画素以外の画素から疎な局所サンプリング画素を選択し、決定する。
 ステップS257において、サンプリング画素記憶部351は、ステップS256において決定された疎な局所サンプリング画素(今回の局所サンプリング画素)を記憶する。
 ステップS257が終了すると、ステップS258乃至ステップS260の各処理が、ステップS206乃至ステップS208の各処理(図18)と同様に実行される。
 ステップS261において、追加学習部312は、全てのローカル画像について追加学習を行ったか否かを判定する。未処理のローカル画像が存在すると判定された場合、処理はステップS256に戻り、次のローカル画像を処理対象としてそれ以降の処理が実行される。つまり、各ローカル画像について、ステップS256乃至ステップS261の各処理が実行される。ステップS261において、全てのローカル画像が処理されたと判定された場合、処理はステップS262に進む。
 ステップS262において、補完処理部113は、以上のように最適化されたクラスタリング結果30を出力する。ステップS262の処理が終了すると、クラスタリング処理が終了する。
 以上のように各処理を実行することにより、画像処理装置300は、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
 なお、追加学習として逐次学習を行わない場合、ステップS255やステップS259の処理は省略することができる。また、ステップS256において、サンプリング画素選択部111は、サンプリング画素記憶部351に記憶されている広域サンプリング画素を用いて、サンプリング画素の選択を行う。そして、ステップS258において、クラスタリング部112は、係数記憶部313に記憶されている事前学習により得られる情報を用いて、追加学習を行う。
  <その他の構成>
 なお、図17の画像処理装置300において、事前学習部311を他の装置の構成としてもよい。つまり、画像処理装置300が、追加学習部312および係数記憶部313を有するようにしてもよい。この場合、係数記憶部313は、他の装置(の事前学習部311)において得られた疎な情報(事前学習のモデル係数またはクラスタリング結果等)を取得し、記憶する。また、追加学習部312は、係数記憶部313に記憶されている他の装置(の事前学習部311)において得られた疎な情報を用いて、疎な局所サンプリング画素の局所クラスタリングを行う。
 また、図17の画像処理装置300において、事前学習部311および係数記憶部313を他の装置の構成としてもよい。つまり、画像処理装置300が、追加学習部312を有するようにしてもよい。この場合、追加学習部312は、他の装置(の係数記憶部313)に記憶されている他の装置(の事前学習部311)において得られた疎な情報を用いて、疎な局所サンプリング画素の局所クラスタリングを行う。
 いずれの場合も、図17の場合と同様に、画像処理装置300は、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
 また、図19の画像処理装置300において、事前学習部311を他の装置の構成としてもよい。つまり、画像処理装置300が、追加学習部312、係数記憶部313、およびサンプリング画素記憶部351を有するようにしてもよい。この場合、係数記憶部313は、他の装置(の事前学習部311)において得られた疎な情報(事前学習のモデル係数またはクラスタリング結果等)を取得し、記憶する。また、サンプリング画素記憶部351は、他の装置(の事前学習部311)において選択された疎な広域サンプリング画素を取得し、記憶する。さらに、追加学習部312は、サンプリング画素記憶部351に記憶されている他の装置(の事前学習部311)において選択された疎な広域サンプリング画素に基づいて、疎な局所サンプリング画素を選択し、係数記憶部313に記憶されている他の装置(の事前学習部311)において得られた疎な情報を用いて、その選択した疎な局所サンプリング画素の局所クラスタリングを行う。
 また、図19の画像処理装置300において、事前学習部311および係数記憶部313を他の装置の構成としてもよい。つまり、画像処理装置300が、追加学習部312およびサンプリング画素記憶部351を有するようにしてもよい。この場合、サンプリング画素記憶部351は、他の装置(の事前学習部311)において選択された広域サンプリング画素を取得し、記憶する。また、追加学習部312は、サンプリング画素記憶部351に記憶されている他の装置(の事前学習部311)において選択された疎な広域サンプリング画素に基づいて、疎な局所サンプリング画素を選択し、他の装置(の係数記憶部313)に記憶されている他の装置(の事前学習部311)において得られた疎な情報を用いて、その選択した疎な局所サンプリング画素の局所クラスタリングを行う。
 さらに、図19の画像処理装置300において、事前学習部311およびサンプリング画素記憶部351を他の装置の構成としてもよい。つまり、画像処理装置300が、追加学習部312および係数記憶部313を有するようにしてもよい。この場合、係数記憶部313は、他の装置(の事前学習部311)において得られた情報(事前学習のモデル係数またはクラスタリング結果等)を取得し、記憶する。また、追加学習部312は、他の装置(のサンプリング画素記憶部351)に記憶されている他の装置(の事前学習部311)において選択された疎な広域サンプリング画素に基づいて、疎な局所サンプリング画素を選択し、係数記憶部313に記憶されている他の装置(の事前学習部311)において得られた疎な情報を用いて、その選択した疎な局所サンプリング画素の局所クラスタリングを行う。
 また、図19の画像処理装置300において、事前学習部311、係数記憶部313、およびサンプリング画素記憶部351を他の装置の構成としてもよい。つまり、画像処理装置300が、追加学習部312を有するようにしてもよい。この場合、追加学習部312は、他の装置(のサンプリング画素記憶部351)に記憶されている他の装置(の事前学習部311)において選択された疎な広域サンプリング画素に基づいて、疎な局所サンプリング画素を選択し、他の装置(の係数記憶部313)に記憶されている他の装置(の事前学習部311)において得られた疎な情報を用いて、その選択した疎な局所サンプリング画素の局所クラスタリングを行う。
 いずれの場合も、図19の場合と同様に、画像処理装置300は、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
 もちろん、これらのいずれの場合も、追加学習部312は、図17や図19の場合と同様に、追加学習として上述した逐次学習を行うことができる。
 また、画像処理装置300が、第1の実施の形態において説明した、圃場情報、スティッチング情報、および平坦領域情報の内の少なくとも1つ以上を用いて局所サンプリング画素の選択を行うようにしてもよい。このようにすることにより、追加学習において、各情報を用いた場合の効果を得ることができる。もちろん、画像処理装置300が、これらの情報の内のいずれか1つ以上に加え、上述した以外の情報を用いてサンプリング画素の選択を行うようにしてもよい。
 なお、本実施の形態においては、撮像画像20がスティッチング画像である場合について説明したが、これに限らず、撮像画像20は、複数のフレーム画像からなる動画像であってもよいし、複数の撮像画像を1つにまとめたファイル(撮像画像群)であってもよいし、1枚の撮像画像であってもよい。もちろん、撮像画像以外の画像(例えばCG画像等)であってもよい。また、この撮像画像20は、可視光(RGB)の波長域の画像であってもよいし、近赤外光のような不可視光の波長域を画像化したものであってもよい。また、それらの両方であってもよい。
 また、広域(グローバル領域)は、撮像画像20全体でなくてもよいし、局所領域(ローカル領域)は、1フレーム分の撮像画像でなくてもよい。局所領域が、広域内の、広域よりも狭い領域であればよい。この限りにおいて、広域および局所領域は、それぞれ撮像画像20内のどのような領域であってもよい。
 <3.第3の実施の形態>
  <広域クラスタリングと密な局所クラスタリング>
 第2の実施の形態において上述したように、画像のクラスタリングにおいて、例えば、疎な広域サンプリング画素の広域クラスタリングにおいて得られる疎な情報を用いて、局所クラスタリングを行うようにしてもよい。そして、その局所クラスタリングを密な状態の局所サンプリング画素に対して行うようにしてもよい。つまり、第2の実施の形態のように、疎な局所サンプリング画素の局所クラスタリングを行い、得られた疎な情報に対して画像信号をガイドにした画像フィルタリングにより密なクラスタリング結果を導出する代わりに、密な状態の局所サンプリング画素の局所クラスタリングを行うようにしてもよい。
 その場合も、第2の実施の形態の場合と同様に、広域クラスタリングにおいて一度推定したモデルを利用することができるので、局所クラスタリングにおいて高速に安定した(初期値変動の影響が少ない)モデルを得ることができる。また、広域クラスタリングにおいても疎なサンプリング画素を対象とすることにより、高速にクラスタリング結果を得ることができる。したがって、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
  <画像処理装置>
 図21は、その場合の画像処理装置の主な構成例を示すブロック図である。図21に示される画像処理装置400は、画像処理装置300と同様に、画像クラスタリングを行う装置である。つまり、画像処理装置400は、撮像画像20を入力とし、その撮像画像20について画像クラスタリングを行い、そのクラスタリング結果30を出力する。
 第2の実施の形態の場合と同様に、撮像画像20は、例えば、複数の撮像画像(P1乃至Pn)を張り合わせたスティッチング画像であってもよい。また、複数のフレーム画像からなる動画像であってもよい。さらに、複数の撮像画像を1つにまとめたファイル(撮像画像群)であってもよいし、1枚の撮像画像であってもよい。もちろん、撮像画像以外の画像(例えばCG画像等)であってもよい。また、この撮像画像20は、可視光(RGB)の波長域の画像であってもよいし、近赤外光のような不可視光の波長域を画像化したものであってもよい。また、それらの両方であってもよい。
 以下においては、撮像画像20が、図16の例のような圃場の一部を撮像した撮像画像271を張り合わせた圃場全体に対応するスティッチング画像270に対応するものとして説明する。また、広域(グローバル領域)をそのスティッチング画像270全体とし、局所領域(ローカル領域)を各撮像画像271(1フレーム分の撮像画像)として説明する。
 なお、図21においては、処理部やデータの流れ等の主なものを示しており、図21に示されるものが全てとは限らない。つまり、この画像処理装置400において、図21においてブロックとして示されていない処理部が存在したり、図21において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
 図21に示されるように、画像処理装置400は、画像処理装置300(図17)と同様に、事前学習部311、追加学習部312、および係数記憶部313を有する。
 事前学習部311は、画像処理装置300(図17)の場合と同様に、サンプリング画素選択部321およびクラスタリング部322を有し、事前学習として、疎な広域サンプリング画素の広域クラスタリングを行い、その事前学習により得られる情報を係数記憶部313に供給する。この事前学習により得られる情報は、広域クラスタリングにより得られる、各サンプリング画素に対応する(すなわち疎な状態の)情報である。例えば、事前学習のモデル係数であってもよいし、クラスタリング結果であってもよいし、その両方であってもよい。
 係数記憶部313は、画像処理装置300(図17)の場合と同様の構成を有し、事前学習部311から供給される疎な情報(例えば、事前学習のモデル係数や広域クラスタリング結果等)を記憶する。また、係数記憶部313は、例えば追加学習部312(のクラスタリング部412)の要求に応じて、記憶している疎な情報を追加学習部312(のクラスタリング部412)に供給する。
 追加学習部312は、画像処理装置300(図17)の場合と同様に、事前学習により得られる疎な情報(例えば、事前学習のモデル係数や広域クラスタリング結果等)を初期値として用いて追加学習を行う。ただし、この場合の追加学習部312は、追加学習として、密な局所サンプリング画素の局所クラスタリングを行い、密なクラスタリング結果を導出する。
 この局所クラスタリングの方法は任意である。例えば、SC-GMM(Structure-constrained Gaussian Mixture Model)をこの追加学習に適用してもよい。SC-GMMでは、色空間でのクラスタリングに画像構造情報を考慮した最適化が導入される。例えば、テクスチャやエッジの構造を用いて画素間の隣接関係を求め、その隣接関係に基づいてクラス分類が行われる。このようにすることにより、より正確なクラスタリングを行うことができる。
 図21に示されるように、この場合の追加学習部312は、サンプリング画素選択部411、クラスタリング部412、および最適化部413を有する。
 サンプリング画素選択部411は、局所サンプリング画素の選択に関する処理を行う。例えば、サンプリング画素選択部411は、撮像画像20を取得する。その際、スティッチング画像全体がサンプリング画素選択部411に供給されてもよいし、スティッチング画像を構成する各撮像画像(フレーム画像)が1枚ずつサンプリング画素選択部411に供給されるようにしてもよい。
 また、サンプリング画素選択部411は、その各撮像画像(局所領域)の一部または全部の画素を局所サンプリング画素として選択する。その際、サンプリング画素選択部411は、密な状態となるように局所サンプリング画素を選択する。なお、サンプリング画素選択部411は、処理対象の撮像画像の周辺の撮像画像(局所領域)、例えば、1つ前の処理対象であった撮像画像(局所領域)や1つ後の処理対象となる撮像画像(局所領域)も局所サンプリング画素の選択対象としてもよい。つまり、サンプリング画素選択部411が、処理対象の局所領域やこれらの周辺の局所領域から、密な局所サンプリング画素を選択してもよい。
 サンプリング画素選択部411は、選択した密な局所サンプリング画素をクラスタリング部412に供給する。
 クラスタリング部412は、局所クラスタリングに関する処理を行う。例えば、クラスタリング部412は、サンプリング画素選択部411から供給される密な局所サンプリング画素を取得する。また、クラスタリング部412は、係数記憶部313に記憶されている事前学習(広域クラスタリング)により得られる疎な情報(例えば、事前学習のモデル係数や広域クラスタリング結果等)を取得する。
 クラスタリング部412は、その事前学習により得られる疎な情報を初期値とし、密な局所サンプリングの局所クラスタリングを行う。クラスタリング部412は、この追加学習(密な局所サンプリング画素の局所クラスタリング)により得られる情報を最適化部413に供給する。この追加学習により得られる情報は、局所クラスタリングにより得られる、各サンプリング画素に対応する(すなわち密な状態の)情報である。例えば、追加学習のモデル係数であってもよいし、クラスタリング結果であってもよいし、その両方であってもよい。
 なお、クラスタリング部412は、さらに、1つ前の処理対象の局所領域に対する局所クラスタリング(前回の局所クラスタリング)において得られる情報も用いて、今回の処理対象の局所領域に対する局所クラスタリング(今回の局所クラスタリング)を行ってもよい。つまり、クラスタリング部412は、追加学習として、前回の学習モデルやクラスタリング結果等を利用する逐次学習を行ってもよい。
 その場合、クラスタリング部412は、逐次学習により得られる密な情報(逐次学習のモデル係数や局所クラスタリング結果等)を係数記憶部313に保持させる。また、クラスタリング部412は、係数記憶部313から、事前学習により得られる疎な情報の他、前回の逐次学習により得られる密な情報も取得し、局所クラスタリング(逐次学習)を行う。そして、クラスタリング部412は、その逐次学習により得られる情報(逐次学習のモデル係数や局所クラスタリング結果等)を、最適化部413に供給するとともに、係数記憶部313に供給し、記憶させる。この係数記憶部313に記憶された情報は、次回の逐次学習(次の処理対象となる局所領域に対する局所クラスタリング)に利用される。
 このような逐次学習により、広域クラスタリング結果と隣接の局所領域のクラスタリング結果を反映したクラスタリング結果を、局所領域において高速に導出することができる。したがって、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
 換言するに、追加学習として上述のような逐次学習を行わない場合、追加学習により得られる情報(追加学習のモデル係数や局所クラスタリング結果等)の係数記憶部313への供給(つまり、図21の矢印421)は省略することができる。
 最適化部413は、クラスタリング結果の最適化に関する処理を行う。例えば、最適化部413は、クラスタリング部412から供給される追加学習により得られる情報(追加学習のモデル係数や局所クラスタリング結果等)を取得する。また、最適化部413は、撮像画像20を取得する。
 この撮像画像20は、サンプリング画素選択部321やサンプリング画素選択部411に供給される撮像画像20(つまり、クラスタリングされる撮像画像)と同一であってもよいし、クラスタリングされる撮像画像と略同時刻、略同範囲の、そのクラスタリングされる撮像画像と異なる撮像画像であってもよい。例えば、クラスタリングされる撮像画像を得るための撮像と略同時刻、略同画角の他の撮像により得られた他の撮像画像であってもよい。例えば、可視光(RGB)の波長域の撮像画像20がサンプリング画素選択部321やサンプリング画素選択部411に供給され、近赤外光のような不可視光の波長域を画像化した撮像画像20が最適化部413に供給されるようにしてもよい。
 最適化部413は、その撮像画像20を用いて、追加学習により得られる密な情報の最適化を行い、最適化された密なクラスタリング結果を導出する。例えば、最適化部413は、その撮像画像20の画像構造情報(テクスチャやエッジの構造)を考慮して画素間の隣接関係を求め、その隣接関係に基づいてモデル係数やクラスタリング結果を最適化する。
 最適化部413は、この処理により得られたクラスタリング結果30(つまり、最適化処理が施されたクラスタリング結果)を、画像処理装置400による画像処理結果として、画像処理装置400の外部に出力する。
 画像処理装置400は、このような構成を有することにより、広域クラスタリングにおいて一度推定したモデルを利用して局所クラスタリングを行うことができる。したがって、画像処理装置400は、局所クラスタリングにおいて高速に安定した(初期値変動の影響が少ない)モデルを得ることができる。また、画像処理装置400は、このような構成を有することにより、広域クラスタリングにおいても疎なサンプリング画素を対象とし、高速にクラスタリング結果を得ることができる。したがって、画像処理装置400は、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
 図22のAに示されるクラスタリング結果431は、画像処理装置400により導出されたクラスタリング結果の例を示す。また、図22のBに示されるクラスタリング結果432は、画像処理装置300により導出されたクラスタリング結果の例を示す。つまり、いずれの画像処理装置によっても、ほぼ同様のクラスタリング結果を得ることができる。つまり、画像処理装置400は、画像処理装置300の場合と同様に、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
  <クラスタリング処理の流れ>
 このような画像処理装置400が実行するクラスタリング処理の流れの例を、図23のフローチャートを参照して説明する。クラスタリング処理が開始されると、ステップS301乃至ステップS304の各処理が、ステップS201乃至ステップS204(図18)の各処理と同様に実行される。
 ステップS305において、追加学習部312のサンプリング画素選択部411は、ステップS301において取得されたグローバル画像に含まれるローカル画像群の中から、処理対象のローカル画像を取得する。また、サンプリング画素選択部411は、その処理対象のローカル画像から密な局所サンプリング画素を選択し、決定する。
 ステップS306において、クラスタリング部412は、追加学習として、ステップS305において決定された密な局所サンプリング画素に対する局所クラスタリングを行う。その際、クラスタリング部412は、係数記憶部313に記憶されている事前学習により得られる情報や、前回の追加学習(逐次学習)により得られる情報を用いて、逐次学習を行う。
 ステップS307において、係数記憶部313は、ステップS306において行われた追加学習(逐次学習)により得られる情報(例えば、追加学習のモデル係数や局所クラスタリング結果)を記憶する。
 ステップS308において、最適化部413は、ステップS306において行われた追加学習(逐次学習)により得られる情報(例えば、追加学習のモデル係数や局所クラスタリング結果)の最適化を行い、その最適化されたクラスタリング結果を導出する。
 ステップS309において、追加学習部312は、全てのローカル画像について追加学習を行ったか否かを判定する。未処理のローカル画像が存在すると判定された場合、処理はステップS305に戻り、次のローカル画像を処理対象としてそれ以降の処理が実行される。つまり、各ローカル画像について、ステップS305乃至ステップS309の各処理が実行される。ステップS309において、全てのローカル画像が処理されたと判定された場合、処理はステップS310に進む。
 ステップS310において、最適化部413は、以上のように最適化されたクラスタリング結果30を出力する。ステップS310の処理が終了すると、クラスタリング処理が終了する。
 以上のように各処理を実行することにより、画像処理装置400は、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
 なお、追加学習として逐次学習を行わない場合、ステップS307の処理は省略することができる。また、ステップS306において、クラスタリング部412は、係数記憶部313に記憶されている事前学習により得られる情報を用いて、追加学習を行う。
  <広域サンプリング画素の参照>
 なお、第2の実施の形態において説明した画像処理装置300の場合と同様に、広域サンプリング画素の選択結果を考慮して、局所サンプリング画素の選択を行ってもよい。例えば、広域サンプリング画素以外の画素から局所サンプリング画素を選択してもよい。つまり、広域サンプリング画素を局所サンプリング画素の候補から除外してもよい。
 また、追加学習部312(クラスタリング部412)が追加学習として、前回の局所クラスタリングにより得られる情報を用いて今回の局所クラスタリングを行う逐次学習を行う場合、サンプリング画素選択部411は、さらに、前回の局所サンプリング画素の選択結果を考慮して、今回の局所サンプリング画素の選択を行ってもよい。例えば、前回の局所サンプリング画素以外の画素から今回の局所サンプリング画素を選択してもよい。つまり、前回の局所サンプリング画素を今回の局所サンプリング画素の候補から除外してもよい。
 このように、追加学習において、広域サンプリング画素を除外して局所クラスタリングを行うことにより、クラスタリングの冗長性の増大を抑制し、画像のクラスタリングの頑健性の低減をより抑制することができる。また、逐次学習において、前回の局所サンプリング画素を除外して今回の局所クラスタリングを行うことにより、クラスタリングの冗長性の増大を抑制し、画像のクラスタリングの頑健性の低減をより抑制することができる。したがって、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
  <画像処理装置>
 図24は、その場合の画像処理装置400の主な構成例を示すブロック図である。図24に示されるように、この場合の画像処理装置400は、図19の画像処理装置300の場合と同様に、図21の例の構成に加え、サンプリング画素記憶部351を有する。
 この場合、事前学習部311のサンプリング画素選択部321は、選択した広域サンプリング画素を、クラスタリング部322に供給するとともに、サンプリング画素記憶部351にも供給する。
 サンプリング画素記憶部351は、図19の場合と同様に、記憶媒体を有し、サンプリング画素の記憶に関する処理を行う。例えば、サンプリング画素記憶部351は、事前学習部311(のサンプリング画素選択部321)から供給される広域サンプリング画素を取得し、自身の記憶媒体(の記憶領域)に記憶する。
 また、サンプリング画素記憶部351は、例えばサンプリング画素選択部411の要求に基づいて、自身の記憶媒体(の記憶領域)に記憶されている広域サンプリング画素をサンプリング画素選択部411に供給する。
 この場合、サンプリング画素選択部411は、サンプリング画素記憶部351に記憶されている広域サンプリング画素を取得する。サンプリング画素選択部411は、処理対象の局所領域(フレーム画像)の、その広域サンプリング画素以外の画素から密な局所サンプリング画素を選択し、クラスタリング部412に供給する。このようにすることにより、クラスタリング部412は、クラスタリングの冗長性の増大を抑制し、画像のクラスタリングの頑健性の低減をより抑制することができる。
 なお、追加学習部312が逐次学習を行う場合、追加学習部312のサンプリング画素選択部411は、選択した局所サンプリング画素を、クラスタリング部412に供給するとともに、サンプリング画素記憶部351にも供給する。
 その場合、サンプリング画素記憶部351は、その追加学習部312(のサンプリング画素選択部411)から供給される局所サンプリング画素を取得し、自身の記憶媒体(の記憶領域)に記憶する。また、サンプリング画素記憶部351は、例えばサンプリング画素選択部411の要求に基づいて、自身の記憶媒体(の記憶領域)に記憶されている広域サンプリング画素および前回の局所サンプリング画素をサンプリング画素選択部411に供給する。
 そして、サンプリング画素選択部411は、サンプリング画素記憶部351から、その広域サンプリング画素および前回の局所サンプリング画素を取得する。サンプリング画素選択部411は、処理対象の局所領域(フレーム画像)の、その広域サンプリング画素および前回の局所サンプリング画素以外の画素から密な局所サンプリング画素を選択し、クラスタリング部412に供給する。このようにすることにより、クラスタリング部412は、クラスタリングの冗長性の増大を抑制し、画像のクラスタリングの頑健性の低減をより抑制することができる。
 換言するに、追加学習として上述のような逐次学習を行わない場合、局所サンプリング画素のサンプリング画素記憶部351への供給(つまり、図24の矢印441)は省略することができる。
  <クラスタリング処理の流れ>
 この場合の画像処理装置400が実行するクラスタリング処理の流れの例を、図25のフローチャートを参照して説明する。クラスタリング処理が開始されると、ステップS351およびステップS352の各処理が、ステップS301およびステップS302の各処理(図23)と同様に実行される。
 ステップS353において、サンプリング画素記憶部351は、ステップS352において決定された疎な広域サンプリング画素を記憶する。
 ステップS353の処理が終了すると、ステップS354およびステップS355の各処理が、ステップS303およびステップS304の各処理(図23)と同様に実行される。
 ステップS356において、追加学習部312のサンプリング画素選択部411は、ステップS351において取得されたグローバル画像に含まれるローカル画像群の中から、処理対象のローカル画像を取得する。また、サンプリング画素選択部411は、その処理対象のローカル画像の、広域サンプリング画素および前回の局所サンプリング画素以外の画素から密な局所サンプリング画素を選択し、決定する。
 ステップS357において、サンプリング画素記憶部351は、ステップS356において決定された密な局所サンプリング画素(今回の局所サンプリング画素)を記憶する。
 ステップS357が終了すると、ステップS358乃至ステップS360の各処理が、ステップS306乃至ステップS308の各処理(図23)と同様に実行される。
 ステップS361において、追加学習部312は、全てのローカル画像について追加学習を行ったか否かを判定する。未処理のローカル画像が存在すると判定された場合、処理はステップS356に戻り、次のローカル画像を処理対象としてそれ以降の処理が実行される。つまり、各ローカル画像について、ステップS356乃至ステップS361の各処理が実行される。ステップS361において、全てのローカル画像が処理されたと判定された場合、処理はステップS362に進む。
 ステップS362において、最適化部413は、以上のように最適化されたクラスタリング結果30を出力する。ステップS362の処理が終了すると、クラスタリング処理が終了する。
 以上のように各処理を実行することにより、画像処理装置400は、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
 なお、追加学習として逐次学習を行わない場合、ステップS355やステップS359の処理は省略することができる。また、ステップS356において、サンプリング画素選択部411は、サンプリング画素記憶部351に記憶されている広域サンプリング画素を用いて、サンプリング画素の選択を行う。そして、ステップS358において、クラスタリング部412は、係数記憶部313に記憶されている事前学習により得られる情報を用いて、追加学習を行う。
  <その他の構成>
 なお、図21の画像処理装置400において、事前学習部311を他の装置の構成としてもよい。つまり、画像処理装置400が、追加学習部312および係数記憶部313を有するようにしてもよい。この場合、係数記憶部313は、他の装置(の事前学習部311)において得られた疎な情報(事前学習のモデル係数またはクラスタリング結果等)を取得し、記憶する。また、追加学習部312は、係数記憶部313に記憶されている他の装置(の事前学習部311)において得られた疎な情報を用いて、密な局所サンプリング画素の局所クラスタリングを行う。
 また、図21の画像処理装置400において、事前学習部311および係数記憶部313を他の装置の構成としてもよい。つまり、画像処理装置400が、追加学習部312を有するようにしてもよい。この場合、追加学習部312は、他の装置(の係数記憶部313)に記憶されている他の装置(の事前学習部311)において得られた疎な情報を用いて、密な局所サンプリング画素の局所クラスタリングを行う。
 いずれの場合も、図21の場合と同様に、画像処理装置400は、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
 また、図24の画像処理装置400において、事前学習部311を他の装置の構成としてもよい。つまり、画像処理装置400が、追加学習部312、係数記憶部313、およびサンプリング画素記憶部351を有するようにしてもよい。この場合、係数記憶部313は、他の装置(の事前学習部311)において得られた疎な情報(事前学習のモデル係数またはクラスタリング結果等)を取得し、記憶する。また、サンプリング画素記憶部351は、他の装置(の事前学習部311)において選択された疎な広域サンプリング画素を取得し、記憶する。さらに、追加学習部312は、サンプリング画素記憶部351に記憶されている他の装置(の事前学習部311)において選択された疎な広域サンプリング画素に基づいて、密な局所サンプリング画素を選択し、係数記憶部313に記憶されている他の装置(の事前学習部311)において得られた疎な情報を用いて、その選択した密な局所サンプリング画素の局所クラスタリングを行う。
 また、図24の画像処理装置400において、事前学習部311および係数記憶部313を他の装置の構成としてもよい。つまり、画像処理装置400が、追加学習部312およびサンプリング画素記憶部351を有するようにしてもよい。この場合、サンプリング画素記憶部351は、他の装置(の事前学習部311)において選択された広域サンプリング画素を取得し、記憶する。また、追加学習部312は、サンプリング画素記憶部351に記憶されている他の装置(の事前学習部311)において選択された疎な広域サンプリング画素に基づいて、密な局所サンプリング画素を選択し、他の装置(の係数記憶部313)に記憶されている他の装置(の事前学習部311)において得られた疎な情報を用いて、その選択した密な局所サンプリング画素の局所クラスタリングを行う。
 さらに、図24の画像処理装置400において、事前学習部311およびサンプリング画素記憶部351を他の装置の構成としてもよい。つまり、画像処理装置400が、追加学習部312および係数記憶部313を有するようにしてもよい。この場合、係数記憶部313は、他の装置(の事前学習部311)において得られた情報(事前学習のモデル係数またはクラスタリング結果等)を取得し、記憶する。また、追加学習部312は、他の装置(のサンプリング画素記憶部351)に記憶されている他の装置(の事前学習部311)において選択された疎な広域サンプリング画素に基づいて、密な局所サンプリング画素を選択し、係数記憶部313に記憶されている他の装置(の事前学習部311)において得られた疎な情報を用いて、その選択した密な局所サンプリング画素の局所クラスタリングを行う。
 また、図24の画像処理装置400において、事前学習部311、係数記憶部313、およびサンプリング画素記憶部351を他の装置の構成としてもよい。つまり、画像処理装置400が、追加学習部312を有するようにしてもよい。この場合、追加学習部312は、他の装置(のサンプリング画素記憶部351)に記憶されている他の装置(の事前学習部311)において選択された疎な広域サンプリング画素に基づいて、密な局所サンプリング画素を選択し、他の装置(の係数記憶部313)に記憶されている他の装置(の事前学習部311)において得られた疎な情報を用いて、その選択した密な局所サンプリング画素の局所クラスタリングを行う。
 いずれの場合も、図24の場合と同様に、画像処理装置400は、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
 もちろん、これらのいずれの場合も、追加学習部312は、図21や図24の場合と同様に、追加学習として上述した逐次学習を行うことができる。
 また、画像処理装置400が、第1の実施の形態において説明した、圃場情報、スティッチング情報、および平坦領域情報の内の少なくとも1つ以上を用いて局所サンプリング画素の選択を行うようにしてもよい。このようにすることにより、追加学習において、各情報を用いた場合の効果を得ることができる。もちろん、画像処理装置400が、これらの情報の内のいずれか1つ以上に加え、上述した以外の情報を用いてサンプリング画素の選択を行うようにしてもよい。
 なお、本実施の形態においては、撮像画像20がスティッチング画像である場合について説明したが、これに限らず、撮像画像20は、複数のフレーム画像からなる動画像であってもよいし、複数の撮像画像を1つにまとめたファイル(撮像画像群)であってもよいし、1枚の撮像画像であってもよい。もちろん、撮像画像以外の画像(例えばCG画像等)であってもよい。また、この撮像画像20は、可視光(RGB)の波長域の画像であってもよいし、近赤外光のような不可視光の波長域を画像化したものであってもよい。また、それらの両方であってもよい。
 また、広域(グローバル領域)は、撮像画像20全体でなくてもよいし、局所領域(ローカル領域)は、1フレーム分の撮像画像でなくてもよい。局所領域が、広域内の、広域よりも狭い領域であればよい。この限りにおいて、広域および局所領域は、それぞれ撮像画像20内のどのような領域であってもよい。
 <4.第4の実施の形態>
  <植生領域解析への適用>
 第1の実施の形態乃至第3の実施の形態において上述した画像処理装置(画像処理装置100、画像処理装置300、または画像処理装置400)は、例えば、植生領域の解析に利用することができる。
  <画像処理装置>
 図26に示される画像処理装置500は、本技術を適用した画像処理装置の一実施の形態の例を示す図である。この画像処理装置500は、植生領域の解析を行う装置であり、例えば圃場等を撮像した撮像画像20を入力とし、その撮像画像20について画像クラスタリングを用いた植生領域の解析を行い、その解析結果である植生領域情報520を出力する。
 上述した各実施の形態の場合と同様に、撮像画像20は、例えば、複数の撮像画像(P1乃至Pn)を張り合わせたスティッチング画像であってもよい。また、複数のフレーム画像からなる動画像であってもよい。さらに、複数の撮像画像を1つにまとめたファイル(撮像画像群)であってもよいし、1枚の撮像画像であってもよい。また、この撮像画像20は、可視光(RGB)の波長域の画像であってもよいし、近赤外光のような不可視光の波長域を画像化したものであってもよい。また、それらの両方であってもよい。
 なお、図26においては、処理部やデータの流れ等の主なものを示しており、図26に示されるものが全てとは限らない。つまり、この画像処理装置500において、図26においてブロックとして示されていない処理部が存在したり、図26において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
 図26に示されるように、画像処理装置500は、クラスタリング部511および植生領域決定部512を有する。クラスタリング部511は、撮像画像20に対してクラスタリングを行い、密なクラスタリング結果を導出する。このクラスタリング部511には、上述した画像処理装置を適用することができる。つまり、クラスタリング部511は、上述した各画像処理装置のいずれかと同様の構成を有し、同様の処理(クラスタリング)を行うことにより、撮像画像20よりクラスタリング結果を導出する。クラスタリング部511は、そのクラスタリング結果を植生領域決定部512に供給する。
 植生領域決定部512は、植生領域の決定に関する処理を行う。例えば、植生領域決定部512は、クラスタリング部511より供給されるクラスタリング結果を取得する。また、植生領域決定部512は、撮像画像20を取得する。植生領域決定部512は、これらの情報を用いて植生領域を決定し、その解析結果である植生領域情報520を出力する。このようにすることにより、画像処理装置500は、頑健性の低減を抑制した植生領域の解析結果を、より高速に生成することができる。
  <クラスタリング処理の流れ>
 この場合のクラスタリング処理の流れの例を、図27のフローチャートを参照して説明する。クラスタリング処理が開始されると、クラスタリング部511は、ステップS501において、撮像画像20を取得する。
 ステップS502において、クラスタリング部511は、クラスタリング処理を行い、密なクラスタリング結果を得る。このクラスタリング処理には、上述したクラスタリング処理を適用することができる。つまり、クラスタリング部511は、上述した各フローチャートのいずれかと同様の流れでクラスタリング処理を行うことにより、密なクラスタリング結果を導出する。
 ステップS503において、植生領域決定部512は、ステップS502において得られたクラスタリング結果に基づいて植生領域を決定し、植生領域情報520を得る。
 ステップS504において、植生領域決定部512は、ステップS503の処理により得られた植生領域情報520を出力する。ステップS504の処理が終了するとクラスタリング処理が終了する。
 以上のように各処理を実行することにより、画像処理装置500は、より正確なクラスタリング結果を得ることができる。したがって、画像処理装置500は、頑健性の低減を抑制した植生領域情報520を、より高速に生成することができる。
 <5.第5の実施の形態>
  <医療機器への適用>
 第1の実施の形態乃至第3の実施の形態において上述した本技術は、上述したような植生領域の解析に限らず、任意の分野の任意の技術に適用することができる。例えば、本技術は、医療機器に利用することができる。
 例えば、CT(Computed Tomography)検査装置は、X線を人体に回転させながら照射し、透過してきたX線の強弱を検出器で収集し、得られたデータをコンピュータで解析・計算し、さまざまな画像を作成する。例えば、図28のAに示されるように、CT検査装置は、患者601にX線を照射することにより、XY平面、YZ平面、XZ平面等、任意の位置・方向の断層画像を得ることができる。例えば、図28のBに示されるCT画像611-1乃至CT画像611-5のように、複数のCT画像611が得られる。このようなCT検査により得られる複数のCT画像611のクラスタリングにおいて、本技術を適用してもよい。
 その際、例えば、図29のAのように、1枚のCT画像651(CT Slice)全体を広域(グローバル領域)とし、例えば、ブロック等、そのCT画像651の所定の一部の領域652を局所領域(ローカル領域)として、そのクラスタリングを、上述した本技術を適用して行うようにしてもよい。つまり、この場合、広域も局所領域も2次元平面とし、各CT画像のクラスタリングを1枚ずつ行う。この場合、上述した圃場の撮像画像の場合と同様に処理を行うことができる。
 例えば第3の実施の形態において説明した方法を適用する場合、CT画像651全体から選択した疎な広域サンプリング画素について広域クラスタリング(事前学習)を行い、得られた疎な情報(事前学習のモデル係数やクラスタリング結果等)を初期値として利用して、各ブロックにおいて密な局所サンプリング画素についての局所クラスタリング(追加学習)を行い、密なクラスタリング結果を導出する。
 また例えば第2の実施の形態において説明した方法を適用する場合、CT画像651全体から選択した疎な広域サンプリング画素について広域クラスタリング(事前学習)を行い、得られた疎な情報(事前学習のモデル係数やクラスタリング結果等)を初期値として利用して、各ブロックにおいて疎な局所サンプリング画素についての局所クラスタリング(追加学習)を行い、得られた疎な情報(追加学習のモデル係数やクラスタリング結果等)を、2次元画像をガイドとして利用するフィルタリングにより補完し、密なクラスタリング結果を導出する。
 この場合、フィルタリングは、2次元平面上における(つまり同一CT画像上の)隣接画素の色を伝搬させる2次元処理を行う。例えば以下の式(1)を用いて、同一CT画像上の周辺画素xjから処理対象画素xiを導出する。なお、Wi,jは重み係数であり、以下の式(2)のように導出される。
Figure JPOXMLDOC01-appb-I000001
 ・・・(1)
Figure JPOXMLDOC01-appb-I000002
 ・・・(2)
 さらに例えば第1の実施の形態において説明した方法を適用する場合、CT画像651全体から選択した疎なサンプリング画素についてクラスタリングを行い、得られた疎な情報(学習のモデル係数やクラスタリング結果等)を、2次元画像をガイドとして利用するフィルタリングにより補完し、密なクラスタリング結果を導出する。
 この場合、フィルタリングは、2次元平面上における(つまり同一CT画像上の)隣接画素の色を伝搬させる2次元処理を行う。例えば上述の式(1)を用いて、同一CT画像上の周辺画素xjから処理対象画素xiを導出する。なお、Wi,jは重み係数であり、上述の式(2)のように導出される。
 また、例えば、図29のBのように、CT画像651(CT Slice)を局所領域(ローカル領域)とし、複数のCT画像651からなる3次元領域であるCTボリューム653(CT Volume)を広域(グローバル領域)として、そのクラスタリングを、上述した本技術を適用して行うようにしてもよい。つまり、この場合、広域を2次元平面の集合(3次元領域)とし、局所領域を2次元平面とし、CTボリュームのクラスタリングをまとめて行う。
 例えば第3の実施の形態において説明した方法を適用する場合、CTボリューム653(全てのCT画像651)から選択した疎な広域サンプリング画素について広域クラスタリング(事前学習)を行い、得られた疎な情報(事前学習のモデル係数やクラスタリング結果等)を初期値として利用して、各CT画像651において密な局所サンプリング画素についての局所クラスタリング(追加学習)を行い、密なクラスタリング結果を導出する。
 また例えば第2の実施の形態において説明した方法を適用する場合、CTボリューム653(全てのCT画像651)から選択した疎な広域サンプリング画素について広域クラスタリング(事前学習)を行い、得られた疎な情報(事前学習のモデル係数やクラスタリング結果等)を初期値として利用して、各CT画像651において疎な局所サンプリング画素についての局所クラスタリング(追加学習)を行い、得られた疎な情報(追加学習のモデル係数やクラスタリング結果等)を、2次元画像をガイドとして利用するフィルタリングにより補完し、密なクラスタリング結果を導出する。
 この場合、フィルタリングは、3次元空間上における隣接画素の色を伝搬させる3次元処理を行う。つまりこの場合、同一CT画像上の隣接画素の色を伝搬させるだけでなく、隣接するCT画像上の隣接画素の色を伝搬させることもできる。例えば上述の式(1)を用いて、同一CT画像または隣接CT画像上の周辺画素xjから処理対象画素xiを導出する。なお、この場合の重み係数Wi,jは、以下の式(3)のように導出される。
Figure JPOXMLDOC01-appb-I000003
 ・・・(3)
 さらに例えば第1の実施の形態において説明した方法を適用する場合、CTボリューム653(全てのCT画像651)から選択した疎なサンプリング画素についてクラスタリングを行い、得られた疎な情報(学習のモデル係数やクラスタリング結果等)を、2次元画像をガイドとして利用するフィルタリングにより補完し、密なクラスタリング結果を導出する。
 この場合、フィルタリングは、上述の3次元処理を行う。例えば上述の式(1)を用いて、同一CT画像上の周辺画素xjから処理対象画素xiを導出する。なお、Wi,jは重み係数であり、上述の式(3)のように導出される。
 さらに、例えば、図29のCのように、CTボリューム653(CT Volume)を広域(グローバル領域)とし、そのCTボリューム653を分割した所定の大きさの3次元領域であるボクセル654(Voxel)を局所領域(ローカル領域)として、そのクラスタリングを、上述した本技術を適用して行うようにしてもよい。つまり、この場合、広域も局所領域も3次元領域とし、CTボリュームのクラスタリングをまとめて行う。
 例えば第3の実施の形態において説明した方法を適用する場合、CTボリューム653(全てのCT画像651)から選択した疎な広域サンプリング画素について広域クラスタリング(事前学習)を行い、得られた疎な情報(事前学習のモデル係数やクラスタリング結果等)を初期値として利用して、各ボクセル654において密な局所サンプリング画素についての局所クラスタリング(追加学習)を行い、密なクラスタリング結果を導出する。
 また例えば第2の実施の形態において説明した方法を適用する場合、CTボリューム653(全てのCT画像651)から選択した疎な広域サンプリング画素について広域クラスタリング(事前学習)を行い、得られた疎な情報(事前学習のモデル係数やクラスタリング結果等)を初期値として利用して、各ボクセル654において疎な局所サンプリング画素についての局所クラスタリング(追加学習)を行い、得られた疎な情報(追加学習のモデル係数やクラスタリング結果等)を、3Dデータをガイドとして利用するフィルタリングにより補完し、密なクラスタリング結果を導出する。
 この場合、フィルタリングは、3次元空間上における隣接画素の色を伝搬させる3次元処理を行う。つまりこの場合、3次元空間における隣接画素の色を伝搬させる。例えば上述の式(1)を用いて、同一CT画像または隣接CT画像上の周辺画素xjから処理対象画素xiを導出する。なお、この場合の重み係数Wi,jは、上述の式(3)のように導出される。
 さらに例えば第1の実施の形態において説明した方法を適用する場合、CTボリューム653(全てのCT画像651)から選択した疎なサンプリング画素についてクラスタリングを行い、得られた疎な情報(学習のモデル係数やクラスタリング結果等)を、3Dデータをガイドとして利用するフィルタリングにより補完し、密なクラスタリング結果を導出する。
 この場合、フィルタリングは、上述の3次元処理を行う。例えば上述の式(1)を用いて、同一CT画像上の周辺画素xjから処理対象画素xiを導出する。なお、Wi,jは重み係数であり、上述の式(3)のように導出される。
 CTボリュームを構成するCT画像の場合、一般的に、画像間の画像構造の相関性が高いので、3次元処理のフィルタリングでも、2次元処理の場合と同様に、より正確なクラスタリング結果を得ることができる。したがって、上述のような医療機器に本技術を適用する場合も、画像のクラスタリングの頑健性の低減を抑制しながら、処理時間の増大を抑制することができる。
  <画像処理装置>
 この場合の画像処理装置の主な構成例を図30に示す。図30に示される画像処理装置700は、CT画像(CTボリューム)のクラスタリングを行う装置であり、CT画像(CTボリューム)である撮像画像710を入力とし、その撮像画像710についてクラスタリングを行い、そのクラスタリング結果としてクラスタリングされたCT画像720を出力する。
 なお、図30においては、処理部やデータの流れ等の主なものを示しており、図30に示されるものが全てとは限らない。つまり、この画像処理装置700において、図30においてブロックとして示されていない処理部が存在したり、図30において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
 図30に示されるように、画像処理装置700は、クラスタリング部711および解析部712を有する。クラスタリング部711は、撮像画像710に対してクラスタリングを行い、密なクラスタリング結果を導出する。このクラスタリング部711には、上述した画像処理装置を適用することができる。つまり、クラスタリング部711は、上述した各画像処理装置のいずれかと同様の構成を有し、同様の処理(クラスタリング)を行うことにより、撮像画像710よりクラスタリング結果を導出する。クラスタリング部711は、そのクラスタリング結果を解析部712に供給する。
 解析部712は、クラスタリング結果に基づく画像解析に関する処理を行う。例えば、解析部712は、クラスタリング部711より供給されるクラスタリング結果を取得する。また、解析部712は、撮像画像710を取得する。解析部712は、そのクラスタリング結果に基づいて撮像画像710における被写体である人体の構造等を解析し、画像化する。解析部712は、生成したCT画像720を解析結果として出力する。このようにすることにより、画像処理装置700は、頑健性の低減を抑制したCT画像720を、より高速に生成することができる。
  <クラスタリング処理の流れ>
 この場合のクラスタリング処理の流れの例を、図31のフローチャートを参照して説明する。クラスタリング処理が開始されると、クラスタリング部711は、ステップS701において、撮像画像710を取得する。
 ステップS702において、クラスタリング部711は、クラスタリング処理を行い、密なクラスタリング結果を得る。このクラスタリング処理には、上述したクラスタリング処理を適用することができる。つまり、このクラスタリング部711は、上述した各フローチャートのいずれかと同様の流れでクラスタリング処理を行うことにより、密なクラスタリング結果を導出する。
 ステップS703において、解析部712は、ステップS702において得られたクラスタリング結果に基づいて画像を解析する。
 ステップS704において、解析部712は、ステップS703の処理により得られた解析結果として、CT画像720を出力する。ステップS704の処理が終了するとクラスタリング処理が終了する。
 以上のように各処理を実行することにより、画像処理装置700は、より正確なクラスタリング結果を得ることができる。したがって、画像処理装置700は、頑健性の低減を抑制したCT画像720を、より高速に生成することができる。
 <6.付記>
  <コンピュータ>
 上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。
 図32は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 図32に示されるコンピュータ900において、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903は、バス904を介して相互に接続されている。
 バス904にはまた、入出力インタフェース910も接続されている。入出力インタフェース910には、入力部911、出力部912、記憶部913、通信部914、およびドライブ915が接続されている。
 入力部911は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部912は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部913は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部914は、例えば、ネットワークインタフェースよりなる。ドライブ915は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア921を駆動する。
 以上のように構成されるコンピュータでは、CPU901が、例えば、記憶部913に記憶されているプログラムを、入出力インタフェース910およびバス904を介して、RAM903にロードして実行することにより、上述した一連の処理が行われる。RAM903にはまた、CPU901が各種の処理を実行する上において必要なデータなども適宜記憶される。
 コンピュータが実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア921に記録して適用することができる。その場合、プログラムは、リムーバブルメディア921をドライブ915に装着することにより、入出力インタフェース910を介して、記憶部913にインストールすることができる。
 また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部914で受信し、記憶部913にインストールすることができる。
 その他、このプログラムは、ROM902や記憶部913に、あらかじめインストールしておくこともできる。
  <本技術の適用対象>
 また、以上においては、本技術の適用例として画像のクラスタリングを行う画像処理装置について説明したが、本技術は、任意の構成に適用することができる。
 例えば、本技術は、衛星放送、ケーブルTVなどの有線放送、インターネット上での配信、およびセルラー通信による端末への配信などにおける送信機や受信機(例えばテレビジョン受像機や携帯電話機)、または、光ディスク、磁気ディスクおよびフラッシュメモリなどの媒体に画像を記録したり、これら記憶媒体から画像を再生したりする装置(例えばハードディスクレコーダやカメラ)などの、様々な電子機器に適用され得る。
 また、例えば、本技術は、システムLSI(Large Scale Integration)等としてのプロセッサ(例えばビデオプロセッサ)、複数のプロセッサ等を用いるモジュール(例えばビデオモジュール)、複数のモジュール等を用いるユニット(例えばビデオユニット)、または、ユニットにさらにその他の機能を付加したセット(例えばビデオセット)等、装置の一部の構成として実施することもできる。
 また、例えば、本技術は、複数の装置により構成されるネットワークシステムにも適用することもできる。例えば、本技術を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングとして実施するようにしてもよい。例えば、コンピュータ、AV(Audio Visual)機器、携帯型情報処理端末、IoT(Internet of Things)デバイス等の任意の端末に対して、画像(動画像)に関するサービスを提供するクラウドサービスにおいて本技術を実施するようにしてもよい。
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、および、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
  <本技術を適用可能な分野・用途>
 本技術を適用したシステム、装置、処理部等は、例えば、交通、医療、防犯、農業、畜産業、鉱業、美容、工場、家電、気象、自然監視等、任意の分野に利用することができる。また、その用途も任意である。
  <その他>
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。
 また、例えば、上述したプログラムは、任意の装置において実行されるようにしてもよい。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
 また、例えば、1つのフローチャートの各ステップを、1つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。さらに、1つのステップに複数の処理が含まれる場合、その複数の処理を、1つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
 また、例えば、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
 また、例えば、本技術に関する複数の技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。
 なお、本技術は以下のような構成も取ることができる。
 (1) 画像に含まれる疎な画素のクラスタリングを行うクラスタリング部と、
 前記クラスタリング部による前記クラスタリングにより得られる疎な情報を、画像信号をガイドにした画像フィルタリングにより補完することにより、密なクラスタリング結果を導出する補完処理部と
 を備える画像処理装置。
 (2) 前記疎な情報は、前記クラスタリングにおいて得られるモデル係数またはクラスタリング結果である
 (1)に記載の画像処理装置。
 (3) 前記画像から疎なサンプリング画素を選択するサンプリング画素選択部をさらに備え、
 前記クラスタリング部は、前記サンプリング画素選択部により選択された前記疎なサンプリング画素について前記クラスタリングを行う
 (1)または(2)に記載の画像処理装置。
 (4) 前記サンプリング画素選択部は、処理対象領域に関する情報に基づいて、前記画像の前記処理対象領域に含まれる部分から前記サンプリング画素を選択する
 (3)に記載の画像処理装置。
 (5) 前記画像は、複数の画像を張り合わせたスティッチング画像であり、
 前記サンプリング画素選択部は、前記スティッチング画像における前記複数の画像同士の重なりに関する情報であるスティッチング情報に基づいて、前記サンプリング画素を選択する
 (3)または(4)に記載の画像処理装置。
 (6) 前記サンプリング画素選択部は、平坦領域に関する情報に基づいて、前記画像の前記平坦領域から前記サンプリング画素を選択する
 (3)乃至(5)のいずれかに記載の画像処理装置。
 (7) 前記クラスタリング部は、前記クラスタリングとして、前記画像の広域に含まれる疎な画素のクラスタリングである広域クラスタリングにより得られる疎な情報を用いて、前記画像の局所領域に含まれる疎な画素のクラスタリングである局所クラスタリングを行い、
 前記補完処理部は、前記局所クラスタリングにより得られる疎な情報を前記画像フィルタリングにより補完することにより、前記局所領域の密なクラスタリング結果を導出する
 (1)乃至(6)のいずれかに記載の画像処理装置。
 (8) 前記広域クラスタリングにより得られる疎な情報は、モデル係数またはクラスタリング結果である
 (7)に記載の画像処理装置。
 (9) 前記クラスタリング部は、さらに、1つ前の処理対象の局所領域についての前記局所クラスタリングにおいて得られる疎な情報を用いて、処理対象の局所領域についての前記局所クラスタリングを行う
 (7)または(8)に記載の画像処理装置。
 (10) 前記局所領域から疎なサンプリング画素を選択するサンプリング画素選択部をさらに備え、
 前記クラスタリング部は、前記サンプリング画素選択部により選択された前記疎なサンプリング画素について前記局所クラスタリングを行う
 (7)乃至(9)のいずれかに記載の画像処理装置。
 (11) 前記サンプリング画素選択部は、前記局所領域の、前記広域クラスタリングが行われた画素を除く画素から前記サンプリング画素を選択する
 (10)に記載の画像処理装置。
 (12) 前記広域クラスタリングを行う広域クラスタリング部をさらに備え、
 前記クラスタリング部は、前記広域クラスタリング部により行われる前記広域クラスタリングにおいて得られる情報を用いて、前記局所クラスタリングを行う
 (7)乃至(11)のいずれかに記載の画像処理装置。
 (13) 画像に含まれる疎な画素のクラスタリングを行い、
 前記クラスタリングにより得られる疎な情報を、画像信号をガイドにした画像フィルタリングにより補完することにより、密なクラスタリング結果を導出する
 画像処理方法。
 (14) 画像の広域に含まれる疎な画素のクラスタリングである広域クラスタリングにおいて得られる情報を用いて、前記画像の局所領域に含まれる密な画素のクラスタリングである局所クラスタリングを行うクラスタリング部
 を備える画像処理装置。
 (15) 画像の広域に含まれる疎な画素のクラスタリングである広域クラスタリングにおいて得られる情報を用いて、前記画像の局所領域に含まれる密な画素のクラスタリングである局所クラスタリングを行う
 画像処理方法。
 100 画像処理装置, 111 サンプリング画素選択部, 112 クラスタリング部, 113 補完処理部, 201 圃場領域記憶部, 231 スティッチング情報記憶部, 261 平坦領域記憶部, 300 画像処理装置, 311 事前学習部, 312 追加学習部, 313 係数記憶部, 321 サンプリング画素選択部, 322 クラスタリング部, 351 サンプリング画素記憶部, 400 画像処理装置, 411 サンプリング画素選択部, 412 クラスタリング部, 413 最適化部, 500 画像処理装置, 511 クラスタリング部, 512 植生領域決定部, 700 画像処理装置, 711 クラスタリング部, 712 解析部, 900 コンピュータ

Claims (15)

  1.  画像に含まれる疎な画素のクラスタリングを行うクラスタリング部と、
     前記クラスタリング部による前記クラスタリングにより得られる疎な情報を、画像信号をガイドにした画像フィルタリングにより補完することにより、密なクラスタリング結果を導出する補完処理部と
     を備える画像処理装置。
  2.  前記疎な情報は、前記クラスタリングにおいて得られるモデル係数またはクラスタリング結果である
     請求項1に記載の画像処理装置。
  3.  前記画像から疎なサンプリング画素を選択するサンプリング画素選択部をさらに備え、
     前記クラスタリング部は、前記サンプリング画素選択部により選択された前記疎なサンプリング画素について前記クラスタリングを行う
     請求項1に記載の画像処理装置。
  4.  前記サンプリング画素選択部は、処理対象領域に関する情報に基づいて、前記画像の前記処理対象領域に含まれる部分から前記サンプリング画素を選択する
     請求項3に記載の画像処理装置。
  5.  前記画像は、複数の画像を張り合わせたスティッチング画像であり、
     前記サンプリング画素選択部は、前記スティッチング画像における前記複数の画像同士の重なりに関する情報であるスティッチング情報に基づいて、前記サンプリング画素を選択する
     請求項3に記載の画像処理装置。
  6.  前記サンプリング画素選択部は、平坦領域に関する情報に基づいて、前記画像の前記平坦領域から前記サンプリング画素を選択する
     請求項3に記載の画像処理装置。
  7.  前記クラスタリング部は、前記クラスタリングとして、前記画像の広域に含まれる疎な画素のクラスタリングである広域クラスタリングにより得られる疎な情報を用いて、前記画像の局所領域に含まれる疎な画素のクラスタリングである局所クラスタリングを行い、
     前記補完処理部は、前記局所クラスタリングにより得られる疎な情報を前記画像フィルタリングにより補完することにより、前記局所領域の密なクラスタリング結果を導出する
     請求項1に記載の画像処理装置。
  8.  前記広域クラスタリングにより得られる疎な情報は、モデル係数またはクラスタリング結果である
     請求項7に記載の画像処理装置。
  9.  前記クラスタリング部は、さらに、1つ前の処理対象の局所領域についての前記局所クラスタリングにおいて得られる疎な情報を用いて、処理対象の局所領域についての前記局所クラスタリングを行う
     請求項7に記載の画像処理装置。
  10.  前記局所領域から疎なサンプリング画素を選択するサンプリング画素選択部をさらに備え、
     前記クラスタリング部は、前記サンプリング画素選択部により選択された前記疎なサンプリング画素について前記局所クラスタリングを行う
     請求項7に記載の画像処理装置。
  11.  前記サンプリング画素選択部は、前記局所領域の、前記広域クラスタリングが行われた画素を除く画素から前記サンプリング画素を選択する
     請求項10に記載の画像処理装置。
  12.  前記広域クラスタリングを行う広域クラスタリング部をさらに備え、
     前記クラスタリング部は、前記広域クラスタリング部により行われる前記広域クラスタリングにおいて得られる情報を用いて、前記局所クラスタリングを行う
     請求項7に記載の画像処理装置。
  13.  画像に含まれる疎な画素のクラスタリングを行い、
     前記クラスタリングにより得られる疎な情報を、画像信号をガイドにした画像フィルタリングにより補完することにより、密なクラスタリング結果を導出する
     画像処理方法。
  14.  画像の広域に含まれる疎な画素のクラスタリングである広域クラスタリングにおいて得られる情報を用いて、前記画像の局所領域に含まれる密な画素のクラスタリングである局所クラスタリングを行うクラスタリング部
     を備える画像処理装置。
  15.  画像の広域に含まれる疎な画素のクラスタリングである広域クラスタリングにおいて得られる情報を用いて、前記画像の局所領域に含まれる密な画素のクラスタリングである局所クラスタリングを行う
     画像処理方法。
PCT/JP2021/018356 2020-05-29 2021-05-14 画像処理装置および方法 WO2021241266A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022526888A JPWO2021241266A1 (ja) 2020-05-29 2021-05-14
CN202180037062.8A CN115668295A (zh) 2020-05-29 2021-05-14 图像处理装置和方法
US17/918,500 US20230141005A1 (en) 2020-05-29 2021-05-14 Image processing apparatus and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-093822 2020-05-29
JP2020093822 2020-05-29

Publications (1)

Publication Number Publication Date
WO2021241266A1 true WO2021241266A1 (ja) 2021-12-02

Family

ID=78744040

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/018356 WO2021241266A1 (ja) 2020-05-29 2021-05-14 画像処理装置および方法

Country Status (4)

Country Link
US (1) US20230141005A1 (ja)
JP (1) JPWO2021241266A1 (ja)
CN (1) CN115668295A (ja)
WO (1) WO2021241266A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1175180A (ja) * 1997-06-16 1999-03-16 Sony Corp 画像処理装置および画像処理方法、並びに伝送媒体および伝送方法
WO2000019724A1 (en) * 1998-09-30 2000-04-06 Sony Corporation Arithmetic device, converter, and their methods
WO2009072466A1 (ja) * 2007-12-03 2009-06-11 National University Corporation Hokkaido University 画像分類装置および画像分類プログラム
CN110096605A (zh) * 2019-04-26 2019-08-06 北京迈格威科技有限公司 图像处理方法及装置、电子设备、存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1175180A (ja) * 1997-06-16 1999-03-16 Sony Corp 画像処理装置および画像処理方法、並びに伝送媒体および伝送方法
WO2000019724A1 (en) * 1998-09-30 2000-04-06 Sony Corporation Arithmetic device, converter, and their methods
WO2009072466A1 (ja) * 2007-12-03 2009-06-11 National University Corporation Hokkaido University 画像分類装置および画像分類プログラム
CN110096605A (zh) * 2019-04-26 2019-08-06 北京迈格威科技有限公司 图像处理方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
US20230141005A1 (en) 2023-05-11
JPWO2021241266A1 (ja) 2021-12-02
CN115668295A (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
Pan ECG: Edge-aware point cloud completion with graph convolution
CN102099829B (zh) 测地图像和视频处理
US8873846B2 (en) Detecting and tracking point features with primary colors
Pan et al. Activenerf: Learning where to see with uncertainty estimation
JP2017515188A (ja) ピクチャを処理する方法及びデバイス
Yan et al. Ghost removal via channel attention in exposure fusion
EP2991028B1 (en) Method for watermarking a three-dimensional object and method for obtaining a payload from a threedimensional object
Cho et al. Effective five directional partial derivatives-based image smoothing and a parallel structure design
Tan et al. Pixelwise estimation of signal-dependent image noise using deep residual learning
Gamal-Eldin et al. Multiple birth and cut algorithm for point process optimization
US9317928B2 (en) Detecting and tracking point features with primary colors
WO2021241266A1 (ja) 画像処理装置および方法
JP2018124990A (ja) モデル生成装置、評価装置、モデル生成方法、評価方法及びプログラム
Wang et al. An edge-preserving adaptive image denoising
Gupta et al. A robust and efficient image de-fencing approach using conditional generative adversarial networks
Wang et al. A contrastive learning based unsupervised multi-view stereo with multi-stage self-training strategy
Li et al. 2.5 D-VoteNet: Depth Map based 3D Object Detection for Real-Time Applications.
Zhao et al. Geofill: Reference-based image inpainting with better geometric understanding
Wang et al. Decomposed guided dynamic filters for efficient rgb-guided depth completion
US20230015989A1 (en) Image processing using coupled segmentation and edge learning
CN114764746A (zh) 激光雷达的超分辨率方法和装置、电子设备及存储介质
Cai et al. Deep point-based scene labeling with depth mapping and geometric patch feature encoding
El Hazzat et al. Improvement of 3D reconstruction based on a new 3D point cloud filtering algorithm
Forbes et al. Deep autoencoders with aggregated residual transformations for urban reconstruction from remote sensing data
Cai et al. DeepPCD: Enabling AutoCompletion of Indoor Point Clouds with Deep Learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21813660

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022526888

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21813660

Country of ref document: EP

Kind code of ref document: A1