WO2019102796A1 - 認識装置、認識方法及びプログラム - Google Patents

認識装置、認識方法及びプログラム Download PDF

Info

Publication number
WO2019102796A1
WO2019102796A1 PCT/JP2018/040069 JP2018040069W WO2019102796A1 WO 2019102796 A1 WO2019102796 A1 WO 2019102796A1 JP 2018040069 W JP2018040069 W JP 2018040069W WO 2019102796 A1 WO2019102796 A1 WO 2019102796A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature map
feature
image
cutout
processing
Prior art date
Application number
PCT/JP2018/040069
Other languages
English (en)
French (fr)
Inventor
喬俊 狩野
正明 大酒
誠 大関
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Publication of WO2019102796A1 publication Critical patent/WO2019102796A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to a recognition apparatus, a recognition method, and a program, and more particularly to a recognition apparatus, a recognition method, and a program for recognizing a plurality of objects each having different features from an input image.
  • a recognition device that causes a computer to learn in advance feature amounts of an object and recognizes the object from the input image.
  • a recognition device it is known to use, for example, machine learning of a multi-layered neural network.
  • a multi-layered neural network there is a convolutional neural network (CNN) including a convolutional layer and a pooling layer alternately.
  • CNN convolutional neural network
  • Patent Document 1 has a CNN that recognizes the presence or absence of a predetermined target in an input image, and an intermediate image that contributes to an improvement in the recognition rate of the target from an intermediate image (feature map) group that is an output of an intermediate layer of CNN.
  • a device for extracting an area including an object from an input image by extracting a composite image generated by combining the extracted intermediate images and specifying an area including an object in the input image from the intermediate image; ing.
  • the CNN created for the task of recognizing the first object and the task of recognizing the second object prepare the created CNN and input the input image to each CNN.
  • the processing load becomes large.
  • the feature map of the CNN middle layer created for the task of recognizing the first object from the input image is used as the task of the second object whose feature is different from that of the first object. It is possible to use.
  • the second object is assumed to be local in the image (has spatial locality).
  • the feature map reflects the position information of the input image. Therefore, for example, when using the average value of the feature amounts of each feature map, the feature amounts of the region where the second object can not exist are also averaged together. For this reason, the average value used had the problem that the feature-value regarding a 2nd target object dilutes.
  • the present invention has been made in view of the above circumstances, and a recognition device, recognition method and program for reducing processing load and improving recognition accuracy when recognizing a plurality of objects having different features from an input image. Intended to provide.
  • one aspect of a recognition apparatus includes an image acquisition unit that acquires image data representing an image, and a plurality of processing layers having a layer structure, and when image data is input, each processing layer
  • the first layer structure feature quantity calculation unit that calculates a feature map indicating the feature quantity in the image, and the first object in the image is recognized from the first feature map calculated by the first processing layer among the plurality of processing layers
  • a first object recognition unit a feature map acquisition unit for acquiring a second feature map calculated by a second processing layer which is a processing layer on the input side of the first processing layer among the plurality of processing layers, and
  • a clipping region determination unit that determines a region to be clipped out of the second feature map based on external information about the object, a clipping unit that clips out the region determined from the second feature map and generates a clipping feature map, and a cutout feature map Within the image It recognizes second object and the second object recognition unit, a recognition device equipped with.
  • the first layer structural feature quantity having a plurality of processing layers having a layer structure and calculating a feature map indicating feature quantities in the image for each processing layer when image data is input A second feature map calculated by the second processing layer, which is a processing layer on the input side of the first processing layer among the plurality of processing layers of the calculation unit, is acquired, and the second feature is generated based on the external information on the second object Since the region is extracted from the map and the extracted feature map is generated and the second object in the image is recognized based on the extracted feature map, when recognizing a plurality of objects each having different features from the input image, The processing load can be reduced and the recognition accuracy can be improved.
  • the external information on the second object is preferably position information of the second object in the image. Thereby, the area cut out from the second feature map can be appropriately determined.
  • the feature map acquisition unit is a third processing layer different from the second processing layer, and further acquires a third feature map calculated by the third processing layer on the input side of the first processing layer among the plurality of processing layers.
  • the cutout unit cuts out the region determined from the second feature map to generate a first cutout feature map, and cuts out the region determined from the third feature map to generate a second cutout feature map.
  • the object recognition unit preferably recognizes the second object in the image based on the first cutout feature map and the second cutout feature map. As a result, even if the information on the second object is insufficient only with the second feature map, the second object can be appropriately recognized.
  • the feature map acquisition unit acquires a plurality of second feature maps calculated by the second processing layer, and the cutout unit cuts out regions determined from the plurality of second feature maps to generate a plurality of cutout feature maps, and
  • the two-object recognition unit preferably converts a plurality of cut-out feature maps into feature quantity vectors, and determines the presence or absence of the second object based on the feature quantity vectors. Thereby, the presence or absence of the second object can be appropriately determined.
  • the second object recognition unit preferably calculates an average value of feature amounts in each cutout feature map of the plurality of cutout feature maps, and converts the average value into a feature amount vector. Thereby, the presence or absence of the second object can be appropriately determined.
  • the second object recognition unit preferably converts the feature amount in each cutout feature map of the plurality of cutout feature maps into a feature amount vector. Thereby, the presence or absence of the second object can be appropriately determined.
  • a second layer structure feature quantity calculation unit having a plurality of fourth processing layers having a layered structure and calculating a fourth feature map indicating feature quantities in the cutout feature map when the cutout feature map is input;
  • the second object recognition unit preferably determines the presence or absence of the second object based on the fourth feature map, or extracts at least a partial region of the second object. Thereby, the presence or absence of the second object can be appropriately determined, or at least a partial region of the second object can be appropriately extracted.
  • the first layer structure feature quantity calculation unit includes a convolution operation unit. This makes it possible to appropriately recognize the first object in the image, and to acquire an appropriate feature map for recognizing the second object.
  • the first layer structural feature quantity calculation unit be a convolutional neural network (CNN).
  • the feature map is preferably a feature map of the middle layer of the CNN. This makes it possible to appropriately recognize the first object in the image, and to acquire an appropriate feature map for recognizing the second object.
  • the recognition device further includes a first learning unit that performs learning of the first object recognition unit.
  • a first learning unit that performs learning of the first object recognition unit.
  • the recognition device further includes a second learning unit that performs learning of the second object recognition unit.
  • the recognition accuracy of the second object recognition unit can be improved.
  • the feature map is preferably composed of two-dimensional data
  • the clipping region determination unit preferably determines the region as a region from which part of the two-dimensional data is clipped.
  • the feature map is preferably configured by three-dimensional data, and the cutout area determination unit preferably determines the area as an area from which a part of the three-dimensional data is cut out. As a result, a feature map composed of three-dimensional data can be acquired, and the second object can be appropriately recognized.
  • one aspect of a recognition method includes an image acquisition step of acquiring image data indicating an image, and an image for each processing layer of a plurality of processing layers having a layer structure when the image data is input.
  • a first layer structure feature amount calculating step of calculating a feature map indicating a feature amount of the first layer, and a first process of recognizing a first object in an image from a first feature map calculated by the first processing layer among a plurality of processing layers The object recognition step, the feature map acquisition step of acquiring the second feature map calculated by the second processing layer which is the processing layer on the input side of the first processing layer among the plurality of processing layers, and the second object
  • the first layer structural feature amount having a plurality of processing layers having a layer structure and calculating a feature map indicating feature amounts in the image for each processing layer when image data is input A second feature map calculated by the second processing layer, which is a processing layer on the input side of the first processing layer among the plurality of processing layers of the calculation unit, is acquired, and the second feature is generated based on the external information on the second object Since the region is extracted from the map and the extracted feature map is generated and the second object in the image is recognized based on the extracted feature map, when recognizing a plurality of objects each having different features from the input image, The processing load can be reduced and the recognition accuracy can be improved.
  • One aspect of a program to be executed by a computer to achieve the above object is an image acquisition step of acquiring image data representing an image, and processing layers of a plurality of processing layers having a layer structure when the image data is input.
  • a first layer structure feature amount calculating step of calculating a feature map indicating a feature amount in the image, and recognizing a first object in the image from a first feature map calculated by the first processing layer among the plurality of processing layers
  • a plurality of processing layers having a layer structure
  • a first layer structural feature value calculation is performed to calculate a feature map indicating a feature value in the image for each processing layer.
  • the second feature map calculated by the second processing layer which is the processing layer on the input side of the first processing layer among the plurality of processing layers of the part, is acquired, and the second feature map is obtained based on the external information on the second object Since the region is extracted from the image to generate the extraction feature map and the second object in the image is recognized based on the extraction feature map, when recognizing a plurality of objects each having different features from the input image, Processing load can be reduced and recognition accuracy can be improved.
  • the recognition device of another aspect has a processor, the processor acquires image data representing an image, and when the image data is input, features in the image for each processing layer of the plurality of processing layers having a layer structure.
  • a feature map indicating the amount is calculated, and the first object in the image is recognized from the first feature map calculated by the first processing layer among the plurality of processing layers, and the first processing layer among the plurality of processing layers is identified
  • the second feature map which is the processing layer on the input side, acquires the calculated second feature map, determines the region to be cut out from the second feature map based on the external information on the second object, and determines it from the second feature map
  • the recognition apparatus is a recognition apparatus that cuts out a region to generate a cut-out feature map and recognizes a second object in an image based on the cut-out feature map.
  • Block diagram showing hardware configuration of recognition device Flow chart showing processing of recognition method Schematic diagram for explaining each process conceptually
  • a diagram showing an example of an input image Diagram showing the display content of the display unit Flow chart showing processing of recognition method Schematic diagram for explaining each process conceptually Block diagram showing hardware configuration of recognition device
  • Block diagram showing hardware configuration of recognition device External view of endoscope system Front view of the end face of the insertion section Configuration diagram showing the configuration of the control system of the endoscope system Figure showing an example of a driving image
  • Block diagram showing hardware configuration of recognition device Flow chart showing processing of recognition method Schematic diagram for explaining each process conceptually Diagram showing the display content of the display unit A diagram showing an example of a three-dimensional medical image
  • the recognition device 10 is a device for recognizing a first object and a second object having different features from the acquired images.
  • the recognition device 10 performs an area extraction (segmentation) task for a first object in an image, and performs a task for determining the presence or absence of a second object in an image.
  • FIG. 1 is a block diagram showing the hardware configuration of the recognition device 10. As shown in FIG.
  • the recognition device 10 includes an image acquisition unit 12, a first layer structure feature quantity calculation unit 14, a first object recognition unit 16, a display unit 18, a feature map acquisition unit 20, a cutout area determination unit 22, a cutout unit 24, and a second An object recognition unit 30 and the like are provided.
  • the image acquisition unit 12 acquires image data indicating an image.
  • the image acquisition unit 12 may acquire image data from a camera (not shown), or may acquire it from a server (not shown) or the like.
  • the camera and the server may be connected via a network.
  • the first layer structure feature quantity calculation unit 14 has a structure (layer structure) in which a plurality of processing layers are hierarchically connected. When the image data is input, the first layer structure feature quantity calculation unit 14 calculates a feature map indicating the feature quantity reflecting the position information in the image for each processing layer.
  • the first object recognition unit 16 recognizes the first object in the image from the first feature map calculated by the first processing layer among the plurality of processing layers.
  • the final layer (the layer farthest from the input side) of the plurality of processing layers of the first layer structure feature quantity calculation unit 14 is taken as the first processing layer, and based on the first feature map calculated by the first processing layer. Extract the area of the first object in the image.
  • the display unit 18 is a display device configured of a liquid crystal screen or the like.
  • the display unit 18 displays the recognition result of the first object recognition unit 16.
  • the feature map acquisition unit 20 calculates a second processing layer, which is a processing layer on the input side of the first processing layer (here, the final layer) among the plurality of processing layers of the first layer structure feature quantity calculation unit 14. 2 Acquire the feature map.
  • the second processing layer calculates a plurality of second feature maps.
  • the feature map acquisition unit 20 acquires a plurality of second feature maps calculated by the second processing layer.
  • the cutout area determination unit 22 determines an area to be cut out from the second feature map based on the external information on the second object.
  • the external information referred to here is, for example, position information of the second object in the image, and is information such as the upper half, lower half, right half, or left half of the image.
  • the external information is not information obtained by analyzing the image data acquired by the image acquisition unit 12 but information which is known in advance as an attribute of the image.
  • the cutout unit 24 cuts out the region determined by the cutout region determination unit 22 from the second feature map acquired by the feature map acquisition unit 20, and generates a cutout feature map.
  • the cutout unit 24 generates a plurality of cutout feature maps from the plurality of second feature maps.
  • the second object recognition unit 30 recognizes the second object in the image based on the cutout feature map.
  • the second object recognition unit 30 converts a plurality of cutout feature maps into feature quantity vectors. Specifically, an average value of feature amounts in each cutout feature map of a plurality of cutout feature maps is calculated, and the average value of the calculated feature amounts is converted into a feature amount vector.
  • the second object recognition unit 30 determines the presence or absence of the second object in the image based on the feature quantity vector.
  • SVM Small Vector Machine
  • the second object recognition unit 30 determines the presence or absence of the second object using, as teacher data, a combination of a feature quantity vector when an image is input and a correct answer label that is the presence or absence of the second object in the image. In order to learn.
  • the second object recognition unit 30 can also use an NN (Neural Network) or another known identifier.
  • FIG. 2 is a flowchart showing processing of the recognition method.
  • FIG. 3 is a schematic diagram for demonstrating each process notionally.
  • step S1 to obtain image data 100 representing an input image G 1 is an endoscope image by the image acquiring unit 12 (an example of an image acquisition step).
  • Figure 4 is a diagram showing an example of an input image G 1.
  • the first layer structure feature quantity calculating unit 14 calculates a feature map of the image data 100 (first layer structure feature quantity calculating step).
  • the first layer structure feature quantity calculation unit 14 is a convolution operation unit which is a convolution operation unit including the intermediate layers 102-1, 102-2, 102-3, 102-4, 102-5, ..., and 102-n.
  • a neural network (Convolutional Neural Network: CNN) 104 (hereinafter referred to as CNN 104).
  • the CNN 104 has a structure in which a convolutional layer that performs local feature extraction of an image by convolutional processing using a plurality of filters and a pooling layer that combines extracted features into rectangular regions are repeated.
  • the intermediate layers 102-1, 102-2, 102-3, 102-4, 102-5,..., And 102-n are convolution layers or pooling layers, respectively.
  • the intermediate layers 102-1, 102-2, 102-3, 102-4, 102-5, ..., and 102-n are not limited to the convolutional layer or the pooling layer, and the activation process is performed on the extracted features. It may be an activation layer to be performed.
  • the CNN 104 is designed and learned for the purpose of recognizing a specific lesion from an endoscopic image.
  • each of the intermediate layers 102-1,102-2, 102-3, 102-4, 102-5,. 2, 106-3, 106-4, ... and 106-n is channel number corresponding to the plurality of features included in the input image G 1
  • a plurality of feature maps 106-1, 106-2, 106-3, 106-4,..., And 106-n are calculated.
  • the plurality of feature maps 106-1, 106-2, 106-3, 106-4,..., And 106-n are two-dimensional data each having the size of width in the horizontal direction and height in the vertical direction.
  • the 2-dimensional data is characteristic of the input image G 1 that reflects the positional information in the input image G 1, respectively.
  • channel, width, and height take arbitrary values for each of the feature maps 106-1, 106-2, 106-3, 106-4, ..., and 106-n.
  • the first object recognition unit 16 selects one of the intermediate layers 102-1, 102-2, 102-3, 102-4, 102-5, ..., and 102-n of the CNN 104.
  • the first feature map 110 calculated by the one processing layer 108 is acquired.
  • the intermediate layer 102-n which is the final intermediate layer, is used as the first processing layer 108, and the plurality of feature maps 106-n calculated by the intermediate layer 102-n are acquired as the plurality of first feature maps 110.
  • the first processing layer 108 is not limited to the intermediate layer 102-n, and any of the intermediate layers 102-2 to 102- (n-1) may be employed.
  • the lesion is a first object in the input image G 1 from the first feature map 110 performs the process of recognizing 112 (first object recognition step ).
  • the process 112 extracts at least a partial area of the lesion. Specifically, calculating a score indicating the likelihood a lesion with respect to each region in the input image G 1 based on the plurality of first feature map 110, and outputs the score map 114 showing a high scoring regions .
  • a plurality of first feature map 110 includes a feature value reflecting the position information in the input image G 1, respectively. Therefore, the position of the lesion can be recognized from the plurality of first feature maps 110.
  • step S5 in the feature map acquisition unit 20, the first processing layer among the intermediate layers 102-1, 102-2, 102-3, 102-4, 102-5, ..., and 102-n of the CNN 104.
  • a process 120 is performed to acquire the second feature map 118 calculated by the second processing layer 116 on the input side than the process 108 (an example of the feature map acquisition process).
  • the process 120 uses the intermediate layer 102-3 as the second processing layer 116, and acquires the plurality of feature maps 106-3 calculated by the intermediate layer 102-3 as the plurality of second feature maps 118.
  • the plurality of second feature maps 118 are composed of two-dimensional data.
  • the second processing layer 116 is not limited to the intermediate layer 102-3, and any of the intermediate layers 102-1 to 102- (n-1) may be employed if it is on the input side of the first processing layer 108. Good.
  • the second feature map 118 not all of the plurality of feature maps 106-3, which are the outputs of the intermediate layer 102-3 serving as the second processing layer 116, are used as the second feature map 118, but a specific one of the plurality of feature maps 106-3. Only one or more feature maps 106-3 may be used as the second feature map 118.
  • step S6 the clipping region determination unit 22 determines the clipping region 121 to be clipped from the second feature map 118 based on the external information on the biopsy instrument as the second object (an example of the clipping region determination step) .
  • the external information about the biopsy instrument is the position information of the biopsy instrument in the input image G 1.
  • the cutout area determination unit 22 determines the cutout area 121 as the lower half of the second feature map 118 based on the external information of spatial locality such as the lower half of the endoscopic image. As described above, the cutout area determination unit 22 determines a part of the plurality of second feature maps 118 that are two-dimensional data as an area to cut out.
  • step S7 the clipping unit 24 performs the clipping processing 122 of the clipping region 121 from the second feature map 118 to generate the clipping feature map 124 (an example of the clipping process).
  • the clipping unit 24 performs the clipping processing 122 of the clipping region 121 from the second feature map 118 to generate the clipping feature map 124 (an example of the clipping process).
  • a plurality of cutout feature maps 124 generated by cutting out the lower half of each of the plurality of second feature maps 118 are generated.
  • pooling processing may be performed.
  • pooling processing there are methods such as max pooling that selects the maximum value of peripheral pixel values, and average pooling that selects an average value. Further, the reduction of the size is not limited to the pooling process, and other methods such as principal component analysis may be used.
  • step S8 the second object recognition unit 30 calculates the average value of the feature quantities for each of the plurality of cutout feature maps 124 (an example of the feature quantity calculation process). Furthermore, in the second object recognition unit 30, the average value is converted into the feature quantity vector 128 by the vector conversion process 126.
  • step S9 the second object recognition unit 30 performs the determination processing 130 based on the feature vector 128, and outputs the presence or absence 132 of the biopsy instrument in the input image G 1 (the second object recognition process One case).
  • step S10 the display unit 18 outputs the recognition result of the lesion in step S4 and the recognition result of the biopsy instrument in step S9, and ends the processing of this flowchart.
  • Figure 5 is a diagram showing a display content of the display unit 18 in the case where the input image G 1 shown in FIG. 4 has been input. Here, it displays an input image G 1 on the display unit 18, and superimposed on the score map 114 to the input image G 1 as a recognition result of the lesion. Further, as a recognition result of the biopsy device, the display unit 18 displays the presence / absence 132 of the biopsy device.
  • the score map 114 is shown by coloring the lesion area, but there is no limitation on the display method as long as the lesion area can be recognized, such as displaying the lesion area in a frame.
  • the recognition result of the first object and the recognition result of the second object can be output.
  • recognition of the second object is based on external information using the fact that the feature map reflects the position information of the input image and that the second object has spatial locality. Only the necessary area of the feature map is cut out and used. Therefore, the feature of the second object is not diluted as compared with the case where the entire feature map is used, and the recognition accuracy can be improved.
  • the layer structure for the second object A feature amount calculation unit can be prepared independently, and the processing load can be reduced compared to the case where processing is performed in two layer structure feature amount calculation units.
  • the recognition process of the lesion (steps S3 to S4) in the first object recognition unit 16 and the recognition process (steps S5 to S8) of the biopsy instrument in the second object recognition unit 30 are performed in parallel. , One process may be performed first, and the other process may be performed thereafter.
  • the second object recognition unit 30 calculates an average value of feature amounts in each cutout feature map of the plurality of cutout feature maps when converting the plurality of cutout feature maps into the feature amount vector.
  • the average value of the calculated feature amounts is converted into a feature amount vector, but the method of converting the feature map into a feature amount vector is not limited to this.
  • the maximum value of the feature amount in each cutout feature map of a plurality of cutout feature maps may be calculated, and the calculated maximum value of the feature amount may be converted into a feature amount vector.
  • the number of dimensions of the feature quantity vector is the number of feature maps.
  • the feature amounts in each cutout feature map are arranged in a line to have (N ⁇ W ⁇ H) dimensions It may be converted to a feature quantity vector.
  • Second Embodiment A method of recognizing a first object and a second object in an image using the recognition device 10 will be described.
  • the task of extracting the area of the first object in the image is performed from the image data indicating the endoscopic image, and the task of determining the presence or absence of the second object in the image is performed. .
  • FIG. 6 is a flowchart showing the process of the recognition method.
  • FIG. 7 is a schematic view for conceptually explaining each process. The same reference numerals are given to parts in common with the flowchart shown in FIG. 2 and the schematic view shown in FIG. 3, and the detailed description thereof will be omitted.
  • step S1 to obtain image data 100 representing an input image G 1.
  • step S2 a feature map of the image data 100 is calculated.
  • step S3 a plurality of feature maps 106-n calculated by the intermediate layer 102-n which is the first processing layer 108 are acquired as a plurality of first feature maps 110.
  • step S4 the lesion score map 114 is output based on the plurality of first feature maps 110.
  • step S11 in the feature map acquisition unit 20, the first processing layer 108 among the intermediate layers 102-1, 102-2, 102-3, 102-4, 102-5, ..., and 102-n of the CNN 104.
  • the processing 120-1 is performed to acquire the second feature map 118-1 calculated by the second processing layer 116-1 on the input side.
  • the process 120-1 sets the middle layer 102-3 as the second processing layer 116-1, and sets the plurality of feature maps 106-3 calculated by the middle layer 102-3 as the plurality of second feature maps 118-1. get.
  • the feature map acquisition unit 20 further processes the second processing layer 116- of the intermediate layers 102-1, 102-2, 102-3, 102-4, 102-5, ..., and 102-n of the CNN 104.
  • the intermediate layer 102-4 is the third processing layer 116-2
  • the plurality of feature maps 106-4 calculated by the intermediate layer 102-4 are the plurality of third feature maps 118-2. get.
  • the third feature map 118-2 not all of the plurality of feature maps 106-3 which are the outputs of the intermediate layer 102-3 forming the third processing layer 116-2 are used as the third feature map 118-2 but a plurality of feature maps Only one or more specific feature maps 106-3 out of 106-3 may be used as the third feature map 118-2.
  • step S12 the clipping region determination unit 22 cuts out the plurality of second feature maps 118-1 based on the external information on the biopsy device, and the plurality of third feature maps 118-2 A cutout region 121-2 cut out from the image is determined.
  • the cutout region determination unit 22 sets the cutout region 121-1 to the lower half of the plurality of second feature maps 118-1 and the cutout region 121-2 to the plurality of third feature maps 118-. Decide on the lower half of 2.
  • step S13 the cutout unit 24 performs the cutout processing 122-1 to cut out the cutout region 121-1 from the plurality of second feature maps 118-1 to generate a plurality of first cutout feature maps 124-1. Do. Similarly, the cutout unit 24 performs the cutout processing 122-2 to cut out the cutout region 121-2 from the plurality of third feature maps 118-2 to generate a plurality of second cutout feature maps 124-2.
  • the pooling process may be performed on the plurality of first cutout feature maps 124-1 and the plurality of second cutout feature maps 124-2.
  • the second object recognition unit 30 calculates an average value (an example of the first feature amount) of feature amounts for each of the plurality of first cutout feature maps 124-1 and this average value. Are converted to the feature quantity vector 128-1 by the vector conversion process 126-1. Similarly, in the second object recognition unit 30, the average value (an example of the second feature value) of the feature values for each of the plurality of second cutout feature maps 124-2 is calculated, and this average value is subjected to vector conversion processing The image is converted to feature quantity vector 128-2 by 126-2.
  • step S15 the second object recognition unit 30 performs vector connection processing 134, and connects the feature quantity vector 128-1 and the feature quantity vector 128-2 to one feature quantity vector 136.
  • step S16 the second object recognition unit 30 performs the determination processing 130 based on the feature vector 136, and outputs the presence or absence 132 of the biopsy instrument in the input image G 1.
  • step S10 as in the first embodiment, the recognition result of the lesion and the recognition result of the biopsy instrument are output to the display unit 18.
  • the recognition accuracy of the second object can be improved by using the feature maps of the outputs of the plurality of different intermediate layers.
  • the recognition device 40 performs a task of extracting an area for each of the first object and the second object in the image.
  • FIG. 8 is a block diagram showing the hardware configuration of the recognition device 40. As shown in FIG. In addition, the same code
  • the second object recognition unit 30 of the recognition device 40 includes a second layer structure feature quantity calculation unit 28.
  • the second layer structure feature amount calculating unit 28 has a structure in which a plurality of processing layers are hierarchically connected.
  • the second layer structure feature quantity calculation unit 28 calculates a feature map indicating feature quantities reflecting position information in the image for each processing layer.
  • a method of recognizing the first object and the second object in the image using the recognition device 40 will be described. As described above, an example will be described in which a lesion is recognized as a first object, and a biopsy instrument inserted as a second object from a forceps port (not shown) is recognized from image data showing an endoscopic image.
  • FIG. 9 is a flowchart showing the process of the recognition method.
  • FIG. 10 is a schematic view for conceptually explaining each process. The same reference numerals are given to parts in common with the flowchart shown in FIG. 2 and the schematic view shown in FIG. 3, and the detailed description thereof will be omitted.
  • steps S1 to S4 are performed to recognize the lesion as the first object.
  • step S5 the processing of steps S5 to S7 is performed. That is, in step S5, the intermediate layer 102-3 of the CNN 104 is set as the second processing layer 116, and the plurality of feature maps 106-3 calculated by the intermediate layer 102-3 are acquired as the plurality of second feature maps 118.
  • step S6 the cutout region 121 cut out from the second feature map 118 is determined based on the external information on the biopsy device. Furthermore, in step S7, a plurality of cutout feature maps 124 are generated in which the lower halves of the plurality of second feature maps 118 are cut out.
  • step S21 the second layer structure feature quantity calculating unit 28 acquires a fourth feature map 142-n indicating the feature quantities in the cutout feature map 124.
  • the second layer structure feature quantity calculation unit 28 is configured of a CNN 140 including intermediate layers 138-1, 138-2, ..., and 138-n (an example of a plurality of fourth processing layers).
  • the intermediate layers 138-1, ..., and 138-n calculate feature maps 142-1, ..., and 142-n, respectively.
  • CNN 140 is designed and learned for the purpose of recognizing a biopsy instrument from endoscopic images.
  • a fourth feature map 142-n indicating the feature amounts in the cutout feature map 124 is output from the final intermediate layer 138-n.
  • Cut feature map 124 reflects the position information of the input image G 1.
  • the CNN 140 calculates a fourth feature map 142-n indicating a feature that reflects position information in the input image. Accordingly, the fourth feature map 142-n has a feature amount reflecting the positional information of the input image G 1.
  • the fourth feature maps 142-n for the number of channels are output.
  • step S22 the second object recognition unit 30, a process 144 for extracting at least a part of the area of the biopsy instrument in the input image G 1 from the fourth feature map 142-n perform.
  • the process 144 calculates a score indicating the likelihood a biopsy instrument for each region in the input image G 1 based on the plurality of fourth feature map 142-n, show a high scoring regions
  • the score map 146 is output.
  • a plurality of fourth feature map 142-n has a feature amount reflecting the position information in the input image G 1, respectively. Therefore, the position of the biopsy device can be recognized from the plurality of fourth feature maps 142-n.
  • step S23 the display unit 18 outputs the recognition result of the lesion in step S4 and the recognition result of the biopsy instrument in step S22, and ends the processing of this flowchart.
  • Figure 11 is a diagram showing a display content of the display unit 18 when the input image G 1 is inputted. Here, it displays an input image G 1 on the display unit 18, an input image G 1 as a recognition result of the lesion has been superimposed on the score map 114 of the lesion. Further, as a recognition result of the biopsy instrument, and superimpose score map 146 of the biopsy instrument in the input image G 1.
  • the score map 114 and the score map 146 are preferably colored in different colors.
  • FIG. 12 is a flowchart showing the process of the recognition method.
  • FIG. 13 is a schematic view for conceptually explaining each process.
  • the parts common to the flowcharts shown in FIGS. 2 and 9 and the parts common to the schematic diagrams shown in FIGS. 3 and 10 are assigned the same reference numerals and detailed explanations thereof will be omitted.
  • steps S1 to S4 are performed to recognize the lesion as the first object.
  • steps S5 to S7 are performed. That is, in step S5, the intermediate layer 102-3 of the CNN 104 is set as the second processing layer 116, and the plurality of feature maps 106-3 calculated by the intermediate layer 102-3 are acquired as the plurality of second feature maps 118.
  • step S6 the cutout region 121 cut out from the second feature map 118 is determined based on the external information on the biopsy device.
  • step S7 a plurality of cutout feature maps 124 are generated in which the lower halves of the plurality of second feature maps 118 are cut out.
  • step S21 the second layer structure feature quantity calculation unit 28 acquires a fourth feature map 142-n indicating the feature quantities in the cutout feature map 124.
  • a fourth feature map 142-n indicating the feature amounts in the cutout feature map 124 is output from the final intermediate layer 138-n.
  • the fourth feature maps 142-n for the number of channels are output.
  • step S8 the second object recognition unit 30 calculates the average value of the feature amounts for each channel of the fourth feature map 142-n. Furthermore, in the second object recognition unit 30, the average value is converted into the feature quantity vector 128 by the vector conversion process 126.
  • step S9 the second object recognition unit 30 performs the determination processing 130 based on the feature vector 128, and outputs the presence or absence 132 of the biopsy instrument in the input image G 1.
  • step S10 the display unit 18 outputs the recognition result of the lesion in step S4 and the recognition result of the biopsy instrument in step S9, and ends the processing of this flowchart.
  • the result of the convolution operation of the cutout feature map may be converted into a feature amount vector to determine the feature amount vector.
  • FIG. 14 is a flowchart showing the process of the recognition method.
  • FIG. 15 is a schematic view for conceptually explaining each process.
  • the parts common to the flowcharts shown in FIGS. 6 and 9 and the parts common to the schematic diagrams shown in FIGS. 7 and 10 are assigned the same reference numerals and detailed explanations thereof will be omitted.
  • steps S1 to S4 are performed to recognize the lesion as the first object.
  • steps S11 to S13 are performed. That is, in step S11, a plurality of second feature maps 118-1 and third feature maps 118-2 are acquired. Next, in step S12, the cutout region 121-1 and the cutout region 121-2 are determined. Furthermore, in step S13, a plurality of first cutout feature maps 124-1 and a plurality of second cutout feature maps 124-2 are generated.
  • the feature map acquisition unit 20 performs a process 148 of connecting the first cutout feature map 124-1 and the second cutout feature map 124-2 to generate a connection cutout feature map 150.
  • the order of connection is not particularly limited as long as learning and inference are the same. Assuming that the number of channels of the plurality of first cutout feature maps 124-1 is A and the number of channels of the plurality of second cutout feature maps 124-2 is B, the number of channels of the connection cutout feature map 150 is (A + B ).
  • the feature map acquisition unit 20 when the sizes of the width and height of the first cutout feature map 124-1 and the second cutout feature map 124-2 are different, the feature map acquisition unit 20 generates the first cutout feature map 124-1 and the second cutout feature. If at least one of the enlargement processing and the reduction processing is performed on at least one of the maps 124-2, the sizes of the width and height of the first cutout feature map 124-1 and the second cutout feature map 124-2 should be matched. Good.
  • the enlargement processing may use deconvolution processing, and the reduction processing may use pooling processing.
  • step S21 the connected cut-out feature map 150 is input to the CNN 140 of the second layer structure feature quantity calculation unit 28, and a plurality of feature points in the connected cut-out feature map 150 are indicated from the final intermediate layer 138-n. 4 Acquire the feature map 142-n.
  • step S22 it performs a process 144 for extracting at least a partial area of the biopsy instrument of the input image G 1 from the plurality of fourth feature map 142-n, with respect to each region in the input image G 1 A score indicating the possibility of being a biopsy instrument is calculated, and a score map 146 indicating an area with a high score is output.
  • step S23 the recognition result of the lesion in step S4 and the recognition result of the biopsy device in step S22 are output, and the processing of this flowchart is ended.
  • cut-out feature maps are respectively generated from the feature maps of the outputs of a plurality of different intermediate layers, and the cut-out feature maps are connected to extract the features.
  • the recognition accuracy of the second object can be improved.
  • FIG. 16 is a block diagram showing the hardware configuration of the recognition device 50. As shown in FIG. The same reference numerals are given to parts in common with the block diagram shown in FIG.
  • the recognition device 50 includes a first learning unit 52 and a second learning unit 54.
  • the first learning unit 52 sets the first layer structural feature quantity calculation unit 14 and the first target as a set of the image acquired from the input unit (not shown) and the correct labels of the recognition result of the first object in the image.
  • the information is input to the object recognition unit 16 and is learned by the first layer structure feature quantity calculation unit 14 and the first object recognition unit 16.
  • the second learning unit 54 uses the pair of the image acquired from the input unit (not shown) and the correct answer label of the recognition result of the second object in the image as the teacher information, and the second layer structural feature quantity calculation unit 28 and the second object The information is input to the recognition unit 30, and the second layer structure feature value calculation unit 28 and the second object recognition unit 30 learn.
  • the recognition device 10 Good Even if the first layer structure feature quantity calculation unit 14, the first object recognition unit 16, the second layer structure feature quantity calculation unit 28, and the second object recognition unit 30 are learned in the recognition device 10 Good. Thereby, the recognition accuracy of the first object and the second object can be improved. Further, only one of the first learning unit 52 and the second learning unit 54 may be provided.
  • FIG. 17 is an external view of the endoscope system 70.
  • the endoscope system 70 is configured to include an endoscope 71, a processor device 72, and a light source device 73.
  • the endoscope 71 is connected to a flexible insertion portion 74 to be inserted into the body of a subject, an operation portion 75 connected to the proximal end portion of the insertion portion 74, the processor device 72, and the light source device 73.
  • a forceps port 78 is provided on the distal end side of the operation unit 75.
  • a treatment tool biological instrument
  • biological instrument such as an electric scalpel is inserted through the forceps port 78.
  • the forceps port 78 communicates with the forceps outlet 79 of the distal end surface 74 a of the insertion portion 74 through the forceps channel in the insertion portion 74.
  • FIG. 18 is a front view of the distal end surface 74 a of the insertion portion 74.
  • the operation unit 75 includes various operation members such as an angle knob 80, an air / water supply button 82, and a suction button 84.
  • the angle knob 80 causes the distal end hard portion 86 of the insertion portion 74 to bend in the vertical and horizontal directions by the rotation operation.
  • the air / water supply button 82 ejects air or water from the air / water / water supply nozzle 88 provided on the tip end surface 74 a as shown in FIG. 18 by a pressing operation.
  • the suction button 84 sucks a suctioned substance such as fluid and tissue in the body from the forceps outlet 79 shown in FIG. 18 by pressing operation.
  • the processor device 72 is electrically connected to the endoscope 71 and the light source device 73, and centrally controls the operation of the endoscope system 70.
  • the distal end hard portion 86 is mounted with an imaging unit 200 (see FIG. 19) that performs imaging via an observation window 90 provided on the distal end surface 74a as shown in FIG.
  • the power and control signal from the processor device 72 are supplied to the imaging unit 200 via the universal cord 77 and a signal cable (not shown) inserted in the insertion unit 74, and the processor unit 72 controls the operation of the imaging unit 200. Be done.
  • an imaging signal from the imaging unit 200 is given to the processor unit 72 through a signal cable, and various processing is performed on the imaging signal in the processor unit 72 and an observation image observed by the imaging unit 200 Image data is generated.
  • a monitor 92 is connected to the processor unit 72.
  • An observation image captured by the imaging unit 200 is displayed on the screen of the monitor 92 based on the image data from the processor device 72.
  • the light source device 73 is an illumination unit that emits illumination light into a body cavity to be imaged by the imaging unit 200.
  • the light source device 73 supplies, to the endoscope 71, illumination light emitted toward the observation site from the illumination window 94 shown in FIG. 18 provided on the distal end surface 74a.
  • the illumination light supplied from the light source device 73 is transmitted to the distal end rigid portion 86 via the universal cord 77 and a light guide (not shown) inserted into the insertion portion 74.
  • FIG. 19 is a configuration diagram showing a configuration of a control system of the endoscope system 70.
  • the distal end rigid portion 86 of the endoscope 71 is provided with an imaging element 202, an analog signal processing circuit 204, a timing generator 206, and the like as the imaging unit 200.
  • the distal end hard portion 86 is provided with a CPU (Central Processing Unit) 208.
  • CPU Central Processing Unit
  • the timing generator 206 generates drive pulses such as vertical / horizontal scan pulses and reset pulses of the image sensor 202 and synchronization pulses for the analog signal processing circuit 204 based on the control of the CPU 208.
  • the imaging device 202 is a single-plate color imaging solid-state imaging device provided with a not-shown color filter (for example, a primary color filter of Bayer arrangement) composed of a plurality of color segments.
  • the imaging element 202 is driven by a drive pulse input from the timing generator 206, and photoelectrically converts an optical image formed on an imaging surface (not shown) through the observation window 90 of the tip surface 74a and the objective optical system 210. Output as an imaging signal.
  • a large number of pixels are arranged in a matrix on the imaging surface of the imaging element 202, and each pixel is provided with a photosensor (photoelectric conversion element) (not shown).
  • the light incident on the imaging surface of the imaging element 202 is accumulated as charge in the photosensor of each pixel.
  • the amount of signal charge accumulated in the photosensor of each pixel is sequentially read as a pixel signal by scanning in the vertical and horizontal directions by a vertical scanning circuit and a horizontal scanning circuit (not shown), and output at a predetermined frame rate.
  • the configuration of a signal readout circuit for reading out the accumulated charge of each photosensor of the imaging element 202 as an imaging signal is conventionally known, and a general configuration such as a 3-transistor configuration or a 4-transistor configuration can be applied. The explanation is omitted here.
  • the analog signal processing circuit 204 is configured by a correlated double sampling circuit (not shown), an automatic gain circuit, and an analog-to-digital converter.
  • the correlated double sampling circuit performs correlated double sampling processing on the imaging signal output from the imaging element 202, and removes reset noise and amplifier noise generated in the imaging element 202.
  • the automatic gain circuit amplifies the imaging signal subjected to noise removal by the correlated double sampling circuit with a gain (amplification factor) specified by the CPU 208.
  • the analog-to-digital converter converts the imaging signal amplified by the automatic gain circuit into a digital signal of a predetermined number of bits and outputs the digital signal.
  • the imaging signal (digital imaging signal) digitized and output by the analog signal processing circuit 204 is input to the processor device 72.
  • the configuration of the circuit for driving the imaging element 202 and the configuration inside the distal end hard portion 86 for transmitting an imaging signal from the imaging element 202 to the processor device 72 are not limited to the above.
  • the processor device 72 includes a CPU 212, a read only memory (ROM) 214, a random access memory (RAM) 216, an image processing circuit 218, and a display control circuit 220.
  • the CPU 212 controls each part in the processor device 72 and controls the entire endoscope system 70 in a centralized manner.
  • the ROM 214 stores various programs for controlling the operation of the processor device 72 and control data. Further, programs and data to be executed by the CPU 212 are temporarily stored in the RAM 216.
  • the image processing circuit 218 performs color interpolation, color separation, color balance adjustment, gamma correction, image enhancement processing, and the like on the imaging signal input from the analog signal processing circuit 204 under the control of the CPU 212, and outputs the image data Generate
  • the image data output from the image processing circuit 218 is input to the display control circuit 220.
  • the display control circuit 220 converts the image data input from the image processing circuit 218 into a signal format corresponding to the monitor 92. Thereby, an image corresponding to the image data is displayed on the screen of the monitor 92.
  • the operation unit 230 of the processor device 72 is provided with various buttons (not shown) for receiving user's instruction input.
  • the light source device 73 includes a light source 222, a light source drive circuit 224, and a CPU 226.
  • the CPU 226 communicates with the CPU 212 of the processor unit 72 to control the light source drive circuit 224.
  • the light source 222 is, for example, a xenon lamp, and the light source drive circuit 224 controls lighting and extinguishing.
  • the illumination light emitted by the light source 222 is introduced to the incident end of a light guide 228 configured by bundling a large number of optical fibers (not shown).
  • the illumination light transmitted through the light guide 228 is emitted from the emission end of the light guide 228 and illuminates the region to be observed through the illumination window 94 of the endoscope 71.
  • the endoscope 71, the processor device 72, the light source device 73, and the monitor 92 are powered on.
  • the insertion portion 74 of the endoscope 71 is inserted into the body cavity.
  • the monitor 92 observes the image in the body cavity captured by the imaging element 202 of the imaging unit 200.
  • a biopsy instrument is inserted from a forceps port 78 provided on the distal end side of the operation unit 75 as necessary.
  • the biopsy device projects from the forceps outlet 79 of the distal end surface 74 a of the insertion portion 74. Depending on the biopsy device protruding from the forceps outlet 79, treatment can be performed according to the situation.
  • the recognition device 10 the recognition device 40, or the recognition device 50 can be provided. Thereby, the lesion and the biopsy instrument can be recognized from the endoscopic image captured by the imaging unit 200.
  • the recognition device 10 or the like may have a dedicated hardware configuration, or may be configured using the CPU 212, the ROM 214, the RAM 216, the image processing circuit 218, the display control circuit 220, and the monitor 92.
  • the + X direction shown in FIG. 18 is fixed on the upper side, and the ⁇ X direction is fixed on the lower side. Therefore, the biopsy instrument which protrudes from the forceps outlet 79 always appears from the lower side of the observation window 90 where the imaging unit 200 performs imaging. Therefore, it is possible to acquire external information that the position where the appearance frequency of the biopsy device is high is the lower half of the endoscopic image.
  • the recognition device 10, the recognition device 40, and the recognition device 50 have described an example of recognizing an object in an endoscopic image.
  • the recognition device 10, the recognition device 40, and the recognition device 50 It is also possible to apply to recognition of objects in images other than mirror images.
  • Figure 20 is the image is one scene of a moving image obtained by photographing the front of the situation seen from the driver's seat of an automobile (hereinafter, referred to as operating image) is a diagram showing an example of an input image G 2 is.
  • This input image G 2, automotive SB 1, a bicycle SB 2, the pedestrian SB 3, traffic sign SB 4, and the traffic SB 5 is reflected.
  • Recognition device 10 recognition device 40, and according to the recognition unit 50 performs the input image G 2, automotive SB 1 appearing in the entire image, recognizing tasks bicycle SB 2, or pedestrian SB 3 as a first object , traffic signs SB 4 or traffic SB 5 appear in certain parts of the image can be performed to recognize the task as the second object.
  • the traffic sign SB 4 is generally installed on the left side of the road if it is determined that the vehicle is to be driven on the left side by the traffic rules. Therefore, the external information about the traffic signs SB 4 is position information of the left half of the driver image. Also, the traffic signal SB 5 is generally installed at a high place in view of visibility. Therefore, the external information about the traffic SB 5 is position information of the upper half of the operation image.
  • the ninth embodiment [Recognition device]
  • the recognition device 60 performs a task of extracting the regions of the first object, the second object, and the third object in the image.
  • FIG. 21 is a block diagram showing the hardware configuration of the recognition device 60. As shown in FIG. Note that portions common to the block diagram shown in FIG. 8 are denoted with the same reference numerals, and the detailed description thereof is omitted.
  • the recognition device 60 includes, in addition to the configuration of the recognition device 40, a third layer structure feature quantity calculation unit 62 and a third object recognition unit 64.
  • the third layer feature amount calculation unit 62 has a structure in which a plurality of processing layers are hierarchically connected. When the image data is input, the third layer structure feature quantity calculation unit 62 calculates a fifth feature map indicating the feature quantity reflecting the position information in the image for each processing layer.
  • the third object recognition unit 64 recognizes the third object in the image from the fifth feature map calculated by the third layer structure feature quantity calculation unit 62.
  • a method of recognizing a first object, a second object, and a third object in an image using the recognition device 60 will be described.
  • an example will be described in which an automobile as a first object, a traffic light as a second object, and a traffic sign as a third object are recognized from image data indicating a driving image.
  • FIG. 22 is a flowchart showing processing of the recognition method.
  • FIG. 23 is a schematic view for conceptually explaining each process. The same reference numerals are given to parts in common with the flowchart shown in FIG. 9 and the schematic view shown in FIG. 10, and the detailed description thereof will be omitted.
  • step S1 to obtain image data 240 representing an input image G 2 is an operation image by the image acquiring unit 12.
  • step S2 the first layer structure feature quantity calculation unit 14 calculates a feature map of the image data 240.
  • the CNN 104 is designed and learned for the purpose of recognizing a car from a driving image.
  • step S3 a plurality of feature maps 106-n calculated by the intermediate layer 102-n which is the first processing layer 108 are acquired as a plurality of first feature maps 110. Furthermore, in step S4, the score map 114 of the car is output based on the plurality of first feature maps 110.
  • step S5 in the feature map acquisition unit 20, the intermediate layer 102-3 of the CNN 104 is set as the second processing layer 116, and the plurality of feature maps 106-3 calculated by the intermediate layer 102-3 are converted to a plurality of second features. Acquire as map 118.
  • step S41 the clipping region determination unit 22 determines a clipping region 121-3 to be clipped from the second feature map 118 based on the external information on the traffic light that is the second object.
  • the external information on the traffic light is position information in the lower half of the image. Therefore, the cutout region determination unit 22 determines the cutout region 121-3 in the lower half of the plurality of second feature maps 118.
  • step S41 the clipping region determination unit 22 determines the clipping region 121-4 to be clipped out of the second feature map 118 based on the external information on the traffic sign that is the third object.
  • the external information on the traffic sign is position information of the left half of the image. Therefore, the cutout region determination unit 22 determines the cutout region 121-4 as the left half of the plurality of second feature maps 118.
  • step S42 the cutout unit 24 performs the cutout processing 122-3 of the cutout region 121-3 from the second feature map 118 to generate a third cutout feature map 124-3.
  • a plurality of third cutout feature maps 124-3 in which the upper halves of the plurality of second feature maps 118 are cutout are generated.
  • step S42 the cutout unit 24 performs the cutout processing 122-4 of the cutout region 121-4 from the second feature map 118 to generate a fourth cutout feature map 124-4.
  • a plurality of fourth cutout feature maps 124-4 obtained by cutting out the left half of each of the plurality of second feature maps 118 are generated.
  • cutout process 122-3 and the cutout process 122-4 is not limited, and may be performed simultaneously.
  • step S43 the second layer structure feature quantity calculation unit 28 acquires a fourth feature map 142-n indicating the feature quantities in the third cutout feature map 124-3.
  • the CNN 140 is designed and learned for the purpose of recognizing a traffic light from a driving image.
  • step S44 the second object recognition unit 30 performs processing 144 for extracting at least a part of the area of the traffic signal in the input image G 2 from the fourth feature map 142-n.
  • the process 144 calculates a score indicating the possibility of being a traffic light for each area in the input image G 2 based on the plurality of fourth feature maps 142-n, and a score map indicating areas with high scores Output 146
  • step S45 the third layer structure feature quantity calculating unit 62 acquires a fifth feature map 168-n indicating the feature quantities in the fourth cutout feature map 124-4.
  • the third layer feature value calculation unit 62 is configured of a CNN 164 including intermediate layers 162-1, 162-2, ..., and 162-n.
  • the intermediate layers 162-1 to 138-n calculate feature maps 168-1 to 168-n, respectively.
  • the CNN 164 is designed and learned for the purpose of recognizing traffic signs from driving images.
  • the fourth cut feature map 124-4 reflects the position information of the input image G 2.
  • the CNN 164 calculates a fifth feature map 168-n that indicates a feature that reflects position information in the input image.
  • the fifth feature map 168-n has a feature amount reflecting the position information of the input image G 2.
  • step S46 the third object recognition unit 64 performs a process 170 for extracting at least a partial area of the traffic sign in the input image G 2 from the fifth feature map 168-n.
  • the process 170 calculates the score indicating the possibility of being a traffic sign for each area in the input image G 2 based on the plurality of fifth feature maps 168-n, and indicates the area having a high score Output the map 172.
  • a plurality of fifth feature map 168-n has a feature amount reflecting the position information in the input image G 2, respectively. Therefore, the position of the traffic sign can be recognized from the plurality of fifth feature maps 168-n.
  • step S47 the display unit 18 outputs the recognition result of the vehicle in step S4, the recognition result of the traffic light in step S44, and the recognition result of the traffic sign in step S46, and the processing of this flowchart is ended.
  • Figure 24 is a diagram showing a display content of the display unit 18 in a case where the input image G 2 shown in FIG. 20 is input. Here, displays an input image G 2 on the display unit 18, and superimposed on the score map 114,146, and 172.
  • the region in which the first object is present is recognized from the entire image, the region in which the second object having spatial locality is present from the same image, and the second object from the image is It is possible to recognize the area in which the third object with different spatial locality is present.
  • Tenth Embodiment In the medical field, three-dimensional medical images captured by a computed tomography (CT) apparatus and a magnetic resonance (MR) apparatus are used for diagnosis.
  • CT computed tomography
  • MR magnetic resonance
  • the recognition apparatus 40 a task of extracting a lung field region as a first object and a spine region as a second object from a three-dimensional medical image captured by a CT device (not shown) Will be described.
  • Figure 25 is taken by the CT apparatus, a diagram illustrating an example of a three-dimensional medical image G 3 including the lung SB 6 and spine SB 7. As shown in FIG. 25, in the three-dimensional medical image according to the present embodiment, a plurality of axial cross-sectional images are arranged in the body axis direction. Image data representing a three-dimensional medical image is represented as three-dimensional data (voxel data) having voxel values.
  • the CNN 104 (see FIG. 10) of the first layer structure feature quantity calculation unit 14 is designed and learned for the purpose of extracting a three-dimensional lung field region from a three-dimensional medical image including the lung field and the spine.
  • the CNN 140 (see FIG. 10) of the second layer structural feature quantity calculation unit 28 is designed and learned for the purpose of extracting a three-dimensional spine region from a three-dimensional medical image including a lung field and a spine. .
  • a CT apparatus In a CT apparatus, generally, imaging is performed in a state where the subject is laid on the bed and the back of the subject is in contact with the upper surface of the bed.
  • three-dimensional medical image G 3 are, back side of the subject is lower images in axial section. In this case, the spine caught on near the center lower half in axial section of a three-dimensional medical image G 3.
  • the external information on the spine is the position information of the lower half near the center of the axial cross-sectional image.
  • the cutout area determination unit 22 may obtain this external information, and determine the lower half near the center of the axial cross section as the cutout area 121.
  • the intermediate layers 102-1, 102-2, 102-3, 102-4, 102-5,..., And 102-n of the CNN 104 each have a plurality of features formed of three-dimensional data.
  • the maps 106-1, 106-2, 106-3, 106-4, ..., and 106-n are calculated. Therefore, the cutout area determination unit 22 determines that a part of the plurality of second feature maps 118 that are three-dimensional data is cut out.
  • the intermediate layers 102-1, 102-2, 102-3, 102-4, 102-5, ..., and 102-n respectively include a plurality of feature maps 106-1, 106- each formed of two-dimensional data. 2, 106-3, 106-4, ..., and 106-n may be calculated. Also, the plurality of feature maps 106-2 may be configured by two-dimensional data, and the plurality of feature maps 106-3 may be configured by three-dimensional data.
  • the image data from the image acquisition unit 12 showing a three-dimensional medical image G 3 is input, a score map 146 of the score map 114 and backbone regions of the lung field region in the display unit 18 Output.
  • the posture of the subject at the time of imaging is not supine, either adjust the orientation of the image input to the CNN 104, or use external information regarding the spine region as position information in consideration of the posture of the subject at the time of imaging Good.
  • the present invention is not limited to this combination, and a necessary area can be freely determined.
  • the second feature map may be used for a plurality of tasks.
  • the second feature map may be used for the task of extracting the spine region, trachea region, and sternal region.
  • the tracheal region generally exists on the spine in the axial cross section of the three-dimensional medical image.
  • the sternal region generally exists at the upper center in the axial cross section of the three-dimensional medical image. Therefore, the external information on the tracheal region is position information on the spine, and the external information on the sternum region is position information on the central upper portion.
  • a feature map which is an output of an intermediate layer different for each task may be used.
  • the recognition device 40 recognizes an object in a three-dimensional medical image
  • the recognition devices 10, 50, and 60 can also recognize an object in a three-dimensional medical image.
  • at least one of the recognition devices 10, 40, 50, and 60 may be integrated with the CT apparatus and the MR apparatus.
  • the recognition method described above can be configured as a program for causing a computer to realize each process, and can also configure a non-temporary recording medium such as a compact disk-read only memory (CD-ROM) storing the program. It is.
  • a non-temporary recording medium such as a compact disk-read only memory (CD-ROM)
  • the hardware-like structure of the processing unit (processing unit) that executes various processes of the recognition devices 10, 40, 50, and 60 includes various processors (described below) processor).
  • Various processors include a CPU (Central Processing Unit), which is a general-purpose processor that executes software (programs) and functions as various processing units, and a GPU (Graphics Processing Unit), which is a processor specialized for image processing, Dedicated to execute specific processing such as Programmable Logic Device (PLD) or ASIC (Application Specific Integrated Circuit), which is a processor whose circuit configuration can be changed after manufacturing an FPGA (Field Programmable Gate Array) or the like It includes a dedicated electric circuit or the like which is a processor having a designed circuit configuration.
  • PLD Programmable Logic Device
  • ASIC Application Specific Integrated Circuit
  • One processing unit may be configured of one of these various types of processors, or two or more processors of the same or different types (for example, a plurality of FPGAs, a combination of a CPU and an FPGA, or a CPU and (A combination of GPUs).
  • a plurality of processing units may be configured by one processor.
  • a plurality of processing units are configured by one processor, first, one processor or more is configured by a combination of one or more CPUs and software as represented by computers such as servers and clients.
  • a processor functions as a plurality of processing units.
  • SoC system on chip
  • IC integrated circuit
  • the hardware-like structure of these various processors is more specifically an electric circuit (circuitry) combining circuit elements such as semiconductor elements.
  • recognition device 12 image acquisition unit 14 first layer structure feature quantity calculation unit 16 first object recognition unit 18 display unit 20 feature map acquisition unit 22 cutout area determination unit 24 cutout unit 28 second layer structure feature quantity calculation unit 30 first 2 Object recognition unit 40 Recognition device 50 Recognition device 52 First learning unit 54 Second learning unit 60 Recognition device 62 Third layer structure feature quantity calculation unit 64 Third object recognition unit 70 Endoscope system 71 Endoscope 72 Processor unit 73 Light source unit 74 Insertion section 74a Tip surface 75 Operation section 76 Connector 77 Universal cord 78 Forceps port 79 Forceps outlet 80 Angle knob 82 Air supply / water supply button 84 Suction button 86 End rigid part 88 Air / water supply nozzle 90 Observation window 92 Monitor 94 illumination window 100 image data 102-1 middle layer 102-2 middle layer 102-3 middle layer 102-4 middle layer 102- Intermediate layer 102-n intermediate layer 104 convolutional neural network (CNN) 106-1 feature map 106-2 feature map 106-3 feature map 106-4 feature map 106-n feature map 108 first processing layer 110 first feature

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

入力画像からそれぞれ特徴の異なる複数の対象物を認識する際に、処理負荷を軽減させ、認識精度を向上させる認識装置、認識方法及びプログラムを提供する。画像を示す画像データが入力されると処理層毎に画像内の特徴量を示す特徴マップを算出する第1層構造特徴量算出部の複数の処理層のうち第1処理層が算出した第1特徴マップから画像内の第1対象物を認識し、第1処理層よりも入力側の処理層である第2処理層が算出した第2特徴マップから第2対象物に関する外部情報に基づいて決定した領域を切り出して切り出し特徴マップを生成し、切り出し特徴マップに基づいて画像内の第2対象物を認識する。

Description

認識装置、認識方法及びプログラム
 本発明は認識装置、認識方法及びプログラムに係り、特に入力画像からそれぞれ特徴の異なる複数の対象物を認識する認識装置、認識方法及びプログラムに関する。
 対象物の特徴量を事前にコンピュータに学習させ、入力された画像の中から対象物を認識する認識装置が知られている。このような認識装置として、例えば多層構造のニューラルネットワークの機械学習を利用することが知られている。多層構造のニューラルネットワークの一例として、畳み込み層とプーリング層とを交互に含む畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)がある。
 特許文献1には、入力画像内における所定の対象の有無を認識するCNNを有し、CNNの中間層の出力である中間画像(特徴マップ)群からその対象の認識率向上に寄与する中間画像を抽出し、抽出された中間画像を合成した合成画像を生成し、中間画像から入力画像内の対象を含む領域を特定することで、入力画像から対象が含まれる領域をトリミングする装置が開示されている。
特開2017-059090号公報
 入力画像からそれぞれ特徴の異なる第1対象物及び第2対象物を認識するには、第1対象物を認識するタスクのために作成されたCNNと、第2対象物を認識するタスクのために作成されたCNNとを用意して、それぞれのCNNに入力画像を入力すればよい。しかしながら、複数のCNNを個別に用意すると処理負荷が大きくなるという問題点がある。
 このような問題点に対し、入力画像から第1対象物を認識するタスクのために作成されたCNNの中間層の特徴マップを、第1対象物とは特徴の異なる第2対象物のタスクに利用することが考えられる。
 ここで、第2対象物は、画像中に現れる位置が局所的である(空間的局所性がある)ものとする。特徴マップは、入力画像の位置情報を反映している。したがって、例えば各特徴マップの特徴量の平均値を使用する場合、第2対象物が存在し得ない領域の特徴量もまとめて平均化される。このため、使用される平均値は、第2対象物に関する特徴量が希薄化するという問題点があった。
 また、特許文献1には、このような問題点を解決する記載はない。
 本発明はこのような事情に鑑みてなされたもので、入力画像からそれぞれ特徴の異なる複数の対象物を認識する際に、処理負荷を軽減させ、認識精度を向上させる認識装置、認識方法及びプログラムを提供することを目的とする。
 上記目的を達成するために認識装置の一の態様は、画像を示す画像データを取得する画像取得部と、層構造を有する複数の処理層を有し、画像データが入力されると処理層毎に画像内の特徴量を示す特徴マップを算出する第1層構造特徴量算出部と、複数の処理層のうち第1処理層が算出した第1特徴マップから画像内の第1対象物を認識する第1対象物認識部と、複数の処理層のうち第1処理層よりも入力側の処理層である第2処理層が算出した第2特徴マップを取得する特徴マップ取得部と、第2対象物に関する外部情報に基づいて第2特徴マップから切り出す領域を決定する切り出し領域決定部と、第2特徴マップから決定した領域を切り出して切り出し特徴マップを生成する切り出し部と、切り出し特徴マップに基づいて画像内の第2対象物を認識する第2対象物認識部と、を備えた認識装置である。
 本態様の認識装置によれば、層構造を有する複数の処理層を有し、画像データが入力されると処理層毎に画像内の特徴量を示す特徴マップを算出する第1層構造特徴量算出部の複数の処理層のうち第1処理層よりも入力側の処理層である第2処理層が算出した第2特徴マップを取得し、第2対象物に関する外部情報に基づいて第2特徴マップから領域を切り出して切り出し特徴マップを生成し、切り出し特徴マップに基づいて画像内の第2対象物を認識するようにしたので、入力画像からそれぞれ特徴の異なる複数の対象物を認識する際に、処理負荷を軽減させ、認識精度を向上させることができる。
 第2対象物に関する外部情報は、画像内の第2対象物の位置情報であることが好ましい。これにより、第2特徴マップから切り出す領域を適切に決定することができる。
 特徴マップ取得部は、第2処理層とは異なる第3処理層であって、複数の処理層のうち第1処理層よりも入力側の第3処理層が算出した第3特徴マップをさらに取得し、切り出し部は、第2特徴マップから決定した領域を切り出して第1切り出し特徴マップを生成し、かつ第3特徴マップから決定した領域を切り出して第2切り出し特徴マップを生成し、第2対象物認識部は、第1切り出し特徴マップ及び第2切り出し特徴マップに基づいて画像内の第2対象物を認識することが好ましい。これにより、第2特徴マップだけでは第2対象物の情報が足りない場合であっても、第2対象物を適切に認識することができる。
 特徴マップ取得部は、第2処理層が算出した複数の第2特徴マップを取得し、切り出し部は、複数の第2特徴マップから決定した領域を切り出して複数の切り出し特徴マップを生成し、第2対象物認識部は、複数の切り出し特徴マップを特徴量ベクトルに変換し、特徴量ベクトルに基づいて第2対象物の有無を判別することが好ましい。これにより、第2対象物の有無を適切に判別することができる。
 第2対象物認識部は、複数の切り出し特徴マップの各切り出し特徴マップ内の特徴量の平均値を算出し、平均値を特徴量ベクトルに変換することが好ましい。これにより、第2対象物の有無を適切に判別することができる。
 第2対象物認識部は、複数の切り出し特徴マップの各切り出し特徴マップ内の特徴量を特徴量ベクトルに変換することが好ましい。これにより、第2対象物の有無を適切に判別することができる。
 層構造を有する複数の第4処理層を有し、切り出し特徴マップが入力されると切り出し特徴マップ内の特徴量を示す第4特徴マップを算出する第2層構造特徴量算出部を備え、第2対象物認識部は、第4特徴マップに基づいて第2対象物の有無を判別、又は第2対象物の少なくとも一部の領域を抽出することが好ましい。これにより、第2対象物の有無を適切に判別、又は第2対象物の少なくとも一部の領域を適切に抽出することができる。
 第1層構造特徴量算出部は、畳み込み演算部を備えることが好ましい。これにより、画像内の第1対象物を適切に認識することができ、さらに第2対象物を認識するための適切な特徴マップを取得することができる。
 第1層構造特徴量算出部は、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)であることが好ましい。また、特徴マップは、CNNの中間層の特徴マップであることが好ましい。これにより、画像内の第1対象物を適切に認識することができ、さらに第2対象物を認識するための適切な特徴マップを取得することができる。
 認識装置は、さらに第1対象物認識部の学習を行う第1学習部を備えることが好ましい。これにより、第1対象物認識部の認識精度を向上させることができる。
 認識装置は、さらに第2対象物認識部の学習を行う第2学習部を備えることが好ましい。これにより、第2対象物認識部の認識精度を向上させることができる。
 特徴マップは2次元データで構成され、切り出し領域決定部は、2次元データの一部を切り出す領域として決定することが好ましい。これにより2次元データで構成された特徴マップを取得して、第2対象物を適切に認識することができる。
 特徴マップは3次元データで構成され、切り出し領域決定部は、3次元データの一部を切り出す領域として決定することが好ましい。これにより3次元データで構成された特徴マップを取得して、第2対象物を適切に認識することができる。
 上記目的を達成するために認識方法の一の態様は、画像を示す画像データを取得する画像取得工程と、画像データが入力されると層構造を有する複数の処理層の処理層毎に画像内の特徴量を示す特徴マップを算出する第1層構造特徴量算出工程と、複数の処理層のうち第1処理層が算出した第1特徴マップから画像内の第1対象物を認識する第1対象物認識工程と、複数の処理層のうち第1処理層よりも入力側の処理層である第2処理層が算出した第2特徴マップを取得する特徴マップ取得工程と、第2対象物に関する外部情報に基づいて第2特徴マップから切り出す領域を決定する切り出し領域決定工程と、第2特徴マップから決定した領域を切り出して切り出し特徴マップを生成する切り出し工程と、切り出し特徴マップに基づいて画像内の第2対象物を認識する第2対象物認識工程と、を備えた認識方法である。
 本態様の認識方法によれば、層構造を有する複数の処理層を有し、画像データが入力されると処理層毎に画像内の特徴量を示す特徴マップを算出する第1層構造特徴量算出部の複数の処理層のうち第1処理層よりも入力側の処理層である第2処理層が算出した第2特徴マップを取得し、第2対象物に関する外部情報に基づいて第2特徴マップから領域を切り出して切り出し特徴マップを生成し、切り出し特徴マップに基づいて画像内の第2対象物を認識するようにしたので、入力画像からそれぞれ特徴の異なる複数の対象物を認識する際に、処理負荷を軽減させ、認識精度を向上させることができる。
 上記目的を達成するためにコンピュータに実行させるプログラムの一の態様は、画像を示す画像データを取得する画像取得工程と、画像データが入力されると層構造を有する複数の処理層の処理層毎に画像内の特徴量を示す特徴マップを算出する第1層構造特徴量算出工程と、複数の処理層のうち第1処理層が算出した第1特徴マップから画像内の第1対象物を認識する第1対象物認識工程と、複数の処理層のうち第1処理層よりも入力側の処理層である第2処理層が算出した第2特徴マップを取得する特徴マップ取得工程と、第2対象物に関する外部情報に基づいて第2特徴マップから切り出す領域を決定する切り出し領域決定工程と、第2特徴マップから決定した領域を切り出して切り出し特徴マップを生成する切り出し工程と、切り出し特徴マップに基づいて画像内の第2対象物を認識する第2対象物認識工程と、をコンピュータに実行させるプログラムである。
 本態様のプログラムによれば、層構造を有する複数の処理層を有し、画像データが入力されると処理層毎に画像内の特徴量を示す特徴マップを算出する第1層構造特徴量算出部の複数の処理層のうち第1処理層よりも入力側の処理層である第2処理層が算出した第2特徴マップを取得し、第2対象物に関する外部情報に基づいて第2特徴マップから領域を切り出して切り出し特徴マップを生成し、切り出し特徴マップに基づいて画像内の第2対象物を認識するようにしたので、入力画像からそれぞれ特徴の異なる複数の対象物を認識する際に、処理負荷を軽減させ、認識精度を向上させることができる。
 また、他の態様の認識装置は、プロセッサを有し、プロセッサが画像を示す画像データを取得し、画像データが入力されると層構造を有する複数の処理層の処理層毎に画像内の特徴量を示す特徴マップを算出し、複数の処理層のうち第1処理層が算出した第1特徴マップから画像内の第1対象物を認識し、複数の処理層のうち第1処理層よりも入力側の処理層である第2処理層が算出した第2特徴マップを取得し、第2対象物に関する外部情報に基づいて第2特徴マップから切り出す領域を決定し、第2特徴マップから決定した領域を切り出して切り出し特徴マップを生成し、切り出し特徴マップに基づいて画像内の第2対象物を認識する、認識装置である。
 本発明によれば、入力画像からそれぞれ特徴の異なる複数の対象物を認識する際に、処理負荷を軽減させ、認識精度を向上させることができる。
認識装置のハードウェア構成を示すブロック図 認識方法の処理を示すフローチャート 各処理を概念的に説明するための模式図 入力画像の一例を示す図 表示部の表示内容を示す図 認識方法の処理を示すフローチャート 各処理を概念的に説明するための模式図 認識装置のハードウェア構成を示すブロック図 認識方法の処理を示すフローチャート 各処理を概念的に説明するための模式図 表示部の表示内容を示す図 認識方法の処理を示すフローチャート 各処理を概念的に説明するための模式図 認識方法の処理を示すフローチャート 各処理を概念的に説明するための模式図 認識装置のハードウェア構成を示すブロック図 内視鏡システムの外観図 挿入部の先端面の正面図 内視鏡システムの制御系の構成を示した構成図 運転画像の一例を示す図 認識装置のハードウェア構成を示すブロック図 認識方法の処理を示すフローチャート 各処理を概念的に説明するための模式図 表示部の表示内容を示す図 3次元医用画像の一例を示す図
 以下、添付図面に従って本実施形態の好ましい実施形態について詳説する。
 <第1の実施形態>
 〔認識装置〕
 本実施形態に係る認識装置10は、取得した画像からそれぞれ特徴の異なる第1対象物及び第2対象物を認識するための装置である。認識装置10は、画像内の第1対象物について領域の抽出(セグメンテーション)のタスクを行い、画像内の第2対象物について有無の判別のタスクを行う。
 図1は、認識装置10のハードウェア構成を示すブロック図である。認識装置10は、画像取得部12、第1層構造特徴量算出部14、第1対象物認識部16、表示部18、特徴マップ取得部20、切り出し領域決定部22、切り出し部24、第2対象物認識部30等を備えて構成される。
 画像取得部12は、画像を示す画像データを取得する。画像取得部12は、画像データを不図示のカメラから取得してもよいし、不図示のサーバ等から取得してもよい。カメラ及びサーバ等は、ネットワークを介して接続されていてもよい。
 第1層構造特徴量算出部14は、複数の処理層が階層的に接続された構造(層構造)を有している。第1層構造特徴量算出部14は、画像データが入力されると処理層毎に画像内の位置情報を反映した特徴量を示す特徴マップを算出する。
 第1対象物認識部16は、複数の処理層のうち第1処理層が算出した第1特徴マップから画像内の第1対象物を認識する。ここでは、第1層構造特徴量算出部14の複数の処理層のうち最終層(最も入力側から遠い層)を第1処理層とし、第1処理層が算出した第1特徴マップに基づいて画像内の第1対象物の領域を抽出する。
 表示部18は、液晶画面等により構成されるディスプレイ装置である。表示部18は、第1対象物認識部16の認識結果を表示する。
 特徴マップ取得部20は、第1層構造特徴量算出部14の複数の処理層のうち第1処理層(ここでは最終層)よりも入力側の処理層である第2処理層が算出した第2特徴マップを取得する。第2処理層は、複数の第2特徴マップを算出する。特徴マップ取得部20は、第2処理層が算出した複数の第2特徴マップを取得する。
 切り出し領域決定部22は、第2対象物に関する外部情報に基づいて第2特徴マップから切り出す領域を決定する。ここでいう外部情報とは、例えば画像内の第2対象物の位置情報であり、画像の上半分、下半分、右半分、又は左半分等の情報である。この外部情報は、画像取得部12が取得した画像データを解析することによって得られる情報ではなく、画像の有する属性として予め判明している情報である。
 切り出し部24は、特徴マップ取得部20が取得した第2特徴マップから切り出し領域決定部22が決定した領域を切り出して、切り出し特徴マップを生成する。切り出し部24は、複数の第2特徴マップから複数の切り出し特徴マップを生成する。
 第2対象物認識部30は、切り出し特徴マップに基づいて画像内の第2対象物を認識する。
 本実施形態では、第2対象物認識部30は、複数の切り出し特徴マップを特徴量ベクトルに変換する。具体的には、複数の切り出し特徴マップの各切り出し特徴マップ内の特徴量の平均値を算出し、算出した特徴量の平均値を特徴量ベクトルに変換する。
 第2対象物認識部30は、この特徴量ベクトルに基づいて画像内の第2対象物の有無を判別する。第2対象物認識部30として、例えばSVM(Support Vector Machine)を用いることができる。第2対象物認識部30は、画像を入力した際の特徴量ベクトルとその画像内の第2対象物の有無である正解ラベルとの組を教師データとして、第2対象物の有無を判別するために予め学習させてある。なお、第2対象物認識部30は、NN(Neural Network)、又はその他の公知の識別器を利用することも可能である。
 〔認識方法〕
 認識装置10を用いた画像内の第1対象物及び第2対象物の認識方法について説明する。ここでは、不図示の内視鏡システムによって撮影された、被検体の体腔内の画像(以下、内視鏡画像と表記する)を示す画像データから、第1対象物として病変を、第2対象物として不図示の鉗子口から挿通された生検器具を認識する。
 図2は、認識方法の処理を示すフローチャートである。また、図3は、各処理を概念的に説明するための模式図である。
 最初に、ステップS1において、画像取得部12によって内視鏡画像である入力画像Gを示す画像データ100を取得する(画像取得工程の一例)。図4は、入力画像Gの一例を示す図である。
 次に、ステップS2では、第1層構造特徴量算出部14において、画像データ100の特徴マップを算出する(第1層構造特徴量算出工程)。ここでは、第1層構造特徴量算出部14は、中間層102-1、102-2、102-3、102-4、102-5、…、及び102-nからなる畳み込み演算部である畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)104(以下、CNN104と表記する)により構成される。CNN104は、複数のフィルタによる畳み込み処理により画像の局所的な特徴抽出を行う畳み込み層と、抽出した特徴を矩形領域毎にまとめるプーリング層とを繰り返した構造を有している。即ち、中間層102-1、102-2、102-3、102-4、102-5、…、及び102-nは、それぞれ畳み込み層又はプーリング層である。なお、中間層102-1、102-2、102-3、102-4、102-5、…、及び102-nは、畳み込み層又はプーリング層に限定されず、抽出した特徴に活性化処理を行うアクティベーション層であってもよい。CNN104は、内視鏡画像から特定の病変を認識することを目的として設計及び学習されている。
 CNN104に画像データ100が入力されると、中間層102-1、102-2、102-3、102-4、102-5、…、及び102-nは、それぞれ特徴マップ106-1、106-2、106-3、106-4、…、及び106-nを算出する。ここでは、各中間層102-1、102-2、102-3、102-4、102-5、…、及び102-nは、入力画像Gに含まれる複数の特徴にそれぞれ対応するchannel数分の複数の特徴マップ106-1、106-2、106-3、106-4、…、及び106-nを算出する。複数の特徴マップ106-1、106-2、106-3、106-4、…、及び106-nは、それぞれ水平方向にwidth、垂直方向にheightのサイズを有する2次元データである。この2次元データは、それぞれ入力画像G内の位置情報を反映した入力画像Gの特徴量を示している。
 なお、channel、width、及びheightは、特徴マップ106-1、106-2、106-3、106-4、…、及び106-n毎に任意の値を取る。
 続いて、ステップS3では、第1対象物認識部16において、CNN104の中間層102-1、102-2、102-3、102-4、102-5、…、及び102-nのうち、第1処理層108が算出した第1特徴マップ110を取得する。ここでは、最終の中間層である中間層102-nを第1処理層108とし、中間層102-nが算出した複数の特徴マップ106-nを複数の第1特徴マップ110として取得する。なお、第1処理層108は中間層102-nに限定されず、中間層102-2~102-(n-1)のいずれを採用してもよい。
 さらに、ステップS4では、第1対象物認識部16において、第1特徴マップ110から入力画像G内の第1対象物である病変を認識する処理112を行う(第1対象物認識工程の一例)。ここでは、処理112は、病変の少なくとも一部の領域を抽出する。具体的には、複数の第1特徴マップ110に基づいて入力画像G内の各領域に対して病変である可能性を示すスコアを算出し、スコアの高い領域を示すスコアマップ114を出力する。複数の第1特徴マップ110は、それぞれ入力画像G内の位置情報を反映した特徴量を有している。したがって、複数の第1特徴マップ110から、病変の位置を認識することができる。
 一方、ステップS5では、特徴マップ取得部20において、CNN104の中間層102-1、102-2、102-3、102-4、102-5、…、及び102-nのうち、第1処理層108よりも入力側の第2処理層116が算出した第2特徴マップ118を取得する処理120を行う(特徴マップ取得工程の一例)。ここでは、処理120は、中間層102-3を第2処理層116とし、中間層102-3が算出した複数の特徴マップ106-3を複数の第2特徴マップ118として取得する。この複数の第2特徴マップ118は、2次元データで構成される。なお、第2処理層116は中間層102-3に限定されず、第1処理層108よりも入力側であれば中間層102-1~102-(n-1)のいずれを採用してもよい。
 また、第2処理層116とした中間層102-3の出力である複数の特徴マップ106-3の全てを第2特徴マップ118とするのではなく、複数の特徴マップ106-3のうち特定の1つ又は複数の特徴マップ106-3のみを第2特徴マップ118としてもよい。
 次に、ステップS6では、切り出し領域決定部22において、第2対象物である生検器具に関する外部情報に基づいて第2特徴マップ118から切り出す切り出し領域121を決定する(切り出し領域決定工程の一例)。ここでは、生検器具に関する外部情報は、入力画像G内の生検器具の位置情報である。
 生検器具の出現頻度が高い位置は、内視鏡画像の下半分であることが予めわかっている。また、特徴マップは入力画像G内の位置情報を反映している。したがって、切り出し領域決定部22は、内視鏡画像の下半分という空間的局所性の外部情報から、切り出し領域121を第2特徴マップ118の下半分に決定する。このように、切り出し領域決定部22は、2次元データである複数の第2特徴マップ118の一部を切り出す領域として決定する。
 続いて、ステップS7では、切り出し部24において、第2特徴マップ118から切り出し領域121の切り出し処理122を行って、切り出し特徴マップ124を生成する(切り出し工程の一例)。ここでは、複数の第2特徴マップ118のそれぞれの下半分を切り出した複数の切り出し特徴マップ124が生成される。
 ここで、複数の切り出し特徴マップ124のwidth及びheightのサイズを縮小するために、プーリング処理を行ってもよい。プーリング処理として、周辺画素値の最大値を選択するmax pooling、及び平均値を選択するaverage pooling等の手法がある。また、サイズの縮小はプーリング処理に限定されず、主成分分析等の他の手法を用いてもよい。
 次に、ステップS8では、第2対象物認識部30において、複数の切り出し特徴マップ124のchannel毎の特徴量の平均値を算出する(特徴量算出工程の一例)。さらに、第2対象物認識部30において、この平均値をベクトル変換処理126により特徴量ベクトル128に変換する。
 続くステップS9では、第2対象物認識部30において、特徴量ベクトル128に基づいて判別処理130を行い、入力画像G内の生検器具の有無132を出力する(第2対象物認識工程の一例)。
 最後に、ステップS10では、表示部18において、ステップS4の病変の認識結果及びステップS9の生検器具の認識結果を出力し、本フローチャートの処理を終了する。
 図5は、図4に示す入力画像Gが入力された場合の表示部18の表示内容を示す図である。ここでは、表示部18に入力画像Gを表示するとともに、病変の認識結果として入力画像Gにスコアマップ114を重畳表示している。また、生検器具の認識結果として、表示部18に生検器具の有無132を表示している。
 ここでは、スコアマップ114は、病変の領域を着色して示したが、病変の領域を枠で囲んで表示する等、病変の領域を認識できれば表示の方法については限定されない。
 一定のフレームレートで撮影された入力画像Gを示す画像データ100を取得し、本フローチャートの処理を逐次行うことで、動画像の内視鏡画像からリアルタイムで病変及び生検器具を認識することができる。
 このように、認識装置10によれば、第1対象物の認識結果及び第2対象物の認識結果を出力することができる。ここで、第2対象物の認識は、特徴マップが入力画像の位置情報を反映していることと、第2対象物が空間的局所性を有することとを利用して、外部情報に基づいて特徴マップの必要な領域のみを切り出して使用する。このため、特徴マップの全体を使用した場合よりも第2対象物の特徴が希薄化せず、認識精度を向上させることができる。また、第1対象物の認識のために作成された第1層構造特徴量算出部の中間層の出力を利用して第2対象物の認識を行うため、第2対象物のために層構造特徴量算出部を独立に用意し、2つの層構造特徴量算出部において処理を行う場合よりも処理負荷を軽減させることができる。
 本実施形態では、第1対象物認識部16における病変の認識処理(ステップS3~S4)及び第2対象物認識部30における生検器具の認識処理(ステップS5~S8)を並列に行ったが、一方の処理を先に行い、他方の処理をその後に行ってもよい。
 また、本実施形態では、第2対象物認識部30において、複数の切り出し特徴マップを特徴量ベクトルに変換する際に、複数の切り出し特徴マップの各切り出し特徴マップ内の特徴量の平均値を算出し、算出した特徴量の平均値を特徴量ベクトルに変換したが、特徴マップを特徴量ベクトルに変換する方法は、これに限定されない。
 例えば、複数の切り出し特徴マップの各切り出し特徴マップ内の特徴量の最大値を算出し、算出した特徴量の最大値を特徴量ベクトルに変換してもよい。なお、これらの方法では、特徴量ベクトルの次元数は特徴マップの数となる。
 また、特徴マップの水平方向のサイズがW、垂直方向のサイズがH、特徴マップの数がNの場合に、各切り出し特徴マップ内の特徴量を一列に並べて(N×W×H)次元の特徴量ベクトルに変換してもよい。
 <第2の実施形態>
 認識装置10を用いた画像内の第1対象物及び第2対象物の認識方法について説明する。第1の実施形態と同様に、内視鏡画像を示す画像データから、画像内の第1対象物について領域の抽出のタスクを行い、画像内の第2対象物について有無の判別のタスクを行う。
 図6は、認識方法の処理を示すフローチャートである。また、図7は、各処理を概念的に説明するための模式図である。なお、図2に示すフローチャート及び図3に示す模式図と共通する部分には同一の符号を付し、その詳細な説明は省略する。
 まず、ステップS1において、入力画像Gを示す画像データ100を取得する。次に、ステップS2において、画像データ100の特徴マップを算出する。続いて、ステップS3において、第1処理層108である中間層102-nが算出した複数の特徴マップ106-nを、複数の第1特徴マップ110として取得する。さらに、ステップS4において、複数の第1特徴マップ110に基づいて病変のスコアマップ114を出力する。このように、第1の実施形態と同様に入力画像G内の病変を認識する。
 一方、ステップS11では、特徴マップ取得部20において、CNN104の中間層102-1、102-2、102-3、102-4、102-5、…、及び102-nのうち第1処理層108よりも入力側の第2処理層116-1が算出した第2特徴マップ118-1を取得する処理120-1を行う。ここでは、処理120-1は、中間層102-3を第2処理層116-1とし、中間層102-3が算出した複数の特徴マップ106-3を複数の第2特徴マップ118-1として取得する。
 なお、第1の実施形態と同様に、第2処理層116-1とした中間層102-3の出力である複数の特徴マップ106-3の全てを第2特徴マップ118-1とするのではなく、複数の特徴マップ106-3のうち特定の1つ又は複数の特徴マップ106-3のみを第2特徴マップ118-1としてもよい。
 ステップS11ではさらに、特徴マップ取得部20において、CNN104の中間層102-1、102-2、102-3、102-4、102-5、…、及び102-nのうち第2処理層116-1とは異なる第3処理層116-2であって、第1処理層108よりも入力側の第3処理層116-2が算出した第3特徴マップ118-2を取得する処理120-2を行う。ここでは、処理120-2は、中間層102-4を第3処理層116-2とし、中間層102-4が算出した複数の特徴マップ106-4を複数の第3特徴マップ118-2として取得する。
 ここでも同様に、第3処理層116-2とした中間層102-3の出力である複数の特徴マップ106-3の全てを第3特徴マップ118-2とするのではなく、複数の特徴マップ106-3のうち特定の1つ又は複数の特徴マップ106-3のみを第3特徴マップ118-2としてもよい。
 次に、ステップS12では、切り出し領域決定部22において、生検器具に関する外部情報に基づいて複数の第2特徴マップ118-1から切り出す切り出し領域121-1、及び複数の第3特徴マップ118-2から切り出す切り出し領域121-2を決定する。第1の実施形態と同様に、切り出し領域決定部22は、切り出し領域121-1を複数の第2特徴マップ118-1の下半分、及び切り出し領域121-2を複数の第3特徴マップ118-2の下半分に決定する。
 続いて、ステップS13では、切り出し部24において切り出し処理122-1を行って、複数の第2特徴マップ118-1から切り出し領域121-1を切り出して複数の第1切り出し特徴マップ124-1を生成する。同様に、切り出し部24において切り出し処理122-2を行って、複数の第3特徴マップ118-2から切り出し領域121-2を切り出して複数の第2切り出し特徴マップ124-2を生成する。
 ここで、必要であれば、複数の第1切り出し特徴マップ124-1及び複数の第2切り出し特徴マップ124-2について、プーリング処理を行ってもよい。
 次に、ステップS14では、第2対象物認識部30において、複数の第1切り出し特徴マップ124-1のchannel毎の特徴量の平均値(第1特徴量の一例)を算出し、この平均値をベクトル変換処理126-1により特徴量ベクトル128-1に変換する。同様に、第2対象物認識部30において、複数の第2切り出し特徴マップ124-2のchannel毎の特徴量の平均値(第2特徴量の一例)を算出し、この平均値をベクトル変換処理126-2により特徴量ベクトル128-2に変換する。
 続いて、ステップS15では、第2対象物認識部30においてベクトル連結処理134を行い、特徴量ベクトル128-1及び特徴量ベクトル128-2を1つの特徴量ベクトル136に連結する。
 さらに、ステップS16では、第2対象物認識部30において、特徴量ベクトル136に基づいて判別処理130を行い、入力画像G内の生検器具の有無132を出力する。
 最後に、ステップS10において、第1の実施形態と同様に、表示部18に病変の認識結果及び生検器具の認識結果を出力する。
 このように、第2対象物についての情報が足りない場合には、それぞれ異なる複数の中間層の出力の特徴マップを用いることで、第2対象物の認識精度を向上させることができる。
 <第3の実施形態>
 〔認識装置〕
 本実施形態に係る認識装置40は、画像内の第1対象物及び第2対象物について、それぞれ領域を抽出するタスクを行う。
 図8は、認識装置40のハードウェア構成を示すブロック図である。なお、図1に示すブロック図と共通する部分には同一の符号を付し、その詳細な説明は省略する。認識装置40の第2対象物認識部30は、第2層構造特徴量算出部28を備えている。
 第2層構造特徴量算出部28は、第1層構造特徴量算出部14と同様に、複数の処理層が階層的に接続された構造を有している。第2層構造特徴量算出部28は、画像データが入力されると処理層毎に画像内の位置情報を反映した特徴量を示す特徴マップを算出する。
 〔認識方法〕
 認識装置40を用いた画像内の第1対象物及び第2対象物の認識方法について説明する。これまでと同様に、内視鏡画像を示す画像データから、第1対象物として病変を、第2対象物として不図示の鉗子口から挿通された生検器具を認識する例を説明する。
 図9は、認識方法の処理を示すフローチャートである。また、図10は、各処理を概念的に説明するための模式図である。なお、図2に示すフローチャート及び図3に示す模式図と共通する部分には同一の符号を付し、その詳細な説明は省略する。
 認識装置10と同様に、ステップS1~S4の処理を行い、第1対象物である病変の認識を行う。
 また、認識装置10と同様に、ステップS5~S7の処理を行う。即ち、ステップS5において、CNN104の中間層102-3を第2処理層116とし、中間層102-3が算出した複数の特徴マップ106-3を複数の第2特徴マップ118として取得する。次に、ステップS6において、生検器具に関する外部情報に基づいて第2特徴マップ118から切り出す切り出し領域121を決定する。さらに、ステップS7において、複数の第2特徴マップ118のそれぞれの下半分を切り出した複数の切り出し特徴マップ124を生成する。
 次に、ステップS21において、第2層構造特徴量算出部28によって切り出し特徴マップ124内の特徴量を示す第4特徴マップ142-nを取得する。
 第2層構造特徴量算出部28は、中間層138-1、138-2、…、及び138-n(複数の第4処理層の一例)からなるCNN140により構成される。中間層138-1、…、及び138-nは、それぞれ特徴マップ142-1、…、及び142-nを算出する。CNN140は、内視鏡画像から生検器具を認識することを目的として設計及び学習されている。
 CNN140に切り出し特徴マップ124が入力されると、最終の中間層138-nから切り出し特徴マップ124内の特徴量を示す第4特徴マップ142-nが出力される。切り出し特徴マップ124は、入力画像Gの位置情報を反映している。また、CNN140は、入力された画像内の位置情報を反映した特徴量を示す第4特徴マップ142-nを算出する。したがって、第4特徴マップ142-nは、入力画像Gの位置情報を反映した特徴量を有している。ここでは、channel数分の第4特徴マップ142-nが出力されるものとする。
 続くステップS22では、第2対象物認識部30において、第4特徴マップ142-nから入力画像G内の生検器具の少なくとも一部の領域を抽出する処理144を行う。ここでは、処理144は、複数の第4特徴マップ142-nに基づいて入力画像G内の各領域に対して生検器具である可能性を示すスコアを算出し、スコアの高い領域を示すスコアマップ146を出力する。複数の第4特徴マップ142-nは、それぞれ入力画像G内の位置情報を反映した特徴量を有している。したがって、複数の第4特徴マップ142-nから、生検器具の位置を認識することができる。
 最後に、ステップS23では、表示部18において、ステップS4の病変の認識結果及びステップS22の生検器具の認識結果を出力し、本フローチャートの処理を終了する。
 図11は、入力画像Gが入力された場合の表示部18の表示内容を示す図である。ここでは、表示部18に入力画像Gを表示するとともに、病変の認識結果として入力画像Gに病変のスコアマップ114を重畳表示している。さらに、生検器具の認識結果として、入力画像Gに生検器具のスコアマップ146を重畳表示している。スコアマップ114及びスコアマップ146は、それぞれ異なる色で着色することが好ましい。
 このように、第2対象物の有無だけでなく、第2対象物が存在する領域を認識することも可能である。
 <第4の実施形態>
 認識装置40を用いた画像内の第1対象物及び第2対象物の認識方法について説明する。ここでは、画像内の第1対象物について領域の抽出のタスクを行い、画像内の第2対象物について有無の判別のタスクを行う。
 図12は、認識方法の処理を示すフローチャートである。また、図13は、各処理を概念的に説明するための模式図である。なお、図2及び図9に示すフローチャートと共通する部分、及び図3及び図10に示す模式図と共通する部分には同一の符号を付し、その詳細な説明は省略する。
 第3の実施形態と同様に、ステップS1~S4の処理を行い、第1対象物である病変の認識を行う。
 また、第1の実施形態と同様に、ステップS5~S7の処理を行う。即ち、ステップS5において、CNN104の中間層102-3を第2処理層116とし、中間層102-3が算出した複数の特徴マップ106-3を複数の第2特徴マップ118として取得する。次に、ステップS6において、生検器具に関する外部情報に基づいて第2特徴マップ118から切り出す切り出し領域121を決定する。さらに、ステップS7において、複数の第2特徴マップ118のそれぞれの下半分を切り出した複数の切り出し特徴マップ124を生成する。
 次に、第3の実施形態と同様に、ステップS21において、第2層構造特徴量算出部28によって切り出し特徴マップ124内の特徴量を示す第4特徴マップ142-nを取得する。
 CNN140に切り出し特徴マップ124が入力されると、最終の中間層138-nから切り出し特徴マップ124内の特徴量を示す第4特徴マップ142-nが出力される。ここでは、channel数分の第4特徴マップ142-nが出力されるものとする。
 次に、ステップS8では、第2対象物認識部30において、第4特徴マップ142-nのchannel毎の特徴量の平均値を算出する。さらに、第2対象物認識部30において、この平均値をベクトル変換処理126により特徴量ベクトル128に変換する。
 続くステップS9では、第2対象物認識部30において、特徴量ベクトル128に基づいて判別処理130を行い、入力画像G内の生検器具の有無132を出力する。
 最後に、ステップS10では、表示部18において、ステップS4の病変の認識結果及びステップS9の生検器具の認識結果を出力し、本フローチャートの処理を終了する。
 このように、切り出し特徴マップを畳み込み演算した結果を特徴量ベクトルに変換し、特徴量ベクトルを判別してもよい。
 <第5の実施形態>
 認識装置40を用いた画像内の第1対象物及び第2対象物の認識方法について説明する。第3の実施形態と同様に、画像内の第1対象物及び第2対象物について、それぞれ領域を抽出するタスクを行う例を説明する。
 図14は、認識方法の処理を示すフローチャートである。また、図15は、各処理を概念的に説明するための模式図である。なお、図6及び図9に示すフローチャートと共通する部分、及び図7及び図10に示す模式図と共通する部分には同一の符号を付し、その詳細な説明は省略する。
 第3の実施形態と同様に、ステップS1~S4の処理を行い、第1対象物である病変の認識を行う。
 また、第2の実施形態と同様に、ステップS11~S13の処理を行う。即ち、ステップS11において、複数の第2特徴マップ118-1及び第3特徴マップ118-2として取得する。次に、ステップS12において、切り出し領域121-1及び切り出し領域121-2を決定する。さらに、ステップS13において、複数の第1切り出し特徴マップ124-1及び複数の第2切り出し特徴マップ124-2を生成する。
 続くステップS31では、特徴マップ取得部20において、第1切り出し特徴マップ124-1及び第2切り出し特徴マップ124-2を連結する処理148を行い、連結切り出し特徴マップ150を生成する。連結の順序は学習と推論で同じであれば、特に問わない。複数の第1切り出し特徴マップ124-1のchannel数がA、複数の第2切り出し特徴マップ124-2のchannel数がBであるとすると、処理148により連結切り出し特徴マップ150のchannel数は(A+B)となる。
 なお、第1切り出し特徴マップ124-1及び第2切り出し特徴マップ124-2のwidth及びheightのサイズが異なる場合は、特徴マップ取得部20は、第1切り出し特徴マップ124-1及び第2切り出し特徴マップ124-2の少なくとも一方について、拡大処理及び縮小処理の少なくとも一方を行うことで、第1切り出し特徴マップ124-1及び第2切り出し特徴マップ124-2のwidth及びheightのサイズを一致させればよい。拡大処理はデコンボリューション処理、縮小処理はプーリング処理を用いてもよい。
 次に、ステップS21において、連結切り出し特徴マップ150を第2層構造特徴量算出部28のCNN140に入力し、最終の中間層138-nから連結切り出し特徴マップ150内の特徴量を示す複数の第4特徴マップ142-nを取得する。
 さらに、ステップS22において、複数の第4特徴マップ142-nから入力画像G内の生検器具の少なくとも一部の領域を抽出する処理144を行い、入力画像G内の各領域に対して生検器具である可能性を示すスコアを算出し、スコアの高い領域を示すスコアマップ146を出力する。
 最後に、ステップS23において、ステップS4の病変の認識結果及びステップS22の生検器具の認識結果を出力し、本フローチャートの処理を終了する。
 このように、第2対象物についての情報が足りない場合には、それぞれ異なる複数の中間層の出力の特徴マップからそれぞれ切り出し特徴マップを生成し、切り出し特徴マップを連結して特徴を抽出することで、第2対象物の認識精度を向上させることができる。
 <第6の実施形態>
 図16は、認識装置50のハードウェア構成を示すブロック図である。なお、図8に示すブロック図と共通する部分には同一の符号を付し、その詳細な説明は省略する。認識装置50は、第1学習部52及び第2学習部54を備えている。
 第1学習部52は、不図示の入力部から取得した画像及び画像内の第1対象物の認識結果の正解ラベルの組を、教師情報として第1層構造特徴量算出部14及び第1対象物認識部16に入力し、第1層構造特徴量算出部14及び第1対象物認識部16に学習させる。
 第2学習部54は、不図示の入力部から取得した画像及び画像内の第2対象物の認識結果の正解ラベルの組を教師情報として第2層構造特徴量算出部28及び第2対象物認識部30に入力し、第2層構造特徴量算出部28及び第2対象物認識部30に学習させる。
 このように、認識装置10において、第1層構造特徴量算出部14、第1対象物認識部16、第2層構造特徴量算出部28、及び第2対象物認識部30を学習させてもよい。これにより、第1対象物及び第2対象物の認識精度を向上させることができる。また、第1学習部52及び第2学習部54のうち、いずれか一方のみを備えていてもよい。
 <第7の実施形態>
 〔内視鏡システム〕
 図17は、内視鏡システム70の外観図である。内視鏡システム70は、内視鏡71、プロセッサ装置72、及び光源装置73を備えて構成される。
 内視鏡71は、被検体の体内に挿入される可撓性の挿入部74と、挿入部74の基端部分に連設された操作部75と、プロセッサ装置72および光源装置73に接続されるコネクタ76と、操作部75及びコネクタ76間を繋ぐユニバーサルコード77と、を有する。
 操作部75の先端側には、鉗子口78が設けられる。鉗子口78には、電気メス等の処置具(生検器具)が挿通される。鉗子口78は、挿入部74内の鉗子チャンネルを通して、挿入部74の先端面74aの鉗子出口79に連通している。図18は、挿入部74の先端面74aの正面図である。
 操作部75は、アングルノブ80、送気送水ボタン82、及び吸引ボタン84等の各種操作部材を備えている。アングルノブ80は、回転操作によって挿入部74の先端硬質部86を上下左右方向に湾曲させる。送気送水ボタン82は、押圧操作によって図18に示すように先端面74aに設けられた送気送水ノズル88からエアー又は水を噴出させる。吸引ボタン84は、押圧操作によって、体内の液体及び組織等の被吸引物を図18に示す鉗子出口79から吸引する。
 プロセッサ装置72は、内視鏡71及び光源装置73と電気的に接続され、内視鏡システム70の動作を統括的に制御する。
 先端硬質部86には、図18に示すように先端面74aに設けられた観察窓90を介して撮影を行う撮像部200(図19参照)が搭載されている。撮像部200には、ユニバーサルコード77及び挿入部74内に挿通された不図示の信号ケーブルを介してプロセッサ装置72からの電力及び制御信号が与えられ、撮像部200の動作がプロセッサ装置72によって制御される。
 また、プロセッサ装置72には、撮像部200からの撮像信号が信号ケーブルを介して与えられ、プロセッサ装置72においてその撮像信号に対して各種処理が施されて撮像部200により観察されている観察画像の画像データが生成される。
 プロセッサ装置72にはモニタ92が接続されている。モニタ92の画面には、プロセッサ装置72からの画像データに基づき撮像部200により撮影されている観察画像が表示される。
 光源装置73は、撮像部200により撮像する体腔内に照明光を出射する照明手段である。光源装置73は、先端面74aに設けられた図18に示す照明窓94から被観察部位に向けて出射する照明光を内視鏡71に供給する。光源装置73から供給された照明光は、ユニバーサルコード77及び挿入部74内に挿通された不図示のライトガイドを介して先端硬質部86まで伝送される。
 図19は、内視鏡システム70の制御系の構成を示した構成図である。内視鏡71の先端硬質部86には、撮像部200として、撮像素子202、アナログ信号処理回路204、及びタイミングジェネレータ206等が備えられている。また、先端硬質部86にはCPU(Central Processing Unit)208が備えられている。
 タイミングジェネレータ206は、CPU208の制御に基づき、撮像素子202の垂直/水平走査パルス、及びリセットパルス等の駆動パルスとアナログ信号処理回路204用の同期パルスとを発生する。
 撮像素子202は、複数の色セグメントからなる不図示のカラーフィルタ(例えば、ベイヤ配列の原色カラーフィルタ)を備えた単板カラー撮像方式の固体撮像素子である。撮像素子202は、タイミングジェネレータ206から入力される駆動パルスにより駆動され、先端面74aの観察窓90及び対物光学系210を介して不図示の撮像面に結像された光学像を光電変換して撮像信号として出力する。
 撮像素子202の撮像面には、多数の画素がマトリクス状に配置されており、各画素にはそれぞれ不図示のフォトセンサ(光電変換素子)が設けられている。撮像素子202の撮像面に入射した光は、各画素のフォトセンサに電荷として蓄積される。そして、不図示の垂直走査回路及び水平走査回路による垂直方向と水平方向の走査によって、各画素のフォトセンサに蓄積された信号電荷量が画素信号として順次読み出され、所定のフレームレートで出力される。
 撮像素子202の各フォトセンサの蓄積電荷を撮像信号として読み出す信号読出回路の構成は従来周知であり、例えば3トランジスタ構成又は4トランジスタ構成等の一般的な構成を適用することが可能であり、ここでは説明を省略する。
 アナログ信号処理回路204は、不図示の相関二重サンプリング回路、自動ゲイン回路、及びアナログデジタル変換器により構成されている。相関二重サンプリング回路は、撮像素子202から出力される撮像信号に対して相関二重サンプリング処理を施し、撮像素子202で生じるリセット雑音及びアンプ雑音の除去を行う。
 自動ゲイン回路は、相関二重サンプリング回路によりノイズ除去が行われた撮像信号を、CPU208から指定されたゲイン(増幅率)で増幅する。アナログデジタル変換器は、自動ゲイン回路により増幅された撮像信号を、所定のビット数のデジタル信号に変換して出力する。
 アナログ信号処理回路204でデジタル化されて出力された撮像信号(デジタル撮像信号)は、プロセッサ装置72に入力される。
 なお、撮像素子202を駆動するための回路、及び撮像素子202からの撮像信号をプロセッサ装置72に送信するための先端硬質部86内の構成は上記のものに限らない。
 プロセッサ装置72は、CPU212、ROM(Read Only Memory)214、RAM(Random Access Memory)216、画像処理回路218、及び表示制御回路220を備えて構成される。
 CPU212は、プロセッサ装置72内の各部を制御するとともに、内視鏡システム70の全体を統括的に制御する。ROM214には、プロセッサ装置72の動作を制御するための各種プログラム及び制御用データが記憶される。また、RAM216には、CPU212により実行されるプログラム及びデータ等が一時記憶される。
 画像処理回路218は、CPU212の制御に基づき、アナログ信号処理回路204から入力された撮像信号に対し、色補間、色分離、色バランス調整、ガンマ補正、及び画像強調処理等を施し、画像データを生成する。
 画像処理回路218から出力された画像データは表示制御回路220に入力される。表示制御回路220は、画像処理回路218から入力された画像データを、モニタ92に対応した信号形式に変換する。これにより、モニタ92の画面には、画像データに応じた画像が表示される。
 プロセッサ装置72の操作部230は、ユーザの指示入力を受け付ける不図示の各種ボタンが設けられている。
 光源装置73は、光源222、光源駆動回路224、及びCPU226を備えて構成される。CPU226は、プロセッサ装置72のCPU212と通信を行い、光源駆動回路224の制御を行う。
 光源222は、例えばキセノンランプであり、光源駆動回路224により点灯及び消灯が制御される。光源222で発光された照明光は、不図示の多数本の光ファイバを束ねて構成されるライトガイド228の入射端に導入される。ライトガイド228を伝送した照明光は、ライトガイド228の出射端から出射され、内視鏡71の照明窓94を通して被観察部位を照射する。
 上記のように構成された内視鏡システム70で体腔内を観察する際には、まず、内視鏡71、プロセッサ装置72、光源装置73、及びモニタ92の電源を投入する。次に、内視鏡71の挿入部74を体腔内に挿入する。そして、光源装置73からの照明光で体腔内を照明しながら、撮像部200の撮像素子202により撮像される体腔内の画像をモニタ92で観察する。
 また、必要に応じて操作部75の先端側に設けられた鉗子口78から生検器具を挿通する。この生検器具は、挿入部74の先端面74aの鉗子出口79から突出する。鉗子出口79から突出した生検器具により、状況に応じた処置を行うことができる。
 上記の内視鏡システム70において、認識装置10、認識装置40、又は認識装置50を備えることができる。これにより、撮像部200において撮影された内視鏡画像について、病変及び生検器具を認識することができる。
 この場合、認識装置10等を専用のハードウェア構成としてもよいし、CPU212、ROM214、RAM216、画像処理回路218、表示制御回路220、及びモニタ92を用いて構成してもよい。
 ここで、内視鏡システム70において撮影される画像の天地方向は、図18に示す+X方向が上側に、-X方向が下側に固定される。したがって、鉗子出口79から突出する生検器具は、常に撮像部200が撮影を行う観察窓90の下側から現れる。このため、生検器具の出現頻度が高い位置は、内視鏡画像の下半分であるという外部情報を取得することができる。
 <第8の実施形態>
 ここまでは、認識装置10、認識装置40、及び認識装置50において内視鏡画像内の対象物を認識する例を説明したが、認識装置10、認識装置40、及び認識装置50は、内視鏡画像以外の画像内の対象物の認識に適用することも可能である。
 図20は、自動車の運転席から見える前方の状況を撮影した動画像の1シーンである画像(以下、運転画像と表記する)である入力画像Gの一例を示す図である。この入力画像Gには、自動車SB、自転車SB、歩行者SB、交通標識SB、及び信号機SBが写っている。
 認識装置10、認識装置40、及び認識装置50によれば、入力画像Gから、画像全体に現れる自動車SB、自転車SB、又は歩行者SBを第1対象物として認識するタスクを行い、画像の特定部分に現れる交通標識SB又は信号機SBを第2対象物として認識するタスクを行うことができる。
 なお、交通ルールにより自動車は左側通行と定められている場合であれば、交通標識SBは一般に道路の左側に設置される。したがって、交通標識SBに関する外部情報は、運転画像の左半分という位置情報である。また、信号機SBは視認性の関係で一般に高い場所に設置される。したがって、信号機SBに関する外部情報は、運転画像の上半分という位置情報である。
 認識装置10、認識装置40、及び認識装置50に、運転画像から構成される動画像を入力して各対象物を認識させることで、自動車の自動運転等に活用することが可能になる。
 <第9の実施形態>
 〔認識装置〕
 本実施形態に係る認識装置60は、画像内の第1対象物、第2対象物、及び第3対象物のそれぞれの領域を抽出するタスクを行う。
 図21は、認識装置60のハードウェア構成を示すブロック図である。なお、図8に示すブロック図と共通する部分には同一の符号を付し、その詳細な説明は省略する。
 認識装置60は、認識装置40の構成に加え、第3層構造特徴量算出部62及び第3対象物認識部64を備えている。
 第3層構造特徴量算出部62は、第1層構造特徴量算出部14と同様に、複数の処理層が階層的に接続された構造を有している。第3層構造特徴量算出部62は、画像データが入力されると処理層毎に画像内の位置情報を反映した特徴量を示す第5特徴マップを算出する。
 第3対象物認識部64は、第3層構造特徴量算出部62が算出した第5特徴マップから画像内の第3対象物を認識する。
 〔認識方法〕
 認識装置60を用いた画像内の第1対象物、第2対象物、及び第3対象物の認識方法について説明する。ここでは、運転画像を示す画像データから、第1対象物として自動車を、第2対象物として信号機を、第3対象物として交通標識を認識する例を説明する。
 図22は、認識方法の処理を示すフローチャートである。また、図23は、各処理を概念的に説明するための模式図である。なお、図9に示すフローチャート及び図10に示す模式図と共通する部分には同一の符号を付し、その詳細な説明は省略する。
 最初に、ステップS1において、画像取得部12によって運転画像である入力画像Gを示す画像データ240を取得する。
 次に、ステップS2では、第1層構造特徴量算出部14において、画像データ240の特徴マップを算出する。ここでは、CNN104は、運転画像から自動車を認識することを目的として設計及び学習されている。
 続いて、ステップS3において、第1処理層108である中間層102-nが算出した複数の特徴マップ106-nを、複数の第1特徴マップ110として取得する。さらに、ステップS4において、複数の第1特徴マップ110に基づいて自動車のスコアマップ114を出力する。
 次に、ステップS5では、特徴マップ取得部20において、CNN104の中間層102-3を第2処理層116とし、中間層102-3が算出した複数の特徴マップ106-3を複数の第2特徴マップ118として取得する。
 次に、ステップS41では、切り出し領域決定部22において、第2対象物である信号機に関する外部情報に基づいて第2特徴マップ118から切り出す切り出し領域121-3を決定する。ここでは、信号機に関する外部情報は、画像の下半分という位置情報である。したがって、切り出し領域決定部22は、切り出し領域121-3を複数の第2特徴マップ118の下半分に決定する。
 また、ステップS41では、切り出し領域決定部22において、第3対象物である交通標識に関する外部情報に基づいて第2特徴マップ118から切り出す切り出し領域121-4を決定する。ここでは、交通標識に関する外部情報は、画像の左半分という位置情報である。したがって、切り出し領域決定部22は、切り出し領域121-4を複数の第2特徴マップ118の左半分に決定する。
 続いて、ステップS42では、切り出し部24において、第2特徴マップ118から切り出し領域121-3の切り出し処理122-3を行って、第3切り出し特徴マップ124-3を生成する。ここでは、複数の第2特徴マップ118のそれぞれの上半分を切り出した複数の第3切り出し特徴マップ124-3が生成される。
 また、ステップS42では、切り出し部24において、第2特徴マップ118から切り出し領域121-4の切り出し処理122-4を行って、第4切り出し特徴マップ124-4を生成する。ここでは、複数の第2特徴マップ118のそれぞれの左半分を切り出した複数の第4切り出し特徴マップ124-4が生成される。
 なお、切り出し処理122-3及び切り出し処理122-4を行う順序は限定されず、同時に行ってもよい。
 次に、ステップS43において、第2層構造特徴量算出部28によって第3切り出し特徴マップ124-3内の特徴量を示す第4特徴マップ142-nを取得する。ここでは、CNN140は、運転画像から信号機を認識することを目的として設計及び学習されている。
 続いて、ステップS44では、第2対象物認識部30において、第4特徴マップ142-nから入力画像G内の信号機の少なくとも一部の領域を抽出する処理144を行う。ここでは、処理144は、複数の第4特徴マップ142-nに基づいて入力画像G内の各領域に対して信号機である可能性を示すスコアを算出し、スコアの高い領域を示すスコアマップ146を出力する。
 また、ステップS45において、第3層構造特徴量算出部62によって第4切り出し特徴マップ124-4内の特徴量を示す第5特徴マップ168-nを取得する。
 第3層構造特徴量算出部62は、中間層162-1、162-2、…、及び162-nからなるCNN164により構成される。中間層162-1、…、及び138-nは、それぞれ特徴マップ168-1、…、及び168-nを算出する。CNN164は、運転画像から交通標識を認識することを目的として設計及び学習されている。
 第4切り出し特徴マップ124-4は、入力画像Gの位置情報を反映している。また、CNN164は、入力された画像内の位置情報を反映した特徴量を示す第5特徴マップ168-nを算出する。したがって、第5特徴マップ168-nは、入力画像Gの位置情報を反映した特徴量を有している。
 続いて、ステップS46では、第3対象物認識部64において、第5特徴マップ168-nから入力画像G内の交通標識の少なくとも一部の領域を抽出する処理170を行う。ここでは、処理170は、複数の第5特徴マップ168-nに基づいて入力画像G内の各領域に対して交通標識である可能性を示すスコアを算出し、スコアの高い領域を示すスコアマップ172を出力する。複数の第5特徴マップ168-nは、それぞれ入力画像G内の位置情報を反映した特徴量を有している。したがって、複数の第5特徴マップ168-nから、交通標識の位置を認識することができる。
 最後に、ステップS47では、表示部18において、ステップS4の自動車の認識結果、ステップS44の信号機の認識結果、及びステップS46の交通標識の認識結果を出力し、本フローチャートの処理を終了する。
 図24は、図20に示す入力画像Gが入力された場合の表示部18の表示内容を示す図である。ここでは、表示部18に入力画像Gを表示するとともに、スコアマップ114、146、及び172を重畳表示している。
 このように、画像全体から第1対象物が存在する領域を認識し、同じ画像から空間的局所性を有する第2対象物が存在する領域を認識し、さらにその画像から第2対象物とは異なる空間的局所性を有する第3対象物が存在する領域を認識することが可能である。
 なお、第3層構造特徴量算出部62及び第3対象物認識部64を学習させる学習部を備えてもよい。
 <第10の実施形態>
 医療分野において、CT(Computed Tomography)装置及びMR(Magnetic Resonance)装置等において撮影された3次元の医用画像が診断に用いられている。ここでは、認識装置40(図8参照)において、不図示のCT装置により撮影された3次元医用画像から第1対象物として肺野領域を、第2対象物として背骨領域を、それぞれ抽出するタスクを行う場合について説明する。
 図25は、CT装置によって撮影された、肺野SBと背骨SBとを含む3次元医用画像Gの一例を示す図である。図25に示すように、本実施形態に係る3次元医用画像は、複数のアキシャル断面画像が体軸方向に並べられて構成されている。3次元医用画像を示す画像データは、ボクセル値を有する3次元データ(ボクセルデータ)として表される。
 ここでは、第1層構造特徴量算出部14のCNN104(図10参照)は、肺野と背骨とを含む3次元医用画像から3次元の肺野領域を抽出することを目的として設計及び学習されている。また、第2層構造特徴量算出部28のCNN140(図10参照)は、肺野と背骨とを含む3次元医用画像から3次元の背骨領域を抽出することを目的として設計及び学習されている。
 CT装置では、一般的に被検体を寝台上に仰向けに寝かせた状態(被検体の背中を寝台の上面に接触させた状態)で撮影を行う。このため、3次元医用画像Gは、アキシャル断面において被検体の背中側が画像の下側となる。この場合、背骨は3次元医用画像Gのアキシャル断面において中央付近下半分に写る。
 したがって、背骨に関する外部情報は、アキシャル断面画像の中央付近下半分という位置情報である。切り出し領域決定部22は、この外部情報を取得し、アキシャル断面の中央付近下半分を切り出し領域121として決定すればよい。
 なお、本実施形態では、CNN104の中間層102-1、102-2、102-3、102-4、102-5、…、及び102-nは、それぞれ3次元データで構成された複数の特徴マップ106-1、106-2、106-3、106-4、…、及び106-nを算出する。したがって、切り出し領域決定部22は、3次元データである複数の第2特徴マップ118の一部を切り出す領域として決定する。
 なお、中間層102-1、102-2、102-3、102-4、102-5、…、及び102-nは、それぞれ2次元データで構成された複数の特徴マップ106-1、106-2、106-3、106-4、…、及び106-nを算出してもよい。また、複数の特徴マップ106-2が2次元データで構成され、複数の特徴マップ106-3が3次元データで構成される等であってもよい。
 このように構成した認識装置40において、画像取得部12から3次元医用画像Gを示す画像データが入力されると、表示部18において肺野領域のスコアマップ114及び背骨領域のスコアマップ146を出力する。
 なお、撮影時の被検体の姿勢が仰向けでない場合は、CNN104に入力する画像の向きを調整するか、又は背骨領域に関する外部情報を、撮影時の被検体の姿勢を考慮した位置情報とすればよい。
 ここでは、肺野領域と背骨領域とを抽出するタスクを行う場合について説明したが、この組に限定されるものではなく、必要な領域を自由に決定することができる。
 また、第2特徴マップを複数のタスクに利用してもよい。例えば、第2特徴マップを、背骨領域、気管領域、及び胸骨領域を抽出するタスクに利用してもよい。ここで、気管領域は一般的に3次元医用画像のアキシャル断面において背骨上に存在する。また、胸骨領域は一般的に3次元医用画像のアキシャル断面において中央上部に存在する。したがって、気管領域に関する外部情報は背骨の上という位置情報、胸骨領域に関する外部情報は中央上部という位置情報となる。
 さらに、タスク毎にそれぞれ異なる中間層の出力である特徴マップを用いてもよい。
 ここでは、認識装置40において3次元医用画像内の対象物を認識する例について説明したが、認識装置10、50、及び60において3次元医用画像内の対象物を認識することも可能である。また、認識装置10、40、50、及び60の少なくとも1つを、CT装置及びMR装置と一体にして構成してもよい。
 <その他>
 上記の認識方法は、各工程をコンピュータに実現させるためのプログラムとして構成し、このプログラムを記憶したCD-ROM(Compact Disk-Read Only Memory)等の非一時的な記録媒体を構成することも可能である。
 ここまで説明した実施形態において、例えば、認識装置10、40、50、及び60の各種の処理を実行する処理部(processing unit)のハードウェア的な構造は、次に示すような各種のプロセッサ(processor)である。各種のプロセッサには、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU(Central Processing Unit)、画像処理に特化したプロセッサであるGPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
 1つの処理部は、これら各種のプロセッサのうちの1つで構成されていてもよいし、同種又は異種の2つ以上のプロセッサ(例えば、複数のFPGA、あるいはCPUとFPGAの組み合わせ、又はCPUとGPUの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。複数の処理部を1つのプロセッサで構成する例としては、第1に、サーバ及びクライアント等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組合せで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)等に代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、各種のプロセッサを1つ以上用いて構成される。
 さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路(circuitry)である。
 本発明の技術的範囲は、上記の実施形態に記載の範囲には限定されない。各実施形態における構成等は、本発明の趣旨を逸脱しない範囲で、各実施形態間で適宜組み合わせることができる。
10 認識装置
12 画像取得部
14 第1層構造特徴量算出部
16 第1対象物認識部
18 表示部
20 特徴マップ取得部
22 切り出し領域決定部
24 切り出し部
28 第2層構造特徴量算出部
30 第2対象物認識部
40 認識装置
50 認識装置
52 第1学習部
54 第2学習部
60 認識装置
62 第3層構造特徴量算出部
64 第3対象物認識部
70 内視鏡システム
71 内視鏡
72 プロセッサ装置
73 光源装置
74 挿入部
74a 先端面
75 操作部
76 コネクタ
77 ユニバーサルコード
78 鉗子口
79 鉗子出口
80 アングルノブ
82 送気送水ボタン
84 吸引ボタン
86 先端硬質部
88 送気送水ノズル
90 観察窓
92 モニタ
94 照明窓
100 画像データ
102-1 中間層
102-2 中間層
102-3 中間層
102-4 中間層
102-5 中間層
102-n 中間層
104 畳み込みニューラルネットワーク(CNN)
106-1 特徴マップ
106-2 特徴マップ
106-3 特徴マップ
106-4 特徴マップ
106-n 特徴マップ
108 第1処理層
110 第1特徴マップ
112 処理
114 スコアマップ
116 第2処理層
116-1 第2処理層
116-2 第3処理層
118 第2特徴マップ
118-1 第2特徴マップ
118-2 第3特徴マップ
120 処理
120-1 処理
120-2 処理
121 切り出し領域
121-1 切り出し領域
121-2 切り出し領域
121-3 切り出し領域
121-4 切り出し領域
122 切り出し処理
122-1 切り出し処理
122-2 切り出し処理
122-3 切り出し処理
122-4 切り出し処理
124 切り出し特徴マップ
124-1 第1切り出し特徴マップ
124-2 第2切り出し特徴マップ
124-3 第3切り出し特徴マップ
124-4 第4切り出し特徴マップ
126 ベクトル変換処理
126-1 ベクトル変換処理
126-2 ベクトル変換処理
128 特徴量ベクトル
128-1 特徴量ベクトル
128-2 特徴量ベクトル
130 判別処理
132 有無
134 ベクトル連結処理
136 特徴量ベクトル
138-1 中間層
138-2 中間層
138-n 中間層
140 畳み込みニューラルネットワーク(CNN)
142-1 特徴マップ
142-n 第4特徴マップ
144 処理
146 スコアマップ
148 処理
150 連結切り出し特徴マップ
162-1 中間層
162-2 中間層
164 畳み込みニューラルネットワーク(CNN)
168-1 特徴マップ
168-n 第5特徴マップ
170 処理
172 スコアマップ
200 撮像部
202 撮像素子
204 アナログ信号処理回路
206 タイミングジェネレータ
208 CPU
210 対物光学系
212 CPU
214 ROM
216 RAM
218 画像処理回路
220 表示制御回路
222 光源
224 光源駆動回路
226 CPU
228 ライトガイド
230 操作部
240 画像データ
 入力画像
 入力画像
 3次元医用画像
S1~S47 認識方法の処理のステップ
SB 自動車
SB 自転車
SB 歩行者
SB 交通標識
SB 信号機
SB 肺野
SB 背骨

Claims (16)

  1.  画像を示す画像データを取得する画像取得部と、
     層構造を有する複数の処理層を備え、前記画像データが入力されると前記処理層毎に前記画像内の特徴量を示す特徴マップを算出する第1層構造特徴量算出部と、
     前記複数の処理層のうち第1処理層が算出した第1特徴マップから前記画像内の第1対象物を認識する第1対象物認識部と、
     前記複数の処理層のうち前記第1処理層よりも入力側の処理層である第2処理層が算出した第2特徴マップを取得する特徴マップ取得部と、
     第2対象物に関する外部情報に基づいて前記第2特徴マップから切り出す領域を決定する切り出し領域決定部と、
     前記第2特徴マップから前記決定した領域を切り出して切り出し特徴マップを生成する切り出し部と、
     前記切り出し特徴マップに基づいて前記画像内の前記第2対象物を認識する第2対象物認識部と、
     を備えた認識装置。
  2.  前記第2対象物に関する外部情報は、前記画像内の前記第2対象物の位置情報である請求項1に記載の認識装置。
  3.  前記特徴マップ取得部は、前記第2処理層とは異なる第3処理層であって、前記複数の処理層のうち前記第1処理層よりも入力側の第3処理層が算出した第3特徴マップをさらに取得し、
     前記切り出し部は、前記第2特徴マップから前記決定した領域を切り出して第1切り出し特徴マップを生成し、かつ前記第3特徴マップから前記決定した領域を切り出して第2切り出し特徴マップを生成し、
     前記第2対象物認識部は、前記第1切り出し特徴マップ及び前記第2切り出し特徴マップに基づいて前記画像内の前記第2対象物を認識する請求項1又は2に記載の認識装置。
  4.  前記特徴マップ取得部は、前記第2処理層が算出した複数の前記第2特徴マップを取得し、
     前記切り出し部は、前記複数の第2特徴マップから前記決定した領域を切り出して複数の切り出し特徴マップを生成し、
     前記第2対象物認識部は、前記複数の切り出し特徴マップを特徴量ベクトルに変換し、前記特徴量ベクトルに基づいて前記第2対象物の有無を判別する請求項1から3のいずれか1項に記載の認識装置。
  5.  前記第2対象物認識部は、前記複数の切り出し特徴マップの各切り出し特徴マップ内の特徴量の平均値を算出し、前記平均値を特徴量ベクトルに変換する請求項4に記載の認識装置。
  6.  前記第2対象物認識部は、前記複数の切り出し特徴マップの各切り出し特徴マップ内の特徴量を特徴量ベクトルに変換する請求項4に記載の認識装置。
  7.  層構造を有する複数の第4処理層を有し、前記切り出し特徴マップが入力されると前記切り出し特徴マップ内の特徴量を示す第4特徴マップを算出する第2層構造特徴量算出部を備え、
     前記第2対象物認識部は、前記第4特徴マップに基づいて前記第2対象物の有無を判別、又は前記第2対象物の少なくとも一部の領域を抽出する請求項1から6のいずれか1項に記載の認識装置。
  8.  前記第1層構造特徴量算出部は、畳み込み演算部を備える請求項1から7のいずれか1項に記載の認識装置。
  9.  前記第1層構造特徴量算出部は、畳み込みニューラルネットワークである請求項8に記載の認識装置。
  10.  前記特徴マップは、畳み込みニューラルネットワークの中間層の特徴マップである請求項9に記載の認識装置。
  11.  前記第1対象物認識部の学習を行う第1学習部を備えた請求項1から10のいずれか1項に記載の認識装置。
  12.  前記第2対象物認識部の学習を行う第2学習部を備えた請求項1から11のいずれか1項に記載の認識装置。
  13.  前記特徴マップは2次元データで構成され、
     前記切り出し領域決定部は、前記2次元データの一部を切り出す領域として決定する請求項1から12のいずれか1項に記載の認識装置。
  14.  前記特徴マップは3次元データで構成され、
     前記切り出し領域決定部は、前記3次元データの一部を切り出す領域として決定する請求項1から13のいずれか1項に記載の認識装置。
  15.  画像を示す画像データを取得する画像取得工程と、
     前記画像データが入力されると層構造を有する複数の処理層の前記処理層毎に前記画像内の特徴量を示す特徴マップを算出する第1層構造特徴量算出工程と、
     前記複数の処理層のうち第1処理層が算出した第1特徴マップから前記画像内の第1対象物を認識する第1対象物認識工程と、
     前記複数の処理層のうち前記第1処理層よりも入力側の処理層である第2処理層が算出した第2特徴マップを取得する特徴マップ取得工程と、
     第2対象物に関する外部情報に基づいて前記第2特徴マップから切り出す領域を決定する切り出し領域決定工程と、
     前記第2特徴マップから前記決定した領域を切り出して切り出し特徴マップを生成する切り出し工程と、
     前記切り出し特徴マップに基づいて前記画像内の前記第2対象物を認識する第2対象物認識工程と、
     を備えた認識方法。
  16.  画像を示す画像データを取得する画像取得工程と、
     前記画像データが入力されると層構造を有する複数の処理層の前記処理層毎に前記画像内の特徴量を示す特徴マップを算出する第1層構造特徴量算出工程と、
     前記複数の処理層のうち第1処理層が算出した第1特徴マップから前記画像内の第1対象物を認識する第1対象物認識工程と、
     前記複数の処理層のうち前記第1処理層よりも入力側の処理層である第2処理層が算出した第2特徴マップを取得する特徴マップ取得工程と、
     第2対象物に関する外部情報に基づいて前記第2特徴マップから切り出す領域を決定する切り出し領域決定工程と、
     前記第2特徴マップから前記決定した領域を切り出して切り出し特徴マップを生成する切り出し工程と、
     前記切り出し特徴マップに基づいて前記画像内の前記第2対象物を認識する第2対象物認識工程と、
     をコンピュータに実行させるプログラム。
PCT/JP2018/040069 2017-11-21 2018-10-29 認識装置、認識方法及びプログラム WO2019102796A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017223473A JP2021015317A (ja) 2017-11-21 2017-11-21 認識装置、認識方法及びプログラム
JP2017-223473 2017-11-21

Publications (1)

Publication Number Publication Date
WO2019102796A1 true WO2019102796A1 (ja) 2019-05-31

Family

ID=66630570

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/040069 WO2019102796A1 (ja) 2017-11-21 2018-10-29 認識装置、認識方法及びプログラム

Country Status (2)

Country Link
JP (1) JP2021015317A (ja)
WO (1) WO2019102796A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021192224A (ja) * 2020-06-10 2021-12-16 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 歩行者を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
JP2022064808A (ja) * 2020-10-14 2022-04-26 財團法人工業技術研究院 画像認識方法および画像認識システム
JP7462168B2 (ja) 2020-10-08 2024-04-05 パナソニックIpマネジメント株式会社 処理方法およびそれを利用した処理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005008593A1 (ja) * 2003-07-18 2005-01-27 Canon Kabushiki Kaisha 画像処理装置、撮像装置、画像処理方法
JP2010262392A (ja) * 2009-04-30 2010-11-18 Glory Ltd 画像処理装置、画像処理方法、及び同方法をコンピュータに実行させるプログラム
JP2017045291A (ja) * 2015-08-27 2017-03-02 ムラタオフィス株式会社 類似画像検索システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005008593A1 (ja) * 2003-07-18 2005-01-27 Canon Kabushiki Kaisha 画像処理装置、撮像装置、画像処理方法
JP2010262392A (ja) * 2009-04-30 2010-11-18 Glory Ltd 画像処理装置、画像処理方法、及び同方法をコンピュータに実行させるプログラム
JP2017045291A (ja) * 2015-08-27 2017-03-02 ムラタオフィス株式会社 類似画像検索システム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021192224A (ja) * 2020-06-10 2021-12-16 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 歩行者を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
JP7269979B2 (ja) 2020-06-10 2023-05-09 阿波▲羅▼智▲聯▼(北京)科技有限公司 歩行者を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
JP7462168B2 (ja) 2020-10-08 2024-04-05 パナソニックIpマネジメント株式会社 処理方法およびそれを利用した処理装置
JP2022064808A (ja) * 2020-10-14 2022-04-26 財團法人工業技術研究院 画像認識方法および画像認識システム
US11507776B2 (en) 2020-10-14 2022-11-22 Industrial Technology Research Institute Image recognition method for detection tasks based on single convolutional neural network and image recognition system thereof

Also Published As

Publication number Publication date
JP2021015317A (ja) 2021-02-12

Similar Documents

Publication Publication Date Title
US11734820B2 (en) Medical image processing device, medical image processing method, and medical image processing program
US20170340241A1 (en) Endoscopic examination support device, endoscopic examination support method, and endoscopic examination support program
JP5580637B2 (ja) 画像処理装置、内視鏡装置の作動方法及びプログラム
US20230086972A1 (en) Medical image processing device, endoscope system, medical image processing method, and program
JP5276225B2 (ja) 医用画像処理装置及び医用画像処理装置の作動方法
US11950760B2 (en) Endoscope apparatus, endoscope operation method, and program
US11298012B2 (en) Image processing device, endoscope system, image processing method, and program
US8086005B2 (en) Medical image processing apparatus and medical image processing method
WO2019102796A1 (ja) 認識装置、認識方法及びプログラム
JP7050817B2 (ja) 画像処理装置、プロセッサ装置、内視鏡システム、画像処理装置の動作方法及びプログラム
US10939800B2 (en) Examination support device, examination support method, and examination support program
EP4091532A1 (en) Medical image processing device, endoscope system, diagnosis assistance method, and program
JP7326308B2 (ja) 医療画像処理装置及び医療画像処理装置の作動方法、内視鏡システム、プロセッサ装置、診断支援装置並びにプログラム
US11481944B2 (en) Medical image processing apparatus, medical image processing method, program, and diagnosis support apparatus
US11704794B2 (en) Filing device, filing method, and program
JP5385486B2 (ja) 画像処理装置及び画像処理装置の作動方法
JP4981335B2 (ja) 医療用画像処理装置及び医療用画像処理方法
JP7148534B2 (ja) 画像処理装置、プログラム、及び内視鏡システム
JP7387859B2 (ja) 医用画像処理装置、プロセッサ装置、内視鏡システム、医用画像処理装置の作動方法及びプログラム
JP7122328B2 (ja) 画像処理装置、プロセッサ装置、画像処理方法、及びプログラム
JP4981336B2 (ja) 医療用画像処理装置及び医療用画像処理方法
CN114269221A (zh) 医疗图像处理装置、内窥镜系统、医疗图像处理方法以及程序
US20230206445A1 (en) Learning apparatus, learning method, program, trained model, and endoscope system
JP2008093287A (ja) 医療用画像処理装置及び医療用画像処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18881601

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18881601

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP