WO2021220990A1 - 画像認識装置および画像認識プログラム - Google Patents

画像認識装置および画像認識プログラム Download PDF

Info

Publication number
WO2021220990A1
WO2021220990A1 PCT/JP2021/016538 JP2021016538W WO2021220990A1 WO 2021220990 A1 WO2021220990 A1 WO 2021220990A1 JP 2021016538 W JP2021016538 W JP 2021016538W WO 2021220990 A1 WO2021220990 A1 WO 2021220990A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
attention
recognition
unit
network model
Prior art date
Application number
PCT/JP2021/016538
Other languages
English (en)
French (fr)
Inventor
弘亘 藤吉
隆義 山下
翼 平川
祐輔 坂下
Original Assignee
学校法人中部大学
株式会社ニデック
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 学校法人中部大学, 株式会社ニデック filed Critical 学校法人中部大学
Priority to JP2022518038A priority Critical patent/JPWO2021220990A1/ja
Publication of WO2021220990A1 publication Critical patent/WO2021220990A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present disclosure relates to an image recognition device that outputs a recognition result for an image using a network model trained by a machine learning algorithm, and an image recognition program executed by the image recognition device.
  • Non-Patent Documents 1 and 2 a technique for generating an attention map when recognizing an image using a machine learning algorithm has been known (see, for example, Non-Patent Documents 1 and 2).
  • the attention map shows the area in the image that was noticed during inference by the network model.
  • one attention map is generated for one image.
  • the distribution of the region in the image that attracts attention at the time of inference tends to be monotonous. That is, in the method of generating only one attention map, for example, the area in the image to be noticed at the time of inference is unnecessarily limited to the local area, becomes unnecessarily wide, or is noticed. In many cases, the boundaries of the regions are unclear, and it is difficult to improve the image recognition accuracy. Further, when the distribution of the region of interest at the time of inference shown by the attention map is different from the distribution of the region of interest by a person, a recognition result different from the recognition result by a person is likely to be output.
  • a typical object of the present disclosure is to provide an image recognition device and an image recognition program capable of more appropriately outputting a recognition result close to the recognition result of an image by a person.
  • the image recognition device provided by the typical embodiment in the present disclosure is an image recognition device that outputs a recognition result for an image by using a network model trained by a machine learning algorithm, and the network model is an input.
  • An attention unit that includes a plurality of units that perform different recognition processes on an input image that is an image to be imaged, and each of the units outputs an attention map showing a distribution of attention on the input image.
  • a recognition unit that outputs a recognition result for the input image based on the attention map and a feature map showing features extracted from the input image, and at least the attention unit in any one of the units. Is trained by the correct attention map, which is an attention map generated in response to an instruction by a person who grasps the input image.
  • the image recognition program provided by the typical embodiment in the present disclosure is an image recognition program executed by an image recognition device that outputs a recognition result for an image using a network model trained by a machine learning algorithm.
  • the image recognition device is made to execute the attention map and the recognition result acquisition step of outputting the recognition result of the input image based on the feature map showing the features extracted from the input image, and at least one of the above.
  • the attention unit in the unit is trained by a correct attention map, which is an attention map generated in response to an instruction by a person who grasps the input image.
  • the recognition result close to the image recognition result by a person is output more appropriately.
  • the image recognition device illustrated in the present disclosure includes a network model that is virtually realized by executing an image recognition program by a controller.
  • the network model has multiple units.
  • the plurality of units perform different recognition processes on the image (input image) input to the network model.
  • Each unit has an attention unit and a recognition unit.
  • the attention unit outputs an attention map showing the distribution of attention on the input image.
  • the recognition unit outputs the recognition result for the input image based on the attention map and the feature map showing the distribution of the features extracted from the input image.
  • the attention unit in any of the units is trained by the attention map (correct attention map) generated in response to the instruction by the person who grasps the input image.
  • the image recognition device exemplified in the present disclosure executes an image input step, an attention map acquisition step, and a recognition result acquisition step.
  • the image input step the input image is input to a network model having a plurality of units.
  • the image recognition device causes the attention unit provided in each of the plurality of units to output the attention map.
  • the recognition result acquisition step the image recognition device causes the recognition unit provided in each of the plurality of units to output the recognition result of the input image. At least the attention section in any unit is trained by the correct attention map.
  • an attention map is output and a recognition result is output by each of a plurality of units that execute different recognition processes. Therefore, a plurality of attention maps corresponding to the recognition processing executed by each unit are generated for one input image, and then a plurality of recognition results corresponding to each attention map are output. Therefore, the image is recognized more appropriately. Further, at least one of the attention units of the network model is trained by the correct attention map generated according to the instruction by the person who grasps the input image. That is, the user can individually determine whether or not to execute learning by the correct answer map for each of the plurality of attention parts included in the network model, and to individually determine the content of the correct attention map to be learned. Is.
  • model user the knowledge of the person or group (hereinafter referred to as "model user") who instructed the generation of the correct attention map is appropriately learned by the attention unit, and the recognition result close to the recognition result by the model user is easily output. Therefore, it becomes easy to appropriately output a highly accurate recognition result.
  • the training using the correct attention map may be adopted when the network model once constructed is retrained, or may be adopted at the time of the first training when constructing the network model.
  • the recognition result output by the recognition unit may be a feature amount related to the input image.
  • the final recognition result regarding the input image may be output by integrating the plurality of feature quantities output by each of the plurality of units.
  • the network model may include a feature extraction unit that outputs a feature map showing the distribution of features extracted from the input image.
  • the attention unit may generate and output an attention map based on the feature map output by the feature extraction unit. In this case, the attention map and the recognition result are appropriately output according to the features extracted by the feature extraction unit.
  • the plurality of units perform recognition processing on the same input image in which at least one of the size, number, shape, and recognition content of the area of interest to be recognized in the input image is different from each other. You may. In this case, a plurality of recognition processes in which at least one of the region of interest and the recognition content is different are appropriately executed for one input image. Therefore, the recognition accuracy is appropriately improved as compared with the case where the recognition process is executed by one unit.
  • the network model may be trained separately for each group (model users) of a person or a plurality of people who instruct the generation of a correct attention map. In this case, different findings for each model user are learned separately by the network model. Therefore, the user can also obtain the image recognition result by using, for example, a network model that has learned the knowledge of the desired model user. In addition, the user can make the network model execute a recognition close to his / her own recognition by letting the network model learn his / her knowledge.
  • Identification information that identifies the person or group who instructed the generation of the correct attention map used for training the network model may be added to the network model.
  • the control unit of the image recognition device may notify the user of the identification information given to the network model that outputs the recognition result. In this case, the user can confirm the recognition result output by the network model after identifying the model user who provided the knowledge for learning.
  • the control unit of the image recognition device displays at least a plurality of attention maps output by the plurality of attention units on the display unit in an identifiable state for the same input image, and at least the plurality of attention maps.
  • the input of the correction instruction from the user to any of them may be accepted.
  • the control unit may generate a correct attention map according to the input correction instruction.
  • the user appropriately compares the distribution of attention levels (attention area) shown in the output attention map with the attention area in the input image that he / she recognizes for each of the plurality of attention maps. , You can make corrections to the attention map that needs to be corrected. Therefore, the user's knowledge is more appropriately reflected in the network model.
  • Each of the plurality of units may output the accuracy of the executed recognition process.
  • the control unit of the image recognition device sets the priority of correction of the attention map output from the unit with low accuracy of the executed recognition process among the plurality of attention maps output from each of the plurality of units with high accuracy. It may be higher than the priority of the modification of the attention map output from.
  • the difference between the attention level distribution shown by the attention map and the attention level distribution actually recognized by a person is often large. Therefore, the attention map of the unit with low accuracy of the recognition process is preferentially corrected, so that the human knowledge is more efficiently reflected in the network model.
  • each of the plurality of attention units may output the accuracy of the recognition result for the input image together with the attention map.
  • the priority of modification of the attention map may be set based on the accuracy output by the attention unit. Further, the priority of modification of the attention map may be set based on the accuracy of the recognition result output by each of the plurality of recognition units.
  • the specific setting method of the priority to modify the attention map can be selected as appropriate.
  • the control unit may present the attention map of the unit whose recognition processing accuracy is equal to or less than the threshold value among the plurality of attention maps to the user as a candidate for correction. Further, the control unit may present a plurality of attention maps as correction candidates to the user in ascending order of accuracy of the recognition process. In addition, the control unit has a plurality of attention maps in descending order of error between the attention map output by the attention unit and the correct attention map generated in response to a human instruction (that is, in ascending order of similarity between the two). You may set the priority of the modification of. Further, the control unit may allow the user to select an attention map that needs to be modified by simply displaying a plurality of attention maps on the display unit.
  • the image input to the network model may be a biological image obtained by photographing a biological tissue.
  • the network model may output the recognition result of the degree of a specific disease in the tissue shown in the biological image by a plurality of units. In this case, the degree of a particular disease in the tissue is recognized with high accuracy by a plurality of units that perform different recognition processes.
  • the image may be a fundus image obtained by photographing the fundus tissue of the eye to be inspected.
  • the network model may recognize the extent of at least one of the diseases, such as diabetic retinopathy and age-related macular degeneration, in the tissues imaged in the fundus image.
  • the image may be a biological image obtained by photographing the internal organs of the subject.
  • the network model may recognize the degree of disease such as cancer in the tissue shown in the biological image.
  • the image may also be an inspection image of an article manufactured, processed, or repaired.
  • the network model may recognize the degree of quality of the article (eg, defects, scratches, stains, foreign objects, poor shape, etc.) in the inspection image.
  • the network model exemplified in the present disclosure may be mounted on an educational application or an educational device for educating a user on an image recognition method.
  • the user can appropriately compare the recognition result of his / her own image with the recognition result output by the network model in which the knowledge of a person (for example, a skilled person) is learned. Therefore, the user can appropriately acquire the skills of the person who provided the knowledge to the network model by using the educational application or device.
  • the image recognition device 1 and the photographing device 10 are used in this embodiment.
  • the image recognition device 1 constructs the network model 20 by training (including retraining) the network model 20 (see FIG. 2) by a machine learning algorithm. Further, the image recognition device 1 uses the constructed network model 20 to output the recognition result for the image acquired from the photographing device 10. That is, the image recognition device 1 of the present embodiment has a function as a model construction device for training and constructing the network model 20 and a function as an image recognition device for recognizing an image using the constructed network model 20. Also serves as. However, the model building device and the image recognition device may be provided separately.
  • At least one of the model building device and the image recognition device may be used in plurality.
  • one network model 20 may be constructed by a plurality of model building devices.
  • the photographing device 10 for capturing an image may function as at least one of the model building device and the image recognition device.
  • a PC is used for the image recognition device 1 of the present embodiment.
  • the device that can function as the image recognition device 1 is not limited to the PC.
  • a photographing device 10 for capturing an image, a server, or the like may function as the image recognition device 1.
  • a mobile terminal such as a tablet terminal or a smartphone may function as the image recognition device 1.
  • the control units of the plurality of devices (for example, the CPU of the PC and the CPU 13 of the photographing device 10) may cooperate to perform various processes.
  • the image to be recognized may be a two-dimensional tomographic image or a three-dimensional tomographic image including information on the depth direction of the fundus of the eye to be inspected.
  • the image to be recognized may be an image of a tissue other than the fundus of the eye to be inspected (for example, an image of the anterior segment of the eye) or an image of a biological tissue other than the eye to be inspected (for example, an image of internal organs). You may. Further, the image to be recognized may be an inspection image obtained by photographing an article manufactured, processed, or repaired.
  • the image recognition device 1 will be described.
  • the image recognition device 1 of the present embodiment is arranged, for example, in a facility (for example, a hospital or a health examination facility) for diagnosing or inspecting a subject.
  • the image recognition device 1 includes a control unit 2 that performs various control processes and a communication I / F 5.
  • the control unit 2 includes a CPU 3 which is a controller that controls control, and a storage device 4 that can store programs, data, and the like.
  • the storage device 4 stores an image recognition program for executing a model training process (see FIG. 3) and an image recognition process (see FIG. 5), which will be described later.
  • the image recognition program also includes a program that realizes the network model 20 (see FIG. 2) described later.
  • the communication I / F 5 connects the image recognition device 1 to another device (for example, a photographing device 10 or the like).
  • the image recognition device 1 is connected to the operation unit 7 and the display device 8.
  • the operation unit 7 is operated by the user in order for the user to input various instructions to the image recognition device 1.
  • the operation unit 7 for example, at least one of a keyboard, a mouse, a touch panel, and the like can be used.
  • a microphone or the like for inputting various instructions may be used together with the operation unit 7 or instead of the operation unit 7.
  • the display device 8 displays various images.
  • various devices capable of displaying an image for example, at least one of a monitor, a display, a projector, and the like
  • the "image" in the present disclosure includes both a still image and a moving image.
  • the image recognition device 1 can acquire image data (hereinafter, may be simply referred to as an "image") from the photographing device 10.
  • the image recognition device 1 may acquire image data from the photographing device 10 by, for example, at least one of wired communication, wireless communication, a detachable storage medium (for example, a USB memory), and the like.
  • the photographing device 10 includes a control unit 12 that performs various control processes and a photographing unit 16.
  • the control unit 12 includes a CPU 13 that is a controller that controls control, and a storage device 14 that can store programs, data, and the like.
  • the imaging unit 16 includes various configurations necessary for capturing an image of the tissue of the subject (in the present embodiment, an image of the front of the fundus).
  • the photographing unit 16 when the photographing device 10 is a fundus camera, the photographing unit 16 includes an illumination optical system, a light receiving optical system, a photographing element, and the like for capturing a front image of the fundus of the subject.
  • the device that can be used as the photographing device 10 is not limited to the fundus camera.
  • a scanning laser ophthalmoscope (SLO), an OCT device, a corneal endothelial cell imaging device (CEM), a computed tomography (CT) device, or the like may be used as the imaging device 10.
  • the network model 20 illustrated in this embodiment will be described with reference to FIG. As described above, the network model 20 illustrated in FIG. 2 is virtually realized by executing the image recognition program stored in the storage device 4 of the image recognition device 1.
  • a biological image obtained by photographing the tissue of the living body (specifically, a fundus image obtained by photographing the fundus tissue of the eye to be inspected) is input, and a specific disease (in detail) in the tissue reflected in the input image is input. Outputs the recognition result of the degree of diabetic retinopathy).
  • the network model 20 of the present embodiment includes a feature extraction unit 21 and a plurality of units 30 (first unit 30A, second unit 30B, third unit 30C). Needless to say, the number of units 30 included in the network model 20 is not limited to three, and may be two or four or more.
  • the input image 40 which is image data, is input to the feature extraction unit 21.
  • the feature extraction unit 21 extracts features from the input image 40 and outputs a feature map 41 showing the distribution of the extracted features.
  • the feature extraction unit 21 of the present embodiment has a first feature map 41A input to the first unit 30A, a second feature map 41B input to the second unit 30B, and a third feature map 41B input to the third unit 30C.
  • the feature map 41C is output.
  • the feature extraction unit 21 includes a plurality of layers including a plurality of convolution layers.
  • the plurality of layers of the feature extraction unit 21 may include a plurality of pooling layers and the like.
  • the feature extraction unit 21 generates the feature map 41 by propagating the data of the input image 40 to a plurality of layers.
  • the feature map 41 is a map having K resolutions h ⁇ w (h and w are arbitrary integers) corresponding to K classes.
  • the resolution of the feature map 41 may be the same as the resolution of the input image 40, or may be lower than the resolution of the input image 40.
  • Each of the plurality of units 30 (30A, 30B, 30C) executes different recognition processes for the input image 40. Specifically, each of the plurality of units 30 recognizes the size, number, and shape of the region of interest in the input image 40 and the recognition content of the input image 40 (in the present embodiment, abnormalities in the fundus tissue). At least one of the types, etc.) is different from each other.
  • the first unit 30A outputs the recognition result of the presence or absence of a microaneurysm in the fundus tissue shown in the input image 40 as the first recognition result 46A.
  • the second unit 30B outputs the recognition result of the presence or absence of intraretinal hemorrhage, venous abnormality, and intraretinal microvascular abnormality in the fundus tissue shown in the input image 40 as the second recognition result 46B.
  • the third unit 30C outputs the recognition result of the presence or absence of new blood vessels and vitreous hemorrhage in the fundus tissue shown in the input image 40 as the third recognition result 46C.
  • the plurality of recognition results 46 (first recognition result 46A, second recognition result 46B, and third recognition result 46C) output by each unit 30 are input to the fully connected layer 23.
  • the fully connected layer 23 outputs the combined recognition result 48 based on the plurality of input recognition results 46. Therefore, the recognition accuracy of the combination recognition result 48 is improved.
  • the network model 20 may output a plurality of recognition results 46 as they are without outputting the combination recognition result 48. Even in this case, the input image 40 is more appropriately recognized by the plurality of recognition results 46. Further, at least one of the plurality of recognition results 46 may be a feature amount related to the input image 40.
  • the recognition result of the degree (grade) of diabetic retinopathy of the fundus tissue reflected in the input image 40 is output as the binding recognition result 48. Specifically, if all of the three recognition results 46A, 46B, and 46C are "no abnormality”, “grade 0: no diabetic retinopathy” is output. If the presence of a microaneurysm is recognized in the first recognition result 46A and the second recognition result 46B and the third recognition result 46C are "no abnormality", "grade 1: mild nonproliferative diabetic retinopathy”. Is output.
  • the first unit 30A includes a first attention unit 31A, a first synthesis unit 32A, and a first recognition unit 33A.
  • the first feature map 41A output from the feature extraction unit 21 is input to each of the first attention unit 31A and the first synthesis unit 32A.
  • the first attention unit 31A outputs the first attention map 42A and the first attention unit recognition result 44A based on the input first feature map 41A.
  • the first attention map 42A is the degree of attention that the first unit 30A pays attention to on the input image 40 in order to output a predetermined recognition result (in this embodiment, the presence or absence of a microaneurysm in the fundus tissue reflected in the input image 40). The distribution of is shown.
  • the first attention unit recognition result 44A is a tentative recognition result once obtained when the first attention map 42A is generated, and is the first recognition finally output from the first recognition unit 33A of the first unit 30A. The result may differ from 46A.
  • the first attention unit recognition result 44A also includes information on the accuracy (likelihood) of the recognition result.
  • the first synthesis unit 32A synthesizes the first feature map 41A output from the feature extraction unit 21 and the first attention map 42A output from the first attention unit 31A. Specifically, the pixels at the same positions of the first feature map 41A and the first attention map 42A are multiplied or added. Note that arithmetic processing that combines addition and multiplication may be performed on pixels at the same position.
  • the first recognition unit 33A outputs the first recognition result 46A for the input image 40 based on the first feature map 41A and the first attention map 42A (combined maps of these in the present embodiment). As described above, the first recognition result 46A of the present embodiment indicates the presence or absence of microaneurysms in the fundus tissue shown in the input image 40, and the likelihood thereof.
  • the second unit 30B includes a second attention unit 31B, a second synthesis unit 32B, and a second recognition unit 33B.
  • the second feature map 41B output from the feature extraction unit 21 is input to each of the second attention unit 31B and the second synthesis unit 32B.
  • the second attention unit 31B outputs the second attention map 42B and the second attention unit recognition result 44B.
  • the third unit 30C includes a third attention unit 31C, a third synthesis unit 32C, and a third recognition unit 33C.
  • the third feature map 41C output from the feature extraction unit 21 is input to each of the third attention unit 31C and the third synthesis unit 32C.
  • the third attention unit 31C outputs the third attention map 42C and the third attention unit recognition result 44C. Since the configurations of the respective parts of the second unit 30B and the third unit 30C are the same as the configurations of the respective parts of the first unit 30A, detailed description thereof will be omitted.
  • Model training process The model training process executed by the image recognition device 1 of the present embodiment will be described with reference to FIGS. 3 and 4.
  • the network model 20 is trained (retrained in this embodiment) by the correct attention map 43 (see FIG. 5) created according to the instruction by the person who grasps the learning image (input image 40).
  • NS The model training process is executed by the CPU 3 according to the image recognition program stored in the storage device 4.
  • the CPU 3 inputs an instruction to start the retraining of the network model 20
  • the CPU 3 executes the model training process shown in FIG.
  • the CPU 3 determines whether or not an instruction for designating a model user has been input (S1).
  • the model user is a person or group who has instructed the generation of the correct attention map 43 (details will be described later) for training (learning) the network model 20. That is, the model user can be said to be a person who provided the knowledge to be trained by the network model 20, or a group of a plurality of people.
  • the network model 20 of the present embodiment recognizes the degree of diabetic retinopathy in the tissue shown in the input image 40. Therefore, the model user may be, for example, an ophthalmologist, a medical institution having an ophthalmology, a health examination institution, or the like. When the ophthalmologist himself creates the correct attention map 43 and trains the network model 20, the ophthalmologist may specify his name as a model user.
  • the CPU 3 reads out the network model 20 of the designated model user (that is, the network model 20 for learning the knowledge of the designated model user) (S2).
  • the CPU 3 reads out the network model 20 corresponding to the designated model user from the constructed network model 20. If the network model 20 corresponding to the specified model user has not yet been constructed (that is, when the knowledge of the model user is newly learned), the CPU 3 is a default network model that has not yet been retrained. 20 is read out.
  • the CPU 3 inputs the learning image as the input image 40 into the network model 20 read in S2 (S4).
  • the feature map 41 is input to each of the plurality of units 30, and the attention map 42 and the attention unit recognition result 44 are input from the attention unit 31 of each unit 30. Is output.
  • the recognition result 46 is output from the recognition unit 33 of each unit.
  • the bond recognition result 48 is output from the fully bonded layer 23.
  • the CPU 3 acquires a plurality of attention maps 42 (42A, 42B, 42C) output by each attention unit 31 (31A, 31B, 31C) (S5).
  • the CPU 3 displays the plurality of attention maps 42 acquired in S5 on the display device 8 in an identifiable state (S6).
  • FIG. 4 shows an example of the display screen 50 in the display device 8 when receiving the input of the generation instruction (correction instruction in the present embodiment) of the correct answer attention map 43.
  • the first attention map 42A, the second attention map 42B, and the third attention map output from the respective attention units 31A, 31B, and 31C together with the input image 40 input to the network model. 42C are displayed separately.
  • the method of displaying a plurality of attention maps 42 in a distinguishable state can be appropriately selected.
  • the CPU 3 may change the display color or the like of each of the plurality of attention maps 42 and superimpose the display in one frame. In this case, the user can easily compare the position and range of each of the plurality of attention maps 42. Further, each attention map 42 may be superimposed and displayed on the input image 40.
  • the CPU 3 acquires the recognition result of the input image by the network model 20 and displays it on the display device 8 (S7).
  • the recognition result acquired and displayed in S7 is at least one of a plurality of attention unit recognition results 44, a recognition result 46 output by the plurality of recognition units 33, and a combination recognition result 48.
  • the recognition result 46 (“with microaneurysm”, “with venous abnormality”, “without new blood vessel, etc.”) and the binding recognition result 48 (“with microaneurysm”) output by the recognition unit 33 for each attention map 42 Grade 3 ") is displayed.
  • the CPU 3 sets the priority of correction for at least one of the plurality of attention maps 42 (S8).
  • the priority of the modification of the attention map 42 output from the unit 30 having the low accuracy of the executed recognition process is the priority of the modification of the attention map 42 output from the unit 30 having the high accuracy. Will be higher than.
  • the priority "high” is set when the accuracy of the attention portion recognition result 44 is less than the threshold value
  • the priority "low” is set when the accuracy is abnormal.
  • the priority of correction may be set together with the accuracy of the attention unit recognition result 44 or based on the accuracy of the recognition result 46 output by the recognition unit 33 instead of the accuracy of the attention unit recognition result 44.
  • the CPU 3 may display only the attention map 42 of the unit 30 whose recognition processing accuracy is equal to or less than the threshold value on the display screen 50 as a candidate for correction. Further, the CPU 3 may display a plurality of attention maps 42 as correction candidates on the display screen 50 in ascending order of accuracy of the recognition process.
  • the CPU 3 determines whether or not a correction instruction for any of the plurality of attention maps 42 has been input (S10).
  • the user operates the operation unit 7 to input a modification instruction for the attention map 42 that needs modification.
  • the user selects the attention map 42 to be modified (second attention map 42B in the present embodiment) from the plurality of displayed attention maps 42, and erases or adds the attention area on the selected attention map 42. Enter the instructions for.
  • the correction instruction is input (S10: YES)
  • the CPU 3 displays the correct answer map 43 (in FIG. 4, the second correct attention map 43B in which the second attention map 42B is modified) according to the input instruction.
  • Generate S11).
  • the CPU 3 determines whether or not a correction instruction for the recognition result has been input (S12).
  • the user specifies a recognition result that needs to be corrected (in this embodiment, one of a plurality of recognition results 46 output by each recognition unit 33 and a combination recognition result 48). And enter the correction instruction.
  • the correction instruction is input (S12: YES)
  • the CPU 3 generates a correct answer recognition result in response to the instruction (S13).
  • the attention portion recognition result 44 may be modified. Further, the process of correcting the recognition result (S12, S13) may be omitted, and only the process of generating the correct attention map 43 may be executed.
  • the CPU 3 determines whether or not the attention map 42 and the recognition result have been modified (S14). If the completion instruction is not input and the correction is not completed (S14: NO), the process returns to S10, and the processes of S10 to S14 are repeated. When the correction is completed (S14: YES), the CPU 3 trains at least the attention unit 31 that outputs the correct answer map 43 of the network model 20 using the training data including the generated correct attention map 43 (S14: YES). Retraining) (S16).
  • the CPU 3 uses the unit 30 instructed to generate the correct attention map 43 as the target unit (retraining unit) among the plurality of units 30 included in the network model 20. Identify.
  • the CPU 3 uses the learning error Lmap of the attention map 42 (attention map 42B in the example of FIG. 4) output by the retraining unit and the generated correct attention map 43 (correct attention map 43B in the example of FIG. 4).
  • the learning parameters such as the weight and bias of the attention unit 31 of the retraining unit are updated.
  • the CPU 3 may update the learning parameters of the recognition unit 33 in the retraining unit as well as the learning parameters of the attention unit 31 in the retraining unit based on the correct attention map 43.
  • the CPU 3 updates at least one of the learning parameters of the attention unit 31 and the recognition unit 33 by using the correct answer recognition result together with the correct answer attention map 43.
  • the user determines whether or not to execute training (learning) by the correct answer attention map 43 for each of the plurality of attention units 31 included in the network model 20, and whether or not to train the correct answer map 43. It is possible to judge the contents individually. Therefore, the knowledge of the model user is appropriately reflected in the network model 20.
  • the program, data, and the like for realizing the network model 20 constructed by the model training process are different from the device that executed the model training process (image recognition device 1 in this embodiment). It can also be provided. Therefore, the user can easily acquire the image recognition result by the network model 20 that has learned the knowledge of the desired model user.
  • the image recognition process executed by the image recognition device 1 of the present embodiment will be described with reference to FIGS. 2 and 5.
  • the recognition result for the image is acquired by the network model 20 trained according to the instruction by the model user among one or a plurality of network models 20.
  • the image recognition process is executed by the CPU 3 according to the image recognition program stored in the storage device 4.
  • the CPU 3 determines whether or not an instruction for designating a model user has been input (S21).
  • the network model 20 is trained for each model user who provided the knowledge.
  • the CPU 3 reads out the network model 20 of the designated model user (that is, the network model 20 that has learned the knowledge of the designated model user) (S22).
  • the CPU 3 inputs the acquired image as the input image 40 into the network model 20 read in S22 (S24).
  • the feature map 41 is input to each of the plurality of units 30, and the attention map 42 is output from the attention unit 31 of each unit 30 (FIG. FIG. 2).
  • the CPU 3 acquires a plurality of attention maps 42 output from the attention units 31 of each unit 30 (S25).
  • the CPU 3 acquires the recognition result (at least one of the recognition result 46 and the combination recognition result 48) of the input image 40, which is output based on the attention map 42 and the feature map 41 (S26).
  • the CPU 3 acquires identification information that identifies the model user who provided the knowledge to the network model 20 read in S22 (that is, used in S24 to S26) (S27).
  • the identification information that identifies the model user may be, for example, the name, ID, or the like of the model user, and is stored in the storage device 4 in association with each network model 20.
  • the CPU 3 displays the identification information that identifies the model user on the display device 8 together with the recognition result of the input image 40 acquired in S26 (S28). Therefore, the user can confirm the recognition result of the input image output by the network model 20 after identifying the model user who provided the knowledge for learning.
  • the image recognition process described above is executed by an educational application for educating the user on the image recognition method. That is, the image recognition device of the present embodiment functions as an educational device used to educate the user on the image recognition method. Therefore, the user can appropriately compare the recognition result of his / her own image with the recognition result of the image output by the network model in which the human knowledge is learned. Therefore, the user can appropriately acquire the image recognition skill of a skilled person or the like.
  • the technology disclosed in the above embodiment is only an example. Therefore, it is possible to modify the techniques exemplified in the above embodiments. First, it is also possible to implement only some of the plurality of techniques exemplified in the above embodiments. For example, when the image recognition device 1 is used in a small facility, it is possible to omit the process of training the network model 20 for each model user, the process of notifying the model user, and the like.
  • the network model 20 of the above embodiment is a multi-scale network model including a plurality of units that execute different recognition processes for input images.
  • the techniques exemplified in this disclosure are also applicable in network models with only one unit.
  • the network model when the network model is trained separately for each person or group (that is, for each model user) who instructs the generation of the correct attention map, the network model may have one or more units.
  • the network model when notifying the user of the person or group who provided the knowledge to the network model, the network model may have one or a plurality of units.
  • the network model 20 once constructed is read out, and then retrained by the correct attention map 43.
  • the training of the network model 20 using the correct attention map 43 may be executed at the time of the first training when constructing the network model 20.
  • the network model 20 is trained every time the attention map 42 output to one input image 40 is modified.
  • the network model 20 may be trained after the plurality of attention maps 42 for the plurality of input images 40 have been modified.
  • the process of inputting an image into the network model 20 in S4 of FIG. 3 and S24 of FIG. 5 is an example of the “image input step”.
  • the process of acquiring the attention map 42 in S5 of FIG. 3 and S25 of FIG. 5 is an example of the “attention map acquisition step”.
  • the process of acquiring the recognition result of the input image 40 in S7 of FIG. 3 and S26 of FIG. 5 is an example of the “recognition result acquisition step”.
  • the process of training the network model 20 using the correct attention map in S16 of FIG. 3 is an example of the “training step”.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

ネットワークモデル20は、入力画像40に対して互いに異なる認識処理を実行する複数のユニット30を備える。各々のユニット30は、アテンション部31と認識部33を備える。アテンション部31は、入力画像40上で注目される注目度の分布を示すアテンションマップ42を出力する。認識部33は、アテンションマップ42と、入力画像40から抽出された特徴を示す特徴マップ41に基づいて、入力画像40に対する認識結果を出力する。いずれかのユニット30におけるアテンション部31が、入力画像40を把握した人による指示に応じて生成された正解アテンションマップによって訓練される。

Description

画像認識装置および画像認識プログラム
 本開示は、機械学習アルゴリズムによって訓練されたネットワークモデルを使用して、画像に対する認識結果を出力する画像認識装置、および、画像認識装置によって実行される画像認識プログラムに関する。
 近年、機械学習アルゴリズムを利用して画像を認識する際に、アテンションマップを生成する技術が知られている(例えば、非特許文献1、2参照)。アテンションマップは、ネットワークモデルによる推論時に注目された画像内の領域を示す。
Ramprasaath, R., S., Michael, C., Abhishek, D., Ramakrishna, V., Devi, P. and Dhruv, B.: Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization, International Conference on Computer Vision, pp. 618-626 (2017). Zhou, B., Khosla, A., Lapedriza, A. and Torralba, A.: Learning Deep Features for Discriminative Localization, Computer Vision and Pattern Recognition, pp. 2921-2929 (2016).
 従来の技術では、1つの画像に対して1つのアテンションマップが生成される。この場合、推論時に注目される画像内の領域の分布が単調となり易かった。つまり、1つのアテンションマップのみを生成する方法では、例えば、推論時に注目される画像内の領域が不要に局所領域に限定されてしまう場合、不必要に広くなり過ぎてしまう場合、または、注目される領域の境界が不明瞭となってしまう場合等が多く、画像の認識精度を向上させることが困難であった。さらに、アテンションマップによって示される推論時の注目領域の分布が、人が注目する領域の分布と異なっている場合には、人による認識結果とは異なる認識結果が出力され易い。
 本開示の典型的な目的は、人による画像の認識結果に近い認識結果をより適切に出力することが可能な画像認識装置および画像認識プログラムを提供することである。
 本開示における典型的な実施形態が提供する画像認識装置は、機械学習アルゴリズムによって訓練されたネットワークモデルを使用して、画像に対する認識結果を出力する画像認識装置であって、前記ネットワークモデルは、入力される画像である入力画像に対して互いに異なる認識処理を実行する複数のユニットを備え、各々の前記ユニットは、前記入力画像上で注目される注目度の分布を示すアテンションマップを出力するアテンション部と、前記アテンションマップと、入力画像から抽出された特徴を示す特徴マップとに基づいて、前記入力画像に対する認識結果を出力する認識部と、を備え、少なくとも、いずれかの前記ユニットにおける前記アテンション部が、前記入力画像を把握した人による指示に応じて生成されたアテンションマップである正解アテンションマップによって訓練される。
 本開示における典型的な実施形態が提供する画像認識プログラムは、機械学習アルゴリズムによって訓練されたネットワークモデルを使用して、画像に対する認識結果を出力する画像認識装置によって実行される画像認識プログラムであって、前記画像認識プログラムが前記画像認識装置のコントローラによって実行されることで、画像に対して互いに異なる認識処理を実行する複数のユニットを備えた前記ネットワークモデルに、入力画像を入力する画像入力ステップと、前記複数のユニットの各々が備えるアテンション部に、前記入力画像上で注目される注目度の分布を示すアテンションマップを出力させるアテンションマップ取得ステップと、前記複数のユニットの各々が備える認識部に、前記アテンションマップと、前記入力画像から抽出された特徴を示す特徴マップとに基づく前記入力画像の認識結果を出力させる認識結果取得ステップと、を前記画像認識装置に実行させ、少なくとも、いずれかの前記ユニットにおける前記アテンション部が、前記入力画像を把握した人による指示に応じて生成されたアテンションマップである正解アテンションマップによって訓練される。
 本開示に係る画像認識装置および画像認識プログラムによると、人による画像の認識結果に近い認識結果がより適切に出力される。
 本開示で例示する画像認識装置は、画像認識プログラムがコントローラによって実行されることで仮想的に実現されるネットワークモデルを備える。ネットワークモデルは複数のユニットを備える。複数のユニットは、ネットワークモデルに入力される画像(入力画像)に対して互いに異なる認識処理を実行する。各々のユニットは、アテンション部と認識部を備える。アテンション部は、入力画像上で注目される注目度の分布を示すアテンションマップを出力する。認識部は、アテンションマップと、入力画像から抽出された特徴の分布を示す特徴マップとに基づいて、入力画像に対する認識結果を出力する。少なくとも、いずれかのユニットにおけるアテンション部が、入力画像を把握した人による指示に応じて生成されたアテンションマップ(正解アテンションマップ)によって訓練される。
 換言すると、本開示で例示する画像認識装置は、画像入力ステップ、アテンションマップ取得ステップ、および、認識結果取得ステップを実行する。画像入力ステップでは、複数のユニットを備えたネットワークモデルに入力画像が入力される。アテンションマップ取得ステップでは、画像認識装置は、複数のユニットの各々が備えるアテンション部に、アテンションマップを出力させる。認識結果取得ステップでは、画像認識装置は、複数のユニットの各々が備える認識部に、入力画像の認識結果を出力させる。少なくとも、いずれかのユニットにおけるアテンション部が、正解アテンションマップによって訓練される。
 本開示で例示する画像認識装置によると、互いに異なる認識処理を実行する複数のユニットの各々によって、アテンションマップが出力され、且つ、認識結果が出力される。従って、各々のユニットが実行する認識処理に応じた複数のアテンションマップが、1つの入力画像に対して生成されたうえで、各々のアテンションマップに応じた複数の認識結果が出力される。よって、画像がより適切に認識される。さらに、ネットワークモデルのうち、少なくともいずれかのアテンション部が、入力画像を把握した人による指示に応じて生成された正解アテンションマップによって訓練される。つまり、ユーザは、ネットワークモデルに含まれる複数のアテンション部の各々に対して、正解アテンションマップによる学習を実行させるか否か、および、学習させる正解アテンションマップの内容を、個別に判断することが可能である。その結果、正解アテンションマップの生成を指示した人またはグループ(以下、「模範ユーザ」という)の知見が、アテンション部によって適切に学習され、模範ユーザによる認識結果に近い認識結果が出力され易くなる。よって、高い精度の認識結果が適切に出力され易くなる。
 なお、正解アテンションマップを用いた訓練は、一旦構築されたネットワークモデルが再訓練される際に採用されてもよいし、ネットワークモデルを構築する際の最初の訓練時に採用されてもよい。また、認識部が出力する認識結果は、入力画像に関する特徴量であってもよい。この場合、複数のユニットの各々によって出力された複数の特徴量が統合されることで、入力画像に関する最終的な認識結果が出力されてもよい。
 ネットワークモデルは、入力画像から抽出される特徴の分布を示す特徴マップを出力する特徴抽出部を備えていてもよい。アテンション部は、特徴抽出部によって出力された特徴マップに基づいて、アテンションマップを生成して出力してもよい。この場合、特徴抽出部によって抽出される特徴に応じて、アテンションマップおよび認識結果が適切に出力される。
 複数のユニットは、入力画像内で注目する注目領域の大きさ、数、形状、および、入力画像について認識する認識内容の少なくともいずれかが互いに異なる認識処理を、同一の入力画像に対して実行してもよい。この場合、1つの入力画像に対して、注目領域および認識内容の少なくともいずれかが異なる複数の認識処理が、適切に実行される。従って、1つのユニットによって認識処理が実行される場合に比べて、認識精度が適切に向上する。
 正解アテンションマップの生成を指示する人または複数の人のグループ(模範ユーザ)毎に、ネットワークモデルが別々に訓練されてもよい。この場合、模範ユーザ毎に異なる知見が、別々にネットワークモデルによって学習される。よって、ユーザは、例えば、希望する模範ユーザの知見を学習したネットワークモデルを用いて、画像の認識結果を得ることも可能である。また、ユーザは、自分の知見をネットワークモデルに学習させることで、自分の認識に近い認識をネットワークモデルに実行させることも可能である。
 ネットワークモデルの訓練に用いられた正解アテンションマップの生成を指示した人またはグループを識別する識別情報が、ネットワークモデルに付与されていてもよい。画像認識装置の制御部は、認識結果を出力したネットワークモデルに付与された識別情報を、ユーザに通知してもよい。この場合、ユーザは、学習のための知見を提供した模範ユーザを識別したうえで、ネットワークモデルによって出力された認識結果を確認することができる。
 画像認識装置の制御部は、同一の入力画像について、複数のアテンション部によって出力された複数のアテンションマップを、各々を識別可能な状態で表示部に表示させた状態で、複数のアテンションマップの少なくともいずれかに対するユーザからの修正指示の入力を受け付けてもよい。制御部は、入力された修正指示に応じた正解アテンションマップを生成してもよい。この場合、ユーザは、出力されたアテンションマップに示される注目度の分布(注目領域)と、自らが認識する入力画像内の注目領域とを、複数のアテンションマップの各々について適切に比較したうえで、修正が必要なアテンションマップに対して修正を行うことができる。従って、ユーザの知見がより適切にネットワークモデルに反映される。
 複数のユニットの各々は、実行した認識処理の確度を出力してもよい。画像認識装置の制御部は、複数のユニットの各々から出力された複数のアテンションマップのうち、実行した認識処理の確度が低いユニットから出力されたアテンションマップの修正の優先順位を、確度が高いユニットから出力されたアテンションマップの修正の優先順位よりも高くしてもよい。実行した認識処理の確度が低いユニットでは、アテンションマップが示す注目度の分布と、実際に人が認識する注目度の分布との間の差が大きい場合が多い。従って、認識処理の確度が低いユニットのアテンションマップが、優先して修正されることで、人の知見がより効率よくネットワークモデルに反映される。
 なお、認識処理の確度を示す情報には、種々の情報を利用することができる。例えば、複数のアテンション部の各々は、アテンションマップと共に、入力画像に対する認識結果の確度を出力してもよい。この場合、アテンション部によって出力された確度に基づいて、アテンションマップの修正の優先順位が設定されてもよい。また、複数の認識部の各々が出力する認識結果の確度に基づいて、アテンションマップの修正の優先順位が設定されてもよい。
 アテンションマップを修正する優先順位の具体的な設定方法も、適宜選択できる。例えば、制御部は、複数のアテンションマップのうち、認識処理の確度が閾値以下であるユニットのアテンションマップを、修正する候補としてユーザに提示してもよい。また、制御部は、認識処理の確度が低い順に、複数のアテンションマップを修正候補としてユーザに提示してもよい。また、制御部は、アテンション部によって出力されたアテンションマップと、人の指示に応じて生成された正解アテンションマップの誤差が大きい順(つまり、両者の類似度が小さい順)に、複数のアテンションマップの修正の優先順位を設定してもよい。また、制御部は、単純に複数のアテンションマップを表示部に表示させることで、修正が必要なアテンションマップをユーザに選択させてもよい。
 ネットワークモデルに入力される画像は、生体の組織を撮影した生体画像であってもよい。ネットワークモデルは、複数のユニットによって、生体画像に写る組織における特定の疾患の程度の認識結果を出力してもよい。この場合、互いに異なる認識処理を実行する複数のユニットによって、組織における特定の疾患の程度が高い精度で認識される。
 ネットワークモデルによって認識される特定の疾患の種類は、適宜選択できる。例えば、画像は、被検眼の眼底組織を撮影した眼底画像であってもよい。ネットワークモデルは、眼底画像に写る組織における糖尿病網膜症および加齢黄斑変性等の少なくともいずれかの疾患の程度を認識してもよい。また、画像は、被検者の内臓を撮影した生体画像であってもよい。ネットワークモデルは、生体画像に写る組織における癌等の疾患の程度を認識してもよい。また、画像は、製造、加工、または修理された物品を撮影した検査画像であってもよい。ネットワークモデルは、検査画像に写る物品の品質(例えば、欠陥、傷、汚れ、異物、形状不良等)の程度を認識してもよい。
 本開示で例示するネットワークモデルを、画像の認識方法をユーザに教育するための教育用アプリケーションまたは教育用装置に搭載してもよい。この場合、ユーザは、自らの画像の認識結果と、人(例えば熟練者等)の知見が学習されたネットワークモデルによって出力された認識結果を適切に比較することができる。よって、ユーザは、ネットワークモデルに知見を提供した人の技能を、教育用アプリケーションまたは装置を用いて適切に習得することができる。
画像認識装置1および撮影装置10の概略構成を示すブロック図である。 本実施形態のネットワークモデル20の構成を示す図である。 画像認識装置1が実行するモデル訓練処理のフローチャートである。 正解アテンションマップが生成される際の表示画面50、および、生成された正解アテンションマップ43Bの一例を示す図である。 画像認識装置1が実行する画像認識処理のフローチャートである。
(装置構成)
 以下、本開示における典型的な実施形態の1つについて、図面を参照して説明する。図1に示すように、本実施形態では画像認識装置1および撮影装置10が用いられる。画像認識装置1は、機械学習アルゴリズムによってネットワークモデル20(図2参照)を訓練(再訓練を含む)させることで、ネットワークモデル20を構築する。また、画像認識装置1は、構築されたネットワークモデル20を使用して、撮影装置10から取得した画像に対する認識結果を出力する。つまり、本実施形態の画像認識装置1は、ネットワークモデル20を訓練して構築するモデル構築装置としての機能と、構築されたネットワークモデル20を使用して画像を認識する画像認識装置としての機能を兼ねる。しかし、モデル構築装置と画像認識装置が別々に設けられていてもよい。また、モデル構築装置および画像認識装置の少なくとも一方が、複数使用されてもよい。例えば、複数のモデル構築装置によって、1つのネットワークモデル20が構築されてもよい。また、画像を撮影する撮影装置10が、モデル構築装置および画像認識装置の少なくとも一方として機能してもよい。
 本実施形態の画像認識装置1にはPCが用いられる。しかし、画像認識装置1として機能できるデバイスは、PCに限定されない。例えば、画像を撮影する撮影装置10、またはサーバ等が、画像認識装置1として機能してもよい。また、タブレット端末またはスマートフォン等の携帯端末が、画像認識装置1として機能してもよい。複数のデバイスの制御部(例えば、PCのCPUと、撮影装置10のCPU13)が、協働して各種処理を行ってもよい。
 なお、本実施形態では、認識処理を行う対象の画像として、被検眼の眼底組織を被検眼の視線方向から撮影した二次元の眼底正面画像が用いられる場合を例示する。しかし、認識処理を行う対象の画像が、眼底正面画像以外の画像である場合でも、本開示で例示する技術の少なくとも一部を適用できる。例えば、認識処理を行う対象の画像は、被検眼の眼底の深さ方向の情報を含む二次元断層画像または三次元断層画像であってもよい。認識処理を行う対象の画像は、被検眼の眼底以外の組織の画像(例えば前眼部画像等)であってもよいし、被検眼以外の生体組織の画像(例えば内臓の画像等)であってもよい。また、認識処理を行う対象の画像は、製造、加工、または修理された物品を撮影した検査画像等であってもよい。
 画像認識装置1について説明する。本実施形態の画像認識装置1は、例えば、被検者の診断または検査等を行う施設(例えば、病院または健康診断施設等)に配置される。画像認識装置1は、各種制御処理を行う制御ユニット2と、通信I/F5を備える。制御ユニット2は、制御を司るコントローラであるCPU3と、プログラムおよびデータ等を記憶することが可能な記憶装置4を備える。記憶装置4には、後述するモデル訓練処理(図3参照)および画像認識処理(図5参照)を実行するための画像認識プログラムが記憶されている。なお、画像認識プログラムには、後述するネットワークモデル20(図2参照)を実現させるプログラムも含まれる。また、通信I/F5は、画像認識装置1を他のデバイス(例えば、撮影装置10等)と接続する。
 画像認識装置1は、操作部7および表示装置8に接続されている。操作部7は、ユーザが各種指示を画像認識装置1に入力するために、ユーザによって操作される。操作部7には、例えば、キーボード、マウス、タッチパネル等の少なくともいずれかを使用できる。なお、操作部7と共に、または操作部7に代えて、各種指示を入力するためのマイク等が使用されてもよい。表示装置8は、各種画像を表示する。表示装置8には、画像を表示可能な種々のデバイス(例えば、モニタ、ディスプレイ、プロジェクタ等の少なくともいずれか)を使用できる。なお、本開示における「画像」には、静止画像も動画像も共に含まれる。
 画像認識装置1は、撮影装置10から画像のデータ(以下、単に「画像」という場合もある)を取得することができる。画像認識装置1は、例えば、有線通信、無線通信、着脱可能な記憶媒体(例えばUSBメモリ)等の少なくともいずれかによって、撮影装置10から画像のデータを取得してもよい。
 撮影装置10について説明する。撮影装置10は、各種制御処理を行う制御ユニット12と、撮影部16を備える。制御ユニット12は、制御を司るコントローラであるCPU13と、プログラムおよびデータ等を記憶することが可能な記憶装置14を備える。
 撮影部16は、被検者の組織の画像(本実施形態では眼底正面画像)を撮影するために必要な各種構成を備える。例えば、撮影装置10が眼底カメラである場合には、撮影部16には、被検者の眼底の正面画像を撮影するための照明光学系、受光光学系、撮影素子等が含まれる。なお、撮影装置10として使用できるデバイスは眼底カメラに限定されない。例えば、走査型レーザ検眼鏡(SLO)、OCT装置、角膜内皮細胞撮影装置(CEM)、コンピュータ断層撮影(CT)装置等が、撮影装置10として使用されてもよい。
(ネットワークモデル)
 図2を参照して、本実施形態で例示するネットワークモデル20について説明する。前述したように、画像認識装置1の記憶装置4に記憶された画像認識プログラムが実行されることで、図2に例示するネットワークモデル20が仮想的に実現される。本実施形態のネットワークモデル20は、生体の組織を撮影した生体画像(詳細には、被検眼の眼底組織を撮影した眼底画像)を入力し、入力した画像に写る組織における特定の疾患(詳細には、糖尿病網膜症)の程度の認識結果を出力する。本実施形態のネットワークモデル20は、特徴抽出部21と、複数のユニット30(第1ユニット30A、第2ユニット30B、第3ユニット30C)を備える。なお、ネットワークモデル20が備えるユニット30の数は3つに限定されず、2つまたは4つ以上であってもよいことは言うまでもない。
 特徴抽出部21には、画像のデータである入力画像40が入力される。特徴抽出部21は、入力画像40から特徴を抽出し、抽出された特徴の分布を示す特徴マップ41を出力する。本実施形態の特徴抽出部21は、第1ユニット30Aに入力される第1特徴マップ41Aと、第2ユニット30Bに入力される第2特徴マップ41Bと、第3ユニット30Cに入力される第3特徴マップ41Cを出力する。
 詳細には、特徴抽出部21は、複数の畳み込み層を含む複数の層を備える。特徴抽出部21の複数の層には、複数のプーリング層等が含まれていてもよい。特徴抽出部21は、入力画像40のデータを複数の層に伝播させることで、特徴マップ41を生成する。特徴マップ41は、K個のクラスにそれぞれ対応するK個の解像度h×w(h、wは任意の整数)のマップである。特徴マップ41の解像度は、入力画像40の解像度と同じであってもよいし、入力画像40の解像度より低くてもよい。
 複数のユニット30(30A,30B,30C)の各々は、入力画像40に対して互いに異なる認識処理を実行する。詳細には、複数のユニット30の各々は、入力画像40内で注目する注目領域の大きさ、数、形状、および、入力画像40について認識する認識内容(本実施形態では、眼底組織における異常の種類等)の少なくともいずれかが、互いに異なる。
 一例として、本実施形態では、第1ユニット30Aは、入力画像40に写る眼底組織における微小動脈瘤の有無の認識結果を、第1認識結果46Aとして出力する。第2ユニット30Bは、入力画像40に写る眼底組織における網膜内出血、静脈異常、および網膜内微小血管異常の有無の認識結果を、第2認識結果46Bとして出力する。第3ユニット30Cは、入力画像40に写る眼底組織における新生血管、および硝子体出血の有無の認識結果を、第3認識結果46Cとして出力する。
 本実施形態では、各々のユニット30によって出力された複数の認識結果46(第1認識結果46A、第2認識結果46B,および第3認識結果46C)は、全結合層23に入力される。全結合層23は、入力された複数の認識結果46に基づいて、結合認識結果48を出力する。よって、結合認識結果48の認識精度が向上する。ただし、ネットワークモデル20は、結合認識結果48を出力せずに、複数の認識結果46をそのまま出力してもよい。この場合でも、複数の認識結果46によって、入力画像40がより適切に認識される。また、複数の認識結果46の少なくともいずれかは、入力画像40に関する特徴量であってもよい。
 本実施形態では、入力画像40に写る眼底組織の糖尿病網膜症の程度(グレード)の認識結果が、結合認識結果48として出力される。詳細には、3つの認識結果46A,46B,46Cのいずれも「異常無し」であれば、「グレード0:糖尿病網膜症無し」が出力される。第1認識結果46Aにおいて微小動脈瘤の存在が認識され、且つ、第2認識結果46Bおよび第3認識結果46Cが「異常無し」であれば、「グレード1:軽度の非増殖性糖尿病網膜症」が出力される。第1認識結果46Aにおいて微小動脈瘤の存在が認識され、第2認識結果46Bにおいて所定数以下の網膜内出血等の存在が認識され、且つ、第3認識結果46Cが「異常無し」であれば、「グレード2:中程度の非増殖性糖尿病網膜症」が出力される。第1認識結果46Aにおいて微小動脈瘤の存在が認識され、第2認識結果46Bにおいて所定数よりも多い網膜内出血等の存在が認識され、且つ、第3認識結果46Cが「異常無し」であれば、「グレード3:深刻な非増殖性糖尿病網膜症」が出力される。第3認識結果46Cにおいて、新生血管および硝子体出血の少なくとも一方の存在が認識されていれば、「グレード4:増殖性糖尿病網膜症」が出力される。
 第1ユニット30Aは、第1アテンション部31A、第1合成部32A、および第1認識部33Aを備える。特徴抽出部21から出力された第1特徴マップ41Aは、第1アテンション部31Aおよび第1合成部32Aの各々に入力される。
 第1アテンション部31Aは、入力された第1特徴マップ41Aに基づいて、第1アテンションマップ42Aと第1アテンション部認識結果44Aを出力する。第1アテンションマップ42Aは、第1ユニット30Aが所定の認識結果(本実施形態では、入力画像40に写る眼底組織における微小動脈瘤の有無)を出力するために入力画像40上で注目する注目度の分布を示す。第1アテンション部認識結果44Aは、第1アテンションマップ42Aが生成される際に一旦得られる仮の認識結果であり、第1ユニット30Aの第1認識部33Aから最終的に出力される第1認識結果46Aとは異なる場合もある。第1アテンション部認識結果44Aには、認識結果の確度(尤度)の情報も含まれる。
 第1合成部32Aは、特徴抽出部21から出力された第1特徴マップ41Aと、第1アテンション部31Aから出力された第1アテンションマップ42Aを合成する。具体的には、第1特徴マップ41Aと第1アテンションマップ42Aの、同じ位置の画素同士が乗算または加算される。なお、同じ位置の画素同士に対し、加算および乗算を組み合わせた演算処理が行われてもよい。
 第1認識部33Aは、第1特徴マップ41Aと第1アテンションマップ42A(本実施形態ではこれらの合成マップ)に基づいて、入力画像40に対する第1認識結果46Aを出力する。前述したように、本実施形態の第1認識結果46Aは、入力画像40に写る眼底組織における微小動脈瘤の有無、およびその尤度を示す。
 なお、第2ユニット30Bは、第2アテンション部31B、第2合成部32B、および第2認識部33Bを備える。特徴抽出部21から出力された第2特徴マップ41Bは、第2アテンション部31Bおよび第2合成部32Bの各々に入力される。第2アテンション部31Bは、第2アテンションマップ42Bおよび第2アテンション部認識結果44Bを出力する。また、第3ユニット30Cは、第3アテンション部31C、第3合成部32C、および第3認識部33Cを備える。特徴抽出部21から出力された第3特徴マップ41Cは、第3アテンション部31Cおよび第3合成部32Cの各々に入力される。第3アテンション部31Cは、第3アテンションマップ42Cおよび第3アテンション部認識結果44Cを出力する。第2ユニット30Bおよび第3ユニット30Cの各部の構成は、第1ユニット30Aの各部の構成と同様であるため、これらの詳細な説明は省略する。
(モデル訓練処理)
 図3および図4を参照して、本実施形態の画像認識装置1が実行するモデル訓練処理について説明する。モデル訓練処理では、学習用画像(入力画像40)を把握した人による指示に応じて作成された正解アテンションマップ43(図5参照)によって、ネットワークモデル20が訓練(本実施形態では再訓練)される。モデル訓練処理は、記憶装置4に記憶された画像認識プログラムに従って、CPU3によって実行される。CPU3は、ネットワークモデル20の再訓練を開始させる指示を入力すると、図3に示すモデル訓練処理を実行する。
 まず、CPU3は、模範ユーザを指定する指示が入力されたか否かを判断する(S1)。模範ユーザとは、ネットワークモデル20を訓練(学習)させるための正解アテンションマップ43(詳細は後述する)の生成を指示した人、またはグループである。つまり、模範ユーザは、ネットワークモデル20に学習させる知見を提供した人、または複数の人のグループとも言える。本実施形態のネットワークモデル20は、入力画像40に写る組織における糖尿病網膜症の程度を認識する。従って、模範ユーザは、例えば、眼科医、眼科を有する医療機関、および健康診断機関等のいずれかであってもよい。眼科医が自ら正解アテンションマップ43を作成してネットワークモデル20を訓練させる場合には、眼科医は、自らの名前を模範ユーザとして指定してもよい。
 模範ユーザが指定されると(S1:YES)、CPU3は、指定された模範ユーザのネットワークモデル20(つまり、指定された模範ユーザの知見を学習させるネットワークモデル20)を読み出す(S2)。本実施形態では、1つまたは複数のネットワークモデル20が、模範ユーザ毎に別々に訓練される。指定された模範ユーザに対応するネットワークモデル20が既に構築されている場合には、CPU3は、構築されているネットワークモデル20の中から、指定された模範ユーザに対応するネットワークモデル20を読み出す。指定された模範ユーザに対応するネットワークモデル20が未だ構築されていない場合(つまり、模範ユーザの知見を新たに学習させる場合)には、CPU3は、未だ再訓練が行われていないデフォルトのネットワークモデル20が読み出される。
 次いで、CPU3は、学習用画像を入力画像40として、S2で読み出されたネットワークモデル20に入力する(S4)。前述したように、ネットワークモデル20に入力画像40が入力されると、複数のユニット30の各々に特徴マップ41が入力され、各々のユニット30のアテンション部31からアテンションマップ42とアテンション部認識結果44が出力される。また、各々のユニットの認識部33から認識結果46が出力される。さらに、全結合層23から結合認識結果48が出力される。
 CPU3は、各々のアテンション部31(31A,31B,31C)が出力した複数のアテンションマップ42(42A,42B,42C)を取得する(S5)。CPU3は、S5で取得した複数のアテンションマップ42を、各々を識別可能な状態で表示装置8に表示させる(S6)。
 図4は、正解アテンションマップ43の生成指示(本実施形態では修正指示)の入力を受け付ける際の、表示装置8における表示画面50の一例を示す。本実施形態の表示画面50では、ネットワークモデルに入力された入力画像40と共に、各々のアテンション部31A,31B,31Cから出力された第1アテンションマップ42A、第2アテンションマップ42B、および第3アテンションマップ42Cが、別々に表示されている。
 なお、複数のアテンションマップ42を判別可能な状態で表示する方法は、適宜選択できる。例えば、CPU3は、複数のアテンションマップ42の各々の表示色等を変えて、1つの枠内に重畳表示させてもよい。この場合、ユーザは、複数のアテンションマップ42の各々の位置および範囲を容易に比較することができる。また、各々のアテンションマップ42が、入力画像40に重畳して表示されてもよい。
 CPU3は、ネットワークモデル20による入力画像の認識結果を取得して、表示装置8に表示させる(S7)。S7で取得および表示される認識結果は、複数のアテンション部認識結果44、複数の認識部33が出力する認識結果46、および、結合認識結果48のうちの少なくともいずれかである。図4に示す例では、アテンションマップ42毎に、認識部33が出力した認識結果46(「微小動脈瘤あり」「静脈異常等あり」「新生血管等無し」)と、結合認識結果48(「グレード3」)が表示されている。
 CPU3は、複数のアテンションマップ42の少なくともいずれかについて、修正の優先順位を設定する(S8)。詳細には、本実施形態では、実行した認識処理の確度が低いユニット30から出力されたアテンションマップ42の修正の優先順位が、確度が高いユニット30から出力されたアテンションマップ42の修正の優先順位よりも高くされる。一例として、本実施形態のCPU3は、各々のアテンション部31が出力するアテンション部認識結果44の確度が低い程、アテンションマップ42の修正の優先順位が高くなるように、複数のアテンションマップ42の各々の修正の優先順位を設定する。図4に示す例では、アテンション部認識結果44の確度が閾値未満である場合に優先順位「高」、確度が閾値異常である場合に優先順位「低」が設定される。しかし、3段階以上の優先順位が設定されてもよいことは勿論である。また、アテンション部認識結果44の確度と共に、または、アテンション部認識結果44の確度の代わりに、認識部33が出力する認識結果46の確度に基づいて、修正の優先順位が設定されてもよい。また、CPU3は、認識処理の確度が閾値以下であるユニット30のアテンションマップ42のみを、修正する候補として表示画面50に表示させてもよい。また、CPU3は、認識処理の確度が低い順に、複数のアテンションマップ42を修正候補として表示画面50に表示させてもよい。
 次いで、CPU3は、複数のアテンションマップ42のいずれかに対する修正指示が入力されたか否かを判断する(S10)。ユーザは、表示画面50に表示された複数のアテンションマップ42のいずれかを修正する場合、操作部7を操作することで、修正が必要なアテンションマップ42に対する修正の指示を入力する。例えば、ユーザは、表示された複数のアテンションマップ42のうち、修正するアテンションマップ42(本実施形態では第2アテンションマップ42B)を選択し、選択したアテンションマップ42上で、注目領域の消去または追加の指示を入力する。CPU3は、修正指示が入力されると(S10:YES)、入力された指示に応じて、正解アテンションマップ43(図4では、第2アテンションマップ42Bが修正された第2正解アテンションマップ43B)を生成する(S11)。
 次いで、CPU3は、認識結果に対する修正指示が入力されたか否かを判断する(S12)。ユーザは、操作部7を操作することで、修正が必要な認識結果(本実施形態では、各々の認識部33が出力する複数の認識結果46、および結合認識結果48のいずれか)を指定して修正指示を入力する。CPU3は、修正指示が入力されると(S12:YES)、指示に応じて、正解認識結果を生成する(S13)。なお、S12,S13では、アテンション部認識結果44が修正されてもよい。また、認識結果を修正する処理(S12,S13)が省略され、正解アテンションマップ43を生成する処理のみが実行されてもよい。
 CPU3は、アテンションマップ42および認識結果の修正が完了したか否かを判断する(S14)。完了指示が入力されておらず、修正が完了していない場合には(S14:NO)、処理はS10へ戻り、S10~S14の処理が繰り返される。修正が完了すると(S14:YES)、CPU3は、生成された正解アテンションマップ43を含む訓練用データを用いて、ネットワークモデル20のうち、少なくとも、正解アテンションマップ43を出力したアテンション部31を訓練(再訓練)する(S16)。
 詳細には、本実施形態では、CPU3は、ネットワークモデル20が備える複数のユニット30のうち、正解アテンションマップ43の生成を指示されたユニット30を、再訓練する対象のユニット(再訓練ユニット)として特定する。CPU3は、再訓練ユニットが出力したアテンションマップ42(図4の例ではアテンションマップ42B)と、生成された正解アテンションマップ43(図4の例では正解アテンションマップ43B)の学習誤差Lmapを用いて、再訓練ユニットのアテンション部31の重み、バイアス等の学習パラメータを更新する。なお、CPU3は、再訓練ユニットにおけるアテンション部31の学習パラメータと共に、再訓練ユニットにおける認識部33の学習パラメータも、正解アテンションマップ43に基づいて更新してもよい。CPU3は、S13で正解認識結果が生成されている場合、正解アテンションマップ43と共に正解認識結果も用いて、アテンション部31および認識部33の少なくともいずれかの学習パラメータを更新する。以上のように、ユーザは、ネットワークモデル20に含まれる複数のアテンション部31の各々に対して、正解アテンションマップ43による訓練(学習)を実行させるか否か、および、学習させる正解アテンションマップ43の内容を、個別に判断することが可能である。よって、模範ユーザの知見がネットワークモデル20に適切に反映される。
 次いで、指定されたネットワークモデル20の再訓練を完了させるか否かが判断される(S17)。完了指示が入力されていなければ(S17:NO)、処理はS4へ戻り、別の学習用画像を用いた再訓練処理(S4~S16)が実行される。完了指示が入力されると(S17:YES)、モデル訓練処理は終了する。
 なお、モデル訓練処理(図3参照)によって構築されたネットワークモデル20を実現させるためのプログラムおよびデータ等は、モデル訓練処理を実行したデバイス(本実施形態では画像認識装置1)とは異なるデバイスに提供されることも可能である。従って、ユーザは、所望の模範ユーザの知見を学習したネットワークモデル20によって、画像の認識結果を容易に取得することができる。
(画像認識処理)
 図2および図5を参照して、本実施形態の画像認識装置1が実行する画像認識処理について説明する。画像認識処理では、1つまたは複数のネットワークモデル20のうち、模範ユーザによる指示に応じて訓練されたネットワークモデル20によって、画像に対する認識結果が取得される。画像認識処理は、記憶装置4に記憶された画像認識プログラムに従って、CPU3によって実行される。
 まず、CPU3は、模範ユーザを指定する指示が入力されたか否かを判断する(S21)。前述したように、本実施形態では、知見を提供した模範ユーザ毎に、ネットワークモデル20が訓練されている。模範ユーザが指定されると(S21:YES)、CPU3は、指定された模範ユーザのネットワークモデル20(つまり、指定された模範ユーザの知見を学習したネットワークモデル20)を読み出す(S22)。
 認識対象とする画像が取得されると(S23:YES)、CPU3は、取得された画像を入力画像40として、S22で読み出されたネットワークモデル20に入力する(S24)。前述したように、ネットワークモデル20に入力画像40が入力されると、複数のユニット30の各々に特徴マップ41が入力され、各々のユニット30のアテンション部31からアテンションマップ42が出力される(図2参照)。CPU3は、各々のユニット30のアテンション部31から出力された複数のアテンションマップ42を取得する(S25)。CPU3は、アテンションマップ42および特徴マップ41に基づいて出力される、入力画像40の認識結果(認識結果46および結合認識結果48の少なくともいずれか)を取得する(S26)。
 CPU3は、S22で読み出された(つまり、S24~S26で使用された)ネットワークモデル20に知見を提供した模範ユーザを識別する識別情報を取得する(S27)。模範ユーザを識別する識別情報は、例えば、模範ユーザの名前、ID等であってもよく、各々のネットワークモデル20に対応付けて記憶装置4に記憶されている。
 CPU3は、模範ユーザを識別する識別情報を、S26で取得された入力画像40の認識結果と共に、表示装置8に表示させる(S28)。従って、ユーザは、学習のための知見を提供した模範ユーザを識別したうえで、ネットワークモデル20によって出力された入力画像の認識結果を確認することができる。
 以上説明した画像認識処理は、画像の認識方法をユーザに教育するための教育用アプリケーションによって実行される。つまり、本実施形態の画像認識装置は、画像の認識方法をユーザに教育するために使用される教育用装置として機能する。従って、ユーザは、自らの画像の認識結果と、人の知見が学習されたネットワークモデルによって出力された画像の認識結果を、適切に比較することができる。よって、ユーザは、熟練者等の画像認識の技能を適切に習得することが可能である。
 上記実施形態で開示された技術は一例に過ぎない。従って、上記実施形態で例示された技術を変更することも可能である。まず、上記実施形態で例示された複数の技術のうちの一部のみを実行することも可能である。例えば、画像認識装置1が小規模な施設で使用される場合等には、模範ユーザ毎にネットワークモデル20を訓練する処理、および、模範ユーザを通知する処理等を省略することも可能である。
 上記実施形態のネットワークモデル20は、入力画像に対して互いに異なる認識処理を実行する複数のユニットを備えたマルチスケールのネットワークモデルである。しかし、本開示で例示した技術の少なくとも一部は、ユニットを1つのみ備えたネットワークモデルにおいても適用できる。例えば、正解アテンションマップの生成を指示する人またはグループ毎(つまり、模範ユーザ毎)に、ネットワークモデルを別々に訓練する場合、ネットワークモデルが備えるユニットは1つでも複数でもよい。また、ネットワークモデルに知見を提供した人またはグループをユーザに通知する場合にも、ネットワークモデルが備えるユニットは1つでも複数でもよい。
 上記実施形態のモデル訓練処理(図3参照)では、一旦構築されたネットワークモデル20が読み出された後、正解アテンションマップ43によって再訓練される。しかし、正解アテンションマップ43を用いたネットワークモデル20の訓練は、ネットワークモデル20を構築する際の最初の訓練時に実行されてもよい。
 上記実施形態のモデル訓練処理(図3参照)では、1つの入力画像40に対して出力されたアテンションマップ42が修正される毎に、ネットワークモデル20が訓練される。しかし、複数の入力画像40についての複数のアテンションマップ42が修正された後に、ネットワークモデル20が訓練されてもよい。
 なお、図3のS4および図5のS24で画像をネットワークモデル20に入力する処理は、「画像入力ステップ」の一例である。図3のS5および図5のS25でアテンションマップ42を取得する処理は、「アテンションマップ取得ステップ」の一例である。図3のS7および図5のS26で入力画像40の認識結果を取得する処理は、「認識結果取得ステップ」の一例である。図3のS16で正解アテンションマップによってネットワークモデル20を訓練する処理は、「訓練ステップ」の一例である。

 

Claims (8)

  1.  機械学習アルゴリズムによって訓練されたネットワークモデルを使用して、画像に対する認識結果を出力する画像認識装置であって、
     前記ネットワークモデルは、入力される画像である入力画像に対して互いに異なる認識処理を実行する複数のユニットを備え、
     各々の前記ユニットは、
     前記入力画像上で注目される注目度の分布を示すアテンションマップを出力するアテンション部と、
     前記アテンションマップと、入力画像から抽出された特徴を示す特徴マップとに基づいて、前記入力画像に対する認識結果を出力する認識部と、
     を備え、
     少なくとも、いずれかの前記ユニットにおける前記アテンション部が、前記入力画像を把握した人による指示に応じて生成されたアテンションマップである正解アテンションマップによって訓練されることを特徴とする画像認識装置。
  2.  請求項1に記載の画像認識装置であって、
     前記複数のユニットは、前記入力画像内で注目する注目領域の大きさ、数、形状、および、前記入力画像について認識する認識内容の少なくともいずれかが互いに異なる認識処理を、同一の前記入力画像に対して実行することを特徴とする画像認識装置。
  3.  請求項1または2に記載の画像認識装置であって、
     前記正解アテンションマップの生成を指示する人または複数の人のグループ毎に、前記ネットワークモデルが別々に訓練されることを特徴とする画像認識装置。
  4.  請求項1から3のいずれかに記載の画像認識装置であって、
     前記ネットワークモデルの訓練に用いられた前記正解アテンションマップの生成を指示した人またはグループを識別する識別情報が、前記ネットワークモデルに付与されており、
     制御部は、前記認識結果を出力した前記ネットワークモデルに付与された前記識別情報を、ユーザに通知することを特徴とする画像認識装置。
  5.  請求項1から4のいずれかに記載の画像認識装置であって、
     制御部は、
     同一の前記入力画像について、複数の前記アテンション部によって出力された複数の前記アテンションマップを、各々を識別可能な状態で表示部に表示させた状態で、前記複数のアテンションマップの少なくともいずれかに対する修正指示の入力を受け付けると共に、
     前記修正指示に応じた前記正解アテンションマップを生成することを特徴とする画像認識装置。
  6.  請求項1から5のいずれかに記載の画像認識装置であって、
     前記複数のユニットの各々は、実行した認識処理の確度を出力し、
     制御部は、前記複数のユニットの各々から出力された複数の前記アテンションマップのうち、実行した認識処理の前記確度が低い前記ユニットから出力された前記アテンションマップの修正の優先順位を、前記確度が高い前記ユニットから出力された前記アテンションマップの修正の優先順位よりも高くすることを特徴とする画像認識装置。
  7.  請求項1から6のいずれかに記載の画像認識装置であって、
     前記ネットワークモデルに入力される画像は、生体の組織を撮影した生体画像であり、
     前記ネットワークモデルは、前記複数のユニットによって、前記生体画像に写る組織における特定の疾患の程度の認識結果を出力することを特徴とする画像認識装置。
  8.  機械学習アルゴリズムによって訓練されたネットワークモデルを使用して、画像に対する認識結果を出力する画像認識装置によって実行される画像認識プログラムであって、
     前記画像認識プログラムが前記画像認識装置のコントローラによって実行されることで、
     画像に対して互いに異なる認識処理を実行する複数のユニットを備えた前記ネットワークモデルに、入力画像を入力する画像入力ステップと、
     前記複数のユニットの各々が備えるアテンション部に、前記入力画像上で注目される注目度の分布を示すアテンションマップを出力させるアテンションマップ取得ステップと、
     前記複数のユニットの各々が備える認識部に、前記アテンションマップと、前記入力画像から抽出された特徴を示す特徴マップとに基づく前記入力画像の認識結果を出力させる認識結果取得ステップと、
     を前記画像認識装置に実行させ、
     少なくとも、いずれかの前記ユニットにおける前記アテンション部が、前記入力画像を把握した人による指示に応じて生成されたアテンションマップである正解アテンションマップによって訓練されることを特徴とする画像認識プログラム。

     
PCT/JP2021/016538 2020-04-28 2021-04-23 画像認識装置および画像認識プログラム WO2021220990A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022518038A JPWO2021220990A1 (ja) 2020-04-28 2021-04-23

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020079769 2020-04-28
JP2020-079769 2020-04-28

Publications (1)

Publication Number Publication Date
WO2021220990A1 true WO2021220990A1 (ja) 2021-11-04

Family

ID=78373580

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/016538 WO2021220990A1 (ja) 2020-04-28 2021-04-23 画像認識装置および画像認識プログラム

Country Status (2)

Country Link
JP (1) JPWO2021220990A1 (ja)
WO (1) WO2021220990A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018121885A (ja) * 2017-01-31 2018-08-09 株式会社ニデック 画像処理装置、画像処理システム、および画像処理プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018121885A (ja) * 2017-01-31 2018-08-09 株式会社ニデック 画像処理装置、画像処理システム、および画像処理プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Decision-making Analysis by Attention Mechanism and Applications", 20 June 2019 (2019-06-20), JP, pages 1 - 8, XP009532032, Retrieved from the Internet <URL:http://mprg.jp/research/abn_j> [retrieved on 20210708] *
FUKUI HIROSHI; HIRAKAWA TSUBASA; YAMASHITA TAKAYOSHI; FUJIYOSHI HIRONOBU: "Attention Branch Network: Learning of Attention Mechanism for Visual Explanation", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 15 June 2019 (2019-06-15), pages 10697 - 10706, XP033687020, DOI: 10.1109/CVPR.2019.01096 *

Also Published As

Publication number Publication date
JPWO2021220990A1 (ja) 2021-11-04

Similar Documents

Publication Publication Date Title
US11633096B2 (en) Ophthalmologic image processing device and non-transitory computer-readable storage medium storing computer-readable instructions
US20220175325A1 (en) Information processing apparatus, information processing method, information processing system, and program
US20210390696A1 (en) Medical image processing apparatus, medical image processing method and computer-readable storage medium
JP2018516718A (ja) 拡張リアリティの形態学的診断法
CN111770735B (zh) 手术仿真信息生成方法及程序
JP2024040372A (ja) 眼科画像処理プログラムおよび眼科画像処理装置
WO2020026535A1 (ja) 眼科画像処理装置、oct装置、および眼科画像処理プログラム
JP2024045441A (ja) 眼科画像処理装置、および眼科画像処理プログラム
WO2021106967A1 (ja) 眼底画像処理装置および眼底画像処理プログラム
JP2019208852A (ja) 眼科画像処理装置、および眼科画像処理プログラム
JP2019208851A (ja) 眼底画像処理装置および眼底画像処理プログラム
WO2021220990A1 (ja) 画像認識装置および画像認識プログラム
WO2020116351A1 (ja) 診断支援装置、および診断支援プログラム
JP7439990B2 (ja) 医療画像処理装置、医療画像処理プログラム、および医療画像処理方法
WO2020003524A1 (ja) 眼科画像処理装置、oct装置、眼科画像処理プログラム、および、数学モデル構築方法
WO2021020419A1 (ja) 医療画像処理装置および医療画像処理プログラム
JP6747617B2 (ja) 眼科画像処理装置、およびoct装置
JP2021100572A (ja) 眼科画像処理装置、oct装置、眼科画像処理プログラム、および、数学モデル構築方法
JP2021074095A (ja) 眼科画像処理装置および眼科画像処理プログラム
Lee et al. Validation of retinal image registration algorithms by a projective imaging distortion model
CN115100380B (zh) 基于眼部体表特征点的医学影像自动识别方法
JP7468163B2 (ja) 眼科画像処理プログラムおよび眼科画像処理装置
JP2020036837A (ja) 眼科画像処理装置、および眼科撮影装置
JP7302184B2 (ja) 眼科画像処理装置、および眼科画像処理プログラム
WO2024057942A1 (ja) 眼底画像処理装置および眼底画像処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21795643

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022518038

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21795643

Country of ref document: EP

Kind code of ref document: A1