WO2019102844A1 - 分類装置、分類方法、プログラム、ならびに、情報記録媒体 - Google Patents

分類装置、分類方法、プログラム、ならびに、情報記録媒体 Download PDF

Info

Publication number
WO2019102844A1
WO2019102844A1 PCT/JP2018/041174 JP2018041174W WO2019102844A1 WO 2019102844 A1 WO2019102844 A1 WO 2019102844A1 JP 2018041174 W JP2018041174 W JP 2018041174W WO 2019102844 A1 WO2019102844 A1 WO 2019102844A1
Authority
WO
WIPO (PCT)
Prior art keywords
attribute
classification
feature map
neural network
image
Prior art date
Application number
PCT/JP2018/041174
Other languages
English (en)
French (fr)
Inventor
陽一朗 山本
Original Assignee
国立研究開発法人理化学研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立研究開発法人理化学研究所 filed Critical 国立研究開発法人理化学研究所
Priority to EP18880401.7A priority Critical patent/EP3716100A4/en
Priority to CN201880075400.5A priority patent/CN111465941A/zh
Priority to US16/763,417 priority patent/US11263494B2/en
Publication of WO2019102844A1 publication Critical patent/WO2019102844A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30088Skin; Dermal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Definitions

  • the present invention provides a classification device, classification method, program suitable for classifying an object by a neural network based on an object image obtained by imaging the object and one or more attribute parameters associated with the object. And to an information recording medium.
  • a pooling layer (partial sampling layer) is appropriately inserted between a plurality of convolutional layers, and the local information of the image is hierarchically convoluted so that the image can be classified with high accuracy.
  • the convolution layer and the pooling layer have generally been arranged alternately, but in recent years, the pooling layer is not used or appropriately omitted, and a method for performing learning and discrimination mainly by the convolution layer is used. Research is also in progress.
  • a large number of images (various photographs and the like) representing the object are prepared in advance in the learning stage, and the convolutional neural network is made to learn using the image whose classification result is determined as teacher data.
  • an image to be classified an image whose classification result is unknown
  • classification is performed based on the obtained feature map (represented by binary, scalar, vector, matrix, etc.) .
  • Patent Document 1 in order to diagnose a skin disorder using a skin image, a first image obtained by applying a first conversion to a skin image is given to a first convolution network, and The second image subjected to the 2-transform is applied to the second convolutional network, and the identification values obtained from the two convolutional networks are integrated to perform the determination.
  • the doctor not only visually observes the affected area and its photograph but also comprehensively considers various attribute parameters such as the patient's age, sex, height, weight, obesity, bone density, etc. Diagnosis and judgment of risk are made.
  • the present invention solves the above-mentioned problems, and a classifier for classifying a target by a neural network based on a target image obtained by shooting the target and one or more attribute parameters associated with the target.
  • the present invention relates to a method, a program, and an information recording medium.
  • the classification device is Accept an object image for which an object has been photographed and one or more attribute parameters associated with the object, Classify the object by neural network,
  • the neural network is A convolution unit is provided which convolutes each element of a given feature map and the received one or more attribute parameters.
  • a recording medium can be provided.
  • It is a drawing substitute photograph which shows the example of the medical photograph which image
  • It is a drawing substitute photograph which shows the example of the medical photograph which image
  • FIG. 6 is an explanatory view showing a state of applying a kernel C to an intermediate image K generated from a feature map M.
  • FIG. 6 is an explanatory view showing a state of applying a kernel C to an intermediate image K generated from a feature map M.
  • FIG. 6 is an explanatory view showing a state of applying a kernel C to an intermediate image K generated from a feature map M.
  • FIG. 6 is an explanatory view showing a state of applying a kernel C to an intermediate image K generated from a feature map M.
  • FIG. 1 is an explanatory view showing a schematic configuration of a classification device according to an embodiment of the present invention. The outline will be described below with reference to this figure.
  • the classification device 101 includes a reception unit 102, a neural network unit 103, and a classification unit 104.
  • This classification device 101 is typically realized by a computer executing a program.
  • the computer is connected to various output devices and input devices to exchange information with these devices.
  • Programs executed by a computer can be distributed and sold by a server to which the computer is communicably connected, and can be a compact disk read only memory (CD-ROM), a flash memory, or an EEPROM (Electrically Erasable Programmable ROM). And the like, and it is also possible to distribute, sell, etc. the information recording medium after recording on a non-transitory information recording medium.
  • CD-ROM compact disk read only memory
  • flash memory flash memory
  • EEPROM Electrically Erasable Programmable ROM
  • the program is installed on a non-transitory information recording medium such as a hard disk of a computer, a solid state drive, a flash memory, an EEPROM or the like. Then, the information processing apparatus according to the present embodiment is realized by the computer.
  • the CPU of a computer reads a program from an information recording medium to a random access memory (RAM) under the control of the operating system (OS) of the computer, and then interprets and executes the code included in the program.
  • RAM random access memory
  • OS operating system
  • explicit program loading to the RAM may not be necessary.
  • various information required in the process of program execution can be temporarily recorded in the RAM (temporary).
  • the computer be equipped with a GPU, and be equipped with a GPU for performing various image processing calculations at high speed.
  • a library such as GPU and TensorFlow, it becomes possible to use learning functions and classification functions in various artificial intelligence processes under control of the CPU.
  • the information processing apparatus of the present embodiment can be configured using a dedicated electronic circuit instead of realizing the information processing apparatus of the present embodiment using a general-purpose computer.
  • the program can also be used as a material for generating a wiring diagram or timing chart of an electronic circuit.
  • an electronic circuit satisfying a specification defined in a program is configured by a field programmable gate array (FPGA) or an application specific integrated circuit (ASIC), and the electronic circuit has a function defined in the program.
  • the device functions as a dedicated device to realize the information processing apparatus of the present embodiment.
  • the classification device 101 will be described on the assumption that the computer is realized by executing a program.
  • the receiving unit 102 receives an input of an image relating to an object of classification and one or more attribute parameters relating to the object.
  • the neural network unit 103 has one or more, typically a plurality of convolutional layers (not shown). Further, as described above, the pooling layer is appropriately inserted between the convolution layers (not shown).
  • Each convolutional layer is given a feature map as an input and is convoluted to generate a new feature map.
  • the feature map output from the convolutional layer is subjected to sampling processing to generate a new feature map. Then, the obtained feature map is passed to another convolutional layer, and repetitive convolution operation is performed as shown by.
  • the linear sum operation is performed when convolving a plurality of elements, but the coefficients of the linear sum are automatically adjusted by back propagation when learning in the neural network.
  • a new convolution unit 105 is provided before, after, or between the repetition of the above convolution (and pooling) to convolute each element of the feature map M and one or more received attribute parameters. .
  • each element of feature maps M L-dimensional M [i 1, i 2, ..., i L] with respect to, A number of attribute parameters p 1, p 2, ..., obtained by convoluting p A
  • the convolution calculation is performed as follows.
  • the image information obtained for the object and the attribute parameter are integrated and embedded.
  • the weighting factors w 0 , w 1 , w 2 ,..., W A when integrating the image information and the respective attribute parameters are automatically adjusted by back propagation when learning in the neural network. For this reason, the weight when integrating a plurality of pieces of information is appropriately determined by the prepared data for learning. This point is one of the features of the present embodiment.
  • the classification unit 104 is an element that performs classification of an object based on the output of the neural network unit 103, and is a feature of the binary, scalar value, vector value, or matrix value finally obtained from the neural network unit 103. Classify objects based on quantity.
  • the features in the classification device 101 are such that in the convolution layer of a certain stage, each element of the feature map given as input and the given attribute parameter are convoluted,
  • various known techniques in convolutional neural networks can be applied as they are.
  • the present embodiment will be described while appropriately referring to a mode in which the risk of internal eye surgery is determined by an image obtained by imaging the corneal endothelium of a subject and an attribute parameter including the age of the subject.
  • FIG. 2 is a drawing-substituting photograph showing an example of a medical photograph obtained by photographing the corneal endothelium of a healthy subject.
  • FIG. 3 is an explanatory view showing a medical photograph obtained by photographing the corneal endothelium of a healthy subject in monochrome.
  • FIG. 4 is a drawing-substituting photograph showing an example of a medical photograph of the corneal endothelium of a subject with a disease.
  • FIG. 5 is an explanatory view showing a medical photograph obtained by photographing the corneal endothelium of a subject having a disease in monochrome.
  • a photograph taken of the corneal endothelium is arranged, and on the right side, character information such as photographing date and time and a subject number are arranged as an image.
  • white spots are drawn at the center of some cells and white lines are drawn at the cell boundaries. This is because a doctor or a laboratory technician draws a white point at the center point of each cell in a clearly photographed area, and then the inspection device performs image recognition of the boundary of each cell based on the white point, and a white line Are drawn.
  • the test device calculates information such as the density, area, and appearance frequency of hexagonal cells of corneal endothelial cells.
  • the calculated information is drawn as text information on the right side of the image.
  • the photographic image portion on the left has a pixel size of approximately 300 dots by 480 dots.
  • a small image of 56 dots ⁇ 56 dots is cut out from the area of the photograph where the boundary line and the white point are not drawn, and this is used as a target image for learning and judgment.
  • FIG. 6 is a drawing-substituting photograph showing an example of a target image of a healthy subject.
  • FIG. 7 is an explanatory view showing an example of a target image of a healthy subject in monochrome.
  • FIG. 8 is a drawing-substituting photograph showing an example of a target image of a subject with a disease.
  • FIG. 9 is an explanatory view showing an example of a target image of a subject with a disease in monochrome.
  • the target image alone used in the present embodiment is not necessarily clear. However, the present embodiment is characterized in that even with such a target image, subjects can be classified with sufficient accuracy. Note that the size and the number of target images can be changed as appropriate depending on the application to which they are applied.
  • the age of the subject is adopted as one attribute parameter p1.
  • the age it is the simplest to use the age as it is, but it is also possible to represent an age group with a certain width, for example, as a numerical value in the tens of age, etc. You may adopt the age from the age of
  • Each target image is two-dimensional if it is a grayscale image.
  • the convolution operation will be applied.
  • the amount of shifting the position of interest is called stride
  • the size of the area consisting of the pixel of interest and its peripheral pixels is called kernel size
  • the coefficients of linear sum are arranged in the area to which the convolution operation is applied.
  • a kernel or a convolution kernel we call things a kernel or a convolution kernel.
  • a kernel in which weighting factors w 0 and w 1 are arranged is formed, and each pixel M [x, y] and an attribute parameter p 1
  • the intermediate image K may be generated by arranging the pixels M [x, y] and the attribute parameter p 1 so that the kernel is applied to.
  • FIG. 10 is an explanatory view showing how the kernel C is applied to the intermediate image K generated from the feature map M.
  • an image M which is an input feature map is represented by a size of 3 ⁇ 4 dots, and pixel values are represented by hatches.
  • the image M is divided in the longitudinal direction of the band, the pixel D is inserted with an attribute parameter p 1 as the pixel value therebetween.
  • the size of the convolution kernel C is 2 dots wide and 1 dot high.
  • stride is the same as the size of the convolution kernel, and is 2 dots horizontally and 1 dot vertically.
  • a group of a plurality of pixels to which one feature value of the feature map N to which the kernel C is applied and output is output by the stride is surrounded by a bold line.
  • FIG. 11 is an explanatory view showing how the kernel C is applied to the intermediate image K generated from the feature map M. As shown in FIG. Also in this drawing, the relationship between the image M, the intermediate image K, and the kernel C is illustrated with the same specifications as the above example.
  • any index may be used when inserting A number of attribute parameters into an L-dimensional feature map.
  • the intermediate image K is generated once.
  • the kernel size and stride are (A + 1) for the kth index and 1 for the other indexes.
  • FIG. 12 is an explanatory view showing how the kernel C is applied to the intermediate image K generated from the feature map M.
  • the intermediate image K and the kernel are the same as the above example. C is illustrated.
  • a color image of RGB three primary colors can also be used as a feature map.
  • the feature map is represented in three dimensions.
  • the X axis direction of the image is the first dimension
  • the Y axis direction is the second dimension
  • the channel direction of the RGB color is the third dimension.
  • the convolution operation in the color channel direction includes, for example, an operation of converting an RGB image into a grayscale image. Therefore, even if the third index is used for convolution, high-speed learning and discrimination are possible.
  • the target image is a grayscale image and one or two attribute parameters
  • let one of the RGB channels be the grayscale image, and fill the pixels in the remaining channels with the value of each attribute parameter.
  • high-speed learning and discrimination can be performed.
  • time lapse as the third index and later.
  • a high-speed library responsible for convolution operation after the third index is prepared. Be expected.
  • various diagnoses can be made by looking at the time lapse of the affected area with a plurality of images taken of the same subject at intervals.
  • each attribute parameter may be arranged in the direction of the passage of time and convolution may be performed in the direction of the passage of time.
  • FIG. 13 is an explanatory view showing the configuration of the image filter of the neural network according to the present embodiment.
  • the risk of internal eye surgery is learned and determined from the subject's corneal endothelium and the subject's age. This will be described below with reference to this figure.
  • the sandwiching layer 201 generates an intermediate image K by periodically inserting an attribute parameter in the target image M. .
  • the intermediate image K is convoluted with a kernel in which the size and stride at the index at which the entrapment is performed in the convolutional layer 202 is a value obtained by adding 1 to the number A of attribute parameters, and the size and stride at other indexes is 1. .
  • a feature map N of the same size as the target image M is obtained in which the target image M and the attribute parameter are embedded. That is, the convolution unit 105 is realized by the sandwiching layer 201 and the convolution layer 202.
  • the subsequent configuration is the same as in the case of classification by a conventional convolutional neural network.
  • a fairly simple and high-speed configuration is adopted. That is, it passes through the convolution layer 251a, the pooling layer 252a, the convolution layer 251b, and the pooling layer 252b, and reaches the smooth layer 253, the total bonding layer 254a, and the total bonding layer 254b.
  • the output of the total coupling layer 254 b may be binary, scalar, or vector value. In the case of two values, the level of the risk of internal eye surgery is associated as it is. In the case of a scalar value, since the scalar value indicates the degree of risk, whether or not it is determined by comparison with a threshold. In the case of vector values, hyperplanes for classifying vector values may be obtained using a support vector machine or the like.
  • the back-propagation is performed by collating the high and low risks of the internal eye surgery with the output of the entire combined layer 254b, and the weight coefficients in each layer including the convolution layer 202 of the convolution unit 105 are automatically adjusted, Learning is to be made to comprehensively judge the target picture and the age.
  • an output relating to the level of the risk of the internal eye surgery can be obtained from the entire combined layer 254b.
  • the configuration from the convolutional layer 251a to the total coupling layer 254b can be arbitrarily changed based on the application, the performance of the computer, the tendency in trial experiments, the designer's experience, and the like.
  • a normal image recognition neural network or the like as a library as it is for the configuration of each layer thereafter. It is characterized by
  • the attribute parameter is first convolved in the target image, and then passed to the subsequent layers.
  • the intermediate target map obtained by performing convolution and pooling on the target image It is also possible to convolute attribute parameters.
  • the convolution unit 105 composed of the sandwiching layer 201 and the convolution layer 202 is a component that can be disposed between any layers in the neural network. Therefore, by inserting a layer in which the feature value of the feature parameter and the attribute parameter are convoluted between arbitrary layers in the neural network, integrated learning and judgment of the target image and the attribute parameter become possible. Which layer is to be inserted, and the configuration of other layers can be determined by prior experiments and the like.
  • the generation of the intermediate image K explicitly by the sandwich layer 201 is omitted, and a library for performing an operation of convoluting each element of the feature map and the attribute parameter in the convolution layer 202 using a GPU or the like is created. It may be realized by doing.
  • the corneal endothelium picture of each subject is about 300 x 480 dots in an 8-bit grayscale image, from among which white spots and white spots not written by doctors and laboratory technicians (relatively unclear areas), 56 One to twenty target images of ⁇ 56 dots were extracted.
  • the total number of target images and age sets is 661.
  • prior art A when age is not referred to using only the target image, as prior art B, a comparison was made between the case where the feature map and the age were connected by Concatenate in the neural network.
  • the age of the object image is convoluted (the sandwiching layer 201 and the convoluted layer 202), and the subsequent layers (convoluted layer 251a to all the combined layers 254b) use a neural network having the same configuration as that of the prior art A. I did an experiment.
  • the intermediate image K is obtained by arranging the columns (or rows) of the attribute parameter D alternately in the sandwich layer 201 with the pixel columns (or pixel rows) of the feature map M.
  • the column (or row) of the attribute parameter D is further extended and added.
  • the portion that is added out is referred to as a padding area, and is referred to as an original area, that is, a non-padding area in which pixels originating from the feature map M and pixels originating from the attribute parameter D are alternately arranged.
  • the feature map pixel in the kernel should be placed in the non-padding area (the left side in the example of this figure) and the attribute parameter in the kernel should be placed.
  • the attribute parameter in the kernel should be placed.
  • Various variations can be considered depending on what is placed at the place (right side in the example of this figure). Also, various variations can be considered depending on how many columns are added.
  • FIG. 14 is an explanatory view showing the state of padding. This will be described below with reference to the example shown in the figure.
  • FIG. 15 is an explanatory view showing the state of padding. The following description will be made with reference to the example shown in the figure.
  • padding area K [(A + 1) i 1 +1, i 2, ..., i L] to K [(A + 1) i 1 + A, i 2, ..., i L] in the attribute parameters instead of filling with p 1 to p A or 0, a constant other than 0 or a random number may be used. In addition to this, it is also possible to transcribe or thin out pixel values of the feature map M.
  • the average of each attribute of the test subject in the data for learning can also be adopted as e.
  • a plurality of attribute parameters are assigned to each subject, and the following method can be considered to obtain the weighted average e for each subject.
  • repetitions of e, p 1 , p 2 , ..., p A can be padded. This corresponds to padding the subject's age repetition (correct rate 88.67% -88.89%) in the above experimental example.
  • the separation performance can be further improved by padding the value due to the attribute parameter .
  • the classification device 101 described above can be applied also in the case where matching of introduction partners is performed in a marriage counseling center, or in the case of predicting the future popularity of entertainer candidates such as actors and models. In these fields, it is because a face photograph of a person to be an object and attribute parameters such as age, sex, height and the like of the person become important factors.
  • the classification device As described above, the classification device according to the present embodiment A receiving unit that receives a target image from which a target has been photographed, and one or more attribute parameters associated with the target; A classification unit that classifies the object by a neural network; The neural network comprises A convolution unit is provided which convolutes each element of a given feature map and the received one or more attribute parameters.
  • the received target image may be configured to be provided to the neural network as the feature map.
  • the convolution unit is an intermediate in which one or more attribute elements, each having the received one or more attribute parameters as element values, are periodically inserted in a predetermined cycle between the feature elements included in the given feature map.
  • a convolution kernel of the same size as the predetermined period may be configured to be applied to the map with a stride of the same size as the convolution kernel.
  • the convolution kernel may be configured to convolve one feature element derived from the feature map and the one or more attribute elements.
  • One of the width and the height in the size of the convolution kernel is 1.
  • the other may be configured to have a length obtained by adding 1 to the number of the one or more attribute elements.
  • the convolution unit further performs padding on at least one side of the periphery of the given feature map,
  • the position to be applied to the feature element among the positions to which the kernel is applied in the area to be padded may be configured to pad an element having a value derived from the attribute parameter.
  • the number of accepted one or more attribute parameters is one
  • the value derived from the attribute parameter may be configured to be a value of the received attribute parameter.
  • the number of the accepted one or more attribute parameters is plural,
  • the value derived from the attribute parameter may be configured to be a simple average or a weighted average of the received attribute parameter.
  • the weights determined by the kernel may be used in the weighted average to perform the padding and then learning again.
  • the classification method is An accepting step in which the classification device receives the target image from which the target has been photographed and one or more attribute parameters associated with the target; A classification step of the classification device classifying the object by a neural network; In the neural network, Each element of the given feature map and the received one or more attribute parameters are convoluted.
  • the program according to the present embodiment is a computer, Accept an object image for which an object has been photographed and one or more attribute parameters associated with the object, It is a program which performs processing which classifies said object by a neural network, and said neural network is A convolution unit is provided which convolutes each element of a given feature map and the received one or more attribute parameters.
  • the program according to the present embodiment is a computer, Acquiring a feature map associated with the object and one or more attribute parameters associated with the object; A process of generating a new feature map is executed by convolving each element of the obtained feature map with the one or more acquired attribute parameters.
  • the program can be recorded, distributed and sold on a non-transitory computer readable information recording medium. Also, it can be distributed and sold via a temporary transmission medium such as a computer communication network.
  • a recording medium can be provided.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

対象が撮影された対象画像と、対象に対応付けられた1以上の属性パラメータと、に基づいて、ニューラルネットワークにより対象を分類する分類装置(101)を提供する。分類装置(101)は、受付部(102)、ニューラルネットワーク部(103)、分類部(104)を備える。受付部(102)は、対象が撮影された対象画像と、対象に対応付けられた1以上の属性パラメータと、を受け付ける。分類部(104)は、対象をニューラルネットワーク部(103)により分類する。ここで、ニューラルネットワーク部(103)において、畳み込み部(105)は、与えられた特徴マップの各要素と、受け付けられた1以上の属性パラメータと、を畳み込む。

Description

分類装置、分類方法、プログラム、ならびに、情報記録媒体
  本発明は、対象が撮影された対象画像と、対象に対応付けられた1以上の属性パラメータと、に基づいて、ニューラルネットワークにより対象を分類するのに好適な、分類装置、分類方法、プログラム、ならびに、情報記録媒体に関する。
  従来から、畳み込み層を有するニューラルネットワークにより、画像を分類する技術が提案されている。
  このような畳み込みニューラルネットワークでは、複数の畳み込み層の間にプーリング層(部分サンプリング層)を適宜挟み込んで、画像の局所情報を階層的に畳み込むことにより、当該画像を精度良く分類できるようにする。従来は、畳み込み層とプーリング層を交互に配置するのが一般的であったが、近年では、プーリング層を利用せず、もしくは、適宜省いて、主として畳み込み層により、学習ならびに判別を行う手法についての研究も進められている。
  このような技術では、学習段階で、対象を表した画像(各種の写真等)を多数あらかじめ用意し、分類結果が確定している画像を教師データとして利用して畳み込みニューラルネットワークに学習をさせる。運用段階では、分類したい画像(分類結果が不明の画像)を上記の畳み込みニューラルネットワークに与えて、得られる特徴マップ(二値、スカラー、ベクトル、マトリックス等により表現される)に基づいて分類を行う。
  これらのニューラルネットワークの実装においては、コンピュータが有するCPU(Central Processing Unit)の制御の下、コプロセッサとして画像処理に適したGPU(Graphic Processing Unit)を活用することで、高速な学習および判定を行うことが、広く行われている。
  さて、特許文献1では、皮膚画像を用いて皮膚の疾患を診断するために、皮膚画像に対して第1変換を施した第1画像を第1畳み込みネットワークに与え、当該皮膚画像に対して第2変換を施した第2画像を第2畳み込みネットワークに与え、2つの畳み込みネットワークから得られた識別値を統合して、判定を行っている。
  一方で、患者に対して白内障手術などの内眼手術を適用すべきか否かを判断する場合、現在は、当該患者の角膜内皮の写真を撮影し、角膜内皮細胞の密度、面積、六角形細胞の出現頻度などを、医師や検査技師が手作業もしくは手作業とコンピュータによる半自動処理を組み合わせて測定し、これらの情報を元に、医師が患者に対する内眼手術のリスクの高低、ひいては、内眼手術をすべきか否か、を判定している。
  したがって、患者の症状が現出しやすい部位の写真に基いて、当該症状におけるリスクを判定するために、畳み込みニューラルネットワークを適用することが可能であると考えられる。
  しかしながら、医師は、患部やその写真を目視で観察するだけではなく、患者の年齢、性別、身長、体重、肥満度、骨密度など、種々の属性パラメータを総合して勘案することにより、疾患の診断やリスクの有無の判断を行っている。
  特許文献1では、2つの畳み込みニューラルネットワークの出力を統合しているので、当該技術を利用すれば、対象の画像と対象の属性パラメータを統合することは、一見容易に思える。
特開2017-45341号公報
  特許文献1に開示される技術では、複数の畳み込みニューラルネットワークの出力を、例えば平均することによって統合を行い、最終判定値を得ることとしている。単純な平均であったとしても、それなりの性能が得られるのは、当該畳み込みニューラルネットワークに与えられる画像が、同じ原画像から変換されたものであるからと思われる。
  しかしながら、画像に起因する出力と、画像以外の属性パラメータに起因する出力と、を統合する場合には、このような単純な「平均」は適用できない。また、「平均」として、重み付き平均を採用する場合には、適切な重みを定めることが困難である。
  ニューラルネットワークをGPUにて処理するためのライブラリTensorFlowならびにKerasでは、複数の出力を単純に連結するライブラリ関数Concatenateがある。しかしながら、これを利用するとしても、両者を連結する際の重みの調整は十分とはいえず、高精度の分類は難しい。
  このため、対象が撮影された対象画像と、対象に対応付けられた1以上の属性パラメータと、に基づいて、ニューラルネットワークにより対象を分類する技術が強く求められている。
  本発明は、上記の課題を解決するもので、対象が撮影された対象画像と、対象に対応付けられた1以上の属性パラメータと、に基づいて、ニューラルネットワークにより対象を分類する分類装置、分類方法、プログラム、ならびに、情報記録媒体に関する。
  本発明に係る分類装置は、
  対象が撮影された対象画像と、前記対象に対応付けられた1以上の属性パラメータと、を受け付け、
  前記対象をニューラルネットワークにより分類し、
  前記ニューラルネットワークは、
    与えられた特徴マップの各要素と、前記受け付けられた1以上の属性パラメータと、を畳み込む畳み込み部
  を備える。
  本発明によれば、対象が撮影された対象画像と、対象に対応付けられた1以上の属性パラメータと、に基づいて、ニューラルネットワークにより対象を分類する分類装置、分類方法、プログラム、ならびに、情報記録媒体を提供することができる。
本発明の実施形態に係る分類装置の概要構成を示す説明図である。 健康な被験者の角膜内皮を撮影した医療写真の例を示す図面代用写真である。 健康な被験者の角膜内皮を撮影した医療写真をモノクロ化して示す説明図である。 疾患のある被験者の角膜内皮を撮影した医療写真の例を示す図面代用写真である。 疾患のある被験者の角膜内皮を撮影した医療写真をモノクロ化して示す説明図である。 健康な被験者の対象画像の一例を示す図面代用写真である。 健康な被験者の対象画像の一例をモノクロ化して示す説明図である。 疾患のある被験者の対象画像の一例を示す図面代用写真である。 疾患のある被験者の対象画像の一例をモノクロ化して示す説明図である。 特徴マップMから生成された中間画像Kに対してカーネルCを適用する様子を示す説明図である。 特徴マップMから生成された中間画像Kに対してカーネルCを適用する様子を示す説明図である。 特徴マップMから生成された中間画像Kに対してカーネルCを適用する様子を示す説明図である。 本実施例に係るニューラルネットワークの画像フィルターの構成を示す説明図である。 パディングの様子を示す説明図である。 パディングの様子を示す説明図である。
  以下に、本発明の実施形態を説明する。なお、本実施形態は、説明のためのものであり、本発明の範囲を制限するものではない。したがって、当業者であれば、本実施形態の各要素もしくは全要素を、これと均等なものに置換した実施形態を採用することが可能である。また、各実施例にて説明する要素は、用途に応じて適宜省略することも可能である。このように、本発明の原理にしたがって構成された実施形態は、いずれも本発明の範囲に含まれる。
  (構成)
  図1は、本発明の実施形態に係る分類装置の概要構成を示す説明図である。以下、本図を参照して概要を説明する。
  本図に示すように、本実施形態に係る分類装置101は、受付部102、ニューラルネットワーク部103、分類部104を備える。
  この分類装置101は、典型的には、プログラムをコンピュータが実行することによって実現される。当該コンピュータは、各種の出力装置や入力装置に接続され、これらの機器と情報を送受する。
  コンピュータにて実行されるプログラムは、当該コンピュータが通信可能に接続されたサーバにより配布、販売することができるほか、CD-ROM(Compact Disk Read Only Memory)やフラッシュメモリ、EEPROM(Electrically Erasable Programmable ROM)などの非一時的(non-transitory)な情報記録媒体に記録した上で、当該情報記録媒体を配布、販売等することも可能である。
  プログラムは、コンピュータが有するハードディスク、ソリッドステートドライブ、フラッシュメモリ、EEPROM等などの非一時的な情報記録媒体にインストールされる。すると、当該コンピュータにより、本実施形態における情報処理装置が実現されることになる。一般的には、コンピュータのCPUは、コンピュータのOS(Operating System)による管理の下、情報記録媒体からRAM(Random Access Memory)へプログラムを読み出してから、当該プログラムに含まれるコードを解釈、実行する。ただし、CPUがアクセス可能なメモリ空間内に情報記録媒体をマッピングできるようなアーキテクチャでは、RAMへの明示的なプログラムのロードは不要なこともある。なお、プログラムの実行の過程で必要とされる各種情報は、RAM内に一時的(temporary)に記録しておくことができる。
  さらに、上記のように、コンピュータは、GPUを備え、各種画像処理計算を高速に行うためのGPUを備えることが望ましい。GPUならびにTensorFlow等のライブラリを使うことで、CPUの制御の下、各種の人工知能処理における学習機能や分類機能を利用することができるようになる。
  なお、汎用のコンピュータにより本実施形態の情報処理装置を実現するのではなく、専用の電子回路を用いて本実施形態の情報処理装置を構成することも可能である。この態様では、プログラムを電子回路の配線図やタイミングチャート等を生成するための素材として利用することもできる。このような態様では、プログラムに定められる仕様を満たすような電子回路がFPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)により構成され、当該電子回路は、当該プログラムに定められた機能を果たす専用機器として機能して、本実施形態の情報処理装置を実現する。
  以下では、理解を容易にするため、分類装置101は、コンピュータがプログラムを実行することによって実現される態様を想定して説明する。
  さて、受付部102は、分類の対象に係る画像と、当該対象に係る1以上の属性パラメータと、の入力を受け付ける。
  ニューラルネットワーク部103は、1以上、典型的には複数の畳み込み層を有する(図示を省略)。また上述のように、畳み込み層同士の間には、プーリング層が、適宜挟み込まれる(図示を省略)。
  各畳み込み層には、特徴マップが入力として与えられると、これを畳み込み、新たな特徴マップを生成する。プーリング層が設けられている場合は、畳み込み層から出力された特徴マップにサンプリング処理を行って、新たな特徴マップを生成する。そして、得られた特徴マップは、別の畳み込み層に渡され、…のように、繰り返し畳み込み演算が行われることになる。
  畳み込み層においては、複数の要素を畳み込む際に線形和の演算を行うが、線形和の係数は、ニューラルネットワークにおける学習時にバックプロパゲーションによって自動的に調節される。
  本実施形態では、上記のような畳み込み(およびプーリング)の繰り返しの前後もしくは間に、新たな畳み込み部105を設け、特徴マップMの各要素と、受け付けられた1以上の属性パラメータと、を畳み込む。
  特徴マップMを表す画像の各画素と、1以上の属性パラメータと、を畳み込むと、元の画像と同じサイズの特徴マップNが得られる。
  一般に、L次元の特徴マップMの各要素をM[i1, i2, …, iL]に対して、A個の属性パラメータp1, p2, …, pAを畳み込むことにより得られる新たな特徴マップNは、L次元であり、その各要素N[i1, i2, …, iL]は、重み係数w0, w1, w2, …, wAを用いて、
    N[i1, i2, …, iL] = w0M[i1, i2, …, iL] +Σj=1 A wjpj
のように畳み込み計算がされる。
  このようにして畳み込み計算がされて得られた特徴マップには、対象について得られた画像情報と属性パラメータとが統合して埋め込まれていることになる。
  しかも、画像情報と各属性パラメータとを統合する際の重み係数w0, w1, w2, …, wAは、ニューラルネットにおける学習時に、バックプロパゲーションによって自動的に調整される。このため、複数の情報を統合する際の重みは、用意された学習用データによって、適切に決定されることになる。この点に、本実施形態の特徴の一つがある。
  分類部104は、ニューラルネットワーク部103の出力に基づいて、対象の分類を行う要素であり、ニューラルネットワーク部103から最終的に得られた二値、スカラー値、ベクトル値、あるいは、マトリックス値の特徴量に基いて、対象の分類を行う。
  このように、本実施形態に係る分類装置101における特徴は、ある段の畳み込み層において、入力として与えられる特徴マップの各要素と、与えられた属性パラメータと、を畳み込んでから、次段に渡す点にあり、それ以外の構成については、畳み込みニューラルネットワークにおける種々の公知技術をそのまま適用することができる。
  以下、被験者の角膜内皮を撮影した画像と、当該被験者の年齢からなる属性パラメータと、によって、内眼手術のリスクを判定する態様に、適宜触れつつ、本実施形態について説明する。
  図2は、健康な被験者の角膜内皮を撮影した医療写真の例を示す図面代用写真である。
  図3は、健康な被験者の角膜内皮を撮影した医療写真をモノクロ化して示す説明図である。
  図4は、疾患のある被験者の角膜内皮を撮影した医療写真の例を示す図面代用写真である。
  図5は、疾患のある被験者の角膜内皮を撮影した医療写真をモノクロ化して示す説明図である。
  これらは、従来の医療現場で利用された画像であり、本実施形態に係る分類装置の性能を検証するために利用するものである。
  これらの画像の左側には、角膜内皮を撮影した写真が配置され、右側には、撮影日時や被験者番号などの文字情報が画像として配置されている。
  また、左側の写真においては、一部の細胞の中心に白点が描かれ、細胞の境界に白線が描かれている。これは、医師や検査技師が、鮮明に撮影された領域において、各細胞の中心点に白点を描いた後、当該白点を基準として、検査機器が各細胞の境界を画像認識して白線を描いたものである。
  この白線に基づいて、検査機器は、角膜内皮細胞の密度、面積、六角形細胞の出現頻度等の情報を計算する。計算された情報は、画像の右側に文字情報として描画されている。
  左側の写真画像部分は、約300ドット×480ドットのピクセルサイズを有する。本実施形態では、写真のうち、境界線や白点が描かれていない領域から、56ドット×56ドットの小画像を切り抜き、これを学習用および判定用の対象画像として利用する。
  図6は、健康な被験者の対象画像の一例を示す図面代用写真である。
  図7は、健康な被験者の対象画像の一例をモノクロ化して示す説明図である。
  図8は、疾患のある被験者の対象画像の一例を示す図面代用写真である。
  図9は、疾患のある被験者の対象画像の一例をモノクロ化して示す説明図である。
  これらの図に示すように、本実施形態において利用した対象画像単独は、必ずしも鮮明ではない。ただし、このような対象画像であっても、十分な精度で被験者の分類ができる点に、本実施形態の特徴がある。なお、対象画像のサイズや数は、適用される用途に応じて、適宜変更が可能である。
  また、本具体例では、1個の属性パラメータp1として、被験者の年齢を採用している。年齢を数値化するにあたっては、年齢をそのまま利用するのが最も単純であるが、ある程度の幅を持った年齢層を、たとえば、年齢の十の位の数値で表す等としても良いし、誕生日からの月齢や日齢を採用しても良い。
  年齢に加えて、たとえば、身長、体重等の複数の属性パラメータを採用する場合には、これらを数値化すれば良い。身長や体重などのスカラー値は、その値をそのまま採用しても良いし、画素値(一般には、0乃至255、あるいは、0乃至65535)として表現できるように、適宜変換を施しても良い。
  また、性別や住んでいる地域など、被験者の選択肢的な特徴を属性パラメータとする場合には、たとえば、男を0、女を1で表現する、等のように、選択肢番号を利用して1つの属性としても良いし、選択肢毎に属性パラメータを用意し、当該選択肢に該当するか否かの論理値を当該属性パラメータとしても良い。たとえば、男性については、適当な正定数kに対して、pk=1, pk+1=0とし、女性については、pk=0, pk+1=1とする等である。
  また、住んでいる地域が、たとえば、B個の地方に分類される場合には、適当な正定数hに対して、属性パラメータph, ph+1, ph+2, …, ph+B-1を考え、住んでいる地域の番号がb (0≦b≦9)であれば、
    ph+b = 1; 
    ph+i = 0 (i≠b)
のように、選択肢毎の論理値を二値で表現することができる。
  さて、各対象画像は、グレイスケール画像であれば2次元である。本実施形態においては、上述の通り、幅W、高さHの画像Mの各画素M[x,y] (x = 0, 1, …, W-1; y = 0, 1, …, H-1)と、年齢の属性パラメータp1と、に対して
    N[x,y] = w0M[x,y] + w1p1
という畳み込み演算を適用することになる。
  さて、GPUを用いたライブラリにおける畳み込み演算を利用すれば、画像内の各位置について、注目する位置の画素ならびにその周辺の画素の画素値に対する線形和を高速に計算することができる。
  このとき、注目する位置をずらす量をストライド、注目する画素ならびにその周辺の画素からなる領域の大きさを、カーネルサイズと呼び、畳み込み演算が適用される領域に対して線形和の係数を並べたものをカーネルもしくは畳み込みカーネルと呼ぶ。
  したがって、上記の畳み込み演算を、GPUを用いたライブラリにより高速に計算するには、重み係数w0, w1を並べたカーネルを作り、各画素M[x,y]と、属性パラメータp1と、に対して、当該カーネルが適用されるように、各画素M[x,y]と、属性パラメータp1と、を並べた中間画像Kを生成すれば良いことになる。
  たとえば、画像Mを1ドット幅の縦方向の帯状に分割し、その間に属性パラメータp1を画素値とする1ドット幅の帯状の画像を挟み込むことで、中間画像Kを作ることができる。すなわち、並べた中間画像Kの各画素の画素値は、各画素M[x,y]と、属性パラメータp1と、に対して、
    K[2x,y] = M[x,y]; 
    K[2x+1,y] = p1
のように定めることができる。
  図10は、特徴マップMから生成された中間画像Kに対してカーネルCを適用する様子を示す説明図である。本図においては、理解を容易にするため、入力される特徴マップである画像Mを3×4ドットのサイズで表現し、画素値をハッチにて表現している。本図に示すように、画像Mは、縦方向の帯に分割され、その間に属性パラメータp1を画素値として有する画素Dが挿入される。
  また、本図Mに示すように、畳み込みカーネルCのサイズは、幅2ドット、高さ1ドットである。また、ストライドは、畳み込みカーネルのサイズと同じで、横2ドット、縦1ドットとする。本図では、このストライドによって、カーネルCが適用されて出力される特徴マップNの一つの特徴値が出力される複数の画素のグループを、太線で囲んで表記している。
  すると、この畳み込み演算によって、新たな特徴マップNを生成することができる。
    N[x,y] = Σj=0 1 wjK[2x+j,y]
これは、画像処理で行われる一般的な畳み込み演算であり、ライブラリを利用することで、高速な学習ならびに判別が可能である。
  なお、上記例では、特徴マップの第1インデックスによって属性パラメータの挟み込みを行ったが、第2インデックスを採用しても良い。この場合、中間画像Kの各画素の画素値は、各画素M[x,y]と、属性パラメータp1と、に対して、
    K[x,2y] = M[x,y]; 
    K[x,2y+1] = p1
のように定めることができる。図11は、特徴マップMから生成された中間画像Kに対してカーネルCを適用する様子を示す説明図である。本図においても、上記例と同様の仕様にて、画像M、中間画像K、カーネルCの関係を図示している。
  この態様での畳み込みカーネルCのサイズおよびストライドは、幅(横)1ドット、高さ(縦)2ドットとすれば良い。すると、対象画像Mと属性パラメータの畳み込みは、
    N[x,y] = Σj=0 1 wjK[x,2y+j]
により計算できる。
  一般に、L次元の特徴マップに対してA個の属性パラメータを挟み込む際には、いずれのインデックスを利用しても良い。たとえば、第1インデックスに対して挟み込む場合には、
    K[(A+1)i1, i2, …, iL] = M[i1, i2, …, iL]; 
    K[(A+1)i1+1, i2, …, iL] = p1
    K[(A+1)i1+2, i2, …, iL] = p2
     …; 
    K[(A+1)i1+A, i2, …, iL] = pA
のように、一旦中間画像Kを生成する。
  そしてカーネルサイズおよびストライドが(A+1)×1×…×1の畳み込み演算
    N[x,y] = Σj=0 A wjK[(A+1)x+j,y]
を行うことで、特徴マップNを得ることができる。
  第kインデックスに対して挟み込む場合には、中間画像Kは、
    K[(A+1)i1, i2, …, iL] = M[i1, i2, …, iL]; 
    K[(A+1)i1+1, i2, …, iL] = p1
    K[(A+1)i1+2, i2, …, iL] = p2
     …; 
    K[(A+1)i1+A, i2, …, iL] = pA
となり、カーネルサイズおよびストライドは、第kインデックスについては(A+1)、それ以外のインデックスについては1となる。
  図12は、特徴マップMから生成された中間画像Kに対してカーネルCを適用する様子を示す説明図である。本図では、サイズ3×4の2次元の特徴マップMの第1インデックスに対して、2個の属性パラメータからなる画素Dを挟み込んだ場合について、上記の例と同様に、中間画像KおよびカーネルCを図示している。
  なお、RGB三原色のカラー画像を特徴マップとすることもできる。この場合、特徴マップは3次元により表現されることになる。画像のX軸方向が1次元目、Y軸方向が2次元目、RGBの色のチャンネル方向が3次元目である。
  TensorFlowやKerasでは、X軸(横方向、第1インデックス)、Y軸(縦方向、第2インデックス)のほか、色のチャンネル方向(第3インデックス)についても、ライブラリによる畳み込み演算がサポートされている。
  色のチャンネル方向における畳み込み演算には、たとえば、RGB画像をグレイスケール画像に変換する演算等がある。したがって、畳み込みに第3インデックスを利用した場合であっても、高速な学習ならびに判別が可能である。
  たとえば、対象画像がグレイスケール画像であり、属性パラメータが1つもしくは2つの場合は、RGBのいずれかのチャンネルを当該グレイスケール画像とし、残りのチャンネルにおける画素を各属性パラメータの値で埋め尽くすこととしてから、RGB方向に畳み込めば、高速な学習および判別ができることになる。
  このほか、第3インデックス以降として、時間経過を採用することもできる。人工知能ライブラリによって動画の特徴を抽出する場合には、時間経過の軸方向の畳み込み演算を利用するので、この場合にも、第3インデックス以降の畳み込み演算を担う高速なライブラリが用意されることが期待される。このようなライブラリを利用すると、同じ被験者について期間をおいて撮影した複数の画像により、患部の時間経過を見て、各種の診断を行うことができる。
  この場合、時間経過に応じた写真群がない場合には、時間経過軸方向に、各属性パラメータを並べて、時間経過軸方向に畳み込みを行えば良いことになる。
  図13は、本実施例に係るニューラルネットワークの画像フィルターの構成を示す説明図である。本例は、被験者の角膜内皮写真と被験者の年齢から、内眼手術のリスクを学習および判定する構成である。以下、本図を参照して説明する。
  対象画像Mは、受付部102にて受け付けられているが、本図に示すように、挟み込み層201は、対象画像Mに対して属性パラメータを周期的に挟み込むことにより、中間画像Kを生成する。
  そして、畳み込み層202において挟み込みを行ったインデックスにおけるサイズおよびストライドを、属性パラメータの個数Aに1を加算した値、それ以外のインデックスにおけるサイズおよびストライドを、1としたカーネルにより、中間画像Kを畳み込む。これにより、対象画像Mと属性パラメータとが埋め込まれた、対象画像Mと同じサイズの特徴マップNが得られる。すなわち、畳み込み部105は、挟み込み層201と、畳み込み層202と、によって実現される。
  以降の構成は、通常の畳み込みニューラルネットワークで分類を行う場合と同様である。本図では、かなり単純で高速な構成を採用している。すなわち、畳み込み層251a、プーリング層252a、畳み込み層251b、プーリング層252bを経て、平滑層253、全結合層254a、全結合層254bに至る。
  全結合層254bの出力は、二値、スカラー値、ベクトル値のいずれでも良い。二値の場合には、内眼手術のリスクの高低が、そのまま対応付けられる。スカラー値の場合は、当該スカラー値がリスクの度合を示すので、閾値との比較によって可否を決める。ベクトル値の場合には、ベクトル値を分類するための超平面をサポートベクターマシン等を用いて求めれば良い。
  学習段階では、内眼手術のリスクの高低と、全結合層254bの出力と、を照合してバックプロパゲーションを行ない、畳み込み部105の畳み込み層202を含む各層における重み係数が自動調整されて、対象写真と年齢とを総合的に判断するための学習がなされることになる。
  分類段階では、被験者の対象写真と属性パラメータを与えることで、内眼手術のリスクの高低に関する出力が、全結合層254bから得られることになる。
  なお、畳み込み層251aから全結合層254bまでの構成は、用途や計算機の性能、試行実験における傾向、設計者の経験等に基づいて、任意に変更が可能である。本実施形態は、対象画像の各画素に属性パラメータを畳み込んだ後は、以降の各層の構成については、通常の画像認識用のニューラルネットワーク等をそのままライブラリ的に利用することが可能である点に特徴がある。
  また、上記の例では、最初に対象画像に属性パラメータを畳み込んでから、以降の層に渡すこととしていたが、対象画像に対して畳み込みおよびプーリングを行って得られた中間の対象マップに対して、属性パラメータを畳み込むこととしても良い。
  すなわち、挟み込み層201および畳み込み層202からなる畳み込み部105は、ニューラルネットワーク内の任意の層の間に配置が可能な部品である。したがって、ニューラルネットワーク内の任意の層の間に、特徴パラメータの特徴値と属性パラメータを畳み込む層を挿入することで、対象画像と属性パラメータを統合した学習および判断が可能となる。いずれの層間に挿入するか、ならびに、そのほかの層の構成については、事前実験等によって定めることができる。
  このほか、挟み込み層201により中間画像Kを明示的に生成するのを省略して、畳み込み層202において、特徴マップの各要素と属性パラメータとを畳み込む演算を、GPU等を用いて行うライブラリを作成することにより、実現しても良い。
  (実験結果)
  被験者の角膜内皮写真から得た対象画像と、当該被験者の年齢と、に基いて学習ならびに分類を行う実験を行った。被験者総数は34歳から88歳までの51人であり、陰性(低リスク)25人、陽性(高リスク)26人である。
  各被験者の角膜内皮写真は、8ビットグレイスケール画像で約300×480ドットであり、その中から、医師や検査技師が書き込んだ白線や白点がない(比較的不明瞭な)領域から、56×56ドットの対象画像を1枚乃至20枚抜き出した。対象画像および年齢のセットの総数は、661個である。
  そして、528個(セット全体の8割)の学習用セットをランダムに選んで、上記の分類装置101に学習させた後、残りの133個(セット全体の2割)を分類用セットとして、分類の正解率を求める試行を、100回行った。
  なお、従来技術Aとして、対象画像のみを用いて年齢を参照しない場合、従来技術Bとして、ニューラルネット内で特徴マップと年齢をConcatenateにより連結した場合との対比を行った。
  本実施例では、まず、対象画像に年齢を畳み込み(挟み込み層201および畳み込み層202)、以降の層(畳み込み層251aから全結合層254bまで)は、従来技術Aと同じ構成のニューラルネットワークを利用して実験を行った。
  すると、従来技術Aでは、正解率76.64%、従来技術Bでは、正解率80.52%であるのに対し、本実施例によれば、正解率87.48%で分類が可能となり、精度が向上していることがわかる。
  (他の実施形態)
  上記実施例では、挟み込み層201において、特徴マップMの画素列(あるいは画素行)と交互に、属性パラメータDの列(あるいは行)を配置することによって中間画像Kを得ていたが、本実施例では、交互に追加された後についても、さらに属性パラメータDの列(あるいは行)を、はみ出して追加する。はみ出して追加された部分をパディング領域といい、元の領域、すなわち、特徴マップMに起因する画素と属性パラメータDに起因する画素とが交互に配置されている非パディング領域という。
  属性パラメータをはみ出して追加する場合には、非パディング領域内では、カーネル内の特徴マップの画素が配置されるべき場所(本図の例では左側)と、カーネル内の属性パラメータが配置されるべき場所(本図の例では右側)と、に、何を配置するか、によって、種々のバリエーションが考えられる。また、どの程度の数の列を追加するか、によっても、種々のバリエーションが考えられる。
  図14は、パディングの様子を示す説明図である。以下本図に示す例を参照して説明する。
  本例では、カーネルの右と左の両方に属性パラメータを並べて追加している。すなわち、パディング領域(W≦x<W+P)においては、
    K[2x,y] = p1
    K[2x+1,y] = p1
としたことになる。
  本例のパディングについて、角膜内皮写真と年齢による上記の実験諸元に対して、はみ出し量Pを元の対象マップサイズの幅Wの半分乃至同(P=W/2ならびにP=W)として、実験を行ったところ、正解率が、88.67%乃至88.89%と向上した。
  図15は、パディングの様子を示す説明図である。以下、本図に示す例を参照して説明する。
  本例では、上記の例とは異なり、左側には属性パラメータを、右側には値0を、それぞれ配置している。すなわち、パディング領域(W≦x<W+P)においては、
    K[2x,y] = p1
    K[2x+1,y] = 0
としたことになる。
  本図例でも同様の実験を行なったところ、さらに分離性能が向上し、P=W/2では88.8%、P=Wでは89.2%となった。
  これは、カーネル内において、特徴マップに由来する画素に対する重み係数が乗じられる場所に、属性パラメータに由来する値を配置することで、過学習が防止されるからと考えられる。
  属性パラメータが複数ある場合には、それらの単純平均もしくは重み付き平均eを用いて、パディング領域については、
    K[(A+1)i1, i2, …, iL] = e
    K[(A+1)i1+1, i2, …, iL] = p1
    K[(A+1)i1+2, i2, …, iL] = p2
     …; 
    K[(A+1)i1+A, i2, …, iL] = pA
とする、あるいは、
    K[(A+1)i1, i2, …, iL] = e
    K[(A+1)i1+1, i2, …, iL] = 0; 
    K[(A+1)i1+2, i2, …, iL] = 0; 
     …; 
    K[(A+1)i1+A, i2, …, iL] = 0
とすることで、さらに性能の向上をすることができる。
  なお、パディング領域K[(A+1)i1+1, i2, …, iL]乃至K[(A+1)i1+A, i2, …, iL]においては、属性パラメータp1乃至pAや0で埋めるかわりに、0以外の定数や乱数などを用いても良い。このほか、特徴マップMの画素値を転記あるいは間引いて入れることも可能である。
  なお、学習用データにおける被験者の各属性の平均をeとして採用することもできる。たとえば、上記の実験の諸元において、学習用データの被験者の平均年齢を求め、各被験者についてe(平均年齢)とp1(当該被験者の年齢)を並べて、P=Wによりパディングした場合、精度が91.3%となった。
  各被験者に複数の属性パラメータが割り当てられており、被験者毎に重み付き平均eを求めるためには、以下の手法が考えられる。まず、パディングを行わずに学習を行って、カーネルCにおける重みw0, w1, w2, …, wAを一旦求める。
  つぎに、この重みによって平均eを求める。すなわち、
    e = Σj=1 A wjpjj=1 A wj
とする。
  そして、上記のパディングを行ってから、もう一度学習をやり直す。
  学習用の各被験者について複数の属性パラメータの重み付き平均eを求めた後は、e, p1, p2, …, pAの繰り返しをパディングすることができる。これは、上記実験例では、被験者の年齢の繰り返しをパディングすること(正解率88.67%-88.89%)に相当する。
  また、学習用の全被験者について重み付き平均eのさらに平均Eを求めて、e, p1, p2, …, pA の繰り返しをパディングすることとしても良い。これは、上記実験例では、学習用被験者の平均年齢と、当該被験者の年齢と、の繰り返しをパディングすること(正解率91.3%)に相当する。
  このように、非パディング領域において特徴マップに起因する特徴量に適用されるカーネル内の位置については、パディング領域では、属性パラメータに起因する値をパディングすることで、分離性能をより高めることができる。
  また、上記の各種のパディング手法のいずれを採用するか、は、用途等に応じて、適宜事前実験を行うことにより、対象に応じて最も正解率の高い手法を採用することができる。
  (他の応用例)
  上記実施例では、具体例として、角膜内皮写真と年齢の組み合わせに本願発明を適用した例について説明したが、医療用写真と患者の各種の属性パラメータを組み合わせた任意の診断や判定において、上記の分類装置101を適用することが可能である。
  このほか、結婚相談所において紹介相手のマッチングを行う場合や、俳優やモデルなどの芸能人の候補者の将来の人気を予測する場合においても、上記の分類装置101を適用することが可能である。これらの分野においては、対象となる人物の顔写真と当該人物の年齢、性別、身長等の属性パラメータが重要なファクターとなるからである。
  (まとめ)
  以上説明したように、本実施形態に係る分類装置は、
  対象が撮影された対象画像と、前記対象に対応付けられた1以上の属性パラメータと、を受け付ける受付部と、
  前記対象をニューラルネットワークにより分類する分類部と、
  を備え、前記ニューラルネットワークは、
    与えられた特徴マップの各要素と、前記受け付けられた1以上の属性パラメータと、を畳み込む畳み込み部
  を備える。
  また本実施形態に係る分類装置において、
  前記受け付けられた対象画像が、前記特徴マップとして、前記ニューラルネットワークに与えられる
  ように構成することができる。
  また本実施形態に係る分類装置において、
  前記畳み込み部は、前記与えられた特徴マップに含まれる特徴要素間に、前記受け付けられた1以上の属性パラメータをそれぞれ要素値とする1以上の属性要素を、所定周期で周期的に挿入した中間マップに対して、前記所定周期と同じ大きさの畳み込みカーネルを、前記畳み込みカーネルと同じ大きさのストライドで適用する
  ように構成することができる。
  また本実施形態に係る分類装置において、
  前記畳み込みカーネルは、前記特徴マップに由来する1つの特徴要素と、前記1以上の属性要素と、を畳み込む
  ように構成することができる。
  また本実施形態に係る分類装置において、
  前記畳み込みカーネルの大きさにおける幅および高さの
    一方は、1であり、
    他方は、前記1以上の属性要素の数に1を加算した長さである
  ように構成することができる。
  また本実施形態に係る分類装置において、
  前記畳み込み部は、さらに、前記与えられた特徴マップの周囲のいずれか少なくとも一辺に対して、パディングを行い、
  前記パディングがされる領域において前記カーネルが適用される位置のうち、前記特徴要素に適用されるべき位置には、前記属性パラメータに起因する値を有する要素をパディングする
  ように構成することができる。
  また本実施形態に係る分類装置において、
  前記受け付けられた1以上の属性パラメータの数は、1であり、
  前記属性パラメータに起因する値は、前記受け付けられた属性パラメータの値である
  ように構成することができる。
  また本実施形態に係る分類装置において、
  前記受け付けられた1以上の属性パラメータの数は、複数であり、
  前記属性パラメータに起因する値は、前記受け付けられた属性パラメータの単純平均値もしくは重み付き平均である
  ように構成することができる。
  また本実施形態に係る分類装置において、
  前記パディングを行わずに学習を行ってカーネルを求め、
  前記求められたカーネルによる重みを前記重み付き平均において使用して、前記パディングを行ってから、再度学習を行う
  ように構成することができる。
  本実施形態に係る分類方法は、
  分類装置が、対象が撮影された対象画像と、前記対象に対応付けられた1以上の属性パラメータと、を受け付ける受付ステップと、
  前記分類装置が、前記対象をニューラルネットワークにより分類する分類ステップと、
  を備え、前記ニューラルネットワークにおいて、
    与えられた特徴マップの各要素と、前記受け付けられた1以上の属性パラメータと、を畳み込む。
  本実施形態に係るプログラムは、コンピュータに、
  対象が撮影された対象画像と、前記対象に対応付けられた1以上の属性パラメータと、を受け付け、
  前記対象をニューラルネットワークにより分類する
  処理を実行させるプログラムであって、前記ニューラルネットワークは、
    与えられた特徴マップの各要素と、前記受け付けられた1以上の属性パラメータと、を畳み込む畳み込み部
  を備える。
  本実施形態に係るプログラムは、コンピュータに、
  対象に対応付けられた特徴マップと、前記対象に対応付けられた1以上の属性パラメータと、を取得し、
  前記取得された特徴マップの各要素と、前記取得された1以上の属性パラメータと、を畳み込むことにより、新たな特徴マップを生成する
  処理を実行させる。
  当該プログラムは、非一時的なコンピュータ読取可能な情報記録媒体に記録して配布、販売することができる。また、コンピュータ通信網等の一時的な伝送媒体を介して配布、販売することができる。
  本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
  本願においては、日本国に対して平成29年(2017年)11月21日(火)に出願した特許出願特願2017-223696を基礎とする優先権を主張するものとし、指定国の法令が許す限り、当該基礎出願の内容を本願に取り込むものとする。
  本発明によれば、対象が撮影された対象画像と、対象に対応付けられた1以上の属性パラメータと、に基づいて、ニューラルネットワークにより対象を分類する分類装置、分類方法、プログラム、ならびに、情報記録媒体を提供することができる。
  101 分類装置
  102 受付部
  103 ニューラルネットワーク部
  104 分類部
  105 畳み込み部
  201 挟み込み層
  202 畳み込み層
  251a, 251b 畳み込み層
  252a, 252b プーリング層
  253 平滑層
  254a, 254b 全結合層

Claims (13)

  1.   対象が撮影された対象画像と、前記対象に対応付けられた1以上の属性パラメータと、を受け付ける受付部と、
      前記対象をニューラルネットワークにより分類する分類部と、
      を備え、前記ニューラルネットワークは、
        与えられた特徴マップの各要素と、前記受け付けられた1以上の属性パラメータと、を畳み込む畳み込み部
      を備えることを特徴とする分類装置。
  2.   前記受け付けられた対象画像が、前記特徴マップとして、前記ニューラルネットワークに与えられる
      ことを特徴とする請求項1に記載の分類装置。
  3.   前記畳み込み部は、前記与えられた特徴マップに含まれる特徴要素間に、前記受け付けられた1以上の属性パラメータをそれぞれ要素値とする1以上の属性要素を、所定周期で周期的に挿入した中間マップに対して、前記所定周期と同じ大きさの畳み込みカーネルを、前記畳み込みカーネルと同じ大きさのストライドで適用する
      ことを特徴とする請求項1に記載の分類装置。
  4.   前記畳み込みカーネルは、前記特徴マップに由来する1つの特徴要素と、前記1以上の属性要素と、を畳み込む
      ことを特徴とする請求項3に記載の分類装置。
  5.   前記畳み込みカーネルの大きさにおける幅および高さの
        一方は、1であり、
        他方は、前記1以上の属性要素の数に1を加算した長さである
      ことを特徴とする請求項4に記載の分類装置。
  6.   前記畳み込み部は、さらに、前記与えられた特徴マップの周囲のいずれか少なくとも一辺に対して、パディングを行い、
      前記パディングがされる領域において前記カーネルが適用される位置のうち、前記特徴要素に適用されるべき位置には、前記属性パラメータに起因する値を有する要素をパディングする
      ことを特徴とする請求項4に記載の分類装置。
  7.   前記受け付けられた1以上の属性パラメータの数は、1であり、
      前記属性パラメータに起因する値は、前記受け付けられた属性パラメータの値である
      ことを特徴とする請求項6に記載の分類装置。
  8.   前記受け付けられた1以上の属性パラメータの数は、複数であり、
      前記属性パラメータに起因する値は、前記受け付けられた属性パラメータの単純平均値もしくは重み付き平均である
      ことを特徴とする請求項6に記載の分類装置。
  9.   前記パディングを行わずに学習を行ってカーネルを求め、
      前記求められたカーネルによる重みを前記重み付き平均において使用して、前記パディングを行ってから、再度学習を行う
      ことを特徴とする請求項8に記載の分類装置。
  10.   分類装置が、対象が撮影された対象画像と、前記対象に対応付けられた1以上の属性パラメータと、を受け付ける受付ステップと、
      前記分類装置が、前記対象をニューラルネットワークにより分類する分類ステップと、
      を備え、前記ニューラルネットワークにおいて、
        与えられた特徴マップの各要素と、前記受け付けられた1以上の属性パラメータと、を畳み込む
      ことを特徴とする分類方法。
  11.   コンピュータに、
      対象が撮影された対象画像と、前記対象に対応付けられた1以上の属性パラメータと、を受け付け、
      前記対象をニューラルネットワークにより分類する
      処理を実行させるプログラムであって、前記ニューラルネットワークは、
        与えられた特徴マップの各要素と、前記受け付けられた1以上の属性パラメータと、を畳み込む畳み込み部
      を備えることを特徴とするプログラム。
  12.   コンピュータに、
      対象に対応付けられた特徴マップと、前記対象に対応付けられた1以上の属性パラメータと、を取得し、
      前記取得された特徴マップの各要素と、前記取得された1以上の属性パラメータと、を畳み込むことにより、新たな特徴マップを生成する
      処理を実行させることを特徴とするプログラム。
  13.   請求項11または12に記載のプログラムが記録されたことを特徴とするコンピュータ読取可能な非一時的な情報記録媒体。
PCT/JP2018/041174 2017-11-21 2018-11-06 分類装置、分類方法、プログラム、ならびに、情報記録媒体 WO2019102844A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP18880401.7A EP3716100A4 (en) 2017-11-21 2018-11-06 CLASSIFICATION DEVICE, CLASSIFICATION PROCESS, PROGRAM, AND INFORMATION RECORDING MEDIA
CN201880075400.5A CN111465941A (zh) 2017-11-21 2018-11-06 分类装置、分类方法、程序以及信息记录介质
US16/763,417 US11263494B2 (en) 2017-11-21 2018-11-06 Classification device, classification method, program, and information recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-223696 2017-11-21
JP2017223696A JP6345332B1 (ja) 2017-11-21 2017-11-21 分類装置、分類方法、プログラム、ならびに、情報記録媒体

Publications (1)

Publication Number Publication Date
WO2019102844A1 true WO2019102844A1 (ja) 2019-05-31

Family

ID=62635800

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/041174 WO2019102844A1 (ja) 2017-11-21 2018-11-06 分類装置、分類方法、プログラム、ならびに、情報記録媒体

Country Status (5)

Country Link
US (1) US11263494B2 (ja)
EP (1) EP3716100A4 (ja)
JP (1) JP6345332B1 (ja)
CN (1) CN111465941A (ja)
WO (1) WO2019102844A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018213056A1 (de) * 2018-08-03 2020-02-06 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ermitteln einer Erklärungskarte
WO2022249892A1 (ja) 2021-05-28 2022-12-01 国立研究開発法人理化学研究所 特徴抽出装置、特徴抽出方法、プログラム、ならびに、情報記録媒体
US12001520B2 (en) * 2021-09-27 2024-06-04 Adobe Inc. Generating simulated images that enhance socio-demographic diversity
CN114693646B (zh) * 2022-03-31 2023-04-11 中山大学中山眼科中心 一种基于深度学习的角膜内皮细胞活性因子的分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07284090A (ja) * 1994-04-08 1995-10-27 Olympus Optical Co Ltd 画像分類装置
US20040101181A1 (en) * 2002-07-12 2004-05-27 University Of Chicago Automated method and system for computerized image analysis prognosis
JP2016144598A (ja) * 2015-02-09 2016-08-12 国立大学法人鳥取大学 運動機能診断装置及び方法、並びにプログラム
JP2017045341A (ja) 2015-08-28 2017-03-02 カシオ計算機株式会社 診断装置、及び診断装置における学習処理方法、並びにプログラム
JP2017223696A (ja) 2009-12-01 2017-12-21 ブルカー ナノ インコーポレイテッドBruker Nano,Inc. 走査型プローブ顕微鏡およびその動作方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
CN106529578A (zh) * 2016-10-20 2017-03-22 中山大学 一种基于深度学习的车辆品牌型号精细识别方法与系统
CN107292256B (zh) * 2017-06-14 2019-12-24 西安电子科技大学 基于辅任务的深度卷积小波神经网络表情识别方法
CN107239803A (zh) * 2017-07-21 2017-10-10 国家海洋局第海洋研究所 利用深度学习神经网络的海底底质自动分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07284090A (ja) * 1994-04-08 1995-10-27 Olympus Optical Co Ltd 画像分類装置
US20040101181A1 (en) * 2002-07-12 2004-05-27 University Of Chicago Automated method and system for computerized image analysis prognosis
JP2017223696A (ja) 2009-12-01 2017-12-21 ブルカー ナノ インコーポレイテッドBruker Nano,Inc. 走査型プローブ顕微鏡およびその動作方法
JP2016144598A (ja) * 2015-02-09 2016-08-12 国立大学法人鳥取大学 運動機能診断装置及び方法、並びにプログラム
JP2017045341A (ja) 2015-08-28 2017-03-02 カシオ計算機株式会社 診断装置、及び診断装置における学習処理方法、並びにプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MASAHIRO HAMADA; KAZUYA KUBO; HIRONOBU SATOH; FUMIAKI TAKEDA; KEIJI INOUE: "Proposal of medical imaging diagnosis system by neural networks used clinical information", THE 51ST ANNUAL CONFERENCE OF THE INSTITUTE OF SYSTEMS, CONTROL AND INFORMATION ENGINEERS, 16 May 2007 (2007-05-16), pages 633 - 634, XP009520599, DOI: 10.11509/sci.SCI07.0.31.0 *
See also references of EP3716100A4

Also Published As

Publication number Publication date
JP6345332B1 (ja) 2018-06-20
US11263494B2 (en) 2022-03-01
CN111465941A (zh) 2020-07-28
US20210073595A1 (en) 2021-03-11
EP3716100A4 (en) 2021-08-04
JP2019095980A (ja) 2019-06-20
EP3716100A1 (en) 2020-09-30

Similar Documents

Publication Publication Date Title
CN110197493B (zh) 眼底图像血管分割方法
WO2019102844A1 (ja) 分類装置、分類方法、プログラム、ならびに、情報記録媒体
WO2021036616A1 (zh) 一种医疗图像处理方法、医疗图像识别方法及装置
KR102058884B1 (ko) 치매를 진단을 하기 위해 홍채 영상을 인공지능으로 분석하는 방법
CN112017185B (zh) 病灶分割方法、装置及存储介质
JP7019815B2 (ja) 学習装置
CN108021916A (zh) 基于注意力机制的深度学习糖尿病视网膜病变分类方法
CN114998210B (zh) 一种基于深度学习目标检测的早产儿视网膜病变检测系统
KR101953752B1 (ko) 심층 신경망을 이용하여 영상의 분류 및 국소화를 수행하는 방법 및 이를 이용한 장치
CN109919915A (zh) 基于深度学习的视网膜眼底图像异常区域检测方法及设备
CN110598582A (zh) 一种眼图像处理模型构建方法和装置
CN110991254B (zh) 超声图像视频分类预测方法及系统
CN113610842B (zh) 基于CAS-Net的OCT图像视网膜脱离和劈裂自动分割方法
CN114937502A (zh) 基于深度学习的骨质疏松性椎体压缩性骨折评估方法及系统
CN113240655A (zh) 一种自动检测眼底图像类型的方法、存储介质及装置
CN117036905A (zh) 一种基于hsv色彩空间颜色注意力的胶囊内窥镜图像病灶识别方法
CN117058467B (zh) 一种胃肠道病变类型识别方法及系统
CN110110750B (zh) 一种原始图片的分类方法及装置
CN115187519B (zh) 图像质量评价方法、系统及计算机可读介质
CN112862745B (zh) 基于人工神经网络的组织病变识别的训练方法及训练系统
CN114170089A (zh) 一种用于糖尿病视网膜病变分类的方法及电子设备
CN110570417A (zh) 肺结节分类方法、装置及图像处理设备
CN117392468B (zh) 基于多示例学习的癌症病理图像分类系统、介质及设备
WO2024062839A1 (ja) 識別装置、識別方法、プログラム
CN117314936A (zh) 图像分割方法和装置

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018880401

Country of ref document: EP

Effective date: 20200622