WO2022107998A1 - 3차원 영상 영역화 방법 및 장치 - Google Patents

3차원 영상 영역화 방법 및 장치 Download PDF

Info

Publication number
WO2022107998A1
WO2022107998A1 PCT/KR2021/001157 KR2021001157W WO2022107998A1 WO 2022107998 A1 WO2022107998 A1 WO 2022107998A1 KR 2021001157 W KR2021001157 W KR 2021001157W WO 2022107998 A1 WO2022107998 A1 WO 2022107998A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
support
query
segmentation
images
Prior art date
Application number
PCT/KR2021/001157
Other languages
English (en)
French (fr)
Inventor
박상현
김수필
Original Assignee
재단법인대구경북과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인대구경북과학기술원 filed Critical 재단법인대구경북과학기술원
Publication of WO2022107998A1 publication Critical patent/WO2022107998A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20108Interactive selection of 2D slice in a 3D data set
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/41Medical

Definitions

  • the present disclosure relates to a method and apparatus for segmenting a 3D image using a model capable of detecting a region of interest in a 3D image with a small amount of data based on a Few-Shot Learning algorithm.
  • Segmentation of an organ of interest in a medical image is essential for accurate disease diagnosis and longitudinal study. Recently, deep learning-based techniques have shown good performance in the scoping problem, but a large data set is essential for high performance. However, especially in medical imaging, it is difficult to build a large-scale data set required for learning because of the high cost of imaging and the protocol and resolution of each organ.
  • pewshot learning techniques have been proposed to effectively localize an object using only a small number of related data.
  • the core idea of pewshot learning is to learn general knowledge to predict the correct answer of validation data with only a small number of data in various problems.
  • it is possible to solve a problem with only a small number of data by extracting general knowledge based on various data obtained and applying it to a new problem.
  • the prior art 1 uses a query image and a predicted query label as support data to inversely guess the support label in order to select a more accurate prototype. loss) is further proposed.
  • prototype-based methods such as prior art 1
  • the resolution of the predicted segmentation is often poor because the relationship between the prototypes or parameters for prediction is learned in a down-sampled embedding space and then quickly up-sampled using interpolation. It may be limited in that it is low.
  • prior art 2 relates to progressively performing upsampling of encoded features using decoders with skip connections at different levels
  • prior art 3 As shown in Fig. 1(c), pewshot for organ segmentation in 3D medical images using dense connections with added squeeze and excitation blocks between modules for support and query data. it's about how
  • An object of an embodiment of the present disclosure is to generate a model capable of detecting a region of interest in a three-dimensional image with a small amount of data by applying two-shot learning based on a bidirectional recurrent network.
  • An object of an embodiment of the present disclosure is to propose a three-dimensional fu-shot regionalization model capable of capturing a key relationship between adjacent slices of a three-dimensional volume based on a bidirectional circular network.
  • An object of an embodiment of the present disclosure is to propose a transfer learning strategy to improve performance in a multi-shot partitioning model.
  • An object of an embodiment of the present disclosure is to accurately detect an organ of interest in a 3D medical image by using a small number of various data on the 3D medical image.
  • the three-dimensional image region-by-region method may include accurately detecting a region of interest in a three-dimensional image with a small amount of data by applying two-shot learning based on a bidirectional circular network.
  • the 3D image segmentation method includes a query image that is 3D image data to be segmented, a 3D support image and a support image used as a reference for segmentation of the query image.
  • the method may include outputting a result image in which an object of the same type as the segmentation object is segmented.
  • a region of interest in a 3D image with a small number of data by learning the relation between support data and query data and 3D structure information between adjacent slices of a 3D volume can be accurately detected.
  • interest in a 3D image with only a small number of data by applying bi-directional cyclic network-based pew-shot learning to learn the relationship between support data and query data and 3D structure information between adjacent slices of a 3D volume Areas can be detected more accurately and smoothly.
  • 1 is a diagram illustrating conventional one-shot learning models.
  • FIG. 2 is a block diagram illustrating an apparatus for segmenting a 3D image according to an embodiment of the present disclosure.
  • 3 is a diagram for explaining a 3D Pu-shot regionization model according to an embodiment of the present disclosure.
  • FIG. 4 is a diagram illustrating a model architecture when a K-shot of a 3D pew-shot regionalization model according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram illustrating a qualitative result from an axial viewpoint according to an embodiment of the present disclosure.
  • FIG. 6 is a view showing the qualitative results in the sagittal plane and coronal plane according to an embodiment of the present disclosure.
  • FIG. 7 is a flowchart illustrating a 3D image regionization method according to an embodiment of the present disclosure.
  • FIG. 8 is a flowchart illustrating training of a learning model according to an embodiment of the present disclosure.
  • FIG. 9 is a flowchart illustrating a fine tuning method according to an embodiment of the present disclosure.
  • FIG. 10 is a flowchart illustrating application of a learning model according to an embodiment of the present disclosure.
  • the present invention is not limited to the embodiments presented below, it can be implemented in a variety of different forms, and should be understood to include all transformations, equivalents, and substitutes included in the spirit and scope of the present invention. .
  • the embodiments presented below are provided so that the disclosure of the present invention is complete, and to completely inform those of ordinary skill in the art to which the present invention pertains to the scope of the invention. In describing the present invention, if it is determined that a detailed description of a related known technology may obscure the gist of the present invention, the detailed description thereof will be omitted.
  • This embodiment relates to a model capable of detecting a region of interest in a 3D image with a small amount of data based on a Few-Shot Learning algorithm. For example, a 3D medical image of each body Segmentation into organs and detection of a target organ region to be found.
  • performing regionalization on a 3D computerized tomography (CT) image and detecting a target organ region may be exemplified.
  • CT computerized tomography
  • This embodiment relates to a three-dimensional fushot segmentation framework for accurate organ segmentation using a limited training sample of target organ annotation.
  • the present embodiment relates to a three-dimensional fushot regionalization model capable of slicing a three-dimensional image in two dimensions and obtaining a key relationship between adjacent slices in each slice that can be called sequence data.
  • a neural network capable of processing sequence data by considering that the two-dimensional slices are continuous data according to the passage of time may be applied.
  • a Recurrent Neural Network (RNN), Long Short Term Memory (LSTM), Gated Reccurent Unit (GRU), etc. may be applied, but in this embodiment, the GRU will be described as an example.
  • a three-dimensional fushot segmentation model capable of acquiring a key relationship between adjacent slices through the bidirectional GRU module may be proposed.
  • the support image may mean an image trained with a labeled image, and may also be referred to as a support set including the support image and the support label.
  • the query image may mean an image input to obtain a regionalization result as an image without a label.
  • a query set including a query image and a query label may be used in the learning step, and learning may be performed with a query image as an input and a query label as an output. That is, in this embodiment, there is a support set and a query set for each task, and after learning with the support set, input a query image to check whether the query label is well output, and a new support set and You can check whether the zoning result is properly output for the query image. In other words, it is to obtain a regionization result of the query image based on the information of the support data.
  • the pew-shot learning algorithm or pew-shot model is trained using a very small data set for training, and meta-learning is required to make the pew-shot model work well on completely newly given data.
  • meta-learning also known as learning to learning, can represent designing a model to learn a new skill or quickly adapt to a new environment through some training examples.
  • Such meta-learning approaches include training an efficient distance metric, using a neural network through external/internal memory, and optimizing model parameters for fast training.
  • Episodic training improves generalization performance by allowing the model to derive learning rules by itself through a training task similar to the pewshot task.
  • Episodic training for pew-shot learning includes training, validation, and test tasks, and can be trained to achieve optimal performance through training tasks composed of various categories. Its performance can be evaluated.
  • FIG. 2 is a block diagram illustrating an apparatus for segmenting a 3D image according to an embodiment of the present disclosure.
  • the 3D image zoning apparatus 100 may include a memory 110 , a communication unit 120 , a processor 130 , an input unit 140 , and an output unit 150 .
  • the memory 110 may store various types of information necessary for the operation of the 3D image sequencing apparatus 100 , and may store control software capable of operating the 3D image zoning apparatus 100 , and may be volatile or nonvolatile. It may include a recording medium.
  • the memory 110 is connected to one or more processors 130 , and when executed by the processor 130 , codes that cause the processor 130 to control the 3D image segmentation apparatus 100 . can be saved
  • the memory 110 may include magnetic storage media or flash storage media, but the scope of the present invention is not limited thereto.
  • Such memory 110 may include internal memory and/or external memory, and may include volatile memory such as DRAM, SRAM, or SDRAM, one time programmable ROM (OTPROM), PROM, EPROM, EEPROM, mask ROM, flash ROM, Non-volatile memory, such as NAND flash memory, or NOR flash memory, SSD. It may include a flash drive such as a compact flash (CF) card, an SD card, a Micro-SD card, a Mini-SD card, an Xd card, or a memory stick, or a storage device such as an HDD.
  • CF compact flash
  • a neural network model according to the present disclosure and a module implemented to implement various embodiments of the present disclosure using the neural network model may be stored in the memory 110 .
  • information related to an algorithm for performing learning according to the present disclosure may be stored in the memory 110 .
  • various information necessary within the scope for achieving the object of the present disclosure may be stored in the memory 110, and the information stored in the memory 110 may be updated as it is received from a server or an external device or input by a user. may be
  • the communication unit 120 may provide a communication interface necessary to provide a transmission/reception signal between external devices (including a server) in the form of packet data by interworking with a network. Also, the communication unit 120 may be a device including hardware and software necessary for transmitting and receiving signals such as control signals or data signals through wired/wireless connection with other network devices.
  • the communication unit 120 may support various kinds of intelligent communication (internet of things (IoT), internet of everything (IoE), internet of small things (IoST), etc.), and M2M (machine to machine) communication, V2X (vehicle) to everything communication) communication, D2D (device to device) communication, and the like may be supported.
  • the processor 130 may receive various data or information from an external device connected through the communication unit 120 , and may transmit various data or information to the external device.
  • the communication unit 120 may include at least one of a WiFi module, a Bluetooth module, a wireless communication module, and an NFC module.
  • the input unit 140 is an input interface through which various image data applied to the 3D image zoning apparatus 100 are collected.
  • the image data may be input by a user or obtained from a server, and may include, for example, a 3D CT scan image, a 2D image from which a 3D image is sliced, and the like.
  • the input unit 140 may receive a user command for controlling the operation of the 3D image zoning apparatus 100 , and may include, for example, a microphone, a touch display, and the like.
  • the output unit 150 is an output interface through which a result of the segmentation performed by the apparatus 100 for sizing a 3D image is output. For example, for the liver identification task, an image in which the location of the liver is displayed may be output. Also, the output unit 150 may include, for example, a speaker, a display, and the like.
  • the processor 130 may control the overall operation of the 3D image zoning apparatus 100 .
  • the processor 130 is connected to the configuration of the 3D image sizing apparatus 100 including the memory 110 as described above, and executes at least one command stored in the memory 110 as described above. Accordingly, the operation of the 3D image regionization apparatus 100 may be controlled in general.
  • the processor 130 may be implemented in various ways.
  • the processor 130 may include an application specific integrated circuit (ASIC), an embedded processor, a microprocessor, hardware control logic, a hardware finite state machine (FSM), and a digital signal processor (Digital Signal). Processor, DSP).
  • ASIC application specific integrated circuit
  • FSM hardware finite state machine
  • DSP digital signal processor
  • the processor 130 is a kind of central processing unit and may control the operation of the entire 3D image zoning apparatus 100 by driving control software mounted in the memory 110 .
  • the processor 130 may include any type of device capable of processing data.
  • the 'processor' may refer to a data processing device embedded in hardware having a physically structured circuit to perform a function expressed by, for example, a code or an instruction included in a program.
  • a microprocessor a central processing unit (CPU), a processor core, a multiprocessor, an application-specific integrated (ASIC) circuit
  • ASIC application-specific integrated
  • FPGA field programmable gate array
  • the processor 130 performs machine learning, such as deep learning, on the obtained 3D image so that the 3D image segmentation apparatus 100 outputs an optimal segmentation result.
  • the memory 110 may store data used for machine learning, result data, and the like.
  • the pewshot learning algorithm or pewshot model can solve the above problems. Therefore, when applying the Pu-Shot Learning Algorithm or Fu-Shot model to medical datasets, a model trained with multiple organ annotations can accurately segment invisible target organs with only a few samples.
  • most imaging methods focusing on 2D images cannot be directly applied to 3D image-based analysis because they tend to overfit during training.
  • 3D tasks for high-dimensional prediction at the high-density pixel level increase memory usage and often limit the batch size to small.
  • the processor 130 may generate each slice in two dimensions for a three-dimensional CT scan, and further consider the relationship between the three-dimensional structure information between adjacent slices and the support and query data of other Pu-Shot tasks. Thus, it is possible to obtain a more accurate and smooth zoning result.
  • the processor 130 may model the relationship between the support data and query data of other Pu-Shot tasks together with 3D structure information between adjacent slices.
  • the bidirectional GRU module may be integrated between the encoder module and the decoder module for efficient representation (prediction) learning.
  • the processor 130 may consider consistency between adjacent slices by using a bidirectional GRU module in order to alleviate the problem of insufficient global context information between slices.
  • the processor 130 can capture the key features of the encoded features of both the support set and adjacent slices to predict the localization of the query image in the decoding module.
  • the processor 130 may perform transfer learning to adapt to the characteristics of the target domain in the multi-shot region setting.
  • the processor 130 may arbitrarily split into support and query data using data augmentation for a given task and retrain the parameters of the model using the given support data.
  • three data sets (one for internal testing and the other for external validation) may be used to verify the generalization ability of the 3D Pu-shot regionalization model.
  • transfer learning utilizes a deep neural network model already trained on a larger dataset with relevant tasks or features to improve model performance for various tasks, for example, a one-shot video object using the first frame.
  • a fine-tuning approach for partitioning using support data to temporarily update the model with support data through fine tuning at the intermediate stage of training and minimizing the loss for each task, by separating the learning of general and transferable knowledge
  • the processor 130 may learn the optimal parameters for the target task by performing additional updates by randomly dividing the support data in the K-shot setting.
  • the processor 130 may construct a learning model that models the relationship between the support data and the query data for the 3D image data zoning task, and obtains and configures the 3D image data for input as the query data.
  • a process of detecting an ROI from 3D image data may be performed using the model.
  • the model generator 131 may generate a learning model for regionalization of a 3D image.
  • the learning model converts input 3D image data into n 2D slice images, and for at least one slice image, in the segation process of the current slice image, in the segation process of the previous slice image Segmentation of the current slice image may be performed by referring to an output value of , and an output value in the segmentation process of the next slice image.
  • the learning model includes the steps of constructing an initial model for zoning image data, and a first query image, a first support image, and a first support image for requesting zoning for a first type of object with respect to the initial model.
  • the learning model derived by performing A learning model derived by performing the second training using the second support label and the second label image in which the region of the second type of object is performed in the second query image, and performing the second training to check the output image derived by inputting the third query image requesting zoning for the third type of object, the third support image, and the third support label on which the zoning is performed on the third type of object It may be trained by a training phase including a test execution phase.
  • the learning model training is performed on a task that requests regionalization of the liver and that the learning model training is performed on the task that requests regionalization of the lung.
  • the test may be performed by inputting a support image for the kidney and checking whether the image for the kidney is output.
  • the step of performing the test may include evaluating the similarity by comparing the output image with a third support label on which the region of the third type of object is performed in the third query image.
  • FIG. 3 is a diagram for explaining a 3D Pu-shot regionalization model according to an embodiment of the present disclosure
  • FIG. 4 shows a model architecture when a K-shot of the 3D Pu-shot regionalization model according to an embodiment of the present disclosure. It is a drawing.
  • FIG. 3 is a 3D image sliced into a 2D image, and shows an architecture for each slice, and schematically represents one shot.
  • FIG. 4 is the query label slice of FIG. 3 when K (number of support sets) shots is shown schematically.
  • the three-dimensional pewshot region model FSS ⁇ of this embodiment is K pairs of support images and support labels , , ... , query image using It is possible to learn the parameter ⁇ for segmenting the ROI.
  • K may mean a degree of supervision, and may be the number of support sets including a support image and a support label.
  • FIG. 1 a general architecture of a two-dimensional image based on the conventional pew-shot region is shown in FIG. 1 .
  • Fig. 1(a) shows a prototype network in which a prototype for a target object and a background is defined, and then zoning is performed using the distance to the defined prototype.
  • Figure 1 (b) shows a relational network composed of an encoder and a decoder for regionalization in a fully convolutional network (FCN)
  • Figure 1 (c) shows a network with dense connections between modules for support and query data. It has been shown All of the methods shown in FIG. 1 are intended to learn the relationship between the support of various regionalization tasks and the query data. In this embodiment, using this, as shown in Equation 1, the query image is used using K support samples. can predict the target label of
  • the concept explainable in Equation 1 can be extended to 3D image pew-shot regionization. More specifically, in the present embodiment, with respect to a three-dimensional image, the query volume I q is a plurality of two-dimensional slices I q,1 , I q,2 , ... , I q, T . In this case, T may mean the number of slices in an axial view.
  • the support slice corresponding to the query volume and support label can be used to region each query slice I q,t respectively.
  • u t may mean an index of a support sample.
  • the support slice and corresponding support labels In order to determine , it may be assumed that the positions of the start and end slices of the organ of interest are known in the query volume I q and the support volume I s .
  • T′ may mean the number of slices of interest in the support volume I s .
  • the above assumption in this embodiment is reasonable because, for example, the organs of interest are located in similar positions for each person, such as always located in the upper right corners of a plurality of livers even though the size and shape of the livers vary.
  • the pewshot regionization model of the 3D image may be expressed by Equation 2 below.
  • Equation 2 Most of the two-dimensional based pu-shot regionalization models may follow Equation 2 above, but this does not take into account the relationship between adjacent slices. Accordingly, in the present embodiment, based on Equation 2, adjacent slice information can be integrated to accurately region each query slice I q,t , which can be expressed by Equation 3.
  • 2n a +1 may be the number of adjacent slices, and t 0 may mean an index of several slice centers. That is, in this embodiment, in order to reflect adjacent slice information, an RNN-based neural network may be used. In particular, in this embodiment, for example, a bidirectional GRU may be used, and a detailed description of a 3D Pu-shot regionization method using the bidirectional GRU will be described later.
  • features can be shared between adjacent slices through a Long Short-Term Memory (LSM) model or a bidirectional RNN.
  • LSM Long Short-Term Memory
  • the LSM and the RNN can use a GRU because the memory space is small.
  • the present invention is not limited thereto.
  • the region-ization of the 3D image may be performed in three steps.
  • the features of the support image and the query image can be extracted through two separate encoder modules E s and E q , respectively.
  • the bidirectional GRU module can monitor the relationship between features extracted from adjacent slices.
  • the decoder module may predict regionalization using the updated feature map and low-level features of the encoder module E q .
  • the pew-shot regionization model of this embodiment is shown in FIG. 3 .
  • the encoder module E q receives each query slice I q,t of 1 channel as input, while the encoder module E s receives a support slice and support label It is possible to receive a two-channel input like concatenation of .
  • An artificial intelligence model for image classification may be applied to each encoder module, and features may be extracted from a support image and a query image by this artificial intelligence model.
  • the AI model for image classification may be, for example, VGG16, but is not limited thereto.
  • connection of features extracted by the two encoder modules can be expressed as Equation (4).
  • x t may be input to the GRU model, and in this case, low-level features with different resolutions extracted from E q may be used again in a subsequent step.
  • the feature go After being extracted by the encoder module from , the bidirectional GRU module can model changes between adjacent slices.
  • the bidirectional GRU module has two modes, forward and backward, for efficient feature expression, and the features are sequentially supplied to the forward GRU module and later reversed for the backward model.
  • Each bidirectional GRU module may calculate two gate controllers z t and r t with x t and a previous hidden state h t-1 for memory update as shown in Equations 5 and 6, respectively.
  • z t controls the input and output gates, while r t can determine which part of the memory will be reflected in the hidden state h t .
  • z t may mean an update gate, and represents a ratio of how much past and present information will be reflected, respectively.
  • the z t value may reflect how much current information will be used, and 1 - z t may reflect how much past information will be used.
  • the output value hidden state at the current time may be obtained through Equation (8).
  • r t may mean a reset gate
  • the method of obtaining r t may be obtained by applying an activation function sigmoid to the hidden state of the previous time and r t of the present time.
  • the result value can have a value between 0 and 1 and can be interpreted as information about how much to use the value of the previous hidden state.
  • the value from the reset gate is not used as it is, but can be reused as Equation (7). In Equation 7, it can be calculated by multiplying the hidden state of the previous time by the reset gate.
  • the operation may be replaced with 3 X 3 convolution instead of weight multiplication in a normal GRU cell.
  • a sigmoid activation function is used after the gate controller output and a hyperbolic tangent function can be applied after the final hidden state output.
  • Next forward GRU and reverse GRU The features extracted from can be connected as in Equation 9.
  • K pieces of support data If is used, the operation in the GRU module is performed for each pair of support data and query data, and the acquired features can be summed up as in Equation 10 below.
  • an artificial intelligence model may be applied to the decoder module for high-resolution regionization, for example, a U-Net structure may be applied, but is not limited thereto.
  • the final segmentation result can be obtained by utilizing the features processed by the encoder module and the bidirectional GRU module and the low-level features of the query slice image obtained from the encoder module E q for query data.
  • the low-level feature is connected to the decoder module through a skip connection, and the decoder module may predict segmentation using both low-level and high-level information.
  • the cost function can be defined as the sum of the cross-entropy loss and the die loss between the prediction and the label.
  • transfer learning can be performed with a small number of target support samples before testing.
  • support and query pairs can be temporarily sampled from support data and the model can be updated.
  • K-1 samples from K support sets are selected as temporary support samples to collect existing support data and query data pairs, and the rest are used as temporary query images to rebuild the model.
  • FIG. 5 is a view showing the qualitative results from the axial viewpoint according to an embodiment of the present disclosure
  • FIG. 6 is a view showing the qualitative results from the sagittal and coronal plane viewpoints according to an embodiment of the present disclosure.
  • the data set for confirming the performance of the 3D Pu-shot regionalization model of the present embodiment may include 30 3D CT scans with segmentation labels for 15 organs. Labels of 9 out of 15 organs (spleen, left kidney, esophagus, liver, stomach, aorta, inferior vena cava, bladder and uterus) can be used for testing. The other six organs may not be used for testing because they are too small or even change in shape to be difficult to segment even with supervised learning methods.
  • the three-dimensional fushot regionization model of the present embodiment is applicable to data having different characteristics using two external data sets (referred to as DECATHLON and CTORG).
  • An external data set (CTORG) containing 119 labeled images of 6 organs (lung, bone, liver, left and right kidney, bladder) can be used in this example.
  • the data set may vary in planar resolution and thickness between images. Since many CT scans of the test set of this embodiment do not include the entire lung and brain samples are limited, external examinations can be performed on the liver, kidneys, and bladder except for the lungs and brain.
  • the model of the present embodiment is applicable to data having different characteristics by using another external data set DECATHLON.
  • the external data set (DECATHLON) consisted of 10 different organs (liver CT, brain tumor multimodal MRI, hippocampal single mode MRI, lung tumor CT, prostate multimodal, left atrial single mode, pancreatic CT, early colon cancer CT, hepatic hematoma CT and It can consist of several images of the spleen (CT). Spleen and liver data are available and organs that are too small or have severe morphological changes may be excluded.
  • the data set of this embodiment can be divided into 15 volumes for training or support data selection, 5 volumes for verification, and 10 volumes for testing each organ.
  • support and query data pairs can be randomly sampled from 15 volumes with 8 organs excluding specific target organs to train the pewshot model. And for testing, the support data can be randomly sampled out of 15 volumes for the target organ, and 10 volumes can be used as query images. Since it takes a lot of time to perform experiments on all organs, in this embodiment, the model can be tested on four clinically important organs (spleen, liver, kidney, and bladder) without being too small. For example, the adrenal glands can be excluded because they appear on limited CT scan slices and are often difficult to determine the three-dimensional structure of the organ.
  • the model trained on the dataset was 65 liver samples, 63 kidney samples, 53 bladder samples from an external dataset (CTORG), and 27 spleen samples and 87 liver samples from another external dataset (DECATHLON).
  • CTORG 53 bladder samples from an external dataset
  • DECATHLON 27 spleen samples and 87 liver samples from another external dataset
  • the three-dimensional Pu-shot regionalization model of this embodiment and the U-Net-based supervision method can be compared with the three Fu-shot models shown in FIG. 1 .
  • a U-net-based supervision method trained with only one sample per organ was used as the lower bound, and one trained with all available data was used as the upper bound model.
  • U-net was modified to use five adjacent axis slices as input and consisted of a two-dimensional convolutional encoder module and a decoder module. And we used Adam optimization and initialization for all models with a learning rate of 10 -4 .
  • the Adam optimization is one of the optimization methods, and the advantage is that the stepsize is not affected by the rescaling of the gradient. Even if the gradient increases, the step size is bounded, so descent for optimization is possible even if any objective function is used.
  • the step size can be adjusted by referring to the past slope size. In other words, since the Adam optimization can predict the step size, the step size can be set to an appropriate value in advance when setting the hyperparameter.
  • support and query volumes may be randomly selected from training data including various organ segmentation labels except for the target organ.
  • a total of 5 slices may be fed to the model, that is, na may be set to 2.
  • the same parameter initialization and data augmentation were applied to all evaluated models.
  • the FSS base is a reference model having an architecture similar to the proposed model when the bidirectional GRU module is omitted (refer to FIG. 1(b)).
  • FSS prototype uses prototype and alignment process for prediction, and prototypes of foreground and background can be defined to implement distance-based pixel unit classification in the reduced feature map extracted by the encoder (Fig. 1(a)). Reference).
  • FSS SE can use squeeze and excitation blocks with skip connections trained from scratch along with separate encoders and decoders for support and query data (see Fig. 1(c)).
  • 1, 3 and 5 shot models were evaluated on internal and external test data sets, except for FSS SE .
  • the model of this embodiment may be expressed as FSS BiGRU .
  • pewshot region performance can vary depending on the support set selection method, experiments were performed with different support sets randomly sampled 5 times for each query sample, and the average value of all trials can be calculated.
  • Pu-shot regionalization performance can be measured as a dice similarity score between predictions and labels.
  • Table 1 below can show a full comparison of the methods trained and tested on the internal data set. More specifically, Table 1 shows the performance comparison of the model FSS BiGRU of this example to the reference model of the internal data set using the evaluation index (dice score ⁇ standard deviation), and the second column is the number of training data (#) and FT stands for fine tuning. The bold type shows the best performance among the pew-shot comparison methods.
  • the dice score is one of several metrics that evaluate the degree of overlap between two areas.
  • FSS BiGRU showed similar performance to FSS base , with or without fine tuning and in the transformation using a different number of samples. Margin was significant in the one-shot setup versus all organs, with an average score improvement of roughly 20%. That is, it clearly shows that the method of the present embodiment is capable of segmentation even in an extremely limited data area.
  • Table 2 shows the performance comparison for the external data set using the evaluation index (dice score ⁇ standard deviation), where U-net (BCV) is a model trained with the internal data set, and U-net ( lower) and U-net (upper) were trained using the same external data set. Because the number of volumes in each organ is different, we can represent the 5 numbers used as the number of training data (#) for the U-net (upper) (eg, 27 training volumes for the spleen (DECATHLON)). The bold type shows the best performance among the pew-shot comparison methods.
  • a 5-shot setting for the FSS base and the FSS prototype may be considered.
  • the upper bound trained on the inner data set and the upper and lower bound methods trained using all accessible data from the outer data set may also be included for completeness.
  • the 3D fushot regionalization model of the present embodiment can mitigate this effect by capturing the similarity between the query and the support sample in both training and testing.
  • similar performance was obtained in the tests on two organs of the external data set (DECATHLON) and the bladder of the external data set (CTORG).
  • the transfer learning update resulted in improved performance on the external dataset (DECATHLON), i.e. +3% for both organ organs. This performance can yield similar results to the parent model on an external data set (DECATHLON).
  • the performance of the 3D Pu-shot regionalization model of the present embodiment for the kidney and liver of the external data set (CTORG) is much lower than that of the internal test.
  • the performance of supervised learning is good because there is a relatively large amount of training data. In this sense, if the resolutions of the support and query images do not match, then the transfer learning strategy is also unimportant.
  • the 3D Pu-shot regionalization model of this embodiment achieved the best performance among all the Pu-shot models, and better results may be obtained if data of multiple resolutions are included in the support set.
  • FIG. 5 shows the qualitative results from the axial perspective
  • FIG. 6 shows the qualitative results in the coronal and sagittal planes.
  • the spleen and kidney may be displayed on the sagittal plane
  • the liver and bladder may be displayed on the coronal plane.
  • the 3D Pu-shot regionalization model of the present embodiment obtained regionalization results similar to the actual measurement labels, unlike other Pu-shot models. Since other pewshot models do not consider the information between adjacent slices, the region is often not smooth, and it can be seen that false positives such as long-term external noise occur. This becomes even more pronounced when the support and query images have different shapes. It can be seen that the prediction difference between adjacent slices in the sagittal plane or coronal plane is relatively large compared to the results from the axial viewpoint in which training is performed (see FIG. 6 ). However, it can be seen that the boundary between the sagittal plane and the coronal plane appears smoothly in the three-dimensional pu-shot regionalization model of the present embodiment because information between adjacent slices is considered together.
  • this embodiment proposes a new framework for regionalizing a CT organ under a limited data system, and by stably integrating multi-slice information, it is possible to achieve accurate localization of an organ that is not visible in a CT scan.
  • 3D spatial information can be effectively modeled to improve feature learning, and optimal parameters for an invisible target task can be learned through the transfer learning process.
  • the 3D Pu-shot regionalization model of the present embodiment achieved regionalization performance comparable to the supervised learning model for internal and some external data sets.
  • FIG. 7 is a flowchart illustrating a 3D image regionization method according to an embodiment of the present disclosure.
  • the processor 130 acquires a three-dimensional query image to be segmented and a three-dimensional support image in which a segmentation target is displayed. That is, the processor 130 may obtain a query image, which is 3D image data that is the target of segmentation, a 3D support image that is used as a reference for segmentation of the query image, and a support label in which a segmentation object is displayed from the support image.
  • the query image may be a 3D abdominal CT image of patient A
  • the support image may be a 3D multiple CT image of patient B.
  • the query image may be, for example, input together with a regionization request for the liver
  • the support label may be an image in which the liver region is pre-regioned in the support image.
  • step S720 the processor 130 loads the training model trained to perform the 3D image data regionization task.
  • This learning model is a pre-trained model, and may be a model stored in advance in the memory 110 .
  • step S730 the processor 130 inputs the three-dimensional query image, the three-dimensional support image, and the three-dimensional support label to the learning model.
  • the learning model is applied to a 3D query image, a 3D support image, or a 3D support label.
  • step S740 the processor 130 divides the 3D query image, the 3D support image, and the 3D support label into n 2D slice images.
  • step S750 the processor 130 matches the 2D slice query images with corresponding 2D slice support images and 2D slice support labels.
  • step S760 the processor 130 generates a regionization result (or regionization) for the previous two-dimensional slice query image in the process of regionalizing the current two-dimensional slice query image based on the two-dimensional slice support image and the two-dimensional slice support label.
  • the intermediate value derived from the process for example, a feature map
  • the regionalization result of the next two-dimensional slice image or an intermediate value derived from the territorial process, for example, a feature map
  • the current two-dimensional slice query image Perform zoning. That is, according to the above-described example, the liver region is displayed in the 2D slice query image.
  • step S770 the processor 130 outputs a three-dimensional query image on which segmentation is performed based on the two-dimensional slice query images on which segmentation is performed. That is, the processor 130 may apply a learning model to the query image, the support image, and the support label to output a result image in which an object of the same type as the segmentation object is segmented on the query image. According to the above-described example, an image in which a liver region is displayed on the query image may be output.
  • the learning model converts input 3D image data into n 2D slice images, and for at least one slice image, in the segmentation process of the current slice image in the segation process of the previous slice image Segmentation of the current slice image may be performed by referring to an output value of , and an output value in the segmentation process of the next slice image.
  • FIG. 8 is a flowchart illustrating training of a learning model according to an embodiment of the present disclosure.
  • step S810 the processor 130 constructs a learning model for image data segmentation. This is the state before the internal parameter values are optimized as the initial learning model, and the initial parameter values can be set arbitrarily.
  • step S820 the processor 130 performs a first query image for requesting zoning of the first type of object in the request image, a first support image on which segation is performed on the first type of object in the reference image, and the requested image A learning model is trained using the first label image in which the region of the first type of object is performed.
  • the first kind of object may be a liver.
  • step S830 the processor 130 determines the n-th query image requesting regionalization of the n-th type object in the request image and the n-th type object in the reference image.
  • the learning model is trained using the n-th support image on which the region is performed and the n-th label image on which the region of the n-th type of object is performed in the requested image.
  • the nth type of object may be a lung, and the value of n may be an integer value.
  • a training process performed on different objects up to the nth type of object is omitted.
  • step S840 the processor 130 performs a test on the trained learning model. That is, the processor 130 supports the n+1 query image for requesting zoning of the n+1-th type object in the request image and the n+1-th support for the n+1-th type object in the reference image. A test for checking an output image derived by inputting an image may be performed. For example, the n+1th type of object may be above.
  • a test may be performed by inputting support images for organs other than the liver and lungs to check whether the images for the corresponding organs are output.
  • the processor 130 may evaluate the similarity by comparing the output image with an n+1-th support label on which the n+1-th type of object is localized in the n+1-th query image to perform a test. .
  • FIG. 9 is a flowchart illustrating a fine tuning method of a trained learning model according to an embodiment of the present disclosure.
  • step S910 the processor 130 prepares K support images.
  • the processor 130 may prepare K support images and K support labels.
  • step S920 the processor 130 loads an initial learning model trained for image regionization.
  • step S930 the processor 130 uses K-1 support images among the K support images as preliminary support images and uses the remaining one support image as a labeled query image to further train the initial learning model (initial learning model). fine-tune).
  • the processor 130 converts one support image and support label out of the K support images as a labeled query image, and converts the remaining K-1 support images and support labels into a support image set and support label set for further training. can be used to perform additional training on the learning model.
  • the processor 130 may perform transfer learning in which an image sampled from the support image is set as a support image and a query image for further learning to update the parameters of the learning model.
  • the processor 130 may repeat the update step for all support images to be set as the query image once. Through this update, as shown in FIG. 8 , the trained learning model is further fine-tuned, so that the scoping performance can be further improved.
  • FIG. 10 is a flowchart illustrating application of a learning model according to an embodiment of the present disclosure.
  • step S1010 when the 3D support data and 3D query data are input, the processor 130 slices the support data and the query data in step S1020 to generate a 2D slice image. have.
  • step S1030 the processor 130 inputs the support data and the query data to the support encoding module and the query encoding module, respectively. That is, the processor 130 may input a plurality of two-dimensional slice images of the support image and a plurality of two-dimensional slice images of a support label corresponding to the support image to the support encoder module. In addition, the processor 130 may input a plurality of 2D slice images of the query image corresponding to the plurality of 2D slices of the support image to the query encoder module.
  • step S1040 the processor 130 combines the feature map by the support encoding module and the feature map by the query encoding module.
  • the processor 130 extracts the feature maps of the plurality of two-dimensional slice images of the support image and the plurality of two-dimensional slice images of the support label from the support encoder module, respectively, and the plurality of two-dimensional slice images of the query image from the query encoder module.
  • the processor 130 applies the combined feature map to the recurrent neural network.
  • the processor 130 may select an adjacent slice image from consecutively arranged slice images through a preset condition, and extract a feature relationship between the selected adjacent slice images based on the recurrent neural network. Also, based on the recurrent neural network, the processor 130 sequentially transmits the feature map in the forward direction from the selected adjacent slice image, then transmits the feature map in the reverse direction, and based on the feature map of the delivered adjacent slice image, each slice The image feature map can be updated.
  • step S1060 the processor 130 inputs the feature map updated by the recurrent neural network to the decoder module, and in step S1070, the 3D image data regionization task is performed.
  • the processor 130 may input the low-level feature maps of the plurality of 2D slice images of the query image to the decoder module through a skip connection.
  • the processor 130 performs segmentation for an arbitrary 3D image data segmentation task based on the updated feature map of each slice image and the low-level feature map of a plurality of 2D slice images of the query image in the decoder module. can do.
  • the processor 130 performs transfer learning. That is, the processor 130 may perform transfer learning of updating the parameters of the learning model by setting data sampled from the support image as a support image and a query image for further learning. More specifically, when there are K support images, the processor 130 may set K1 support images for additional learning and set the remaining one as a query image for additional learning. In addition, the processor 130 may update the learning model using K-1 support images for additional learning and query images for additional learning. In addition, the processor 130 may perform transfer learning by repeating the update step for all support data to be set as a query image once.
  • the above-described embodiment according to the present invention may be implemented in the form of a computer program that can be executed through various components on a computer, and such a computer program may be recorded in a computer-readable medium.
  • the medium includes a hard disk, a magnetic medium such as a floppy disk and a magnetic tape, an optical recording medium such as CD-ROM and DVD, a magneto-optical medium such as a floppy disk, and a ROM. , RAM, flash memory, and the like, and hardware devices specially configured to store and execute program instructions.
  • the computer program may be specially designed and configured for the present invention, or may be known and used by those skilled in the computer software field.
  • Examples of the computer program may include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

3차원 영상 영역화 방법 및 장치가 개시된다. 본 개시의 일 실시 예에 따른 3차원 영상 영역화 방법은, 영역화의 대상이 되는 3차원 영상 데이터인 쿼리 이미지, 쿼리 이미지의 영역화를 위해 참조로 사용되는 3차원 서포트 이미지 및 서포트 이미지에서 영역화 객체가 표시된 서포트 레이블을 획득하는 단계와, 3차원 영상 데이터 영역화를 수행하도록 훈련된 학습 모델을 로딩하는 단계와, 쿼리 이미지, 서포트 이미지 및 서포트 레이블에 학습 모델을 적용하여 쿼리 이미지 상에 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 단계를 포함할 수 있다.

Description

3차원 영상 영역화 방법 및 장치
본 개시는 퓨샷 러닝(Few-Shot Learning) 알고리즘에 기반하여 소수의 데이터로 3차원 영상에서 관심 영역을 검출할 수 있는 모델을 이용한 3차원 영상 영역화 방법 및 장치에 관한 것이다.
의료 영상에서 관심 장기를 영역화(segmentation) 하는 것은 정확한 질병 진단과 종단 연구를 위해 필수적이다. 최근 딥러닝 기반 기법들이 영역화 문제에서 좋은 성능을 보이고 있지만 높은 성능을 위해서는 대규모 데이터 셋(set)이 필수적이다. 그러나 특히 의료 영상은 비싼 촬영 비용, 장기(organ)마다의 프로토콜과 해상도 때문에 학습에 필요한 대규모 데이터 셋을 구축하기 어렵다.
이러한 문제를 해결하기 위해, 최근 소수의 관련 데이터만으로 물체의 영역화를 효과적으로 해내기 위한 퓨샷 러닝(Few-shot learning) 기법들이 제안되고 있다. 퓨샷 러닝의 핵심 아이디어는 다양한 문제에서 소수의 데이터만으로 검증데이터의 정답을 예측하는 일반적인 지식을 학습하는 것이다. 즉, 새로운 문제를 풀기 위해 큰 규모의 데이터 셋을 구축하는 것이 아니라, 기존에 확보된 여러 가지 데이터를 바탕으로 일반적인 지식을 추출하여 새로운 문제에 적용함으로써, 소수의 데이터만으로 문제를 해결할 수 있다.
그러나 기존에 제안된 퓨샷 영역화 기법들은 2차원 영상분석에 초점이 맞춰져 있어 3차원 영상의 영역화에는 적합하지 않다. 그러나 3차원 입력 영상을 처리하기 위해 3차원 합성곱을 도입하게 되면 적은 수의 데이터 셋에 쉽게 과적합(overfitting)이 일어날 뿐만 아니라 3차원 연산을 위해 GPU 메모리 사용량이 크게 증가하여 배치 사이즈가 매우 낮게 제한되는 문제가 있다.
이에, 종래에는 선행기술 1 내지 선행기술 3과 같이 3차원 영상을 2차원 슬라이스 여러 개로 나누어 각각 영역화를 수행했다.
선행기술 1은 도 1(a)에 도시된 바와 같이, 보다 정확한 프로토 타입을 선택하기 위해 쿼리(query) 이미지와 예측된 쿼리 레이블을 서포트 데이터로 사용하여 서포트 레이블을 역으로 추측하는 정렬 손실(alignment loss)을 추가로 제안하는 것에 관한 것이다. 그러나 선행기술 1과 같은 프로토 타입 기반 방법은 예측을 위한 프로토 타입 또는 매개 변수 간의 관계가 다운 샘플링 된 임베딩 공간에서 학습된 다음 보간을 사용하여 빠르게 업 샘플링 되기 때문에 예측된 분할(segmentation)의 해상도가 종종 낮다는 점에서 제한적일 수 있다.
또한 선행기술 2는 도 1(b)에 도시된 바와 같이, 서로 다른 레벨에서 스킵 연결이 있는 디코더를 사용하여 인코딩 된 특징(feature)의 업 샘플링을 점진적으로 수행하는 것에 관한 것이고, 선행기술 3은 도 1(c)에 도시된 바와 같이, 서포트 및 쿼리 데이터를 위한 모듈 사이에 추가된 압착(squeeze) 및 여기(excitation) 블록이 있는 조밀한 연결을 사용하여 3차원 의료 영상에서 장기 분할을 위한 퓨샷 방법에 관한 것이다.
그러나 선행기술 2 및 3과 같은 방법은 인접 슬라이스 간의 상황 정보를 고려하지 않고 서포트 데이터에만 의존하여 쿼리 이미지의 분할을 추정하기 때문에 3차원 영상에서 부드러운 분할 결과를 얻는 데 한계가 있다. 즉, 종래에는 인접한 슬라이스 간의 매끄러움과 3차원 구조정보가 고려되지 않아 부정확한 영역화가 얻어질 수 있는 문제가 있다.
전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
선행기술 1: Wang, K.; Liew, J. H.; Zou, Y.; Zhou, D.; and Feng, J. 2019. Panet: Few-shot image semantic segmentation with prototype alignment. In Proceedings of the IEEE International Conference on Computer Vision, 91979206.
선행기술 2: Li, X.; Wei, T.; Chen, Y. P.; Tai, Y.-W.; and Tang, C.-K. 2020. Fss-1000: A 1000-class dataset for few-shot segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 28692878.
선행기술 3: Roy, A. G.; Siddiqui, S.; Polsterl, S.; Navab, N.; and Wachinger, C. 2020. 'Squeeze & excite'guided few-shot segmentation of volumetric images. Medical image analysis 59: 101587.
본 개시의 실시 예의 일 과제는, 양방향 순환네트워크 기반 퓨샷 러닝을 적용하여, 소수의 데이터로 3차원 영상에서 관심 영역을 검출할 수 있는 모델을 생성하고자 하는데 있다.
본 개시의 실시 예의 일 과제는, 양방향 순환네트워크에 기반하여 3차원 볼륨의 인접한 슬라이스 간의 주요 관계를 캡쳐 할 수 있는 3차원 퓨샷 영역화 모델을 제안하고자 하는데 있다.
본 개시의 실시 예의 일 과제는, 멀티 샷 분할 모델에서 성능을 향상시키기 위해 전이 학습 전략을 제안하고자 하는데 있다.
본 개시의 실시 예의 일 과제는, 3차원 의료 영상에 대한 소수의 다양한 데이터를 이용하여 3차원 의료 영상에서 관심 장기를 정확하게 검출하고자 하는데 있다.
본 개시의 실시 예의 목적은 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시 예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.
본 개시의 일 실시 예에 따른 3차원 영상 영역화 방법은, 양방향 순환네트워크 기반 퓨샷 러닝을 적용하여, 소수의 데이터로 3차원 영상에서 관심 영역을 정확하게 검출하는 단계를 포함할 수 있다.
구체적으로 본 개시의 일 실시 예에 따른 3차원 영상 영역화 방법은, 영역화의 대상이 되는 3차원 영상 데이터인 쿼리 이미지, 쿼리 이미지의 영역화를 위해 참조로 사용되는 3차원 서포트 이미지 및 서포트 이미지에서 영역화 객체가 표시된 서포트 레이블을 획득하는 단계와, 3차원 영상 데이터 영역화를 수행하도록 훈련된 학습 모델을 로딩하는 단계와, 쿼리 이미지, 서포트 이미지 및 서포트 레이블에 학습 모델을 적용하여 쿼리 이미지 상에 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 단계를 포함할 수 있다.
본 개시의 일 실시 예에 따른 3차원 영상 영역화 방법을 통하여, 서포트 데이터 및 쿼리 데이터의 관계 및 3차원 볼륨의 인접한 슬라이스 간의 3차원 구조 정보를 학습하여 소수의 데이터로 3차원 영상에서 관심 영역을 정확하게 검출할 수 있다.
이 외에도, 본 발명의 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체가 더 제공될 수 있다.
전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.
본 개시의 실시 예에 의하면, 양방향 순환네트워크 기반 퓨샷 러닝을 적용하여, 서포트 데이터 및 쿼리 데이터의 관계 및 3차원 볼륨의 인접한 슬라이스 간의 3차원 구조 정보를 학습함으로써, 소수의 데이터만으로도 3차원 영상에서 관심 영역을 보다 정확하고 부드럽게 검출할 수 있다.
또한, 3차원 영상 영역화를 위해 퓨샷 설정에 순환 신경망 네트워크를 통합하여, 적은 수의 훈련 데이터 문제를 완화하고 여러 장기 분할 태스크에 대한 슬라이스 간의 컨텍스트를 고려함으로써, 학습 모델의 성능을 향상시킬 수 있다.
또한, 서포트 데이터를 무작위로 분할하여 추가 업데이트를 수행하는 파인 튜닝을 수행함으로써, 대상 태스크에 대한 최적의 파라미터를 학습하여 오 탐지를 방지하고 학습 결과의 정확도를 향상시킬 수 있다.
또한, 소수의 데이터로 학습하므로 스캔 비용이 적게 들고 볼륨 이미지에 대한 주석을 생성하는데 시간이 많이 소요되지 않아 실용설을 향상시킬 수 있다.
또한 3차원 의료 영상에서 각각의 장기를 영역화 하여 관심 장기에 대해 용이하게 검출할 수 있도록 함으로써, 보다 정확한 진단이 가능하도록 할 수 있다.
본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 종래의 퓨샷 러닝 모델들을 도시한 도면이다.
도 2는 본 개시의 일 실시 예에 따른 3차원 영상 영역화 장치를 설명하기 위한 블록도이다.
도 3은 본 개시의 일 실시 예에 따른 3차원 퓨샷 영역화 모델을 설명하기 위한 도면이다.
도 4는 본 개시의 일 실시 예에 따른 3차원 퓨샷 영역화 모델의 K 샷일 때의 모델 아키텍처를 나타낸 도면이다.
도 5는 본 개시의 일 실시 예에 따른 축 관점에서의 정성적 결과를 나타낸 도면이다.
도 6은 본 개시의 일 실시 예에 따른 시상면 및 관상면 관점에서의 정성적 결과를 나타낸 도면이다.
도 7은 본 개시의 일 실시 예에 따른 3차원 영상 영역화 방법을 설명하기 위한 흐름도이다.
도 8은 본 개시의 일 실시 예에 따른 학습 모델 훈련을 설명하기 위한 흐름도이다.
도 9는 본 개시의 일 실시 예에 따른 파인 튜닝(fine tuning) 방법을 설명하기 위한 흐름도이다.
도 10은 본 개시의 일 실시 예에 따른 학습 모델 적용을 설명하기 위한 흐름도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 설명되는 실시 예들을 참조하면 명확해질 것이다.
그러나 본 발명은 아래에서 제시되는 실시 예들로 한정되는 것이 아니라, 서로 다른 다양한 형태로 구현될 수 있고, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 아래에 제시되는 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
이하, 본 발명에 따른 실시 예들을 첨부된 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
본 실시 예는 퓨샷 러닝(Few-Shot Learning) 알고리즘에 기반하여 소수의 데이터로 3차원 영상에서 관심 영역을 검출할 수 있는 모델에 관한 것으로, 예를 들어, 3차원의 의료 영상을 신체의 각각의 장기(organ)들로 영역화(segmentation) 하고 찾고자 하는 대상 장기 영역을 검출하는 것이다. 특히 본 실시 예에서는, 3차원 CT(computerized tomography) 영상에서 영역화를 수행하고 대상 장기 영역을 검출하는 것을 실시 예로 할 수 있다.
본 실시 예는, 표적(target) 장기 주석의 제한된 훈련 샘플을 사용하여 정확한 장기 영역화를 위한 3차원 퓨샷 영역화 프레임 워크에 관한 것이다. 또한 본 실시 예는, 3차원 영상을 2차원으로 슬라이스하고, 시퀀스 데이터(sequence data)라고 할 수 있는 각각의 슬라이스에서, 인접한 슬라이스 간의 주요 관계를 획득할 수 있는 3차원 퓨샷 영역화 모델에 관한 것이다. 이때 본 실시 예에서는 2차원 슬라이스들이 시간의 흐름에 따른 연속적인 데이터라고 보고 시퀀스 데이터를 처리할 수 있는 신경망이 적용될 수 있다. 예를 들어, 신경망은 RNN(Recurrent Neural Network), LSTM(Long Short term Memory) 및 GRU(Gated Reccurent Unit) 등이 적용될 수 있으나, 본 실시 예에서는 GRU를 실시 예로 하여 설명하도록 한다.
즉 본 실시 예는, 3차원 영상의 영역화 결과의 정확도를 향상시키기 위하여, 양방향 GRU 모듈을 통해 인접한 슬라이스 간의 주요 관계를 획득 할 수 있는 3차원 퓨샷 영역화 모델을 제안할 수 있다.
또한 본 실시 예는, 학습한 3차원 퓨샷 영역화 모델에 대해, 서포트 데이터에서 샘플링 된 데이터를 임의로 서포트 및 쿼리 이미지로 설정하여 테스트하기 전에 모델을 업데이트함으로써 대상 이미지와 장기의 특성을 적응시키는 전이(transfer) 학습 방법을 제안할 수 있다. 그리고 서로 다른 장기의 주석을 가진 3차원 CT 데이터 셋을 사용하여 3차원 퓨샷 영역화 모델을 평가할 수 있다.
본 실시 예에서, 서포트 이미지는 레이블이 있는 이미지로 훈련된 이미지를 의미할 수 있고 서포트 이미지와 서포트 레이블을 포함하여 서포트 세트라고도 할 수 있다. 또한, 쿼리 이미지는 레이블이 없는 이미지로 영역화 결과를 얻고자 입력되는 이미지를 의미할 수 있다. 다만 본 실시 예에서는, 학습 단계에서 쿼리 이미지와 쿼리 레이블을 포함하는 쿼리 세트를 이용할 수 있는데, 쿼리 이미지를 입력으로 하고 쿼리 레이블을 출력으로 하여 학습을 수행할 수 있다. 즉 본 실시 예에서는, 하나 하나의 태스크에 대해 서포트 세트와 쿼리 세트가 있으며, 서포트 세트로 학습을 진행한 후 쿼리 이미지를 입력하여 쿼리 레이블이 잘 출력되는지 확인하는 학습을 수행하고, 새로운 서포트 세트와 쿼리 이미지에 대해 영역화 결과가 제대로 출력되는지 확인할 수 있다. 다시 말해, 서포트 데이터의 정보를 바탕으로 쿼리 이미지의 영역화 결과를 얻는 것이다.
따라서 본 실시 예에서는, 서포트와 쿼리 데이터 쌍에 대해서, 서포트와 쿼리 데이터의 관계를 학습하는 것으로, 표적 객체에 대한 서포트 데이터가 1 장만 있더라도 서포트와 쿼리 데이터 사이의 관계를 학습했기 때문에 쿼리 이미지에 대한 학습 결과를 얻을 수 있다.
한편, 퓨샷 러닝 알고리즘 또는 퓨샷 모델은 매우 적은 데이터 셋을 훈련에 사용해서 학습시키는 것으로, 퓨샷 모델이 완전히 새롭게 주어진 데이터에서도 잘 작동하도록 만들기 위해서는 메타 러닝(meta-learning)이 필요하다. 이때 훈련의 훈련(learning to learning)이라고 알려져 있는 메타 러닝은 몇몇 훈련 예제를 통해서 모델로 하여금, 새로운 기술을 배우거나, 새로운 환경에 빠르게 적응할 수 있도록 설계하는 것을 나타낼 수 있다. 이러한 메타 러닝의 접근 방식에는 efficient distance metric을 훈련하는 방식, 외부/내부 메모리를 통해 신경망을 사용하는 방식, 빠른 훈련(fast training)을 위해 모델 파라미터를 최적화 하는 방식 등이 있다.
퓨샷 러닝 태스크에서는 에피소딕 훈련(episodic training) 방식으로 메타 러닝을 시도할 수 있다. 에피소딕 훈련은 퓨샷 태스크와 유사한 형태의 훈련 태스크를 통해 모델 스스로 학습 규칙을 도출할 수 있게 함으로써 일반화 성능을 높일 수 있게 한다. 퓨샷 러닝을 위한 에피소딕 훈련에는 훈련, 검증, 테스트 태스크가 있으며, 다양한 범주로 구성된 훈련 태스크를 통해 최적의 성능을 낼 수 있도록 훈련될 수 있고, 훈련을 마친 모델은 완전 새로운 데이터로 구성된 테스트 태스크로 그 성능을 평가 받을 수 있다.
도 2는 본 개시의 일 실시 예에 따른 3차원 영상 영역화 장치를 설명하기 위한 블록도이다.
도 2에 도시된 바와 같이, 3차원 영상 영역화 장치(100)는 메모리(110), 통신부(120), 프로세서(130), 입력부(140) 및 출력부(150)를 포함할 수 있다.
메모리(110)는 3차원 영상 영역화 장치(100)의 동작에 필요한 각종 정보들을 저장하고, 3차원 영상 영역화 장치(100)를 동작시킬 수 있는 제어 소프트웨어를 저장할 수 있는 것으로, 휘발성 또는 비휘발성 기록 매체를 포함할 수 있다.
메모리(110)는 하나 이상의 프로세서(130)와 연결되는 것으로, 프로세서(130)에 의해 실행될 때, 프로세서(130)로 하여금 3차원 영상 영역화 장치(100)를 제어하도록 야기하는(cause) 코드들을 저장할 수 있다.
여기서, 메모리(110)는 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 이러한 메모리(110)는 내장 메모리 및/또는 외장 메모리를 포함할 수 있으며, DRAM, SRAM, 또는 SDRAM 등과 같은 휘발성 메모리, OTPROM(one time programmable ROM), PROM, EPROM, EEPROM, mask ROM, flash ROM, NAND 플래시 메모리, 또는 NOR 플래시 메모리 등과 같은 비휘발성 메모리, SSD. CF(compact flash) 카드, SD 카드, Micro-SD 카드, Mini-SD 카드, Xd 카드, 또는 메모리 스틱(memory stick) 등과 같은 플래시 드라이브, 또는 HDD와 같은 저장 장치를 포함할 수 있다.
특히, 본 실시 예에서, 메모리(110)에는 본 개시에 따른 신경망 모델, 신경망 모델을 이용하여 본 개시의 다양할 실시 예를 구현할 수 있도록 구현된 모듈이 저장될 수 있다. 그리고, 메모리(110)에는 본 개시에 따른 학습을 수행하기 위한 알고리즘에 관련된 정보가 저장될 수 있다. 그 밖에도 본 개시의 목적을 달성하기 위한 범위 내에서 필요한 다양한 정보가 메모리(110)에 저장될 수 있으며, 메모리(110)에 저장된 정보는 서버 또는 외부 장치로부터 수신되거나 사용자에 의해 입력됨에 따라 갱신될 수도 있다.
통신부(120)는 네트워크와 연동하여 외부 장치(서버를 포함) 간의 송수신 신호를 패킷 데이터 형태로 제공하는 데 필요한 통신 인터페이스를 제공할 수 있다. 또한 통신부(120)는 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다. 이러한 통신부(120)는 각종 사물 지능 통신(IoT(internet of things), IoE(internet of everything), IoST(internet of small things) 등)을 지원할 수 있으며, M2M(machine to machine) 통신, V2X(vehicle to everything communication) 통신, D2D(device to device) 통신 등을 지원할 수 있다.
즉, 프로세서(130)는 통신부(120)를 통해 연결된 외부 장치로부터 각종 데이터 또는 정보를 수신할 수 있으며, 외부 장치로 각종 데이터 또는 정보를 전송할 수도 있다. 그리고, 통신부(120)는 WiFi 모듈, Bluetooth 모듈, 무선 통신 모듈, 및 NFC 모듈 중 적어도 하나를 포함할 수 있다
입력부(140)는 3차원 영상 영역화 장치(100)에 적용되는 다양한 이미지 데이터들이 수집되는 입력 인터페이스이다. 이미지 데이터들은 사용자에 의해 입력되거나 서버로부터 획득될 수 있으며, 예를 들어 3차원 CT 스캔 영상, 3차원 영상이 슬라이스 된 2차원 이미지 등을 포함할 수 있다. 또한 입력부(140)는 3차원 영상 영역화 장치(100)의 동작을 제어하기 위한 사용자 명령을 수신할 수도 있으며, 예를 들어, 마이크, 터치 디스플레이 등을 포함할 수 있다.
출력부(150)는 3차원 영상 영역화 장치(100)에서 수행된 영역화 결과가 출력되는 출력 인터페이스이다. 예를 들어, 간 식별 태스크에 대해서는 간 위치가 표시된 이미지가 출력될 수 있다. 또한 출력부(150)는 예를 들어, 스피커, 디스플레이 등을 포함할 수 있다.
프로세서(130)는 3차원 영상 영역화 장치(100)의 전반적인 동작을 제어할 수 있다. 구체적으로, 프로세서(130)는 상술한 바와 같은 메모리(110)를 포함하는 3차원 영상 영역화 장치(100)의 구성과 연결되며, 상술한 바와 같은 메모리(110)에 저장된 적어도 하나의 명령을 실행하여 3차원 영상 영역화 장치(100)의 동작을 전반적으로 제어할 수 있다.
프로세서(130)는 다양한 방식으로 구현될 수 있다. 예를 들어, 프로세서(130)는 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 임베디드 프로세서, 마이크로 프로세서, 하드웨어 컨트롤 로직, 하드웨어 유한 상태 기계(Hardware Finite State Machine, FSM), 디지털 신호 프로세서(Digital Signal Processor, DSP) 중 적어도 하나로 구현될 수 있다.
프로세서(130)는 일종의 중앙처리장치로서 메모리(110)에 탑재된 제어 소프트웨어를 구동하여 3차원 영상 영역화 장치(100) 전체의 동작을 제어할 수 있다. 프로세서(130)는 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령어로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로써, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
본 실시 예에서 프로세서(130)는 3차원 영상 영역화 장치(100)가 최적의 영역화 결과를 출력하도록, 획득된 3차원 영상에 대하여 딥러닝(Deep Learning) 등 머신 러닝(machine learning)을 수행할 수 있고, 메모리(110)는, 머신 러닝에 사용되는 데이터, 결과 데이터 등을 저장할 수 있다.
한편, 종래의 딥러닝 기반 영역화 모델에서는 대규모 데이터 세트를 구성하여 영역화 모델을 생성하는데, 이 경우 스캔 비용이 많이 들고 볼륨 이미지에 대한 주석을 수동으로 생성함에 따라 시간이 많이 소요된다. 특히 형식적인 이미지를 영역화 하기 위한 강력한 모델을 생성하는 것이 어렵다는 한계가 있다. 또한 의료 영상의 영역화를 하고자 하는 경우, 의료 전문가들이 각각 서로 다른 태스크들을 수행하므로 각각 해상도와 양식이 다른 이미지들이 획득될 수 있다. 결과적으로 각 태스크에 대해 별도의 모델을 설계해야 하므로 실용적이지 않다. 또한 각 태스크는 주석이 달린 샘플이 제한된 낮은 데이터 영역을 포함할 수 있어 파인 튜닝 또는 전이 학습을 기반으로 한 훈련에 실패하고 과적합으로 이어질 수 있다.
퓨샷 러닝 알고리즘 또는 퓨샷 모델은 상기와 같은 문제를 해결할 수 있다. 따라서 퓨샷 러닝 알고리즘 또는 퓨샷 모델을 의료 데이터 세트에 적용 할 때 여러 장기 주석으로 훈련된 모델은 몇 개의 샘플만으로 보이지 않는 표적 장기를 정확하게 분할 할 수 있다. 그러나 2차원 이미지에 초점을 맞춘 대부분의 촬영 방법은 훈련 시 과적합되는 경향이 있기 때문에 3차원 이미지 기반 분석에 직접 적용 할 수 없다. 또한 일반적으로 고밀도 픽셀 수준의 고차원 예측을 위한 3차원 태스크는 메모리 사용량을 증가시키고 배치 크기를 작게 제한하는 경우가 많다.
이에 본 실시 예에서, 프로세서(130)는 3차원 CT 스캔에 대해 2차원으로 각각 슬라이스를 생성할 수 있으며, 더 나아가 인접한 슬라이스 간의 3차원 구조 정보와 다른 퓨샷 태스크의 서포트 및 쿼리 데이터 간의 관계를 고려하여 보다 정확하고 부드러운 영역화 결과를 얻을 수 있도록 할 수 있다.
본 실시 예에서, 프로세서(130)는 인접 슬라이스 간의 3차원 구조 정보와 함께 다른 퓨샷 태스크의 서포트 데이터 및 쿼리 데이터 간의 관계를 모델링 할 수 있다. 이때 본 실시 예에서는 효율적인 표현(예측) 학습을 위해 인코더 모듈과 디코더 모듈 사이에 양방향 GRU 모듈을 통합할 수 있다.
즉 프로세서(130)는 각각의 슬라이스들 간의 글로벌 컨텍스트 정보가 부족한 문제를 완화하기 위해, 양방향 GRU 모듈을 사용하여 인접 슬라이스 간의 일관성을 고려할 수 있다.
이러한 방식으로, 프로세서(130)는 서포트 세트 및 인접 슬라이스 모두의 인코딩 된 특징이 디코딩 모듈에서 쿼리 이미지의 영역화를 예측하기 위해 주요 특징을 캡쳐 할 수 있다.
또한 프로세서(130)는 멀티 샷 영역화 설정에서 대상 도메인의 특성에 적응하기 위한 전이 학습을 수행할 수 있다. 프로세서(130)는 주어진 태스크에 대해 데이터 증가를 사용하여 서포트 및 쿼리 데이터로 임의로 분할하고 주어진 서포트 데이터를 사용하여 모델의 파라미터를 다시 훈련시킬 수 있다. 예를 들어, 본 실시 예에서는, 3차원 퓨샷 영역화 모델의 일반화 능력을 검증하기 위해 3 개의 데이터 세트(1 개는 내부 테스트 용, 나머지는 외부 검증 용)를 사용할 수 있다.
여기서, 전이 학습은 관련 태스크 또는 특성이 있는 더 큰 데이터 세트에서 이미 훈련된 심층 신경망 모델을 활용하여 다양한 태스크에 대한 모델 성능을 향상시키는 것으로, 예를 들어, 첫 번째 프레임을 사용하는 1 샷 비디오 객체 분할을 위한 미세 조정 접근 방식, 훈련의 중간 단계에서의 파인 튜닝을 통해 서포트 데이터를 사용하여 모델을 일시적으로 업데이트하고 각 작업에 대한 손실을 최소화 하는 방식, 일반 지식과 이전 가능한 지식의 학습을 분리하여 파인 튜닝 단계에서만 파인 튜닝 모듈을 업데이트 하는 방식 등이 있을 수 있다. 특히 본 실시 예에서, 프로세서(130)는 K-shot 설정에서 서포트 데이터를 무작위로 분할하여 추가 업데이트를 수행함으로써, 대상 태스크에 대한 최적의 파라미터를 학습할 수 있다.
즉, 프로세서(130)는 3차원 영상 데이터 영역화 태스크에 대한 서포트 데이터 및 쿼리 데이터 간의 관계를 모델링 하는 학습 모델을 구성할 수 있으며, 그리고 쿼리 데이터로 입력하기 위한 3차원 영상 데이터를 획득하고 구성한 학습 모델을 이용하여 3차원 영상 데이터에서 관심 영역을 검출하는 프로세스를 수행할 수 있다.
이때 모델 생성부(131)는 3차원 영상 영역화를 위한 학습 모델을 생성할 수 있다. 본 실시 예에서, 학습 모델은 입력되는 3차원 영상 데이터를 n개의 2차원 슬라이스 이미지로 변환하고, 적어도 1개의 슬라이스 이미지에 대해, 현재 슬라이스 이미지의 영역화 과정에서 이전 슬라이스 이미지에 대한 영역화 과정에서의 출력값 및 다음 슬라이스 이미지의 영역화 과정에서의 출력값을 참조하여 현재 슬라이스 이미지의 영역화를 수행하도록 구성될 수 있다.
또한 학습 모델은, 영상 데이터 영역화를 위한 초기 모델을 구성하는 단계와, 초기 모델에 대해 제 1 종류의 객체에 대한 영역화를 요청하는 제 1 쿼리 이미지, 제 1 서포트 이미지, 제 1 서포트 이미지에 제 1 종류의 객체에 대한 영역화가 수행된 제 1 서포트 레이블, 제 1 쿼리 이미지에서 제 1 종류의 객체에 대한 영역화가 이루어진 제 1 레이블 이미지를 이용하여 제 1 훈련을 수행하는 단계와, 제 1 훈련을 수행하는 단계에 의해 도출된 학습 모델에 대해, 제 2 종류의 객체에 대한 영역화를 요청하는 제 2 쿼리 이미지, 제 2 서포트 이미지, 제 2 서포트 이미지에 제 2 종류의 객체에 대한 영역화가 수행된 제 2 서포트 레이블, 제 2 쿼리 이미지에서 제 2 종류의 객체에 대한 영역화가 이루어진 제 2 레이블 이미지를 이용하여 제 2 훈련을 수행하는 단계와, 제 2 훈련을 수행하는 단계에 의해 도출된 학습 모델에 대해, 제 3 종류의 객체에 대한 영역화를 요청하는 제 3 쿼리 이미지, 제 3 서포트 이미지 및 제 3 종류의 객체에 대한 영역화가 수행된 제 3 서포트 레이블을 입력하여 도출되는 출력 이미지를 체크하는 테스트 수행 단계를 포함하는 훈련 페이즈(phase)에 의해 훈련될 수 있다.
예를 들어, 본 실시 예에서는, 간에 대한 영역화를 요청하는 태스크에 대한 학습 모델 훈련을 수행하고, 폐에 대한 영역화를 요청하는 태스크에 대한 학습 모델 훈련을 수행했다고 가정할 수 있다. 이때 본 실시 예에서는, 신장에 대한 서포트 이미지를 입력하여 신장에 대한 이미지가 출력되는지 여부를 확인하여 테스트를 수행할 수 있다.
이때, 테스트 수행 단계는, 출력 이미지를 제 3 쿼리 이미지에서 제 3 종류의 객체에 대한 영역화가 수행된 제 3 서포트 레이블과 비교하여 유사도를 평가하는 단계를 포함할 수 있다.
도 3은 본 개시의 일 실시 예에 따른 3차원 퓨샷 영역화 모델을 설명하기 위한 도면이고, 도 4는 본 개시의 일 실시 예에 따른 3차원 퓨샷 영역화 모델의 K 샷일 때의 모델 아키텍처를 나타낸 도면이다.
도 3은 3차원 영상을 2차원 이미지로 슬라이스하고, 각각의 슬라이스에 대한 아키텍처를 나타낸 것으로, 1 샷 일 때를 개략적으로 표현한 것이다. 그리고 도 4는 K(서포트 세트의 수) 샷 일 때, 도 3의 쿼리 레이블 슬라이스
Figure PCTKR2021001157-appb-I000001
에 대해 개략적으로 나타낸 것이다.
이하에서는 도 3 및 도 4를 참조하여, 3차원 퓨샷 영역화 모델에 대해 보다 구체적으로 설명하도록 한다.
문제 설정
본 실시 예의 3차원 퓨샷 영역화 모델 FSSθ는 K쌍의 서포트(support) 이미지와 서포트 레이블
Figure PCTKR2021001157-appb-I000002
,
Figure PCTKR2021001157-appb-I000003
, …,
Figure PCTKR2021001157-appb-I000004
를 사용하여 쿼리(query) 이미지
Figure PCTKR2021001157-appb-I000005
에서 관심 영역을 분할하는 파라미터 θ를 학습할 수 있다. 여기서, K는 지도의 정도(degree of supervision)을 의미할 수 있으며, 서포트 이미지와 서포트 레이블을 포함하는 서포트 세트의 개수일 수 있다.
한편, 종래의 퓨샷 영역화를 기반으로 하는 2차원 이미지의 일반적인 아키텍처(architecture)는 도 1에 도시되어 있다. 도 1(a)는 대상 객체 및 배경에 대한 프로토 타입을 정의한 다음, 정의된 프로토 타입까지의 거리를 사용하여 영역화를 수행하는 프로토 타입 네트워크를 나타낸 것이다. 그리고 도 1(b)는 fully convolutional network(FCN)에서 영역화를 위한 인코더와 디코더로 구성된 관계 네트워크를 나타낸 것이며, 도 1(c)는 서포트 및 쿼리 데이터를 위한 모듈 간의 조밀한 연결이 있는 네트워크를 나타낸 것이다. 도 1에 도시된 모든 방법은 다양한 영역화 태스크들의 서포트 및 쿼리 데이터 간의 관계를 학습하고자 하는 것으로, 본 실시 예에서는 이를 활용하여 다음 수학식 1과 같이 K개의 서포트 샘플을 사용하여 쿼리 이미지
Figure PCTKR2021001157-appb-I000006
의 대상(target) 레이블을 예측할 수 있다.
Figure PCTKR2021001157-appb-M000001
본 실시 예에서는, 수학식 1에서 설명 가능한 개념을 3차원 영상 퓨샷 영역화로 확장할 수 있다. 보다 구체적으로 설명하면, 본 실시 예에서는, 3차원 영상에 대하여, 쿼리 볼륨 I q를 여러 개의 2차원 슬라이스 I q,1, I q,2, …, I q,T로 나눌 수 있다. 이때 T는 축 관점(axial view)에서의 슬라이스 수를 의미할 수 있다.
그리고 본 실시 예에서는, 상기 쿼리 볼륨에 대응하는 서포트 슬라이스
Figure PCTKR2021001157-appb-I000007
와 서포트 레이블
Figure PCTKR2021001157-appb-I000008
을 사용하여, 각 쿼리 슬라이스 I q,t를 각각 영역화 할 수 있다. 여기서 ut는 서포트 샘플의 인덱스를 의미할 수 있다.
또한 본 실시 예에서는, 서포트 레이블 L s이 있는 3차원 서포트 볼륨 I s에서, 서포트 슬라이스
Figure PCTKR2021001157-appb-I000009
와 대응하는 서포트 레이블
Figure PCTKR2021001157-appb-I000010
을 결정하기 위해, 쿼리 볼륨 I q와 서포트 볼륨 I s에서 관심 장기(organ of interest)의 시작 및 끝 슬라이스의 위치를 알고 있다고 가정할 수 있다.
각 쿼리 슬라이스 I q,t에 해당하는 서포트 슬라이스의 인덱스는 ut = round((t/T) × T´)를 통해 얻을 수 있다. 여기서 T´는 서포트 볼륨 I s의 관심 슬라이스의 수를 의미할 수 있다.
본 실시 예에서의 상기 가정은, 예컨대, 간의 크기와 모양이 다양하더라도 항상 복수의 오른쪽 상단에 위치하는 것과 같이, 관심 장기가 사람마다 비슷한 위치에 있기 때문에 합리적이다.
또한 본 실시 예에서 3차원 이미지의 퓨샷 영역화 모델은 다음 수학식 2로 나타낼 수 있다.
Figure PCTKR2021001157-appb-M000002
대부분의 2차원 기반 퓨샷 영역화 모델은 상기 수학식 2를 따를 수 있지만 이는 인접 슬라이스 간의 관계는 고려되지 않는 것이다. 이에 본 실시 예에서는, 수학식 2를 기반으로 하되, 각 쿼리 슬라이스 I q,t를 정확하게 영역화 하기 위해 인접 슬라이스 정보를 통합할 수 있으며, 이는 수학식 3으로 나타낼 수 있다.
Figure PCTKR2021001157-appb-M000003
여기서, 2na+1은 인접한 슬라이스의 수이고, t0는 여러 슬라이스 중심의 인덱스를 의미할 수 있다. 즉 본 실시 예에서는 인접한 슬라이스 정보를 반영하기 위해, RNN 기반의 신경망을 사용할 수 있다. 특히 본 실시 예에서는 예를 들어 양방향 GRU를 사용할 수 있으며, 양방향 GRU를 사용하는 3차원 퓨샷 영역화 방법에 대한 구체적인 설명은 후술하도록 한다. 본 실시 예에서는, LSM(Long Short-Term Memory) 모델이나 양방향 RNN을 통해 인접 슬라이스 간에 특징을 공유할 수 있지만, LSM 및 RNN은 메모리 공간이 적기 때문에 GRU를 사용할 수 있다. 다만 이에 한정되는 것은 아니다.
양방향 GRU 기반 퓨샷 학습
본 실시 예에서는 세 단계로 3차원 영상의 영역화를 수행할 수 있다. 첫 번째, 서포트 이미지 및 쿼리 이미지의 특징(feature)은 각각 두 개의 별도 인코더 모듈 Es 및 Eq를 통해 추출될 수 있다. 두 번째, 양방향 GRU 모듈은 인접 슬라이스에서 추출된 특징 간의 관계를 모니터링 할 수 있다. 세 번째, 디코더 모듈은 인코더 모듈 Eq의 업데이트 된 특징 맵과 로우 레벨(low level) 특징을 사용하여 영역화를 예측할 수 있다.
본 실시 예의 퓨샷 영역화 모델은 도 3에 도시되어 있다.
도 3에 도시된 바와 같이, 본 실시 예에서는, 채널 수가 서로 다른 입력을 수신하기 때문에, 두 개의 별도 인코더 모듈 Es 및 Eq를 사용하여 서포트 이미지 및 쿼리 이미지에서 특징을 추출할 수 있다. 즉, 인코더 모듈 Eq는 1 채널의 각 쿼리 슬라이스 I q,t를 입력으로 받는 반면, 인코더 모듈 Es는 서포트 슬라이스
Figure PCTKR2021001157-appb-I000011
와 서포트 레이블
Figure PCTKR2021001157-appb-I000012
의 연결(concatenation)과 같이 2 채널 입력을 수신할 수 있다.
각각의 인코더 모듈은 영상 분류를 위한 인공지능 모델이 적용될 수 있으며, 이러한 인공지능 모델에 의해 서포트 이미지 및 쿼리 이미지에서 특징이 추출될 수 있다. 영상 분류를 위한 인공지능 모델은 예컨대 VGG16이 적용될 수 있으나 이에 한정되지는 않는다.
두 인코더 모듈에 의해 추출되는 특징의 연결은 수학식 4와 같이 나타낼 수 있다.
Figure PCTKR2021001157-appb-M000004
그리고 본 실시 예에서는 xt를 GRU 모델에 입력할 수 있으며, 이때, Eq에서 추출한 해상도가 다른 로우 레벨 특징은 다음(subsequent) 단계에서 다시 사용될 수 있다.
본 실시 예에서는, 특징
Figure PCTKR2021001157-appb-I000013
Figure PCTKR2021001157-appb-I000014
로부터 인코더 모듈에 의해 추출된 후, 양방향 GRU 모듈은 인접 슬라이스 간의 변경을 모델링 할 수 있다. 특히 양방향 GRU 모듈에는 효율적인 특징 표현을 위해 순방향 및 역방향 두 가지 모드가 있으며, 특징은 순방향 GRU 모듈에 순차적으로 공급되고 나중에 역방향 모델에 대해 역전될 수 있다. 각 양방향 GRU 모듈은 수학식 5 및 수학식 6과 같이, 메모리 업데이트를 위해 xt 및 이전 히든 스테이트(state) ht-1로 두 개의 게이트 컨트롤러 zt와 rt를 산출할 수 있다.
Figure PCTKR2021001157-appb-M000005
Figure PCTKR2021001157-appb-M000006
zt는 입력 및 출력 게이트를 제어하는 반면, rt는 히든 스테이트 ht에 반영될 메모리 부분을 결정할 수 있다. 또한, zt는 업데이트 게이트(update gate)를 의미할 수 있으며, 과거와 현재의 정보를 각각 얼마나 반영할 지에 대한 비율을 나타내는 것이다. zt 값은 현재 정보를 얼마나 사용할 지를 반영하고, 1 - zt 는 과거 정보에 대해서 얼마나 사용할 지를 반영할 수 있다. 그리고 수학식 8을 통해 현 시점의 출력값 히든 스테이트를 구할 수 있다.
그리고 rt는 리셋 게이트(reset gate)를 의미할 수 있으며, rt를 구하는 방식은 이전 시점의 히든 스테이트와 현 시점의 rt를 활성화 함수 시그모이드(sigmoid)를 적용하여 구할 수 있다. 결과값은 0 ~ 1 사이의 값을 가질 수 있으며 이전 히든 스테이트의 값을 얼마나 활용할 것인지에 대한 정보로 해석할 수 있다. 이때 리셋 게이트에서 나온 값은 그대로 사용되는 것이 아니라 수학식 7으로 다시 활용할 수 있다. 수학식 7에서는 전 시점의 히든 스테이트에 리셋 게이트를 곱하여 계산할 수 있다.
Figure PCTKR2021001157-appb-M000007
Figure PCTKR2021001157-appb-M000008
양방향 GRU 모듈에서, 연산은 일반 GRU 셀에서 가중치 곱셈 대신 3 X 3 콘볼루션(convolution)으로 대체될 수 있다. 시그모이드(sigmoid) 활성화 함수는 게이트 컨트롤러 출력 후 사용되며 쌍곡선(hyperbolic) 탄젠트 함수는 최종 히든 스테이트 출력 다음에 적용될 수 있다. 다음 순방향 GRU
Figure PCTKR2021001157-appb-I000015
및 역방향 GRU
Figure PCTKR2021001157-appb-I000016
에서 추출된 특징은 수학식 9와 같이 연결될 수 있다.
Figure PCTKR2021001157-appb-M000009
그리고 상기
Figure PCTKR2021001157-appb-I000017
는 디코더 모듈로 전달될 수 있다.
본 실시 예에서는, 도 4에 도시된 바와 같이, K개의 서포트 데이터
Figure PCTKR2021001157-appb-I000018
이 사용되면 GRU 모듈에서의 연산이 각 서포트 데이터 및 쿼리 데이터 쌍에 대해 수행되고, 획득된 특징은 다음 수학식 10과 같이 합산될 수 있다.
Figure PCTKR2021001157-appb-M000010
즉 마지막으로
Figure PCTKR2021001157-appb-I000019
이 디코더 모듈로 전달될 수 있다.
본 실시 예에서, 디코더 모듈은 고해상도 영역화를 위해 인공지능 모델이 적용될 수 있으며, 예컨대 U-Net 구조가 적용될 수 있으나 이에 한정되는 것은 아니다.
본 실시 예에서, 최종 영역화 결과는 인코더 모듈과 양방향 GRU 모듈에 의해 처리된 특징과 쿼리 데이터에 대한 인코더 모듈 Eq에서 얻은 쿼리 슬라이스 이미지의 로우 레벨 특징을 활용하여 얻을 수 있다. 로우 레벨 특징은 스킵 연결(skip connection)을 통해 디코더 모듈에 연결되며, 디코더 모듈은 로우 레벨 및 하이 레벨 정보를 모두 사용하여 영역화를 예측할 수 있다. 비용 함수는 예측과 레이블 사이의 교차 엔트로피 손실과 주사위 손실의 합으로 정의될 수 있다.
전이 학습 기반 적응
학습 단계에서는 표적 장기를 볼 수 없기 때문에, 3차원 퓨샷 영역화 모델이 목표 대상의 최적 파라미터를 학습하는 것이 어려울 수 있다. 따라서, 멀티 샷 시나리오에서는 테스트 전에 적은 수의 목표 서포트 샘플로 전이 학습을 수행할 수 있다. 특히 서포트 데이터에서 서포트 및 쿼리 쌍을 일시적으로 샘플링하고, 모델을 업데이트 할 수 있다.
예를 들어, K샷 테스트 단계에서는, K개의 서포트 세트에서 K-1개의 샘플을 임시 서포트 샘플로 선택하여 기존의 서포트 데이터와 쿼리 데이터 쌍을 수집하고, 나머지를 임시 쿼리 이미지로 사용하여 모델을 재 학습 할 수 있다.
3차원 볼륨에서 2na+1개의 인접 슬라이스를 사용하기 때문에 다양한 훈련 쌍을 샘플링하여 강력한 파인 튜닝(fine tuning) 프로세스를 지원할 수 있다. 또한 과적합을 방지하고 훈련 안정성을 장려하기 위해, 훈련 중에 랜덤 플립핑(flipping)과 로테이션(rotation) 기반 증가(augmentation)를 사용할 수 있다. 이를 통해, 본 실시 예의 3차원 퓨샷 영역화 모델은 목표 대상 데이터의 새로운 특성에 효과적으로 적응할 수 있다.
도 5는 본 개시의 일 실시 예에 따른 축 관점에서의 정성적 결과를 나타낸 도면이고, 도 6은 본 개시의 일 실시 예에 따른 시상면 및 관상면 관점에서의 정성적 결과를 나타낸 도면이다.
도 5 및 도 6을 참조하여, 본 실시 예의 3차원 퓨샷 영역화 모델에 대한 성능을 확인할 수 있다.
예를 들어, 본 실시 예의 3차원 퓨샷 영역화 모델에 대한 성능 확인 위한 데이터 세트에는 15 개 장기에 대한 분할 레이블이 있는 30 개의 3차원 CT 스캔이 포함될 수 있다. 15 개의 장기 중 9 개 장기(비장, 왼쪽 신장, 식도, 간, 위, 대동맥, 하대정맥, 방광 및 자궁)의 레이블이 테스트에 사용될 수 있다. 다른 6 개의 장기는 너무 작거나 심지어 모양 변화가 커서 지도 학습 방법으로도 분할하기가 어렵기 때문에 테스트에 사용되지 않을 수 있다.
또한 본 실시 예에서는, 두 개의 외부 데이터 세트(DECATHLON, CTORG로 지칭)를 사용하여 본 실시 예의 3차원 퓨샷 영역화 모델이 다른 특성을 가진 데이터에 적용 가능한지 확인 할 수 있다. 본 실시 예에서는 6 개 장기(폐, 뼈, 간, 왼쪽 및 오른쪽 신장, 방광)의 레이블이 있는 119 개의 이미지가 포함된 외부 데이터 세트(CTORG)를 사용할 수 있다. 이때 데이터 세트는 이미지 간 평면 해상도 및 두께가 다양할 수 있다. 본 실시 예의 테스트 세트의 많은 CT 스캔이 폐의 전체 부분을 포함하지 않고 뇌 샘플은 제한되어 있어, 폐와 뇌를 제외한 간, 신장, 방광에 대해 외부 검사를 수행할 수 있다.
또한 본 실시 예에서는, 또 다른 외부 데이터 세트(DECATHLON)를 사용하여 본 실시 예의 모델이 다른 특성을 가진 데이터에 적용 가능한지 확인할 수 있다. 이때 외부 데이터 세트(DECATHLON)는 10 개의 다른 장기(간 CT, 뇌종양 다중 모드 MRI, 해마 단일 모드 MRI, 폐 종양 CT, 전립선 다중 모드, 좌심방 단일 모드, 췌장 CT, 초기 결장암 CT, 간 혈과 CT 및 비장 CT)의 여러 이미지로 구성될 수 있다. 비장 및 간 데이터를 사용할 수 있으며, 너무 작거나 심한 형태 변화가 있는 장기는 제외될 수 있다.
본 실시 예의 데이터 세트는 학습 또는 서포트 데이터 선택을 위한 15 개의 볼륨, 검증을 위한 5 개의 볼륨 및 각 장기에 대한 테스트를 위한 10 개의 볼륨으로 나뉠 수 있다.
학습 단계에서, 서포트 및 쿼리 데이터 쌍은 퓨샷 모델을 훈련하기 위해 특정 대상 장기를 제외하고 8 개의 장기가 있는 15 개의 볼륨에서 무작위로 샘플링 될 수 있다. 그리고 테스트를 위해 서포트 데이터는 대상 장기에 대한 15 개 볼륨 중 무작위로 샘플링 될 수 있으며, 10 개 볼륨은 쿼리 이미지로 사용될 수 있다. 모든 장기에 대한 실험을 수행하는 데 시간이 많이 소요되기 때문에 본 실시 예에서는 너무 작지 않고 임상적으로 중요한 4 개의 장기(비장, 간, 신장 및 방광)에 대해서 모델을 테스트 할 수 있다. 예를 들어, 부신은 제한된 CT 스캔 조각에 나타나고 종종 장기의 3차원 구조를 파악하기 어렵기 때문에 제외될 수 있다.
외부 검증을 위해 데이터 세트에서 훈련된 모델은 외부 데이터 세트(CTORG)의 간 샘플 65 개, 신장 샘플 63 개, 방광 샘플 53 개와 또 다른 외부 데이터 세트(DECATHLON)의 비장 샘플 27 개, 간 샘플 87 개에 적용될 수 있다. 모든 이미지의 복셀(voxel) 강도는 0 에서 1 사이의 범위로 정규화 될 수 있고, 슬라이스는 각 장기에 대해 동일한 크기의 사각형으로 잘린 다음 256 X 256으로 크기가 조정될 수 있다.
본 실시 예에서 제안된 모델의 효과를 보여주기 위해, 본 실시 예의 3차원 퓨샷 영역화 모델과 U-Net 기반의 감독 방법과 도 1에 도시된 세 가지 퓨샷 모델을 비교 할 수 있다. 각 장기당 단 하나의 샘플로 훈련된 U-net 기반의 감독 방법은 하한으로 사용되었으며 접근 가능한 모든 데이터로 훈련된 것은 상한 모델로 사용되었다. 본 실시 예의 3차원 퓨샷 영역화 모델과의 공정한 비교를 위해 U-net은 5 개의 인접 축 슬라이스를 입력으로 사용하도록 수정되었으며 2차원 콘볼루션 인코더 모듈 및 디코더 모듈로 구성되었다. 그리고 Adam 최적화와 학습률이 10-4인 모든 모델에 초기화를 사용했다. 여기서 Adam 최적화는 최적화 방법 중 하나로, 스텝사이즈(stepsize)가 기울기(gradient)의 재척도화(rescaling)에 영향 받지 않는 것이 장점이다. 기울기가 커져도 스텝사이즈는 경계(bound)되어 있어서 어떠한 목적 함수(objective function)를 사용한다 하더라도 안정적으로 최적화를 위한 하강이 가능하다. 게다가 스텝사이즈를 과거의 기울기 크기를 참고하여 조정할 수 있다. 즉, Adam 최적화는 스텝사이즈를 예측 할 수 있음에 따라 하이퍼파라미터 설정 시 스텝사이즈를 미리 적절한 값으로 셋팅 할 수 있다.
한편, 본 실시 예에서는, 훈련 단계의 모든 반복에 대해, 표적 장기를 제외한 다양한 장기 영역화 레이블이 포함된 훈련 데이터에서 서포트 및 쿼리 볼륨이 무작위로 선택될 수 있다. 총 5 개의 슬라이스가 모델에 공급될 수 있으며, 즉 na가 2로 설정될 수 있다. 또한 평가된 모든 모델에 동일한 파라미터 초기화 및 데이터 증가(플립핑 및 로테이션)가 적용되었다.
FSSbase는 양방향 GRU 모듈이 생략된 경우 제안된 모델과 유사한 아키텍처를 갖는 기준 모델이다(도 1(b) 참조). FSSprototype는 예측을 위해 프로토 타입과 정렬 프로세스를 사용하며, 인코더에 의해 추출된 축소 특징 맵에서 거리 기반 픽셀 단위 분류를 구현하기 위해 전경 및 배경의 프로토 타입을 정의 할 수 있다(도 1(a) 참조). 반면, FSSSE는 서포트 및 쿼리 데이터를 위한 별도의 인코더와 디코더와 함께 처음부터 훈련된 스킵 연결이 있는 스퀴즈 및 여기 블록을 사용할 수 있다(도 1(c) 참조). 본 실시 예에서는, FSSSE를 제외하고 내부 및 외부 테스트 데이터 세트에서 1, 3 및 5 샷 모델을 평가했다. FSSSE는 원샷 설정을 위해 설계되었으므로, 3 및 5 샷 설정은 평가에 고려되지 않았다. 본 실시 예의 모델은 FSSBiGRU로 표시할 수 있다.
퓨샷 영역화 성능은 서포트 세트 선택 방법에 따라 달라질 수 있으므로, 각 쿼리 샘플에 대해 무작위로 5 회 샘플링 된 다른 서포트 세트로 실험을 수행했으며, 전체 시도의 평균 값을 산출할 수 있다. 퓨샷 영역화 성능은 예측과 레이블 간의 주사위 유사성 점수로 측정될 수 있다.
먼저 내부 테스트에 대해 살펴보면, 아래 표 1은 내부 데이터 세트에 대해 훈련 및 테스트 된 방법에 대한 전체 비교를 보여줄 수 있다. 보다 구체적으로 표 1은 평가 지표(주사위 점수±표준편차)를 사용하여 내부 데이터 세트의 기준 모델에 대한 본 실시 예의 모델 FSSBiGRU의 성능 비교를 나타낸 것으로, 두 번째 열은 훈련 데이터의 수(#)를 나타내고 FT는 파인 튜닝을 나타낸다. 볼드체로 표시된 것은 퓨샷 비교 방법 중 최고의 성능을 보여주는 것이다. 여기서 주사위 점수(Dice Score)는 두 영역의 겹침 정도를 평가하는 여러 Metric 중 하나이다.
Figure PCTKR2021001157-appb-T000001
FSSBiGRU는 파인 튜닝 여부와 다른 수의 샘플을 사용한 변형에서, FSSbase와 유사한 성능을 보여주었다. 마진(margin)은 대략 20 % 의 평균 점수 향상과 함께 모든 장기에 대 원샷 설정에서 크게 중요했다. 즉 본 실시 예의 방법이 극도로 제한된 데이터 영역에서도 영역화가 가능하다는 것을 확실히 보여준다.
특히 본 실시 예에서는, 대부분의 경우 데이터 샘플이 증가함에 따라 더 좋아졌고(즉, 정확도가 증가), 강력해졌다(즉, 표준 편차가 감소). 상한선이 대부분의 장기에서 높은 점수를 받았다는 것은 놀라운 일이 아니지만, 본 실시 예의 모델이 비슷한 성능을 보여준 것은 중요하다. 또한 전이 학습이 전체 성능을 크게 향상 시켰음을 알 수 있다. 즉 추가 업데이트 후에 본 실시 예의 모델이 훈련에서 보이지 않는 표적 장기의 영역화 태스크를 조정할 수 있음 의미한다. 이러한 결과는 인접 슬라이스 간의 관계를 인코딩하기 위해 3차원 구조 정보와 함께 여러 슬라이스를 고려할 때 신뢰할 수 있는 영역화를 달성 할 수 있음을 보여준다.
다음으로 외부 테스트에 대해 살펴보면, 아래 표 2에서는 분포 이동 시 모델 성능을 평가하기 위해 외부 데이터 세트에 대한 접근 방식을 추가로 평가할 수 있다. 보다 구체적으로, 표 2는 평가 지표(주사위 점수±표준편차)를 사용하여 외부 데이터 세트에 대한 성능 비교를 나타낸 것으로, U-net(BCV)은 내부 데이터 세트로 학습된 모델이고, U-net(lower) 및 U-net(upper)은 동일한 외부 데이터 세트를 사용하여 학습된 것이다. 각 장기의 볼륨 수가 다르기 때문에 U-net(upper)에 대한 훈련 데이터 수(#)로 사용된 5 개의 숫자(예를 들어, 비장을 위한 27 개의 훈련 볼륨(DECATHLON))를 나타낼 수 있다. 볼드체로 표시된 것은 퓨샷 비교 방법 중 최고의 성능을 보여주는 것이다.
Figure PCTKR2021001157-appb-T000002
본 실시 예에서는, 단순화를 위해 FSSbase 및 FSSprototype에 대한 5 샷 설정을 고려할 수 있다. 내부 데이터 세트에서 훈련된 상한선과 외부 데이터 세트의 모든 액세스 가능한 데이터를 사용하여 훈련된 상한 및 하한 방법도 완전성을 위해 포함될 수 있다.
일반적으로 내부 데이터 세트로 훈련된 상한 모델의 성능이 외부 데이터 세트에서 저하되는 것을 볼 수 있다. 이 모델은 표 1의 결과와 비교하여 외부 데이터 세트(DECATHLON)의 간을 제외한 대부분의 장기에서 현저하게 감소된 점수를 얻었다. 이는 임상 설정에 사용 된 스캔 프로토콜과 기계가 다르기 때문이다. 모델이 특정 해상도의 모양에 과적 합할 수 있으므로 해상도가 다른 외부 데이터 세트에서 신뢰할 수 있는 영역화를 달성하는 것이 어려울 수 있다.
반면에 본 실시 예의 3차원 퓨샷 영역화 모델은 훈련과 테스트 모두에서 쿼리와 서포트 샘플 간의 유사성을 캡쳐하여 이 효과를 완화 할 수 있다. 특히, 본 실시 예에서는 외부 데이터 세트(DECATHLON)의 두 장기와 외부 데이터 세트(CTORG)의 방광에 대한 테스트에서 비슷한 성능을 얻었음을 볼 수 있다. 특히 전이 학습 업데이트를 통해 외부 데이터 세트(DECATHLON)에서 향상된 성능, 즉 두 장기 기관 모두에서 + 3 %를 얻었음을 볼 수 있다. 이 성능은 외부 데이터 세트(DECATHLON)의 상위 모델과 비슷한 결과를 나타낼 수 있다.
외부 데이터 세트(CTORG)의 신장과 간에 대한 본 실시 예의 3차원 퓨샷 영역화 모델의 성능은 내부 테스트의 성능보다 훨씬 낮음을 볼 수 있다. 외부 데이터 세트(CTORG)의 경우 훈련 데이터가 상대적으로 많기 때문에 지도 학습의 성능이 좋았으나, 소수의 서포트 데이터 중 쿼리 이미지와 유사한 해상도의 이미지가 없는 경우 퓨샷 학습 방법의 성능이 저하될 수 있다. 이러한 의미에서 서포트 및 쿼리 이미지의 해상도가 일치하지 않으면 전이 학습 전략도 중요하지 않다. 그러나 본 실시 예의 3차원 퓨샷 영역화 모델은 모든 퓨샷 모델 중 최고의 성과를 달성했으며, 여러 해상도의 데이터를 서포트 세트에 포함하면 더 나은 결과를 얻을 수 있을 것이다.
도 5는 축 관점의 정성적 결과를 나타낸 것이고, 도 6은 관상면 및 시상면에서의 정성적 결과를 나타낸 것으로, 비장과 신장은 시상면에 표시되고 간과 방광은 관상면에 표시될 수 있다.
도 5 및 도 6에 도시된 바와 같이, 대부분의 경우 본 실시 예의 3차원 퓨샷 영역화 모델은 다른 퓨샷 모델들과 달리 실측 레이블과 유사한 영역화 결과를 얻었음을 볼 수 있다. 다른 퓨샷 모델들은 인접한 슬라이스 사이의 정보를 고려하지 않기 때문에 영역화가 부드럽지 않은 경우가 많고 장기 외부의 노이즈와 같은 오 탐지가 발생하게 되는 것을 볼 수 있다. 이는 서포트 및 쿼리 이미지의 모양이 다를 때 더욱 두드러지게 나타난다. 훈련이 수행된 축 관점에서의 결과에 비해 시상면 또는 관상면에서 인접 슬라이스 간의 예측 차이가 상대적으로 큰 것을 볼 수 있다(도 6 참조). 그러나 본 실시 예의 3차원 퓨샷 영역화 모델은 인접한 슬라이스 간의 정보를 함께 고려하기 때문에 시상면과 관상면에서도 경계가 매끄럽게 나타나는 것을 볼 수 있다.
즉 본 실시 예는, 제한된 데이터 체계 하에서 CT 장기 영역화를 위한 새로운 프레임 워크를 제안하는 것으로, 다중 슬라이스 정보를 안정적으로 통합하여 CT 스캔에서 보이지 않는 장기의 정확한 영역화를 달성할 수 있다. 또한 양방향 GRU 모듈을 통해 특징 학습 개선을 위해 3차원 공간 정보를 효과적으로 모델링 할 수 있으며, 전이 학습 과정을 통해 보이지 않는 대상 작업에 대한 최적의 파라미터를 학습할 수 있다. 또한 테스트 결과, 본 실시 예의 3차원 퓨샷 영역화 모델은 내부 및 일부 외부 데이터 세트에 대하여 지도 학습 모델에 필적하는 영역화 성능을 달성했음을 볼 수 있다.
도 7은 본 개시의 일 실시 예에 따른 3차원 영상 영역화 방법을 설명하기 위한 흐름도이다.
도 7에 도시된 바와 같이, S710단계에서, 프로세서(130)는 영역화의 대상이 되는 3차원 쿼리 이미지 및 영역화 대상이 표시된 3차원 서포트 이미지를 획득한다. 즉 프로세서(130)는 영역화의 대상이 되는 3차원 영상 데이터인 쿼리 이미지, 쿼리 이미지의 영역화를 위해 참조로 사용되는 3차원 서포트 이미지 및 서포트 이미지에서 영역화 객체가 표시된 서포트 레이블을 획득할 수 있다. 예를 들어, 쿼리 이미지는 A 환자의 3차원 복부 CT 이미지이고, 서포트 이미지는 B 환자의 3차원 복수 CT 이미지일 수 있다. 쿼리 이미지는, 예를 들어, 간(Liver)에 대한 영역화 요청과 함께 입력된 것일 수 있고, 서포트 레이블은 서포트 이미지 내에서 간(Liver) 영역이 미리 영역화된 이미지일 수 있다.
S720단계에서, 프로세서(130)는 3차원 영상 데이터 영역화 태스크를 수행하도록 훈련된 학습 모델을 로딩한다. 이러한 학습 모델은 미리 훈련된 모델이며, 메모리(110)에 미리 저장되어 있는 모델일 수 있다.
S730단계에서, 프로세서(130)는 3차원 쿼리 이미지, 3차원 서포트 이미지 및 3차원 서포트 레이블을 학습 모델에 입력한다. 또는 3차원 쿼리 이미지, 3차원 서포트 이미지, 3차원 서포트 레이블에 학습 모델을 적용한다.
S740단계에서, 프로세서(130)는 3차원 쿼리 이미지 및 3차원 서포트 이미지, 3차원 서포트 레이블을 n 개의 2차원 슬라이스 이미지로 분할한다.
S750단계에서, 프로세서(130)는 2차원 슬라이스 쿼리 이미지들과 이에 대응하는 2차원 슬라이스 서포트 이미지들, 2차원 슬라이스 서포트 레이블들을 매칭한다.
S760단계에서, 프로세서(130)는 2차원 슬라이스 서포트 이미지 및 2차원 슬라이스 서포트 레이블에 기초하여 현재 2차원 슬라이스 쿼리 이미지를 영역화하는 과정에서 이전 2차원 슬라이스 쿼리 이미지에 대한 영역화 결과(또는 영역화 과정에서 도출되는 중간값, 예를 들어 특징맵)와 다음 2차원 슬라이스 이미지의 영역화 결과(또는 영역화 과정에서 도출되는 중간값, 예를 들어 특징맵)를 참조하여 현재 2차원 슬라이스 쿼리 이미지의 영역화를 수행한다. 즉, 상술된 예에 따르면 2차원 슬라이스 쿼리 이미지에서 간 영역을 표시한다.
S770단계에서, 프로세서(130)는 영역화가 수행된 2차원 슬라이스 쿼리 이미지들에 기초하여 영역화가 수행된 3차원 쿼리 이미지를 출력한다. 즉 프로세서(130)는 쿼리 이미지, 서포트 이미지 및 서포트 레이블에 학습 모델을 적용하여 쿼리 이미지 상에 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력할 수 있다. 상술된 예에 따르면, 쿼리 이미지 상에 간 영역이 표시된 이미지가 출력될 수 있다.
다른 실시 예에서, 학습 모델은 입력되는 3차원 영상 데이터를 n 개의 2차원 슬라이스 이미지로 변환하고, 적어도 1 개의 슬라이스 이미지에 대해, 현재 슬라이스 이미지의 영역화 과정에서 이전 슬라이스 이미지에 대한 영역화 과정에서의 출력값 및 다음 슬라이스 이미지의 영역화 과정에서의 출력값을 참조하여 현재 슬라이스 이미지의 영역화를 수행하도록 구성될 수 있다.
도 8은 본 개시의 일 실시 예에 따른 학습 모델 훈련을 설명하기 위한 흐름도이다.
도 8에 도시된 바와 같이, 영상 이미지 영역화를 수행하는 모델을 훈련시키기 위해, S810단계에서, 프로세서(130)는 영상 데이터 영역화를 위한 학습 모델을 구성한다. 이는 초기 학습 모델로 내부의 파라미터 값들이 최적화되기 이전의 상태이며, 초기 파라미터 값들은 임의로 설정될 수 있다.
S820단계에서, 프로세서(130)는 요청 이미지에서 제 1 종류의 객체에 대한 영역화를 요청하는 제 1 쿼리 이미지, 레퍼런스 이미지에서 제 1 종류의 객체에 대한 영역화가 수행된 제 1 서포트 이미지, 요청 이미지에서 제 1 종류의 객체에 대한 영역화가 이루어진 제 1 레이블 이미지를 이용하여 학습 모델을 훈련한다. 예를 들어, 제 1 종류의 객체는 간일 수 있다.
위와 같은 단계가 다른 객체들에 대해 반복되어 S830단계에서는, 프로세서(130)는 요청 이미지에서 제 n 종류의 객체에 대한 영역화를 요청하는 제 n 쿼리 이미지, 레퍼런스 이미지에서 제 n 종류의 객체에 대한 영역화가 수행된 제 n 서포트 이미지, 요청 이미지에서 제 n 종류의 객체에 대한 영역화가 이루어진 제 n 레이블 이미지를 이용하여 학습 모델을 훈련한다. 예를 들어, 제 n 종류의 객체는 폐일 수 있으며, n 값은 정수값일 수 있다. 도 8에서는 제 n 종류의 객체까지 서로 다른 객체들에 대해 수행되는 훈련 과정이 생략되어 있다.
S840단계에서, 프로세서(130)는 훈련된 학습 모델에 대한 테스트를 수행한다. 즉 프로세서(130)는 요청 이미지에서 제 n+1 종류의 객체에 대한 영역화를 요청하는 n+1 쿼리 이미지 및 레퍼런스 이미지에서 제 n+1 종류의 객체에 대한 영역화가 수행된 제 n+1 서포트 이미지를 입력하여 도출되는 출력 이미지를 체크하는 테스트를 수행할 수 있다. 예를 들어, 제 n+1 종류의 객체는 위일 수 있다.
예를 들어, S820단계에서 간에 대한 영역화를 요청하는 태스크에 대한 학습 모델 훈련을 수행하고, S830단계에서 폐에 대한 영역화를 요청하는 태스크에 대한 학습 모델 훈련을 수행했다고 가정할 수 있다. 이때 본 실시 예에서는, S840단계에서, 간 및 폐를 제외한 다른 장기에 대한 서포트 이미지를 입력하여 해당 장기에 대한 이미지가 출력되는지 여부를 확인하여 테스트를 수행할 수 있다.
이때, 프로세서(130)는 출력 이미지를 제 n+1 쿼리 이미지에서 제 n+1 종류의 객체에 대한 영역화가 수행된 제 n+1 서포트 레이블과 비교하여 유사도를 평가하여, 테스트를 수행할 수 있다.
도 9는 본 개시의 일 실시 예에 따른 훈련된 학습 모델의 파인 튜닝(fine tuning) 방법을 설명하기 위한 흐름도이다.
도 9에 도시된 바와 같이, S910단계에서, 프로세서(130)는 K개의 서포트 이미지를 준비한다. 이때 프로세서(130)는 K개의 서포트 이미지와 K개의 서포트 레이블을 준비할 수 있다.
그리고 S920단계에서, 프로세서(130)는 영상 영역화를 위해 훈련된 초기 학습 모델을 로딩한다.
S930단계에서, 프로세서(130)는 K개의 서포트 이미지 중 K-1 개의 서포트 이미지를 예비 서포트 이미지로 사용하고 나머지 1 개의 서포트 이미지를 레이블링된 쿼리 이미지로 사용하여 초기 학습 모델을 추가 훈련(초기 학습 모델 미세 조정)한다. 다시 말해, 프로세서(130)는 K개의 서포트 이미지 중 1 개의 서포트 이미지 및 서포트 레이블을 레이블링 된 쿼리 이미지로, 나머지 K-1 개의 서포트 이미지 및 서포트 레이블을 추가 훈련을 위한 서포트 이미지 세트 및 서포트 레이블 세트로 이용하여 학습 모델에 대한 추가 훈련을 수행할 수 있다.
다시 말해, 프로세서(130)는 서포트 이미지에서 샘플링 된 이미지를 추가 학습을 위한 서포트 이미지와 쿼리 이미지로 설정하여 학습 모델의 파라미터를 업데이트 하는 전이 학습을 수행할 수 있다. 그리고 프로세서(130)는 모든 서포트 이미지에 대해, 한 번씩 쿼리 이미지로 설정되도록 하여 업데이트하는 단계를 반복할 수 있다. 이러한 업데이트를 통해 도 8에서와 같이 훈련된 학습 모델이 한 단계 더 미세조정되어 영역화 성능이 보다 향상될 수 있다.
도 10은 본 개시의 일 실시 예에 따른 학습 모델의 적용을 설명하기 위한 흐름도이다.
도 10에 도시된 바와 같이, S1010단계에서, 프로세서(130)는 3차원 서포트 데이터 및 3차원 쿼리 데이터가 입력되면, S1020단계에서, 서포트 데이터 및 쿼리 데이터를 슬라이스하여 2차원 슬라이스 이미지로 생성할 수 있다.
S1030단계에서, 프로세서(130)는 서포트 데이터 및 쿼리 데이터를 각각 서포트 인코딩 모듈 및 쿼리 인코딩 모듈에 입력한다. 즉, 프로세서(130)는 서포트 이미지의 복수의 2차원 슬라이스 이미지 및 서포트 이미지에 대응하는 서포트 레이블의 복수의 2차원 슬라이스 이미지를 서포트 인코더 모듈에 입력할 수 있다. 그리고 프로세서(130)는 서포트 이미지의 복수의 2차원 슬라이스에 대응하는 쿼리 이미지의 복수의 2차원 슬라이스 이미지를 쿼리 인코더 모듈에 입력할 수 있다.
S1040단계에서, 프로세서(130)는 서포트 인코딩 모듈에 의한 특징맵 및 쿼리 인코딩 모듈에 의한 특징맵을 결합한다. 이때 프로세서(130)는 서포트 인코더 모듈에서 서포트 이미지의 복수의 2차원 슬라이스 이미지 및 서포트 레이블의 복수의 2차원 슬라이스 이미지의 특징맵을 각각 추출하고, 쿼리 인코더 모듈에서 쿼리 이미지의 복수의 2차원 슬라이스 이미지의 특징맵을 각각 추출하여, 각각의 슬라이스 이미지에 대해, 서포트 인코더 모듈에서 추출된 특징맵과 쿼리 인코더 모듈에서 추출된 특징맵을 결합할 수 있다.
S1050단계에서, 프로세서(130)는 결합된 특징맵을 순환 신경망에 적용한다. 이때 프로세서(130)는 기설정된 조건을 통해 연속적으로 배열된 슬라이스 이미지들에서 인접 슬라이스 이미지를 선택하고, 순환 신경망에 기반하여 선택된 인접 슬라이스 이미지 간의 특징 관계를 추출할 수 있다. 또한 프로세서(130)는 순환 신경망에 기반하여, 선택된 인접 슬라이스 이미지에서 순방향으로 특징맵이 순차적으로 전달된 후, 역방향으로 특징맵이 전달되도록 하고, 전달된 인접 슬라이스 이미지의 특징맵에 기반하여 각 슬라이스 이미지의 특징맵이 업데이트 되도록 할 수 있다.
그리고 S1060단계에서, 프로세서(130)는 순환 신경망에 의해 업데이트 된 특징맵을 디코더 모듈에 입력하여, S1070단계에서, 3차원 영상 데이터 영역화 태스크에 대한 영역화를 수행한다. 이때, 프로세서(130)는 쿼리 이미지의 복수의 2차원 슬라이스 이미지의 로우 레벨 특징맵을 스킵 연결(skip connection)을 통해 디코더 모듈에 입력되도록 할 수 있다. 그리고 프로세서(130)는 디코더 모듈에서 각 슬라이스 이미지의 업데이트 된 특징맵과 쿼리 이미지의 복수의 2차원 슬라이스 이미지의 로우 레벨 특징맵에 기반하여 임의의 3차원 영상 데이터 영역화 태스크에 대한 영역화를 수행할 수 있다.
마지막으로, S1080단계에서, 프로세서(130)는 전이 학습을 수행한다. 즉, 프로세서(130)는 서포트 이미지에서 샘플링 된 데이터를 추가 학습을 위한 서포트 이미지와 쿼리 이미지로 설정하여 학습 모델의 파라미터를 업데이트 하는 전이 학습을 수행할 수 있다. 보다 구체적으로, 프로세서(130)는 서포트 이미지가 K개일 때, K1개를 추가 학습을 위한 서포트 이미지로 설정하고 나머지 1 개를 추가 학습을 위한 쿼리 이미지로 설정할 수 있다. 그리고 프로세서(130)는 K-1개의 추가 학습을 위한 서포트 이미지와 추가 학습을 위한 쿼리 이미지를 이용하여 학습 모델을 업데이트할 수 있다. 또한 프로세서(130)는 모든 서포트 데이터에 대해, 한 번씩 쿼리 이미지로 설정되도록 하여 업데이트하는 단계를 반복함으로써 전이학습을 수행할 수 있다.
이상 설명된 본 발명에 따른 실시 예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.
본 발명의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다.
본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.
한편, 본 발명은 아래와 같이 기재된 국가연구개발사업에 의해 지원을 받는다.
과제 1)
[과제고유번호] 1415167935
[정부 부처명] 산업통상자원부
[연구관리전문기관] 한국산업기술평가관리원
[연구사업명] 현장수요반영의료기기고도화기술개발(R&D)
[연구과제명] 구강악안면 수술을 위한 인공지능 기반의 증강현실 수술 시스템 개발
[기여율] 1/1
[주관기관] (주)메가젠임플란트
[연구기간] 2020.03.01 ~ 2020.12.31

Claims (18)

  1. 양방향 순환네트워크 기반 퓨샷 러닝(few-shot learning)을 적용하는 3차원 영상 영역화(segmentation) 방법으로서,
    영역화의 대상이 되는 3차원 영상 데이터인 쿼리 이미지, 상기 쿼리 이미지의 영역화를 위해 참조로 사용되는 3차원 서포트 이미지 및 상기 서포트 이미지에서 영역화 객체가 표시된 서포트 레이블을 획득하는 단계;
    3차원 영상 데이터 영역화를 수행하도록 훈련된 학습 모델을 로딩하는 단계; 및
    상기 쿼리 이미지, 상기 서포트 이미지 및 상기 서포트 레이블에 상기 학습 모델을 적용하여 상기 쿼리 이미지 상에 상기 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 단계를 포함하고,
    상기 학습 모델은 입력되는 3차원 영상 데이터를 n개의 2차원 슬라이스 이미지로 변환하고, 적어도 1 개의 슬라이스 이미지에 대해, 현재 슬라이스 이미지의 영역화 과정에서 이전 슬라이스 이미지에 대한 영역화 과정에서의 출력값 및 다음 슬라이스 이미지의 영역화 과정에서의 출력값을 참조하여 상기 현재 슬라이스 이미지의 영역화를 수행하도록 구성되는,
    3차원 영상 영역화 방법.
  2. 제 1 항에 있어서,
    상기 서포트 이미지는 K 개의 서포트 이미지이고,
    상기 서포트 레이블은 K 개의 서포트 레이블이며,
    상기 방법은, 상기 로딩하는 단계 이후, 상기 출력하는 단계 이전에,
    K 개의 서포트 이미지 중 1 개의 서포트 이미지 및 서포트 레이블을 레이블링된 쿼리 이미지로, 나머지 K-1 개의 서포트 이미지 및 서포트 레이블을 추가 훈련을 위한 서포트 이미지 세트 및 서포트 레이블 세트로 이용하여 상기 학습 모델에 대한 추가 훈련을 수행하는 단계를 더 포함하는,
    3차원 영상 영역화 방법.
  3. 제 1 항에 있어서,
    상기 학습 모델은,
    영상 데이터 영역화를 위한 초기 모델을 구성하는 단계;
    상기 초기 모델에 대해, 제 1 종류의 객체에 대한 영역화를 요청하는 제 1 쿼리 이미지, 제 1 서포트 이미지, 상기 제 1 서포트 이미지에 상기 제 1 종류의 객체에 대한 영역화가 수행된 제 1 서포트 레이블, 상기 제 1 쿼리 이미지에서 제 1 종류의 객체에 대한 영역화가 이루어진 제 1 레이블 이미지를 이용하여 제 1 훈련을 수행하는 단계;
    상기 제 1 훈련을 수행하는 단계에 의해 도출된 학습 모델에 대해, 제 2 종류의 객체에 대한 영역화를 요청하는 제 2 쿼리 이미지, 제 2 서포트 이미지, 상기 제 2 서포트 이미지에 상기 제 2 종류의 객체에 대한 영역화가 수행된 제 2 서포트 레이블, 상기 제 2 쿼리 이미지에서 제 2 종류의 객체에 대한 영역화가 이루어진 제 2 레이블 이미지를 이용하여 제 2 훈련을 수행하는 단계; 및
    상기 제 2 훈련을 수행하는 단계에 의해 도출된 학습 모델에 대해, 제 3 종류의 객체에 대한 영역화를 요청하는 제 3 쿼리 이미지, 제 3 서포트 이미지 및 상기 제 3 종류의 객체에 대한 영역화가 수행된 제 3 서포트 레이블을 입력하여 도출되는 출력 이미지를 체크하는 테스트 단계를 포함하는 훈련 페이즈(phase)에 의해 훈련된,
    3차원 영상 영역화 방법.
  4. 제 3 항에 있어서,
    상기 테스트 단계는,
    상기 출력 이미지를 상기 제 3 쿼리 이미지에서 상기 제 3 종류의 객체에 대한 영역화가 수행된 제 3 레이블 이미지와 비교하여 유사도를 평가하는 단계를 포함하는,
    3차원 영상 영역화 방법.
  5. 제 1 항에 있어서,
    상기 학습 모델을 적용하여 상기 쿼리 이미지 상에 상기 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 단계는,
    상기 서포트 이미지의 복수의 2차원 슬라이스 이미지 및 상기 서포트 이미지에 대응하는 서포트 레이블의 복수의 2차원 슬라이스 이미지를 서포트 인코더 모듈에 입력하는 단계;
    상기 서포트 이미지의 복수의 2차원 슬라이스에 대응하는 상기 쿼리 이미지의 복수의 2차원 슬라이스 이미지를 쿼리 인코더 모듈에 입력하는 단계;
    상기 서포트 인코더 모듈에서 상기 서포트 이미지의 복수의 2차원 슬라이스 이미지 및 상기 서포트 레이블의 복수의 2차원 슬라이스 이미지의 특징맵을 각각 추출하는 단계; 및
    상기 쿼리 인코더 모듈에서 상기 쿼리 이미지의 복수의 2차원 슬라이스 이미지의 특징맵을 추출하는 단계를 포함하는,
    3차원 영상 영역화 방법.
  6. 제 5 항에 있어서,
    상기 학습 모델을 적용하여 상기 쿼리 이미지 상에 상기 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 단계는,
    각각의 슬라이스 이미지에 대해, 상기 서포트 인코더 모듈에서 추출된 특징맵과 상기 쿼리 인코더 모듈에서 추출된 특징맵을 결합하는 단계;
    기설정된 조건을 통해 연속적으로 배열된 슬라이스 이미지들에서 인접 슬라이스 이미지를 선택하는 단계; 및
    순환 신경망에 기반하여 상기 선택된 인접 슬라이스 이미지 간의 특징 관계를 추출하는 단계를 더 포함하는,
    3차원 영상 영역화 방법.
  7. 제 6 항에 있어서,
    상기 인접 슬라이스 이미지 간의 특징 관계를 추출하는 단계는,
    순환 신경망에 기반하여, 상기 선택된 인접 슬라이스 이미지에서 순방향으로 특징맵이 순차적으로 전달된 후, 역방향으로 특징맵이 전달되는 단계; 및
    전달된 인접 슬라이스 이미지의 특징맵에 기반하여 각 슬라이스 이미지의 특징맵이 업데이트 되는 단계를 포함하는,
    3차원 영상 영역화 방법.
  8. 제 6 항에 있어서,
    상기 순환 신경망은, RNN(Recurrent Neural Network), LSTM(Long Short term Memory) 및 GRU(Gated Recurrent Unit) 중 하나로 구성되는,
    3차원 영상 영역화 방법.
  9. 제 7 항에 있어서,
    상기 학습 모델을 적용하여 상기 쿼리 이미지 상에 상기 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 단계는,
    상기 각 슬라이스 이미지의 업데이트 된 특징맵을 디코더 모듈에 입력하는 단계; 및
    상기 디코더 모듈에서 상기 각 슬라이스 이미지의 업데이트 된 특징맵을 기반으로 디코딩하여 임의의 3차원 영상 데이터 영역화 태스크에 대한 영역화를 수행하는 단계를 더 포함하는,
    3차원 영상 영역화 방법.
  10. 제 9 항에 있어서,
    상기 학습 모델을 적용하여 상기 쿼리 이미지 상에 상기 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 단계는,
    상기 쿼리 이미지의 복수의 2차원 슬라이스 이미지의 로우 레벨 특징맵을 스킵 연결(skip connection)을 통해 디코더 모듈에 입력하는 단계를 더 포함하는,
    3차원 영상 영역화 방법.
  11. 제 10 항에 있어서,
    상기 영역화를 수행하는 단계는,
    상기 디코더 모듈에서 상기 각 슬라이스 이미지의 업데이트 된 특징맵과 상기 쿼리 이미지의 복수의 2차원 슬라이스 이미지의 로우 레벨 특징맵에 기반하여 임의의 3차원 영상 데이터 영역화 태스크에 대한 영역화를 수행하는 단계를 포함하는,
    3차원 영상 영역화 방법.
  12. 제 1 항에 있어서,
    상기 방법은, 상기 로딩하는 단계 이후, 상기 출력하는 단계 이전에,
    서포트 이미지에서 샘플링 된 이미지를 추가 학습을 위한 서포트 이미지와 쿼리 이미지로 설정하여 상기 학습 모델의 파라미터를 업데이트 하는 전이(transfer) 학습을 수행하는 단계를 더 포함하는,
    3차원 영상 영역화 방법.
  13. 제 12 항에 있어서,
    상기 전이 학습을 수행하는 단계는,
    서포트 이미지가 K 개일 때, K1 개를 추가 학습을 위한 서포트 이미지로 설정하고 나머지 1 개를 추가 학습을 위한 쿼리 이미지로 설정하는 단계; 및
    상기 K-1 개의 추가 학습을 위한 서포트 이미지와 상기 추가 학습을 위한 쿼리 이미지를 이용하여 상기 학습 모델을 업데이트하는 단계; 및
    모든 서포트 이미지에 대해, 한 번씩 쿼리 이미지로 설정되도록 하여 상기 업데이트하는 단계를 반복하는 단계를 포함하는,
    3차원 영상 영역화 방법.
  14. 양방향 순환네트워크 기반 퓨샷 러닝(few-shot learning)을 적용하는 3차원 영상 영역화(segmentation) 장치로서,
    메모리; 및
    상기 메모리와 연결되고, 상기 메모리에 포함된 컴퓨터 판독 가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는,
    영역화의 대상이 되는 3차원 영상 데이터인 쿼리 이미지, 상기 쿼리 이미지의 영역화를 위해 참조로 사용되는 3차원 서포트 이미지 및 상기 서포트 이미지에서 영역화 객체가 표시된 서포트 레이블을 획득하는 동작,
    3차원 영상 데이터 영역화를 수행하도록 훈련된 학습 모델을 로딩하는 동작, 및
    상기 쿼리 이미지, 상기 서포트 이미지 및 상기 서포트 레이블에 상기 학습 모델을 적용하여 상기 쿼리 이미지 상에 상기 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 동작을 수행하도록 구성되고,
    상기 학습 모델은 입력되는 3차원 영상 데이터를 n개의 2차원 슬라이스 이미지로 변환하고, 적어도 1 개의 슬라이스 이미지에 대해, 현재 슬라이스 이미지의 영역화 과정에서 이전 슬라이스 이미지에 대한 영역화 과정에서의 출력값 및 다음 슬라이스 이미지의 영역화 과정에서의 출력값을 참조하여 상기 현재 슬라이스 이미지의 영역화를 수행하도록 구성되는,
    3차원 영상 영역화 장치.
  15. 제 14 항에 있어서,
    상기 서포트 이미지는 K 개의 서포트 이미지이고,
    상기 서포트 레이블은 K 개의 서포트 레이블이며,
    상기 적어도 하나의 프로세서는, 상기 로딩하는 동작 이후, 상기 출력하는 동작 이전에,
    K 개의 서포트 이미지 중 1 개의 서포트 이미지 및 서포트 레이블을 레이블링된 쿼리 이미지로, 나머지 K-1개 의 서포트 이미지 및 서포트 레이블을 추가 훈련을 위한 서포트 이미지 세트 및 서포트 레이블 세트로 이용하여 상기 학습 모델에 대한 추가 훈련을 수행하는 동작을 더 포함하는,
    3차원 영상 영역화 장치.
  16. 제 14 항에 있어서,
    상기 학습 모델은,
    영상 데이터 영역화를 위한 초기 모델을 구성하는 단계;
    상기 초기 모델에 대해, 제 1 종류의 객체에 대한 영역화를 요청하는 제 1 쿼리 이미지, 제 1 서포트 이미지, 상기 제 1 서포트 이미지에 상기 제 1 종류의 객체에 대한 영역화가 수행된 제 1 서포트 레이블, 상기 제 1 쿼리 이미지에서 제 1 종류의 객체에 대한 영역화가 이루어진 제 1 레이블 이미지를 이용하여 제 1 훈련을 수행하는 단계;
    상기 제 1 훈련을 수행하는 단계에 의해 도출된 학습 모델에 대해, 제 2 종류의 객체에 대한 영역화를 요청하는 제 2 쿼리 이미지, 제 2 서포트 이미지, 상기 제 2 서포트 이미지에 상기 제 2 종류의 객체에 대한 영역화가 수행된 제 2 서포트 레이블, 상기 제 2 쿼리 이미지에서 제 2 종류의 객체에 대한 영역화가 이루어진 제 2 레이블 이미지를 이용하여 제 2 훈련을 수행하는 단계; 및
    상기 제 2 훈련을 수행하는 단계에 의해 도출된 학습 모델에 대해, 제 3 종류의 객체에 대한 영역화를 요청하는 제 3 쿼리 이미지, 제 3 서포트 이미지 및 상기 제 3 종류의 객체에 대한 영역화가 수행된 제 3 서포트 레이블을 입력하여 도출되는 출력 이미지를 체크하는 테스트 단계를 포함하는 훈련 페이즈(phase)에 의해 훈련된,
    3차원 영상 영역화 장치.
  17. 제 16 항에 있어서,
    상기 테스트 단계는,
    상기 출력 이미지를 상기 제 3 쿼리 이미지에서 상기 제 3 종류의 객체에 대한 영역화가 수행된 제 3 레이블 이미지와 비교하여 유사도를 평가하는 단계를 포함하는,
    3차원 영상 영역화 장치.
  18. 제 14 항에 있어서,
    상기 학습 모델을 적용하여 상기 쿼리 이미지 상에 상기 영역화 객체와 같은 종류의 객체가 영역화된 결과 이미지를 출력하는 동작은,
    상기 서포트 이미지의 복수의 2차원 슬라이스 이미지 및 상기 서포트 이미지에 대응하는 서포트 레이블의 복수의 2차원 슬라이스 이미지를 서포트 인코더 모듈에 입력하는 동작,
    상기 서포트 이미지의 복수의 2차원 슬라이스에 대응하는 상기 쿼리 이미지의 복수의 2차원 슬라이스 이미지를 쿼리 인코더 모듈에 입력하는 동작,
    상기 서포트 인코더 모듈에서 상기 서포트 이미지의 복수의 2차원 슬라이스 이미지 및 상기 서포트 레이블의 복수의 2차원 슬라이스 이미지의 특징맵을 각각 추출하는 동작, 및
    상기 쿼리 인코더 모듈에서 상기 쿼리 이미지의 복수의 2차원 슬라이스 이미지의 특징맵을 각각 추출하는 동작을 포함하는,
    3차원 영상 영역화 장치.
PCT/KR2021/001157 2020-11-18 2021-01-28 3차원 영상 영역화 방법 및 장치 WO2022107998A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200154731A KR102554914B1 (ko) 2020-11-18 2020-11-18 3차원 영상 영역화 방법 및 장치
KR10-2020-0154731 2020-11-18

Publications (1)

Publication Number Publication Date
WO2022107998A1 true WO2022107998A1 (ko) 2022-05-27

Family

ID=81709253

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/001157 WO2022107998A1 (ko) 2020-11-18 2021-01-28 3차원 영상 영역화 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102554914B1 (ko)
WO (1) WO2022107998A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011672A (zh) * 2023-09-27 2023-11-07 之江实验室 基于类特定元提示学习的小样本类增对象识别方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102584454B1 (ko) * 2022-11-22 2023-10-04 주식회사 퓨너스 빅데이터 머신 러닝을 이용한 코딩용 컨텐츠 제작 방법 및 이를 실행하는 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101849072B1 (ko) * 2017-08-29 2018-04-16 주식회사 뷰노 콘텐츠 기반 의료 영상 검색 방법 및 시스템
KR20200032651A (ko) * 2018-09-18 2020-03-26 서울대학교산학협력단 3차원 영상 재구성 장치 및 그 방법
KR20200094608A (ko) * 2019-01-30 2020-08-07 삼성전자주식회사 이미지를 처리하기 위한 방법 및 그에 따른 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101849072B1 (ko) * 2017-08-29 2018-04-16 주식회사 뷰노 콘텐츠 기반 의료 영상 검색 방법 및 시스템
KR20200032651A (ko) * 2018-09-18 2020-03-26 서울대학교산학협력단 3차원 영상 재구성 장치 및 그 방법
KR20200094608A (ko) * 2019-01-30 2020-08-07 삼성전자주식회사 이미지를 처리하기 위한 방법 및 그에 따른 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUHA ROY ABHIJIT; SIDDIQUI SHAYAN; PöLSTERL SEBASTIAN; NAVAB NASSIR; WACHINGER CHRISTIAN: "‘Squeeze & excite’ guided few-shot segmentation of volumetric images", MEDICAL IMAGE ANALYSIS, OXFORD UNIVERSITY PRESS, OXOFRD, GB, vol. 59, 13 October 2019 (2019-10-13), GB , XP085913949, ISSN: 1361-8415, DOI: 10.1016/j.media.2019.101587 *
JIANXU CHEN; LIN YANG; YIZHE ZHANG; MARK ALBER; DANNY Z. CHEN: "Combining Fully Convolutional and Recurrent Neural Networks for 3D Biomedical Image Segmentation", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 6 September 2016 (2016-09-06), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081895663 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011672A (zh) * 2023-09-27 2023-11-07 之江实验室 基于类特定元提示学习的小样本类增对象识别方法和装置
CN117011672B (zh) * 2023-09-27 2024-01-09 之江实验室 基于类特定元提示学习的小样本类增对象识别方法和装置

Also Published As

Publication number Publication date
KR20220067931A (ko) 2022-05-25
KR102554914B1 (ko) 2023-07-11

Similar Documents

Publication Publication Date Title
WO2022107998A1 (ko) 3차원 영상 영역화 방법 및 장치
CN111489324B (zh) 一种融合多模态先验病理深度特征的宫颈图像分类方法
WO2021060899A1 (ko) 인공지능 모델을 사용 기관에 특화시키는 학습 방법, 이를 수행하는 장치
US9865042B2 (en) Image semantic segmentation
KR102450931B1 (ko) 이미지 정합 방법 및 연관된 모델 훈련 방법, 기기, 장치
JP5361524B2 (ja) パターン認識システム及びパターン認識方法
KR102322773B1 (ko) 전극편의 버를 검출하기 위한 방법 및 장치
US11880982B2 (en) Method and system for performing image segmentation
KR102246319B1 (ko) 병리 검체에 대한 판단 결과를 제공하는 인공 뉴럴 네트워크의 학습 방법, 및 이를 수행하는 컴퓨팅 시스템
CN112686898B (zh) 一种基于自监督学习的放疗靶区自动分割方法
CN110363802A (zh) 基于自动分割和骨盆对齐的前列腺图像配准系统及方法
CN116468725B (zh) 基于预训练模型的工业缺陷检测方法、装置及存储介质
US20200088791A1 (en) Automated scan chain diagnostics using emission
WO2021010671A9 (ko) 뉴럴 네트워크 및 비국소적 블록을 이용하여 세그멘테이션을 수행하는 질병 진단 시스템 및 방법
KR20220129405A (ko) 전역 어텐션 기반 컨볼루션 네트워크를 이용한 이미지 분할 방법 및 장치
JP2000099760A (ja) 3次元物体モデル生成方法及び3次元物体モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体
CN109087357B (zh) 扫描定位方法、装置、计算机设备及计算机可读存储介质
CN113052166A (zh) 病理图像的显示方法及装置
CN117557683A (zh) 一种新型的文本和语义分割图共同驱动的图像生成方法
JP4883719B2 (ja) 類似画像検索方法および装置
JPH0962838A (ja) 高速パターンマッチング方法
Liu et al. An end to end thyroid nodule segmentation model based on optimized U-net convolutional neural network
CN112862869A (zh) 图像扫描处理方法、成像扫描设备、电子设备及可读介质
WO2023224350A2 (ko) 3차원 볼륨 영상으로부터 랜드마크를 검출하기 위한 방법 및 장치
KR102335173B1 (ko) 병리 영상 분석 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21894777

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21894777

Country of ref document: EP

Kind code of ref document: A1