KR20210140757A - 네트워크 훈련 방법, 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체 - Google Patents
네트워크 훈련 방법, 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체 Download PDFInfo
- Publication number
- KR20210140757A KR20210140757A KR1020217034486A KR20217034486A KR20210140757A KR 20210140757 A KR20210140757 A KR 20210140757A KR 1020217034486 A KR1020217034486 A KR 1020217034486A KR 20217034486 A KR20217034486 A KR 20217034486A KR 20210140757 A KR20210140757 A KR 20210140757A
- Authority
- KR
- South Korea
- Prior art keywords
- feature image
- image
- decoding layer
- training
- trained
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 216
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000003860 storage Methods 0.000 title claims abstract description 38
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims abstract description 119
- 230000007246 mechanism Effects 0.000 claims abstract description 88
- 238000012545 processing Methods 0.000 claims abstract description 83
- 238000003709 image segmentation Methods 0.000 claims abstract description 65
- 238000000605 extraction Methods 0.000 claims abstract description 60
- 238000009826 distribution Methods 0.000 claims description 78
- 238000011176 pooling Methods 0.000 claims description 72
- 238000004590 computer program Methods 0.000 claims description 25
- 210000000056 organ Anatomy 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 8
- 230000003902 lesion Effects 0.000 claims description 7
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 5
- 108010001267 Protein Subunits Proteins 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 197
- 230000006870 function Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 30
- 230000004913 activation Effects 0.000 description 17
- 238000005070 sampling Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 4
- 238000002591 computed tomography Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000010191 image analysis Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 206010029098 Neoplasm skin Diseases 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 2
- 208000000453 Skin Neoplasms Diseases 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002595 magnetic resonance imaging Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000017074 necrotic cell death Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000451 tissue damage Effects 0.000 description 2
- 231100000827 tissue damage Toxicity 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G06K9/342—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G06K9/4628—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
본 출원의 실시예는 네트워크 훈련 방법, 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체를 제공하며, 상기 네트워크 훈련 방법은, 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하는 단계 - 상기 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 상기 훈련 샘플은 상기 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함함 - ; 상기 특징 추출 결과에 따라 상기 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하는 단계; 및 상기 이미지 분할 결과 및 상기 분할 태깅 정보에 따라, 상기 분할 네트워크를 훈련하는 단계를 포함한다.
Description
관련 출원의 상호 참조
본 출원은 출원 번호가 CN202010065998.9이고, 출원일이 2020년 01월 20일인 중국 특허 출원에 기반하여 제출하였고, 상기 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로서 본 출원에 인용된다.
본 출원의 실시예는 컴퓨터 기술분야에 관한 것이며, 특히 네트워크 훈련 방법, 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체에 관한 것이다.
이미지 분할은 영역 내의 분포 속성에 따라 이미지를 상호 교차되지 않는 여러 개의 특정 "연결" 영역으로 분리하는 이미지 처리 과정을 의미하며, 상관 특징은 동일한 영역의 일정한 카테고리에서의 일치성 또는 유사성이 있으며, 이러한 차이는 각 영역의 경계에서 가장 선명하다. 의료 이미지 분할은 의학 연구, 임상 진단, 병리 분석, 영상 정보 처리 등 연구 및 실천 분야에서 중요한 학술적 연구 가치 및 응용 가치가 있으며, 주로 의료 이미지에서의 관심 영역의 추출하여 의료 이미지 분석을 편리하게 하고; 의료 이미지에서의 인체 기관, 조직 또는 병변의 치수, 부피 등을 계산하여, 임상 파라미터의 계산을 편리하게 하며; 의료 이미지의 3 차원 재구성 또는 시각화; 및 의료 이미지 검색 연구 등에 적용된다. 따라서, 효과적인 이미지 분할 방법이 시급히 필요하다.
본 출원의 실시예는 네트워크 훈련, 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체를 제공한다.
본 출원의 실시예는 뉴럴 네트워크 모델을 훈련시켜, 훈련하여 얻은 뉴럴 네트워크 모델에 따라 이미지에 대해 분할을 수행하기 위한 네트워크 훈련 방법을 제공하며, 상기 네트워크 훈련 방법은, 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하는 단계 - 상기 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 상기 훈련 샘플은 상기 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함함 - ; 상기 특징 추출 결과에 따라 상기 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하는 단계; 및 상기 이미지 분할 결과 및 상기 분할 태깅 정보에 따라, 상기 분할 네트워크를 훈련하는 단계를 포함한다.
분할 네트워크를 통해 공간 차원, 채널 차원 및 스케일 차원 중 기설정된 차원에서, 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하고, 특징 추출 결과에 따라 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하며, 이미지 분할 결과 및 훈련 샘플에 포함된 샘플 이미지에 대응하는 분할 태깅 정보에 따라, 분할 네트워크를 훈련하여, 훈련하여 얻은 분할 네트워크가 이미지 분할 처리를 수행할 경우 분할 정밀도를 향상시킬 수 있다.
본 출원의 일부 실시예에서, 상기 분할 네트워크는 인코더 및 디코더를 포함하고, 상기 인코더는 복수 개의 인코딩 계층을 포함하고, 상기 디코더는 복수 개의 디코딩 계층을 포함하며; 상기 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하는 단계는, 상기 샘플 이미지를 상기 인코더에 입력하여, 각 인코딩 계층에 대응하는 제1 특징 이미지를 결정하는 단계 - 상이한 인코딩 계층에 대응하는 제1 특징 이미지의 스케일은 상이함 - ; 임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행하여, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계 - 상기 디코딩 계층에 입력된 제2 특징 이미지는 상기 디코딩 계층의 이전 디코딩 계층에 대응하는 제3 특징 이미지에 따라 결정되며, 상이한 디코딩 계층에 대응하는 제3 특징 이미지의 스케일은 상이함 - ; 및 복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 상기 특징 추출 결과를 결정하는 단계를 포함한다.
샘플 이미지를 인코더에 입력하여, 인코더에서 각 인코딩 계층에 대응하는 상이한 스케일의 제1 특징 이미지를 결정하여, 디코더에서의 임의의 디코딩 계층에 대해, 대응하는 제1 특징 이미지를 사용하여, 임의의 디코딩 계층에 입력된 제2 특징 이미지에 대해 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 특징 훈련을 수행함으로써, 각 디코딩 계층에 대응하는 제3 특징 이미지를 결정하여, 상이한 스케일의 제3 특징 이미지에 따라, 샘플 이미지에서의 관심 영역의 공간적 특징 정보 및 채널 특징 정보를 강화하고 이미지에서의 비관심 영역의 공간적 특징 정보 및 채널 특징 정보를 억제하는 특징 추출 결과를 효과적으로 결정할 수 있다.
본 출원의 일부 실시예에서, 상기 임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행하여, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계는, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제4 특징 이미지를 결정하는 단계 - 제1 훈련될 특징 이미지는 상기 디코딩 계층에 입력된 제2 특징 이미지임 - ; 상기 디코딩 계층에 입력된 제2 특징 이미지 및 상기 디코딩 계층에 대응하는 제4 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 획득하는 단계; 및 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계를 포함한다.
인코딩 계층에서 대응하는 제1 특징 이미지를 사용하여 디코딩 계층에 대응하는 제1 훈련될 특징 이미지에 대해 공간 차원에서 어텐션 메커니즘을 사용하여 훈련을 수행함으로써, 샘플 이미지에서의 관심 영역의 공간적 특징 정보를 강화하고 이미지에서의 비관심 영역의 공간적 특징 정보를 억제하는 제4 특징 이미지를 효과적으로 결정할 수 있도록 하여, 제4 특징 이미지와 디코딩 계층에 입력된 제2 특징 이미지를 스플라이싱하여 제2 훈련될 특징 이미지를 획득하고, 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행하여, 샘플 이미지에서의 관심 영역의 채널 특징 정보를 강화하고 이미지에서의 비관심 영역의 채널 특징 정보를 억제하는 제3 특징 이미지를 효과적으로 결정할 수 있도록 한다.
본 출원의 일부 실시예에서, 상기 임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행하여, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계는, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 상기 디코딩 계층에 입력된 제2 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 결정하는 단계; 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 제1 훈련될 특징 이미지를 결정하는 단계; 및 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계를 포함한다.
디코딩 계층에 입력된 제2 특징 이미지와 대응하는 인코딩 계층의 제1 특징 이미지를 스플라이싱하여 제2 훈련될 특징 이미지를 획득하고, 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행하여, 샘플 이미지에서의 관심 영역의 채널 특징 정보를 강화하고 이미지에서의 비관심 영역의 채널 특징 정보를 억제하는 제1 훈련될 특징 이미지를 효과적으로 결정할 수 있도록 하여, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지에 대해 훈련을 수행하여, 샘플 이미지에서의 관심 영역의 공간적 특징 정보를 강화하고 이미지에서의 비관심 영역의 공간적 특징 정보를 억제하는 제3 특징 이미지를 효과적으로 결정할 수 있도록 한다.
본 출원의 일부 실시예에서, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련하는 단계는, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계 - 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 가중치를 지시하기 위한 것임 - ; 및 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포에 따라 제1 훈련될 특징 이미지에서의 각 픽셀 포인트를 교정하는 단계를 포함한다.
인코딩 계층에서 대응하는 제1 특징 이미지와 디코딩 계층에 대응하는 제1 훈련될 특징 이미지를 사용하여 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하여, 공간 어텐션 가중치 분포에 따라 제1 훈련될 특징 이미지에서의 각 픽셀 포인트를 교정하여, 공간 차원에서 어텐션 메커니즘을 사용하는 훈련을 완료함으로써, 효과적으로 샘플 이미지에서의 관심 영역의 공간적 특징 정보를 강화하고, 이미지에서의 비관심 영역의 공간적 특징 정보를 억제할 수 있도록 한다.
본 출원의 일부 실시예에서, 임의의 디코딩 계층에 대해, 상기 디코딩 계층은 복수 개의 공간 어텐션 훈련 계층을 포함하고; 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계는, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지를 상기 복수 개의 공간 어텐션 훈련 계층에 각각 입력하여, 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치를 결정하는 단계; 및 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 상기 복수 개의 가중치에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계를 포함한다.
임의의 디코딩 계층에 대해, 복수 개의 공간 어텐션 훈련 계층을 설정함으로써, 인코딩 계층에서 대응하는 제1 특징 이미지와 디코딩 계층에 대응하는 제1 훈련될 특징 이미지를 사용하여 디코딩 계층을 결정하고, 복수 개의 공간 어텐션 훈련 계층에서 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치를 결정하여, 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치에 따라, 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 종합적으로 결정함으로써, 공간 어텐션 가중치 분포의 정확성을 효과적으로 향상시킬 수 있도록 한다.
본 출원의 일부 실시예에서, 상기 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행하는 단계는, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계 - 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포는 제2 훈련될 특징 이미지에서의 각 채널의 가중치를 지시하기 위한 것임 - ; 및 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포에 따라 제2 훈련될 특징 이미지에서의 각 채널을 교정하는 단계를 포함한다.
디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하여, 채널 어텐션 가중치 분포에 따라 디코딩 계층에 대응하는 제2 훈련될 특징 이미지에서의 각 채널을 교정함으로써, 채널 차원에서 어텐션 메커니즘을 사용한 훈련을 완료하여, 효과적으로 샘플 이미지에서의 관심 영역의 채널 특징 정보를 강화하고, 이미지에서의 비관심 영역의 채널 특징 정보를 억제할 수 있도록 한다.
본 출원의 일부 실시예에서, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계는, 제2 훈련될 특징 이미지에 대해 평균 풀링 동작을 수행하여, 평균 풀링 결과를 획득하는 단계; 제2 훈련될 특징 이미지에 대해 최대 풀링 동작을 수행하여, 최대 풀링 결과를 획득하는 단계; 및 상기 평균 풀링 결과 및 상기 최대 풀링 결과에 따라, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계를 포함한다.
제2 훈련될 특징 이미지에 대해 평균 풀링 동작 및 최대 풀링 동작을 각각 수행하여, 평균 풀링 결과 및 최대 풀링 결과를 획득하고, 평균 풀링 결과 및 최대 풀링 결과에 따라, 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 종합적으로 결정함으로써, 채널 어텐션 가중치 분포의 정확성을 효과적으로 향상시킬 수 있도록 한다.
본 출원의 일부 실시예에서, 상기 복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 상기 특징 추출 결과를 결정하는 단계는, 상이한 스케일에서의 제3 특징 이미지를 스플라이싱하여, 제3 훈련될 특징 이미지를 획득하는 단계 - 제3 훈련될 특징 이미지의 스케일과 상기 샘플 이미지의 스케일은 동일함 - ; 및 스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 특징 추출 결과를 결정하는 단계를 포함한다.
상이한 스케일에서의 제3 특징 이미지를 스플라이싱하여 제3 훈련될 특징 이미지를 획득하여, 스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 샘플 이미지에서의 요구에 부합되는 스케일에 대응하는 특징 정보를 효과적으로 강화하고, 이미지에서의 요구에 부합되지 않는 스케일에 대응하는 특징 정보를 억제할 수 있도록 한다.
본 출원의 일부 실시예에서, 상기 스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행하는 단계는, 스케일 어텐션 가중치 분포를 결정하는 단계 - 상기 스케일 어텐션 가중치 분포는 상이한 스케일의 가중치를 지시하기 위한 것임 - ; 및 상기 스케일 어텐션 가중치 분포에 따라 제3 훈련될 특징 이미지를 교정하는 단계를 포함한다.
스케일 어텐션 가중치 분포를 결정하여, 스케일 어텐션 가중치 분포에 따라 제3 훈련될 특징 이미지를 교정함으로써, 스케일 차원에서 어텐션 메커니즘을 사용한 훈련을 완료하여, 샘플 이미지에서의 요구에 부합되는 스케일에 대응하는 특징 정보를 효과적으로 강화하고, 이미지에서의 요구에 부합되지 않는 스케일에 대응하는 특징 정보를 억제할 수 있도록 한다.
본 출원의 일부 실시예에서, 상기 샘플 이미지는 의료 영상이고, 상기 분할 태깅 정보는 수동으로 태깅된 금표준이다.
본 출원의 실시예는 이미지 처리 방법을 제공하며, 분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하는 단계를 포함하며; 여기서, 상기 분할 네트워크는 전술한 네트워크 훈련 방법을 사용하여 훈련하여 얻는다.
분할 네트워크를 통해 공간 차원, 채널 차원 및 스케일 차원 중 기설정된 차원에서, 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하고, 특징 추출 결과에 따라 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하고, 이미지 분할 결과 및 훈련 샘플에 포함된 샘플 이미지에 대응하는 분할 태깅 정보에 따라, 분할 네트워크를 훈련하여, 훈련하여 얻은 분할 네트워크를 사용하여 분할될 이미지에 대해 이미지 분할 처리를 수행함으로써, 분할 정밀도를 효과적으로 향상시킬 수 있다.
본 출원의 일부 실시예에서, 상기 분할될 이미지는 분할될 의료 영상이고; 상기 분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하는 단계는, 분할 네트워크를 통해 분할될 의료 영상에 대해 이미지 분할 처리를 수행하여, 분할된 병변 영역 또는 목표 기관 영역을 획득하는 단계를 포함한다.
본 출원의 실시예는 뉴럴 네트워크 모델을 훈련하여, 훈련하여 얻은 뉴럴 네트워크 모델에 따라 이미지에 대해 분할을 수행하기 위한 네트워크 훈련 장치를 제공하며, 상기 네트워크 훈련 장치는, 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하도록 구성된 특징 추출 모듈 - 상기 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 상기 훈련 샘플은 상기 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함함 - ; 상기 특징 추출 결과에 따라 상기 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하도록 구성된 분할 모듈; 및 상기 이미지 분할 결과 및 상기 분할 태깅 정보에 따라, 상기 분할 네트워크를 훈련시키도록 구성된 훈련 모듈을 포함한다.
본 출원의 실시예는 프로세서; 및 프로세서에서 실행 가능한 명령어를 저장하도록 구성된 메모리를 포함하며; 여기서, 상기 프로세서는 상기 메모리에 저장된 명령어를 호출하여, 전술한 네트워크 훈련 방법을 실행하도록 구성된 전자 기기를 제공한다.
본 출원의 실시예는 컴퓨터 프로그램 명령어을 포함하는 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 프로세서에 의해 실행될 때 전술한 네트워크 훈련 방법을 구현한다.
본 출원의 실시예는 분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하도록 구성된 이미지 처리 모듈을 포함하는 이미지 처리 장치를 제공하며; 여기서, 상기 분할 네트워크는 전술한 네트워크 훈련 방법을 사용하여 훈련하여 얻는다.
본 출원의 일부 실시예에서, 상기 분할될 이미지는 분할될 의료 영상이고; 상기 이미지 처리 모듈은 분할 네트워크를 통해 분할될 의료 영상에 대해 이미지 분할 처리를 수행하여, 분할된 병변 영역 또는 목표 기관 영역을 획득하도록 구성된다.
본 출원의 실시예는 프로세서; 및 프로세서에서 실행 가능한 명령어를 저장하도록 구성된 메모리를 포함하며; 여기서, 상기 프로세서는 상기 메모리에 저장된 명령어를 호출하여, 전술한 이미지 처리 방법을 실행하도록 구성된 전자 기기를 제공한다.
본 출원의 실시예는 컴퓨터 프로그램 명령어가 저장되어 있는 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 프로세서에 의해 실행될 때 전술한 이미지 처리 방법을 구현한다.
이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 다만 예시적이고 해석적인 것이며, 본 출원의 실시예를 한정하려는 것은 아니다. 다음의 도면에 따라 예시적인 실시예를 상세하게 설명하며, 본 출원의 실시예의 다른 특징 및 측면은 명백하다.
아래의 도면은 본 명세서의 일부분으로서 명세서 전체를 구성하며, 이러한 도면은 본 출원에 맞는 실시예를 예시하여, 명세서와 함께 본 출원의 실시예의 기술방안을 설명하는데 사용된다.
도 1은 본 출원의 실시예에서 제공하는 네트워크 훈련 방법의 흐름 모식도이다.
도 2는 본 출원의 실시예에서 제공하는 분할 네트워크의 구조 모식도이다.
도 3은 본 출원의 실시예에서 제공하는 도 2에서의 공간 어텐션 모듈(2022)의 구조 모식도이다.
도 4는 본 출원의 실시예에서 제공하는 도 2에서의 공간 어텐션 모듈(2025)의 구조 모식도이다.
도 5는 본 출원의 실시예에서 제공하는 도 2에서의 채널 어텐션 모듈(2026)의 구조 모식도이다.
도 6은 본 출원의 실시예에서 제공하는 도 2에서의 스케일 어텐션 모듈(2049)의 구조 모식도이다.
도 7은 본 출원의 실시예에서 제공하는 이미지 처리 방법의 흐름 모식도이다.
도 8은 본 출원의 실시예에서 제공하는 네트워크 훈련 장치의 구조 모식도이다.
도 9는 본 출원의 실시예에서 제공하는 이미지 처리 장치의 구조 모식도이다.
도 10은 본 출원의 실시예에서 제공하는 전자 기기의 구조 모식도이다.
도 11은 본 출원의 실시예에서 제공하는 전자 기기의 구조 모식도이다.
도 1은 본 출원의 실시예에서 제공하는 네트워크 훈련 방법의 흐름 모식도이다.
도 2는 본 출원의 실시예에서 제공하는 분할 네트워크의 구조 모식도이다.
도 3은 본 출원의 실시예에서 제공하는 도 2에서의 공간 어텐션 모듈(2022)의 구조 모식도이다.
도 4는 본 출원의 실시예에서 제공하는 도 2에서의 공간 어텐션 모듈(2025)의 구조 모식도이다.
도 5는 본 출원의 실시예에서 제공하는 도 2에서의 채널 어텐션 모듈(2026)의 구조 모식도이다.
도 6은 본 출원의 실시예에서 제공하는 도 2에서의 스케일 어텐션 모듈(2049)의 구조 모식도이다.
도 7은 본 출원의 실시예에서 제공하는 이미지 처리 방법의 흐름 모식도이다.
도 8은 본 출원의 실시예에서 제공하는 네트워크 훈련 장치의 구조 모식도이다.
도 9는 본 출원의 실시예에서 제공하는 이미지 처리 장치의 구조 모식도이다.
도 10은 본 출원의 실시예에서 제공하는 전자 기기의 구조 모식도이다.
도 11은 본 출원의 실시예에서 제공하는 전자 기기의 구조 모식도이다.
아래에 도면을 참조하여 본 출원의 다양한 예시적 실시예, 특징 및 측면을 상세하게 설명한다. 도면에서 동일한 도면 표시는 기능이 동일하거나 유사한 구성 요소를 나타낸다. 실시예의 다양한 측면이 도면에 도시되어 있지만, 특별히 언급되지 않는 한, 도면을 비율에 따라 그릴 필요는 없다.
본문에서 용어 “예시적”은 “예, 실시예 또는 설명으로 사용되는”을 의미한다. 본문에서 “예시적”으로 설명된 임의의 실시예는 다른 실시예보다 우수하거나 좋은 것으로 해석될 필요는 없다.
본문에서의 용어 “및/또는”은 다만 연관 대상의 연관 관계를 설명하기 위한 것으로, 세 가지 관계가 존재할 수 있음을 의미하는데, 예를 들어, “A 및/또는 B”는, A가 단독적으로 존재하거나, A와 B가 동시에 존재하거나, B가 단독적으로 존재하는 세 가지 경우를 의미한다 또한, 본 명세서에서 "적어도 하나"라는 용어는 복수 개 중 어느 하나 또는 복수 개 중 적어도 2 개의 임의의 조합을 나타내며, 예를 들어, A, B 및 C 중 적어도 하나는 A, B 및 C에 의해 형성된 집합에서 선택된 임의의 하나 또는 복수 개의 요소를 나타낼 수 있다.
또한, 본 출원의 실시예를 보다 잘 설명하기 위해, 아래의 구체적인 실시형태에서 많은 세부사항들이 제공된다. 당업자는 본 출원의 실시예는 일부 구체적인 세부사항 없이도 여전히 실시될 수 있음을 이해해야 한다. 일부 예에서, 당업자에게 잘 알려진 방법, 수단, 요소 및회로는 본 출원의 실시예의 취지가 명백해지도록 상세하게 설명되지 않는다.
도 1은 본 출원의 실시예에서 제공하는 네트워크 훈련 방법의 흐름 모식도이다. 상기 네트워크 훈련 방법은 단말 기기 또는 다른 처리 기기에 의해 실행될 수 있으며, 여기서, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말, 셀룰러 폰, 무선 전화, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 핸드헬드 기기, 컴퓨팅 기기, 차량 탑재 기기, 웨어러블 기기 등일 수 있다. 다른 처리 기기는 서버 또는 클라우드 서버 등이 될 수 있다. 일부 가능한 구현 방식에 있어서, 상기 네트워크 훈련 방법은 프로세서가 메모리에 저장된 컴퓨터 판독 가능한 명령어를 호출하는 방식을 통해 구현될 수 있다. 도 1에 도시된 바와 같이, 상기 네트워크 훈련 방법은 다음의 단계들을 포함할 수 있다.
단계 S11에 있어서, 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하며, 여기서, 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 훈련 샘플은 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함한다.
단계 S12에 있어서, 특징 추출 결과에 따라 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득한다.
단계 S13에 있어서, 이미지 분할 결과 및 분할 태깅 정보에 따라, 분할 네트워크를 훈련한다.
훈련 샘플을 미리 생성하고, 훈련 샘플은 샘플 이미지 및 샘플 이미지에 대응하는 분할 태깅 정보를 포함하며, 여기서, 샘플 이미지에 대응하는 분할 태깅 정보는 샘플 이미지의 참조 분할 결과를 지시하기 위한 것이다. 훈련 샘플에 기반하여 분할 네트워크 공간 차원, 채널 차원 및 스케일 차원 중 기설정된 차원에 대한 어텐션 메커니즘을 사용하여 훈련을 수행하여, 훈련하여 얻은 분할 네트워크가 이미지 분할 처리를 수행할 경우 분할 정밀도를 향상시키도록 할 수 있다.
분할 네트워크는 U-net 네트워크 모델을 기반으로 개선된 컨볼루션 뉴럴 네트워크일 수 있거나, 다른 대응하는 처리를 구현할 수 있는 네트워크 모델일 수도 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다.
일례에서, 샘플 이미지는 의료 이미지를 전처리하여 획득할 수 있다. 의료 이미지를 획득하고; 의료 이미지에 대해 256*342 스케일로 리샘플링을 수행한 다음, 리샘플링된 의료 이미지를 0~1 사이로 정규화하여, 제1 이미지를 획득하며; 제1 이미지에 대해 랜덤 플립, 랜덤 회전, 랜덤 클리핑을 수행하여 데이터 강화를 구현함으로써, 샘플 이미지를 획득하며, 여기서, 샘플 이미지의 채널 수는 3이고, 스케일은 224*300이다. 샘플 이미지의 결정 방식은 다른 방식을 채택할 수 있으며, 샘플 이미지의 채널 수 및 스케일은 실제 상황에 따라 결정할 수 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다.
본 출원의 일부 실시예에서, 분할 네트워크는 인코더 및 디코더를 포함하고, 인코더는 복수 개의 인코딩 계층을 포함하고, 디코더는 복수 개의 디코딩 계층을 포함하며; 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하는 단계는, 샘플 이미지를 인코더에 입력하여, 각 인코딩 계층에 대응하는 제1 특징 이미지를 결정하는 단계 - 상이한 인코딩 계층에 대응하는 제1 특징 이미지의 스케일은 상이함 - ; 임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행하여, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계 - 상기 디코딩 계층에 입력된 제2 특징 이미지는 상기 디코딩 계층의 이전 디코딩 계층에 대응하는 제3 특징 이미지에 따라 결정되며, 상이한 디코딩 계층에 대응하는 제3 특징 이미지의 스케일은 상이함 - ; 및 복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 특징 추출 결과를 결정하는 단계를 포함한다.
도 2는 본 출원의 실시예에서 제공하는 분할 네트워크의 구조 모식도이다. 예를 들어, 분할 네트워크는 U-net 네트워크 모델을 백본 네트워크로 하여 개선되어 획득된다. 분할 네트워크는 U-net 네트워크 모델을 백본 네트워크로 하는 외에도, 다른 네트워크 모델을 백본 네트워크로 할 수도 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다.
도 2에 도시된 바와 같이, 분할 네트워크는 인코더(2001) 및 디코더(2002)를 포함한다. 인코더(2001)는 인코딩 계층(2003 내지 2007)을 포함하고, 여기서, 인코딩 계층(2003)은 컨볼루션 계층(2008)을 포함하며, 인코딩 계층(2004)은 최대 풀링 계층(2009) 및 컨볼루션 계층(2010)을 포함하며, 인코딩 계층(2005)은 최대 풀링 계층(2011) 및 컨볼루션 계층(2012)을 포함하며, 인코딩 계층(2006)은 최대 풀링 계층(2013) 및 컨볼루션 계층(2014)을 포함하며, 인코딩 계층(2007)은 최대 풀링 계층(2015) 및 컨볼루션 계층(2016)을 포함한다. 디코더(2002)는 디코딩 계층(2017 내지 2020)을 포함하며, 여기서, 디코딩 계층(2017)은 컨볼루션 계층(2021), 공간 어텐션 모듈(2022) 및 채널 어텐션 모듈(2023)을 포함하고, 디코딩 계층(2018)은 컨볼루션 계층(2024), 공간 어텐션 모듈(2025) 및 채널 어텐션 모듈(2026)을 포함하고, 디코딩 계층(2019)은 컨볼루션 계층(2027), 공간 어텐션 모듈(2028) 및 채널 어텐션 모듈(2029)을 포함하며, 디코딩 계층(2020)은 컨볼루션 계층(2030), 공간 어텐션 모듈(2031) 및 채널 어텐션 모듈(2032)을 포함한다. 분할 네트워크에서의 컨볼루션 계층은 3*3 컨볼루션 커널을 갖는 표준 컨볼루션 계층일 수 있으며, 최대 풀링 계층은 입력 데이터에 대한 다운 샘플링을 구현하여, 입력 데이터의 스케일을 감소시킨다.
샘플 이미지(2033)를 분할 네트워크의 인코더(2001)에 입력하며, 예를 들어, 샘플 이미지(2033)의 스케일은 224*300일 수 있다. 샘플 이미지(2033)는 인코딩 계층(2003)에서 두 개의 컨볼루션 계층(2008)을 순차적으로 통과한 다음, 인코딩 계층(2003)에 대응 하는 스케일이 224*300이고, 채널 수가 16인 제1 특징 이미지를 획득하며; 스케일이 224*300이고, 채널 수가 16인 제1 특징 이미지는 인코딩 계층(2004)에서 최대 풀링 계층(2009) 및 두 개의 컨볼루션 계층(2010)을 순차적으로 통과한 다음, 인코딩 계층(2004)에 대응하는 스케일이 112*150이고, 채널 수가 32인 제1 특징 이미지를 획득하며; 스케일이 112*150이고, 채널 수가 32인 제1 특징 이미지는 인코딩 계층(2005)에서 최대 풀링 계층(2011) 및 두 개의 컨볼루션 계층(2012)을 순차적으로 통과한 다음, 인코딩 계층(2005)에 대응하는 스케일이 56*75이고, 채널 수가 64인 제1 특징 이미지를 획득하며; 스케일이 56*75이고, 채널 수가 64인 제1 특징 이미지는 인코딩 계층(2006)에서 최대 풀링 계층(2013) 및 두 개의 컨볼루션 계층(2014)을 순차적으로 통과한 다음, 인코딩 계층(2006)에 대응하는 스케일이 28*37이고, 채널 수가 128인 제1 특징 이미지를 획득하며; 스케일이 28*37이고, 채널 수가 128인 제1 특징 이미지는 인코딩 계층(2007)에서 최대 풀링 계층(2015) 및 두 개의 컨볼루션 계층(2016)을 순차적으로 통과한 다음, 인코딩 계층(2007)에 대응하는 스케일이 14*18이고, 채널 수가 256인 제1 특징 이미지를 획득한다. 여기서, 상이한 인코딩 계층에 대응하는 제1 특징 이미지의 스케일 및 채널 수는 실제 상황에 따라 결정될 수 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다.
이하, 디코더(2002) 내의 임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 과정을 상세하게 설명한다.
본 출원의 일부 실시예에서, 최하위 인코딩 계층에 대응하는 제1 특징 이미지에 대해 업샘플링을 수행하고, 이전 인코딩 계층에 대응하는 제1 특징 이미지와 스플라이싱하여, 최상위 디코딩 계층에 입력된 제2 특징 이미지를 획득하며; 최상위 디코딩 계층에 입력된 제2 특징 이미지에 대해 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여, 최상위 디코딩 계층에 대응하는 제3 특징 이미지를 결정한다.
최하위 인코딩 계층에 대응하는 제1 특징 이미지(최소 스케일의 제1 특징 이미지)는 샘플 이미지의 글로벌 특징 정보를 포함하므로, 최하위 인코딩 계층에 대응하는 제1 특징 이미지를 업 샘플링하여 이전 인코딩 계층에 대응하는 제1 특징 이미지와 스플라이싱한 후 공간 차원 및 채널 차원에서의 어텐션 훈련을 수행함으로써, 글로벌 훈련을 구현할 수 있다.
도 2에 도시된 바와 같이, 최하위 인코딩 계층(인코딩 계층(2007))에 대응하는 제1 특징 이미지(스케일은 최소 스케일 14*18)를 업 샘플링 처리한 후, 이전 인코딩 계층(인코딩 계층(2006))에 대응하는 제1 특징 이미지(28*37 스케일)를 스플라이싱하여, 최상위 디코딩 계층(디코딩 계층(2017))에 입력된 제2 특징 이미지(28*37 스케일, 256 채널)을 획득하며, 디코딩 계층(2017)에 입력된 제2 특징 이미지를 디코딩 계층(2017)에 대응하는 제1 훈련될 특징 이미지로서 공간 어텐션 모듈(2022)에 입력하여 공간 어텐션 훈련을 수행함으로써, 디코딩 계층(2017)에 대응하는 제4 특징 이미지(28*37 스케일, 256 채널)를 획득하며; 디코딩 계층(2017)에 대응하는 제4 특징 이미지에 대해 컨볼루션 계층(2021), 채널 어텐션 모듈(2023) 및 컨볼루션 계층(2021)을 통해 채널 어텐션 훈련을 수행하여, 디코딩 계층(2017)에 대응하는 제3 특징 이미지(28*37 스케일, 128 채널)를 획득한다. 도 2에서, “×2”는 업 샘플링 처리를 나타내며, 여기서, 업 풀링 계층을 통해 업 샘플링 처리를 수행할 수 있고, 디컨볼루션 계층을 통해 업 샘플링 처리를 수행할 수 있고, 또한 다른 방식을 통해 업 샘플링 처리를 수행할 수 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다.
도 3은 본 출원의 실시예에서 제공하는 도 2에서의 공간 어텐션 모듈(2022)의 구조 모식도이다. 도 3에 도시된 바와 같이, 공간 어텐션 모듈(2022)은 복수 개의 1×1 컨볼루션 계층(2034), 복수 개의 전치 계층(Transpose 계층)(2035) 및 정규화 계층(2036)을 포함한다. 디코딩 계층(2017) 스케일에 대응하는 제1 특징 이미지(인코딩 계층(2006)에 대응하는 제1 특징 이미지) 및 디코딩 계층(2017)에 대응하는 제1 훈련될 특징 이미지를 공간 어텐션 모듈(2022)에 입력하여, 복수 개의 1×1 컨볼루션 계층(2034), 복수 개의 전치 계층(2035) 및 정규화 계층(2036)을 각각 통과하여, 디코딩 계층(2017)에 대응하는 공간 어텐션 가중치 분포를 획득한다. 예를 들어, 공간 어텐션 모듈(2022)은 아래의 공식(1-1)을 통해 디코딩 계층(2017)에 대응하는 공간 어텐션 가중치 분포 를 결정한다.
디코딩 계층(2017)에 대응하는 공간 어텐션 가중치 분포에 따라, 디코딩 계층(2017)에 대응하는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트를 교정하여, 채널 차원에서 어텐션 메커니즘을 사용하여 훈련을 수행해야 하는 디코딩 계층(2017)에 대응하는 제2 훈련될 특징 이미지를 획득한다.
본 출원의 일부 실시예에서, 임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행하여, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계는, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 상기 디코딩 계층에 입력된 제2 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 결정하는 단계; 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 제1 훈련될 특징 이미지를 결정하는 단계; 및 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계를 포함한다.
임의의 디코딩 계층에 대해, 먼저 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 상기 디코딩 계층에 입력된 제2 특징 이미지를 스플라이싱하여 결정하여 획득한 제2 훈련될 특징 이미지에 대해 훈련을 수행하여, 공간 차원에서 어텐션 메커니즘을 사용하여 채널 차원에서 어텐션 메커니즘을 사용하여 훈련을 통해 얻은 제1 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정한다. 또한, 본 출원의 실시예는 전술한 먼저 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지에 대해 훈련을 수행하는 외에도, 먼저 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행하는 것을 채택할 수 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다. 먼저 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지에 대해 훈련을 수행한 다음, 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행하는 것을 예로 이하 상세히 설명한다.
본 출원의 일부 실시예에서, 임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행하여, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계는, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 이미지 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제4 특징 이미지를 결정하는 단계 - 제1 훈련될 특징 이미지는 상기 디코딩 계층에 입력된 제2 특징 이미지임 - ; 상기 디코딩 계층에 입력된 제2 특징 이미지 및 상기 디코딩 계층에 대응하는 제4 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 획득하는 단계; 및 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계를 포함한다.
본 출원의 일부 실시예에서, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련하는 단계는, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계 - 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 가중치를 지시하기 위한 것임 - ; 및 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포에 따라 제1 훈련될 특징 이미지에서의 각 픽셀 포인트를 교정하는 단계를 포함한다.
본 출원의 일부 실시예에서, 임의의 디코딩 계층에 대해, 상기 디코딩 계층은 복수 개의 공간 어텐션 훈련 계층을 포함하고; 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계는, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지를 복수 개의 공간 어텐션 훈련 계층에 각각 입력하여, 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치를 결정하는 단계; 및 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계를 포함한다.
도 2에 도시된 바와 같이, 디코딩 계층(2017)에 대응하는 제3 특징 이미지 (28*37 스케일, 128 채널)에 대해 업 샘플링 처리를 수행하여, 디코딩 계층(2018)에 입력된 제2 특징 이미지 (56*75 스케일, 64 채널)를 획득하며, 디코딩 계층(2018)에 입력된 제2 특징 이미지를 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지로서 공간 어텐션 모듈(2025)에 입력하여 공간 어텐션 훈련을 수행함으로써, 디코딩 계층(2018)에 대응하는 제4 특징 이미지(56*75 스케일, 64 채널)를 획득하며; 디코딩 계층(2018)에 입력된 제2 특징 이미지 및 디코딩 계층(2018)에 대응하는 제4 특징 이미지를 스플라이싱하여, 디코딩 계층(2018)에 대응하는 제2 훈련될 특징 이미지(56*75 스케일, 128 채널)를 획득하며; 디코딩 계층(2018)에 대응하는 제2 훈련될 특징 이미지를 컨볼루션 계층(2024), 채널 어텐션 모듈(2026) 및 컨볼루션 계층(2024)을 순차적으로 통과시킨 후, 디코딩 계층(2018)에 대응하는 제3 특징 이미지를 획득한다.
도 4는 본 출원의 실시예에서 제공하는 도 2에서의 공간 어텐션 모듈(2025)의 구조 모식도이다. 도 4에 도시된 바와 같이, 공간 어텐션 모듈(2025)은 두 개의 공간 어텐션 훈련 계층(2037 내지 2038)을 포함하며, 디코딩 계층(2018) 스케일에 대응하는 제1 특징 이미지(인코딩 계층(2005)에 대응하는 제1 특징 이미지)를 조회 소스값(query)으로 사용하며, 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지를 조회의 조회값(key)으로 사용하며, 공간 어텐션 훈련 계층(2037) 및 공간 어텐션 훈련 계층(2038)에 각각 입력한다. 공간 어텐션 훈련 계층의 수는 실제상황에 따라 결정되며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다. 도 4에 도시된 바와 같이, 각 공간 어텐션 훈련 계층은 복수 개의 1×1 컨볼루션 계층(2039), 업 샘플링 계층(2040), 활성화 계층(정류 선형 유닛(Rectified Linear Unit, ReLU) 계층)(2041), 활성화 계층(시그모이드(sigmoid) 계층)(2042), 리샘플링 계층(Resample 계층)(2043)을 포함한다. 공간 어텐션 모듈(2025)에서의 임의의 공간 어텐션 훈련 계층은 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 가중치를 결정할 수 있다. 예를 들어, 공간 어텐션 모듈(2025)에서의 임의의 공간 어텐션 훈련 계층에 대해, 하기 공식 (1-2)에 따라 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지에서의 픽셀 포인트의 가중치 를 결정한다.
여기서, 는 활성화 함수이고, 는 디코딩 계층(2018) 스케일에 대응하는 제1 특징 이미지이며, 는 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지이며, 는 디코딩 계층(2018) 스케일에 대응하는 제1 특징 이미지에 대해 선형 변환을 수행하는 것을 나타내며, 는 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지에 대해 선형 변환을 수행하는 것을 나타내며, 는 1×1 컨볼루션이고, 는 활성화 함수이며, 는 편차 항목이다.
공간 어텐션 훈련 계층(2037)에 의해 결정된 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 가중치, 및 공간 어텐션 훈련 계층(2038)에 의해 결정된 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 가중치에 따라, 디코딩 계층(2018)에 대응하는 공간 어텐션 가중치 분포를 결정한 다음, 디코딩 계층(2018)에 대응하는 공간 어텐션 가중치 분포에 따라, 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트를 교정하여, 디코딩 계층(2018)에 대응하는 제4 특징 이미지를 획득한다.
디코딩 계층(2019)에 대응하는 제4 특징 이미지 및 디코딩 계층(2020)에 대응하는 제4 특징 이미지를 결정하는 방식은, 전술한 디코딩 계층(2018)에 대응하는 제4 특징 이미지를 결정하는 방식과 유사하며, 여기서 자세히 설명하지 않는다. 공간 어텐션 모듈(2028) 및 공간 어텐션 모듈(2031)의 구조와 공간 어텐션 모듈(2025)의 구조와 유사하며, 여기서 자세히 설명하지 않는다.
공간 어텐션 모듈을 사용하여 분할 네트워크에 대해 공간 차원의 어텐션 훈련을 수행함으로써, 훈련된 분할 네트워크가 이미지 분할 처리를 수행할 경우 이미지에서의 관심 영역의 공간적 특징 정보를 강화하고, 이미지에서의 비관심 영역의 공간적 특징 정보를 억제할 수 있어, 분할 네트워크의 분할 정밀도를 향상시킬 수 있다.
임의의 디코딩 계층에 대해, 상기 디코딩 계층에 대응하는 제4 특징 이미지를 결정한 다음, 상기 디코딩 계층에 입력된 제2 특징 이미지 및 상기 디코딩 계층에 대응하는 제2 특징 이미지를 스플라이싱하여(채널 캐스케이드), 상기 디코딩 계층에 대응하는 제2 훈련될 특징 이미지를 획득한다. 예를 들어, 디코딩 계층(2018)에 대해, 디코딩 계층(2018)에 입력된 제2 특징 이미지(56*75 스케일, 64 채널 ) 및 디코딩 계층(2018)에 대응하는 제4 특징 이미지 (56*75 스케일, 64 채널)를 채널 캐스케이드 스플라이싱하여, 디코딩 계층(2018)에 대응하는 제2 훈련될 특징 이미지(56*75 스케일, 128 채널)를 획득한다.
본 출원의 일부 실시예에서, 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행하는 단계는, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계 - 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포는 제2 훈련될 특징 이미지에서의 각 채널의 가중치를 지시하기 위한 것임 - ; 및 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포에 따라 제2 훈련될 특징 이미지에서의 각 채널을 교정하는 단계를 포함한다.
본 출원의 일부 실시예에서, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계는, 제2 훈련될 특징 이미지에 대해 평균 풀링 동작을 수행하여, 평균 풀링 결과를 획득하는 단계; 제2 훈련될 특징 이미지에 대해 최대 풀링 동작을 수행하여, 최대 풀링 결과를 획득하는 단계; 및 평균 풀링 결과 및 최대 풀링 결과에 따라, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계를 포함한다.
도 5는 본 출원의 실시예에서 제공하는 도 2에서의 채널 어텐션 모듈(2026)의 구조 모식도이다. 도 5에 도시된 바와 같이, 채널 어텐션 모듈(2026)은 최대 풀링 계층(2044), 평균 풀링 계층(2045), 완전 연결 계층(Fully Connected Layers, FC 계층)(2046), 활성화 계층(ReLU 계층)(2047) 및 완전 연결 계층(FC 계층)(2048)을 포함한다. 도 2, 도 5에 도시된 바와 같이, 디코딩 계층(2018)에 대응하는 제2 훈련될 특징 이미지(128 채널)를 채널 어텐션 모듈(2026)에 입력하여, 최대 풀링 계층(2044)을 통과하여 최대 풀링 동작을 수행함으로써, 최대 풀링 결과를 획득하고, 평균 풀링 계층(2045)을 통과하여 평균 풀링 동작을 수행함으로써, 평균 풀링 결과를 획득하여, 평균 풀링 결과 및 최대 풀링 결과를 완전 연결 계층(FC 계층)(2046), 활성화 계층(ReLU 계층)(2047) 및 완전 연결 계층(FC 계층)(2048)에 각각 통과시켜, 디코딩 계층(2018)에 대응하는 채널 어텐션 가중치 분포를 결정한다. 예를 들어, 채널 어텐션 모듈(2026)은 하기 공식 (1-3)을 통해 디코딩 계층(2018)에 대응하는 제2 훈련될 특징 이미지에서의 채널 의 가중치 를 결정한다.
여기서, 은 활성화 함수이고, 은 디코딩 계층(2018)에 대응하는 제2 훈련될 특징 이미지이며, 은 완전 연결 연산 및 ReLU 연산이며, 은 완전 연결 연산이고, 은 평균 풀링 함수이며, 은 최대 풀링 함수이다.
디코딩 계층(2018)에 대응하는 채널 어텐션 가중치 분포를 결정한 다음, 디코딩 계층(2018)에 대응하는 채널 어텐션 가중치 분포에 따라 디코딩 계층(2018)에 대응하는 제2 훈련될 특징 이미지에서의 각 채널을 교정하여, 디코딩 계층(2018)에 대응하는 제3 특징 이미지를 획득한다.
디코딩 계층(2017)에 대응하는 제3 특징 이미지, 디코딩 계층(2019)에 대응하는 제3 특징 이미지 및 디코딩 계층(2020)에 대응하는 제3 특징 이미지를 결정하는 방식은, 전술한 디코딩 계층(2018)에 대응하는 제3 특징 이미지를 결정하는 방식과 유사하며, 여기서 자세히 설명하지 않는다. 채널 어텐션 모듈(2023), 채널 어텐션 모듈(2029) 및 채널 어텐션 모듈(2032)의 구조는 채널 어텐션 모듈(2026)의 구조와 유사하며, 여기서 자세히 설명하지 않는다.
채널 어텐션 모듈을 사용하여 분할 네트워크에 대해 채널 차원의 어텐션 훈련을 수행함으로써, 훈련된 분할 네트워크가 이미지 분할 처리를 수행할 경우 이미지에서의 관심 영역의 채널 특징 정보를 강화하고, 이미지에서의 비관심 영역의 채널 특징 정보를 억제할 수 있어, 분할 네트워크의 분할 정밀도를 향상시킬 수 있다.
본 출원의 일부 실시예에서, 복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 특징 추출 결과를 결정하는 단계는, 상이한 스케일에서의 제3 특징 이미지를 스플라이싱하여, 제3 훈련될 특징 이미지를 획득하는 단계 - 제3 훈련될 특징 이미지의 스케일은 샘플 이미지의 스케일과 동일함 - ; 및 스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 특징 추출 결과를 결정하는 단계를 포함한다.
본 출원의 일부 실시예에서, 스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행하는 단계는, 스케일 어텐션 가중치 분포를 결정하는 단계 - 스케일 어텐션 가중치 분포는 상이한 스케일의 가중치를 지시하기 위한 것임 - ; 및 스케일 어텐션 가중치 분포에 따라 제3 훈련될 특징 이미지를 교정하는 단계를 포함한다.
도 2에 도시된 바와 같이, 분할 네트워크는 스케일 어텐션 모듈(2049)을 더 포함한다. 디코딩 계층(2017)에 대응하는 제3 특징 이미지, 디코딩 계층(2018)에 대응하는 제3 특징 이미지, 디코딩 계층(2019)에 대응하는 제3 특징 이미지 및 디코딩 계층(2020)에 대응하는 제3 특징 이미지를 스플라이싱하여, 스플라이싱 과정에서, 디코딩 계층(2017)에 대응하는 제3 특징 이미지(28*37 스케일), 디코딩 계층(2018)에 대응하는 제3 특징 이미지(56*75 스케일) 및 디코딩 계층(2019)에 대응하는 제3 특징 이미지(112*150 스케일)를 224*300 스케일(샘플 이미지 스케일과 동일함)에 업샘플링하여, 스플라이싱 과정에서, 각 디코딩 계층에 대응하는 제3 특징 이미지는 4 개의 채널만 유지할 수 있으며, 스플라이싱 후 224*300 스케일의 제6 특징 이미지(16 채널)를 획득한다. 제6 특징 이미지를 스케일 어텐션 모듈(2049)에 입력하여 스케일 차원에서의 어텐션 훈련을 수행한다.
도 6은 본 출원의 실시예에서 제공하는 도 2에서의 스케일 어텐션 모듈(2049)의 구조 모식도이다. 도 6에 도시된 바와 같이, 스케일 어텐션 모듈(2049)은 최대 풀링 계층(2050), 평균 풀링 계층(2051), 완전 연결 계층(FC 계층)(2052), 활성화 계층(ReLU 계층)(2053), 완전 연결 계층(FC 계층)(2054), 컨볼루션 계층(2055), 활성화 계층(ReLU 계층)(2056), 컨볼루션 계층(2057), 활성화 계층(Sigmoid 계층)(2058)을 포함한다. 제6 특징 이미지를 스케일 어텐션 모듈(2049)에 입력하여, 최대 풀링 계층(2050)을 통과하여 최대 풀링 동작을 수행함으로써, 최대 풀링 결과를 획득하고, 평균 풀링 계층(2051)은 평균 풀링 동작을 수행하여, 평균 풀링 결과를 획득하여, 평균 풀링 결과 및 최대 풀링 결과를 완전 연결 계층(FC 계층)(2052), 활성화 계층(ReLU 계층)(2053), 완전 연결 계층(FC 계층)(2054)에 통과시켜 스케일 어텐션 가중치 분포를 결정한다. 예를 들어, 스케일 어텐션 모듈(2049)은 하기 공식 (1-4)을 통해 스케일 의 가중치 를 결정한다.
스케일 어텐션 가중치 분포를 기반으로 제6 특징 이미지에 대해 1 차 교정을 수행하여, 1 차 교정된 제6 특징 이미지를 획득한다. 스케일 어텐션 모듈을 사용하여 분할 네트워크에 대해 스케일 차원의 어텐션 훈련을 수행함으로써, 훈련된 분할 네트워크가 이미지 분할을 수행할 경우 적절한 스케일에서의 특징 정보를 강화하고, 이미지에서의 부적절한 스케일에서의 특징 정보를 억제할 수 있어, 분할 네트워크의 분할 정밀도를 향상시킬 수 있다.
1 차 교정된 제6 특징 이미지를 컨볼루션 계층(2055), 활성화 계층(ReLU 계층)(2056), 컨볼루션 계층(2057), 활성화 계층(Sigmoid 계층)(2058)을 통과하여 공간 차원에서 어텐션 훈련을 수행함으로써, 1 차 교정된 제6 특징 이미지에서의 각 픽셀 포인트의 가중치를 결정한다. 예를 들어, 하기 공식 (1-5)를 통해 1 차 교정된 제6 특징 이미지에서의 픽셀 포인트 의 가중치 를 결정한다.
여기서, 은 활성화 함수이고, 은 활성화 함수이며, 은 컨볼루션 연산 및 배치 정규화 연산(Batch Normalizationc 연산)이고, 은 컨볼루션 연산 및 배치 정규화 연산(Batch Normalizationc 연산)이며, 은 1 차 교정된 제6 특징 이미지이다.
1 차 교정된 제6 특징 이미지에서의 각 픽셀 포인트의 가중치에 따라, 1 차 교정된 제6 특징 이미지에서의 각 픽셀 포인트를 재교정하여, 2 차 교정된 제6 특징 이미지를 획득하고, 2 차 교정된 제6 특징 이미지를 샘플 이미지의 특징 추출 결과로 결정한다.
도 2에 도시된 바와 같이, 분할 네트워크는 또한 분류기(class)(2059) 및 정규화 계층(Softmax 계층)(2060)을 더 포함하고, 샘플 이미지의 특징 추출 결과를 분류기(2059) 및 정규화 계층(2060)에 순차적으로 통과시켜, 샘플 이미지에 대해의 이미지 분할을 구현하여, 샘플 이미지의 분할 결과(2061)를 획득한다.
샘플 이미지의 분할 결과 및 샘플 이미지에 대응하는 분할 태깅 정보에 따라, 분할 네트워크의 분할 손실을 결정하며, 분할 손실에 따라 분할 네트워크의 네트워크 파라미터를 조정한다. 분할 네트워크의 분할 손실이 수렴되거나 반복 횟수가 기설정된 횟수에 도달할 때까지 분할 네트워크를 반복적으로 훈련한다. 여기서, 분할 손실의 결정은 DICE 손실 함수를 채택할 수 있거나, Softdice 손실 함수를 채택할 수도 있거나, 교차 엔트로피(Cross Entropy) 손실 함수를 채택할 수도 있거나, Focalloss 손실 함수를 채택할 수 있으며, 또한 다른 손실 함수를 채택할 수 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다.
공간 어텐션 모듈, 채널 어텐션 모듈 및 스케일 어텐션 모듈을 종합적으로 사용하여, 분할 네트워크에 대해 공간 차원, 채널 차원 및 스케일 차원의 종합적인 어텐션 훈련을 수행함으로써, 훈련된 분할 네트워크가 이미지 분할을 수행할 경우 분할 정밀도를 향상시킬 수 있어, 자기 공명 영상(Magnetic Resonance Imaging, MRI) 이미지, 컴퓨터 단층 촬영(Computed Tomography, CT) 이미지, 초음파 이미지 또는 X선 이미지에서의 종양, 조직 손상 및 괴사, 특수 기관의 분할과 같은 의료 이미지 분할 문제에 적용되며, 의사가 질병 상태를 판단하거나 환자의 건강을 보다 정확하게 평가하도록 지원한다.
분할 네트워크를 통해 공간 차원, 채널 차원 및 스케일 차원 중 기설정된 차원에서, 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하고, 특징 추출 결과에 따라 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하며, 이미지 분할 결과 및 훈련 샘플에 포함된 샘플 이미지에 대응하는 분할 태깅 정보에 따라, 분할 네트워크를 훈련하여, 훈련하여 얻은 분할 네트워크가 이미지 분할 처리를 수행할 경우 분할 정밀도를 향상시킬 수 있다.
본 출원의 실시예는 의료 영상 분석에 적용되는 네트워크 훈련 방법을 제공하며, 상기 네트워크 훈련 방법은 단말 기기 또는 다른 처리 기기에 의해 실행되며, 여기서, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말, 셀룰러 폰, 무선 전화, 개인용 정보 단말기(Personal Digital Assistant, PDA), 핸드헬드 기기, 컴퓨팅 기기, 차량 탑재 기기, 웨어러블 기기 등일 수 있다. 다른 처리 기기는 서버 또는 클라우드 서버 등일 수 있다. 일부 가능한 구현 방식에 있어서, 상기 네트워크 훈련 방법은 프로세서가 메모리에 저장된 컴퓨터 판독 가능한 명령어를 호출하는 방식을 통해 구현될 수 있다. 상기 네트워크 훈련 방법은 다음의 단계들을 포함할 수 있다.
단계 S31에 있어서, 의료 영상을 전처리하여, 사진을 클리핑 및 정규화한다.
단계 S32에 있어서, 의료 영상 분석 측면에서 매우 안정적인 U-Net 네트워크 모델을 백본 네트워크로 선택한다. U-Net의 최하위 계층에서 내적 합계 방식으로 각 픽셀 포인트를 다른 모든 픽셀 포인트와 상관성 연계시켜, 그 후 업 샘플링(특징 디코딩 과정)을 통과할 때마다 인코딩된 정보를 사용하여 동일한 계층의 인코딩 과정에서의 특징을 조회할 수 있다. 이 단계를 공간 어텐션 방법이라고 한다.
단계 S33에 있어서, 각 디코딩 계층의 중간에 채널 어텐션가 삽입되고, 여기서 평균 풀링 정보 및 최대 풀링 정보를 동시에 사용하여 현재 계층의 특징 채널 정보를 교정한다.
단계 S34에 있어서, 디코딩 계층에서의 각 계층의 중간 출력을 업 샘플링을 통해 입력된 원본 이미지와 동일한 크기로 통합하고, 상이한 스케일 특징을 포함하는 채널을 스플라이싱하며, 마지막으로 상이한 스케일 정보에 대해 어텐션 메커니즘을 도입한다.
단계 S35에 있어서, 샘플 이미지에 대해 이미지 분할을 수행하여, 샘플 이미지의 분할 결과를 획득한다. 상기 분할 결과를 인공(의사, 간호사 등을 포함하지만 이에 한정되지 않음)으로 태깅한 금표준과 비교하여, 역전파 알고리즘을 통해, 손실 함수에 대해 기울기 하강법을 사용하여 반복 훈련을 반복적으로 수행하여, 모델 파라미터를 최적화한다. 여기서, 손실 함수는 분할 DICE 손실 함수를 사용한다.
본 출원의 실시예는 네트워크 훈련 방법을 제공하며, 의료 영상이 널리 적용되는 네트워크에서, 특징의 복수 차원에서 어텐션 메커니즘을 도입하여, 이전의 어텐션 메커니즘에 비해, 관심 영역의 관심도를 강화하여, 네트워크의 자기 적응 능력을 향상시킨다.
또한, 네트워크의 작업 분할 능력이 크게 향상되는 조건 하에, 네트워크는 파라미터와 계산 오버헤드가 아주 적게 증가된다. 따라서, 상기 네트워크 훈련 방법은 메모리 요구 사항이 있는 기기에 잘 적용될 수 있다.
도 7은 본 출원의 실시예에서 제공하는 이미지 처리 방법의 흐름 모식도이다. 상기 이미지 처리 방법은 단말 기기 또는 다른 처리 기기에 의해 실행되며, 여기서, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말, 셀룰러 폰, 무선 전화, 개인용 정보 단말기(Personal Digital Assistant, PDA), 핸드헬드 기기, 컴퓨팅 기기, 차량 탑재 기기, 웨어러블 기기 등일 수 있다. 다른 처리 기기는 서버 또는 클라우드 서버 등일 수 있다. 일부 가능한 구현방식에서, 상기 이미지 처리 방법은 프로세서가 메모리에 저장된 컴퓨터 판독 가능한 명령어를 호출하는 방식을 통해 구현될 수 있다. 도 7에 도시된 바와 같이, 상기 네트워크 훈련 방법은 다음의 단계들을 포함할 수 있다.
단계 S71에 있어서, 분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하며; 여기서, 분할 네트워크는 전술한 실시예의 네트워크 훈련 방법을 채택하여 훈련하여 얻는다.
예를 들어, 전술한 실시예에 따라 훈련하여 얻은 분할 네트워크를 채택하여 처리될 이미지에 대해 이미지 분할 처리를 수행한다. 구체적으로, 처리될 이미지를 분할 네트워크에 입력하고, 상기 분할 네트워크의 출력은 처리될 이미지에 대한 이미지 분할 결과이다. 분할 네트워크는 공간 차원, 채널 차원 및 스케일 차원에서 어텐션 메커니즘을 사용하여 훈련하여 얻음으로써, 분할 네트워크가 처리될 이미지에 대해 이미지 분할 처리를 수행하는 분할 정밀도를 향상시킨다. 피부 종양에 대해 자동 분할이 수행되는 시나리오를 예로 들면, 본 출원의 실시예에서 제공하는 이미지 처리 방법은 다음의 단계들을 포함할 수 있다.
단계 S701에 있어서, 피부경 사진을 전처리하며; 사진을 224*300 크기로 리샘플링 한 다음, 0 내지 1 사이로 정규화한다.
단계 S702에 있어서, 3*224*300으로 전처리된 피부경 사진을 훈련 데이터로 사용하여 네트워크에 입력한다. 네트워크 훈련에 들어가기 전에, 사진에 대해 무작위로 플립, 회전 및 클리핑을 수행하여 데이터 강화를 구현한 다음, 강화된 훈련 데이터 및 대응하는 태깅을 네트워크에 입력하여 훈련을 수행한다.
단계 S703에 있어서, 완전 컨볼루션 네트워크(Fully Convolutional Network, FCN) 또는 U-Net에 기반한 네트워크 구조를 채택하여, 크기가 3*224*300인 피부경 사진을 상이한 계층을 통해 컨볼루션한다. 4 회의 다운 샘플링, 배치 정규화 및 활성화 함수의 동작을 거쳐, 3*224*300 크기의 피부 종양 사진 크기는 3*112*150, 3*56*75, 3*28*37 및 3*14*18로 순차적으로 축소된다. 마지막으로 3*14*18의 특징 이미지를 얻는 동시에, 채널 수를 1에서 128로 증가한다. 다음 4 회의 디컨볼루션 연산을 통해, 3*14*18 크기의 특징 이미지를 4 회의 업 샘플링을 거쳐 원래 크기 3*224*300으로 점차 증가한다. 업 샘플링 과정에서, 다운 샘플링에서 동일한 해상도(예컨대 32*32*32)의 특징 이미지, 및 업 샘플링에서 동일한 크기의 특징 이미지를 융합한 다음, 공간 어텐션 메커니즘을 결합한다. 이러한 방식으로, 특징은 이미지에서의 국부 정보 및 글로벌 정보와 결합되는 동시에, 특징 영역의 관심도가 강화된다.
단계 S704에 있어서, 업 샘플링에 의해 획득된 3*224*300의 이미지에 대해, 컨볼루션 연산 과정에 개선된 채널 어텐션 메커니즘을 삽입한다. 다음, 각 계층업 샘플링에 대해, 중간 특징 결과가 입력된 사진의 크기로 업 샘플링된다. 그 다음 스케일 어텐션 메커니즘을 통해 특징 스케일에서의 관심도가 강화된다. 마지막으로, 분할된 결과와 원래 태깅의 분할 결과를 비교하며, DICE 손실 함수, 합집합 위의 교집합(Intersection over union, IOU) 손실 함수 또는 다른 손실 함수를 사용하여 손실을 계산하여, 최종 손실 함수를 형성한다. 역전파 알고리즘과 상기 손실 함수를 사용하여 모델 파라미터를 업데이트하며, 모델이 수렴되거나 최대 반복 횟수에 도달할 때까지 반복적으로 모델을 최적화한다.
단계 S705에 있어서, 훈련된 모델을 사용하여, 처리될 피부경 사진에 대해 이미지 처리를 수행하여, 분할된 결과를 획득한다. DICE 계수, IOU 또는 평균 대칭 표면 거리(average symmetric surface distance, ASSD)를 네트워크의 훈련 효과를 평하기 위한 평가 지표로 사용할 수 있다.
본 출원의 실시예에서 제공하는 이미지 처리 방법은, 전체 어텐션에 기반한 네트워크 방법을 채택함으로써, 의료 이미지 분할 문제에 대해 매우 보편적으로 사용되며, 동시에 MRI, CT, 초음파 및 X-선 등 의료 영상 중의 종양, 조직 손상 괴사와 같은 병변 영역 또는 특수 기관 분할 작업에도 사용될 수 있다. 네트워크에 입력되는 데이터 파라미터만 설정함으로써 다양한 작업에 대한 교육 및 테스트를 구현할 수 있다.
방사선 전문의인 경우, 환자 데이터를 다운로드 한 후, 본 출원의 실시예에서 제공하는 이미지 처리 방법에 기반한 워크 스테이션을 사용하여, 분할해야 한는 종양 또는 기관을 실시간으로 분할 수 있음으로써, CT 영역 스케치, 원격 의료 진단, 클라우드 플랫폼 지원 지능형 진단 등을 구현하여, 의사가 질병 상태를 판단하거나 환자의 건강 상태를 보다 정확하게 평가할 수 있다.
본 출원의 실시예에서 제공하는 이미지 처리 방법에 기반한 지능형 진단 기기는, 클라우드 플랫폼, 대형 서버 및 모바일 기기에 동시에 내장될 수 있으며, 방사선 전문의, 임상의 등은 즉각적인 점검을 위한 진단 요구 사항에 따라 다양한 장치를 편리하게 사용할 수 있다.
이해할 수 있는 것은, 본 출원에서 언급한 상기 각 방법 실시예는, 원리 논리로부터 벗어나지 않는 조건 하에, 모두 서로 결합되어 결합 후의 실시예를 구성할 수 있고, 편폭의 제한으로, 본 출원의 실시예에서는 더이상 설명하지 않는다. 본 분야의 기술자는 구체적인 실시형태의 상기 방법에서, 각 단계의 구체적인 실행 순서는 그 기능 및 가능한 내부 논리에 의해 결정된다.
또한, 본 출원은 네트워크 훈련 장치, 이미지 처리 장치, 전자 기기, 컴퓨터 판독 가능한 장 매체, 프로그램을 더 제공하며, 전술한 것은 모두 본 출원에 의해 제공된 임의의 네트워크 훈련 방법 및 이미지 처리 방법을 구현하기 위해 사용되며, 상응한 기술방안 및 설명은 방법 부분의 상응한 내용을 참조하며, 더이상 설명하지 않는다.
도 8은 본 출원의 실시예에서 제공하는 네트워크 훈련 장치의 구조 모식도이다. 도 8에 도시된 바와 같이, 장치(80)는,
분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하도록 구성된 특징 추출 모듈(81) - 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 훈련 샘플은 상기 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함함 - ;
특징 추출 결과에 따라 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하도록 구성된 분할 모듈(82); 및
이미지 분할 결과 및 분할 태깅 정보에 따라, 분할 네트워크를 훈련하도록 구성된 훈련 모듈(83)을 포함한다.
본 출원의 일부 실시예에서, 분할 네트워크는 인코더 및 디코더를 포함하고, 인코더는 복수 개의 인코딩 계층을 포함하고, 디코더는 복수 개의 디코딩 계층을 포함하며;
특징 추출 모듈(81)은,
샘플 이미지를 인코더에 입력하여, 각 인코딩 계층에 대응하는 제1 특징 이미지를 결정하도록 구성된 제1 결정 서브 모듈 - 상이한 인코딩 계층에 대응하는 제1 특징 이미지의 스케일은 상이함 - ;
임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행하여, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하도록 구성된 제2 결정 서브 모듈 - 상기 디코딩 계층에 입력된 제2 특징 이미지는 상기 디코딩 계층의 이전 디코딩 계층에 대응하는 제3 특징 이미지에 따라 결정되며, 상이한 디코딩 계층에 대응하는 제3 특징 이미지의 스케일은 상이함 - ;
복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 특징 추출 결과를 결정하도록 구성된 제3 결정 서브 모듈을 포함한다.
본 출원의 일부 실시예에서, 제2 결정 서브 모듈은,
상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제4 특징 이미지를 결정하도록 구성된 제1 훈련 유닛 - 제1 훈련될 특징 이미지는 상기 디코딩 계층에 입력된 제2 특징 이미지임 - ;
상기 디코딩 계층에 입력된 제2 특징 이미지 및 상기 디코딩 계층에 대응하는 제4 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 획득하도록 구성된 제1 스플라이싱 유닛;
채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하도록 구성된 제2 훈련 유닛을 포함한다.
본 출원의 일부 실시예에서, 제2 결정 서브 모듈은,
상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 상기 디코딩 계층에 입력된 제2 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 결정하도록 구성된 제2 스플라이싱 유닛;
채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 제1 훈련될 특징 이미지를 결정하도록 구성된 제2 훈련 유닛; 및
상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하도록 구성된 제1 훈련 유닛을 포함한다.
본 출원의 일부 실시예에서, 제1 훈련 유닛은,
상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하도록 구성된 제1 결정 서브 유닛 - 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 가중치를 지시하기 위한 것임 - ;
상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포에 따라 제1 훈련될 특징 이미지에서의 각 픽셀 포인트를 교정하도록 구성된 제1 교정 서브 유닛을 포함한다.
본 출원의 일부 실시예에서, 임의의 디코딩 계층에 대해, 상기 디코딩 계층은 복수 개의 공간 어텐션 훈련 계층을 포함하고;
제1 결정 서브 유닛은 구체적으로,
상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지를 상기 복수 개의 공간 어텐션 훈련 계층에 각각 입력하여, 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치를 결정하고;
제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하도록 구성된다.
본 출원의 일부 실시예에서, 제2 훈련 유닛은,
상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하도록 구성된 제2 결정 서브 유닛 - 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포는 제2 훈련될 특징 이미지에서의 각 채널의 가중치를 지시하기 위한 것임 - ;
상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포에 따라 제2 훈련될 특징 이미지에서의 각 채널을 교정하도록 구성된 제2 교정 서브 유닛을 포함한다.
본 출원의 일부 실시예에서, 제2 결정 서브 유닛은 구체적으로,
제2 훈련될 특징 이미지에 대해 평균 풀링 동작을 수행하여, 평균 풀링 결과를 획득하도록 구성되고;
제2 훈련될 특징 이미지에 대해 최대 풀링 동작을 수행하여, 최대 풀링 결과를 획득하도록 구성되며;
평균 풀링 결과 및 최대 풀링 결과에 따라, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하도록 구성된다.
본 출원의 일부 실시예에서, 제3 결정 서브 모듈은,
상이한 스케일에서의 제3 특징 이미지를 스플라이싱하여, 제3 훈련될 특징 이미지를 획득하도록 구성된 제3 스플라이싱 유닛 - 제3 훈련될 특징 이미지의 스케일은 샘플 이미지의 스케일과 동일함 - ; 및
스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 특징 추출 결과를 결정하도록 구성된 결정 유닛을 포함한다.
본 출원의 일부 실시예에서, 결정 유닛은 구체적으로,
스케일 어텐션 가중치 분포를 결정하고 - 스케일 어텐션 가중치 분포는 상이한 스케일의 가중치를 지시하기 위한 것임 - ;
스케일 어텐션 가중치 분포에 따라 제3 훈련될 특징 이미지를 교정하도록 구성된다.
본 출원의 일부 실시예에서, 상기 샘플 이미지는 의료 영상이고, 상기 분할 태깅 정보는 수동으로 태깅된 금표준이다.
도 9는 본 출원의 실시예에서 제공하는 이미지 처리 장치의 구조 모식도이다. 도 9에 도시된 바와 같이, 장치(90)은,
분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하도록 구성된 이미지 처리 모듈(91)을 포함하며;
여기서, 분할 네트워크는 전술한 실시예의 네트워크 훈련 방법을 채택하여 훈련하여 얻는다.
본 출원의 일부 실시예에서, 상기 분할될 이미지는 분할될 의료 영상이고; 이미지 처리 모듈(91)은, 분할 네트워크를 통해 분할될 의료 영상에 대해 이미지 분할 처리를 수행하여, 분할된 병변 영역 또는 목표 기관 영역을 획득하도록 구성된다.
일부 실시예에서, 본 발명의 실시예에서 제공하는 장치가 갖고 있는 기능 또는 포함하는 모듈은 전술한 방법 실시예에서 설명한 방법을 실행하도록 구성될 수 있고, 그 구체적인 구현은 전술한 방법 실시예의 설명을 참조할 수 있으며, 간결함을 위해, 여기서 더이상 반복하여 설명하지 않는다.
본 출원의 실시예는 또한 컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 프로세서에 의해 실행될 때 상기 이미지 처리 방법을 구현한다. 컴퓨터 판독 가능한 저장 매체는 비휘발성 컴퓨터 판독 가능한 저장 매체일 수 있다.
본 출원의 실시예는 또한 전자 기기를 제공하며, 프로세서; 및 프로세서 실행 가능 명령어를 저장하도록 구성된 메모리를 포함하며; 여기서, 상기 프로세서는 상기 메모리에 저장된 명령어를 호출함으로써 상기 방법을 실행하도록 구성된다.
본 출원의 실시예는 또한 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램 제품을 제공하며, 컴퓨터 판독 가능한 코드가 기기에서 작동될 때, 기기 중의 프로세서는 상기 실시예에서 제공하는 네트워크 훈련 방법 및 이미지 처리 방법을 구현하기 위한 명령어를 실행한다.
본 출원의 실시예는 또한 컴퓨터 판독 가능한 명령어를 저장하도록 구성된 다른 컴퓨터 프로그램 제품을 제공하며, 명령어가 실행될 때 컴퓨터로 하여금 전술한 임의의 실시예에서 제공하는 네트워크 훈련 방법 및 이미지 처리 방법의 동작을 실행하도록 한다.
전자 기기는 단말, 서버 또는 다른 형태의 기기로 제공될 수 있다.
도 10은 본 출원의 실시예에서 제공하는 전자 기기의 모식도이다. 예를 들어, 전자 기기(1000)는 휴대폰, 컴퓨터, 디지털 방송 단말, 메시징 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 피트니스 기기, 개인 휴대용 단말 등 단말일 수 있다.
도 10를 참조하면, 전자 기기(1000)는 처리 컴포넌트(1002), 메모리(1004), 전원 컴포넌트(1006), 멀티미디어 컴포넌트(1008), 오디오 컴포넌트(1010), 입력/출력(Input Output, I/O) 인터페이스(1012), 센서 컴포넌트(1014) 및 통신 컴포넌트(1016) 중 하나 또는 복수 개의 컴포넌트를 포함할 수 있다.
처리 컴포넌트(1002)는 일반적으로 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 전자 기기(1000)의 전체적인 동작을 제어한다. 처리 컴포넌트(1002)는 상기 이미지 재구성 방법 단계의 전부 또는 일부를 구현하기 위한 명령어를 실행하기 위한 하나 또는 복수 개의 프로세서(1020)를 포함할 수 있다. 또한, 처리 컴포넌트(1002)는 처리 컴포넌트(1002) 및 다른 컴포넌트 사이의 상호 작용을 용이하게 하기 위해, 하나 또는 복수 개의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(1002)는 멀티미디어 컴포넌트(1008) 및 처리 컴포넌트(1002) 사이의 상호 작용을 용이하게 하기 위해, 멀티미디어 모듈을 포함할 수 있다.
메모리(1004)는 전자 기기(800)의 동작을 지원하기 위해, 다양한 타입의 데이터를 저장하도록 구성된다. 이러한 데이터의 예는 전자 기기(1000)에서 동작하는 임의의 애플리케이션 프로그램 또는 방법의 명령어, 연락인 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(1004)는 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 전기적 소거 가능한 프로그래머블 읽기 전용 메모리(Electrically Erasable Programmable Read Only Memory, EEPROM), 소거 가능한 프로그래머블 읽기 전용 메모리(Erasable Programmable Read Only Memory, EPROM), 프로그래머블 읽기 전용 메모리(Programmable Read Only Memory, PROM), 읽기 전용 메모리(Read Only Memory, ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광 디스크 중 어느 한 타입의 휘발성 또는 비휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.
전원 컴포넌트(1006)는 전자 기기(1000)의 다양한 컴포넌트에 전원을 공급한다. 전원 컴포넌트(1006)는 전원 관리 시스템, 하나 또는 복수 개의 전원 및 전자 기기(1000)를 위해 전원을 생성, 관리 및 분배하는 것과 관련된 다른 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(1008)는 상기 전자 기기(1000) 및 사용자 사이의 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에 있어서, 스크린은 액정 모니터(Liquid Crystal Display, LCD) 및 터치 패널(Touch Panel, TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 사용자로부터의 입력 신호를 수신하기 위해 스크린은 터치 스크린으로서 구현될 수 있다. 터치 패널은 터치, 스와이프 및 터치 패널 상의 제스처를 감지하기 위한 하나 또는 복수 개의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 스와이프 동작의 경계를 감지할 뿐만 아니라 상기 터치 또는 스와이프 동작과 관련된 지속 시간 및 압력을 감지할 수 있다. 일부 실시에에 있어서, 멀티미디어 컴포넌트(1008)는 하나의 전방 카메라 및 하나의 후방 카메라 중 적어도 하나를 포함한다. 전자 기기(1000)가 촬영 모드 또는 비디오 모드와 같은 동작 모드에 있을 경우, 전방 카메라 및 후방 카메라 중 적어도 하나는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 전방 카메라 및 후방 카메라는 하나의 고정된 광학 렌즈 시스템이거나 초점 거리 및 광학 줌 기능을 구비할 수 있다.
오디오 컴포넌트(1010)는 오디오 신호를 출력하는 것 및 입력하는 것 중 적어도 하나를 수행하도록 구성된다. 예를 들어, 오디오 컴포넌트(1010)는 하나의 마이크로폰(MICrophone, MIC)을 포함하며, 전자 기기(1000)가 콜 모드, 녹음 모드 및 음성 인식 모드와 같은 동작 모드에 있을 경우, 마이크로폰은 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(1004)에 추가로 저장되거나 통신 컴포넌트(1016)에 의해 송신될 수 있다. 일부 실시예에 있어서, 오디오 부재(1010)는 오디오 신호를 출력하도록 구성된 하나의 스피커를 더 포함한다.
I/O 인터페이스(1012)는 처리 컴포넌트(1002) 및 외부 인터페이스 모듈 사이에 인터페이스를 제공하며, 상기 외부 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼은 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼을 포함할 수 있지만 이에 한정되지 않는다.
센서 컴포넌트(1014)는 전자 기기(1000)를 위한 다양한 측면의 상태 평가를 제공하기 위한 하나 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 컴포넌트(1014)는 전자 기기(1000)의 온/오프 상태, 컴포넌트의 상대 위치를 검출할 수 있으며, 예를 들어, 상기 컴포넌트는 전자 기기(1000)의 모니터와 키패드이며, 센서 컴포넌트(1014)는 전자 기기(1000) 또는 전자 기기(1000)에서 하나의 컴포넌트의 위치 변화, 사용자와 전자 기기(1000) 접촉의 존재 유무, 전자 기기(1000) 방향 또는 가속/감속 및 전자 기기(1000)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(1014)는 그 어떤 물리적 접촉이 없이 근처의 물체의 존재를 검출하도록 구성된 근접 센서를 포함할 수 있다. 센서 컴포넌트(1014)는 또한 이미징 애플리케이션에 사용하도록 구성된 상보적 금속 산화물 반도체(Complementary Metal Oxide Semiconductor, CMOS) 또는 전하 결합 장치(Charge Coupled Device, CCD) 이미지 센서와 같은 광 센서를 포함할 수 있다. 일부 실시예에 있어서, 상기 센서 컴포넌트(1014)는 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.
통신 컴포넌트(1016)는 전자 기기(1000)와 다른 기기 사이의 유선 또는 무선 방식으로 통신을 용이하게 하도록 구성된다. 전자 기기(1000)는 와이파이(Wireless Fidelity, WiFi), 2G(2th Generation, 2G) 또는 3G(3th Generation, 3G), 또는 이들의 조합과 같은 기준에 기반한 무선 인터넷에 액세스할 수 있다. 하나의 예시적인 실시예에서, 통신 컴포넌트(1016)는 방송 채널을 통해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 예시적 실시예에서, 상기 통신 컴포넌트(1016)는 근거리 통신을 추진하는 근거리 무선 통신(Near Field Communication, NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별(Radio Frequency Identification, RFID) 기술, 적외선 데이터 연관(Infrared Data Association, IrDA) 기술, 초광대역(Ultra Wide Band, UWB) 기술, 블루투스(Bluetooth, BT) 기술 및 다른 기술을 기반으로 할 수 있다.
예시적 실시예에서, 전자 기기(800)는 상기 이미지 재구성 방법을 실행하기 위해, 하나 또는 복수 개의 주문형 집적 회로(ApplicationSpecificIntegratedCircuit, ASIC), 디지털 신호 프로세서(Digital Signal Processor, DSP), 디지털 신호 처리 장치(Digital Signal Processing Devices, DSPD), 프로그래머블 논리 장치(Programmable Logic Device, PLD), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 소자에 의해 구현될 수 있다.
예시적 실시예에서 또한, 컴퓨터 프로그램 명령어를 포함하는 메모리(1004)와 같은 비휘발성 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 상기 이미지 재구성 방법을 완성하기 위해 전자 기기(1000)의 프로세서(1020)에 의해 실행될 수 있다.
도 11은 본 출원의 실시예에 따른 전자 기기의 블록도이다. 예를 들어, 전자 기기(1100)는 하나의 서버로 제공될 수 있다. 도 27을 참조하면, 전자 기기(1100)는 하나 또는 복수 개의 프로세서를 더 포함하는 처리 컴포넌트(1122), 및 처리 컴포넌트(1122)에 의해 실행되는 명령어를 저장하도록 구성된 메모리(1132)로 대표되는 메모리 자원을 포함한다. 메모리(1132)에 저장된 애플리케이션 프로그램은 하나 또는 하나 이상의 각 명령어 세트에 대응되는 모듈을 포함할 수 있다. 또한, 처리 컴포넌트(1122)는 명령어를 실행하여, 상기 얼굴 인식 방법을 실행하도록 구성된다.
전자 기기(1100)는 전자 기기(1100)의 전원 관리를 실행하도록 구성된 하나의 전원 컴포넌트(1126), 전자 기기(1100)를 네트워크에 연결하도록 구성된 하나의 유선 또는 무선 네트워크 인터페이스(1150) 및 하나의 입력/출력(I/O) 인터페이스(1158)를 더 포함할 수 있다. 전자 기기(1100)는 메모리(1132)에 저장된 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 운영체제를 동작시킬 수 있다.
예시적 실시예에 있어서, 컴퓨터 프로그램 명령어를 포함하는 메모리(1132)와 같은 비휘발성 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 상기 이미지 재구성 방법을 완료하도록 전자 기기(1100)의 처리 컴포넌트(1122)에 의해 실행된다.
본 출원의 실시예는 시스템, 방법 및 컴퓨터 프로그램 제품 중 적어도 하나일 수 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독 가능한 저장 매체를 포함할 수 있고, 컴퓨터 판독 가능한 저장 매체에는 프로세서가 본 출원의 실시예의 각 측면을 구현하도록 하는 컴퓨터 판독 가능한 프로그램 명령어가 존재한다.
컴퓨터 판독 가능 저장 매체는 명령어 실행 기기에 의해 실행되는 명령어를 유지 및 저장할 수 있는 타입의 기기일 수 있다. 컴퓨터 판독 가능한 저장 매체는 예를 들어 축전 기기, 자기 저장 기기, 광 저장 기기, 전자기 저장 기기, 반도체 저장 기기 또는 전술한 축전 기기, 자기 저장 기기, 광 저장 기기, 전자기 저장 기기, 반도체 저장 기기의 임의의 적절한 조합일 수 있지만 이에 한정되지 않는다. 컴퓨터 판독 가능한 저장 매체의 더 구체적인 예는(비제한 리스트), 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(Random Access Memory, RAM), 판독 전용 메모리(Read Only Memory, ROM) 및 소거 가능하고 프로그램 가능한 판독 전용 메모리((Erasable Programmable Read Only Memory, EPROM) 또는 플래시 메모리), 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 휴대용 컴팩트 디스크 판독 전용 메모리(Portable Compact Disk Read-Only Memory, CD-ROM), DVD (Digital Versatile Disk), 메모리 스틱, 플로피 디스크, 명령어가 저장된 장치와 같은 기계적 코딩 장치 홀 카드 또는 그루브에서의 볼록한 구조 및 전술한 임의의 적절한 조합을 포함한다. 여기서 사용되는 컴퓨터 판독 가능한 저장 매체는 무선 전자파 또는 다른 자유롭게 전파되는 전자기파, 도파관 또는 다른 전송 매체를 통해 전파되는 전자기파(예를 들어, 광섬유 케이블을 통한 광펄스), 또는 와이어를 통해 전송되는 전기 신호와 같은 순간 신호 자체로 해석되지 않아야 한다.
여기서 설명한 컴퓨터 판독 가능한 프로그램 명령어는 컴퓨터 판독 가능한 저장 매체로부터 각 컴퓨팅/처리 기기로 다운 로드될 수 있거나, 인터넷, 근거리 통신망, 광역 통신망 및 무선 네트워크 중 적어도 하나와 같은 네트워크를 통해, 외부 컴퓨터 또는 외부 저장 기기로 다운 로드될 수 있다. 네트워크는 동 전송 케이블, 광섬유 전송, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터 및 에지 서버 중 적어도 하나를 포함할 수 있다. 각 컴퓨팅/처리 기기의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크로부터 컴퓨터 판독 가능한 프로그램 명령어를 수신하고, 각 컴퓨팅/처리 기기에서의 컴퓨터 판독 가능한 저장 매체에 저장하기 위해, 컴퓨터 판독 가능한 프로그램 명령어를 전달한다.
본 출원의 실시예의 동작을 실행하기 위한 컴퓨터 프로그램 명령어는 어셈블리 명령어, 명령어 세트 아키텍처(Instruction Set Architecture, ISA) 명령어, 머신 명령어, 머신 관련 명령어, 마이크로 코드, 펌웨어 명령어, 상태 설정 데이터, 또는 하나 또는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 객체 코드일 수 있고, 상기 프로그래밍 언어에는 스몰 토크, C++ 등과 같은 객체 지향 프로그래밍 언어 및 "C" 언어 또는 유사한 프로그래밍 언어와 같은 기존 프로그래밍 언어가 포함된다. 컴퓨터 판독 가능 프로그램 명령어는 사용자 컴퓨터에서 완전히 실행되거나, 사용자 컴퓨터에서 부분적으로 실행되거나, 독립적인 소프트웨어 패키지로서 실행되거나, 사용자 컴퓨터에서 일부가 실행되고 원격 컴퓨터에서 일부가 실행되거나, 원격 컴퓨터 또는 서버에서 완전히 실행될 수 있다. 원격 컴퓨터와 관련된 상황에서 원격 컴퓨터는 근거리 통신망(Local Area Network, LAN) 또는 광대역 통신망(Wide Area Network, WAN)을 포함하는 모든 타입의 네트워크를 통해 사용자 컴퓨터에 연결되거나 외부 컴퓨터에 연결(예를 들어 인터넷 서비스 제공 업체를 사용하여 인터넷을 통해 연결)될 수 있다. 일부 실시예에 있어서, 프로그램 가능한 논리 회로, 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA) 또는 프로그램 가능한 논리 어레이 (Programmable Logic Array, PLA)와 같은 전자 회로는 컴퓨터 판독 가능 프로그램 명령어의 상태 정보를 이용하여 개인화될 수 있고, 상기 전자 회로는 컴퓨터 판독 가능 프로그램 명령어를 실행할 수 있음으로써, 본 발명의 다양한 측면을 구현한다.
여기서 본 출원의 실시예의 다양한 측면은 본 출원의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및 블록도 중 적어도 하나를 참조하여 설명하였다. 흐름도 및 블록도 중 적어도 하나의 각 블록 및 흐름도 및 블록도 중 적어도 하나의 블록들의 조합은, 컴퓨터 판독 가능 프로그램 명령어에 의해 모두 구현될 수 있음을 이해해야 한다.
이러한 컴퓨터 판독 가능한 프로그램 명령어는 범용 컴퓨터, 특수 목적 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서에 제공 될 수 있음으로써, 이에 의해 이러한 명령어가 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서에 의해 실행되도록 하는 기계가 생성되고, 흐름도 및 블록도 중 적어도 하나에서 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현하는 장치가 생성된다. 이러한 컴퓨터 판독 가능한 프로그램 명령어를 컴퓨터 판독 가능한 저장 매체에 저장할 수도 있으며, 이러한 명령어는 컴퓨터, 프로그램 가능한 데이터 처리 장치 및 다른 기기가 특정한 방식으로 작동될 수 있도록 함으로써, 명령어가 저장되어 있는 컴퓨터 판독 가능한 매체는 제조품을 포함하며, 상기 제조품은 흐름도 및 블록도 중 적어도 하나에서 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현하는 명령어를 포함한다.
컴퓨터 판독 가능한 프로그램 명령어는 또한 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치 또는 다른 기기에 로딩될 수 있어, 컴퓨터로 구현되는 과정을 생성하기 위해, 일련의 동작 단계가 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치 또는 다른 기기에서 수행되도록 함으로써, 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치 또는 다른 기기에서 실행되는 명령어는 흐름도 및 블록도 중 적어도 하나에서 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현한다.
도면의 흐름도 및 블록도는 본 출원의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계 아키텍처, 기능 및 동작을 디스플레이한다. 이와 관련하여, 흐름도 또는 블록도의 각 블록은 모듈, 프로그램 세그먼트 또는 명령어의 일부를 나타낼 수 있고, 상기 모듈, 프로그램 세그먼트 또는 명령어의 일부는 하나 또는 복수 개의 지정된 논리적 기능을 구현하기 위한 실행 가능한 명령어를 포함한다. 일부 대안적인 구현에서, 블록에 표시된 기능은 도면에 표시된 것과 다른 순서로 발생할 수도 있다. 예를 들어, 두 개의 연속적인 블록은 실제로 병렬로 실행될 수 있으며, 때로는 관련 기능에 따라 역순으로 실행될 수도 있으며, 이는 관련된 기능에 의해 결정된다. 또한 유의해야 할 것은, 블록도 및 흐름도 중 적어도 하나에서의 각 블록, 및 블록도 및 흐름도 중 적어도 하나에서의 블록의 조합은, 지정된 기능 또는 동작의 전용 하드웨어 기반의 시스템에 의해 구현될 수 있거나, 전용 하드웨어와 컴퓨터 명령어의 조합으로 구현될 수 있다.
상기 컴퓨터 프로그램 제품은 구체적으로 하드웨어, 소프트웨어 또는 이들의 조합을 통해 구현될 수 있다. 하나의 선택적인 실시예에서, 상기 컴퓨터 프로그램 제품은 구체적으로 컴퓨터 저장 매체로 구현되며, 다른 하나의 선택적인 예에서, 상기 컴퓨터 프로그램 제품은 구체적으로 소프트웨어 개발 키트(Software Development Kit, SDK) 등과 같은 소프트웨어 제품으로 구현된다.
이상 본 출원의 각 실시예를 설명하였고, 상기 설명은 예시적이고, 비철저하며, 개시된 각 실시예에 한정되지도 않는다. 설명된 각 실시예의 범위 및 사상을 벗어나지 않는 한, 많은 수정 및 변경은 본 기술분야의 기술자에게는 자명한 것이다. 본 명세서에서 사용된 용어의 선택은 각 실시예의 원리, 실제 응용 또는 시장에서의 기술에 대한 개선을 가장 잘 해석하거나, 당업자가 본 명세서에 개시된 각 실시예를 이해할 수 있도록 의도된다.
본 출원의 실시예는 네트워크 훈련, 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체를 제공하며, 상기 네트워크 훈련 방법은, 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하는 단계 - 상기 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 상기 훈련 샘플은 상기 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함함 - ; 상기 특징 추출 결과에 따라 상기 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하는 단계; 및 상기 이미지 분할 결과 및 상기 분할 태깅 정보에 따라, 상기 분할 네트워크를 훈련하는 단계를 포함한다. 본 출원의 실시예는 분할 네트워크의 훈련을 구현할 수 있고, 훈련하여 얻은 분할 네트워크를 통해 이미지 분할 처리를 수행할 수 있다.
Claims (30)
- 뉴럴 네트워크 모델을 훈련하여, 훈련하여 얻은 뉴럴 네트워크 모델에 따라 이미지에 대해 분할을 수행하기 위한 네트워크 훈련 방법으로서,
분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하는 단계 - 상기 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 상기 훈련 샘플은 상기 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함함 - ;
상기 특징 추출 결과에 따라 상기 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하는 단계; 및
상기 이미지 분할 결과 및 상기 분할 태깅 정보에 따라, 상기 분할 네트워크를 훈련하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법. - 제1항에 있어서,
상기 분할 네트워크는 인코더 및 디코더를 포함하고, 상기 인코더는 복수 개의 인코딩 계층을 포함하고, 상기 디코더는 복수 개의 디코딩 계층을 포함하며;
상기 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하는 단계는,
상기 샘플 이미지를 상기 인코더에 입력하여, 각 인코딩 계층에 대응하는 제1 특징 이미지를 결정하는 단계 - 상이한 인코딩 계층에 대응하는 제1 특징 이미지의 스케일은 상이함 - ;
임의의 디코딩 계층에 대해, 상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계 - 상기 디코딩 계층에 입력된 제2 특징 이미지는 상기 디코딩 계층의 이전 디코딩 계층에 대응하는 제3 특징 이미지에 따라 결정되며, 상이한 디코딩 계층에 대응하는 제3 특징 이미지의 스케일은 상이함 - ; 및
복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 상기 특징 추출 결과를 결정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법. - 제2항에 있어서,
상기 임의의 디코딩 계층에 대해, 상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계는,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제4 특징 이미지를 결정하는 단계 - 제1 훈련될 특징 이미지는 상기 디코딩 계층에 입력된 제2 특징 이미지임 - ;
상기 디코딩 계층에 입력된 제2 특징 이미지 및 상기 디코딩 계층에 대응하는 제4 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 획득하는 단계; 및
채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법. - 제2항에 있어서,
상기 임의의 디코딩 계층에 대해, 상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계는,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지 및 상기 디코딩 계층에 입력된 제2 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 결정하는 단계;
채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 제1 훈련될 특징 이미지를 결정하는 단계; 및
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법. - 제3항에 있어서,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련하는 단계는,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계 - 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 가중치를 지시하기 위한 것임 - ; 및
상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포에 따라 제1 훈련될 특징 이미지에서의 각 픽셀 포인트를 교정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법. - 제5항에 있어서,
임의의 디코딩 계층에 대해, 상기 디코딩 계층은 복수 개의 공간 어텐션 훈련 계층을 포함하고;
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계는,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지를 상기 복수 개의 공간 어텐션 훈련 계층에 각각 입력하여, 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치를 결정하는 단계; 및
제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 상기 복수 개의 가중치에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법. - 제3항 내지 제6항 중 어느 한 항에 있어서,
상기 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행하는 단계는,
상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계 - 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포는 제2 훈련될 특징 이미지에서의 각 채널의 가중치를 지시하기 위한 것임 - ; 및
상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포에 따라 제2 훈련될 특징 이미지에서의 각 채널을 교정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법. - 제7항에 있어서,
상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계는,
제2 훈련될 특징 이미지에 대해 평균 풀링 동작을 수행하여, 평균 풀링 결과를 획득하는 단계;
제2 훈련될 특징 이미지에 대해 최대 풀링 동작을 수행하여, 최대 풀링 결과를 획득하는 단계; 및
상기 평균 풀링 결과 및 상기 최대 풀링 결과에 따라, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법. - 제2항 내지 제8항 중 어느 한 항에 있어서,
복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 상기 특징 추출 결과를 결정하는 단계는,
상이한 스케일에서의 제3 특징 이미지를 스플라이싱하여, 제3 훈련될 특징 이미지를 획득하는 단계 - 제3 훈련될 특징 이미지의 스케일과 상기 샘플 이미지의 스케일은 동일함 - ; 및
스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 특징 추출 결과를 결정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법. - 제9항에 있어서,
상기 스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행하는 단계는,
스케일 어텐션 가중치 분포를 결정하는 단계 - 상기 스케일 어텐션 가중치 분포는 상이한 스케일의 가중치를 지시하기 위한 것임 - ; 및
상기 스케일 어텐션 가중치 분포에 따라 제3 훈련될 특징 이미지를 교정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법. - 제1항 내지 제10항 중 어느 한 항에 있어서,
상기 샘플 이미지는 의료 영상이고, 상기 분할 태깅 정보는 수동으로 태깅된 금표준인 것을 특징으로 하는 네트워크 훈련 방법. - 이미지 처리 방법으로서,
분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하는 단계를 포함하며;
상기 분할 네트워크는 제1항 내지 제11항 중 어느 한 항에 따른 네트워크 훈련 방법을 채택하여 훈련하여 얻는 것을 특징으로 하는 이미지 처리 방법. - 제12항에 있어서,
상기 분할될 이미지는 분할될 의료 영상이고;
상기 분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하는 단계는,
분할 네트워크를 통해 분할될 의료 영상에 대해 이미지 분할 처리를 수행하여, 분할된 병변 영역 또는 목표 기관 영역을 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법. - 뉴럴 네트워크 모델을 훈련하여, 훈련하여 얻은 뉴럴 네트워크 모델에 따라 이미지에 대해 분할을 수행하기 위한 네트워크 훈련 장치로서,
분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하도록 구성된 특징 추출 모듈 - 상기 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 상기 훈련 샘플은 상기 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함함 - ;
상기 특징 추출 결과에 따라 상기 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하도록 구성된 분할 모듈; 및
상기 이미지 분할 결과 및 상기 분할 태깅 정보에 따라, 상기 분할 네트워크를 훈련시키도록 구성된 훈련 모듈을 포함하는 것을 특징으로 하는 네트워크 훈련 장치. - 제14항에 있어서,
상기 분할 네트워크는 인코더 및 디코더를 포함하고, 상기 인코더는 복수 개의 인코딩 계층을 포함하고, 상기 디코더는 복수 개의 디코딩 계층을 포함하며;
상기 특징 추출 모듈은,
샘플 이미지를 인코더에 입력하여, 각 인코딩 계층에 대응하는 제1 특징 이미지를 결정하도록 구성된 제1 결정 서브 모듈 - 상이한 인코딩 계층에 대응하는 제1 특징 이미지의 스케일은 상이함 - ;
임의의 디코딩 계층에 대해, 상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하도록 구성된 제2 결정 서브 모듈 - 상기 디코딩 계층에 입력된 제2 특징 이미지는 상기 디코딩 계층의 이전 디코딩 계층에 대응하는 제3 특징 이미지에 따라 결정되며, 상이한 디코딩 계층에 대응하는 제3 특징 이미지의 스케일은 상이함 - ; 및
복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 특징 추출 결과를 결정하도록 구성된 제3 결정 서브 모듈을 포함하는 것을 특징으로 하는 네트워크 훈련 장치. - 제15항에 있어서,
상기 제2 결정 서브 모듈은,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제4 특징 이미지를 결정하도록 구성된 제1 훈련 유닛 - 제1 훈련될 특징 이미지는 상기 디코딩 계층에 입력된 제2 특징 이미지임 - ;
상기 디코딩 계층에 입력된 제2 특징 이미지 및 상기 디코딩 계층에 대응하는 제4 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 획득하도록 구성된 제1 스플라이싱 유닛; 및
채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하도록 구성된 제2 훈련 유닛을 포함하는 것을 특징으로 하는 네트워크 훈련 장치. - 제15항에 있어서,
상기 제2 결정 서브 모듈은,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지 및 상기 디코딩 계층에 입력된 제2 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 결정하도록 구성된 제2 스플라이싱 유닛;
채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 제1 훈련될 특징 이미지를 결정하도록 구성된 제2 훈련 유닛; 및
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하도록 구성된 제1 훈련 유닛을 포함하는 것을 특징으로 하는 네트워크 훈련 장치. - 제16항에 있어서,
상기 제1 훈련 유닛은,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하도록 구성된 제1 결정 서브 유닛 - 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 가중치를 지시하기 위한 것임 - ; 및
상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포에 따라 제1 훈련될 특징 이미지에서의 각 픽셀 포인트를 교정하도록 구성된 제1 교정 서브 유닛을 포함하는 것을 특징으로 하는 네트워크 훈련 장치. - 제18항에 있어서,
임의의 디코딩 계층에 대해, 상기 디코딩 계층은 복수 개의 공간 어텐션 훈련 계층을 포함하고;
상기 제1 결정 서브 유닛은 또한,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지를 상기 복수 개의 공간 어텐션 훈련 계층에 각각 입력하여, 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치를 결정하고;
제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하도록 구성된 것을 특징으로 하는 네트워크 훈련 장치. - 제16항 내지 제19항 중 어느 한 항에 있어서,
상기 제2 훈련 유닛은,
상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하도록 구성된 제2 결정 서브 유닛 - 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포는 제2 훈련될 특징 이미지에서의 각 채널의 가중치를 지시하기 위한 것임 - ; 및
상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포에 따라 제2 훈련될 특징 이미지에서의 각 채널을 교정하도록 구성된 제2 교정 서브 유닛을 포함하는 것을 특징으로 하는 네트워크 훈련 장치. - 제20항에 있어서,
상기 제2 결정 서브 유닛은 또한,
제2 훈련될 특징 이미지에 대해 평균 풀링 동작을 수행하여, 평균 풀링 결과를 획득하고;
제2 훈련될 특징 이미지에 대해 최대 풀링 동작을 수행하여, 최대 풀링 결과를 획득하며;
상기 평균 풀링 결과 및 상기 최대 풀링 결과에 따라, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하도록 구성된 것을 특징으로 하는 네트워크 훈련 장치. - 제15항 내지 제21항 중 어느 한 항에 있어서,
상기 제3 결정 서브 모듈은,
상이한 스케일에서의 제3 특징 이미지를 스플라이싱하여, 제3 훈련될 특징 이미지를 획득하도록 구성된 제3 스플라이싱 유닛 - 제3 훈련될 특징 이미지의 스케일은 샘플 이미지의 스케일과 동일함 - ; 및
스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 특징 추출 결과를 결정하도록 구성된 결정 유닛을 포함하는 것을 특징으로 하는 네트워크 훈련 장치. - 제22항에 있어서,
상기 결정 유닛은 또한,
스케일 어텐션 가중치 분포를 결정하고 - 스케일 어텐션 가중치 분포는 상이한 스케일의 가중치를 지시하기 위한 것임 - ;
스케일 어텐션 가중치 분포에 따라 제3 훈련될 특징 이미지를 교정하도록 구성된 것을 특징으로 하는 네트워크 훈련 장치. - 제14항 내지 제23항 중 어느 한 항에 있어서,
상기 샘플 이미지는 의료 영상이고, 상기 분할 태깅 정보는 수동으로 태깅된 금표준인 것을 특징으로 하는 네트워크 훈련 장치. - 전자 기기로서,
프로세서; 및
프로세서에서 실행 가능한 명령어를 저장하도록 구성된 메모리를 포함하고;
상기 프로세서는 상기 메모리에 저장된 명령어를 호출함으로써, 제1항 내지 제11항 중 어느 한 항에 따른 네트워크 훈련 방법을 실행하도록 구성된 것을 특징으로 하는 전자 기기. - 컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능한 저장 매체로서,
상기 컴퓨터 프로그램 명령어가 프로세서에서 실행될 때 제1항 내지 제11항 중 어느 한 항에 따른 네트워크 훈련 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체. - 이미지 처리 장치로서,
분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하도록 구성된 이미지 처리 모듈을 포함하며;
상기 분할 네트워크는 제1항 내지 제11항 중 어느 한 항에 따른 네트워크 훈련 방법을 사용하여 훈련하여 얻는 것을 특징으로 하는 이미지 처리 장치. - 제27항에 있어서,
상기 분할될 이미지는 분할될 의료 영상이고;
상기 이미지 처리 모듈은 분할 네트워크를 통해 분할될 의료 영상에 대해 이미지 분할 처리를 수행하여, 분할된 병변 영역 또는 목표 기관 영역을 획득하도록 구성된 것을 특징으로 하는 이미지 처리 장치. - 전자 기기로서,
프로세서; 및
프로세서에서 실행 가능한 명령어를 저장하도록 구성된 메모리를 포함하고;
상기 프로세서는 상기 메모리에 저장된 명령어를 호출함으로써, 제12항 또는 제13항에 따른 이미지 처리 방법을 실행하도록 구성된 것을 특징으로 하는 전자 기기. - 컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능한 저장 매체로서,
상기 컴퓨터 프로그램 명령어가 프로세서에 의해 실행될 때 제12항 또는 제13항에 따른 이미지 처리 방법을 실행하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010065998.9 | 2020-01-20 | ||
CN202010065998.9A CN111310764B (zh) | 2020-01-20 | 2020-01-20 | 网络训练、图像处理方法及装置、电子设备和存储介质 |
PCT/CN2020/100723 WO2021147257A1 (zh) | 2020-01-20 | 2020-07-07 | 网络训练、图像处理方法及装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210140757A true KR20210140757A (ko) | 2021-11-23 |
Family
ID=71146977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217034486A KR20210140757A (ko) | 2020-01-20 | 2020-07-07 | 네트워크 훈련 방법, 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체 |
Country Status (5)
Country | Link |
---|---|
JP (1) | JP2022521130A (ko) |
KR (1) | KR20210140757A (ko) |
CN (1) | CN111310764B (ko) |
TW (1) | TWI743931B (ko) |
WO (1) | WO2021147257A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023101276A1 (ko) * | 2021-11-30 | 2023-06-08 | 삼성전자 주식회사 | 영상 처리 장치 및 그 동작 방법 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310764B (zh) * | 2020-01-20 | 2024-03-26 | 上海商汤智能科技有限公司 | 网络训练、图像处理方法及装置、电子设备和存储介质 |
CN112102251B (zh) * | 2020-08-20 | 2023-10-31 | 上海壁仞智能科技有限公司 | 一种分割影像的方法及装置、电子设备和存储介质 |
CN112183507B (zh) * | 2020-11-30 | 2021-03-19 | 北京沃东天骏信息技术有限公司 | 图像分割方法、装置、设备、存储介质 |
CN112733886A (zh) * | 2020-12-24 | 2021-04-30 | 西人马帝言(北京)科技有限公司 | 样本图像的处理方法、装置、设备及存储介质 |
CN113223730B (zh) * | 2021-03-30 | 2023-06-06 | 武汉市疾病预防控制中心 | 基于人工智能的疟疾分类方法及设备 |
CN113377986B (zh) * | 2021-06-23 | 2023-11-07 | 泰康保险集团股份有限公司 | 图像检索方法和装置 |
CN113989593A (zh) * | 2021-10-29 | 2022-01-28 | 北京百度网讯科技有限公司 | 图像处理方法、检索方法、训练方法、装置、设备及介质 |
CN114267443B (zh) * | 2021-11-08 | 2022-10-04 | 东莞市人民医院 | 基于深度学习的胰腺肿瘤纤维化程度预测方法及相关装置 |
CN114119351A (zh) * | 2021-11-08 | 2022-03-01 | 清华大学 | 图像处理方法、装置、电子设备及存储介质 |
CN114399629A (zh) * | 2021-12-22 | 2022-04-26 | 北京沃东天骏信息技术有限公司 | 一种目标检测模型的训练方法、目标检测的方法和装置 |
CN114418069B (zh) * | 2022-01-19 | 2024-06-14 | 腾讯科技(深圳)有限公司 | 一种编码器的训练方法、装置及存储介质 |
CN114429548A (zh) * | 2022-01-28 | 2022-05-03 | 北京百度网讯科技有限公司 | 图像处理方法、神经网络及其训练方法、装置和设备 |
CN114596370A (zh) * | 2022-03-04 | 2022-06-07 | 深圳万兴软件有限公司 | 视频色彩转换方法、装置、计算机设备及存储介质 |
CN114764858B (zh) * | 2022-06-15 | 2022-11-01 | 深圳大学 | 一种复制粘贴图像识别方法、装置、计算机设备及存储介质 |
CN114782440B (zh) * | 2022-06-21 | 2022-10-14 | 杭州三坛医疗科技有限公司 | 医学图像分割方法及电子设备 |
CN115330808B (zh) * | 2022-07-18 | 2023-06-20 | 广州医科大学 | 一种分割引导的磁共振图像脊柱关键参数自动测量方法 |
CN115034375B (zh) * | 2022-08-09 | 2023-06-27 | 北京灵汐科技有限公司 | 数据处理方法及装置、神经网络模型、设备、介质 |
CN115430066A (zh) * | 2022-09-13 | 2022-12-06 | 苏州雷泰医疗科技有限公司 | 超声装置、包括该超声装置的放射治疗设备及其工作方法 |
CN116402779A (zh) * | 2023-03-31 | 2023-07-07 | 北京长木谷医疗科技有限公司 | 基于深度学习注意力机制的颈椎图像分割方法及装置 |
CN116704666A (zh) * | 2023-06-21 | 2023-09-05 | 合肥中科类脑智能技术有限公司 | 售卖方法及计算机可读存储介质、自动售卖机 |
CN116955965B (zh) * | 2023-09-20 | 2024-02-02 | 山东鑫泰莱光电股份有限公司 | 一种基于太阳能数据故障预测方法、设备以及存储介质 |
CN117351183B (zh) * | 2023-10-09 | 2024-06-04 | 广州医科大学附属第一医院(广州呼吸中心) | 子宫内膜癌淋巴结转移智能识别方法及系统 |
CN117437463B (zh) * | 2023-10-19 | 2024-05-24 | 上海策溯科技有限公司 | 基于图像处理的医学影像数据处理方法及处理平台 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW514513B (en) * | 1996-02-06 | 2002-12-21 | Deus Technologies Inc | Method for the detection of lung nodule in radiological images using digital image processing and artificial neural network |
US10049279B2 (en) * | 2016-03-11 | 2018-08-14 | Qualcomm Incorporated | Recurrent networks with motion-based attention for video understanding |
US10558750B2 (en) * | 2016-11-18 | 2020-02-11 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
CN108830157B (zh) * | 2018-05-15 | 2021-01-22 | 华北电力大学(保定) | 基于注意力机制和3d卷积神经网络的人体行为识别方法 |
CN109410216B (zh) * | 2018-09-14 | 2020-12-29 | 北京市商汤科技开发有限公司 | 一种缺血性脑卒中图像区域分割方法及装置 |
CN109446970B (zh) * | 2018-10-24 | 2021-04-27 | 西南交通大学 | 一种基于深度学习的变电站巡检机器人道路场景识别方法 |
CN109614991A (zh) * | 2018-11-19 | 2019-04-12 | 成都信息工程大学 | 一种基于Attention的多尺度扩张性心肌的分割分类方法 |
CN109829501B (zh) * | 2019-02-01 | 2021-02-19 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN110176012B (zh) * | 2019-05-28 | 2022-12-13 | 腾讯科技(深圳)有限公司 | 图像中的目标分割方法、池化方法、装置及存储介质 |
CN110188765B (zh) * | 2019-06-05 | 2021-04-06 | 京东方科技集团股份有限公司 | 图像语义分割模型生成方法、装置、设备及存储介质 |
US10482603B1 (en) * | 2019-06-25 | 2019-11-19 | Artificial Intelligence, Ltd. | Medical image segmentation using an integrated edge guidance module and object segmentation network |
CN110648334A (zh) * | 2019-09-18 | 2020-01-03 | 中国人民解放军火箭军工程大学 | 一种基于注意力机制的多特征循环卷积显著性目标检测方法 |
CN110633755A (zh) * | 2019-09-19 | 2019-12-31 | 北京市商汤科技开发有限公司 | 网络训练方法、图像处理方法及装置、电子设备 |
CN111310764B (zh) * | 2020-01-20 | 2024-03-26 | 上海商汤智能科技有限公司 | 网络训练、图像处理方法及装置、电子设备和存储介质 |
-
2020
- 2020-01-20 CN CN202010065998.9A patent/CN111310764B/zh active Active
- 2020-07-07 KR KR1020217034486A patent/KR20210140757A/ko active Search and Examination
- 2020-07-07 WO PCT/CN2020/100723 patent/WO2021147257A1/zh active Application Filing
- 2020-07-07 JP JP2021539612A patent/JP2022521130A/ja active Pending
- 2020-08-10 TW TW109127036A patent/TWI743931B/zh active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023101276A1 (ko) * | 2021-11-30 | 2023-06-08 | 삼성전자 주식회사 | 영상 처리 장치 및 그 동작 방법 |
Also Published As
Publication number | Publication date |
---|---|
TW202129543A (zh) | 2021-08-01 |
WO2021147257A1 (zh) | 2021-07-29 |
JP2022521130A (ja) | 2022-04-06 |
TWI743931B (zh) | 2021-10-21 |
CN111310764A (zh) | 2020-06-19 |
CN111310764B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20210140757A (ko) | 네트워크 훈련 방법, 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체 | |
US20210158533A1 (en) | Image processing method and apparatus, and storage medium | |
KR102394354B1 (ko) | 키 포인트 검출 방법 및 장치, 전자 기기 및 저장 매체 | |
CN111368923B (zh) | 神经网络训练方法及装置、电子设备和存储介质 | |
JP7085062B2 (ja) | 画像セグメンテーション方法、装置、コンピュータ機器およびコンピュータプログラム | |
TWI755853B (zh) | 圖像處理方法、電子設備和電腦可讀儲存介質 | |
TWI713054B (zh) | 圖像分割方法及裝置、電子設備和儲存媒體 | |
CN112767329B (zh) | 图像处理方法及装置、电子设备 | |
WO2022151755A1 (zh) | 目标检测方法及装置、电子设备、存储介质、计算机程序产品和计算机程序 | |
CN111209916B (zh) | 病灶识别方法及系统、识别设备 | |
TW202110387A (zh) | 圖像處理方法、電子設備、電腦可讀儲存介質 | |
WO2021259391A2 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
KR20210153700A (ko) | 이미지 처리 방법 및 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 | |
CN112541928A (zh) | 网络训练方法及装置、图像分割方法及装置和电子设备 | |
CN113222038B (zh) | 基于核磁图像的乳腺病灶分类和定位方法及装置 | |
CN114820584B (zh) | 肺部病灶定位装置 | |
CN113470029A (zh) | 训练方法及装置、图像处理方法、电子设备和存储介质 | |
KR20220016212A (ko) | 이미지 처리 방법 및 장치, 전자 기기, 저장 매체 및 프로그램 제품 | |
CN111640114A (zh) | 图像处理方法及装置 | |
CN117218133A (zh) | 肺图像处理方法及装置、电子设备和存储介质 | |
CN115565666A (zh) | 脑梗死评估方法及装置、电子设备和存储介质 | |
CN112258564B (zh) | 生成融合特征集合的方法及装置 | |
CN111079761B (zh) | 图像处理方法、装置及计算机存储介质 | |
CN112200820A (zh) | 三维图像处理方法及装置、电子设备和存储介质 | |
CN113724191A (zh) | 图像识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |