KR20210140757A

KR20210140757A - 네트워크 훈련 방법, 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체

Info

Publication number: KR20210140757A
Application number: KR1020217034486A
Authority: KR
Inventors: 구오타이 왕; 란 구; 타오 송
Original assignee: 상하이 센스타임 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date: 2020-01-20
Filing date: 2020-07-07
Publication date: 2021-11-23
Also published as: TW202129543A; WO2021147257A1; JP2022521130A; TWI743931B; CN111310764A; CN111310764B

Abstract

본 출원의 실시예는 네트워크 훈련 방법, 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체를 제공하며, 상기 네트워크 훈련 방법은, 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하는 단계 - 상기 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 상기 훈련 샘플은 상기 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함함 - ; 상기 특징 추출 결과에 따라 상기 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하는 단계; 및 상기 이미지 분할 결과 및 상기 분할 태깅 정보에 따라, 상기 분할 네트워크를 훈련하는 단계를 포함한다.

Description

네트워크 훈련 방법, 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체

관련 출원의 상호 참조

본 출원은 출원 번호가 CN202010065998.9이고, 출원일이 2020년 01월 20일인 중국 특허 출원에 기반하여 제출하였고, 상기 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로서 본 출원에 인용된다.

본 출원의 실시예는 컴퓨터 기술분야에 관한 것이며, 특히 네트워크 훈련 방법, 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체에 관한 것이다.

이미지 분할은 영역 내의 분포 속성에 따라 이미지를 상호 교차되지 않는 여러 개의 특정 "연결" 영역으로 분리하는 이미지 처리 과정을 의미하며, 상관 특징은 동일한 영역의 일정한 카테고리에서의 일치성 또는 유사성이 있으며, 이러한 차이는 각 영역의 경계에서 가장 선명하다. 의료 이미지 분할은 의학 연구, 임상 진단, 병리 분석, 영상 정보 처리 등 연구 및 실천 분야에서 중요한 학술적 연구 가치 및 응용 가치가 있으며, 주로 의료 이미지에서의 관심 영역의 추출하여 의료 이미지 분석을 편리하게 하고; 의료 이미지에서의 인체 기관, 조직 또는 병변의 치수, 부피 등을 계산하여, 임상 파라미터의 계산을 편리하게 하며; 의료 이미지의 3 차원 재구성 또는 시각화; 및 의료 이미지 검색 연구 등에 적용된다. 따라서, 효과적인 이미지 분할 방법이 시급히 필요하다.

본 출원의 실시예는 네트워크 훈련, 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체를 제공한다.

본 출원의 실시예는 뉴럴 네트워크 모델을 훈련시켜, 훈련하여 얻은 뉴럴 네트워크 모델에 따라 이미지에 대해 분할을 수행하기 위한 네트워크 훈련 방법을 제공하며, 상기 네트워크 훈련 방법은, 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하는 단계 - 상기 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 상기 훈련 샘플은 상기 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함함 - ; 상기 특징 추출 결과에 따라 상기 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하는 단계; 및 상기 이미지 분할 결과 및 상기 분할 태깅 정보에 따라, 상기 분할 네트워크를 훈련하는 단계를 포함한다.

분할 네트워크를 통해 공간 차원, 채널 차원 및 스케일 차원 중 기설정된 차원에서, 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하고, 특징 추출 결과에 따라 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하며, 이미지 분할 결과 및 훈련 샘플에 포함된 샘플 이미지에 대응하는 분할 태깅 정보에 따라, 분할 네트워크를 훈련하여, 훈련하여 얻은 분할 네트워크가 이미지 분할 처리를 수행할 경우 분할 정밀도를 향상시킬 수 있다.

본 출원의 일부 실시예에서, 상기 분할 네트워크는 인코더 및 디코더를 포함하고, 상기 인코더는 복수 개의 인코딩 계층을 포함하고, 상기 디코더는 복수 개의 디코딩 계층을 포함하며; 상기 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하는 단계는, 상기 샘플 이미지를 상기 인코더에 입력하여, 각 인코딩 계층에 대응하는 제1 특징 이미지를 결정하는 단계 - 상이한 인코딩 계층에 대응하는 제1 특징 이미지의 스케일은 상이함 - ; 임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행하여, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계 - 상기 디코딩 계층에 입력된 제2 특징 이미지는 상기 디코딩 계층의 이전 디코딩 계층에 대응하는 제3 특징 이미지에 따라 결정되며, 상이한 디코딩 계층에 대응하는 제3 특징 이미지의 스케일은 상이함 - ; 및 복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 상기 특징 추출 결과를 결정하는 단계를 포함한다.

샘플 이미지를 인코더에 입력하여, 인코더에서 각 인코딩 계층에 대응하는 상이한 스케일의 제1 특징 이미지를 결정하여, 디코더에서의 임의의 디코딩 계층에 대해, 대응하는 제1 특징 이미지를 사용하여, 임의의 디코딩 계층에 입력된 제2 특징 이미지에 대해 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 특징 훈련을 수행함으로써, 각 디코딩 계층에 대응하는 제3 특징 이미지를 결정하여, 상이한 스케일의 제3 특징 이미지에 따라, 샘플 이미지에서의 관심 영역의 공간적 특징 정보 및 채널 특징 정보를 강화하고 이미지에서의 비관심 영역의 공간적 특징 정보 및 채널 특징 정보를 억제하는 특징 추출 결과를 효과적으로 결정할 수 있다.

본 출원의 일부 실시예에서, 상기 임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행하여, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계는, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제4 특징 이미지를 결정하는 단계 - 제1 훈련될 특징 이미지는 상기 디코딩 계층에 입력된 제2 특징 이미지임 - ; 상기 디코딩 계층에 입력된 제2 특징 이미지 및 상기 디코딩 계층에 대응하는 제4 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 획득하는 단계; 및 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계를 포함한다.

인코딩 계층에서 대응하는 제1 특징 이미지를 사용하여 디코딩 계층에 대응하는 제1 훈련될 특징 이미지에 대해 공간 차원에서 어텐션 메커니즘을 사용하여 훈련을 수행함으로써, 샘플 이미지에서의 관심 영역의 공간적 특징 정보를 강화하고 이미지에서의 비관심 영역의 공간적 특징 정보를 억제하는 제4 특징 이미지를 효과적으로 결정할 수 있도록 하여, 제4 특징 이미지와 디코딩 계층에 입력된 제2 특징 이미지를 스플라이싱하여 제2 훈련될 특징 이미지를 획득하고, 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행하여, 샘플 이미지에서의 관심 영역의 채널 특징 정보를 강화하고 이미지에서의 비관심 영역의 채널 특징 정보를 억제하는 제3 특징 이미지를 효과적으로 결정할 수 있도록 한다.

본 출원의 일부 실시예에서, 상기 임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행하여, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계는, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 상기 디코딩 계층에 입력된 제2 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 결정하는 단계; 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 제1 훈련될 특징 이미지를 결정하는 단계; 및 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계를 포함한다.

디코딩 계층에 입력된 제2 특징 이미지와 대응하는 인코딩 계층의 제1 특징 이미지를 스플라이싱하여 제2 훈련될 특징 이미지를 획득하고, 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행하여, 샘플 이미지에서의 관심 영역의 채널 특징 정보를 강화하고 이미지에서의 비관심 영역의 채널 특징 정보를 억제하는 제1 훈련될 특징 이미지를 효과적으로 결정할 수 있도록 하여, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지에 대해 훈련을 수행하여, 샘플 이미지에서의 관심 영역의 공간적 특징 정보를 강화하고 이미지에서의 비관심 영역의 공간적 특징 정보를 억제하는 제3 특징 이미지를 효과적으로 결정할 수 있도록 한다.

본 출원의 일부 실시예에서, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련하는 단계는, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계 - 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 가중치를 지시하기 위한 것임 - ; 및 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포에 따라 제1 훈련될 특징 이미지에서의 각 픽셀 포인트를 교정하는 단계를 포함한다.

인코딩 계층에서 대응하는 제1 특징 이미지와 디코딩 계층에 대응하는 제1 훈련될 특징 이미지를 사용하여 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하여, 공간 어텐션 가중치 분포에 따라 제1 훈련될 특징 이미지에서의 각 픽셀 포인트를 교정하여, 공간 차원에서 어텐션 메커니즘을 사용하는 훈련을 완료함으로써, 효과적으로 샘플 이미지에서의 관심 영역의 공간적 특징 정보를 강화하고, 이미지에서의 비관심 영역의 공간적 특징 정보를 억제할 수 있도록 한다.

본 출원의 일부 실시예에서, 임의의 디코딩 계층에 대해, 상기 디코딩 계층은 복수 개의 공간 어텐션 훈련 계층을 포함하고; 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계는, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지를 상기 복수 개의 공간 어텐션 훈련 계층에 각각 입력하여, 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치를 결정하는 단계; 및 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 상기 복수 개의 가중치에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계를 포함한다.

임의의 디코딩 계층에 대해, 복수 개의 공간 어텐션 훈련 계층을 설정함으로써, 인코딩 계층에서 대응하는 제1 특징 이미지와 디코딩 계층에 대응하는 제1 훈련될 특징 이미지를 사용하여 디코딩 계층을 결정하고, 복수 개의 공간 어텐션 훈련 계층에서 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치를 결정하여, 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치에 따라, 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 종합적으로 결정함으로써, 공간 어텐션 가중치 분포의 정확성을 효과적으로 향상시킬 수 있도록 한다.

본 출원의 일부 실시예에서, 상기 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행하는 단계는, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계 - 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포는 제2 훈련될 특징 이미지에서의 각 채널의 가중치를 지시하기 위한 것임 - ; 및 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포에 따라 제2 훈련될 특징 이미지에서의 각 채널을 교정하는 단계를 포함한다.

디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하여, 채널 어텐션 가중치 분포에 따라 디코딩 계층에 대응하는 제2 훈련될 특징 이미지에서의 각 채널을 교정함으로써, 채널 차원에서 어텐션 메커니즘을 사용한 훈련을 완료하여, 효과적으로 샘플 이미지에서의 관심 영역의 채널 특징 정보를 강화하고, 이미지에서의 비관심 영역의 채널 특징 정보를 억제할 수 있도록 한다.

본 출원의 일부 실시예에서, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계는, 제2 훈련될 특징 이미지에 대해 평균 풀링 동작을 수행하여, 평균 풀링 결과를 획득하는 단계; 제2 훈련될 특징 이미지에 대해 최대 풀링 동작을 수행하여, 최대 풀링 결과를 획득하는 단계; 및 상기 평균 풀링 결과 및 상기 최대 풀링 결과에 따라, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계를 포함한다.

제2 훈련될 특징 이미지에 대해 평균 풀링 동작 및 최대 풀링 동작을 각각 수행하여, 평균 풀링 결과 및 최대 풀링 결과를 획득하고, 평균 풀링 결과 및 최대 풀링 결과에 따라, 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 종합적으로 결정함으로써, 채널 어텐션 가중치 분포의 정확성을 효과적으로 향상시킬 수 있도록 한다.

본 출원의 일부 실시예에서, 상기 복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 상기 특징 추출 결과를 결정하는 단계는, 상이한 스케일에서의 제3 특징 이미지를 스플라이싱하여, 제3 훈련될 특징 이미지를 획득하는 단계 - 제3 훈련될 특징 이미지의 스케일과 상기 샘플 이미지의 스케일은 동일함 - ; 및 스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 특징 추출 결과를 결정하는 단계를 포함한다.

상이한 스케일에서의 제3 특징 이미지를 스플라이싱하여 제3 훈련될 특징 이미지를 획득하여, 스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 샘플 이미지에서의 요구에 부합되는 스케일에 대응하는 특징 정보를 효과적으로 강화하고, 이미지에서의 요구에 부합되지 않는 스케일에 대응하는 특징 정보를 억제할 수 있도록 한다.

본 출원의 일부 실시예에서, 상기 스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행하는 단계는, 스케일 어텐션 가중치 분포를 결정하는 단계 - 상기 스케일 어텐션 가중치 분포는 상이한 스케일의 가중치를 지시하기 위한 것임 - ; 및 상기 스케일 어텐션 가중치 분포에 따라 제3 훈련될 특징 이미지를 교정하는 단계를 포함한다.

스케일 어텐션 가중치 분포를 결정하여, 스케일 어텐션 가중치 분포에 따라 제3 훈련될 특징 이미지를 교정함으로써, 스케일 차원에서 어텐션 메커니즘을 사용한 훈련을 완료하여, 샘플 이미지에서의 요구에 부합되는 스케일에 대응하는 특징 정보를 효과적으로 강화하고, 이미지에서의 요구에 부합되지 않는 스케일에 대응하는 특징 정보를 억제할 수 있도록 한다.

본 출원의 일부 실시예에서, 상기 샘플 이미지는 의료 영상이고, 상기 분할 태깅 정보는 수동으로 태깅된 금표준이다.

본 출원의 실시예는 이미지 처리 방법을 제공하며, 분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하는 단계를 포함하며; 여기서, 상기 분할 네트워크는 전술한 네트워크 훈련 방법을 사용하여 훈련하여 얻는다.

분할 네트워크를 통해 공간 차원, 채널 차원 및 스케일 차원 중 기설정된 차원에서, 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하고, 특징 추출 결과에 따라 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하고, 이미지 분할 결과 및 훈련 샘플에 포함된 샘플 이미지에 대응하는 분할 태깅 정보에 따라, 분할 네트워크를 훈련하여, 훈련하여 얻은 분할 네트워크를 사용하여 분할될 이미지에 대해 이미지 분할 처리를 수행함으로써, 분할 정밀도를 효과적으로 향상시킬 수 있다.

본 출원의 일부 실시예에서, 상기 분할될 이미지는 분할될 의료 영상이고; 상기 분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하는 단계는, 분할 네트워크를 통해 분할될 의료 영상에 대해 이미지 분할 처리를 수행하여, 분할된 병변 영역 또는 목표 기관 영역을 획득하는 단계를 포함한다.

본 출원의 실시예는 뉴럴 네트워크 모델을 훈련하여, 훈련하여 얻은 뉴럴 네트워크 모델에 따라 이미지에 대해 분할을 수행하기 위한 네트워크 훈련 장치를 제공하며, 상기 네트워크 훈련 장치는, 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하도록 구성된 특징 추출 모듈 - 상기 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 상기 훈련 샘플은 상기 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함함 - ; 상기 특징 추출 결과에 따라 상기 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하도록 구성된 분할 모듈; 및 상기 이미지 분할 결과 및 상기 분할 태깅 정보에 따라, 상기 분할 네트워크를 훈련시키도록 구성된 훈련 모듈을 포함한다.

본 출원의 실시예는 프로세서; 및 프로세서에서 실행 가능한 명령어를 저장하도록 구성된 메모리를 포함하며; 여기서, 상기 프로세서는 상기 메모리에 저장된 명령어를 호출하여, 전술한 네트워크 훈련 방법을 실행하도록 구성된 전자 기기를 제공한다.

본 출원의 실시예는 컴퓨터 프로그램 명령어을 포함하는 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 프로세서에 의해 실행될 때 전술한 네트워크 훈련 방법을 구현한다.

본 출원의 실시예는 분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하도록 구성된 이미지 처리 모듈을 포함하는 이미지 처리 장치를 제공하며; 여기서, 상기 분할 네트워크는 전술한 네트워크 훈련 방법을 사용하여 훈련하여 얻는다.

본 출원의 일부 실시예에서, 상기 분할될 이미지는 분할될 의료 영상이고; 상기 이미지 처리 모듈은 분할 네트워크를 통해 분할될 의료 영상에 대해 이미지 분할 처리를 수행하여, 분할된 병변 영역 또는 목표 기관 영역을 획득하도록 구성된다.

본 출원의 실시예는 프로세서; 및 프로세서에서 실행 가능한 명령어를 저장하도록 구성된 메모리를 포함하며; 여기서, 상기 프로세서는 상기 메모리에 저장된 명령어를 호출하여, 전술한 이미지 처리 방법을 실행하도록 구성된 전자 기기를 제공한다.

본 출원의 실시예는 컴퓨터 프로그램 명령어가 저장되어 있는 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 프로세서에 의해 실행될 때 전술한 이미지 처리 방법을 구현한다.

이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 다만 예시적이고 해석적인 것이며, 본 출원의 실시예를 한정하려는 것은 아니다. 다음의 도면에 따라 예시적인 실시예를 상세하게 설명하며, 본 출원의 실시예의 다른 특징 및 측면은 명백하다.

아래의 도면은 본 명세서의 일부분으로서 명세서 전체를 구성하며, 이러한 도면은 본 출원에 맞는 실시예를 예시하여, 명세서와 함께 본 출원의 실시예의 기술방안을 설명하는데 사용된다.
도 1은 본 출원의 실시예에서 제공하는 네트워크 훈련 방법의 흐름 모식도이다.
도 2는 본 출원의 실시예에서 제공하는 분할 네트워크의 구조 모식도이다.
도 3은 본 출원의 실시예에서 제공하는 도 2에서의 공간 어텐션 모듈(2022)의 구조 모식도이다.
도 4는 본 출원의 실시예에서 제공하는 도 2에서의 공간 어텐션 모듈(2025)의 구조 모식도이다.
도 5는 본 출원의 실시예에서 제공하는 도 2에서의 채널 어텐션 모듈(2026)의 구조 모식도이다.
도 6은 본 출원의 실시예에서 제공하는 도 2에서의 스케일 어텐션 모듈(2049)의 구조 모식도이다.
도 7은 본 출원의 실시예에서 제공하는 이미지 처리 방법의 흐름 모식도이다.
도 8은 본 출원의 실시예에서 제공하는 네트워크 훈련 장치의 구조 모식도이다.
도 9는 본 출원의 실시예에서 제공하는 이미지 처리 장치의 구조 모식도이다.
도 10은 본 출원의 실시예에서 제공하는 전자 기기의 구조 모식도이다.
도 11은 본 출원의 실시예에서 제공하는 전자 기기의 구조 모식도이다.

아래에 도면을 참조하여 본 출원의 다양한 예시적 실시예, 특징 및 측면을 상세하게 설명한다. 도면에서 동일한 도면 표시는 기능이 동일하거나 유사한 구성 요소를 나타낸다. 실시예의 다양한 측면이 도면에 도시되어 있지만, 특별히 언급되지 않는 한, 도면을 비율에 따라 그릴 필요는 없다.

본문에서 용어 “예시적”은 “예, 실시예 또는 설명으로 사용되는”을 의미한다. 본문에서 “예시적”으로 설명된 임의의 실시예는 다른 실시예보다 우수하거나 좋은 것으로 해석될 필요는 없다.

본문에서의 용어 “및/또는”은 다만 연관 대상의 연관 관계를 설명하기 위한 것으로, 세 가지 관계가 존재할 수 있음을 의미하는데, 예를 들어, “A 및/또는 B”는, A가 단독적으로 존재하거나, A와 B가 동시에 존재하거나, B가 단독적으로 존재하는 세 가지 경우를 의미한다 또한, 본 명세서에서 "적어도 하나"라는 용어는 복수 개 중 어느 하나 또는 복수 개 중 적어도 2 개의 임의의 조합을 나타내며, 예를 들어, A, B 및 C 중 적어도 하나는 A, B 및 C에 의해 형성된 집합에서 선택된 임의의 하나 또는 복수 개의 요소를 나타낼 수 있다.

또한, 본 출원의 실시예를 보다 잘 설명하기 위해, 아래의 구체적인 실시형태에서 많은 세부사항들이 제공된다. 당업자는 본 출원의 실시예는 일부 구체적인 세부사항 없이도 여전히 실시될 수 있음을 이해해야 한다. 일부 예에서, 당업자에게 잘 알려진 방법, 수단, 요소 및회로는 본 출원의 실시예의 취지가 명백해지도록 상세하게 설명되지 않는다.

도 1은 본 출원의 실시예에서 제공하는 네트워크 훈련 방법의 흐름 모식도이다. 상기 네트워크 훈련 방법은 단말 기기 또는 다른 처리 기기에 의해 실행될 수 있으며, 여기서, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말, 셀룰러 폰, 무선 전화, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 핸드헬드 기기, 컴퓨팅 기기, 차량 탑재 기기, 웨어러블 기기 등일 수 있다. 다른 처리 기기는 서버 또는 클라우드 서버 등이 될 수 있다. 일부 가능한 구현 방식에 있어서, 상기 네트워크 훈련 방법은 프로세서가 메모리에 저장된 컴퓨터 판독 가능한 명령어를 호출하는 방식을 통해 구현될 수 있다. 도 1에 도시된 바와 같이, 상기 네트워크 훈련 방법은 다음의 단계들을 포함할 수 있다.

단계 S11에 있어서, 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하며, 여기서, 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 훈련 샘플은 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함한다.

단계 S12에 있어서, 특징 추출 결과에 따라 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득한다.

단계 S13에 있어서, 이미지 분할 결과 및 분할 태깅 정보에 따라, 분할 네트워크를 훈련한다.

훈련 샘플을 미리 생성하고, 훈련 샘플은 샘플 이미지 및 샘플 이미지에 대응하는 분할 태깅 정보를 포함하며, 여기서, 샘플 이미지에 대응하는 분할 태깅 정보는 샘플 이미지의 참조 분할 결과를 지시하기 위한 것이다. 훈련 샘플에 기반하여 분할 네트워크 공간 차원, 채널 차원 및 스케일 차원 중 기설정된 차원에 대한 어텐션 메커니즘을 사용하여 훈련을 수행하여, 훈련하여 얻은 분할 네트워크가 이미지 분할 처리를 수행할 경우 분할 정밀도를 향상시키도록 할 수 있다.

분할 네트워크는 U-net 네트워크 모델을 기반으로 개선된 컨볼루션 뉴럴 네트워크일 수 있거나, 다른 대응하는 처리를 구현할 수 있는 네트워크 모델일 수도 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다.

일례에서, 샘플 이미지는 의료 이미지를 전처리하여 획득할 수 있다. 의료 이미지를 획득하고; 의료 이미지에 대해 256*342 스케일로 리샘플링을 수행한 다음, 리샘플링된 의료 이미지를 0~1 사이로 정규화하여, 제1 이미지를 획득하며; 제1 이미지에 대해 랜덤 플립, 랜덤 회전, 랜덤 클리핑을 수행하여 데이터 강화를 구현함으로써, 샘플 이미지를 획득하며, 여기서, 샘플 이미지의 채널 수는 3이고, 스케일은 224*300이다. 샘플 이미지의 결정 방식은 다른 방식을 채택할 수 있으며, 샘플 이미지의 채널 수 및 스케일은 실제 상황에 따라 결정할 수 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다.

본 출원의 일부 실시예에서, 분할 네트워크는 인코더 및 디코더를 포함하고, 인코더는 복수 개의 인코딩 계층을 포함하고, 디코더는 복수 개의 디코딩 계층을 포함하며; 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하는 단계는, 샘플 이미지를 인코더에 입력하여, 각 인코딩 계층에 대응하는 제1 특징 이미지를 결정하는 단계 - 상이한 인코딩 계층에 대응하는 제1 특징 이미지의 스케일은 상이함 - ; 임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행하여, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계 - 상기 디코딩 계층에 입력된 제2 특징 이미지는 상기 디코딩 계층의 이전 디코딩 계층에 대응하는 제3 특징 이미지에 따라 결정되며, 상이한 디코딩 계층에 대응하는 제3 특징 이미지의 스케일은 상이함 - ; 및 복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 특징 추출 결과를 결정하는 단계를 포함한다.

도 2는 본 출원의 실시예에서 제공하는 분할 네트워크의 구조 모식도이다. 예를 들어, 분할 네트워크는 U-net 네트워크 모델을 백본 네트워크로 하여 개선되어 획득된다. 분할 네트워크는 U-net 네트워크 모델을 백본 네트워크로 하는 외에도, 다른 네트워크 모델을 백본 네트워크로 할 수도 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다.

도 2에 도시된 바와 같이, 분할 네트워크는 인코더(2001) 및 디코더(2002)를 포함한다. 인코더(2001)는 인코딩 계층(2003 내지 2007)을 포함하고, 여기서, 인코딩 계층(2003)은 컨볼루션 계층(2008)을 포함하며, 인코딩 계층(2004)은 최대 풀링 계층(2009) 및 컨볼루션 계층(2010)을 포함하며, 인코딩 계층(2005)은 최대 풀링 계층(2011) 및 컨볼루션 계층(2012)을 포함하며, 인코딩 계층(2006)은 최대 풀링 계층(2013) 및 컨볼루션 계층(2014)을 포함하며, 인코딩 계층(2007)은 최대 풀링 계층(2015) 및 컨볼루션 계층(2016)을 포함한다. 디코더(2002)는 디코딩 계층(2017 내지 2020)을 포함하며, 여기서, 디코딩 계층(2017)은 컨볼루션 계층(2021), 공간 어텐션 모듈(2022) 및 채널 어텐션 모듈(2023)을 포함하고, 디코딩 계층(2018)은 컨볼루션 계층(2024), 공간 어텐션 모듈(2025) 및 채널 어텐션 모듈(2026)을 포함하고, 디코딩 계층(2019)은 컨볼루션 계층(2027), 공간 어텐션 모듈(2028) 및 채널 어텐션 모듈(2029)을 포함하며, 디코딩 계층(2020)은 컨볼루션 계층(2030), 공간 어텐션 모듈(2031) 및 채널 어텐션 모듈(2032)을 포함한다. 분할 네트워크에서의 컨볼루션 계층은 3*3 컨볼루션 커널을 갖는 표준 컨볼루션 계층일 수 있으며, 최대 풀링 계층은 입력 데이터에 대한 다운 샘플링을 구현하여, 입력 데이터의 스케일을 감소시킨다.

샘플 이미지(2033)를 분할 네트워크의 인코더(2001)에 입력하며, 예를 들어, 샘플 이미지(2033)의 스케일은 224*300일 수 있다. 샘플 이미지(2033)는 인코딩 계층(2003)에서 두 개의 컨볼루션 계층(2008)을 순차적으로 통과한 다음, 인코딩 계층(2003)에 대응 하는 스케일이 224*300이고, 채널 수가 16인 제1 특징 이미지를 획득하며; 스케일이 224*300이고, 채널 수가 16인 제1 특징 이미지는 인코딩 계층(2004)에서 최대 풀링 계층(2009) 및 두 개의 컨볼루션 계층(2010)을 순차적으로 통과한 다음, 인코딩 계층(2004)에 대응하는 스케일이 112*150이고, 채널 수가 32인 제1 특징 이미지를 획득하며; 스케일이 112*150이고, 채널 수가 32인 제1 특징 이미지는 인코딩 계층(2005)에서 최대 풀링 계층(2011) 및 두 개의 컨볼루션 계층(2012)을 순차적으로 통과한 다음, 인코딩 계층(2005)에 대응하는 스케일이 56*75이고, 채널 수가 64인 제1 특징 이미지를 획득하며; 스케일이 56*75이고, 채널 수가 64인 제1 특징 이미지는 인코딩 계층(2006)에서 최대 풀링 계층(2013) 및 두 개의 컨볼루션 계층(2014)을 순차적으로 통과한 다음, 인코딩 계층(2006)에 대응하는 스케일이 28*37이고, 채널 수가 128인 제1 특징 이미지를 획득하며; 스케일이 28*37이고, 채널 수가 128인 제1 특징 이미지는 인코딩 계층(2007)에서 최대 풀링 계층(2015) 및 두 개의 컨볼루션 계층(2016)을 순차적으로 통과한 다음, 인코딩 계층(2007)에 대응하는 스케일이 14*18이고, 채널 수가 256인 제1 특징 이미지를 획득한다. 여기서, 상이한 인코딩 계층에 대응하는 제1 특징 이미지의 스케일 및 채널 수는 실제 상황에 따라 결정될 수 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다.

이하, 디코더(2002) 내의 임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 과정을 상세하게 설명한다.

본 출원의 일부 실시예에서, 최하위 인코딩 계층에 대응하는 제1 특징 이미지에 대해 업샘플링을 수행하고, 이전 인코딩 계층에 대응하는 제1 특징 이미지와 스플라이싱하여, 최상위 디코딩 계층에 입력된 제2 특징 이미지를 획득하며; 최상위 디코딩 계층에 입력된 제2 특징 이미지에 대해 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여, 최상위 디코딩 계층에 대응하는 제3 특징 이미지를 결정한다.

최하위 인코딩 계층에 대응하는 제1 특징 이미지(최소 스케일의 제1 특징 이미지)는 샘플 이미지의 글로벌 특징 정보를 포함하므로, 최하위 인코딩 계층에 대응하는 제1 특징 이미지를 업 샘플링하여 이전 인코딩 계층에 대응하는 제1 특징 이미지와 스플라이싱한 후 공간 차원 및 채널 차원에서의 어텐션 훈련을 수행함으로써, 글로벌 훈련을 구현할 수 있다.

도 2에 도시된 바와 같이, 최하위 인코딩 계층(인코딩 계층(2007))에 대응하는 제1 특징 이미지(스케일은 최소 스케일 14*18)를 업 샘플링 처리한 후, 이전 인코딩 계층(인코딩 계층(2006))에 대응하는 제1 특징 이미지(28*37 스케일)를 스플라이싱하여, 최상위 디코딩 계층(디코딩 계층(2017))에 입력된 제2 특징 이미지(28*37 스케일, 256 채널)을 획득하며, 디코딩 계층(2017)에 입력된 제2 특징 이미지를 디코딩 계층(2017)에 대응하는 제1 훈련될 특징 이미지로서 공간 어텐션 모듈(2022)에 입력하여 공간 어텐션 훈련을 수행함으로써, 디코딩 계층(2017)에 대응하는 제4 특징 이미지(28*37 스케일, 256 채널)를 획득하며; 디코딩 계층(2017)에 대응하는 제4 특징 이미지에 대해 컨볼루션 계층(2021), 채널 어텐션 모듈(2023) 및 컨볼루션 계층(2021)을 통해 채널 어텐션 훈련을 수행하여, 디코딩 계층(2017)에 대응하는 제3 특징 이미지(28*37 스케일, 128 채널)를 획득한다. 도 2에서, “×2”는 업 샘플링 처리를 나타내며, 여기서, 업 풀링 계층을 통해 업 샘플링 처리를 수행할 수 있고, 디컨볼루션 계층을 통해 업 샘플링 처리를 수행할 수 있고, 또한 다른 방식을 통해 업 샘플링 처리를 수행할 수 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다.

도 3은 본 출원의 실시예에서 제공하는 도 2에서의 공간 어텐션 모듈(2022)의 구조 모식도이다. 도 3에 도시된 바와 같이, 공간 어텐션 모듈(2022)은 복수 개의 1×1 컨볼루션 계층(2034), 복수 개의 전치 계층(Transpose 계층)(2035) 및 정규화 계층(2036)을 포함한다. 디코딩 계층(2017) 스케일에 대응하는 제1 특징 이미지(인코딩 계층(2006)에 대응하는 제1 특징 이미지) 및 디코딩 계층(2017)에 대응하는 제1 훈련될 특징 이미지를 공간 어텐션 모듈(2022)에 입력하여, 복수 개의 1×1 컨볼루션 계층(2034), 복수 개의 전치 계층(2035) 및 정규화 계층(2036)을 각각 통과하여, 디코딩 계층(2017)에 대응하는 공간 어텐션 가중치 분포를 획득한다. 예를 들어, 공간 어텐션 모듈(2022)은 아래의 공식(1-1)을 통해 디코딩 계층(2017)에 대응하는 공간 어텐션 가중치 분포

를 결정한다.

(1-1)

여기서,

은 정규화 함수이고,

는 디코딩 계층(2017)에 대응하는 제1 훈련될 특징 이미지에서의 하나의 픽셀 포인트이며,

및

은 컨볼루션 연산이다.

디코딩 계층(2017)에 대응하는 공간 어텐션 가중치 분포에 따라, 디코딩 계층(2017)에 대응하는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트를 교정하여, 채널 차원에서 어텐션 메커니즘을 사용하여 훈련을 수행해야 하는 디코딩 계층(2017)에 대응하는 제2 훈련될 특징 이미지를 획득한다.

본 출원의 일부 실시예에서, 임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행하여, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계는, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 상기 디코딩 계층에 입력된 제2 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 결정하는 단계; 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 제1 훈련될 특징 이미지를 결정하는 단계; 및 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계를 포함한다.

임의의 디코딩 계층에 대해, 먼저 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 상기 디코딩 계층에 입력된 제2 특징 이미지를 스플라이싱하여 결정하여 획득한 제2 훈련될 특징 이미지에 대해 훈련을 수행하여, 공간 차원에서 어텐션 메커니즘을 사용하여 채널 차원에서 어텐션 메커니즘을 사용하여 훈련을 통해 얻은 제1 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정한다. 또한, 본 출원의 실시예는 전술한 먼저 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지에 대해 훈련을 수행하는 외에도, 먼저 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행하는 것을 채택할 수 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다. 먼저 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지에 대해 훈련을 수행한 다음, 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행하는 것을 예로 이하 상세히 설명한다.

본 출원의 일부 실시예에서, 임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행하여, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계는, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 이미지 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제4 특징 이미지를 결정하는 단계 - 제1 훈련될 특징 이미지는 상기 디코딩 계층에 입력된 제2 특징 이미지임 - ; 상기 디코딩 계층에 입력된 제2 특징 이미지 및 상기 디코딩 계층에 대응하는 제4 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 획득하는 단계; 및 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계를 포함한다.

본 출원의 일부 실시예에서, 임의의 디코딩 계층에 대해, 상기 디코딩 계층은 복수 개의 공간 어텐션 훈련 계층을 포함하고; 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계는, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지를 복수 개의 공간 어텐션 훈련 계층에 각각 입력하여, 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치를 결정하는 단계; 및 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계를 포함한다.

도 2에 도시된 바와 같이, 디코딩 계층(2017)에 대응하는 제3 특징 이미지 (28*37 스케일, 128 채널)에 대해 업 샘플링 처리를 수행하여, 디코딩 계층(2018)에 입력된 제2 특징 이미지 (56*75 스케일, 64 채널)를 획득하며, 디코딩 계층(2018)에 입력된 제2 특징 이미지를 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지로서 공간 어텐션 모듈(2025)에 입력하여 공간 어텐션 훈련을 수행함으로써, 디코딩 계층(2018)에 대응하는 제4 특징 이미지(56*75 스케일, 64 채널)를 획득하며; 디코딩 계층(2018)에 입력된 제2 특징 이미지 및 디코딩 계층(2018)에 대응하는 제4 특징 이미지를 스플라이싱하여, 디코딩 계층(2018)에 대응하는 제2 훈련될 특징 이미지(56*75 스케일, 128 채널)를 획득하며; 디코딩 계층(2018)에 대응하는 제2 훈련될 특징 이미지를 컨볼루션 계층(2024), 채널 어텐션 모듈(2026) 및 컨볼루션 계층(2024)을 순차적으로 통과시킨 후, 디코딩 계층(2018)에 대응하는 제3 특징 이미지를 획득한다.

도 4는 본 출원의 실시예에서 제공하는 도 2에서의 공간 어텐션 모듈(2025)의 구조 모식도이다. 도 4에 도시된 바와 같이, 공간 어텐션 모듈(2025)은 두 개의 공간 어텐션 훈련 계층(2037 내지 2038)을 포함하며, 디코딩 계층(2018) 스케일에 대응하는 제1 특징 이미지(인코딩 계층(2005)에 대응하는 제1 특징 이미지)를 조회 소스값(query)으로 사용하며, 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지를 조회의 조회값(key)으로 사용하며, 공간 어텐션 훈련 계층(2037) 및 공간 어텐션 훈련 계층(2038)에 각각 입력한다. 공간 어텐션 훈련 계층의 수는 실제상황에 따라 결정되며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다. 도 4에 도시된 바와 같이, 각 공간 어텐션 훈련 계층은 복수 개의 1×1 컨볼루션 계층(2039), 업 샘플링 계층(2040), 활성화 계층(정류 선형 유닛(Rectified Linear Unit, ReLU) 계층)(2041), 활성화 계층(시그모이드(sigmoid) 계층)(2042), 리샘플링 계층(Resample 계층)(2043)을 포함한다. 공간 어텐션 모듈(2025)에서의 임의의 공간 어텐션 훈련 계층은 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 가중치를 결정할 수 있다. 예를 들어, 공간 어텐션 모듈(2025)에서의 임의의 공간 어텐션 훈련 계층에 대해, 하기 공식 (1-2)에 따라 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지에서의 픽셀 포인트의 가중치

를 결정한다.

(1-2)

여기서,

는 활성화 함수이고,

는 디코딩 계층(2018) 스케일에 대응하는 제1 특징 이미지이며,

는 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지이며,

는 디코딩 계층(2018) 스케일에 대응하는 제1 특징 이미지에 대해 선형 변환을 수행하는 것을 나타내며,

는 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지에 대해 선형 변환을 수행하는 것을 나타내며,

는 1×1 컨볼루션이고,

는 활성화 함수이며,

는 편차 항목이다.

공간 어텐션 훈련 계층(2037)에 의해 결정된 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 가중치, 및 공간 어텐션 훈련 계층(2038)에 의해 결정된 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 가중치에 따라, 디코딩 계층(2018)에 대응하는 공간 어텐션 가중치 분포를 결정한 다음, 디코딩 계층(2018)에 대응하는 공간 어텐션 가중치 분포에 따라, 디코딩 계층(2018)에 대응하는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트를 교정하여, 디코딩 계층(2018)에 대응하는 제4 특징 이미지를 획득한다.

디코딩 계층(2019)에 대응하는 제4 특징 이미지 및 디코딩 계층(2020)에 대응하는 제4 특징 이미지를 결정하는 방식은, 전술한 디코딩 계층(2018)에 대응하는 제4 특징 이미지를 결정하는 방식과 유사하며, 여기서 자세히 설명하지 않는다. 공간 어텐션 모듈(2028) 및 공간 어텐션 모듈(2031)의 구조와 공간 어텐션 모듈(2025)의 구조와 유사하며, 여기서 자세히 설명하지 않는다.

공간 어텐션 모듈을 사용하여 분할 네트워크에 대해 공간 차원의 어텐션 훈련을 수행함으로써, 훈련된 분할 네트워크가 이미지 분할 처리를 수행할 경우 이미지에서의 관심 영역의 공간적 특징 정보를 강화하고, 이미지에서의 비관심 영역의 공간적 특징 정보를 억제할 수 있어, 분할 네트워크의 분할 정밀도를 향상시킬 수 있다.

임의의 디코딩 계층에 대해, 상기 디코딩 계층에 대응하는 제4 특징 이미지를 결정한 다음, 상기 디코딩 계층에 입력된 제2 특징 이미지 및 상기 디코딩 계층에 대응하는 제2 특징 이미지를 스플라이싱하여(채널 캐스케이드), 상기 디코딩 계층에 대응하는 제2 훈련될 특징 이미지를 획득한다. 예를 들어, 디코딩 계층(2018)에 대해, 디코딩 계층(2018)에 입력된 제2 특징 이미지(56*75 스케일, 64 채널 ) 및 디코딩 계층(2018)에 대응하는 제4 특징 이미지 (56*75 스케일, 64 채널)를 채널 캐스케이드 스플라이싱하여, 디코딩 계층(2018)에 대응하는 제2 훈련될 특징 이미지(56*75 스케일, 128 채널)를 획득한다.

본 출원의 일부 실시예에서, 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행하는 단계는, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계 - 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포는 제2 훈련될 특징 이미지에서의 각 채널의 가중치를 지시하기 위한 것임 - ; 및 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포에 따라 제2 훈련될 특징 이미지에서의 각 채널을 교정하는 단계를 포함한다.

본 출원의 일부 실시예에서, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계는, 제2 훈련될 특징 이미지에 대해 평균 풀링 동작을 수행하여, 평균 풀링 결과를 획득하는 단계; 제2 훈련될 특징 이미지에 대해 최대 풀링 동작을 수행하여, 최대 풀링 결과를 획득하는 단계; 및 평균 풀링 결과 및 최대 풀링 결과에 따라, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계를 포함한다.

도 5는 본 출원의 실시예에서 제공하는 도 2에서의 채널 어텐션 모듈(2026)의 구조 모식도이다. 도 5에 도시된 바와 같이, 채널 어텐션 모듈(2026)은 최대 풀링 계층(2044), 평균 풀링 계층(2045), 완전 연결 계층(Fully Connected Layers, FC 계층)(2046), 활성화 계층(ReLU 계층)(2047) 및 완전 연결 계층(FC 계층)(2048)을 포함한다. 도 2, 도 5에 도시된 바와 같이, 디코딩 계층(2018)에 대응하는 제2 훈련될 특징 이미지(128 채널)를 채널 어텐션 모듈(2026)에 입력하여, 최대 풀링 계층(2044)을 통과하여 최대 풀링 동작을 수행함으로써, 최대 풀링 결과를 획득하고, 평균 풀링 계층(2045)을 통과하여 평균 풀링 동작을 수행함으로써, 평균 풀링 결과를 획득하여, 평균 풀링 결과 및 최대 풀링 결과를 완전 연결 계층(FC 계층)(2046), 활성화 계층(ReLU 계층)(2047) 및 완전 연결 계층(FC 계층)(2048)에 각각 통과시켜, 디코딩 계층(2018)에 대응하는 채널 어텐션 가중치 분포를 결정한다. 예를 들어, 채널 어텐션 모듈(2026)은 하기 공식 (1-3)을 통해 디코딩 계층(2018)에 대응하는 제2 훈련될 특징 이미지에서의 채널

의 가중치

를 결정한다.

(1-3)

여기서,

은 활성화 함수이고,

은 디코딩 계층(2018)에 대응하는 제2 훈련될 특징 이미지이며,

은 완전 연결 연산 및 ReLU 연산이며,

은 완전 연결 연산이고,

은 평균 풀링 함수이며,

은 최대 풀링 함수이다.

디코딩 계층(2018)에 대응하는 채널 어텐션 가중치 분포를 결정한 다음, 디코딩 계층(2018)에 대응하는 채널 어텐션 가중치 분포에 따라 디코딩 계층(2018)에 대응하는 제2 훈련될 특징 이미지에서의 각 채널을 교정하여, 디코딩 계층(2018)에 대응하는 제3 특징 이미지를 획득한다.

디코딩 계층(2017)에 대응하는 제3 특징 이미지, 디코딩 계층(2019)에 대응하는 제3 특징 이미지 및 디코딩 계층(2020)에 대응하는 제3 특징 이미지를 결정하는 방식은, 전술한 디코딩 계층(2018)에 대응하는 제3 특징 이미지를 결정하는 방식과 유사하며, 여기서 자세히 설명하지 않는다. 채널 어텐션 모듈(2023), 채널 어텐션 모듈(2029) 및 채널 어텐션 모듈(2032)의 구조는 채널 어텐션 모듈(2026)의 구조와 유사하며, 여기서 자세히 설명하지 않는다.

채널 어텐션 모듈을 사용하여 분할 네트워크에 대해 채널 차원의 어텐션 훈련을 수행함으로써, 훈련된 분할 네트워크가 이미지 분할 처리를 수행할 경우 이미지에서의 관심 영역의 채널 특징 정보를 강화하고, 이미지에서의 비관심 영역의 채널 특징 정보를 억제할 수 있어, 분할 네트워크의 분할 정밀도를 향상시킬 수 있다.

본 출원의 일부 실시예에서, 복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 특징 추출 결과를 결정하는 단계는, 상이한 스케일에서의 제3 특징 이미지를 스플라이싱하여, 제3 훈련될 특징 이미지를 획득하는 단계 - 제3 훈련될 특징 이미지의 스케일은 샘플 이미지의 스케일과 동일함 - ; 및 스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 특징 추출 결과를 결정하는 단계를 포함한다.

본 출원의 일부 실시예에서, 스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행하는 단계는, 스케일 어텐션 가중치 분포를 결정하는 단계 - 스케일 어텐션 가중치 분포는 상이한 스케일의 가중치를 지시하기 위한 것임 - ; 및 스케일 어텐션 가중치 분포에 따라 제3 훈련될 특징 이미지를 교정하는 단계를 포함한다.

도 2에 도시된 바와 같이, 분할 네트워크는 스케일 어텐션 모듈(2049)을 더 포함한다. 디코딩 계층(2017)에 대응하는 제3 특징 이미지, 디코딩 계층(2018)에 대응하는 제3 특징 이미지, 디코딩 계층(2019)에 대응하는 제3 특징 이미지 및 디코딩 계층(2020)에 대응하는 제3 특징 이미지를 스플라이싱하여, 스플라이싱 과정에서, 디코딩 계층(2017)에 대응하는 제3 특징 이미지(28*37 스케일), 디코딩 계층(2018)에 대응하는 제3 특징 이미지(56*75 스케일) 및 디코딩 계층(2019)에 대응하는 제3 특징 이미지(112*150 스케일)를 224*300 스케일(샘플 이미지 스케일과 동일함)에 업샘플링하여, 스플라이싱 과정에서, 각 디코딩 계층에 대응하는 제3 특징 이미지는 4 개의 채널만 유지할 수 있으며, 스플라이싱 후 224*300 스케일의 제6 특징 이미지(16 채널)를 획득한다. 제6 특징 이미지를 스케일 어텐션 모듈(2049)에 입력하여 스케일 차원에서의 어텐션 훈련을 수행한다.

도 6은 본 출원의 실시예에서 제공하는 도 2에서의 스케일 어텐션 모듈(2049)의 구조 모식도이다. 도 6에 도시된 바와 같이, 스케일 어텐션 모듈(2049)은 최대 풀링 계층(2050), 평균 풀링 계층(2051), 완전 연결 계층(FC 계층)(2052), 활성화 계층(ReLU 계층)(2053), 완전 연결 계층(FC 계층)(2054), 컨볼루션 계층(2055), 활성화 계층(ReLU 계층)(2056), 컨볼루션 계층(2057), 활성화 계층(Sigmoid 계층)(2058)을 포함한다. 제6 특징 이미지를 스케일 어텐션 모듈(2049)에 입력하여, 최대 풀링 계층(2050)을 통과하여 최대 풀링 동작을 수행함으로써, 최대 풀링 결과를 획득하고, 평균 풀링 계층(2051)은 평균 풀링 동작을 수행하여, 평균 풀링 결과를 획득하여, 평균 풀링 결과 및 최대 풀링 결과를 완전 연결 계층(FC 계층)(2052), 활성화 계층(ReLU 계층)(2053), 완전 연결 계층(FC 계층)(2054)에 통과시켜 스케일 어텐션 가중치 분포를 결정한다. 예를 들어, 스케일 어텐션 모듈(2049)은 하기 공식 (1-4)을 통해 스케일

의 가중치

를 결정한다.

(1-4)

여기서,

은 활성화 함수이고,

는 제6 특징 이미지이며,

은 완전 연결 연산 및 ReLU 연산이며,

은 완전 연결 연산이며,

은 평균 풀링 함수이고,

은 최대 풀링 함수이다.

스케일 어텐션 가중치 분포를 기반으로 제6 특징 이미지에 대해 1 차 교정을 수행하여, 1 차 교정된 제6 특징 이미지를 획득한다. 스케일 어텐션 모듈을 사용하여 분할 네트워크에 대해 스케일 차원의 어텐션 훈련을 수행함으로써, 훈련된 분할 네트워크가 이미지 분할을 수행할 경우 적절한 스케일에서의 특징 정보를 강화하고, 이미지에서의 부적절한 스케일에서의 특징 정보를 억제할 수 있어, 분할 네트워크의 분할 정밀도를 향상시킬 수 있다.

1 차 교정된 제6 특징 이미지를 컨볼루션 계층(2055), 활성화 계층(ReLU 계층)(2056), 컨볼루션 계층(2057), 활성화 계층(Sigmoid 계층)(2058)을 통과하여 공간 차원에서 어텐션 훈련을 수행함으로써, 1 차 교정된 제6 특징 이미지에서의 각 픽셀 포인트의 가중치를 결정한다. 예를 들어, 하기 공식 (1-5)를 통해 1 차 교정된 제6 특징 이미지에서의 픽셀 포인트

의 가중치

를 결정한다.

(1-5)

여기서,

은 활성화 함수이고,

은 활성화 함수이며,

은 컨볼루션 연산 및 배치 정규화 연산(Batch Normalizationc 연산)이고,

은 컨볼루션 연산 및 배치 정규화 연산(Batch Normalizationc 연산)이며,

은 1 차 교정된 제6 특징 이미지이다.

1 차 교정된 제6 특징 이미지에서의 각 픽셀 포인트의 가중치에 따라, 1 차 교정된 제6 특징 이미지에서의 각 픽셀 포인트를 재교정하여, 2 차 교정된 제6 특징 이미지를 획득하고, 2 차 교정된 제6 특징 이미지를 샘플 이미지의 특징 추출 결과로 결정한다.

도 2에 도시된 바와 같이, 분할 네트워크는 또한 분류기(class)(2059) 및 정규화 계층(Softmax 계층)(2060)을 더 포함하고, 샘플 이미지의 특징 추출 결과를 분류기(2059) 및 정규화 계층(2060)에 순차적으로 통과시켜, 샘플 이미지에 대해의 이미지 분할을 구현하여, 샘플 이미지의 분할 결과(2061)를 획득한다.

샘플 이미지의 분할 결과 및 샘플 이미지에 대응하는 분할 태깅 정보에 따라, 분할 네트워크의 분할 손실을 결정하며, 분할 손실에 따라 분할 네트워크의 네트워크 파라미터를 조정한다. 분할 네트워크의 분할 손실이 수렴되거나 반복 횟수가 기설정된 횟수에 도달할 때까지 분할 네트워크를 반복적으로 훈련한다. 여기서, 분할 손실의 결정은 DICE 손실 함수를 채택할 수 있거나, Softdice 손실 함수를 채택할 수도 있거나, 교차 엔트로피(Cross Entropy) 손실 함수를 채택할 수도 있거나, Focalloss 손실 함수를 채택할 수 있으며, 또한 다른 손실 함수를 채택할 수 있으며, 본 출원의 실시예는 이에 대해 구체적으로 한정하지 않는다.

공간 어텐션 모듈, 채널 어텐션 모듈 및 스케일 어텐션 모듈을 종합적으로 사용하여, 분할 네트워크에 대해 공간 차원, 채널 차원 및 스케일 차원의 종합적인 어텐션 훈련을 수행함으로써, 훈련된 분할 네트워크가 이미지 분할을 수행할 경우 분할 정밀도를 향상시킬 수 있어, 자기 공명 영상(Magnetic Resonance Imaging, MRI) 이미지, 컴퓨터 단층 촬영(Computed Tomography, CT) 이미지, 초음파 이미지 또는 X선 이미지에서의 종양, 조직 손상 및 괴사, 특수 기관의 분할과 같은 의료 이미지 분할 문제에 적용되며, 의사가 질병 상태를 판단하거나 환자의 건강을 보다 정확하게 평가하도록 지원한다.

본 출원의 실시예는 의료 영상 분석에 적용되는 네트워크 훈련 방법을 제공하며, 상기 네트워크 훈련 방법은 단말 기기 또는 다른 처리 기기에 의해 실행되며, 여기서, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말, 셀룰러 폰, 무선 전화, 개인용 정보 단말기(Personal Digital Assistant, PDA), 핸드헬드 기기, 컴퓨팅 기기, 차량 탑재 기기, 웨어러블 기기 등일 수 있다. 다른 처리 기기는 서버 또는 클라우드 서버 등일 수 있다. 일부 가능한 구현 방식에 있어서, 상기 네트워크 훈련 방법은 프로세서가 메모리에 저장된 컴퓨터 판독 가능한 명령어를 호출하는 방식을 통해 구현될 수 있다. 상기 네트워크 훈련 방법은 다음의 단계들을 포함할 수 있다.

단계 S31에 있어서, 의료 영상을 전처리하여, 사진을 클리핑 및 정규화한다.

단계 S32에 있어서, 의료 영상 분석 측면에서 매우 안정적인 U-Net 네트워크 모델을 백본 네트워크로 선택한다. U-Net의 최하위 계층에서 내적 합계 방식으로 각 픽셀 포인트를 다른 모든 픽셀 포인트와 상관성 연계시켜, 그 후 업 샘플링(특징 디코딩 과정)을 통과할 때마다 인코딩된 정보를 사용하여 동일한 계층의 인코딩 과정에서의 특징을 조회할 수 있다. 이 단계를 공간 어텐션 방법이라고 한다.

단계 S33에 있어서, 각 디코딩 계층의 중간에 채널 어텐션가 삽입되고, 여기서 평균 풀링 정보 및 최대 풀링 정보를 동시에 사용하여 현재 계층의 특징 채널 정보를 교정한다.

단계 S34에 있어서, 디코딩 계층에서의 각 계층의 중간 출력을 업 샘플링을 통해 입력된 원본 이미지와 동일한 크기로 통합하고, 상이한 스케일 특징을 포함하는 채널을 스플라이싱하며, 마지막으로 상이한 스케일 정보에 대해 어텐션 메커니즘을 도입한다.

단계 S35에 있어서, 샘플 이미지에 대해 이미지 분할을 수행하여, 샘플 이미지의 분할 결과를 획득한다. 상기 분할 결과를 인공(의사, 간호사 등을 포함하지만 이에 한정되지 않음)으로 태깅한 금표준과 비교하여, 역전파 알고리즘을 통해, 손실 함수에 대해 기울기 하강법을 사용하여 반복 훈련을 반복적으로 수행하여, 모델 파라미터를 최적화한다. 여기서, 손실 함수는 분할 DICE 손실 함수를 사용한다.

본 출원의 실시예는 네트워크 훈련 방법을 제공하며, 의료 영상이 널리 적용되는 네트워크에서, 특징의 복수 차원에서 어텐션 메커니즘을 도입하여, 이전의 어텐션 메커니즘에 비해, 관심 영역의 관심도를 강화하여, 네트워크의 자기 적응 능력을 향상시킨다.

또한, 네트워크의 작업 분할 능력이 크게 향상되는 조건 하에, 네트워크는 파라미터와 계산 오버헤드가 아주 적게 증가된다. 따라서, 상기 네트워크 훈련 방법은 메모리 요구 사항이 있는 기기에 잘 적용될 수 있다.

도 7은 본 출원의 실시예에서 제공하는 이미지 처리 방법의 흐름 모식도이다. 상기 이미지 처리 방법은 단말 기기 또는 다른 처리 기기에 의해 실행되며, 여기서, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말, 셀룰러 폰, 무선 전화, 개인용 정보 단말기(Personal Digital Assistant, PDA), 핸드헬드 기기, 컴퓨팅 기기, 차량 탑재 기기, 웨어러블 기기 등일 수 있다. 다른 처리 기기는 서버 또는 클라우드 서버 등일 수 있다. 일부 가능한 구현방식에서, 상기 이미지 처리 방법은 프로세서가 메모리에 저장된 컴퓨터 판독 가능한 명령어를 호출하는 방식을 통해 구현될 수 있다. 도 7에 도시된 바와 같이, 상기 네트워크 훈련 방법은 다음의 단계들을 포함할 수 있다.

단계 S71에 있어서, 분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하며; 여기서, 분할 네트워크는 전술한 실시예의 네트워크 훈련 방법을 채택하여 훈련하여 얻는다.

예를 들어, 전술한 실시예에 따라 훈련하여 얻은 분할 네트워크를 채택하여 처리될 이미지에 대해 이미지 분할 처리를 수행한다. 구체적으로, 처리될 이미지를 분할 네트워크에 입력하고, 상기 분할 네트워크의 출력은 처리될 이미지에 대한 이미지 분할 결과이다. 분할 네트워크는 공간 차원, 채널 차원 및 스케일 차원에서 어텐션 메커니즘을 사용하여 훈련하여 얻음으로써, 분할 네트워크가 처리될 이미지에 대해 이미지 분할 처리를 수행하는 분할 정밀도를 향상시킨다. 피부 종양에 대해 자동 분할이 수행되는 시나리오를 예로 들면, 본 출원의 실시예에서 제공하는 이미지 처리 방법은 다음의 단계들을 포함할 수 있다.

단계 S701에 있어서, 피부경 사진을 전처리하며; 사진을 224*300 크기로 리샘플링 한 다음, 0 내지 1 사이로 정규화한다.

단계 S702에 있어서, 3*224*300으로 전처리된 피부경 사진을 훈련 데이터로 사용하여 네트워크에 입력한다. 네트워크 훈련에 들어가기 전에, 사진에 대해 무작위로 플립, 회전 및 클리핑을 수행하여 데이터 강화를 구현한 다음, 강화된 훈련 데이터 및 대응하는 태깅을 네트워크에 입력하여 훈련을 수행한다.

단계 S703에 있어서, 완전 컨볼루션 네트워크(Fully Convolutional Network, FCN) 또는 U-Net에 기반한 네트워크 구조를 채택하여, 크기가 3*224*300인 피부경 사진을 상이한 계층을 통해 컨볼루션한다. 4 회의 다운 샘플링, 배치 정규화 및 활성화 함수의 동작을 거쳐, 3*224*300 크기의 피부 종양 사진 크기는 3*112*150, 3*56*75, 3*28*37 및 3*14*18로 순차적으로 축소된다. 마지막으로 3*14*18의 특징 이미지를 얻는 동시에, 채널 수를 1에서 128로 증가한다. 다음 4 회의 디컨볼루션 연산을 통해, 3*14*18 크기의 특징 이미지를 4 회의 업 샘플링을 거쳐 원래 크기 3*224*300으로 점차 증가한다. 업 샘플링 과정에서, 다운 샘플링에서 동일한 해상도(예컨대 32*32*32)의 특징 이미지, 및 업 샘플링에서 동일한 크기의 특징 이미지를 융합한 다음, 공간 어텐션 메커니즘을 결합한다. 이러한 방식으로, 특징은 이미지에서의 국부 정보 및 글로벌 정보와 결합되는 동시에, 특징 영역의 관심도가 강화된다.

단계 S704에 있어서, 업 샘플링에 의해 획득된 3*224*300의 이미지에 대해, 컨볼루션 연산 과정에 개선된 채널 어텐션 메커니즘을 삽입한다. 다음, 각 계층업 샘플링에 대해, 중간 특징 결과가 입력된 사진의 크기로 업 샘플링된다. 그 다음 스케일 어텐션 메커니즘을 통해 특징 스케일에서의 관심도가 강화된다. 마지막으로, 분할된 결과와 원래 태깅의 분할 결과를 비교하며, DICE 손실 함수, 합집합 위의 교집합(Intersection over union, IOU) 손실 함수 또는 다른 손실 함수를 사용하여 손실을 계산하여, 최종 손실 함수를 형성한다. 역전파 알고리즘과 상기 손실 함수를 사용하여 모델 파라미터를 업데이트하며, 모델이 수렴되거나 최대 반복 횟수에 도달할 때까지 반복적으로 모델을 최적화한다.

단계 S705에 있어서, 훈련된 모델을 사용하여, 처리될 피부경 사진에 대해 이미지 처리를 수행하여, 분할된 결과를 획득한다. DICE 계수, IOU 또는 평균 대칭 표면 거리(average symmetric surface distance, ASSD)를 네트워크의 훈련 효과를 평하기 위한 평가 지표로 사용할 수 있다.

본 출원의 실시예에서 제공하는 이미지 처리 방법은, 전체 어텐션에 기반한 네트워크 방법을 채택함으로써, 의료 이미지 분할 문제에 대해 매우 보편적으로 사용되며, 동시에 MRI, CT, 초음파 및 X-선 등 의료 영상 중의 종양, 조직 손상 괴사와 같은 병변 영역 또는 특수 기관 분할 작업에도 사용될 수 있다. 네트워크에 입력되는 데이터 파라미터만 설정함으로써 다양한 작업에 대한 교육 및 테스트를 구현할 수 있다.

방사선 전문의인 경우, 환자 데이터를 다운로드 한 후, 본 출원의 실시예에서 제공하는 이미지 처리 방법에 기반한 워크 스테이션을 사용하여, 분할해야 한는 종양 또는 기관을 실시간으로 분할 수 있음으로써, CT 영역 스케치, 원격 의료 진단, 클라우드 플랫폼 지원 지능형 진단 등을 구현하여, 의사가 질병 상태를 판단하거나 환자의 건강 상태를 보다 정확하게 평가할 수 있다.

본 출원의 실시예에서 제공하는 이미지 처리 방법에 기반한 지능형 진단 기기는, 클라우드 플랫폼, 대형 서버 및 모바일 기기에 동시에 내장될 수 있으며, 방사선 전문의, 임상의 등은 즉각적인 점검을 위한 진단 요구 사항에 따라 다양한 장치를 편리하게 사용할 수 있다.

이해할 수 있는 것은, 본 출원에서 언급한 상기 각 방법 실시예는, 원리 논리로부터 벗어나지 않는 조건 하에, 모두 서로 결합되어 결합 후의 실시예를 구성할 수 있고, 편폭의 제한으로, 본 출원의 실시예에서는 더이상 설명하지 않는다. 본 분야의 기술자는 구체적인 실시형태의 상기 방법에서, 각 단계의 구체적인 실행 순서는 그 기능 및 가능한 내부 논리에 의해 결정된다.

또한, 본 출원은 네트워크 훈련 장치, 이미지 처리 장치, 전자 기기, 컴퓨터 판독 가능한 장 매체, 프로그램을 더 제공하며, 전술한 것은 모두 본 출원에 의해 제공된 임의의 네트워크 훈련 방법 및 이미지 처리 방법을 구현하기 위해 사용되며, 상응한 기술방안 및 설명은 방법 부분의 상응한 내용을 참조하며, 더이상 설명하지 않는다.

도 8은 본 출원의 실시예에서 제공하는 네트워크 훈련 장치의 구조 모식도이다. 도 8에 도시된 바와 같이, 장치(80)는,

분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하도록 구성된 특징 추출 모듈(81) - 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 훈련 샘플은 상기 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함함 - ;

특징 추출 결과에 따라 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하도록 구성된 분할 모듈(82); 및

이미지 분할 결과 및 분할 태깅 정보에 따라, 분할 네트워크를 훈련하도록 구성된 훈련 모듈(83)을 포함한다.

본 출원의 일부 실시예에서, 분할 네트워크는 인코더 및 디코더를 포함하고, 인코더는 복수 개의 인코딩 계층을 포함하고, 디코더는 복수 개의 디코딩 계층을 포함하며;

특징 추출 모듈(81)은,

샘플 이미지를 인코더에 입력하여, 각 인코딩 계층에 대응하는 제1 특징 이미지를 결정하도록 구성된 제1 결정 서브 모듈 - 상이한 인코딩 계층에 대응하는 제1 특징 이미지의 스케일은 상이함 - ;

임의의 디코딩 계층에 대해, 상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행하여, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하도록 구성된 제2 결정 서브 모듈 - 상기 디코딩 계층에 입력된 제2 특징 이미지는 상기 디코딩 계층의 이전 디코딩 계층에 대응하는 제3 특징 이미지에 따라 결정되며, 상이한 디코딩 계층에 대응하는 제3 특징 이미지의 스케일은 상이함 - ;

복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 특징 추출 결과를 결정하도록 구성된 제3 결정 서브 모듈을 포함한다.

본 출원의 일부 실시예에서, 제2 결정 서브 모듈은,

상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제4 특징 이미지를 결정하도록 구성된 제1 훈련 유닛 - 제1 훈련될 특징 이미지는 상기 디코딩 계층에 입력된 제2 특징 이미지임 - ;

상기 디코딩 계층에 입력된 제2 특징 이미지 및 상기 디코딩 계층에 대응하는 제4 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 획득하도록 구성된 제1 스플라이싱 유닛;

채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하도록 구성된 제2 훈련 유닛을 포함한다.

본 출원의 일부 실시예에서, 제2 결정 서브 모듈은,

상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 상기 디코딩 계층에 입력된 제2 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 결정하도록 구성된 제2 스플라이싱 유닛;

채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 제1 훈련될 특징 이미지를 결정하도록 구성된 제2 훈련 유닛; 및

상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하도록 구성된 제1 훈련 유닛을 포함한다.

본 출원의 일부 실시예에서, 제1 훈련 유닛은,

상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하도록 구성된 제1 결정 서브 유닛 - 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 가중치를 지시하기 위한 것임 - ;

상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포에 따라 제1 훈련될 특징 이미지에서의 각 픽셀 포인트를 교정하도록 구성된 제1 교정 서브 유닛을 포함한다.

본 출원의 일부 실시예에서, 임의의 디코딩 계층에 대해, 상기 디코딩 계층은 복수 개의 공간 어텐션 훈련 계층을 포함하고;

제1 결정 서브 유닛은 구체적으로,

상기 디코딩 계층 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지를 상기 복수 개의 공간 어텐션 훈련 계층에 각각 입력하여, 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치를 결정하고;

제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하도록 구성된다.

본 출원의 일부 실시예에서, 제2 훈련 유닛은,

상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하도록 구성된 제2 결정 서브 유닛 - 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포는 제2 훈련될 특징 이미지에서의 각 채널의 가중치를 지시하기 위한 것임 - ;

상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포에 따라 제2 훈련될 특징 이미지에서의 각 채널을 교정하도록 구성된 제2 교정 서브 유닛을 포함한다.

본 출원의 일부 실시예에서, 제2 결정 서브 유닛은 구체적으로,

제2 훈련될 특징 이미지에 대해 평균 풀링 동작을 수행하여, 평균 풀링 결과를 획득하도록 구성되고;

제2 훈련될 특징 이미지에 대해 최대 풀링 동작을 수행하여, 최대 풀링 결과를 획득하도록 구성되며;

평균 풀링 결과 및 최대 풀링 결과에 따라, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하도록 구성된다.

본 출원의 일부 실시예에서, 제3 결정 서브 모듈은,

상이한 스케일에서의 제3 특징 이미지를 스플라이싱하여, 제3 훈련될 특징 이미지를 획득하도록 구성된 제3 스플라이싱 유닛 - 제3 훈련될 특징 이미지의 스케일은 샘플 이미지의 스케일과 동일함 - ; 및

스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 특징 추출 결과를 결정하도록 구성된 결정 유닛을 포함한다.

본 출원의 일부 실시예에서, 결정 유닛은 구체적으로,

스케일 어텐션 가중치 분포를 결정하고 - 스케일 어텐션 가중치 분포는 상이한 스케일의 가중치를 지시하기 위한 것임 - ;

스케일 어텐션 가중치 분포에 따라 제3 훈련될 특징 이미지를 교정하도록 구성된다.

도 9는 본 출원의 실시예에서 제공하는 이미지 처리 장치의 구조 모식도이다. 도 9에 도시된 바와 같이, 장치(90)은,

분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하도록 구성된 이미지 처리 모듈(91)을 포함하며;

여기서, 분할 네트워크는 전술한 실시예의 네트워크 훈련 방법을 채택하여 훈련하여 얻는다.

본 출원의 일부 실시예에서, 상기 분할될 이미지는 분할될 의료 영상이고; 이미지 처리 모듈(91)은, 분할 네트워크를 통해 분할될 의료 영상에 대해 이미지 분할 처리를 수행하여, 분할된 병변 영역 또는 목표 기관 영역을 획득하도록 구성된다.

일부 실시예에서, 본 발명의 실시예에서 제공하는 장치가 갖고 있는 기능 또는 포함하는 모듈은 전술한 방법 실시예에서 설명한 방법을 실행하도록 구성될 수 있고, 그 구체적인 구현은 전술한 방법 실시예의 설명을 참조할 수 있으며, 간결함을 위해, 여기서 더이상 반복하여 설명하지 않는다.

본 출원의 실시예는 또한 컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 프로세서에 의해 실행될 때 상기 이미지 처리 방법을 구현한다. 컴퓨터 판독 가능한 저장 매체는 비휘발성 컴퓨터 판독 가능한 저장 매체일 수 있다.

본 출원의 실시예는 또한 전자 기기를 제공하며, 프로세서; 및 프로세서 실행 가능 명령어를 저장하도록 구성된 메모리를 포함하며; 여기서, 상기 프로세서는 상기 메모리에 저장된 명령어를 호출함으로써 상기 방법을 실행하도록 구성된다.

본 출원의 실시예는 또한 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램 제품을 제공하며, 컴퓨터 판독 가능한 코드가 기기에서 작동될 때, 기기 중의 프로세서는 상기 실시예에서 제공하는 네트워크 훈련 방법 및 이미지 처리 방법을 구현하기 위한 명령어를 실행한다.

본 출원의 실시예는 또한 컴퓨터 판독 가능한 명령어를 저장하도록 구성된 다른 컴퓨터 프로그램 제품을 제공하며, 명령어가 실행될 때 컴퓨터로 하여금 전술한 임의의 실시예에서 제공하는 네트워크 훈련 방법 및 이미지 처리 방법의 동작을 실행하도록 한다.

전자 기기는 단말, 서버 또는 다른 형태의 기기로 제공될 수 있다.

도 10은 본 출원의 실시예에서 제공하는 전자 기기의 모식도이다. 예를 들어, 전자 기기(1000)는 휴대폰, 컴퓨터, 디지털 방송 단말, 메시징 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 피트니스 기기, 개인 휴대용 단말 등 단말일 수 있다.

도 10를 참조하면, 전자 기기(1000)는 처리 컴포넌트(1002), 메모리(1004), 전원 컴포넌트(1006), 멀티미디어 컴포넌트(1008), 오디오 컴포넌트(1010), 입력/출력(Input Output, I/O) 인터페이스(1012), 센서 컴포넌트(1014) 및 통신 컴포넌트(1016) 중 하나 또는 복수 개의 컴포넌트를 포함할 수 있다.

처리 컴포넌트(1002)는 일반적으로 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 전자 기기(1000)의 전체적인 동작을 제어한다. 처리 컴포넌트(1002)는 상기 이미지 재구성 방법 단계의 전부 또는 일부를 구현하기 위한 명령어를 실행하기 위한 하나 또는 복수 개의 프로세서(1020)를 포함할 수 있다. 또한, 처리 컴포넌트(1002)는 처리 컴포넌트(1002) 및 다른 컴포넌트 사이의 상호 작용을 용이하게 하기 위해, 하나 또는 복수 개의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(1002)는 멀티미디어 컴포넌트(1008) 및 처리 컴포넌트(1002) 사이의 상호 작용을 용이하게 하기 위해, 멀티미디어 모듈을 포함할 수 있다.

메모리(1004)는 전자 기기(800)의 동작을 지원하기 위해, 다양한 타입의 데이터를 저장하도록 구성된다. 이러한 데이터의 예는 전자 기기(1000)에서 동작하는 임의의 애플리케이션 프로그램 또는 방법의 명령어, 연락인 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(1004)는 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 전기적 소거 가능한 프로그래머블 읽기 전용 메모리(Electrically Erasable Programmable Read Only Memory, EEPROM), 소거 가능한 프로그래머블 읽기 전용 메모리(Erasable Programmable Read Only Memory, EPROM), 프로그래머블 읽기 전용 메모리(Programmable Read Only Memory, PROM), 읽기 전용 메모리(Read Only Memory, ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광 디스크 중 어느 한 타입의 휘발성 또는 비휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.

전원 컴포넌트(1006)는 전자 기기(1000)의 다양한 컴포넌트에 전원을 공급한다. 전원 컴포넌트(1006)는 전원 관리 시스템, 하나 또는 복수 개의 전원 및 전자 기기(1000)를 위해 전원을 생성, 관리 및 분배하는 것과 관련된 다른 컴포넌트를 포함할 수 있다.

멀티미디어 컴포넌트(1008)는 상기 전자 기기(1000) 및 사용자 사이의 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에 있어서, 스크린은 액정 모니터(Liquid Crystal Display, LCD) 및 터치 패널(Touch Panel, TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 사용자로부터의 입력 신호를 수신하기 위해 스크린은 터치 스크린으로서 구현될 수 있다. 터치 패널은 터치, 스와이프 및 터치 패널 상의 제스처를 감지하기 위한 하나 또는 복수 개의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 스와이프 동작의 경계를 감지할 뿐만 아니라 상기 터치 또는 스와이프 동작과 관련된 지속 시간 및 압력을 감지할 수 있다. 일부 실시에에 있어서, 멀티미디어 컴포넌트(1008)는 하나의 전방 카메라 및 하나의 후방 카메라 중 적어도 하나를 포함한다. 전자 기기(1000)가 촬영 모드 또는 비디오 모드와 같은 동작 모드에 있을 경우, 전방 카메라 및 후방 카메라 중 적어도 하나는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 전방 카메라 및 후방 카메라는 하나의 고정된 광학 렌즈 시스템이거나 초점 거리 및 광학 줌 기능을 구비할 수 있다.

오디오 컴포넌트(1010)는 오디오 신호를 출력하는 것 및 입력하는 것 중 적어도 하나를 수행하도록 구성된다. 예를 들어, 오디오 컴포넌트(1010)는 하나의 마이크로폰(MICrophone, MIC)을 포함하며, 전자 기기(1000)가 콜 모드, 녹음 모드 및 음성 인식 모드와 같은 동작 모드에 있을 경우, 마이크로폰은 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(1004)에 추가로 저장되거나 통신 컴포넌트(1016)에 의해 송신될 수 있다. 일부 실시예에 있어서, 오디오 부재(1010)는 오디오 신호를 출력하도록 구성된 하나의 스피커를 더 포함한다.

I/O 인터페이스(1012)는 처리 컴포넌트(1002) 및 외부 인터페이스 모듈 사이에 인터페이스를 제공하며, 상기 외부 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼은 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼을 포함할 수 있지만 이에 한정되지 않는다.

센서 컴포넌트(1014)는 전자 기기(1000)를 위한 다양한 측면의 상태 평가를 제공하기 위한 하나 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 컴포넌트(1014)는 전자 기기(1000)의 온/오프 상태, 컴포넌트의 상대 위치를 검출할 수 있으며, 예를 들어, 상기 컴포넌트는 전자 기기(1000)의 모니터와 키패드이며, 센서 컴포넌트(1014)는 전자 기기(1000) 또는 전자 기기(1000)에서 하나의 컴포넌트의 위치 변화, 사용자와 전자 기기(1000) 접촉의 존재 유무, 전자 기기(1000) 방향 또는 가속/감속 및 전자 기기(1000)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(1014)는 그 어떤 물리적 접촉이 없이 근처의 물체의 존재를 검출하도록 구성된 근접 센서를 포함할 수 있다. 센서 컴포넌트(1014)는 또한 이미징 애플리케이션에 사용하도록 구성된 상보적 금속 산화물 반도체(Complementary Metal Oxide Semiconductor, CMOS) 또는 전하 결합 장치(Charge Coupled Device, CCD) 이미지 센서와 같은 광 센서를 포함할 수 있다. 일부 실시예에 있어서, 상기 센서 컴포넌트(1014)는 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.

통신 컴포넌트(1016)는 전자 기기(1000)와 다른 기기 사이의 유선 또는 무선 방식으로 통신을 용이하게 하도록 구성된다. 전자 기기(1000)는 와이파이(Wireless Fidelity, WiFi), 2G(2th Generation, 2G) 또는 3G(3th Generation, 3G), 또는 이들의 조합과 같은 기준에 기반한 무선 인터넷에 액세스할 수 있다. 하나의 예시적인 실시예에서, 통신 컴포넌트(1016)는 방송 채널을 통해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 예시적 실시예에서, 상기 통신 컴포넌트(1016)는 근거리 통신을 추진하는 근거리 무선 통신(Near Field Communication, NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별(Radio Frequency Identification, RFID) 기술, 적외선 데이터 연관(Infrared Data Association, IrDA) 기술, 초광대역(Ultra Wide Band, UWB) 기술, 블루투스(Bluetooth, BT) 기술 및 다른 기술을 기반으로 할 수 있다.

예시적 실시예에서, 전자 기기(800)는 상기 이미지 재구성 방법을 실행하기 위해, 하나 또는 복수 개의 주문형 집적 회로(ApplicationSpecificIntegratedCircuit, ASIC), 디지털 신호 프로세서(Digital Signal Processor, DSP), 디지털 신호 처리 장치(Digital Signal Processing Devices, DSPD), 프로그래머블 논리 장치(Programmable Logic Device, PLD), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 소자에 의해 구현될 수 있다.

예시적 실시예에서 또한, 컴퓨터 프로그램 명령어를 포함하는 메모리(1004)와 같은 비휘발성 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 상기 이미지 재구성 방법을 완성하기 위해 전자 기기(1000)의 프로세서(1020)에 의해 실행될 수 있다.

도 11은 본 출원의 실시예에 따른 전자 기기의 블록도이다. 예를 들어, 전자 기기(1100)는 하나의 서버로 제공될 수 있다. 도 27을 참조하면, 전자 기기(1100)는 하나 또는 복수 개의 프로세서를 더 포함하는 처리 컴포넌트(1122), 및 처리 컴포넌트(1122)에 의해 실행되는 명령어를 저장하도록 구성된 메모리(1132)로 대표되는 메모리 자원을 포함한다. 메모리(1132)에 저장된 애플리케이션 프로그램은 하나 또는 하나 이상의 각 명령어 세트에 대응되는 모듈을 포함할 수 있다. 또한, 처리 컴포넌트(1122)는 명령어를 실행하여, 상기 얼굴 인식 방법을 실행하도록 구성된다.

전자 기기(1100)는 전자 기기(1100)의 전원 관리를 실행하도록 구성된 하나의 전원 컴포넌트(1126), 전자 기기(1100)를 네트워크에 연결하도록 구성된 하나의 유선 또는 무선 네트워크 인터페이스(1150) 및 하나의 입력/출력(I/O) 인터페이스(1158)를 더 포함할 수 있다. 전자 기기(1100)는 메모리(1132)에 저장된 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 운영체제를 동작시킬 수 있다.

예시적 실시예에 있어서, 컴퓨터 프로그램 명령어를 포함하는 메모리(1132)와 같은 비휘발성 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 상기 이미지 재구성 방법을 완료하도록 전자 기기(1100)의 처리 컴포넌트(1122)에 의해 실행된다.

본 출원의 실시예는 시스템, 방법 및 컴퓨터 프로그램 제품 중 적어도 하나일 수 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독 가능한 저장 매체를 포함할 수 있고, 컴퓨터 판독 가능한 저장 매체에는 프로세서가 본 출원의 실시예의 각 측면을 구현하도록 하는 컴퓨터 판독 가능한 프로그램 명령어가 존재한다.

컴퓨터 판독 가능 저장 매체는 명령어 실행 기기에 의해 실행되는 명령어를 유지 및 저장할 수 있는 타입의 기기일 수 있다. 컴퓨터 판독 가능한 저장 매체는 예를 들어 축전 기기, 자기 저장 기기, 광 저장 기기, 전자기 저장 기기, 반도체 저장 기기 또는 전술한 축전 기기, 자기 저장 기기, 광 저장 기기, 전자기 저장 기기, 반도체 저장 기기의 임의의 적절한 조합일 수 있지만 이에 한정되지 않는다. 컴퓨터 판독 가능한 저장 매체의 더 구체적인 예는(비제한 리스트), 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(Random Access Memory, RAM), 판독 전용 메모리(Read Only Memory, ROM) 및 소거 가능하고 프로그램 가능한 판독 전용 메모리((Erasable Programmable Read Only Memory, EPROM) 또는 플래시 메모리), 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 휴대용 컴팩트 디스크 판독 전용 메모리(Portable Compact Disk Read-Only Memory, CD-ROM), DVD (Digital Versatile Disk), 메모리 스틱, 플로피 디스크, 명령어가 저장된 장치와 같은 기계적 코딩 장치 홀 카드 또는 그루브에서의 볼록한 구조 및 전술한 임의의 적절한 조합을 포함한다. 여기서 사용되는 컴퓨터 판독 가능한 저장 매체는 무선 전자파 또는 다른 자유롭게 전파되는 전자기파, 도파관 또는 다른 전송 매체를 통해 전파되는 전자기파(예를 들어, 광섬유 케이블을 통한 광펄스), 또는 와이어를 통해 전송되는 전기 신호와 같은 순간 신호 자체로 해석되지 않아야 한다.

여기서 설명한 컴퓨터 판독 가능한 프로그램 명령어는 컴퓨터 판독 가능한 저장 매체로부터 각 컴퓨팅/처리 기기로 다운 로드될 수 있거나, 인터넷, 근거리 통신망, 광역 통신망 및 무선 네트워크 중 적어도 하나와 같은 네트워크를 통해, 외부 컴퓨터 또는 외부 저장 기기로 다운 로드될 수 있다. 네트워크는 동 전송 케이블, 광섬유 전송, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터 및 에지 서버 중 적어도 하나를 포함할 수 있다. 각 컴퓨팅/처리 기기의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크로부터 컴퓨터 판독 가능한 프로그램 명령어를 수신하고, 각 컴퓨팅/처리 기기에서의 컴퓨터 판독 가능한 저장 매체에 저장하기 위해, 컴퓨터 판독 가능한 프로그램 명령어를 전달한다.

본 출원의 실시예의 동작을 실행하기 위한 컴퓨터 프로그램 명령어는 어셈블리 명령어, 명령어 세트 아키텍처(Instruction Set Architecture, ISA) 명령어, 머신 명령어, 머신 관련 명령어, 마이크로 코드, 펌웨어 명령어, 상태 설정 데이터, 또는 하나 또는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 객체 코드일 수 있고, 상기 프로그래밍 언어에는 스몰 토크, C++ 등과 같은 객체 지향 프로그래밍 언어 및 "C" 언어 또는 유사한 프로그래밍 언어와 같은 기존 프로그래밍 언어가 포함된다. 컴퓨터 판독 가능 프로그램 명령어는 사용자 컴퓨터에서 완전히 실행되거나, 사용자 컴퓨터에서 부분적으로 실행되거나, 독립적인 소프트웨어 패키지로서 실행되거나, 사용자 컴퓨터에서 일부가 실행되고 원격 컴퓨터에서 일부가 실행되거나, 원격 컴퓨터 또는 서버에서 완전히 실행될 수 있다. 원격 컴퓨터와 관련된 상황에서 원격 컴퓨터는 근거리 통신망(Local Area Network, LAN) 또는 광대역 통신망(Wide Area Network, WAN)을 포함하는 모든 타입의 네트워크를 통해 사용자 컴퓨터에 연결되거나 외부 컴퓨터에 연결(예를 들어 인터넷 서비스 제공 업체를 사용하여 인터넷을 통해 연결)될 수 있다. 일부 실시예에 있어서, 프로그램 가능한 논리 회로, 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA) 또는 프로그램 가능한 논리 어레이 (Programmable Logic Array, PLA)와 같은 전자 회로는 컴퓨터 판독 가능 프로그램 명령어의 상태 정보를 이용하여 개인화될 수 있고, 상기 전자 회로는 컴퓨터 판독 가능 프로그램 명령어를 실행할 수 있음으로써, 본 발명의 다양한 측면을 구현한다.

여기서 본 출원의 실시예의 다양한 측면은 본 출원의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및 블록도 중 적어도 하나를 참조하여 설명하였다. 흐름도 및 블록도 중 적어도 하나의 각 블록 및 흐름도 및 블록도 중 적어도 하나의 블록들의 조합은, 컴퓨터 판독 가능 프로그램 명령어에 의해 모두 구현될 수 있음을 이해해야 한다.

이러한 컴퓨터 판독 가능한 프로그램 명령어는 범용 컴퓨터, 특수 목적 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서에 제공 될 수 있음으로써, 이에 의해 이러한 명령어가 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서에 의해 실행되도록 하는 기계가 생성되고, 흐름도 및 블록도 중 적어도 하나에서 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현하는 장치가 생성된다. 이러한 컴퓨터 판독 가능한 프로그램 명령어를 컴퓨터 판독 가능한 저장 매체에 저장할 수도 있으며, 이러한 명령어는 컴퓨터, 프로그램 가능한 데이터 처리 장치 및 다른 기기가 특정한 방식으로 작동될 수 있도록 함으로써, 명령어가 저장되어 있는 컴퓨터 판독 가능한 매체는 제조품을 포함하며, 상기 제조품은 흐름도 및 블록도 중 적어도 하나에서 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현하는 명령어를 포함한다.

컴퓨터 판독 가능한 프로그램 명령어는 또한 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치 또는 다른 기기에 로딩될 수 있어, 컴퓨터로 구현되는 과정을 생성하기 위해, 일련의 동작 단계가 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치 또는 다른 기기에서 수행되도록 함으로써, 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치 또는 다른 기기에서 실행되는 명령어는 흐름도 및 블록도 중 적어도 하나에서 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현한다.

도면의 흐름도 및 블록도는 본 출원의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계 아키텍처, 기능 및 동작을 디스플레이한다. 이와 관련하여, 흐름도 또는 블록도의 각 블록은 모듈, 프로그램 세그먼트 또는 명령어의 일부를 나타낼 수 있고, 상기 모듈, 프로그램 세그먼트 또는 명령어의 일부는 하나 또는 복수 개의 지정된 논리적 기능을 구현하기 위한 실행 가능한 명령어를 포함한다. 일부 대안적인 구현에서, 블록에 표시된 기능은 도면에 표시된 것과 다른 순서로 발생할 수도 있다. 예를 들어, 두 개의 연속적인 블록은 실제로 병렬로 실행될 수 있으며, 때로는 관련 기능에 따라 역순으로 실행될 수도 있으며, 이는 관련된 기능에 의해 결정된다. 또한 유의해야 할 것은, 블록도 및 흐름도 중 적어도 하나에서의 각 블록, 및 블록도 및 흐름도 중 적어도 하나에서의 블록의 조합은, 지정된 기능 또는 동작의 전용 하드웨어 기반의 시스템에 의해 구현될 수 있거나, 전용 하드웨어와 컴퓨터 명령어의 조합으로 구현될 수 있다.

상기 컴퓨터 프로그램 제품은 구체적으로 하드웨어, 소프트웨어 또는 이들의 조합을 통해 구현될 수 있다. 하나의 선택적인 실시예에서, 상기 컴퓨터 프로그램 제품은 구체적으로 컴퓨터 저장 매체로 구현되며, 다른 하나의 선택적인 예에서, 상기 컴퓨터 프로그램 제품은 구체적으로 소프트웨어 개발 키트(Software Development Kit, SDK) 등과 같은 소프트웨어 제품으로 구현된다.

이상 본 출원의 각 실시예를 설명하였고, 상기 설명은 예시적이고, 비철저하며, 개시된 각 실시예에 한정되지도 않는다. 설명된 각 실시예의 범위 및 사상을 벗어나지 않는 한, 많은 수정 및 변경은 본 기술분야의 기술자에게는 자명한 것이다. 본 명세서에서 사용된 용어의 선택은 각 실시예의 원리, 실제 응용 또는 시장에서의 기술에 대한 개선을 가장 잘 해석하거나, 당업자가 본 명세서에 개시된 각 실시예를 이해할 수 있도록 의도된다.

본 출원의 실시예는 네트워크 훈련, 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체를 제공하며, 상기 네트워크 훈련 방법은, 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하는 단계 - 상기 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 상기 훈련 샘플은 상기 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함함 - ; 상기 특징 추출 결과에 따라 상기 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하는 단계; 및 상기 이미지 분할 결과 및 상기 분할 태깅 정보에 따라, 상기 분할 네트워크를 훈련하는 단계를 포함한다. 본 출원의 실시예는 분할 네트워크의 훈련을 구현할 수 있고, 훈련하여 얻은 분할 네트워크를 통해 이미지 분할 처리를 수행할 수 있다.

Claims

뉴럴 네트워크 모델을 훈련하여, 훈련하여 얻은 뉴럴 네트워크 모델에 따라 이미지에 대해 분할을 수행하기 위한 네트워크 훈련 방법으로서,
분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하는 단계 - 상기 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 상기 훈련 샘플은 상기 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함함 - ;
상기 특징 추출 결과에 따라 상기 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하는 단계; 및
상기 이미지 분할 결과 및 상기 분할 태깅 정보에 따라, 상기 분할 네트워크를 훈련하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법.
제1항에 있어서,
상기 분할 네트워크는 인코더 및 디코더를 포함하고, 상기 인코더는 복수 개의 인코딩 계층을 포함하고, 상기 디코더는 복수 개의 디코딩 계층을 포함하며;
상기 분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하는 단계는,
상기 샘플 이미지를 상기 인코더에 입력하여, 각 인코딩 계층에 대응하는 제1 특징 이미지를 결정하는 단계 - 상이한 인코딩 계층에 대응하는 제1 특징 이미지의 스케일은 상이함 - ;
임의의 디코딩 계층에 대해, 상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계 - 상기 디코딩 계층에 입력된 제2 특징 이미지는 상기 디코딩 계층의 이전 디코딩 계층에 대응하는 제3 특징 이미지에 따라 결정되며, 상이한 디코딩 계층에 대응하는 제3 특징 이미지의 스케일은 상이함 - ; 및
복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 상기 특징 추출 결과를 결정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법.
제2항에 있어서,
상기 임의의 디코딩 계층에 대해, 상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계는,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제4 특징 이미지를 결정하는 단계 - 제1 훈련될 특징 이미지는 상기 디코딩 계층에 입력된 제2 특징 이미지임 - ;
상기 디코딩 계층에 입력된 제2 특징 이미지 및 상기 디코딩 계층에 대응하는 제4 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 획득하는 단계; 및
채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법.
제2항에 있어서,
상기 임의의 디코딩 계층에 대해, 상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계는,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지 및 상기 디코딩 계층에 입력된 제2 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 결정하는 단계;
채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 제1 훈련될 특징 이미지를 결정하는 단계; 및
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법.
제3항에 있어서,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련하는 단계는,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계 - 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 가중치를 지시하기 위한 것임 - ; 및
상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포에 따라 제1 훈련될 특징 이미지에서의 각 픽셀 포인트를 교정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법.
제5항에 있어서,
임의의 디코딩 계층에 대해, 상기 디코딩 계층은 복수 개의 공간 어텐션 훈련 계층을 포함하고;
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계는,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지를 상기 복수 개의 공간 어텐션 훈련 계층에 각각 입력하여, 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치를 결정하는 단계; 및
제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 상기 복수 개의 가중치에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법.
제3항 내지 제6항 중 어느 한 항에 있어서,
상기 채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행하는 단계는,
상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계 - 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포는 제2 훈련될 특징 이미지에서의 각 채널의 가중치를 지시하기 위한 것임 - ; 및
상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포에 따라 제2 훈련될 특징 이미지에서의 각 채널을 교정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법.
제7항에 있어서,
상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계는,
제2 훈련될 특징 이미지에 대해 평균 풀링 동작을 수행하여, 평균 풀링 결과를 획득하는 단계;
제2 훈련될 특징 이미지에 대해 최대 풀링 동작을 수행하여, 최대 풀링 결과를 획득하는 단계; 및
상기 평균 풀링 결과 및 상기 최대 풀링 결과에 따라, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법.
제2항 내지 제8항 중 어느 한 항에 있어서,
복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 상기 특징 추출 결과를 결정하는 단계는,
상이한 스케일에서의 제3 특징 이미지를 스플라이싱하여, 제3 훈련될 특징 이미지를 획득하는 단계 - 제3 훈련될 특징 이미지의 스케일과 상기 샘플 이미지의 스케일은 동일함 - ; 및
스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 특징 추출 결과를 결정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법.
제9항에 있어서,
상기 스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행하는 단계는,
스케일 어텐션 가중치 분포를 결정하는 단계 - 상기 스케일 어텐션 가중치 분포는 상이한 스케일의 가중치를 지시하기 위한 것임 - ; 및
상기 스케일 어텐션 가중치 분포에 따라 제3 훈련될 특징 이미지를 교정하는 단계를 포함하는 것을 특징으로 하는 네트워크 훈련 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,
상기 샘플 이미지는 의료 영상이고, 상기 분할 태깅 정보는 수동으로 태깅된 금표준인 것을 특징으로 하는 네트워크 훈련 방법.
이미지 처리 방법으로서,
분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하는 단계를 포함하며;
상기 분할 네트워크는 제1항 내지 제11항 중 어느 한 항에 따른 네트워크 훈련 방법을 채택하여 훈련하여 얻는 것을 특징으로 하는 이미지 처리 방법.
제12항에 있어서,
상기 분할될 이미지는 분할될 의료 영상이고;
상기 분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하는 단계는,
분할 네트워크를 통해 분할될 의료 영상에 대해 이미지 분할 처리를 수행하여, 분할된 병변 영역 또는 목표 기관 영역을 획득하는 단계를 포함하는 것을 특징으로 하는 이미지 처리 방법.
뉴럴 네트워크 모델을 훈련하여, 훈련하여 얻은 뉴럴 네트워크 모델에 따라 이미지에 대해 분할을 수행하기 위한 네트워크 훈련 장치로서,
분할 네트워크를 통해 기설정된 차원에서 어텐션 메커니즘을 사용하여 훈련 샘플에 포함된 샘플 이미지에 대해 특징 추출을 수행하여, 특징 추출 결과를 획득하도록 구성된 특징 추출 모듈 - 상기 기설정된 차원은 공간 차원, 채널 차원 및 스케일 차원을 포함하며, 상기 훈련 샘플은 상기 샘플 이미지에 대응하는 분할 태깅 정보를 더 포함함 - ;
상기 특징 추출 결과에 따라 상기 샘플 이미지에 대해 이미지 분할 처리를 수행하여, 이미지 분할 결과를 획득하도록 구성된 분할 모듈; 및
상기 이미지 분할 결과 및 상기 분할 태깅 정보에 따라, 상기 분할 네트워크를 훈련시키도록 구성된 훈련 모듈을 포함하는 것을 특징으로 하는 네트워크 훈련 장치.
제14항에 있어서,
상기 분할 네트워크는 인코더 및 디코더를 포함하고, 상기 인코더는 복수 개의 인코딩 계층을 포함하고, 상기 디코더는 복수 개의 디코딩 계층을 포함하며;
상기 특징 추출 모듈은,
샘플 이미지를 인코더에 입력하여, 각 인코딩 계층에 대응하는 제1 특징 이미지를 결정하도록 구성된 제1 결정 서브 모듈 - 상이한 인코딩 계층에 대응하는 제1 특징 이미지의 스케일은 상이함 - ;
임의의 디코딩 계층에 대해, 상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원 및 채널 차원에서 어텐션 메커니즘을 사용하여 상기 디코딩 계층에 입력된 제2 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하도록 구성된 제2 결정 서브 모듈 - 상기 디코딩 계층에 입력된 제2 특징 이미지는 상기 디코딩 계층의 이전 디코딩 계층에 대응하는 제3 특징 이미지에 따라 결정되며, 상이한 디코딩 계층에 대응하는 제3 특징 이미지의 스케일은 상이함 - ; 및
복수 개의 디코딩 계층에 의해 결정된 복수 개의 상이한 스케일의 제3 특징 이미지에 따라, 특징 추출 결과를 결정하도록 구성된 제3 결정 서브 모듈을 포함하는 것을 특징으로 하는 네트워크 훈련 장치.
제15항에 있어서,
상기 제2 결정 서브 모듈은,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제4 특징 이미지를 결정하도록 구성된 제1 훈련 유닛 - 제1 훈련될 특징 이미지는 상기 디코딩 계층에 입력된 제2 특징 이미지임 - ;
상기 디코딩 계층에 입력된 제2 특징 이미지 및 상기 디코딩 계층에 대응하는 제4 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 획득하도록 구성된 제1 스플라이싱 유닛; 및
채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하도록 구성된 제2 훈련 유닛을 포함하는 것을 특징으로 하는 네트워크 훈련 장치.
제15항에 있어서,
상기 제2 결정 서브 모듈은,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지 및 상기 디코딩 계층에 입력된 제2 특징 이미지를 스플라이싱하여, 제2 훈련될 특징 이미지를 결정하도록 구성된 제2 스플라이싱 유닛;
채널 차원에서 어텐션 메커니즘을 사용하여 제2 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 제1 훈련될 특징 이미지를 결정하도록 구성된 제2 훈련 유닛; 및
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지를 사용하고, 공간 차원에서 어텐션 메커니즘을 사용하여 제1 훈련될 특징 이미지를 훈련함으로써, 상기 디코딩 계층에 대응하는 제3 특징 이미지를 결정하도록 구성된 제1 훈련 유닛을 포함하는 것을 특징으로 하는 네트워크 훈련 장치.
제16항에 있어서,
상기 제1 훈련 유닛은,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하도록 구성된 제1 결정 서브 유닛 - 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포는 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 가중치를 지시하기 위한 것임 - ; 및
상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포에 따라 제1 훈련될 특징 이미지에서의 각 픽셀 포인트를 교정하도록 구성된 제1 교정 서브 유닛을 포함하는 것을 특징으로 하는 네트워크 훈련 장치.
제18항에 있어서,
임의의 디코딩 계층에 대해, 상기 디코딩 계층은 복수 개의 공간 어텐션 훈련 계층을 포함하고;
상기 제1 결정 서브 유닛은 또한,
상기 디코딩 계층의 스케일에 대응하는 제1 특징 이미지 및 제1 훈련될 특징 이미지를 상기 복수 개의 공간 어텐션 훈련 계층에 각각 입력하여, 제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치를 결정하고;
제1 훈련될 특징 이미지에서의 각 픽셀 포인트의 복수 개의 가중치에 따라, 상기 디코딩 계층에 대응하는 공간 어텐션 가중치 분포를 결정하도록 구성된 것을 특징으로 하는 네트워크 훈련 장치.
제16항 내지 제19항 중 어느 한 항에 있어서,
상기 제2 훈련 유닛은,
상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하도록 구성된 제2 결정 서브 유닛 - 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포는 제2 훈련될 특징 이미지에서의 각 채널의 가중치를 지시하기 위한 것임 - ; 및
상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포에 따라 제2 훈련될 특징 이미지에서의 각 채널을 교정하도록 구성된 제2 교정 서브 유닛을 포함하는 것을 특징으로 하는 네트워크 훈련 장치.
제20항에 있어서,
상기 제2 결정 서브 유닛은 또한,
제2 훈련될 특징 이미지에 대해 평균 풀링 동작을 수행하여, 평균 풀링 결과를 획득하고;
제2 훈련될 특징 이미지에 대해 최대 풀링 동작을 수행하여, 최대 풀링 결과를 획득하며;
상기 평균 풀링 결과 및 상기 최대 풀링 결과에 따라, 상기 디코딩 계층에 대응하는 채널 어텐션 가중치 분포를 결정하도록 구성된 것을 특징으로 하는 네트워크 훈련 장치.
제15항 내지 제21항 중 어느 한 항에 있어서,
상기 제3 결정 서브 모듈은,
상이한 스케일에서의 제3 특징 이미지를 스플라이싱하여, 제3 훈련될 특징 이미지를 획득하도록 구성된 제3 스플라이싱 유닛 - 제3 훈련될 특징 이미지의 스케일은 샘플 이미지의 스케일과 동일함 - ; 및
스케일 차원에서 어텐션 메커니즘을 사용하여 제3 훈련될 특징 이미지에 대해 훈련을 수행함으로써, 특징 추출 결과를 결정하도록 구성된 결정 유닛을 포함하는 것을 특징으로 하는 네트워크 훈련 장치.
제22항에 있어서,
상기 결정 유닛은 또한,
스케일 어텐션 가중치 분포를 결정하고 - 스케일 어텐션 가중치 분포는 상이한 스케일의 가중치를 지시하기 위한 것임 - ;
스케일 어텐션 가중치 분포에 따라 제3 훈련될 특징 이미지를 교정하도록 구성된 것을 특징으로 하는 네트워크 훈련 장치.
제14항 내지 제23항 중 어느 한 항에 있어서,
상기 샘플 이미지는 의료 영상이고, 상기 분할 태깅 정보는 수동으로 태깅된 금표준인 것을 특징으로 하는 네트워크 훈련 장치.
전자 기기로서,
프로세서; 및
프로세서에서 실행 가능한 명령어를 저장하도록 구성된 메모리를 포함하고;
상기 프로세서는 상기 메모리에 저장된 명령어를 호출함으로써, 제1항 내지 제11항 중 어느 한 항에 따른 네트워크 훈련 방법을 실행하도록 구성된 것을 특징으로 하는 전자 기기.
컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능한 저장 매체로서,
상기 컴퓨터 프로그램 명령어가 프로세서에서 실행될 때 제1항 내지 제11항 중 어느 한 항에 따른 네트워크 훈련 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.
이미지 처리 장치로서,
분할 네트워크를 통해 분할될 이미지에 대해 이미지 분할 처리를 수행하여, 분할 결과를 획득하도록 구성된 이미지 처리 모듈을 포함하며;
상기 분할 네트워크는 제1항 내지 제11항 중 어느 한 항에 따른 네트워크 훈련 방법을 사용하여 훈련하여 얻는 것을 특징으로 하는 이미지 처리 장치.
제27항에 있어서,
상기 분할될 이미지는 분할될 의료 영상이고;
상기 이미지 처리 모듈은 분할 네트워크를 통해 분할될 의료 영상에 대해 이미지 분할 처리를 수행하여, 분할된 병변 영역 또는 목표 기관 영역을 획득하도록 구성된 것을 특징으로 하는 이미지 처리 장치.
전자 기기로서,
프로세서; 및
프로세서에서 실행 가능한 명령어를 저장하도록 구성된 메모리를 포함하고;
상기 프로세서는 상기 메모리에 저장된 명령어를 호출함으로써, 제12항 또는 제13항에 따른 이미지 처리 방법을 실행하도록 구성된 것을 특징으로 하는 전자 기기.
컴퓨터 프로그램 명령어가 저장된 컴퓨터 판독 가능한 저장 매체로서,
상기 컴퓨터 프로그램 명령어가 프로세서에 의해 실행될 때 제12항 또는 제13항에 따른 이미지 처리 방법을 실행하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.