KR102582738B1

KR102582738B1 - 이미지 처리 모델의 학습 방법, 및 학습 장치

Info

Publication number: KR102582738B1
Application number: KR1020220059960A
Authority: KR
Inventors: 권민수; 이주호; 정요섭
Original assignee: 주식회사 에너자이
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2023-09-25

Abstract

본 출원의 일 실시예에 따른 이미지 처리 모델의 학습 방법은, 복수의 이미지를 포함하는 이미지 시퀀스를 획득하는 단계; 상기 이미지 시퀀스로부터 제1 값의 타임 스텝(Time step)에 대응되는 제1 스냅샷 이미지 세트(Snapshot Image Set)를 획득하는 단계; 상기 제1 스냅샷 이미지 세트를 이용하여 초기 이미지 처리 모델을 훈련시키고 제1 이미지 처리 모델을 획득하는 단계; 상기 제1 이미지 처리 모델의 성능과 타겟 성능을 비교하고, 상기 제1 값의 타임 스텝을 제2 값의 타임 스텝으로 조정하는 단계; 상기 제1 스냅샷 이미지 세트로부터 상기 제2 값의 타임 스텝에 대응되는 제2 스냅샷 이미지 세트를 획득하고, 상기 제2 스냅샷 이미지 세트를 이용하여 상기 제1 이미지 처리 모델을 훈련시켜 제2 이미지 처리 모델을 획득하는 단계; 및 상기 제2 이미지 처리 모델의 성능과 타겟 성능을 비교하고, 비교 결과에 기초하여 최종 이미지 처리 모델을 획득하는 단계;를 포함한다.

Description

이미지 처리 모델의 학습 방법, 및 학습 장치{METHOD, AND DEVICE FOR TRAINING AN IMAGE PROCESSING MODEL}

본 출원은 이미지 처리 모델의 학습 방법, 및 이미지 처리 모델을 훈련시기 위한 학습 장치에 관한 것이다.

인공지능 기술이 발전하면서 다양한 산업 분야에서 인공지능 기술들이 활용되고 있다. 특히 이미지 시퀀스에 기초하여 이미지 시퀀스를 복수의 카테고리로 분류(Claissification)하는 태스크 또는 이미지 시퀀스에 기초하여 임의의 수치 값을 연산하는 태스크를 위한 연산하기 위한 인공지능 모델들에 대한 연구와 개발이 활발하게 진행되고 있다.

종래에는 이미지 시퀀스에 포함된 모든 타임 스텝(Time Step)에 해당하는 이미지에 기초하여 연산을 수행하는 인공지능 모델을 개발하는 것에 초점을 맞추어 연구를 진행하였다. 다만, 타임 스텝이 커질수록 많은 연산량이 요구됨에 따라 인공지능 모델의 학습에 소요되는 시간과 연산량이 증대된다는 측면에서 제약이 존재하였다. 또한 종래의 이미지 처리 모델은 이미지의 글로벌 문맥은 고려하지 못하고 단순히 이미지의 로컬 문맥만을 반영하여 태스크를 연산할 수 있다는 한계가 존재하였다. 다만 현미경 이미지(Microscopic Image)와 MRI 이미지는 이미지의 국소적 특징과 광역적 특징을 반영하여 태스크를 연산해야 할 필요성이 존재한다.

이에, 이미지 시퀀스의 로컬 문맥과 글로벌 문맥을 반영하여 태스크를 연산하기 위한 새로운 이미지 처리 모델의 학습 방법, 및 이미지 처리 모델을 훈련시키기 위한 학습 장치의 개발이 요구된다.

본 발명이 해결하고자 하는 일 과제는, 이미지의 로컬 문맥 정보와 글로벌 문맥 정보를 반영하여 태스크를 연산하기 위한 이미지 처리 모델의 학습 방법, 및 이미지 처리 모델을 훈련시키기 위한 학습 장치를 제공하는 것이다.

본 발명이 해결하고자 하는 과제가 상술한 과제로 제한되는 것은 아니며, 언급되지 아니한 과제들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 출원의 일 실시예에 따른 이미지 처리 모델의 학습 방법은, 복수의 이미지를 포함하는 이미지 시퀀스를 획득하는 단계; 상기 이미지 시퀀스로부터 제1 값의 타임 스텝(Time step)에 대응되는 제1 스냅샷 이미지 세트(Snapshot Image Set)를 획득하는 단계; 상기 제1 스냅샷 이미지 세트를 이용하여 초기 이미지 처리 모델을 훈련시키고 제1 이미지 처리 모델을 획득하는 단계; 상기 제1 이미지 처리 모델의 성능과 타겟 성능을 비교하고, 상기 제1 값의 타임 스텝을 제2 값의 타임 스텝으로 조정하는 단계; 상기 제1 스냅샷 이미지 세트로부터 상기 제2 값의 타임 스텝에 대응되는 제2 스냅샷 이미지 세트를 획득하고, 상기 제2 스냅샷 이미지 세트를 이용하여 상기 제1 이미지 처리 모델을 훈련시켜 제2 이미지 처리 모델을 획득하는 단계; 및 상기 제2 이미지 처리 모델의 성능과 타겟 성능을 비교하고, 비교 결과에 기초하여 최종 이미지 처리 모델을 획득하는 단계;를 포함할 수 있다.

본 출원의 일 실시예에 따른 학습 장치는, 복수의 이미지를 포함하는 이미지 시퀀스를 획득하는 송수신부; 및 상기 이미지 시퀀스에 기초하여 이미지 처리 모델을 훈련시키도록 구성된 프로세서;를 포함하되, 상기 프로세서는, 상기 이미지 시퀀스로부터 제1 값의 타임 스텝(Time step)에 대응되는 제1 스냅샷 이미지 세트(Snapshot Image Set)를 획득하고, 상기 제1 스냅샷 이미지 세트를 이용하여 초기 이미지 처리 모델을 훈련시키고 제1 이미지 처리 모델을 획득하고, 상기 제1 이미지 처리 모델의 성능과 타겟 성능을 비교하고, 상기 제1 값의 타임 스텝을 제2 값의 타임 스텝으로 조정하고, 상기 제1 스냅샷 이미지 세트로부터 상기 제2 값의 타임 스텝에 대응되는 제2 스냅샷 이미지 세트를 획득하고, 상기 제2 스냅샷 이미지 세트를 이용하여 상기 제1 이미지 처리 모델을 훈련시켜 제2 이미지 처리 모델을 획득하고, 상기 제2 이미지 처리 모델의 성능과 타겟 성능을 비교하고, 비교 결과에 기초하여 최종 이미지 처리 모델을 획득하도록 구성될 수 있다.

본 발명의 과제의 해결 수단이 상술한 해결 수단들로 제한되는 것은 아니며, 언급되지 아니한 해결 수단들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 출원의 일 실시예에 따른 이미지 처리 모델의 학습 방법, 및 학습 장치에 의하면, 이미지에 포함된 글로벌 문맥 정보와 로컬 문맥 정보를 반영하여 출력 값을 연산하도록 이미지 처리 모델이 훈련되었기 때문에, 글로벌 문맥 정보와 로컬 문맥 정보가 반영된 향상된 출력 값을 출력하는 이미지 처리 모델이 제공될 수 있다.

본 출원의 일 실시예에 따른 이미지 처리 모델의 학습 방법, 및 학습 장치에 의하면, 타임 스텝을 조정하면서 이미지 시퀀스에 포함된 복수의 이미지 중에서 일부의 스냅샷 이미지만을 이용하여 타겟 성능을 달성하도록 이미지 처리 모델을 훈련시킴으로써, 이미지 처리 모델의 훈련에 필요한 연산량과 학습 시간이 상당하게 감소되는 효과가 제공될 수 있다.

본 출원의 일 실시예에 따른 이미지 처리 모델의 학습 방법, 및 학습 장치에 의하면, 이미지 처리 모델의 실행하는 데 있어, 전체 타임 스텝에 대응되는 이미지 시퀀스가 아닌 일부 타임 스텝에 대응되는 이미지 시퀀스만으로도 태스크를 분석할 수 있다는 측면에서, 전체 타임 스텝에 대응되는 이미지 시퀀스를 획득하는 데 요구되는 시간이 상당하게 감소되는 효과를 제공할 수 있다.

본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.

도 1은 본 출원의 일 실시예에 따른 이미지 처리 모델의 학습 장치의 개략도이다.
도 2는 본 출원의 일 실시예에 따른 학습 장치의 동작을 나타낸 도면이다.
도 3은 본 출원의 일 실시예에 따른 이미지 처리 모델의 학습 방법을 나타낸 순서도이다.
도 4는 본 출원의 일 실시예에 따른 스냅샷 이미지 세트를 획득하는 일 양상을 도시한 도면이다.
도 5는 본 출원의 일 실시예에 따른 이미지 처리 모델을 훈련시키는 단계를 구체화한 순서도이다.
도 6은 본 출원의 일 실시예에 따른 이미지 처리 모델을 훈련시키는 일 양상을 도시한 도면이다.
도 7은 본 출원의 일 실시예에 따른 이미지 처리 모델의 구조를 도시한 개략도이다.
도 8은 본 출원의 일 실시예에 따른 이미지 처리 모델의 로컬-글로벌 추출 블록의 예시적인 구조를 도시한 도면이다.
도 9는 본 출원의 일 실시예에 따른 이미지 처리 모델의 예시적인 구조를 도시한 도면이다.
도 10은 본 출원의 일 실시예에 따른 타임 스텝을 조정하고 스냅샷 이미지 세트를 획득하는 일 양상을 도시한 도면이다.
도 11은 본 출원의 일 실시예에 따른 최종 이미지 처리 모델을 획득하는 단계를 구체화한 순서도이다.
도 12는 본 출원의 일 실시예에 따른 최종 이미지 처리 모델을 통하여 출력 값을 획득하는 일 양상을 도시한 도면이다.

본 출원의 상술한 목적, 특징들 및 장점은 첨부된 도면과 관련된 다음의 상세한 설명을 통해 보다 분명해질 것이다. 다만, 본 출원은 다양한 변경을 가할 수 있고 여러 가지 실시예들을 가질 수 있는 바, 이하에서는 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다.

명세서 전체에 걸쳐서 동일한 참조번호들은 원칙적으로 동일한 구성요소들을 나타낸다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명하며, 이에 대한 중복되는 설명은 생략하기로 한다.

본 출원과 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 출원의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 이하의 실시예에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.

이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.

도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타낸 것으로, 본 발명이 반드시 도시된 바에 한정되지 않는다.

어떤 실시예가 달리 구현 가능한 경우에 특정한 프로세스의 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 프로세스가 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 진행될 수 있다.

이하의 실시예에서, 구성 요소 등이 연결되었다고 할 때, 구성 요소들이 직접적으로 연결된 경우뿐만 아니라 구성요소들 중간에 구성 요소들이 개재되어 간접적으로 연결된 경우도 포함한다.

예컨대, 본 명세서에서 구성 요소 등이 전기적으로 연결되었다고 할 때, 구성 요소 등이 직접 전기적으로 연결된 경우뿐만 아니라, 그 중간에 구성 요소 등이 개재되어 간접적으로 전기적 연결된 경우도 포함한다.

본 출원의 일 실시예에 따르면, 최종 이미지 처리 모델을 획득하는 단계는, 상기 제2 이미지 처리 모델의 성능이 상기 타겟 성능보다 큰 경우에는 상기 타임 스텝을 제3 값으로 조정하고 조정된 타임 스텝에 기초하여 상기 제2 이미지 처리 모델을 추가적으로 훈련시키되, 상기 제2 이미지 처리 모델의 성능이 상기 타겟 성능보다 작거나 같은 경우에는 상기 제2 값의 타임 스텝을 조정하지 않고, 상기 제2 이미지 처리 모델에 기초하여 상기 최종 이미지 처리 모델을 획득하는 단계;를 더 포함할 수 있다.

본 출원의 일 실시예에 따르면, 상기 초기 이미지 처리 모델, 상기 제1 이미지 처리 모델, 또는 상기 제2 이미지 처리 모델은, 상기 제1 스냅샷 이미지 세트 또는 상기 제2 스냅샷 이미지 세트와 관련된 학습 데이터를 수신하는 인풋 노드 블록, 학습 데이터에 포함된 스냅샷 이미지로부터 로컬 피처 벡터 및 글로벌 피처 벡터를 포함하는 스냅샷 피처 벡터들을 추출하도록 구성된 로컬-글로벌 추출 블록, 상기 로컬-글로벌 추출 블록을 통하여 추출된 스냅샷 피처 벡터들을 병합하도록 구성된 어그리게이션 블록, 및 상기 어그리게이션 블록을 통하여 병합된 스냅샷 피처 벡터들에 기초하여 예측 값을 출력하도록 구성된 아웃풋 노드 블록을 포함할 수 있다.

본 출원의 일 실시예에 따르면, 상기 초기 이미지 처리 모델, 상기 제1 이미지 처리 모델, 또는 상기 제2 이미지 처리 모델은, 유넷 구조(Unet Architecture)로 구성되되, 상기 유넷 구조의 수축 경로를 통하여 학습 데이터로부터 글로벌 피처 벡터를 획득하고, 상기 유넷 구조의 수축 경로 상의 히스토리를 상기 유넷의 확장 경로 상의 글로벌 피처 벡터에 콘카테네이션함으로써, 광역적 문맥 정보와 국소적 문맥 정보가 반영된 스냅샷 피처 벡터를 생성하도록 구성될 수 있다.

본 출원의 일 실시예에 따르면, 상기 초기 이미지 처리 모델, 상기 제1 이미지 처리 모델, 또는 상기 제2 이미지 처리 모델은, 상기 로컬-글로벌 추출 블록의 콘볼루션 연산을 통하여 상기 로컬 피처 벡터를 추출하고, 고속 푸리에 변환 (Fast Fourier Transform, FFT)을 통하여 상기 글로벌 피처 벡터를 추출하고, 상기 로컬 피처 벡터와 상기 글로벌 피처 벡터를 병합하여 상기 스냅샷 피처 벡터를 생성하도록 구성될 수 있다.

본 출원의 일 실시예에 따르면, 초기 이미지 처리 모델을 훈련시키고 제1 이미지 처리 모델을 획득하는 단계는, 상기 제1 스냅샷 이미지 세트 및 상기 제1 스냅샷 이미지 세트에 대한 레이블 정보로 구성된 학습 데이터를 획득하는 단계; 상기 학습 데이터를 상기 초기 이미지 처리 모델에 입력하고 상기 초기 이미지 처리 모델을 통하여 출력되는 예측 값을 획득하는 단계; 및 상기 예측 값과 상기 레이블 정보에 기초하여 상기 초기 이미지 처리 모델에 포함된 적어도 하나의 노드의 가중치를 갱신하고 상기 제1 이미지 처리 모델을 획득하는 단계;를 더 포함할 수 있다.

본 출원의 일 실시예에 따르면, 상기 제1 이미지 처리 모델을 훈련시켜 제2 이미지 처리 모델을 획득하는 단계는, 상기 제2 스냅샷 이미지 세트 및 상기 제2 스냅샷 이미지 세트에 대한 레이블 정보로 구성된 학습 데이터를 획득하는 단계; 상기 학습 데이터를 상기 제1 이미지 처리 모델에 입력하고 상기 제1 이미지 처리 모델을 통하여 출력되는 예측 값을 획득하는 단계; 및 상기 예측 값과 상기 레이블 정보에 기초하여 상기 제1 이미지 처리 모델에 포함된 적어도 하나의 노드의 가중치를 갱신하고 상기 제2 이미지 처리 모델을 획득하는 단계;를 더 포함할 수 있다.

본 출원의 일 실시예에 따르면, 상기 이미지 처리 모델의 학습 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다.

이하에서는 도 1 내지 도 12를 참고하여 본 출원의 이미지 처리 모델의 학습 방법, 및 학습 장치에 관하여 설명한다.

도 1은 본 출원의 일 실시예에 따른 이미지 처리 모델의 학습 장치(1000)의 개략도이다.

본 출원의 일 실시예에 따른 학습 장치(1000)는 학습 데이터를 이용하여 이미지 처리 모델을 훈련시킬 수 있다. 보다 구체적으로 학습 장치(1000)는 이미지 시퀀스에 포함된 적어도 하나의 이미지의 로컬 문맥(Local context)과 글로벌 문맥(Global context)을 고려하여 임의의 태스크와 관련된 출력 값을 연산하기 위한 이미지 처리 모델을 훈련시킬 수 있다. 여기서 임의의 태스크란, 이미지 시퀀스에 대한 분류 태스크(classification Task)와 이미지 시퀀스에 대한 리그레션 태스크(Regression Task)를 포함하여 이미지 시퀀스와 관련된 임의의 태스크를 포괄하는 의미일 수 있다. 일 예로, 학습 장치(1000)는 시간에 따른 현미경 이미지(예컨대, SEM 이미지, TEM 이미지)를 분석하여 시간에 따라 이미지에 변화가 있는지 여부를 분류하거나 판단하기 위한 이미지 처리 모델을 훈련시킬 수 있다. 다른 예로, 학습 장치(1000)는 MRI 이미지에 기초하여 MRI 이미지를 임의의 질병군으로 분류하기 위한 이미지 처리 모델을 훈련시킬 수 있다. 다만 이는 예시에 불과하며, 학습 장치(1000)는 전술한 바와 같이 이미지 시퀀스에 대한 분류 태스크(classification Task)와 이미지 시퀀스에 대한 리그레션 태스크(Regression Task)를 포함하여 이미지 시퀀스와 관련된 임의의 태스크와 관련된 출력 값을 연산하기 위한 이미지 처리 모델을 훈련시킬 수 있다.

본 출원의 일 실시예에 따른 학습 장치(1000)는 송수신부(1100), 메모리(1200), 및 프로세서(1300)를 포함할 수 있다.

학습 장치(1000)의 송수신부(1100)는 임의의 외부 기기와 통신을 수행할 수 있다. 예컨대, 학습 장치(1000)는, 송수신부(1100)를 통해, 임의의 외부 장치로부터 이미지 시퀀스에 포함된 복수의 이미지를 수신할 수 있다. 또한, 학습 장치(1000)는, 송수신부(1100)를 통하여 학습이 완료된 이미지 처리 모델을 실행시키기 위한 실행 데이터를 송신할 수 있다. 여기서 실행 데이터는 학습이 완료된 이미지 처리 모델의 계층 정보, 연산 정보, 및 가중치 정보 등을 포함하여 학습이 완료된 이미지 처리 모델을 적절하게 실행시키기 위한 임의의 데이터를 포괄하는 의미일 수 있다.

학습 장치(1000)는, 송수신부(1100)를 통해, 네트워크에 접속하여 각종 데이터를 송수신할 수 있다. 송수신부는 크게 유선 타입과 무선 타입을 포함할 수 있다. 유선 타입과 무선 타입은 각각의 장단점을 가지므로, 경우에 따라서 학습 장치(1000)에는 유선 타입과 무선 타입이 동시에 마련될 수도 있다. 여기서, 무선 타입의 경우에는 주로 와이파이(Wi-Fi) 같은 WLAN(Wireless Local Area Network) 계열의 통신 방식을 이용할 수 있다. 또는, 무선 타입의 경우에는 셀룰러 통신, 예컨대, LTE, 5G 계열의 통신 방식을 이용할 수 있다. 다만, 무선 통신 프로토콜이 상술한 예시에 제한되는 것은 아니며, 임의의 적절한 무선 타입의 통신 방식을 이용하는 것도 가능하다. 유선 타입의 경우에는 LAN(Local Area Network)이나 USB(Universal Serial Bus) 통신이 대표적인 예이며 그 외의 다른 방식도 가능하다.

학습 장치(1000)의 메모리(1200)는 각종 정보를 저장할 수 있다. 메모리(1200)에는 각종 데이터가 임시적으로 또는 반영구적으로 저장될 수 있다. 메모리의 예로는 하드 디스크(HDD: Hard Disk Drive), SSD(Solid State Drive), 플래쉬 메모리(flash memory), 롬(ROM: Read-Only Memory), 램(RAM: Random Access Memory) 등이 있을 수 있다. 메모리(1200)는 학습 장치(1000)에 내장되는 형태나 탈부착 가능한 형태로 제공될 수 있다. 메모리(1200)에는 학습 장치(1000)를 구동하기 위한 운용 프로그램(OS: Operating System)이나 학습 장치(1000)의 각 구성을 동작시키기 위한 프로그램을 비롯해 학습 장치(1000)의 동작에 필요한 각종 데이터가 저장될 수 있다.

프로세서(1300)는 학습 장치(1000)의 전반적인 동작을 제어할 수 있다. 예컨대, 프로세서(1300)는 후술할 이미지 시퀀스를 획득하는 동작, 이미지 시퀀스로부터 스냅샷 이미지 세트를 획득하는 동작, 이미지 처리 모델을 훈련하거나 검증하는 동작, 및/또는 최종 이미지 처리 모델을 획득하는 동작 등을 포함하여 학습 장치(1000)의 전반적인 동작을 제어할 수 있다. 구체적으로 프로세서(1300)는 메모리(1200)로부터 학습 장치(1000)의 전반적인 동작을 위한 프로그램을 로딩하여 실행할 수 있다. 프로세서(1300)는 하드웨어나 소프트웨어 또는 이들의 조합에 따라 AP(Application Processor), CPU(Central Processing Unit), MCU(Microcontroller Unit)나 이와 유사한 장치로 구현될 수 있다. 이때, 하드웨어적으로는 전기적 신호를 처리하여 제어 기능을 수행하는 전자 회로 형태로 제공될 수 있으며, 소프트웨어적으로는 하드웨어적 회로를 구동시키는 프로그램이나 코드 형태로 제공될 수 있다.

이하에서는 도 2 내지 도 12를 참고하여, 본 출원의 일 실시예에 따른 학습 장치(1000)의 동작 및 이미지 처리 모델의 학습 방법을 구체적으로 서술한다.

도 2는 본 출원의 일 실시예에 따른 학습 장치(1000)의 동작을 나타낸 도면이다.

본 출원의 일 실시예에 따른 학습 장치(1000)는 송수신부(1100)를 통하여 이미지 시퀀스를 획득할 수 있다. 이미지 시퀀스는 복수의 이미지를 포함할 수 있다. 예컨대, 이미지 시퀀스는 시간에 따른 복수의 이미지를 포함할 수 있다.

본 출원의 일 실시예에 따르면, 이미지 시퀀스에 포함된 모든 이미지를 이용하여 이미지 처리 모델을 훈련시킬 수 있다. 다만, 모든 이미지를 이용하여 이미지 처리 모델을 훈련시키는 것은 이미지 처리 모델의 연산량이 상대적으로 크고 이미지 처리 모델의 학습 시간이 상대적으로 길어진다는 제약이 존재한다. 따라서, 본 출원의 일 실시예에 따르면, 학습 장치(1000)는 이미지 시퀀스에 포함된 복수의 이미지 중에서 스냅샷 이미지 세트를 선택하거나 획득하고, 스냅샷 이미지 세트에 기초하여 이미지 처리 모델을 훈련시키도록 구현될 수 있다.

본 출원의 일 실시예에 따른 학습 장치(1000)는 이미지 시퀀스로부터 스냅샷 이미지 세트를 획득할 수 있다. 보다 구체적으로 학습 장치(1000)는 미리 정해진 타임 스텝 정보(Time Step Information)를 획득하고, 미리 정해진 타임 스텝 정보에 기초하여 미리 정해진 타임 스텝 정보에 대응되는 이미지 시퀀스의 이미지들을 스냅샷 이미지 세트로 획득하도록 구현될 수 있다. 이미지 시퀀스로부터 스냅샷 이미지 세트를 획득하는 동작에 대하여 도 4와 관련하여 보다 자세히 서술하도록 한다.

본 출원의 일 실시예에 따른 학습 장치(1000)는 스냅샷 이미지 세트를 이용하여 이미지 처리 모델을 훈련시키는 동작을 수행할 수 있다. 구체적으로 학습 장치(1000)는 스냅샷 이미지 세트 및 스냅샷 이미지 세트에 할당된 레이블 정보로 구성된 학습 데이터에 기초하여 이미지 처리 모델을 훈련시킬 수 있다.

본 출원의 일 실시예에 따르면, 이미지 처리 모델은 인풋 노드 블록(Input Node Block), 로컬-글로벌 추출 블록(Local-Global Extraction Block), 어그리게이션 블록(Aggregation Block), 및 아웃풋 노드 블록(Output node blok)으로 구성될 수 있다. 구체적으로 이미지 처리 모델은 인풋 노드 블록을 통하여 스냅샷 이미지 세트를 획득하고, 로컬-글로벌 추출 블록을 통하여 스냅샷 이미지 세트로부터 로컬 피처 벡터와 글로벌 피처 벡터를 포함하는 스냅샷 피처 벡터를 획득할 수 있다. 또한, 이미지 처리 모델은 어그리게이션 블록을 통하여 스냅샷 피처 벡터들을 퓨전(fusion)할 수 있다. 또한, 이미지 처리 모델은 아웃풋 노드 블록을 통하여 퓨전된 스냅샷 피처 벡터에 기초하여 예측 값을 출력할 수 있다. 이때, 학습 장치(1000)는 예측 값과 학습 데이터에 포함된 레이블 정보에 기초하여 이미지 처리 모델에 포함된 적어도 하나의 노드의 가중치(또는 파라미터)를 갱신하여 이미지 처리 모델을 학습시킬 수 있다.

본 출원의 일 실시예에 따르면, 학습 장치(1000)는 타임 스텝의 수를 조정해가면서 이미지 처리 모델을 훈련시킬 수 있다. 구체적으로 학습 장치(1000)는 제1 값의 타임 스텝에 대응되는 제1 스냅샷 이미지 세트를 이용하여 초기 이미지 처리 모델을 훈련시키고 제1 이미지 처리 모델을 획득할 수 있다. 또한, 학습 장치(1000)는 제1 이미지 처리 모델의 성능과 타겟 성능을 비교하고 제1 값의 타임 스텝을 제2 값(예컨대, 제1 값보다 작은 제2 값)의 타임 스텝으로 조정할 수 있다. 이때, 학습 장치(1000)는 이미지 시퀀스로부터 제2 값의 타임 스텝에 대응되는 제2 스냅샷 이미지 세트를 획득하고, 제2 스냅샷 이미지 세트를 이용하여 제1 이미지 처리 모델을 훈련시켜 제2 이미지 처리 모델을 획득할 수 있다. 나아가, 학습 장치(1000)는 제2 이미지 처리 모델의 성능이 타겟 성능보다 큰 시점까지 전술한 타임 스텝을 조정하고, 조정된 타임 스텝에 대응되는 스냅샷 이미지 세트를 이용하여 이미지 처리 모델을 훈련시키도록 구현될 수 있다.

한편, 본 출원의 일 실시예에 따른 학습 장치(1000)는 검증 데이터 세트(Validation Data Set)를 이용하여 학습이 완료된 이미지 처리 모델의 성능을 검증하는 동작을 수행할 수 있다. 이미지 처리 모델을 훈련시키고 검증하는 동작에 대하여는 도 5 내지 도 11과 관련하여 보다 자세히 서술하기로 한다.

본 출원의 일 실시예에 따른 학습 장치(1000)는 전술한 바에 따라 훈련이 완료된 최종 이미지 처리 모델 및/또는 최종 이미지 처리 모델을 실행시키기 위한 실행 데이터를 획득할 수 있다. 또한, 학습 장치(1000)는 훈련이 완료된 최종 이미지 처리 모델 및/또는 최종 이미지 처리 모델을 실행시키기 위한 실행 데이터를 임의의 외부 장치(혹은 외부 서버)로 송신하도록 구현될 수 있다. 한편, 훈련이 완료된 최종 이미지 처리 모델은 이미지 시퀀스에 기초하여 임의의 태스크(예컨대, 분류 태스크(Classification Task) 및/또는 리그레이션 태스크(Regression Task))와 관련된 출력 값을 연산할 수 있다. 이때, 최종 이미지 처리 모델은 이미지 시퀀스에 포함된 이미지들의 로컬 문맥과 글로벌 문맥이 반영된 태스크에 대한 출력 값을 연산할 수 있다.

이하에서는 도 3 내지 도 12를 참고하여, 본 출원의 일 실시예에 따른 학습 장치(1000)에 의해 수행되는 이미지 처리 모델의 학습 방법을 구체적으로 서술한다. 이미지 처리 모델의 학습 방법을 설명함에 있어서, 앞서 도 2와 관련하여 설명한 내용과 중복되는 일부 실시예는 생략될 수 있다. 다만, 이는 설명의 편의를 위한 것일 뿐이며, 이에 제한적으로 해석되어서는 아니된다.

도 3은 본 출원의 일 실시예에 따른 이미지 처리 모델의 학습 방법을 나타낸 순서도이다.

본 출원의 일 실시예에 따른 이미지 처리 모델의 학습 방법은, 복수의 이미지를 포함하는 이미지 시퀀스를 획득하는 단계(S1000), 이미지 시퀀스로부터 제1 값의 타임 스텝에 대응되는 제1 스냅샷 이미지 세트를 획득하는 단계(S2000), 제1 스냅샷 이미지 세트를 이용하여 초기 이미지 처리 모델을 훈련시키고 제1 이미지 처리 모델을 획득하는 단계(S3000), 제1 이미지 처리 모델의 성능과 타겟 성능을 비교하고 제1 값의 타임 스텝을 제2 값의 타임 스텝으로 조정하는 단계(S4000), 제2 값의 타임 스텝에 대응되는 제2 스냅샷 이미지 세트를 획득하고, 제2 스냅샷 이미지 세트를 이용하여 제1 이미지 처리 모델을 훈련시켜 제2 이미지 처리 모델을 획득하는 단계(S5000), 및 제2 이미지 처리 모델의 성능과 타겟 성능을 비교하고, 비교 결과에 기초하여 최종 이미지 처리 모델을 획득하는 단계(S6000)를 포함할 수 있다.

복수의 이미지를 포함하는 이미지 시퀀스를 획득하는 단계(S1000)에서는, 학습 장치(1000)는 복수의 이미지(예컨대, 현미경 이미지 및/또는 MRI 이미지 등)를 포함하는 이미지 시퀀스를 획득할 수 있다. 여기서, 복수의 이미지는 시간에 따른 이미지일 수 있다. 예컨대, 이미지 시퀀스는 제1 시점의 제1 이미지와 제1 시점과 인접한 제2 시점의 제2 이미지를 포함한 복수의 이미지를 포함할 수 있다.

이미지 시퀀스로부터 제1 값의 타임 스텝에 대응되는 제1 스냅샷 이미지 세트를 획득하는 단계(S2000)에서는, 학습 장치(1000)는 이미지 시퀀스로부터 이미지 시퀀스의 적어도 일부의 이미지를 포함하는 제1 스냅샷 이미지 세트를 획득할 수 있다.

도 4는 본 출원의 일 실시예에 따른 스냅샷 이미지 세트를 획득하는 일 양상을 도시한 도면이다.

구체적으로 학습 장치(1000)는 제1 값으로 미리 정해진 타임 스텝 정보를 획득하고, 이미지 시퀀스로부터 제1 값의 타임 스텝에 대응되는 이미지 시퀀스의 이미지들을 제1 스냅샷 이미지 세트로 획득할 수 있다. 본 출원의 일 실시예에 따른 학습 장치(1000)는 이미지 시퀀스에 포함된 일부 이미지들로 구성된 제1 스냅샷 이미지 세트를 이용하여 이미지 처리 모델을 훈련시킴으로써, 이미지 처리 모델의 연산량을 줄이고, 이미지 처리 모델의 학습 시간을 줄이는 유리한 효과를 제공할 수 있다.

제1 스냅샷 이미지 세트를 이용하여 초기 이미지 처리 모델을 훈련시키고 제1 이미지 처리 모델을 획득하는 단계(S3000)에서는, 학습 장치(1000)는 제1 스냅샷 이미지 세트를 포함하는 학습 데이터를 이용하여 초기 상태의 이미지 처리 모델(이하, 초기 이미지 처리 모델)을 훈련시키고, 제1 상태의 이미지 처리 모델(이하, 제1 이미지 처리 모델)을 획득할 수 있다. 구체적으로 학습 장치(1000)는 제1 스냅샷 이미지 세트 및 제1 스냅샷 이미지 세트에 대하여 할당된 레이블 정보로 구성된 학습 데이터를 이용하여 초기 이미지 처리 모델을 훈련시킬 수 있다.

이하에서는 도 5 내지 도 11을 참고하여 본 출원의 일 실시예에 따른 초기 상태의 이미지 처리 모델을 훈련시키고 훈련이 완료된 최종 이미지 처리 모델을 획득하는 내용에 대하여 보다 구체적으로 서술하기로 한다.

도 5는 본 출원의 일 실시예에 따른 이미지 처리 모델을 훈련시키는 단계(S3000)를 구체화한 순서도이다. 도 6은 본 출원의 일 실시예에 따른 이미지 처리 모델을 훈련시키는 일 양상을 도시한 도면이다. 한편 도 5 및 도 6과 관련하여 서술한 이미지 처리 모델의 학습과 관련된 내용들은 후술할 S5000 단계 및 S6000 단계에 대하여도 유추적용될 수 있다.

본 출원의 일 실시예에 따른 제1 스냅샷 이미지 세트를 이용하여 초기 이미지 처리 모델을 훈련시키고 제1 이미지 처리 모델을 획득하는 단계(S3000)는, 제1 스냅샷 이미지 세트 및 제1 스냅샷 이미지 세트에 대한 레이블 정보로 구성된 학습 데이터를 획득하는 단계(S3100), 학습 데이터를 초기 이미지 처리 모델에 입력하고 초기 이미지 처리 모델을 통하여 출력되는 예측 값을 획득하는 단계(S3200), 및 예측 값과 레이블 정보에 기초하여 초기 이미지 처리 모델에 포함된 적어도 하나의 노드의 가중치를 갱신하는 단계(S3300)를 더 포함할 수 있다.

제1 스냅샷 이미지 세트 및 제1 스냅샷 이미지 세트에 대한 레이블 정보로 구성된 학습 데이터를 획득하는 단계(S3100)에서는, 학습 장치(1000)는 제1 스냅샷 이미지 세트 및 제1 스냅샷 이미지 세트에 대하여 정의된 레이블 정보로 구성된 학습 데이터를 획득할 수 있다. 여기서, 레이블 정보는 이미지 처리 모델의 태스크와 관련된 출력 값에 대응되는 값을 포함할 수 있다. 예컨대, 이미지 처리 모델의 태스크가 약제가 투입된 이후 현미경 이미지의 변화 여부를 판단하는 태스크인 경우에는, 레이블 정보는 현미경 이미지 시퀀스에 포함된 이미지에 변화가 있음을 나타내는 제1 레이블 및 현미경 이미지 시퀀스에 포함된 이미지에 변화가 없음을 나타내는 제2 레이블을 포함할 수 있다. 예컨대, 임의의 수치값을 연산하는 리그레이션 태스크(Regression Task)인 경우에는, 레이블 정보는 이미지 시퀀스와 관련된 실제값(ground truth)에 대응되는 제3 레이블을 포함할 수 있다. 다만 이는 예시에 불과하며, 레이블 정보는 이미지 처리 모델의 임의의 태스크와 관련하여, 학습 데이터에 포함된 이미지에 연계된 임의의 적절한 값을 포함하도록 구성될 수 있다.

학습 데이터를 초기 이미지 처리 모델에 입력하고 초기 이미지 처리 모델을 통하여 출력되는 예측 값을 획득하는 단계(S3200)에서는, 학습 장치(1000)는 학습 데이터를 초기 이미지 처리 모델의 입력 레이어(혹은 인풋 노드 블록)에 입력하고, 초기 이미지 처리 모델의 출력 레이어(혹은 아웃풋 노드 블록)를 통하여 출력되는 예측 값을 획득할 수 있다.

예측 값과 레이블 정보에 기초하여 초기 이미지 처리 모델에 포함된 적어도 하나의 노드의 가중치를 갱신하는 단계(S3300)에서는, 학습 장치(1000)는 초기 이미지 처리 모델을 통하여 출력된 예측 값과 학습 데이터에 포함된 레이블 정보에 기초하여 초기 이미지 처리 모델에 포함된 적어도 하나의 노드(혹은 적어도 하나의 블록)의 가중치(혹은 파라미터)를 갱신하거나 조절할 수 있다. 구체적으로 학습 장치(1000)는 예측 값과 레이블 정보를 비교하고, 예측 값과 레이블 정보 간의 비교 결과에 따라 로스 함수 값을 연산할 수 있다. 이때, 학습 장치(1000)는 연산된 로스 함수 값에 기초하여 초기 이미지 처리 모델에 포함된 적어도 하나의 노드의 가중치를 갱신함으로써 초기 이미지 처리 모델을 훈련시키고, 제1 상태의 이미지 처리 모델(즉, 제1 이미지 처리 모델)을 획득할 수 있다.

일 예로, 이미지 처리 모델의 태스크가 분류 태스크(Classification Task)인 경우에는, 학습 장치(1000)는 크로스 엔트로피(Cross entropy) 로스 함수를 이용하여 이미지 처리 모델을 훈련시킬 수 있다. 구체적으로 타겟 클래스에 해당하는 학습 데이터의 이미지에 대하여는 제1 레이블(예컨대, '1' 값)이 할당되고, 타겟 클래스 이외에 대응되는 학습 데이터의 이미지에 대하여 제2 레이블(예컨대, '0' 값)이 할당될 수 있다. 학습 장치(1000)는 이미지 처리 모델을 통하여 출력되는 예측 값(예컨대, 0 내지1 범위 내의 값)과 레이블 정보(제1 레이블 또는 제2 레이블) 간의 차이에 기초하여 크로스 엔트로피 로스 함수 값을 연산하고, 크로스 엔트로피 로스 함수 값에 기초하여 이미지 처리 모델에 포함된 적어도 하나의 노드의 가중치를 갱신하도록 구성될 수 있다.

다른 예로, 이미지 처리 모델의 태스크가 리그레이션 태스크(Regression Task)인 경우에는, 학습 장치(1000)는 평균 제곱 오차(mean square error)와 관련된 로스 함수 또는 L1 로스 함수를 이용하여 이미지 처리 모델을 훈련시킬 수 있다. 구체적으로 학습 장치(1000)는 이미지 처리 모델을 통하여 출력되는 예측 값과 실제 값(Ground Truth)의 차이에 기초하여 전술한 로스 함수 값을 연산하고, 연산된 로스 함수 값에 기초하여 이미지 처리 모델에 포함된 적어도 하나의 노드의 가중치를 갱신하도록 구성될 수 있다.

다만 이는 예시에 불과하며, 학습 장치(1000)는 이미지 처리 모델의 태스크에 따라 임의의 적절한 로스 함수를 이용하여 이미지 처리 모델을 훈련시키도록 구성될 수 있을 것이다.

현미경 이미지와 같은 마이크로스코픽 이미지(microscopic image)를 분석함에 있어, 이미지의 국소적 특징(local feature)과 광역적 특징(global feature)을 고려하여 분석하는 것은 분석의 정확도를 위하여 중요하다. 다만 종래의 콘볼루션 신경망(convolution neural network)들은 광역적 특징은 고려하지 않고 이미지를 분석하여 광역적 특징이 고려되지 않고 태스크와 관련된 연산을 수행한다는 문제가 존재하였다. 본 출원의 일 실시예에 따르면, 학습 장치(1000)는 국소적 특징 및 광역적 특징을 추출하는 구조를 가지는 이미지 처리 모델을 통하여 국소적 특징 및 광역적 특징이 반영된 태스크와 관련된 출력 값을 획득할 수 있다. 이하에서는 도 7 내지 도 9를 참고하여 국소적 특징과 광역적 특징을 반영하여 출력 값을 연산하기 위한 이미지 처리 모델의 구조에 대하여 보다 구체적으로 설명하기로 한다.

도 7은 본 출원의 일 실시예에 따른 이미지 처리 모델의 구조를 도시한 개략도이다.

본 출원의 일 실시예에 따른 이미지 처리 모델은 인풋 노드 블록(Input Node Block), 로컬-글로벌 피처 추출 블록(Local-Global feature extraction block), 제1 어그리게이션 블록(Aggregation Block), 및 아웃풋 노드 블록(Output Node Block)으로 구성될 수 있다.

인풋 노드 블록은, 스냅샷 이미지 세트를 포함하는 학습 데이터를 수신하도록 구성될 수 있다.

로컬-글로벌 피처 추출 블록은, 학습 데이터에 포함된 스냅샷 이미지로부터 로컬 피처 벡터 및 글로벌 피처 벡터를 추출하도록 구성될 수 있다. 구체적으로 로컬-글로벌 피처 추출 블록은 학습 데이터에 포함된 이미지로부터 로컬 피처 벡터와 글로벌 피처 벡터를 추출하는 적어도 하나 이상의 추출 블록(B)으로 구성될 수 있다. 예컨대, 이미지 처리 모델은, 추출 블록(B)을 통하여 제1 시점의 제1 이미지로부터 학습 데이터에 포함된 스냅샷 이미지 세트의 국소적 문맥과 관련된 로컬 피처 벡터 및 스냅샷 이미지 세트의 광역적 문맥과 관련된 글로벌 피처 벡터를 포함하는 제1 스냅샷 피처 벡터를 획득할 수 있다. 예컨대, 이미지 처리 모델은, 추출 블록(B)을 통하여 제2 시점의 제2 이미지로부터 학습 데이터에 포함된 스냅샷 이미지 세트의 국소적 문맥과 관련된 로컬 피처 벡터 및 스냅샷 이미지 세트의 광역적 문맥과 관련된 글로벌 피처 벡터로 구성된 제2 스냅샷 피처 벡터를 획득할 수 있다.

제1 어그리게이션 블록은, 로컬-글로벌 피처 추출 블록을 통하여 추출된 스냅샷 피처 벡터들을 병합하도록 구성될 수 있다. 예컨대, 제1 어그리게이션 블록은 제1 스냅샷 피처 벡터와 제2 스냅샷 피처 벡터를 병합(fusion)할 수 있다. 한편 제1 어그리게이션 블록을 통하여 병합된 벡터는 학습 데이터의 스냅샷 이미지 세트의 글로벌 문맥 정보와 국소적 문맥 정보가 포함되거나 반영되게 된다.

아웃풋 노드 블록은, 제1 어그리게이션 블록을 통하여 병합된 벡터로부터 예측 값을 연산하거나 출력할 수 있다. 예컨대, 아웃풋 노드 블록은 스냅샷 이미지 세트와 관련된 태스크에 대한 예측 값을 연산하거나 출력할 수 있다. 한편, 전술한 바와 같이 이미지 처리 모델은 아웃풋 노드 블록을 통하여 출력되는 예측 값과 학습 데이터에 포함된 레이블 정보에 기초하여 이미지 처리 모델에 포함된 적어도 하나의 노드의 가중치가 갱신됨으로써 훈련될 수 있다.

로컬-글로벌 피처 추출 블록의 세부적인 구조와 형태에 대하여는 도 8 및 도 9와 관련하여 보다 구체적으로 설명하기로 한다.

도 8은 본 출원의 일 실시예에 따른 이미지 처리 모델의 로컬-글로벌 추출 블록의 예시적인 구조를 도시한 도면이다. 구체적으로 도 8은 본 출원의 일 실시예에 따른 이미지 처리 모델의 로컬-글로벌 피처 추출 블록에 포함된 추출 블록(B)의 예시적인 형태를 도시한 도면이다.

전술한 바와 같이, 본 출원의 일 실시예에 따른 이미지 처리 모델은 학습 데이터에 포함된 이미지로부터 글로벌 문맥 정보와 로컬 문맥 정보를 추출하고 병합하도록 구성될 수 있다.

일 예에 따른 이미지 처리 모델은 채널-와이즈 콘카테네이션(channel-wise concatenation)을 통하여 로컬 피처 벡터와 글로벌 피처 벡터를 병합하도록 구성될 수 있다.

일 예로, 이미지 처리 모델은 고속 푸리에 컨볼루션(Fast Fourier Convolution, FFC) 유닛을 이용하여 글로벌 문맥 정보와 로컬 문맥 정보를 추출할 수 있다. 구체적으로 이미지 처리 모델은 FFC 유닛의 콘볼루션 레이어(예컨대, 3*3 콘볼루션 레이어)를 통하여 로컬 피처 벡터를 추출하고, FFC 유닛의 고속 푸리에 변환(Fast Fourier Transform, FFT)을 통하여 글로벌 피처 벡터를 추출할 수 있다. 예컨대, 이미지 처리 모델의 추출 블록(B)은 제1 콘볼루션 레이어(C1)를 통하여 제1 로컬 피처 벡터를 추출하고, 제2 콘볼루션 레이어(C2)를 통하여 제2 로컬 피처 벡터를 추출할 수 있다. 또한 이미지 처리 모델의 추출 블록(B)은 제3 콘볼루션 레이어(C3)를 통하여 제3 로컬 피처 벡터를 추출하고, FFT를 통하여 제1 글로벌 피처 벡터를 추출할 수 있다.

한편 추출 블록(B)은 제2 어그리게이션 블록을 포함할 수 있다. 이때, 이미지 처리 모델은 추출 블록(B)의 제2 어그리게이션 블록을 통하여 로컬 피처 벡터와 글로벌 피처 벡터를 병합할 수 있다. 예컨대, 이미지 처리 모델은 추출 블록(B)의 제2 어그리게이션 블록을 통하여 제1 로컬 피처 벡터와 제3 로컬 피처 벡터를 병합할 수 있다. 예컨대, 이미지 처리 모델은 추출 블록(B)의 제2 어그리게이션 블록을 통하여 제2 로컬 피처 벡터와 제1 글로벌 피처 벡터를 병합할 수 있다. 나아가 이미지 처리 모델은 병합된 각각의 피처 벡터에 BN-ReLu 연산을 수행하여 최종적으로 글로벌 문맥 정보와 로컬 문맥 정보가 반영된 스냅샷 피처 벡터를 연산하거나 생성하도록 구성될 수 있다. 한편, 생성된 스냅샷 피처 벡터는 학습 데이터에 포함된 스냅샷 이미지의 글로벌 문맥 정보와 국소적 문맥 정보가 포함되거나 반영되게 된다.

본 출원의 일 실시예에 따르면, 학습 장치(1000)는 풀링-언풀링(Pooling-Unpooling) 연산 구조(예컨대, Spatial Pyramid Pooling, Unet 구조)를 이용하여 학습 데이터로부터 스냅샷 피처 벡터를 획득할 수 있다.

도 9는 본 출원의 일 실시예에 따른 이미지 처리 모델의 예시적인 구조를 도시한 도면이다. 구체적으로 도 9는 본 출원의 일 실시예에 따른 유넷(U-net) 구조를 가지는 이미지 처리 모델의 예시적인 형태를 도시한 도면이다.

유넷(U-net)은 수축 경로(Contraction path) 및 확장 경로(Expansion Path)를 포함하는 아키텍처(Architecture)로 구성될 수 있다. 구체적으로 유넷의 수축 경로는 적어도 1회 이상의 컨볼루전(convolution) 연산과 맥스 풀링(max pooling) 연산이 연속적으로 수행되도록 구성될 수 있다. 이때, 유넷의 수축 경로를 통하여 학습 데이터에 포함된 이미지와 관련된 글로벌 문맥 정보들이 추출될 수 있다.

한편, 유넷의 수축 경로에서는 피처 벡터의 크기가 줄어들기 때문에 유넷은 확장 경로를 포함함으로써 피처 벡터의 크기를 복구하도록 구성될 수 있다. 구체적으로 유넷의 확장 경로는 적어도 1회 이상의 업-컨볼루전(Up-convolution) 연산과 컨볼루전(convolution) 연산이 연속적으로 수행되도록 구성될 수 있다.

나아가, 유넷은 수축 경로 상의 특정 레벨의 히스토리를, 대응되는 레벨의 확장 경로 상의 언풀링(Unpooling) 연산의 수행 대상인 글로벌 피처 벡터에 콘카테네이션(concatenation)하도록 구성될 수 있다. 수축 경로 상의 히스토리들은 학습 데이터에 포함된 이미지의 국소적 문맥 정보를 포함하고 있으며, 이러한 국소적 문맥 정보를 포함하는 히스토리들을 글로벌 문맥 정보를 포함하는 피처 벡터에 병합함으로써, 국소적 문맥 정보와 글로벌 문맥 정보가 모두 반영된 스냅샷 피처 벡터가 생성될 수 있다.

본 출원의 일 실시예에 따르면, 도 8과 관련하여 전술한 추출 블록(B)이 유넷 구조의 각각의 레이어를 구성하도록 이미지 처리 모델의 구조가 구성될 수 있다. 예컨대, 추출 블록(B)은 유넷의 수축 경로 상에 위치하는 적어도 하나의 레이어를 구성할 수 있다. 예컨대, 추출 블록(B)은 유넷의 확장 경로 상에 위치하는 적어도 하나의 레이어를 구성할 수 있다.

한편, 도 8 및 도 9에서의 이미지 처리 모델의 구조와 형태는 설명의 편의를 위한 예시에 불과하며, 도 8 및 도 9에서의 이미지 처리 모델의 구조와 형태는 임의의 적절한 구조와 형태로 변형될 수 있다. 따라서, 도 8 및 도 9에 도시된 이미지 처리 모델의 구조와 형태로 제한적으로 해석되어서는 아니된다.

전술한 바와 같이, 학습 장치(1000)는 학습 데이터에 포함된 이미지 시퀀스의 타임 스텝의 수를 조정해가면서 이미지 처리 모델을 훈련시킬 수 있다.

제1 이미지 처리 모델의 성능과 타겟 성능을 비교하고 제1 값의 타임 스텝을 제2 값의 타임 스텝으로 조정하는 단계(S4000)에서는, 학습 장치(1000)는 제1 이미지 처리 모델의 성능과 타겟 성능을 비교할 수 있다. 일 예로, 학습 장치(1000)는 검증 데이터 세트(Validation Data Set)을 이용하여 학습된 이미지 처리 모델의 성능을 연산하고, 연산된 성능이 미리 정해진 타겟 성능보다 큰 지 여부를 판단할 수 있다. 예컨대, 이미지 처리 모델의 태스크가 분류 태스크인 경우에는 학습 장치(1000)는 분류 정확도(classification accuracy)를 연산하고, 연산된 분류 정확도와 목표하는 분류 정확도를 비교하여 이미지 처리 모델의 성능을 검증하거나 평가할 수 있다. 여기서 분류 정확도는 검증 데이터 세트의 전체 데이터 대비 정확한 클래스(즉, 레이블 정보에 대응되는 클래스)로 예측된 데이터의 비율과 관련된 값을 의미한다. 예컨대, 이미지 처리 모델의 태스크가 리그레이션 태스크인 경우에는, 학습 장치(1000)는 RMSE(root-MSE)를 연산하고, 연산된 RMSE 값과 목표하는 RMSE 값을 비교하여 이미지 처리 모델의 성능을 검증하거나 평가할 수 있다. 다만 전술한 내용은 예시에 불과하며, 임의의 적절한 지표를 활용하여 이미지 처리 모델의 성능을 검증하고 평가하도록 구현될 수 있을 것이다.

제1 이미지 처리 모델의 성능과 타겟 성능을 비교하고 제1 값의 타임 스텝을 제2 값의 타임 스텝으로 조정하는 단계(S4000)에서는, 제1 이미지 처리 모델의 성능과 타겟 성능을 비교한 결과에 기초하여 제1 값의 타임 스텝을 제2 값의 타임 스텝으로 조정할 수 있다. 예컨대, 제1 이미지 처리 모델의 성능이 타겟 성능보다 크거나 같은 경우에, 학습 장치(1000)는 제1 값의 타임 스텝을 제1 값보다는 상대적으로 작은 제2 값의 타임 스텝으로 조정하도록 구현될 수 있다.

제2 값의 타임 스텝에 대응되는 제2 스냅샷 이미지 세트를 획득하고, 제2 스냅샷 이미지 세트를 이용하여 제1 이미지 처리 모델을 훈련시켜 제2 이미지 처리 모델을 획득하는 단계(S5000)에서는, 학습 장치(1000)는 조정된 제2 값의 타임 스텝에 대응되는 제2 스냅샷 이미지 세트를 학습 데이터로부터 획득할 수 있다.

도 10은 본 출원의 일 실시예에 따른 타임 스텝을 조정하고 스냅샷 이미지 세트를 획득하는 일 양상을 도시한 도면이다. 초기 상태의 이미지 처리 모델을 훈련시키는 데 이용된 제1 스냅샷 이미지 세트는 제1 값의 미리 정해진 타임 스텝 정보에 기초하여 이미지 시퀀스로부터 획득되었다. 이때, 제1 상태의 이미지 처리 모델(즉 제1 이미지 처리 모델)을 훈련시키기 위하여 이용되는 학습 데이터는 제2 값으로 조정된 타임 스텝에 기초하여 이미지 시퀀스로부터 획득된 제2 스냅샷 이미지 세트를 포함할 수 있다.

나아가, 제2 값의 타임 스텝에 대응되는 제2 스냅샷 이미지 세트를 획득하고, 제2 스냅샷 이미지 세트를 이용하여 제1 이미지 처리 모델을 훈련시켜 제2 이미지 처리 모델을 획득하는 단계(S5000)에서는, 학습 장치(1000)는 제2 스냅샷 이미지 세트를 포함하는 학습 데이터를 이용하여 제1 이미지 처리 모델을 훈련시키고 제2 상태의 이미지 처리 모델(이하, 제2 이미지 처리 모델)을 획득할 수 있다. 제1 이미지 처리 모델을 훈련시키는 내용에 대하여는 도 5 내지 도 9와 관련하여 설명한 내용들이 유추적용될 수 있다.

학습 장치(1000)는 제2 스냅샷 이미지 세트 및 제2 스냅샷 이미지 세트에 할당된 레이블 정보를 포함하는 학습 데이터에 기초하여 제1 이미지 처리 모델을 훈련시킬 수 있다. 구체적으로, 학습 장치(1000)는 제2 스냅샷 이미지 세트 및 제2 스냅샷 이미지 세트에 할당된 레이블 정보를 포함하는 학습 데이터를 획득하고, 학습 데이터를 제1 이미지 처리 모델에 입력하고, 제1 이미지 처리 모델을 통하여 출력되는 예측 값을 획득할 수 있다. 나아가 학습 장치(1000)는 예측 값과 학습 데이터에 포함된 레이블 정보에 기초하여 제1 이미지 처리 모델에 포함된 적어도 하나의 노드의 가중치를 갱신하여 제1 이미지 처리 모델을 훈련시키고 제2 이미지 처리 모델을 획득할 수 있다.

제2 이미지 처리 모델의 성능과 타겟 성능을 비교하고, 비교 결과에 기초하여 최종 이미지 처리 모델을 획득하는 단계(S6000)에서는, 학습 장치(1000)는 제2 이미지 처리 모델의 성능과 타겟 성능을 비교하고, 비교 결과에 기초하여 최종 이미지 처리 모델을 획득하도록 구성될 수 있다. 일 예로, 학습 장치(1000)는 제2 이미지 처리 모델의 성능과 타겟 성능을 비교하고, 제2 이미지 처리 모델의 성능이 타겟 성능을 만족하는 지 여부를 판단할 수 있다. 이때, 학습 장치(1000)는 제2 이미지 처리 모델이 미리 정해진 조건(예컨대, 타겟 성능)을 만족하는 경우에는, 제2 이미지 처리 모델에 기초하여 최종 이미지 처리 모델을 획득하도록 구현될 수 있다. 반면, 학습 장치(1000)는 제2 이미지 처리 모델이 미리 정해진 조건(예컨대, 타겟 성능)을 만족하지 않는 경우에는, 타임 스텝을 조정하고 조정된 타임 스텝에 대응되는 스냅샷 이미지 세트를 이용하여 제2 이미지 처리 모델을 추가적으로 훈련시키도록 구현될 수 있다. 예컨대, 학습 장치(1000)는 모델의 성능이 미리 정해진 조건(예컨대, 타겟 성능)을 만족할 때까지 전술한 S4000 단계의 타임 스텝을 조정하는 동작과 전술한 S5000 단계의 조정된 타임 스텝에 대응되는 스냅샷 이미지 세트를 이용하여 이미지 처리 모델(즉 제2 이미지 처리 모델)을 훈련시키는 동작을 반복적으로 수행하도록 구현될 수 있다.

이하에서는 도 11을 참고하여 최종 이미지 처리 모델을 획득하는 일 양상에 대하여 보다 구체적으로 서술하기로 한다. 도 11은 본 출원의 일 실시예에 따른 최종 이미지 처리 모델을 획득하는 단계(S6000)를 구체화한 순서도이다.

본 출원의 일 실시예에 따른 최종 이미지 처리 모델을 획득하는 단계(S6000)는, 제2 이미지 처리 모델의 성능이 타겟 성능보다 큰 지를 판단하는 단계(S6100), 타임 스텝을 제3 값으로 조정하고, 조정된 타임 스텝에 기초하여 제2 이미지 처리 모델을 추가적으로 훈련시키는 단계(S6200) 및/또는 제2 이미지 처리 모델에 기초하여 최종 이미지 처리 모델을 획득하는 단계(S6300)를 더 포함할 수 있다.

제2 이미지 처리 모델의 성능이 타겟 성능보다 큰 지를 판단하는 단계(S6100)에서는, 학습 장치(1000)는 검증 데이터 세트(Validation Data Set)를 이용하여 제2 이미지 처리 모델의 성능을 연산하고, 연산된 제2 이미지 처리 모델의 성능을 타겟 성능과 비교할 수 있다. 나아가, 학습 장치(1000)는 제2 이미지 처리 모델의 성능이 타겟 성능보다 큰 지 여부를 판단하도록 구현될 수 있다.

타임 스텝을 제3 값으로 조정하고, 조정된 타임 스텝에 기초하여 제2 이미지 처리 모델을 추가적으로 훈련시키는 단계(S6200)에서는, 학습 장치(1000)는 전술한 S4000 단계의 타임 스텝을 조정하는 동작과 유사하게 제2 값의 타임 스텝을 제3 값으로 조정할 수 있다. 예컨대, 제3 값은 제2 값보다 상대적으로 작은 값일 수 있다. 나아가 학습 장치(1000)는 학습 데이터로부터 조정된 타임 스텝에 대응되는 스냅샷 데이터 세트를 획득하고, 전술한 S3000 단계(또는 S4000 단계)의 이미지 처리 모델을 훈련시키는 동작과 유사한 동작을 통하여, 제2 이미지 처리 모델을 추가적으로 훈련시킬 수 있다. 이때, 학습 장치(1000)는, 훈련이 완료된 이미지 처리 모델의 성능이 타겟 성능보다 작아지는 시점까지, S6100 단계와 S6200 단계를 반복적으로 수행하도록 구현될 수 있다.

한편, 제2 이미지 처리 모델의 성능이 타겟 성능보다 크지 않은 경우에는, 학습 장치(1000)는 제2 이미지 처리 모델에 기초하여 최종 이미지 처리 모델을 획득하도록 구현될 수 있다. (S6300)

구체적으로 제2 이미지 처리 모델의 성능이 타겟 성능보다 크지 않은 경우에는, 학습 장치(1000)는 타임 스텝을 조정하는 동작을 중지하고, 제2 이미지 처리 모델에 기초하여 최종 이미지 처리 모델을 획득하도록 구현될 수 있다. 예컨대, 학습 장치(1000)는 타겟 성능보다 크면서 타겟 성능과 가장 가까운 성능을 나타내는 이미지 처리 모델을 최종 이미지 처리 모델로 결정하도록 구현될 수 있다. 다만, 이는 예시에 불과하며 이미지 처리 모델의 성능과 연산량을 고려하여 임의의 적절한 방법을 통하여 최종 이미지 처리 모델이 획득될 수 있을 것이다.

도 12는 본 출원의 일 실시예에 따른 최종 이미지 처리 모델을 통하여 출력 값을 획득하는 일 양상을 도시한 도면이다.

본 출원의 일 실시예에 따라, 학습이 완료된 최종 이미지 처리 모델은 이미지 시퀀스에 기초하여 특정 태스크(예컨대, 분류 태스크 또는 리그레이션 태스크)에 대한 출력 값을 출력하도록 구성될 수 있다. 예컨대, 최종 이미지 처리 모델은 약제가 투입된 이후 현미경 이미지의 변화가 있는 지 여부를 나타내는 출력 값(예컨대, 현미경 이미지 시퀀스에 포함된 이미지에 변화가 있음을 나타내는 값 혹은 현미경 이미지 시퀀스에 포함된 이미지에 변화가 없음을 나타내는 값)을 연산할 수 있다. 예컨대, 최종 이미지 처리 모델은 리그레이션 태스크와 관련된 스칼라 형태의 수치 값을 연산할 수 있다.

본 출원의 일 실시예에 따른 이미지 처리 모델의 학습 방법, 및 학습 장치에 의하면, 이미지 처리 모델의 실행(Inference)하는 데 있어, 전체 타임 스텝에 대응되는 이미지 시퀀스가 아닌 일부 타임 스텝에 대응되는 이미지 시퀀스만으로도 태스크를 분석할 수 있다는 측면에서, 전체 타임 스텝에 대응되는 이미지 시퀀스를 획득하는 데 요구되는 시간이 상당하게 감소되는 효과를 제공할 수 있다.

한편 상술한 이미지 처리 모델의 학습 장치(1000)의 다양한 동작들은 학습 장치(1000)의 메모리(1200)에 저장될 수 있으며, 학습 장치(1000)의 프로세서(1300)는 메모리(1200)에 저장된 동작들을 수행하도록 제공될 수 있다.

이상에서 실시 형태들에 설명된 특징, 구조, 효과 등은 본 발명의 적어도 하나의 실시 형태에 포함되며, 반드시 하나의 실시 형태에만 한정되는 것은 아니다. 나아가, 각 실시 형태에서 예시된 특징, 구조, 효과 등은 실시 형태들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시 형태들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

또한, 이상에서 실시 형태를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시 형태의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 즉, 실시 형태에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

1000: 이미지 처리 모델의 학습 장치.

Claims

이미지 처리 모델을 학습시키는 학습 장치가 이미지의 로컬 문맥 정보와 글로벌 문맥 정보를 반영하여 출력 값을 연산하기 위한 이미지 처리 모델을 학습시키는 방법에 있어서,
복수의 이미지를 포함하는 이미지 시퀀스를 획득하는 단계;
상기 이미지 시퀀스로부터 제1 값의 타임 스텝(Time step)에 대응되는 제1 스냅샷 이미지 세트(Snapshot Image Set)를 획득하는 단계;
상기 제1 스냅샷 이미지 세트를 이용하여 초기 이미지 처리 모델을 훈련시키고 제1 이미지 처리 모델을 획득하는 단계;
상기 제1 이미지 처리 모델의 성능과 타겟 성능을 비교하고, 상기 제1 이미지 처리 모델의 성능이 상기 타겟 성능보다 높은 경우 연산량을 감소시키기 위하여 상기 제1 값의 타임 스텝을 상기 제1 값보다 상대적으로 작은 제2 값의 타임 스텝으로 조정하는 단계;
상기 제1 스냅샷 이미지 세트로부터 상기 제2 값의 타임 스텝에 대응되는 제2 스냅샷 이미지 세트를 획득하고, 상기 제2 스냅샷 이미지 세트를 이용하여 상기 제1 이미지 처리 모델을 훈련시켜 제2 이미지 처리 모델을 획득하는 단계; 및
상기 제2 이미지 처리 모델의 성능과 타겟 성능을 비교하고, 비교 결과에 기초하여 최종 이미지 처리 모델을 획득하는 단계;를 포함하고,
상기 초기 이미지 처리 모델, 상기 제1 이미지 처리 모델, 또는 상기 제2 이미지 처리 모델은,
학습 데이터에 포함된 스냅샷 이미지로부터 로컬 피처 벡터 및 글로벌 피처 벡터를 포함하는 스냅샷 피처 벡터들을 추출하도록 구성된 로컬-글로벌 추출 블록을 포함하고,
상기 로컬-글로벌 추출 블록은,
각각의 콘볼루션 레이어를 통하여 제1 로컬 피처 벡터, 제2 로컬 피처 벡터 및 제3 로컬 피처 벡터를 추출하고, 고속 푸리에 변환(Fast Fourier Transform, FFT)을 통하여 상기 글로벌 피처 벡터를 추출하고,
어그리게이션 블록을 통하여 상기 제1 로컬 피처 벡터와 상기 제3 로컬 피처 벡터를 병합하고 상기 제2 로컬 피처 벡터와 상기 글로벌 피처 벡터를 병합하여 상기 스냅샷 피처 벡터들을 생성하도록 구성되는,
이미지 처리 모델의 학습 방법.
제1 항에 있어서,
최종 이미지 처리 모델을 획득하는 단계는,
상기 제2 이미지 처리 모델의 성능이 상기 타겟 성능보다 큰 경우에는 상기 타임 스텝을 상기 제2 값보다 상대적으로 작은 제3 값으로 조정하고 조정된 타임 스텝에 기초하여 상기 제2 이미지 처리 모델을 추가적으로 훈련시키되,
상기 제2 이미지 처리 모델의 성능이 상기 타겟 성능보다 작거나 같은 경우에는 상기 제2 값의 타임 스텝을 조정하지 않고, 상기 제2 이미지 처리 모델에 기초하여 상기 최종 이미지 처리 모델을 획득하는 단계;를 더 포함하는,
이미지 처리 모델의 학습 방법.
제1 항에 있어서,
상기 초기 이미지 처리 모델, 상기 제1 이미지 처리 모델, 또는 상기 제2 이미지 처리 모델은,
상기 제1 스냅샷 이미지 세트 또는 상기 제2 스냅샷 이미지 세트와 관련된 학습 데이터를 수신하는 인풋 노드 블록, 상기 로컬-글로벌 추출 블록을 통하여 추출된 스냅샷 피처 벡터들을 병합하도록 구성된 어그리게이션 블록, 및 상기 어그리게이션 블록을 통하여 병합된 스냅샷 피처 벡터들에 기초하여 예측 값을 출력하도록 구성된 아웃풋 노드 블록을 더 포함하는,
이미지 처리 모델의 학습 방법.
제1 항에 있어서,
상기 초기 이미지 처리 모델, 상기 제1 이미지 처리 모델, 또는 상기 제2 이미지 처리 모델은,
유넷 구조(Unet Architecture)로 구성되되,
상기 유넷 구조의 수축 경로를 통하여 학습 데이터로부터 글로벌 피처 벡터를 획득하고,
상기 유넷 구조의 수축 경로 상의 히스토리를 상기 유넷의 확장 경로 상의 글로벌 피처 벡터에 콘카테네이션(Concatenation)함으로써, 광역적 문맥 정보와 국소적 문맥 정보가 반영된 스냅샷 피처 벡터를 생성하도록 구성된,
이미지 처리 모델의 학습 방법.
제1 항에 있어서,
상기 로컬-글로벌 추출 블록은,
상기 병합된 피처 벡터 각각에 BN-ReLu 연산을 수행하여 상기 스냅샷 피처 벡터들을 생성하도록 구성되는,
이미지 처리 모델의 학습 방법.
제1 항에 있어서,
초기 이미지 처리 모델을 훈련시키고 제1 이미지 처리 모델을 획득하는 단계는,
상기 제1 스냅샷 이미지 세트 및 상기 제1 스냅샷 이미지 세트에 대한 레이블 정보로 구성된 학습 데이터를 획득하는 단계;
상기 학습 데이터를 상기 초기 이미지 처리 모델에 입력하고 상기 초기 이미지 처리 모델을 통하여 출력되는 예측 값을 획득하는 단계; 및
상기 예측 값과 상기 레이블 정보에 기초하여 상기 초기 이미지 처리 모델에 포함된 적어도 하나의 노드의 가중치를 갱신하고 상기 제1 이미지 처리 모델을 획득하는 단계;를 더 포함하는,
이미지 처리 모델의 학습 방법.
제1 항에 있어서,
상기 제1 이미지 처리 모델을 훈련시켜 제2 이미지 처리 모델을 획득하는 단계는,
상기 제2 스냅샷 이미지 세트 및 상기 제2 스냅샷 이미지 세트에 대한 레이블 정보로 구성된 학습 데이터를 획득하는 단계;
상기 학습 데이터를 상기 제1 이미지 처리 모델에 입력하고 상기 제1 이미지 처리 모델을 통하여 출력되는 예측 값을 획득하는 단계; 및
상기 예측 값과 상기 레이블 정보에 기초하여 상기 제1 이미지 처리 모델에 포함된 적어도 하나의 노드의 가중치를 갱신하고 상기 제2 이미지 처리 모델을 획득하는 단계;를 더 포함하는,
이미지 처리 모델의 학습 방법.
컴퓨터에 제1 항 내지 제7 항 중 어느 하나의 항에 따른 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
이미지 처리 모델을 학습시키는 학습 장치에 있어서,
복수의 이미지를 포함하는 이미지 시퀀스를 획득하는 송수신부; 및
상기 이미지 시퀀스에 기초하여 이미지 처리 모델을 훈련시키도록 구성된 프로세서;를 포함하되,
상기 프로세서는,
상기 이미지 시퀀스로부터 제1 값의 타임 스텝(Time step)에 대응되는 제1 스냅샷 이미지 세트(Snapshot Image Set)를 획득하고, 상기 제1 스냅샷 이미지 세트를 이용하여 초기 이미지 처리 모델을 훈련시키고 제1 이미지 처리 모델을 획득하고, 상기 제1 이미지 처리 모델의 성능과 타겟 성능을 비교하고, 상기 제1 이미지 처리 모델의 성능이 상기 타겟 성능보다 높은 경우 연산량을 감소시키기 위하여 상기 제1 값의 타임 스텝을 상기 제1 값보다 상대적으로 작은 제2 값의 타임 스텝으로 조정하고, 상기 제1 스냅샷 이미지 세트로부터 상기 제2 값의 타임 스텝에 대응되는 제2 스냅샷 이미지 세트를 획득하고, 상기 제2 스냅샷 이미지 세트를 이용하여 상기 제1 이미지 처리 모델을 훈련시켜 제2 이미지 처리 모델을 획득하고, 상기 제2 이미지 처리 모델의 성능과 타겟 성능을 비교하고, 비교 결과에 기초하여 최종 이미지 처리 모델을 획득하도록 구성되고,
상기 초기 이미지 처리 모델, 상기 제1 이미지 처리 모델, 또는 상기 제2 이미지 처리 모델은,
학습 데이터에 포함된 스냅샷 이미지로부터 로컬 피처 벡터 및 글로벌 피처 벡터를 포함하는 스냅샷 피처 벡터들을 추출하도록 구성된 로컬-글로벌 추출 블록을 포함하고,
상기 로컬-글로벌 추출 블록은,
각각의 콘볼루션 레이어를 통하여 제1 로컬 피처 벡터, 제2 로컬 피처 벡터 및 제3 로컬 피처 벡터를 추출하고, 고속 푸리에 변환(Fast Fourier Transform, FFT)을 통하여 상기 글로벌 피처 벡터를 추출하고,
어그리게이션 블록을 통하여 상기 제1 로컬 피처 벡터와 상기 제3 로컬 피처 벡터를 병합하고 상기 제2 로컬 피처 벡터와 상기 글로벌 피처 벡터를 병합하여 상기 스냅샷 피처 벡터들을 생성하도록 구성되는,
학습 장치.