KR102166835B1

KR102166835B1 - 신경망 학습 방법 및 그 장치

Info

Publication number: KR102166835B1
Application number: KR1020190134348A
Authority: KR
Inventors: 이현재; 김효은; 이원석
Original assignee: 주식회사 루닛
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-10-16
Also published as: US11823056B2; US20210125074A1

Abstract

신경망 학습 방법 및 그 장치가 제공된다. 상기 신경망 학습 방법은 복수의 2차원 트레이닝 이미지 데이터를 포함하는 3차원 트레이닝 영상 데이터의 신경망 학습 방법에 있어서, 상기 복수의 2차원 트레이닝 이미지 데이터로 제1 컨볼루션 신경망(CNN; Convolution Neural Network)을 트레이닝하되, 상기 제1 컨볼루션 신경망은 2차원 컨볼루션 레이어를 포함하고, 상기 3차원 트레이닝 영상 데이터로 제2 컨볼루션 신경망을 트레이닝하되, 상기 제2 컨볼루션 신경망은 상기 2차원 컨볼루션 레이어 및 상기 2차원 컨볼루션 레이어의 출력을 입력으로 받는 3차원 컨볼루션 레이어를 포함하는 것을 포함한다.

Description

신경망 학습 방법 및 그 장치{Method for Training Neural Network and Device Thereof}

본 발명은 신경망 학습 방법 및 그 장치에 관한 것이다. 구체적으로는, 3차원 영상을 학습시킬 수 있는 방법 및 그 방법이 적용되는 장치에 관한 것이다.

신경망(neural network)은 인간의 뉴런 구조를 모사하여 만든 기계학습 모델이다. 신경망은 하나 이상의 레이어로 구성되고, 각 레이어의 출력 데이터는 다음 레이어의 입력으로 이용된다. 최근에는, 다수의 레이어로 구성된 심층 신경망을 활용하는 것에 대한 연구가 집중적으로 진행되고 있으며, 심층 신경망은 음성 인식, 자연어 처리, 병변 진단 등 다양한 분야에서 인식 성능을 높이는 데 중요한 역할을 하고 있다.

심층 신경망은 다수의 은닉 레이어를 포함하기 때문에 다양한 비선형적 관계를 학습할 수 있다. 그러나, DBT(Digital Breast Tomosynthesis)와 같은 고해상도의 3차원 영상을 입력으로 하여 신경망을 학습하는 것은 연산량 및 메모리 사용량 등으로 인한 다양한 어려움과 문제점을 발생시킨다.

또한, 메모리의 한계를 극복하기 위해서 3차원 영상의 해상도를 줄이거나 작은 네트워크를 사용하는 경우 신경망의 성능이 저하될 수도 있다.

한국공개특허공보 제 10-2018-0099119 호

본 발명이 해결하려는 과제는, 3차원 영상을 신경망에 학습시킬 수 있는 신경망 학습 방법을 제공하는 것이다.

본 발명이 해결하려는 다른 과제는, 3차원 영상을 신경망에 학습시킬 수 있는 컴퓨터로 판독가능한 기록매체에 저장된 컴퓨터 프로그램을 제공하는 것이다.

본 발명이 해결하려는 또 다른 과제는, 3차원 영상을 신경망에 학습시킬 수 있는 신경망 학습 장치를 제공하는 것이다.

본 발명이 해결하려는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 과제를 해결하기 위한 본 발명의 몇몇 실시예에 따른 신경망 학습 방법은 복수의 2차원 트레이닝 이미지 데이터를 포함하는 3차원 트레이닝 영상 데이터의 신경망 학습 방법에 있어서, 상기 복수의 2차원 트레이닝 이미지 데이터로 제1 컨볼루션 신경망(CNN; Convolution Neural Network)을 트레이닝하되, 상기 제1 컨볼루션 신경망은 2차원 컨볼루션 레이어를 포함하고, 상기 3차원 트레이닝 영상 데이터로 제2 컨볼루션 신경망을 트레이닝하되, 상기 제2 컨볼루션 신경망은 상기 2차원 컨볼루션 레이어 및 상기 2차원 컨볼루션 레이어의 출력을 입력으로 받는 3차원 컨볼루션 레이어를 포함하는 것을 포함한다.

상기 다른 과제를 해결하기 위한 본 발명의 몇몇 실시예에 따른 신경망 학습 방법이 적용된 컴퓨터 프로그램은 컴퓨팅 장치와 결합하여, 복수의 2차원 트레이닝 이미지 데이터가 각각 포함하는 제1 패치 이미지 데이터로 제1 컨볼루션 신경망(CNN; Convolution Neural Network)을 트레이닝하되, 상기 제1 컨볼루션 신경망은 2차원 컨볼루션 레이어를 포함하고, 상기 2차원 컨볼루션 레이어는 제1 컨볼루션 레이어 및 상기 제1 컨볼루션 레이어의 출력을 입력으로 받는 제2 컨볼루션 레이어를 포함하고, 상기 복수의 2차원 트레이닝 이미지 데이터는 3차원 트레이닝 영상 데이터에 포함되는 단계, 상기 복수의 2차원 트레이닝 이미지 데이터 전체로 상기 제1 컨볼루션 신경망을 트레이닝하되, 상기 제1 컨볼루션 레이어의 파라미터는 상기 제1 패치 이미지 데이터로 상기 제1 컨볼루션 신경망을 트레이닝한 결과에 따라 고정되는 단계 및 상기 3차원 트레이닝 영상 데이터로 제2 컨볼루션 신경망을 트레이닝하되, 상기 제2 컨볼루션 신경망은 상기 2차원 컨볼루션 레이어 및 상기 2차원 컨볼루션 레이어의 출력을 입력으로 받는 3차원 컨볼루션 레이어를 포함하고, 상기 2차원 컨볼루션 레이어 중 적어도 일부의 파라미터를 상기 제1 컨볼루션 신경망의 트레이닝 결과에 따라 고정시키는 단계를 실행시킨다.

상기 또 다른 과제를 해결하기 위한 본 발명의 몇몇 실시예에 따른 신경망 학습 장치는 컴퓨터 프로그램이 저장된 스토리지 유닛, 상기 컴퓨터 프로그램이 로드되는 메모리 유닛 및 상기 컴퓨터 프로그램을 실행시키는 프로세싱 유닛을 포함하고, 상기 컴퓨터 프로그램은, 복수의 2차원 트레이닝 이미지 데이터로 제1 컨볼루션 신경망(CNN; Convolution Neural Network)을 트레이닝하되, 상기 제1 컨볼루션 신경망은 2차원 컨볼루션 레이어를 포함하고, 상기 복수의 2차원 트레이닝 이미지 데이터는 3차원 트레이닝 영상 데이터에 포함되는 오퍼레이션 및 상기 3차원 트레이닝 영상 데이터로 제2 컨볼루션 신경망을 트레이닝하되, 상기 제2 컨볼루션 신경망은 상기 2차원 컨볼루션 레이어 및 상기 2차원 컨볼루션 레이어의 출력을 입력으로 받는 3차원 컨볼루션 레이어를 포함하고, 상기 2차원 컨볼루션 레이어 중 적어도 일부의 파라미터를 상기 제1 컨볼루션 신경망의 트레이닝 결과에 따라 고정시키는 오퍼레이션을 포함한다.

상기 또 다른 과제를 해결하기 위한 본 발명의 몇몇 실시예에 따른 신경망 학습 장치는 복수의 2차원 트레이닝 이미지 데이터를 포함하는 3차원 트레이닝 영상 데이터의 신경망 학습 방법에 있어서, 상기 복수의 2차원 트레이닝 이미지 데이터의 공간 특징(spatial feature)을 학습하는 공간 정보 학습(spatial information learning) 스테이지 및 상기 복수의 2차원 트레이닝 이미지 데이터 각각의 공간 특징을 종합하여 상기 복수의 2차원 트레이닝 이미지 데이터 사이의 컨텍스트 정보를 학습하는 컨텍스트 정보 학습(context information learning) 스테이지를 포함한다.

도 1은 본 발명의 몇몇 실시예들에 따른 신경망 학습 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명하기 위한 순서도이다.
도 3은 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치의 2차원 신경망 학습 방법을 설명하기 위한 개념도이다.
도 4는 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치의 3차원 신경망 학습 방법을 설명하기 위한 개념도이다.
도 5는 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명하기 위한 개념도이다.
도 6은 도 2의 제1 컨볼루션 신경망을 트레이닝하는 방법을 세부적으로 설명하기 위한 순서도이다.
도 7은 2차원 이미지 데이터의 제1 패치 이미지 데이터를 설명하기 위한 도면이다.
도 8은 제1 패치 이미지 데이터로 제1 컨볼루션 신경망을 트레이닝하는 것을 설명하기 위한 개념도이다.
도 9는 2차원 이미지 데이터 전체로 제1 컨볼루션 신경망을 트레이닝하는 것을 설명하기 위한 개념도이다.
도 10은 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명하기 위한 순서도이다.
도 11은 2차원 이미지 데이터의 제2 패치 이미지 데이터를 설명하기 위한 도면이다.
도 12는 제2 패치 이미지 데이터로 제1 컨볼루션 신경망을 트레이닝하는 것을 설명하기 위한 개념도이다.
도 13은 2차원 이미지 데이터 전체로 제1 컨볼루션 신경망을 트레이닝하는 것을 설명하기 위한 개념도이다.
도 14는 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명하기 위한 블록도이다.
도 15는 도 14의 신경망 학습 방법 및 장치의 2차원 신경망 학습 방법을 설명하기 위한 개념도이다.
도 16은 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명하기 위한 순서도이다.

개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다.

본 명세서에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.

또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어 또는 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.

본 개시의 일 실시예에 따르면 "부"는 프로세서 및 메모리로 구현될 수 있다. 용어 "프로세서"는 범용 프로세서, 중앙 처리 장치 (CPU), 마이크로프로세서, 디지털 신호 프로세서 (DSP), 제어기, 마이크로제어기, 상태 머신 등을 포함하도록 넓게 해석되어야 한다. 몇몇 환경에서는, "프로세서"는 주문형 반도체 (ASIC), 프로그램가능 로직 디바이스 (PLD), 필드 프로그램가능 게이트 어레이 (FPGA) 등을 지칭할 수도 있다. 용어 "프로세서"는, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들의 조합, DSP 코어와 결합한 하나 이상의 마이크로프로세서들의 조합, 또는 임의의 다른 그러한 구성들의 조합과 같은 처리 디바이스들의 조합을 지칭할 수도 있다.

용어 "메모리"는 전자 정보를 저장 가능한 임의의 전자 컴포넌트를 포함하도록 넓게 해석되어야 한다. 용어 메모리는 임의 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 임의 액세스 메모리 (NVRAM), 프로그램가능 판독-전용 메모리 (PROM), 소거-프로그램가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능 PROM (EEPROM), 플래쉬 메모리, 자기 또는 광학 데이터 저장장치, 레지스터들 등과 같은 프로세서-판독가능 매체의 다양한 유형들을 지칭할 수도 있다. 프로세서가 메모리로부터 정보를 판독하고/하거나 메모리에 정보를 기록할 수 있다면 메모리는 프로세서와 전자 통신 상태에 있다고 불린다. 프로세서에 집적된 메모리는 프로세서와 전자 통신 상태에 있다.

본 명세서에서, 신경망(neural network)이란, 신경 구조를 모방하여 고안된 모든 종류의 기계학습 모델을 포괄하는 용어이다. 가령, 상기 신경망은 인공 신경망(artificial neural network; ANN), 컨볼루션 신경망(convolutional neural network; CNN) 등과 같이 모든 종류의 신경망 기반 모델을 포함할 수 있다.

편의상, 이하에서는 컨볼루션 신경망을 기준으로 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명한다.

아래에서는 첨부한 도면을 참고하여 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.

이하에서, 도 1 내지 도 4를 참조하여, 본 발명의 몇몇 실시예에 따른 신경망 학습 방법 및 장치에 대해서 설명한다.

도 1은 본 발명의 몇몇 실시예들에 따른 신경망 학습 장치를 설명하기 위한 블록도이다.

도 1을 참조하면, 본 발명의 몇몇 실시예들에 따른 신경망 학습 장치(10)는 제1 트레이닝 데이터 세트(TD set1)를 입력 받을 수 있다. 이 때, 제1 트레이닝 데이터 세트(TD set1)는 적어도 하나의 3차원 트레이닝 영상 데이터(3D data_T)를 포함할 수 있다. 3차원 트레이닝 영상 데이터(3D data_T)는 2차원 트레이닝 이미지 데이터(2D data_T1)를 포함할 수 있다. 복수의 2차원 트레이닝 이미지 데이터(2D data_T1)는 3차원 트레이닝 영상 데이터(3D data_T)를 구성할 수 있다. 이에 따라, 복수의 2차원 트레이닝 이미지 데이터(2D data_T1)로 3차원 트레이닝 영상 데이터(3D data_T)를 형성할 수 있다. 즉, 3차원 트레이닝 영상 데이터(3D data_T)는 2차원 트레이닝 이미지 데이터(2D data_T1)가 연속적으로 배열되어 형성되는 데이터일 수 있다.

신경망 학습 장치(10)는 제1 트레이닝 데이터 세트(TD set1)에 의해서 내부의 신경망을 트레이닝할 수 있다. 여기서, 트레이닝은 신경망 내에 존재하는 여러 레이어(layer)의 함수들의 파라미터들을 확정하는 과정을 의미할 수 있다. 상기 파라미터들은 함수들의 가중치(weight) 및 바이어스(bias)들을 포함할 수 있다. 신경망 학습 장치(10)는 트레이닝을 통해서 상기 파라미터들이 확정되면 3차원 인퍼런스 영상 데이터(3D Data_I)를 입력 받고, 상기 파라미터들에 의해서 예측(Prediction)을 수행할 수 있다.

이 때, 3차원 인퍼런스 영상 데이터(3D Data_I)는 3차원 트레이닝 영상 데이터(3D data_T)와 같이 복수의 2차원 인퍼런스 이미지 데이터(2D Data_I)를 포함할 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니고, 2차원 이미지 데이터를 예측을 위한 입력으로 받을 수도 있다.

이 때, 3차원 트레이닝 영상 데이터(3D data_T) 및 3차원 인퍼런스 영상 데이터(3D data_T)는 DBT(Digital Breast Tomosynthesis) 영상 및 CT(Computed Tomography) 영상 중 적어도 하나일 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.

신경망 학습 장치(10)는 3차원 트레이닝 영상 데이터(3D data_T)를 트레이닝하기 위해서 멀티 스테이지 학습(multi stage learning)을 수행할 수 있다. 즉, 한번에 3차원 트레이닝 영상 데이터(3D data_T)를 트레이닝하는 것이 아니라 복수의 스테이지로 나누어 3차원 트레이닝 영상 데이터(3D data_T)를 트레이닝할 수 있다.

구체적으로, 신경망 학습 장치(10)는 공간 정보 학습(spatial information learning) 스테이지와 컨텍스트 정보 학습(context information learning) 스테이지를 거쳐 3차원 트레이닝 영상 데이터(3D data_T)를 트레이닝할 수 있다.

상기 공간 정보 학습 스테이지는 3차원 트레이닝 영상 데이터(3D data_T)를 구성하는 2차원 트레이닝 이미지 데이터(2D data_T1)들의 공간 특징(spatial feature)를 학습하는 단계일 수 있다.

상기 공간 정보 학습 스테이지는 또다시 여러 개의 스테이지로 나누어 수행될 수 있다. 구체적으로, 상기 공간 정보 학습 스테이지는 패치 레벨 트레이닝(patch-level training) 스테이지와 이미지 레벨 트레이닝(image-level training) 스테이지를 포함할 수 있다.

패치 레벨 트레이닝 스테이지는 2차원 트레이닝 이미지 데이터(2D data_T1)의 일부분인 패치를 입력으로 하여 공간 특징을 학습하는 스테이지일 수 있다. 이미지 레벨 트레이닝 스테이지는 2차원 트레이닝 이미지 데이터(2D data_T1) 전체를 이용하여 공간 특징을 학습하는 스테이지일 수 있다.

상기 컨텍스트 정보 학습 스테이지는 2차원 트레이닝 이미지 데이터(2D data_T1)들의 공간 특징을 학습하는 것에 더불어 상기 공간 특징들을 종합하여 최종 판별하는 단계로서, 각각의 2차원 트레이닝 이미지 데이터(2D data_T1)들 간의 컨텍스트 정보를 파악하는 단계일 수 있다. 이를 통해서, 상기 컨텍스트 정보 학습 스테이지는 3차원 트레이닝 영상 데이터(3D data_T)를 3차원 컨볼루션을 통해서 학습할 수 있다.

신경망 학습 장치(10)는 프로세서(100), 메모리(200) 및 스토리지(300)을 포함할 수 있다. 프로세서(100)은 스토리지(300)에 저장된 컴퓨터 프로그램(310)을 메모리(200)에 로드(load)하여 실행할 수 있다. 프로세서(100)는 신경망 학습 장치(10)의 각 구성의 전반적인 동작을 제어한다. 프로세서(100)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다. 신경망 학습 장치(10)는 하나 이상의 프로세서(100)를 포함할 수도 있다.

메모리(200)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(200)는 본 개시의 다양한 실시예들에 따른 방법/동작을 실행하기 위하여 스토리지(300)으로부터 하나 이상의 컴퓨터 프로그램(310)을 로드할 수 있다. 메모리(200)는 RAM(Random Access Memory)와 같은 휘발성 메모리로 구현될 수 있을 것이나, 본 개시의 기술적 범위가 이에 제한되는 것은 아니다.

메모리(200)가 컴퓨터 프로그램(310)을 로드하면 프로세서(100)가 컴퓨터 프로그램(310) 내부의 오퍼레이션(operation) 및 인스트럭션(instruction)을 실행할 수 있다.

스토리지(300)는 내부에 컴퓨터 프로그램(310)을 저장할 수 있다. 스토리지(300)는 프로세서(100)가 로드하고 실행하기 위한 데이터들을 저장할 수 있다. 스토리지(300)는 예를 들어, ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.

컴퓨터 프로그램(310)은 제1 트레이닝 데이터 세트(TD set1)로부터 신경망 학습 장치(10)를 트레이닝시키고, 3차원 인퍼런스 영상 데이터(3D Data_I)에 대응하는 예측(Prediction)을 수행하는 오퍼레이션을 포함할 수 있다.

도 2는 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명하기 위한 순서도이고, 도 3은 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치의 2차원 신경망 학습 방법을 설명하기 위한 개념도이다. 도 4는 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치의 3차원 신경망 학습 방법을 설명하기 위한 개념도이다.

도 2를 참조하면, 2차원 이미지 데이터로 제1 컨볼루션 신경망을 트레이닝한다(S100).

구체적으로, 도 1 및 도 3을 참조하면, 제1 컨볼루션 신경망(500)은 본 발명의 몇몇 실시예들에 따른 신경망 학습 장치(10)에 의해서 구현된 컨볼루션 신경망(CNN; Convolution Neural Network)일 수 있다.

제1 컨볼루션 신경망(500)을 트레이닝하는 단계는 상술한 멀티 스테이지 학습 중 공간 정보 학습 스테이지에 해당할 수 있다. 즉, S100 단계는 제1 컨볼루션 신경망(500)이 3차원 트레이닝 영상 데이터(3D data_T)를 구성하는 2차원 트레이닝 이미지 데이터(2D data_T1)들의 피쳐 맵(feature map)을 각각 추출하여 공간 정보를 학습하는 단계일 수 있다.

제1 컨볼루션 신경망(500)은 2차원 트레이닝 이미지 데이터(2D data_T1)를 입력 받아 예측(Prediction)을 수행할 수 있다. 제1 컨볼루션 신경망(500)은 복수의 2차원 컨볼루션 레이어(2D_CL)를 포함할 수 있다. 2차원 컨볼루션 레이어(2D_CL)는 2차원 트레이닝 이미지 데이터(2D data_T1)의 컨볼루션(convolution)을 수행하는 레이어일 수 있다. 도 3에는 도시되지 않았지만, 제1 컨볼루션 신경망(500)은 정규화 레이어(normalization layer), 활성화 레이어(activation layer), 풀링 레이어(pooling layer) 및 풀리 커넥티드 레이어(fully-connected layer) 중 적어도 하나를 포함할 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.

2차원 컨볼루션 레이어(2D_CL)는 N개의 2차원 컨볼루션 레이어(C1~CN)를 포함할 수 있다. 여기서 N은 자연수일 수 있다. N개의 2차원 컨볼루션 레이어(C1~CN)는 각각 필터를 가지고 컨볼루션을 수행할 수 있다. 이는 2차원 트레이닝 이미지 데이터(2D data_T1)에서 상기 필터에 대응하는 피쳐 맵을 추출하기 위함이다.

N개의 2차원 컨볼루션 레이어(C1~CN) 각각은 앞의 레이어의 출력을 입력으로 받을 수 있다. 즉, N개의 2차원 컨볼루션 레이어(C1~CN)는 순차적으로 컨볼루션을 수행할 수 있다. 이 때, 레이어들 중 상대적으로 앞에 위치한 레이어는 하부 레이어라고 정의할 수 있고, 상대적으로 뒤에 위치한 레이어는 상부 레이어라고 정의할 수 있다.

2차원 컨볼루션 레이어(2D_CL)는 제1 컨볼루션 레이어(CL1) 및 제2 컨볼루션 레이어(CL2)를 포함할 수 있다. 제1 컨볼루션 레이어(CL1)의 출력은 제2 컨볼루션 레이어(CL2)의 입력이 될 수 있다. 즉, 제1 컨볼루션 레이어(CL1)는 제2 컨볼루션 레이어(CL2)의 하부 레이어일 수 있다. 반대로, 제2 컨볼루션 레이어(CL2)는 제1 컨볼루션 레이어(CL1)의 상부 레이어일 수 있다.

도 3에서는 제1 컨볼루션 레이어(CL1)가 N-1개이고, 제2 컨볼루션 레이어(CL2)가 1개로 도시되었지만, 이는 예시에 불과할 뿐 본 실시예가 이에 제한되는 것은 아니다. 즉, 제1 컨볼루션 레이어(CL1) 및 제2 컨볼루션 레이어(CL2)의 개수는 얼마든지 달라질 수 있다.

최종적으로 도출된 예측(Prediction)의 값은 2차원 트레이닝 이미지 데이터(2D data_T1)에 레이블(label) 형태로 임베딩된 트레이닝 출력 값과 비교될 수 있다. 오차(Error)는 상기 트레이닝 출력 값과 예측(Prediction)의 차이를 의미할 수 있다. 제1 컨볼루션 신경망(500)은 오차(Error)를 역전파(Backpropagation)하여 N개의 2차원 컨볼루션 레이어(C1~CN)의 파라미터(P1~PN)들을 업데이트할 수 있다. 이러한 과정을 통해서, 제1 컨볼루션 신경망(500)은 트레이닝 즉, 학습(learning)될 수 있다. 즉, 제1 컨볼루션 신경망(500)이 모든 2차원 트레이닝 이미지 데이터(2D data_T1)에 대해서 트레이닝되면 파라미터(P1~PN)가 확정될 수 있다.

다시, 도 2를 참조하면, 3차원 영상 데이터로 제2 컨볼루션 신경망을 트레이닝한다(S200).

제2 컨볼루션 신경망(510)을 트레이닝하는 단계는 상술한 멀티 스테이지 학습 중 컨텍스트 정보 학습 스테이지에 해당할 수 있다. 즉, S200 단계는 제2 컨볼루션 신경망(510)이 2차원 트레이닝 이미지 데이터(2D data_T1)의 피쳐 맵을 각각 추출하고, 이에 더해서 추출된 피쳐 맵들을 연결(concatenate)하여 그 사이의 컨텍스트 정보를 3차원 컨볼루션을 통해서 학습하는 단계일 수 있다.

구체적으로, 도 1, 도 3 및 도 4를 참조하면, 제2 컨볼루션 신경망(510)은 본 발명의 몇몇 실시예들에 따른 신경망 학습 장치(10)에 의해서 구현된 컨볼루션 신경망일 수 있다. 제2 컨볼루션 신경망(510)은 제1 컨볼루션 신경망(500)과 달리 3차원 컨볼루션 레이어(3D_CL)를 포함할 수 있다. 또한, 상술한 제1 컨볼루션 신경망(500)과 같이 정규화 레이어, 활성화 레이어, 풀링 레이어 및 풀리 커넥티드 레이어 중 적어도 하나를 포함할 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.

제2 컨볼루션 신경망(510)은 3차원 트레이닝 영상 데이터(3D data_T)를 입력 받아 예측(Prediction)을 수행할 수 있다. 이 때, 3차원 트레이닝 영상 데이터(3D data_T)는 복수의 2차원 트레이닝 이미지 데이터(2D data_T1)로 분할될 수 있다. 각각의 2차원 트레이닝 이미지 데이터(2D data_T1)는 제1 컨볼루션 신경망(500)과 같이 N개의 2차원 컨볼루션 레이어(C1~CN)를 통과하고, 그 출력인 피쳐 맵들이 최종적으로 연결(Concatenation)되어 3차원 피쳐 맵을 형성할 수 있다. 상기 3차원 피쳐 맵 3차원 컨볼루션 레이어(3D_CL)에 입력될 수 있다.

즉, 3차원 트레이닝 영상 데이터(3D data_T)를 구성하는 각각의 2차원 트레이닝 이미지 데이터(2D data_T1)는 병렬적으로 N개의 2차원 컨볼루션 레이어(C1~CN)를 통과하여 출력을 도출하고, 그 출력들이 결합되어 3차원 컨볼루션 레이어(3D_CL)에 입력될 수 있다. 본 실시예의 신경망 학습 장치(10)는 N개의 2차원 컨볼루션 레이어(C1~CN)에 의해서 공간 정보(spatial information)를 학습하고, 3차원 컨볼루션 레이어(3D_CL)에 의해서는 컨텍스트 정보(context information)를 학습할 수 있다.

다만, 이러한 3차원 트레이닝 영상 데이터(3D data_T)를 처리하는 방식은 매우 많은 연산량이 필요할 수 있어서, 신경망 학습 장치(10)의 메모리(200)의 용량의 한계가 있는 경우 처리가 불가능할 수 있다. 특히 3차원 트레이닝 영상 데이터(3D data_T)가 고해상도를 가지는 DBT 영상이나 CT 영상인 경우에는 더욱 메모리(200)의 용량이 많이 필요할 수 있다.

이를 해결하기 위해서, 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치는 3차원 트레이닝 영상 데이터(3D data_T)를 바로 처리하지 않고, 먼저 2차원 트레이닝 이미지 데이터(2D data_T1)로 제1 컨볼루션 신경망(500)을 트레이닝하고, 이어서 3차원 트레이닝 영상 데이터(3D data_T)로 제2 컨볼루션 신경망(510)을 트레이닝할 수 있다.

이 때, 제2 컨볼루션 신경망(510)은 제1 컨볼루션 신경망(500)에서 확정된 파라미터(P1~PN)를 이용하여 N개의 2차원 컨볼루션 레이어(C1~CN) 중 적어도 일부의 파라미터들을 고정시키고(Fixed), 나머지 2차원 컨볼루션 레이어 및 3차원 컨볼루션 레이어(3D_CL)만을 트레이닝할 수 있다(Trained). 예를 들어, 2차원 컨볼루션 레이어(2D_CL) 중 제1 컨볼루션 레이어(CL1)의 파라미터는 고정시키고, 제2 컨볼루션 레이어(CL2)의 파라미터는 트레이닝할 수 있다.

즉, 3차원 컨볼루션 레이어(3D_CL)를 통과한 예측(Prediction) 값을 통해 역전파를 수행하여 제2 컨볼루션 레이어(CL2) 및 3차원 컨볼루션 레이어(3D_CL)의 파라미터를 업데이트할 수 있다. 이 때, 제1 컨볼루션 레이어(CL1)의 파라미터는 업데이트하지 않고 고정될 수 있다.

제1 컨볼루션 신경망(500)의 2차원 컨볼루션 레이어(2D_CL)와 제2 컨볼루션 신경망(510)의 2차원 컨볼루션 레이어(2D_CL)의 파라미터들은 상대적으로 하부 레이어에서 유사성이 높을 수 있다. 따라서, 메모리(200)의 한계를 극복하기 위해서 제2 컨볼루션 신경망(510)의 하부 레이어의 파라미터들을 제1 컨볼루션 신경망(500)의 대응되는 파라미터들로 고정시키고, 상부 레이어만을 트레이닝하여 메모리(200)의 사용량을 최소화할 수 있다.

도 4에서는 파라미터가 고정되는 하부 레이어 즉, 제1 컨볼루션 레이어(CL1)의 개수가 N-1개이고, 파라미터가 트레이닝되는 상부 레이어 즉, 제2 컨볼루션 레이어(CL2)의 개수가 1개로 도시되었으나, 본 실시예가 이에 제한되는 것은 아니다. 고정되는 하부 레이어의 개수가 많아질수록 메모리(200)의 사용량을 줄일 수 있으므로, 본 실시예에 따른 신경망 학습 방법 및 장치는 신경망의 성능을 저하시키지 않는 범위에서 파라미터가 고정되는 하부 레이어의 개수를 적절하게 선택할 수 있다.

이를 통해서, 제2 컨볼루션 신경망(510)은 3차원 트레이닝 영상 데이터(3D data_T)를 처리함에도 메모리(200)의 사용량을 최소화할 수 있다. 따라서, 고해상도의 3차원 트레이닝 영상 데이터(3D data_T)를 사용해서 성능의 저하없이 낮은 메모리(200)의 용량으로도 신경망 학습 장치(10)의 동작이 원활하게 수행될 수 있다.

이하, 도 1 및 도 5를 참조하여, 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명한다. 상술한 설명과 중복되는 부분은 간략히 하거나 생략한다.

도 5는 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명하기 위한 개념도이다.

도 1 및 도 5를 참조하면, 본 발명의 몇몇 실시예들에 따른 신경망 학습 장치의 제2 컨볼루션 신경망(510)은 2차원 컨볼루션 레이어(2D_CL) 모두의 파라미터를 고정시킬 수 있다. 이에 따라서, 제2 컨볼루션 신경망(510)은 3차원 컨볼루션 레이어(3D_CL)의 파라미터만이 트레이닝될 수 있다.

따라서, 2차원 컨볼루션 레이어(2D_CL)의 파라미터는 먼저 트레이닝된 제1 컨볼루션 신경망(500)에서 확정된 파라미터를 그대로 사용할 수 있다. 이를 통해서, 메모리(200)는 3차원 컨볼루션 레이어(3D_CL)의 파라미터를 트레이닝하는 것에 집중적으로 사용될 수 있다. 본 실시예에 따른 신경망 학습 방법 및 장치는 이를 통해 메모리(200)의 사용량을 최소화하여 고해상도 3차원 영상 데이터에 대한 학습을 용이하게 수행할 수 있다.

이하, 도 1, 도 2 및 도 6 내지 도 9를 참조하여, 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명한다. 상술한 설명과 중복되는 부분은 간략히 하거나 생략한다.

도 6은 도 2의 제1 컨볼루션 신경망을 트레이닝하는 방법을 세부적으로 설명하기 위한 순서도이고, 도 7은 2차원 이미지 데이터의 제1 패치 이미지 데이터를 설명하 기 위한 도면이다. 도 8은 제1 패치 이미지 데이터로 제1 컨볼루션 신경망을 트레이닝하는 것을 설명하기 위한 개념도이고, 도 9는 2차원 이미지 데이터 전체로 제1 컨볼루션 신경망을 트레이닝하는 것을 설명하기 위한 개념도이다.

도 2 및 도 6을 참조하면, 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법은 2차원 트레이닝 이미지 데이터로 제1 컨볼루션 신경망을 트레이닝한다(S100). 이 때, 제1 컨볼루션 신경망을 트레이닝하는 단계(S100)는 2가지 단계로 세분화될 수 있다.

먼저, 제1 패치 이미지 데이터로 제1 컨볼루션 신경망을 트레이닝한다(S110).

제1 패치 이미지 데이터(Patch1)로 제1 컨볼루션 신경망(500)을 트레이닝하는 단계는 상술한 공간 정보 학습 스테이지 중 패치 레벨 트레이닝 스테이지에 해당할 수 있다. 즉, S110 단계는 제1 컨볼루션 신경망(500)이 제1 패치 이미지 데이터(Patch1)의 피쳐 맵을 각각 추출하여 공간 정보를 학습하는 단계일 수 있다.

구체적으로, 도 7을 참조하면, 제1 패치 이미지 데이터(Patch1)는 2차원 트레이닝 이미지 데이터(2D data_T1)에 포함될 수 있다. 즉, 제1 패치 이미지 데이터(Patch1)는 2차원 트레이닝 이미지 데이터(2D data_T1)의 일부분을 잘라내어 생성한 데이터일 수 있다. 이 때, 복수의 2차원 트레이닝 이미지 데이터(2D data_T1)에서 제1 패치 이미지 데이터(Patch1)는 각각 생성될 수 있다.

제1 패치 이미지 데이터(Patch1)는 2차원 트레이닝 이미지 데이터(2D data_T1)에서 임의적(randomly)인 위치에서 잘라낸 데이터일 수 있다. 따라서, 복수의 2차원 트레이닝 이미지 데이터(2D data_T1)에서 각각 생성된 제1 패치 이미지 데이터(Patch1)는 복수의 2차원 트레이닝 이미지 데이터(2D data_T1) 각각의 다른 위치를 잘라낸 데이터일 수 있다. 물론, 본 실시예가 이에 제한되는 것은 아니다. 즉, 제1 패치 이미지 데이터(Patch1)는 복수의 2차원 트레이닝 이미지 데이터(2D data_T1) 각각의 동일한 위치를 잘라낸 데이터일 수도 있다. 복수의 2차원 트레이닝 이미지 데이터(2D data_T1)에서 각각 생성된 제1 패치 이미지 데이터(Patch1)의 크기는 동일할 수 있다.

도 1 및 도 8을 참조하면, 제1 컨볼루션 신경망(500)의 2차원 컨볼루션 레이어(2D_CL)는 제1 패치 이미지 데이터(Patch1)로 트레이닝될 수 있다. 즉, 예측(Prediction) 및 역전파에 의해서 2차원 컨볼루션 레이어(2D_CL)의 파라미터가 결정될 수 있다.

이 때, 2차원 컨볼루션 레이어(2D_CL)는 제3 컨볼루션 레이어(CL3) 및 제4 컨볼루션 레이어(CL4)를 포함할 수 있다. 제3 컨볼루션 레이어(CL3)는 제4 컨볼루션 레이어(CL4)에 비해서 상대적으로 하부에 위치한 하부 레이어 일 수 있다. 즉, 제3 컨볼루션 레이어(CL3)의 출력이 제4 컨볼루션 레이어(CL4)의 입력이 될 수 있다. 도 8에서는 제3 컨볼루션 레이어(CL3)가 2개이고, 제4 컨볼루션 레이어(CL4)가 N-2개로 도시되었지만, 이는 예시에 불과할 뿐 본 실시예가 이에 제한되는 것은 아니다. 즉, 제3 컨볼루션 레이어(CL3) 및 제4 컨볼루션 레이어(CL4)의 개수는 얼마든지 달라질 수 있다.

제1 패치 이미지 데이터(Patch1)로 제1 컨볼루션 신경망(500)을 트레이닝하는 것은 고해상도의 2차원 트레이닝 이미지 데이터(2D data_T1)에 비해서 작은 픽셀을 입력으로 하는 것이므로 메모리(200) 사용량이 상대적으로 작을 수 있다. 따라서, 상대적으로 작은 메모리(200)를 가지는 경우에도 제1 패치 이미지 데이터(Patch1)로 제1 컨볼루션 신경망(500)을 트레이닝하는 것은 어렵지 않을 수 있다.

다시, 도 6을 참조하면, 2차원 트레이닝 이미지 데이터 전체로 제1 컨볼루션 신경망을 트레이닝한다(S120).

2차원 트레이닝 이미지 데이터(2D data_T1) 전체로 제1 컨볼루션 신경망(500)을 트레이닝하는 단계는 상술한 공간 정보 학습 스테이지 중 이미지 레벨 트레이닝 스테이지에 해당할 수 있다. 즉, S120 단계는 제1 컨볼루션 신경망(500)이 2차원 트레이닝 이미지 데이터(2D data_T1) 전체의 피쳐 맵을 각각 추출하여 공간 정보를 학습하는 단계일 수 있다.

구체적으로, 도 1 및 도 9를 참조하면, 제1 컨볼루션 신경망(500)은 2차원 트레이닝 이미지 데이터(2D data_T1) 전체를 입력 받아 예측(Prediction)을 수행할 수 있다. 이러한 2차원 트레이닝 이미지 데이터(2D data_T1)가 DBT 이미지나 CT 이미지와 같이 고해상도인 경우에는 2차원 트레이닝 이미지 데이터(2D data_T1)를 한번에 트레이닝하는 것도 많은 메모리(200) 사용량을 요구할 수 있다.

이를 해결하기 위해서, 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치는 2차원 트레이닝 이미지 데이터(2D data_T1)의 트레이닝도 여러 스테이지로 분할하여 수행할 수 있다. 즉, 2차원 트레이닝 이미지 데이터(2D data_T1) 중 일부인 제1 패치 이미지 데이터(Patch1)로 먼저 제1 컨볼루션 신경망(500)을 트레이닝하고, 이어서 2차원 트레이닝 이미지 데이터(2D data_T1) 전체로 다시 제1 컨볼루션 신경망(500)을 트레이닝할 수 있다.

이 때, 제1 컨볼루션 신경망(500)은 제1 패치 이미지 데이터(Patch1)로 트레이닝된 제1 컨볼루션 신경망(500)에서 결정된 파라미터를 이용하여 하부 레이어 중 일부의 파라미터들을 고정시키고(Fixed), 나머지 상부 레이어만을 트레이닝할 수 있다(Trained). 예를 들어, 2차원 컨볼루션 레이어(2D_CL) 중 제3 컨볼루션 레이어(CL3)의 파라미터는 고정시키고, 제4 컨볼루션 레이어(CL4)의 파라미터는 트레이닝할 수 있다.

본 실시예들에 따른 신경망 학습 방법 및 장치는 2차원 컨볼루션 레이어(2D_CL)를 통과한 예측(Prediction) 값을 통해 역전파를 수행하여 제4 컨볼루션 레이어(CL4)의 파라미터를 업데이트할 수 있다. 이 때, 제3 컨볼루션 레이어(CL3)의 파라미터는 고정되고, 제4 컨볼루션 레이어(CL4)의 파라미터만이 업데이트될 수 있다.

제1 패치 이미지 데이터(Patch1)로 트레이닝된 제1 컨볼루션 신경망(500)의 2차원 컨볼루션 레이어(2D_CL)와 2차원 트레이닝 이미지 데이터(2D data_T1)로 트레이닝된 제1 컨볼루션 신경망(500)의 2차원 컨볼루션 레이어(2D_CL)의 파라미터들은 상대적으로 하부 레이어에서 유사성이 높을 수 있다. 따라서, 메모리(200)의 한계를 극복하기 위해서 2차원 트레이닝 이미지 데이터(2D data_T1)로 트레이닝하는 제1 컨볼루션 신경망(500)의 하부 레이어의 파라미터들을 제1 패치 이미지 데이터(Patch1)로 트레이닝된 제1 컨볼루션 신경망(500)의 대응되는 파라미터들로 고정시키고, 상부 레이어만을 트레이닝하여 메모리(200)의 사용량을 최소화할 수 있다.

도 9에서는 파라미터가 고정되는 하부 레이어 즉, 제3 컨볼루션 레이어(CL3)의 개수가 2개이고, 파라미터가 트레이닝되는 상부 레이어 즉, 제4 컨볼루션 레이어(CL4)의 개수가 N-2개로 도시되었으나, 본 실시예가 이에 제한되는 것은 아니다. 고정되는 하부 레이어의 개수가 많아질수록 메모리(200)의 사용량을 줄일 수 있으므로, 본 실시예에 따른 신경망 학습 방법 및 장치는 신경망의 성능을 저하시키지 않는 범위에서 파라미터가 고정되는 하부 레이어의 개수를 적절하게 선택할 수 있다.

이를 통해서, 2차원 트레이닝 이미지 데이터(2D data_T1)를 처리하는 단계에서도 메모리(200)를 최소한으로 사용할 수 있다.

이하, 도 1, 도 2, 도 8 및 도 10 내지 도 13을 참조하여, 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명한다. 상술한 설명과 중복되는 부분은 간략히 하거나 생략한다.

도 10은 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명하기 위한 순서도이고, 도 11은 2차원 이미지 데이터의 제2 패치 이미지 데이터를 설명하기 위한 도면이다. 도 12는 제2 패치 이미지 데이터로 제1 컨볼루션 신경망을 트레이닝하는 것을 설명하기 위한 개념도이고, 도 13은 2차원 이미지 데이터 전체로 제1 컨볼루션 신경망을 트레이닝하는 것을 설명하기 위한 개념도이다. 도 10은 도 2의 제1 컨볼루션 신경망을 트레이닝하는 단계를 세부적으로 설명하기 위한 도면이다.

도 2 및 도 10을 참조하면, 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법은 2차원 트레이닝 이미지 데이터로 제1 컨볼루션 신경망을 트레이닝한다(S100). 이 때, 제1 컨볼루션 신경망을 트레이닝하는 단계(S100)는 3가지 단계로 세분화될 수 있다.

먼저, 제1 패치 이미지 데이터로 제1 컨볼루션 신경망을 트레이닝한다(S110). 이 부분은 도 6에서 설명한 내용과 동일하다.

이어서, 제2 패치 이미지 데이터로 제1 컨볼루션 신경망을 트레이닝한다(S115).

구체적으로, 도 11을 참조하면, 제2 패치 이미지 데이터(Patch2)는 2차원 트레이닝 이미지 데이터(2D data_T1)에 포함될 수 있다. 즉, 제2 패치 이미지 데이터(Patch2)는 2차원 트레이닝 이미지 데이터(2D data_T1)의 일부분을 잘라내어 생성한 데이터일 수 있다. 이 때, 복수의 2차원 트레이닝 이미지 데이터(2D data_T1)에서 제2 패치 이미지 데이터(Patch2)는 각각 생성될 수 있다.

제2 패치 이미지 데이터(Patch2)는 2차원 트레이닝 이미지 데이터(2D data_T1)에서 임의적인 위치에서 잘라낸 데이터일 수 있다. 따라서, 복수의 2차원 트레이닝 이미지 데이터(2D data_T1)에서 각각 생성된 제2 패치 이미지 데이터(Patch2)는 각각 복수의 2차원 트레이닝 이미지 데이터(2D data_T1)의 다른 위치를 잘라낸 데이터일 수 있다. 물론, 본 실시예가 이에 제한되는 것은 아니다. 즉, 제2 패치 이미지 데이터(Patch2)는 각각 복수의 2차원 트레이닝 이미지 데이터(2D data_T1)의 동일한 위치를 잘라낸 데이터일 수도 있다. 복수의 2차원 트레이닝 이미지 데이터(2D data_T1)에서 각각 생성된 제2 패치 이미지 데이터(Patch2)의 크기는 동일할 수 있다.

제2 패치 이미지 데이터(Patch2)의 크기는 제1 패치 이미지 데이터(Patch1)의 크기에 비해 더 클 수 있다. 제2 패치 이미지 데이터(Patch2)는 제1 패치 이미지 데이터(Patch1)와 같이 2차원 트레이닝 이미지 데이터(2D data_T1)의 임의적인 위치에서 잘라낸 데이터이므로 제1 패치 이미지 데이터(Patch1)와 중복될 수도 있고, 아닐 수도 있다.

도 12를 참조하면, 제1 컨볼루션 신경망(500)의 2차원 컨볼루션 레이어(2D_CL)는 제2 패치 이미지 데이터(Patch2)로 트레이닝될 수 있다. 즉, 예측(Prediction) 및 역전파에 의해서 2차원 컨볼루션 레이어(2D_CL)의 파라미터가 결정될 수 있다.

2차원 컨볼루션 레이어(2D_CL)는 제3 컨볼루션 레이어(CL3) 및 제4 컨볼루션 레이어(CL4)를 포함할 수 있다. 제3 컨볼루션 레이어(CL3)는 제4 컨볼루션 레이어(CL4)의 하부 레이어이고, 제4 컨볼루션 레이어(CL4)는 제3 컨볼루션 레이어(CL3)의 상부 레이어일 수 있다.

제4 컨볼루션 레이어(CL4)는 제4_1 컨볼루션 레이어(CL4_1) 및 제4_2 컨볼루션 레이어(CL4_2)를 포함할 수 있다. 제4_1 컨볼루션 레이어(CL4_1)는 제4_2 컨볼루션 레이어(CL4_2)의 하부 레이어이고, 제4_2 컨볼루션 레이어(CL4_2)는 제4_1 컨볼루션 레이어(CL4_1)의 상부 레이어일 수 있다. 도 12에서는 제4_1 컨볼루션 레이어(CL4_1)가 1개이고, 제4_2 컨볼루션 레이어(CL4_2)가 N-3개로 도시되었으나, 이는 예시에 불과할 뿐 본 실시예가 이에 제한되는 것은 아니다.

이 때, 제1 컨볼루션 신경망(500)은 제1 패치 이미지 데이터(Patch1)로 트레이닝된 제1 컨볼루션 신경망(500)에서 확정된 파라미터를 이용하여 하부 레이어 중 일부의 파라미터들을 고정시키고(Fixed), 나머지 상부 레이어만을 트레이닝할 수 있다(Trained). 예를 들어, 2차원 컨볼루션 레이어(2D_CL) 중 제3 컨볼루션 레이어(CL3)의 파라미터는 고정시키고, 제4 컨볼루션 레이어(CL4)의 파라미터는 트레이닝할 수 있다.

즉, 2차원 컨볼루션 레이어(2D_CL)를 통과한 예측(Prediction) 값을 통해 역전파를 수행하여 제4 컨볼루션 레이어(CL4)의 파라미터를 업데이트할 수 있다. 이 때, 제3 컨볼루션 레이어(CL3)의 파라미터는 고정되고, 제4 컨볼루션 레이어(CL4)의 파라미터만이 업데이트될 수 있다.

제1 패치 이미지 데이터(Patch1)로 트레이닝된 제1 컨볼루션 신경망(500)의 2차원 컨볼루션 레이어(2D_CL)와 제2 패치 이미지 데이터(Patch2)로 트레이닝된 제1 컨볼루션 신경망(500)의 2차원 컨볼루션 레이어(2D_CL)의 파라미터들은 상대적으로 하부 레이어에서 유사성이 높을 수 있다. 따라서, 메모리(200)의 한계를 극복하기 위해서 제2 패치 이미지 데이터(Patch2)로 트레이닝하는 제1 컨볼루션 신경망(500)의 하부 레이어의 파라미터들을 제1 패치 이미지 데이터(Patch1)로 트레이닝된 제1 컨볼루션 신경망(500)의 대응되는 파라미터들로 고정시키고, 상부 레이어만을 트레이닝하여 메모리(200)의 사용량을 최소화할 수 있다.

즉, 제2 패치 이미지 데이터(Patch2)로 제1 컨볼루션 신경망(500)을 트레이닝하는 것은 고해상도의 2차원 트레이닝 이미지 데이터(2D data_T1)에 비해서 작은 픽셀을 입력으로 하는 것이므로 메모리(200)의 소모가 상대적으로 작을 수 있다. 나아가, 제1 패치 이미지 데이터(Patch1)에 의한 트레이닝 결과로 인해서 하부 레이어의 파라미터들을 고정시키므로 제2 패치 이미지 데이터(Patch2) 전체로 제1 컨볼루션 신경망(500)을 트레이닝하는 것에 비해서도 더 작은 메모리(200) 사용량을 가질 수 있다.

다시, 도 10을 참조하면, 2차원 트레이닝 이미지 데이터 전체로 제1 컨볼루션 신경망을 트레이닝한다(S120).

구체적으로, 도 13을 참조하면, 제1 컨볼루션 신경망(500)은 제1 패치 이미지 데이터(Patch1) 및 제2 패치 이미지 데이터(Patch2)로 트레이닝된 제1 컨볼루션 신경망(500)에서 확정된 파라미터를 이용하여 하부 레이어 중 일부의 파라미터들을 고정시키고(Fixed), 나머지 상부 레이어만을 트레이닝할 수 있다(Trained). 예를 들어, 2차원 컨볼루션 레이어(2D_CL) 중 제3 컨볼루션 레이어(CL3) 및 제4_1 컨볼루션 레이어(CL4_1)의 파라미터는 고정시키고, 제4_2 컨볼루션 레이어(CL4_2)의 파라미터는 트레이닝할 수 있다.

본 실시예들에 따른 신경망 학습 방법 및 장치는 2차원 컨볼루션 레이어(2D_CL)를 통과한 예측(Prediction) 값을 통해 역전파를 수행하여 제4_2 컨볼루션 레이어(CL4_2)의 파라미터를 업데이트할 수 있다. 이 때, 제3 컨볼루션 레이어(CL3) 및 제4_1 컨볼루션 레이어(CL4_1)의 파라미터는 고정되고, 제4_2 컨볼루션 레이어(CL4_2)의 파라미터만이 업데이트될 수 있다.

도 13에서는 파라미터가 고정되는 하부 레이어 즉, 제3 컨볼루션 레이어(CL3) 및 제4_1 컨볼루션 레이어(CL4_1)의 개수가 총 3개이고, 파라미터가 트레이닝되는 상부 레이어 즉, 제4_2 컨볼루션 레이어(CL4_2)의 개수가 N-3개로 도시되었으나, 본 실시예가 이에 제한되는 것은 아니다. 고정되는 하부 레이어의 개수가 많아질수록 메모리(200)의 사용량을 줄일 수 있으므로, 본 실시예에 따른 신경망 학습 방법 및 장치는 신경망의 성능을 저하시키지 않는 범위에서 파라미터가 고정되는 하부 레이어의 개수를 적절하게 선택할 수 있다.

본 실시예에서는 총 2개의 패치 이미지 데이터를 이용하여 총 3개의 단계를 통해서 2차원 트레이닝 이미지 데이터(2D data_T1)를 처리하는 것을 설명하였으나, 필요에 따라서 패치 이미지 데이터를 이용하는 단계는 3개 이상일 수 있다. 즉, 단계가 늘어날수록 메모리(200)의 사용량을 줄일 수 있으므로, 본 실시예에 따른 신경망 학습 방법 및 장치는 적절한 단계의 수를 선택할 수 있다.

이하, 도 14 및 도 15를 참조하여, 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명한다. 상술한 설명과 중복되는 부분은 간략히 하거나 생략한다.

도 14는 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명하기 위한 블록도이고, 도 15는 도 14의 신경망 학습 방법 및 장치의 2차원 신경망 학습 방법을 설명하기 위한 개념도이다.

도 14를 참조하면, 본 발명의 몇몇 실시예들에 따른 신경망 학습 장치(10)는 제2 트레이닝 데이터 세트(TD set2)를 입력 받을 수 있다. 제2 트레이닝 데이터 세트(TD set2)는 적어도 하나의 3차원 트레이닝 영상 데이터(3D data_T) 및 추가 2차원 트레이닝 이미지 데이터(2D data_T2)를 포함할 수 있다. 3차원 트레이닝 영상 데이터(3D data_T)는 2차원 트레이닝 이미지 데이터(2D data_T1)를 포함할 수 있다.

이 때, 3차원 트레이닝 영상 데이터(3D data_T)와 추가 2차원 트레이닝 이미지 데이터(2D data_T2)는 서로 다른 도메인(domain)의 데이터일 수 있다. 이 때, 도메인은 데이터의 종류를 의미할 수 있다. 예를 들어, 촬영 방식이 서로 다른 이미지 데이터들은 서로 다른 도메인의 데이터일 수 있다. 다만, 3차원 트레이닝 영상 데이터(3D data_T)와 추가 2차원 트레이닝 이미지 데이터(2D data_T2)는 서로 다른 도메인임에도 유사도가 어느 정도 높아 같이 트레이닝에 사용될 수 있는 데이터일 수 있다.

예를 들어, 3차원 트레이닝 영상 데이터(3D data_T) 및 2차원 트레이닝 이미지 데이터(2D data_T1)는 DBT(Digital Breast Tomosynthesis) 방식으로 촬영된 데이터일 수 있다. 이 경우에는, 추가 2차원 트레이닝 이미지 데이터(2D data_T2)는 FFDM(Full-Field Digital Mammography) 방식으로 촬영된 데이터일 수 있다.

또한, 3차원 트레이닝 영상 데이터(3D data_T) 및 2차원 트레이닝 이미지 데이터(2D data_T1)가 CT(Computed Tomography) 영상 데이터일 수도 있다. 이 경우에는, 추가 2차원 트레이닝 이미지 데이터(2D data_T2)는 X-ray 이미지 데이터일 수 있다. 물론 이 때, CT 영상 데이터와 X-ray 이미지 데이터는 같은 부위를 촬영한 데이터일 수 있다. 예를 들어, 3차원 트레이닝 영상 데이터(3D data_T) 및 2차원 트레이닝 이미지 데이터(2D data_T1)가 체스트(chest) CT 영상이라면, 추가 2차원 트레이닝 이미지 데이터(2D data_T2)는 체스트 X-ray 이미지일 수 있다.

도 15를 참조하면, 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치는 제1 컨볼루션 신경망(500)을 트레이닝을 하는 과정에서 2차원 트레이닝 이미지 데이터(2D data_T1)뿐만 아니라 추가 2차원 트레이닝 이미지 데이터(2D data_T2)를 이용하여 제1 컨볼루션 신경망(500)을 트레이닝할 수 있다.

신경망의 경우 트레이닝에 사용되는 데이터의 양이 많고, 종류가 다양한 경우 더 나은 성능을 발휘할 수 있다. 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치는 서로 다른 도메인의 데이터를 트레이닝에 사용함으로써 신경망의 성능을 더욱 향상시킬 수 있다. 나아가, 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치는, 양적으로도 추가 2차원 트레이닝 이미지 데이터(2D data_T2)의 수만큼 트레이닝에 사용되는 데이터가 늘어나므로 신경망의 성능을 향상시킬 수 있다.

상술한 실시예에서는 2가지 도메인에 대해서만 설명하였지만, 이는 예시에 불과하고 본 실시예에서 도메인의 개수는 3개 이상일 수 있음은 물론이다.

이하, 도 1 내지 도 4 및 도 16을 참조하여, 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명한다. 상술한 설명과 중복되는 부분은 간략히 하거나 생략한다.

도 16은 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법 및 장치를 설명하기 위한 순서도이다. 도 16은 도 2의 제2 컨볼루션 신경망을 트레이닝하는 단계를 세부적으로 설명하기 위한 도면이다.

도 2 및 도 16을 참조하면, 본 발명의 몇몇 실시예들에 따른 신경망 학습 방법은 2차원 트레이닝 이미지 데이터로 제1 컨볼루션 신경망을 트레이닝한다(S100).

이어서, 3차원 영상 데이터로 제2 컨볼루션 신경망을 트레이닝한다(S200). 이 때, 제2 컨볼루션 신경망을 트레이닝하는 단계(S200)는 3가지 단계로 세분화될 수 있다.

먼저, 2차원 컨볼루션 레이어가 추출한 2차원 피쳐 맵을 각각 압축하여 2차원 압축 피쳐 맵을 형성한다(S210).

구체적으로 도 4를 참조하면, 복수의 2차원 트레이닝 이미지 데이터(2D data_T1)가 2차원 컨볼루션 레이어(2D_CL)를 통과하여 도출된 출력인 2차원 피쳐 맵을 각각 압축한다. 이 때, 2차원 피쳐 맵의 압축 방법은 다양할 수 있다. 예를 들어, 제2 컨볼루션 신경망(510)을 이용하여 1x1 유닛 또는 다른 사이즈의 유닛으로 컨볼루션을 수행하여 상기 2차원 피쳐 맵을 압축할 수 있다. 단, 본 실시예가 이에 제한되는 것은 아니다.

다시, 도 16을 참조하면, 2차원 압축 피쳐 맵을 연결하여 3차원 피쳐 맵을 형성한다(S220).

2차원 압축 피쳐 맵은 각각 유래된 2차원 트레이닝 이미지 데이터(2D data_T1)의 순서대로 연결(concatenate)될 수 있다. 이를 통해서, 3차원 컨볼루션 레이어(3D_CL)가 컨텍스트 정보를 학습할 수 있다.

이어서, 3차원 피쳐 맵으로 3차원 컨볼루션 레이어를 트레이닝한다(S230).

구체적으로 도 1 및 도 4를 참조하면, 3차원 컨볼루션 레이어(3D_CL)가 압축되지 않은 2차원 피쳐 맵들을 그대로 연결한 3차원 피쳐 맵으로 트레이닝하는 경우, 메모리(200)의 사용량 및 연산량이 매우 클 수 있다. 따라서, 상기 2차원 피쳐 맵을 각각 압축하여 상기 3차원 피쳐 맵의 크기를 줄일 수 있다.

본 실시예에 따른 신경망 학습 방법 및 장치는 상기 2차원 피쳐 맵들을 각각 압축하여 상대적으로 작은 크기의 3차원 피쳐 맵을 형성함으로써, 메모리(200)의 사용량 및 연산량을 줄여 신경망의 성능을 향상시킬 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

10: 신경망 학습 장치
100: 프로세서
200: 메모리
300: 스토리지
310: 프로그램

Claims

메모리를 포함하는 신경망 학습 장치에서 수행되는, 복수의 2차원 트레이닝 이미지 데이터를 포함하는 3차원 트레이닝 영상 데이터의 신경망 학습 방법에 있어서,
상기 신경망 학습 장치가 상기 메모리를 사용하여 상기 복수의 2차원 트레이닝 이미지 데이터로 제1 컨볼루션 신경망(CNN; Convolution Neural Network)을 트레이닝하되, 상기 제1 컨볼루션 신경망은 상기 복수의 2차원 트레이닝 이미지 데이터를 입력 받는 2차원 컨볼루션 레이어를 포함하고, 상기 제1 컨볼루션 신경망을 트레이닝하는 것은 상기 복수의 2차원 트레이닝 이미지 데이터에 각각 포함된 제1 패치 이미지 데이터로 상기 제1 컨볼루션 신경망을 1차 트레이닝하고, 상기 복수의 2차원 트레이닝 이미지 데이터 전체로 상기 제1 컨볼루션 신경망을 2차 트레이닝하는 것을 포함하고,
상기 신경망 학습 장치가 상기 메모리를 사용하여 상기 3차원 트레이닝 영상 데이터로 상기 제1 컨볼루션 신경망과 다른 제2 컨볼루션 신경망을 3차 트레이닝하되,
상기 제2 컨볼루션 신경망은 상기 제1 컨볼루션 신경망에 포함된 상기 2차원 컨볼루션 레이어와 동일한 구조의 2차원 컨볼루션 레이어 및 상기 제2 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어의 출력을 입력으로 받는 3차원 컨볼루션 레이어를 포함하는 것을 포함하되, 상기 제2 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어는 상기 복수의 2차원 트레이닝 이미지 데이터를 입력 받고, 상기 3차원 컨볼루션 레이어는 상기 3차원 트레이닝 영상 데이터를 입력 받고,
상기 제2 컨볼루션 신경망을 3차 트레이닝하는 것은, 상기 제2 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어 중 적어도 일부의 파라미터를 상기 제1 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어의 트레이닝 결과에 따라 고정시키고, 상기 3차원 컨볼루션 레이어의 파라미터는 고정시키지 않는 신경망 학습 방법.
삭제
제1 항에 있어서,
상기 2차원 컨볼루션 레이어는 제1 컨볼루션 레이어 및 상기 제1 컨볼루션 레이어의 출력을 입력으로 받는 제2 컨볼루션 레이어를 포함하고,
상기 제2 컨볼루션 신경망을 3차 트레이닝하는 것은,
상기 제1 컨볼루션 레이어의 파라미터는 상기 제1 컨볼루션 신경망의 1차 및 2차 트레이닝 결과에 따라 고정시키고, 상기 제2 컨볼루션 레이어의 파라미터는 고정시키지 않고 트레이닝하는 것을 포함하는 신경망 학습 방법.
제1 항에 있어서,
상기 2차원 컨볼루션 레이어는 제3 컨볼루션 레이어 및 상기 제3 컨볼루션 레이어의 출력을 입력으로 받는 제4 컨볼루션 레이어를 포함하고,
상기 제1 컨볼루션 신경망을 2차 트레이닝하는 것은,
상기 제3 컨볼루션 레이어의 파라미터를 상기 1차 트레이닝의 결과에 따라 고정시키는 것을 포함하는 신경망 학습 방법.
제4 항에 있어서,
상기 제1 패치 이미지 데이터는 상기 복수의 2차원 트레이닝 이미지 데이터에서 모두 동일한 크기인 신경망 학습 방법.
제4 항에 있어서,
상기 제1 패치 이미지 데이터의 위치는 상기 복수의 2차원 트레이닝 이미지 데이터마다 임의적으로 정해지는 신경망 학습 방법.
제4 항에 있어서,
상기 복수의 2차원 트레이닝 이미지 데이터는 각각 제2 패치 이미지 데이터를 포함하고,
상기 제2 패치 이미지 데이터의 크기는 상기 제1 패치 이미지 데이터의 크기보다 크고,
상기 제4 컨볼루션 레이어는 제4_1 컨볼루션 레이어와 상기 제4_1 컨볼루션 레이어의 출력을 입력으로 받는 제4_2 컨볼루션 레이어를 포함하고,
상기 제1 패치 이미지 데이터로 상기 제1 컨볼루션 신경망을 1차 트레이닝한 후에, 상기 제2 패치 이미지 데이터로 상기 제1 컨볼루션 신경망을 트레이닝하는 것을 더 포함하고,
상기 복수의 2차원 트레이닝 이미지 데이터 전체로 상기 제1 컨볼루션 신경망을 2차 트레이닝하는 것은,
상기 제4_1 컨볼루션 레이어의 파라미터를 상기 제2 패치 이미지 데이터로 상기 제1 컨볼루션 신경망을 트레이닝한 결과에 따라 고정시키는 것을 포함하는 신경망 학습 방법.
제1 항에 있어서,
상기 3차원 트레이닝 영상 데이터는 DBT(Digital Breast Tomosynthesis) 영상 및 CT(computed tomography) 영상 중 적어도 하나인 신경망 학습 방법.
제1 항에 있어서,
상기 제1 컨볼루션 신경망을 트레이닝 하는 것은,
상기 복수의 2차원 트레이닝 이미지 데이터와 도메인(domain)이 다른 추가 2차원 트레이닝 이미지 데이터와 상기 복수의 2차원 트레이닝 이미지 데이터로 제1 컨볼루션 신경망을 트레이닝하는 것을 포함하는 신경망 학습 방법.
제9 항에 있어서,
상기 추가 2차원 트레이닝 이미지 데이터는 FFDM(full-field digital mammography) 및 X-ray 중 적어도 하나인 신경망 학습 방법.
제1 항에 있어서,
상기 제2 컨볼루션 신경망을 3차 트레이닝하는 것은,
상기 복수의 2차원 트레이닝 이미지 데이터에서 상기 제2 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어가 추출한 각각의 2차원 피쳐 맵(feature map)을 연결(concatenate)하여 3차원 피쳐 맵을 형성하고,
상기 3차원 피쳐 맵으로 상기 3차원 컨볼루션 레이어를 트레이닝하는 것을 포함하는 신경망 학습 방법.
제11 항에 있어서,
상기 각각의 2차원 피쳐 맵을 연결하는 것은,
상기 각각의 2차원 피쳐 맵을 압축하여 연결하는 것을 포함하는 신경망 학습 방법.
제12 항에 있어서,
상기 각각의 2차원 피쳐 맵을 압축하는 것은 상기 제2 컨볼루션 신경망이 상기 각각의 2차원 피쳐 맵을 컨볼루션하여 압축하는 것을 포함하는 신경망 학습 방법.
메모리를 포함하는 컴퓨팅 장치와 결합하여,
복수의 2차원 트레이닝 이미지 데이터가 각각 포함하는 제1 패치 이미지 데이터로 상기 메모리를 사용하여 제1 컨볼루션 신경망을 1차 트레이닝하되, 상기 제1 컨볼루션 신경망은 상기 복수의 2차원 트레이닝 이미지 데이터를 입력 받는 2차원 컨볼루션 레이어를 포함하고, 상기 2차원 컨볼루션 레이어는 제1 컨볼루션 레이어 및 상기 제1 컨볼루션 레이어의 출력을 입력으로 받는 제2 컨볼루션 레이어를 포함하고, 상기 복수의 2차원 트레이닝 이미지 데이터는 3차원 트레이닝 영상 데이터에 포함되는 단계;
상기 복수의 2차원 트레이닝 이미지 데이터 전체로 상기 제1 컨볼루션 신경망을 2차 트레이닝하되, 상기 제1 컨볼루션 레이어의 파라미터는 상기 제1 패치 이미지 데이터로 상기 제1 컨볼루션 신경망을 1차 트레이닝한 결과에 따라 고정되는 단계; 및
상기 3차원 트레이닝 영상 데이터로 상기 메모리를 사용하여 상기 제1 컨볼루션 신경망과 다른 제2 컨볼루션 신경망을 3차 트레이닝하되, 상기 제2 컨볼루션 신경망은 상기 제1 컨볼루션 신경망에 포함된 상기 2차원 컨볼루션 레이어와 동일한 구조의 2차원 컨볼루션 레이어 및 상기 제2 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어의 출력을 입력으로 받는 3차원 컨볼루션 레이어를 포함하고, 상기 제2 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어는 상기 복수의 2차원 트레이닝 이미지 데이터를 입력 받고, 상기 3차원 컨볼루션 레이어는 상기 3차원 트레이닝 영상 데이터를 입력 받는 단계를 실행시키되,
상기 제2 컨볼루션 신경망을 3차 트레이닝하는 단계는, 상기 제2 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어 중 적어도 일부의 파라미터를 상기 제1 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어의 트레이닝 결과에 따라 고정시키고, 상기 3차원 컨볼루션 레이어의 파라미터는 고정시키지 않는 단계를 포함하는 컴퓨터로 판독가능한 기록매체에 저장된 컴퓨터 프로그램.
삭제
컴퓨터 프로그램이 저장된 스토리지;
상기 컴퓨터 프로그램이 로드되는 메모리; 및
상기 컴퓨터 프로그램을 실행시키는 프로세서를 포함하고,
상기 컴퓨터 프로그램은,
복수의 2차원 트레이닝 이미지 데이터로 상기 메모리를 사용하여 제1 컨볼루션 신경망을 트레이닝하되, 상기 제1 컨볼루션 신경망은 상기 복수의 2차원 트레이닝 이미지 데이터를 입력 받는 2차원 컨볼루션 레이어를 포함하고, 상기 복수의 2차원 트레이닝 이미지 데이터는 3차원 트레이닝 영상 데이터에 포함되고, 상기 제1 컨볼루션 신경망을 트레이닝하는 것은 상기 복수의 2차원 트레이닝 이미지 데이터에 각각 포함된 제1 패치 이미지 데이터로 상기 제1 컨볼루션 신경망을 1차 트레이닝하고, 상기 복수의 2차원 트레이닝 이미지 데이터 전체로 상기 제1 컨볼루션 신경망을 2차 트레이닝하는 것을 포함하는 오퍼레이션; 및
상기 3차원 트레이닝 영상 데이터로 상기 메모리를 사용하여 상기 제1 컨볼루션 신경망과 다른 제2 컨볼루션 신경망을 3차 트레이닝하되, 상기 제2 컨볼루션 신경망은 상기 제1 컨볼루션 신경망에 포함된 상기 2차원 컨볼루션 레이어와 동일한 구조의 2차원 컨볼루션 레이어 및 상기 제2 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어의 출력을 입력으로 받는 3차원 컨볼루션 레이어를 포함하고, 상기 제2 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어는 상기 복수의 2차원 트레이닝 이미지 데이터를 입력 받고, 상기 3차원 컨볼루션 레이어는 상기 3차원 트레이닝 영상 데이터를 입력 받고, 상기 제2 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어 중 적어도 일부의 파라미터를 상기 제1 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어의 트레이닝 결과에 따라 고정시키고, 상기 3차원 컨볼루션 레이어의 파라미터는 고정시키지 않는 오퍼레이션을 포함하는 신경망 학습 장치.
제16 항에 있어서,
상기 제1 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어는 제1 컨볼루션 레이어 및 상기 제1 컨볼루션 레이어의 출력을 입력으로 받는 제2 컨볼루션 레이어를 포함하고,
상기 제1 컨볼루션 신경망을 2차 트레이닝하는 오퍼레이션은,
상기 제1 컨볼루션 레이어의 파라미터를 상기 제1 컨볼루션 신경망을 1차 트레이닝한 결과에 따라 고정시키는 오퍼레이션을 포함하는 신경망 학습 장치.
제16 항에 있어서,
상기 제1 컨볼루션 신경망을 트레이닝하는 오퍼레이션은,
상기 복수의 2차원 트레이닝 이미지 데이터와 도메인(domain)이 다른 추가 2차원 트레이닝 이미지 데이터와 상기 복수의 2차원 이미지 데이터로 제1 컨볼루션 신경망을 트레이닝하는 오퍼레이션을 포함하는 신경망 학습 장치.
메모리를 포함하는 신경망 학습 장치에서 수행되는, 복수의 2차원 트레이닝 이미지 데이터를 포함하는 3차원 트레이닝 영상 데이터의 신경망 학습 방법에 있어서,
상기 신경망 학습 장치가 상기 메모리를 사용하여 상기 복수의 2차원 트레이닝 이미지 데이터의 공간 특징(spatial feature)을 학습하는 공간 정보 학습(spatial information learning) 스테이지; 및
상기 신경망 학습 장치가 상기 메모리를 사용하여 상기 복수의 2차원 트레이닝 이미지 데이터 각각의 공간 특징을 종합하여 상기 복수의 2차원 트레이닝 이미지 데이터 사이의 컨텍스트 정보를 학습하는 컨텍스트 정보 학습(context information learning) 스테이지를 포함하되,
상기 공간 정보 학습 스테이지는,
제1 컨볼루션 신경망의 2차원 컨볼루션 레이어를 트레이닝하는 스테이지로서, 상기 복수의 2차원 트레이닝 이미지 데이터에 각각 포함된 제1 패치 이미지 데이터로 상기 제1 컨볼루션 신경망을 1차 트레이닝하는 스테이지와, 상기 복수의 2차원 트레이닝 이미지 데이터 전체로 상기 제1 컨볼루션 신경망을 2차 트레이닝하는 스테이지를 포함하는 스테이지와,
상기 제1 컨볼루션 신경망과 다른 제2 컨볼루션 신경망의 2차원 컨볼루션 레이어를 트레이닝하는 스테이지를 포함하되, 상기 제2 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어는 상기 제1 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어와 동일한 구조를 가지고, 상기 제1 및 제2 컨볼루션 신경망의 2차원 컨볼루션 레이어는 각각 상기 복수의 2차원 트레이닝 이미지 데이터를 입력 받고,
상기 컨텍스트 정보 학습 스테이지는,
상기 제2 컨볼루션 신경망의 3차원 컨볼루션 레이어를 트레이닝하되, 상기 3차원 컨볼루션 레이어는 상기 3차원 트레이닝 영상 데이터를 입력 받는 스테이지를 포함하고,
상기 공간 정보 학습 스테이지 중 상기 제2 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어를 트레이닝하는 스테이지와, 상기 컨텍스트 정보 학습 스테이지는 상기 제2 컨볼루션 신경망을 3차 트레이닝하는 스테이지에 포함되고,
상기 제2 컨볼루션 신경망을 3차 트레이닝하는 스테이지는, 상기 제2 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어 중 적어도 일부의 파라미터를 상기 제1 컨볼루션 신경망의 상기 2차원 컨볼루션 레이어의 트레이닝 결과에 따라 고정시키고, 상기 3차원 컨볼루션 레이어의 파라미터는 고정시키지 않는 스테이지를 포함하는 신경망 학습 방법.
삭제
제19 항에 있어서,
상기 제1 컨볼루션 신경망을 2차 이미지 레벨 트레이닝하는 스테이지는 상기 제1 컨볼루션 신경망의 1차 트레이닝하는 스테이지의 결과를 반영하여 트레이닝하는 스테이지를 포함하는 신경망 학습 방법.
제19 항에 있어서,
상기 제2 컨볼루션 신경망을 3차 트레이닝하는 스테이지는,
상기 제1 컨볼루션 신경망을 1차 및 2차 트레이닝하는 스테이지의 결과를 반영하여 상기 복수의 2차원 트레이닝 이미지 데이터 각각의 공간 특징을 다시 학습하고, 상기 공간 특징을 종합하여 상기 복수의 2차원 트레이닝 이미지 데이터 사이의 컨텍스트 정보를 학습하는 스테이지를 포함하는 신경망 학습 방법.