KR102039138B1

KR102039138B1 - 적대적 학습에 기반한 도메인 어댑테이션 방법 및 그 장치

Info

Publication number: KR102039138B1
Application number: KR1020190038197A
Authority: KR
Inventors: 김효은; 이현재
Original assignee: 주식회사 루닛
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-10-31
Also published as: US20200321118A1

Abstract

적대적 학습에 기반한 도메인 어댑테이션 방법 및 장치가 제공된다. 본 개시의 몇몇 실시예에 따른 적대적 학습에 기반한 도메인 어댑테이션 방법은, 복수의 데이터셋에서 특징 데이터를 추출하는 단계, 상기 복수의 데이터셋 중 제1 도메인(domain)의 제1 클래스(class)에 대응하는 제1 데이터셋에서 추출된 제1 특징 데이터를 이용하여, 제1 클래스에 해당하는 데이터의 도메인을 구분하는 제1 판별기(discriminator)를 학습시키는 단계, 상기 복수의 데이터셋 중 제2 도메인의 상기 제1 클래스에 대응하는 제2 데이터셋에서 추출된 제2 특징 데이터를 이용하여, 상기 제1 판별기를 학습시키는 단계, 상기 복수의 데이터셋 중 상기 제1 도메인의 제2 클래스에 대응하는 제3 데이터셋에서 추출된 제3 특징 데이터를 이용하여, 제2 클래스에 해당하는 데이터의 도메인을 구분하는 제2 판별기를 학습시키는 단계 및 상기 복수의 데이터셋 중 상기 제2 도메인의 상기 제2 클래스에 대응하는 제4 데이터셋에서 추출된 제4 특징 데이터를 이용하여, 상기 제2 판별기를 학습시키는 단계를 포함한다.

Description

적대적 학습에 기반한 도메인 어댑테이션 방법 및 그 장치{METHOD FOR DOMAIN ADAPTATION BASED ON ADVERSARIAL LEARNING AND APPARATUS THEREOF}

본 개시는 적대적 학습에 기반한 도메인 어댑테이션 방법 및 그 장치에 관한 것이다. 보다 자세하게는, 소스 도메인과 타깃 도메인 간의 도메인 어댑테이션을 수행함에 있어서, 적대적 학습을 이용하여 타깃 도메인에서의 모델 성능을 향상시키면서, 모델 구축 비용은 절감할 수 있는 방법 및 그 방법을 지원하는 장치에 관한 것이다.

기계 학습 분야에서, 도메인 어댑테이션(domain adaptation)은 소스 도메인과 타깃 도메인을 구별하지 못하도록 모델을 학습시키는 방법을 의미한다.

도메인 어댑테이션은 타깃 도메인에서의 모델 구축 비용을 절감하기 위해 활용될 수 있다. 또는, 대량의 데이터셋을 용이하게 확보할 수 있는 소스 도메인을 이용하여, 타깃 도메인에서 만족할 만한 성능을 보여주는 모델을 구축하기 위해 이용될 수 있다.

그러나, 유사한 도메인 간에 도메인 어댑테이션이 수행되더라도, 타깃 도메인에서 만족할 만한 성능을 보여주는 모델을 구축하는 것은 쉽지 않다.

한국공개특허 제2018-0120478호 (2018.11.06 공개)

본 개시의 몇몇 실시예들을 통해 해결하고자 하는 기술적 과제는, 특정 클래스에 특화된 판별기(class-specific discriminator)를 포함하는 신경망을 이용하여 적대적 학습에 기반한 도메인 어댑테이션을 수행하는 방법 및 그 방법을 수행하는 장치를 제공하는 것이다.

본 개시의 몇몇 실시예들을 통해 해결하고자 하는 다른 기술적 과제는, 복수의 판별기를 포함하는 신경망에 대한 적대적 학습을 수행함에 있어서, 도메인에 포함된 복수의 클래스 각각에 대응되는 판별기를 활용함으로써, 상기 신경망이 타깃 태스크(target task)가 수행되기 위한 보다 나은 표현(representation)을 학습할 수 있도록 하는 방법 및 그 방법을 수행하는 장치를 제공하는 것이다.

본 개시의 몇몇 실시예들을 통해 해결하고자 하는 또 다른 기술적 과제는, 복수의 판별기를 포함하는 신경망에 대해 적대적 학습에 기반한 도메인 어댑테이션을 수행함에 있어서, 타깃 태스크를 수행하는 레이어의 학습 정확도에 따라, 판별기의 반전 레이블(inverted label)에 기반한 학습을 조정함으로써 적대적 학습에 기반한 도메인 어댑테이션에 따른 성능 개선 효과를 얻을 수 있는 방법 및 그 방법을 수행하는 장치를 제공하는 것이다.

본 개시의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시의 기술분야에서의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한, 본 개시의 몇몇 실시예에 따른 적대적 학습에 기반한 도메인 어댑테이션 방법은, 컴퓨팅 장치에 의하여 수행되는 방법에 있어서, 복수의 데이터셋에서 특징 데이터를 추출하는 단계, 상기 복수의 데이터셋 중 제1 도메인(domain)의 제1 클래스(class)에 대응하는 제1 데이터셋에서 추출된 제1 특징 데이터를 이용하여, 제1 클래스에 해당하는 데이터의 도메인을 구분하는 제1 판별기(discriminator)를 학습시키는 단계, 상기 복수의 데이터셋 중 제2 도메인의 상기 제1 클래스에 대응하는 제2 데이터셋에서 추출된 제2 특징 데이터를 이용하여, 상기 제1 판별기를 학습시키는 단계, 상기 복수의 데이터셋 중 상기 제1 도메인의 제2 클래스에 대응하는 제3 데이터셋에서 추출된 제3 특징 데이터를 이용하여, 제2 클래스에 해당하는 데이터의 도메인을 구분하는 제2 판별기를 학습시키는 단계 및 상기 복수의 데이터셋 중 상기 제2 도메인의 상기 제2 클래스에 대응하는 제4 데이터셋에서 추출된 제4 특징 데이터를 이용하여, 상기 제2 판별기를 학습시키는 단계를 포함할 수 있다.

상기 기술적 과제를 해결하기 위한, 본 개시의 다른 몇몇 실시예에 따른 적대적 학습에 기반한 도메인 어댑테이션 장치는 하나 이상의 인스트럭션들(instructions)을 저장하는 메모리 및 상기 저장된 하나 이상의 인스트럭션들을 실행함으로써, 복수의 데이터셋에서 특징 데이터를 추출하고, 상기 복수의 데이터셋 중 제1 도메인(domain)의 제1 클래스(class)에 대응하는 제1 데이터셋에서 추출된 제1 특징 데이터를 이용하여, 제1 클래스에 해당하는 데이터의 도메인을 구분하는 제1 판별기(discriminator)를 학습시키고, 상기 복수의 데이터셋 중 제2 도메인의 상기 제1 클래스에 대응하는 제2 데이터셋에서 추출된 제2 특징 데이터를 이용하여, 상기 제1 판별기를 학습시키고, 상기 복수의 데이터셋 중 상기 제1 도메인의 제2 클래스에 대응하는 제3 데이터셋에서 추출된 제3 특징 데이터를 이용하여, 제2 클래스에 해당하는 데이터의 도메인을 구분하는 제2 판별기를 학습시키고, 상기 복수의 데이터셋 중 상기 제2 도메인의 상기 제2 클래스에 대응하는 제4 데이터셋에서 추출된 제4 특징 데이터를 이용하여, 상기 제2 판별기를 학습시키는 프로세서를 포함할 수 있다.

상기 기술적 과제를 해결하기 위한, 본 개시의 또 다른 몇몇 실시예에 따른 컴퓨터 프로그램은, 컴퓨팅 장치와 결합되어, 복수의 데이터셋에서 특징 데이터를 추출하는 단계, 상기 복수의 데이터셋 중 제1 도메인(domain)의 제1 클래스(class)에 대응하는 제1 데이터셋에서 추출된 제1 특징 데이터를 이용하여, 제1 클래스에 해당하는 데이터의 도메인을 구분하는 제1 판별기(discriminator)를 학습시키는 단계, 상기 복수의 데이터셋 중 제2 도메인의 상기 제1 클래스에 대응하는 제2 데이터셋에서 추출된 제2 특징 데이터를 이용하여, 상기 제1 판별기를 학습시키는 단계, 상기 복수의 데이터셋 중 상기 제1 도메인의 제2 클래스에 대응하는 제3 데이터셋에서 추출된 제3 특징 데이터를 이용하여, 제2 클래스에 해당하는 데이터의 도메인을 구분하는 제2 판별기를 학습시키는 단계 및 상기 복수의 데이터셋 중 상기 제2 도메인의 상기 제2 클래스에 대응하는 제4 데이터셋에서 추출된 제4 특징 데이터를 이용하여, 상기 제2 판별기를 학습시키는 단계를 실행시키기 위하여 컴퓨터로 판독가능한 기록매체에 저장될 수 있다.

도 1 및 도 2는 본 개시의 몇몇 실시예에 따른 기계학습 장치와 학습 환경을 설명하기 위한 도면이다.
도 3은 본 개시의 몇몇 실시예에 따른 적대적 학습에 기반한 도메인 어댑테이션 방법의 순서도이다.
도 4는 도 3에 도시된 데이터셋 획득 단계 S100의 세부 과정을 나타내는 순서도이다.
도 5 내지 도 6은 본 개시의 몇몇 실시예에 따른 적대적 학습에 기반한 도메인 어댑테이션 방법을 부연 설명하기 위한 개념도이다.
도 7은 도 3에 도시된 출력 레이어 학습 단계 S500의 세부 과정을 나타내는 순서도이다.
도 8 내지 도 9는 본 개시의 다른 몇몇 실시예에 따른 적대적 학습에 기반한 도메인 어댑테이션 방법을 부연 설명하기 위한 개념도이다.
도 10은 본 개시의 다른 몇몇 실시예에 따른 적대적 학습에 기반한 도메인 어댑테이션 방법의 순서도이다.
도 11 내지 도 12는 본 개시의 또 다른 몇몇 실시예에 따른 적대적 학습에 기반한 도메인 어댑테이션 방법을 부연 설명하기 위한 개념도이다.
도 13은 본 개시의 다양한 실시예에 따른 장치를 구현할 수 있는 예시적인 컴퓨팅 장치를 나타내는 하드웨어 구성도이다.
도 14는 본 개시의 몇몇 실시예에 따른 의료영상 분석 시스템의 구성도이다.

이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.

각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

본 명세서에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

본 명세서에 대한 설명에 앞서, 본 명세서에서 사용되는 몇몇 용어들에 대하여 명확하게 하기로 한다.

본 명세서에서, 태스크(task)란, 기계학습을 통해 해결하고자 하는 과제 또는 기계학습을 통해 수행하고자 하는 작업을 지칭한다. 예를 들어, 얼굴 데이터로부터 얼굴 인식, 표정 인식, 성별 분류, 포즈 분류 등을 수행한다고 할 때, 얼굴 인식, 표정 인식, 성별 분류, 포즈 분류 각각이 개별 도메인에 대응될 수 있다. 다른 예로, 의료 이미지 데이터(medical image data)로부터 이상(abnormality)을 인식, 분류, 예측 등을 수행한다고 할 때, 이상 인식, 이상 분류, 이상 예측 각각이 개별 태스크에 대응될 수 있다. 그리고 태스크는 목적 태스크라고 칭할 수도 있다.

본 명세서에서, 신경망(neural network)이란, 신경 구조를 모방하여 고안된 모든 종류의 기계학습 모델을 포괄하는 용어이다. 가령, 상기 신경망은 인공 신경망(artificial neural network; ANN), 컨볼루션 신경망(convolutional neural network; CNN) 등과 같이 모든 종류의 신경망 기반 모델을 포함할 수 있다.

본 명세서에서 인스트럭션(instruction)이란, 기능을 기준으로 묶인 일련의 컴퓨터 판독가능 명령어들로서 컴퓨터 프로그램의 구성 요소이자 프로세서에 의해 실행되는 것을 가리킨다.

본 명세서에서, 도메인 판별기(discriminator)란, 특정 데이터가 속한 도메인을 판별하도록 학습된 모델을 포괄하는 용어이다. 가령, 상기 도메인 판별기는 다양한 종류의 기계학습 모델에 기초하여 구현될 수 있을 것이므로, 본 개시의 기술적 범위는 상기 도메인 판별기의 구현 방식에 의해 제한되지 않는다. 상기 도메인 판별기는 판별기로 약칭될 수도 있다.

이하, 본 개시의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.

도 1은 본 개시의 몇몇 실시예에 따른 기계학습 장치(10)와 학습 환경을 설명하기 위한 도면이다.

도 1을 참조하면, 기계학습 장치(10)는 신경망에 대한 기계학습을 수행하는 컴퓨팅 장치이다. 상기 컴퓨팅 장치는, 노트북, 데스크톱(desktop), 랩탑(laptop), 서버(server) 등이 될 수 있으나, 이에 국한되는 것은 아니며 컴퓨팅 기능이 구비된 모든 종류의 장치를 포함할 수 있다. 상기 컴퓨팅 장치의 일 예는 도 13을 참조하도록 한다. 이하에서는, 설명의 편의상 기계학습 장치(10)를 학습 장치(10)로 약칭하도록 한다.

도 1은 학습 장치(10)가 하나의 컴퓨팅 장치로 구현된 것을 예로써 도시하고 있으나, 실제 물리적 환경에서 학습 장치(10)의 기능은 복수의 컴퓨팅 장치를 통해 구현될 수도 있다. 예를 들어, 학습 장치(10)의 제1 기능은 제1 컴퓨팅 장치에서 구현되고, 학습 장치(10)의 제2 기능은 제2 컴퓨팅 장치에서 구현될 수도 있다. 또한, 복수의 컴퓨팅 장치가 제1 기능과 제2 기능을 나누어 구현할 수도 있다.

도 1에 도시된 데이터셋(12, 13)은 정답 레이블이 주어진 트레이닝 데이터셋으로, 복수의 도메인에 속한 것일 수 있다. 예를 들어, 제1 데이터셋(12)은 제1 도메인에 속한 복수의 트레이닝 샘플(e.g. Data1)로 구성된 데이터셋이고, 제2 데이터셋(13)은 제1 도메인과 상이한 제2 도메인에 속한 복수의 트레이닝 샘플(e.g. Data2)로 구성된 데이터셋일 수 있다. 여기서 트레이닝 샘플은 학습을 위한 데이터의 단위를 의미할 수 있고, 다양한 데이터일 수 있다. 예를 들어, 트레이닝 샘플은 하나의 이미지일 수 있고, 학습 대상 또는 태스크에 따라 이미지 이외의 다양한 데이터를 더 포함할 수도 있다.

본 개시의 다양한 실시예에 따르면, 학습 장치(10)는 적대적 학습에 기반한 도메인 어댑테이션을 이용하여 신경망을 학습시킬 수 있다. 예를 들어, 학습 장치(10)는 상기 도메인 어댑테이션을 이용하여 제1 도메인과 제2 도메인에서 함께 활용될 수 있는 신경망을 구축할 수 있다. 상기 학습은 물론 각 도메인에 속한 데이터셋(12, 13)을 이용하여 수행될 수 있다. 이와 같은 실시예에 한하여, 학습 장치(10)는 도메인 어댑테이션 장치(10)로 명명될 수도 있다.

상기 신경망은 예를 들어 도 2에 도시된 바와 같이 구성될 수 있다. 도 2는 2개의 서로 다른 도메인에 대한 도메인 어댑테이션에 이용될 수 있는 신경망을 예시하고 있다.

도 2에 도시된 바와 같이, 제1 도메인에 속한 제1 데이터셋(12)은 제1 클래스(class)로 분류된 데이터셋(12-1)과 제2 클래스로 분류된 데이터셋(12-2)을 포함할 수 있다. 제2 도메인에 속한 제2 데이터셋(13)도 제1 클래스로 분류된 데이터셋(13-1)과 제2 클래스로 분류된 데이터셋(12-2)을 포함할 수 있다. 이하, 이해의 편의를 제공하기 위해 2개의 도메인을 대상으로 도메인 어댑테이션이 수행되는 것을 설명하나, 도메인의 수는 실시예에 따라 달라질 수 있다.

도 2에 도시된 바와 같이, 신경망은 출력 레이어(15), 2개의 판별기(16, 17) 및 공유된 특징 추출 레이어(14)를 포함할 수 있다.

제1 판별기(16)는 제1 클래스에 대응되고, 제2 판별기(17)는 제2 클래스에 대응되는 것일 수 있다. 즉, 각 판별기(16, 17)는 특정 클래스에 특화된(class-specific) 판별기일 수 있다. 따라서, 제1 판별기(16)는 상기 제1 도메인의 제1 클래스에 해당하는 데이터셋(12-1)과 상기 제2 도메인의 상기 제1 클래스에 해당하는 데이터셋(13-1)에 기초하여 학습될 수 있다. 또한, 제2 판별기(17)는 상기 제1 도메인의 제2 클래스에 해당하는 데이터셋(12-2)과 상기 제2 도메인의 제2 클래스에 해당하는 데이터셋(13-2)에 기초하여 학습될 수 있다.

출력 레이어(15)는 제1 도메인과 제2 도메인에 속한 전체 데이터셋(12, 13)을 이용하여 분류(classification) 등의 타깃 태스크를 수행하도록 학습될 수 있다.

특징 추출 레이어(14)는 두 도메인의 공통적인 특징을 추출해야 하므로, 제1 도메인과 제2 도메인의 데이터셋(12, 13) 모두에 기초하여 학습될 수 있다. 이때, 특징 추출 레이어(14)와 각 판별기(16, 17) 간에는 적대적 학습이 수행될 수 있다. 즉, 판별기(16, 17)는 도메인을 잘 구별하도록 학습되고, 특징 추출 레이어(14)는 도메인을 잘 구별하지 못하도록 학습될 수 있다. 상기 적대적 학습에 관련해서는 도 3 내지 도 12를 참조하여 상세하게 설명하도록 한다.

도 2는 신경망의 대상 클래스가 2개인 것을 예시하고 있으나, 클래스의 수는 신경망의 목적 태스크에 따라 다양하게 정의되고, 설계될 수 있다.

예를 들어, 목적 태스크가 악성 유무를 판단하는 태스크인 경우, 양성(positive)을 가리키는 클래스와 악성(negative)을 가리키는 클래스가 신경망의 대상 클래스로 정의될 수 있다. 또한, 이와 같은 경우, 신경망은 2개의 클래스 각각에 대응되는 2개의 판별기를 포함할 수 있다.

다른 예를 들어, 목적 태스크가 암(cancer)을 진단하는 태스크인 경우, 암(cancer)을 가리키는 클래스, 양성(benign)을 가리키는 클래스, 정상(normal)을 가리키는 클래스가 신경망의 대상 클래스로 정의될 수 있다. 또한, 이와 같은 경우, 신경망은 3개의 클래스 각각에 대응되는 3개의 판별기를 포함할 수 있다.

또 다른 예를 들어, 목적 태스크가 질병의 종류 또는 종양의 종류를 판단하는 태스크인 경우, 각 질병의 종류 또는 종양의 종류를 가리키는 3개 이상의 클래스가 신경망의 대상 클래스로 정의될 수도 있다.

지금까지 도 1 및 도 2를 참조하여 본 개시의 몇몇 실시예에 따른 학습 장치(10)와 학습 환경에 대하여 설명하였다. 이하에서는, 본 개시의 다양한 실시예들에 따른 방법들에 대하여 설명하도록 한다.

상기 방법들의 각 단계는 컴퓨팅 장치에 의해 수행될 수 있다. 다시 말하면, 상기 방법들의 각 단계는 컴퓨팅 장치의 프로세서에 의해 실행되는 하나 이상의 인스트럭션들로 구현될 수 있다. 상기 방법들에 포함되는 모든 단계는 하나의 물리적인 컴퓨팅 장치에 의하여 실행될 수도 있을 것이나, 상기 방법들은 복수의 컴퓨팅 장치에 의하여 실행될 수도 있다. 예를 들어, 상기 방법들의 제1 단계들은 제1 컴퓨팅 장치에 의하여 수행되고, 상기 방법들의 제2 단계들은 제2 컴퓨팅 장치에 의하여 수행될 수도 있다. 이하에서는, 상기 방법들의 각 단계가 도 1에 예시된 학습 장치(10)에 의해 수행되는 것을 가정하여 설명을 이어가도록 한다. 따라서, 상기 방법들에 관한 설명에서 각 동작의 주어가 생략된 경우, 상기 예시된 장치(10)에 의하여 수행될 수 있는 것으로 이해될 수 있을 것이다. 또한, 이하에서 후술될 방법들은 필요에 따라 논리적으로 수행 순서가 바뀔 수 있는 범위 안에서 각 동작의 수행 순서가 바뀔 수 있음은 물론이다.

도 3은 본 개시의 몇몇 실시예에 따른 적대적 학습에 기반한 도메인 어댑테이션 방법의 순서도이다. 단, 이는 본 개시의 목적을 달성하기 위한 바람직한 실시예일 뿐이며, 필요에 따라 일부 단계가 추가되거나 삭제될 수 있음은 물론이다.

이하의 서술에서, 도메인 어댑테이션이 이루어지는 대상 도메인의 수는 2개이고, 학습 대상 신경망의 구조는 도 2에 예시된 바와 같이 구성된 것으로 가정하여 설명하도록 한다. 단, 이는 이해의 편의를 제공하기 위한 것일 뿐이고, 대상 도메인의 수와 신경망의 구조는 실시예에 따라 다양하게 정의되고 설계될 수 있다.

단계 S100에서, 신경망을 학습시키기 위한 데이터셋이 획득된다. 예를 들어, 상기 데이터셋은 제1 도메인에 속하고 제1 클래스와 연관된 제1 데이터셋, 제2 도메인에 속하고 상기 제1 클래스와 연관된 제2 데이터셋, 상기 제1 도메인에 속하고 제2 클래스와 연관된 제3 데이터셋 및 상기 제2 도메인에 속하고 상기 제2 클래스와 연관된 제4 데이터셋을 포함할 수 있다. 이하에서는, 다른 언급이 없는 한 상기 제1 내지 상기 제4 데이터셋을 상술한 바와 동일한 의미로 사용하도록 한다.

몇몇 실시예에서, 상기 제1 도메인의 데이터셋(즉, 제1 데이터셋과 제3 데이터셋)은 제1 촬영 방식에 의해 생성된 이미지로 구성되고, 상기 제2 도메인의 데이터셋(즉, 제2 데이터셋과 제4 데이터셋)은 제2 촬영 방식에 의해 생성된 이미지로 구성될 수 있다. 즉, 촬영 방식을 기준으로 도메인이 구분될 수 있다. 예컨대, 상기 제1 촬영 방식은 FFDM(Full-Field Digital Mammography) 방식이고, 상기 제2 촬영 방식은 DBT(Digital Breast Tomosynthesis) 방식일 수 있다. 이와 같은 경우, FFDM 이미지와 DBT 이미지에 대해 특정 태스크(e.g. 이상 진단, 병변 위치 식별)를 수행할 수 있도록 상기 신경망이 학습될 수 있다.

몇몇 실시예에서, 상기 제1 도메인의 데이터셋(즉, 제1 데이터셋 또는 제3 데이터셋)은 상기 제2 도메인의 데이터셋(즉, 제2 데이터셋 또는 제4 데이터셋)보다 많은 수의 데이터(즉, 트레이닝 샘플)를 포함할 수 있다. 이와 같은 경우, 오버 샘플링(over-sampling)을 통해 상기 제2 도메인의 샘플 수를 증가시키는 과정이 더 수행될 수도 있다.

몇몇 실시예에서, 상기 제1 도메인의 데이터셋(즉, 제1 데이터셋과 제3 데이터셋)은 상기 제2 도메인의 데이터셋(즉, 제2 데이터셋과 제4 데이터셋)과 서로 다른 형태(또는 형식)의 데이터를 포함할 수 있다. 예를 들어, 상기 제1 데이터셋은 2D 이미지(e.g. FFDM 이미지)로 구성되고, 상기 제2 데이터셋은 3D 이미지(e.g. DBT 이미지)로 구성될 수 있다. 다른 예로는, 상기 제1 데이터셋은 단일 채널 또는 단일 레이어 이미지(e.g. FFDM 이미지)로 구성되고, 상기 제2 데이터셋은 멀티 채널 또는 멀티 레이어 이미지(e.g. DBT 이미지)로 구성될 수 있다. 이와 같은 경우, 신경망에 데이터를 입력하기 전에 신경망의 입력 형식에 맞게 입력 데이터의 형태를 조정(또는 변환)하는 등의 과정이 더 수행될 수 있다. 이와 관련하여서는 도 4를 참조하여 상세하게 설명하도록 한다.

도 4는 신경망의 입력 형태가 제1 도메인의 데이터셋(즉, 제1 데이터셋 또는 제3 데이터셋)의 형태에 따라 구현된 것을 가정하고 있다.

도 4를 참조하면, 단계 S101에서, 제1 데이터셋(또는 제3 데이터셋)과 제2 데이터셋(또는 제4 데이터셋)이 서로 다른 형태의 데이터를 포함하는지 판단된다. 데이터의 형태가 상이한 경우, 단계 S102에서, 상기 제2 데이터셋(또는 제4 데이터셋)에 포함된 각각의 데이터에 대하여 상기 제1 데이터셋(또는 제3 데이터셋)과 동일한 입력의 형태를 갖도록 조정(또는 변환)될 수 있다. 구체적인 조정 프로세스는 실시예에 따라 달라질 수 있다.

몇몇 실시예에서, 제1 데이터셋(또는 제3 데이터셋)은 FFDM 이미지고, 상기 제2 데이터셋(또는 제4 데이터셋)은 DBT 이미지일 수 있다. DBT 이미지는 멀티 채널(multi-channel) 또는 3D 형태의 입력(input)도 가능하나, 신경망은 FFDM 이미지와 동일하게 단일 채널 이미지를 입력으로 받도록 구현되어 있을 수 있다. 이와 같은 경우, 멀티 채널 이미지에서 단일 채널 이미지가 추출(또는 샘플링)되고, 추출된 단일 채널 이미지가 신경망으로 입력되도록 할 수 있다.

몇몇 실시예에서 상기 제1 데이터셋(또는 제3 데이터셋)은 단일 레이어 이미지를 포함하고, 상기 제2 데이터셋(또는 제4 데이터셋)은 멀티 레이어 이미지를 포함할 수 있다. 또한, 신경망은 단일 레이어 이미지를 입력으로 받도록 구현되어 있을 수 있다. 이와 같은 경우, 멀티 레이어 이미지에서 단일 레이어 이미지를 추출(또는 샘플링)하고, 추출된 단일 채널 이미지가 신경망으로 입력되도록 할 수 있다.

단계 S103에서, 상기 조정된 데이터가 조건을 만족하는지 판단된다. 상기 조건이란, 상기 조정된 데이터가 학습을 위한 샘플 데이터로 적합한지를 판단하는 기준을 말한다. 예를 들어, 선명도, 제1 데이터셋(또는 제3 데이터셋)과 제2 데이터셋(또는 제4 데이터셋) 간의 비율, 특정 색상의 포함 여부, 데이터의 크기 등이 조건이 될 수 있을 것이다. 조건은 사용자의 입력을 통해 설정될 수도 있고, 태스크의 종류에 따라 자동으로 설정될 수도 있다. 또한, 상술한 조건은 학습되어, 상술한 조정 과정에 반영될 수도 있다.

지금까지 데이터셋 획득 단계 S100의 세부 과정과 관련된 실시예에 대하여 설명하였다.

다시 도 3을 참조하여 설명한다.

이하의 단계 S200 내지 S500은 각 클래스에 특화된 복수의 판별기를 이용하여 도메인 어댑테이션을 수행하는 과정에 관한 것이다. 단계 S200 내지 S500에 대한 본격적인 설명에 앞서, 이해의 편의를 제공하기 위해, 하나의 판별기를 이용하는 경우, 신경망(즉, 태스크)의 정확도가 떨어지는 이유에 대하여 도 5 및 도 6을 참조하여 간략하게 서술하도록 한다.

도 5에 도시된 신경망은 특징 추출 레이어(31)와 태스크를 수행하는 출력 레이어(32)와 도메인을 판별하는 하나의 제1 판별기(33)를 포함한다. 즉, 제1 판별기(33)는 모든 클래스의 데이터셋에 대하여 도메인을 판별하는 동작을 수행한다.

도 5에 도시된 신경망에서 적대적 학습에 기반한 도메인 어댑테이션이 수행되면, 데이터셋의 클래스에 관계없이 제1 판별기(33)는 도메인을 잘 구별하도록 학습되고, 특징 추출 레이어(31)는 도메인을 구별하지 못하도록 학습될 것이다.

도 6은 도 5에 도시된 신경망의 학습 결과를 개념적으로 도시하고 있다. 특히, 도 6은 특징 공간(feature space) 상에서 각 데이터셋(41, 42, 43, 44)의 분포를 개념적으로 도시하고 있다.

각각의 데이터셋(41, 42, 43, 44)의 의미에 대하여 아래의 표 1을 참조한다.

	제1 도메인	제2 도메인
제1 클래스 (C1)	제1 데이터셋(41)	제2 데이터셋(43)
제2 클래스 (C2)	제3 데이터셋(42)	제4 데이터셋(44)

도 6에 도시된 바와 같이, 하나의 판별기가 이용된 경우, 두 도메인에 속한 데이터셋(41 내지 44)이 클래스에 관계없이 특징 공간 상에서 밀집될 수 있다. 즉, 클래스에 관계없이 서로 다른 도메인 간 차이가 최소화되도록 특징 추출 레이어(31)가 학습된 결과, 서로 다른 클래스 간 거리도 함께 감소되어, 서로 다른 클래스에 해당하는 데이터셋(e.g. 41과 42)이 밀집된 영역(46)에 혼재될 수 있다. 이와 같은 경우, 클래스를 구분하는 기준선(45)이 서로 다른 클래스에 해당하는 데이터셋(e.g. 41과 42)을 명확하게 구분할 수 없게 되므로, 태스크의 정확도가 떨어질 수밖에 없다.태스크의 정확도가 떨어지는 문제점을 해결하기 위해, 본 개시의 몇몇 실시예에서는, 각 클래스에 특화된 복수의 판별기가 신경망에 포함될 수 있다. 각각의 판별기는 하나의 클래스에 대응되어 도메인 판별 기능을 수행할 수 있을 것이나, 실시예에 따라 특정 판별기는 하나 이상의 클래스와 대응될 수도 있다.

이하에서는, 다시 도 3을 참조하여 복수의 판별기를 이용하여 도메인 어댑테이션을 수행하는 과정에 대해 상세하게 설명한다.

단계 S200에서, 획득된 데이터셋의 특징 데이터가 신경망의 특징 추출 레이어를 통해 추출된다.

단계 S300에서, 제1 클래스에 해당하는 특징 데이터를 이용하여 제1 판별기와 특징 추출 레이어가 학습된다. 상기 제1 클래스에 해당하는 특징 데이터는 특징 추출 레이어가 제1 클래스에 해당하는 데이터셋(즉, 제1 데이터셋과 제3 데이터셋)을 입력 받아 추출한 특징 데이터를 말한다. 상기 제1 판별기는 상기 제1 클래스를 담당하는 도메인 판별기를 의미할 수 있다.

또한, 상기 제1 클래스에 해당하는 특징 데이터를 이용하여 특징 추출 레이어도 학습되는데, 상기 특징 추출 레이어와 상기 제1 판별기 간에는 적대적 학습이 수행될 수 있다.

상기 적대적 학습이 수행되는 구체적인 방식은 실시예에 따라 달라질 수 있다.

몇몇 실시예에서, 반전 레이블(inverted label)에 기반한 오차에 기초하여 상기 특징 추출 레이어가 학습될 수 있다. 상기 반전 레이블은 정답(ground truth) 도메인 레이블이 반전된 레이블을 의미할 수 있다. 보다 구체적으로, 상기 제1 판별기를 통해 상기 제1 클래스에 해당하는 특징 데이터에 대한 도메인 예측값이 획득될 수 있다. 상기 도메인 예측값이란, 특징 데이터가 추출된 데이터셋이 어느 도메인에 속하는지를 가리키는 각 도메인 별 확률 값(e.g. 도메인 별 컨피던스 스코어)을 의미할 수 있다. 또한, 상기 도메인 예측값과 반전 레이블과의 차이에 기반하여 오차가 산출되고, 상기 오차가 역전파되어 상기 특징 추출 레이어의 가중치가 업데이트될 수 있다. 이 때, 상기 오차의 역전파를 통해 상기 제1 판별기의 가중치는 업데이트되지 않는다. 상기 제1 판별기는 도메인을 잘 구별하도록 학습되어야 하기 때문이다.

다른 몇몇 실시예에서는, 상기 제1 판별기의 도메인 예측값이 반전되고, 반전된 예측값과 정답 도메인 레이블 간의 차이에 기초하여 오차가 산출될 수 있다. 예를 들어, 도메인 예측값에서 제1 도메인 확률과 제2 도메인 확률이 각각 8/10과 2/10라고 할 때, 반전된 도메인 예측값은 제1 도메인 확률이 2/10이고, 제2 도메인 확률은 8/10인 것으로 이해될 수 있다. 또한, 상기 산출된 오차(error)가 역전파되어 특징 추출 레이어의 가중치가 업데이트될 수 있다. 이와 같은 경우에도, 상기 특징 추출 레이어가 입력된 데이터셋의 도메인을 구분할 수 없도록 학습될 수 있다.

또 다른 몇몇 실시예에서는, 상기 제1 판별기의 도메인 예측값과 정답 도메인 레이블 간에 오차가 산출되고, 산출된 오차의 그래디언트(gradient)가 반전될 수도 있다. 즉, 반전된 그래디언트에 기반하여 특징 추출 레이어의 가중치가 업데이트될 수도 있다.

단계 S400에서, 제2 클래스에 해당하는 특징 데이터를 이용하여 제2 판별기와 특징 추출 레이어가 학습된다. 상기 제2 클래스에 해당하는 특징 데이터는 특징 추출 레이어가 제2 클래스에 해당하는 데이터셋을 입력 받아 추출한 특징 데이터를 말한다. 상기 제2 판별기는 상기 제2 클래스를 담당하는 도메인 판별기를 의미할 수 있다.

또한, 상기 제2 클래스에 해당하는 특징 데이터를 이용하여 특징 추출 레이어도 학습되는데, 상기 특징 추출 레이어와 상기 제2 판별기 간에는 적대적 학습이 수행될 수 있다. 이와 관련하여서는, 상술한 단계 S300의 설명을 참조하도록 한다.

단계 S500에서, 출력 레이어가 학습된다. 상기 출력 레이어는 타깃 태스크를 수행하도록 학습되는 레이어(즉, 태스크 특화 레이어)로서, 입력된 데이터셋이 각 클래스에 속할 확률(e.g. 클래스별 컨피던스 스코어)을 출력한다. 본 단계의 구체적인 학습 과정은 도 7에 도시되어 있다.

도 7에 도시된 바와 같이, 출력 레이어에서 출력된 예측값에 대한 오차(즉, 예측값과 정답 레이블 간의 차이)가 산출되고, 산출된 오차를 역전파하여 출력 레이어의 가중치가 업데이트될 수 있다(S501 내지 S503). 이때, 특징 추출 레이어의 가중치도 함께 업데이트될 수 있다.

다시 도 3을 참조하여 설명한다.

도 3은 단계 S500이 단계 S300 및 단계 S400 이후에 수행되는 것으로 예로써 도시하고 있다. 그러나, 이는 이해의 편의를 제공하기 위한 것일 뿐이며, 단계 S500의 일부 과정(즉, 제1 도메인과 연관된 학습 과정)은 단계 S300과 함께 수행되고, 다른 일부 과정(즉, 제2 도메인과 연관된 학습 과정)은 단계 S400과 함께 수행될 수도 있다. 그리고 제1 도메인과 연관된 학습 과정과 제2 도메인과 연관된 학습 과정은 동시에 수행될 수도 있다.

지금까지 도 3 내지 도 7을 참조하여 본 개시의 몇몇 실시예에 따른 적대적 학습에 기반한 도메인 어댑테이션 방법에 대하여 설명하였다. 이하에서는, 도 8 및 도 9를 참조하여 상술한 도메인 어댑테이션 방법을 통해 얻어질 수 있는 학습 결과에 대하여 간략하게 소개하도록 한다.

도 8은 적대적 학습에 기반한 도메인 어댑테이션 방법이 적용된 신경망의 구성을 예시하고 있다. 도 8에 예시된 바와 같이, 상기 신경망은 특징 추출 레이어(51), 출력 레이어(52), 제1 클래스에 특화된 제1 판별기(53) 및 제2 클래스에 특화된 제2 판별기(54)를 포함할 수 있다.

도 9는 도 8에 도시된 신경망의 학습 결과를 개념적으로 도시하고 있다. 특히, 도 9는 특징 공간 상에서 각 데이터셋(61, 62, 63, 64)의 분포를 개념적으로 도시하고 있다.

각 데이터셋(61, 62, 63, 64)의 의미에 대하여 아래의 표 2를 참조한다.

	제1 도메인	제2 도메인
제1 클래스 (C1)	제1 데이터셋(61)	제2 데이터셋(63)
제2 클래스 (C2)	제3 데이터셋(62)	제4 데이터셋(64)

도 9에 도시된 바와 같이, 클래스 특화 판별기를 이용하여 적대적 학습에 기반한 도메인 어댑테이션을 수행하면, 특징 공간 상에서 같은 클래스에 해당하는 데이터셋(61/63 or 62/64) 간 거리는 더 가까워지고, 서로 다른 클래스에 해당하는 데이터셋(61/62 or 63/64) 간 거리는 더 멀어질 수 있다. 이는, 클래스 특화 판별기를 이용하여 각 클래스에 대해 독립적으로 적대적 학습을 수행함으로써, 각 클래스 별로 도메인 간 차이가 최소화될 수 있기 때문이다. 이와 같은 경우, 서로 다른 클래스의 데이터셋이 밀집된 영역에 혼재되어 나타나지 않기 때문에, 클래스를 구분하는 기준선(65)에 의해, 제1 클래스와 제2 클래스를 명확하게 구분될 수 있다. 따라서, 태스크의 정확도가 향상될 수 있다. 즉, 대상 신경망은 서로 다른 도메인의 데이터셋에 대해 높은 정확도로 태스크를 수행할 수 있는 최적의 표현(representation)을 학습할 수 있게 된다.지금까지, 도 3 내지 도 9를 참조하여, 본 개시의 몇몇 실시예에 따른 적대적 학습에 기반 도메인 어댑테이션 방법에 대해 설명하였다. 상술한 방법에 따르면, 클래스 특화 판별기를 이용하여 클래스 별로 적대적 학습을 수행함으로써 소스 도메인뿐만 아니라 타깃 도메인에서도 높은 정확도로 태스크를 수행하는 신경망이 구축될 수 있다. 따라서, 타깃 도메인에서의 모델 구축 비용이 크게 절감될 수 있다.

특히, 상술한 방법은 데이터를 용이하게 확보하기 어려운 도메인(e.g. DBT 도메인)에서의 신경망의 예측 성능의 향상시키기 위해 활용될 수 있으며, 두 도메인 간 유사도가 높을수록 상기 예측 성능은 더욱 향상될 수 있다.

이하에서는, 도 10 내지 도 12를 참조하여, 본 개시의 다른 몇몇 실시예에 따른 적대적 학습에 기반한 도메인 어댑테이션 방법에 대해 설명한다.

도 10은 본 개시의 다른 몇몇 실시예에 따른 적대적 학습에 기반한 도메인 어댑테이션 방법의 순서도이다. 본 개시의 명료함을 위해, 앞선 실시예와 중복되는 내용에 대한 설명은 생략하도록 한다.

도 10에 도시된 바와 같이, 단계 S1000 및 S2000에서, 데이터셋이 획득되고, 획득된 데이터셋의 특징 데이터가 추출된다. 단계 S1000과 단계 S2000의 대한 자세한 설명은 도 3에 도시된 단계 S100과 단계 S200의 설명 부분을 참조하도록 한다.

단계 S3000에서, 각 클래스에 해당하는 특징 데이터를 이용하여 각 판별기가 학습된다. 즉, 특징 추출 레이어를 고정시키고, 판별기에 대한 학습이 수행될 수 있다.

단계 S4000에서, 각 판별기의 학습의 정확도가 임계값을 초과하면, 특징 추출 레이어와 출력 레이어가 학습된다. 상기 학습의 정확도가 임계값을 초과한다는 것은, 상기 각 판별기의 도메인 예측 결과의 정답률이 임계값을 초과하는 것을 의미할 수 있다.

단계 S4000에서, 상기 특징 추출 레이어와 상기 각 판별기 간에는 적대적 학습이 수행될 수 있다. 즉, 상기 특징 추출 레이어는 판별기와는 달리 도메인을 구분할 수 없도록 학습될 수 있다. 상기 적대적 학습의 구체적인 방식에 대해서는 앞선 실시예에서 상세하게 설명한 바, 더 이상의 설명은 생략하도록 한다.

한편, 본 개시의 몇몇 실시예에서는, 출력 레이어의 학습 정확도(즉, 태스크의 정확도)에 기반하여 특징 추출 레이어에 대한 적대적 학습이 제어될 수 있다. 예를 들어, 출력 레이어의 학습의 정확도가 임계 값을 초과(또는 이상)한 경우, 특징 추출 레이어에 대한 적대적 학습이 지속(또는 재개)되도록 제어될 수 있다. 다른 예를 들어, 출력 레이어의 학습의 정확도가 임계 값 미만(또는 이하)인 경우에는, 특징 추출 레이어에 대한 학습이 중단되도록 제어될 수 있다. 출력 레이어의 학습 정확도가 낮다는 것은 특징 공간 상에서 서로 다른 클래스의 데이터셋 간 거리가 가까워졌다는 것을 의미하기 때문이다. 이와 같은 경우, 서로 다른 클래스의 데이터셋 간 거리가 멀어지도록 하기 위해, 적대적 학습은 중단되고, 특징 추출 레이어에 대해 출력 레이어의 예측 오차에 기반한 학습이 수행될 수도 있다. 보다 이해의 편의를 제공하기 위해, 도 11 및 도 12를 참조하여 본 실시예에 대하여 부연 설명하도록 한다.

도 11은 신경망의 학습 결과를 개념적으로 도시하고 있다. 특히, 도 11은 특징 공간 상에서 각 데이터셋(71, 72, 73, 74)의 분포를 개념적으로 도시하고 있다. 각 데이터셋(71, 72, 73, 74)의 의미에 대하여 아래의 표 3을 참조한다.

	제1 도메인	제2 도메인
제1 클래스 (C1)	제1 데이터셋(71)	제2 데이터셋(73)
제2 클래스 (C2)	제3 데이터셋(72)	제4 데이터셋(74)

클래스 별로 도메인 어댑테이션이 수행되면, 특징 공간 상에서 서로 다른 클래스의 데이터셋(72, 73)이 혼재되는 것이 방지될 수 있다. 따라서, 도 11에 도시된 바와 같이, 기준선(75)을 통해 제1 클래스와 제2 클래스가 구분될 수 있다.다만, 서로 다른 클래스의 데이터셋(72, 73) 간 거리(d1)가 더 멀어지고, 같은 클래스의 데이터셋(e.g. 72, 74)간 거리(d3)가 더 가까워진다면, 도메인 어댑테이션에 따른 성능 개선 효과는 더욱 향상될 수 있다. 거리(d1)가 더 멀어질수록 제1 클래스와 제2 클래스는 더욱 분명하게 구분될 수 있고, 거리(d3)가 더 가까워질수록 제1 도메인과 제2 도메인의 구별은 더욱 어려워지기 때문이다.

여기서, 거리(d3)를 더 좁히기 위해, 판별기를 이용한 적대적 학습이 중점적으로 수행되는 경우, 경우에 따라 특징 공간 상에서 거리(d1)도 가까워지는 문제가 발생될 수 있다. 따라서, 거리(d1)를 모니터링하고, 필요 시 거리(d1)가 다시 멀어질 수 있도록 전반적인 학습이 제어될 필요가 있다. 상술한 실시예는 이와 같은 문제를 해결하기 위한 것으로 이해될 수 있다.

보다 구체적으로, 거리(d1)에 대한 모니터링 지표로 출력 레이어의 학습 정확도(즉, 성능 평가 결과)가 이용될 수 있다. 출력 레이어의 정확도가 낮다는 것은 그만큼 거리(d1)가 가깝다는 것을 의미할 수 있기 때문이다.

따라서, 출력 레이어의 학습 정확도가 임계 값 미만이 되면, 판별기를 이용한 특징 추출 레이어의 적대적 학습이 중단될 수 있다. 또한, 거리(d1)가 멀어지도록 하기 위해, 출력 레이어에 대한 학습이 수행될 수 있다. 상기 출력 레이어에 대한 학습은 상기 출력 레이어의 예측 오차를 이용하여 상기 출력 레이어와 상기 특징 추출 레이어의 가중치를 업데이트하는 것을 포함할 수 있다.

이와 반대로, 출력 레이어의 학습 정확도가 임계 값 이상이 되면, 판별기를 이용한 특징 추출 레이어의 적대적 학습이 재개되어, 같은 클래스의 데이터셋 간 거리(d3)가 가까워지도록 학습이 제어될 수 있다.

몇몇 실시예에서는, 출력 레이어의 학습의 정확도가 임계 값 미만이 되면, 상기 출력 레이어의 중요도가 증가되고, 증가된 중요도를 반영하여 출력 레이어에 대한 학습이 수행될 수 있다. 예를 들어, 상기 출력 레이어의 예측 오차를 상기 중요도에 기초하여 증폭시키는 형태로 상기 출력 레이어에 대한 학습이 수행될 수 있다. 이와 같은 경우, 상기 출력 레이어의 학습 정확도가 다시 증가될 수 있다.

도 12는 상술한 실시예에 따른 신경망의 학습 결과를 개념적으로 도시하고 있다.

도 12에 도시된 바와 같이, 같은 클래스의 데이터셋(72, 74) 간 거리(d4)는 가까워지고, 서로 다른 클래스의 데이터셋(73, 74) 간 거리(d2)는 확연히 증가했음을 확인할 수 있다. 이와 같이, 상술한 실시예에 따르면, 동일한 클래스에 속한 데이터셋간 거리는 가까워지고 서로 다른 클래스간 거리는 멀어지도록 학습이 제어됨으로써, 도메인 어댑테이션에 따른 신경망의 성능 개선 효과가 극대화될 수 있다.

지금까지 도 10 내지 12를 참조하여 본 개시의 다른 몇몇 실시예에 따른 적대적 학습에 기반한 도메인 어댑테이션 방법에 대하여 설명하였다.

지금까지 도 1 내지 도 12를 참조하여 설명된 본 개시의 기술적 사상은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비 형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.

이하에서는, 본 개시의 다양한 실시예에 따른 장치(e.g. 학습 장치 10)를 구현할 수 있는 예시적인 컴퓨팅 장치(100)에 대하여 설명하도록 한다.

도 13은 상기 예시적인 컴퓨팅 장치(100)를 나타내는 하드웨어 구성도이다.

도 13에 도시된 바와 같이, 컴퓨팅 장치(100)는 하나 이상의 프로세서(110), 버스(150), 통신 인터페이스(170), 프로세서(110)에 의하여 수행되는 컴퓨터 프로그램(191)을 로드(load)하는 메모리(130)와, 컴퓨터 프로그램(191)을 저장하는 스토리지(190)를 포함할 수 있다. 다만, 도 13에는 본 개시의 실시예와 관련 있는 구성요소들만이 도시되어 있다. 따라서, 본 개시가 속한 기술분야의 통상의 기술자라면 도 13에 도시된 구성요소들 외에 다른 범용적인 구성 요소들이 더 포함될 수 있음을 알 수 있다.

프로세서(110)는 컴퓨팅 장치(100)의 각 구성의 전반적인 동작을 제어한다. 프로세서(110)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(110)는 본 개시의 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 컴퓨팅 장치(100)는 하나 이상의 프로세서를 구비할 수 있다.

메모리(130)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(130)는 본 개시의 다양한 실시예들에 따른 방법/동작을 실행하기 위하여 스토리지(190)로부터 하나 이상의 프로그램(191)을 로드할 수 있다. 메모리(130)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 본 개시의 기술적 범위가 이에 한정되는 것은 아니다.

버스(150)는 컴퓨팅 장치(100)의 구성 요소 간 통신 기능을 제공한다. 버스(150)는 주소 버스(Address Bus), 데이터 버스(Data Bus) 및 제어 버스(Control Bus) 등 다양한 형태의 버스로 구현될 수 있다.

통신 인터페이스(170)는 컴퓨팅 장치(100)의 유무선 인터넷 통신을 지원한다. 또한, 통신 인터페이스(170)는 인터넷 통신 외의 다양한 통신 방식을 지원할 수도 있다. 이를 위해, 통신 인터페이스(170)는 본 개시의 기술 분야에 잘 알려진 통신 모듈을 포함하여 구성될 수 있다. 경우에 따라, 통신 인터페이스(170)는 생략될 수도 있다.

스토리지(190)는 상기 하나 이상의 컴퓨터 프로그램(191)과 각종 데이터(e.g. 학습 데이터셋), 기계학습 모델 등을 비임시적으로 저장할 수 있다. 스토리지(190)는 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다.

컴퓨터 프로그램(191)은 메모리(130)에 로드될 때 프로세서(110)로 하여금 본 개시의 다양한 실시예에 따른 방법/동작을 수행하도록 하는 하나 이상의 인스트럭션들을 포함할 수 있다. 즉, 프로세서(110)는 상기 하나 이상의 인스트럭션들을 실행함으로써, 본 개시의 다양한 실시예에 따른 방법/동작들을 수행할 수 있다.

예를 들어, 컴퓨터 프로그램(191)은 복수의 데이터셋에서 특징 데이터를 추출하는 동작, 상기 복수의 데이터셋 중 제1 도메인(domain)의 제1 클래스에 대응하는 제1 데이터셋에서 추출된 제1 특징 데이터를 이용하여, 제1 클래스에 해당하는 데이터의 도메인을 구분하는 제1 판별기를 학습시키는 동작, 상기 복수의 데이터셋 중 제2 도메인의 상기 제1 클래스에 대응하는 제2 데이터셋에서 추출된 제2 특징 데이터를 이용하여, 상기 제1 판별기를 학습시키는 동작, 상기 복수의 데이터셋 중 상기 제1 도메인의 제2 클래스에 대응하는 제3 데이터셋에서 추출된 제3 특징 데이터를 이용하여, 제2 클래스에 해당하는 데이터의 도메인을 구분하는 제2 판별기를 학습시키는 동작 및 상기 복수의 데이터셋 중 상기 제2 도메인의 상기 제2 클래스에 대응하는 제4 데이터셋에서 추출된 제4 특징 데이터를 이용하여, 상기 제2 판별기를 학습시키는 동작을 수행하도록 하는 인스트럭션들을 포함할 수도 있다. 이와 같은 경우, 컴퓨팅 장치(100)를 통해 본 개시의 몇몇 실시예에 따른 도메인 어댑테이션 장치(e.g. 10)가 구현될 수 있다.

지금까지 도 13을 참조하여 본 개시의 다양한 실시예에 따른 장치를 구현할 수 있는 예시적인 컴퓨팅 장치(100)에 대하여 설명하였다.

다음으로, 본 개시의 몇몇 실시예에 따른 의료영상 분석 시스템의 구성 및 동작을 도 14를 참조하여 설명한다.

도 14에 도시된 바와 같이, 본 실시예에 따른 의료영상 분석 시스템은 의료영상 촬영장치(200) 및 기계 학습 장치(100)를 포함한다. 실시예에 따라 의료 영상 분석 결과 표시 장치(300)가 본 실시예에 따른 의료영상 분석 시스템에 더 포함될 수도 있다.

의료 영상 촬영 장치(200)는 신체에 대한 의료 영상을 촬영하는 장치로서, 예를 들어 X-ray, CT, MRI 등의 영상을 촬영하는 장치일 수 있다. 의료 영상 촬영 장치(200)는 네트워크를 통해 촬영된 영상 데이터를 기계 학습 장치(100)에 제공한다. 의료 영상은 민감한 개인 정보이므로 상기 네트워크는 외부에서의 접속이 차단되는 네트워크일 수 있다. 즉, 기계 학습 장치(100)와 의료 영상 촬영 장치(200)는 같은 병원 내에 위치하는 장치일 수 있을 것이다.

도 14의 기계 학습 장치(100)는 도 14에 도시된 것과 동일한 것으로 이해될 수 있을 것이다. 즉, 기계 학습 장치(100)는 의료 영상 촬영 장치(200)로부터 제공된 영상 데이터를 축적하고, 기계 학습 수행 기준이 만족 되면, 새롭게 축적된 영상 데이터를 이용하여 기계 학습 목적에 맞는 출력 데이터를 출력하는 모델을 더 고도하게 학습시킬 수 있을 것이다. 이 과정에서 도 1 내지 도 12를 참조하여 설명된 적대적 학습에 기반한 도메인 어댑테이션 방법이 수행되는 것이다.

기계 학습 장치(100)에 의하여 학습된 모델의 정의 데이터는 의료 영상 분석 결과 표시 장치(300)에 송신될 수 있다. 의료영상 촬영장치(200) 및 기계 학습 장치(100)와는 달리 의료 영상 분석 결과 표시 장치(300)는 의료영상 촬영장치(200)가 설치된 병원 밖에 위치하는 컴퓨팅 장치일 수도 있다. 의료 영상 분석 결과 표시 장치(300)는 상기 모델의 정의 데이터를 기계 학습 장치(100)로부터 수신하여 저장하고, 분석 대상 의료 영상을 상기 모델에 입력함으로써, 분석 결과 데이터를 얻고, 상기 분석 결과 데이터를 렌더링 하며, 그 결과를 화면에 디스플레이 함으로써, 의료 영상에 대한 추론 결과를 표시할 수 있을 것이다.

지금까지 도 1 내지 도 14를 참조하여 본 개시의 다양한 실시예들 및 그 실시예들에 따른 효과들을 언급하였다. 본 개시의 기술적 사상에 따른 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

이상에서, 본 개시의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 개시의 기술적 사상이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 개시의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시예들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.

이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 개시가 다른 구체적인 형태로도 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시에 의해 정의되는 기술적 사상의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

컴퓨팅 장치에 의하여 수행되는 방법에 있어서,
특징 추출 레이어에 의해 복수의 데이터셋에서 제1 특징 데이터, 제2 특징 데이터, 제3 특징 데이터 및 제4 특징 데이터를 추출하는 단계;
상기 복수의 데이터셋 중 제1 도메인(domain)의 제1 클래스(class)에 대응하는 제1 데이터셋에서 추출된 상기 제1 특징 데이터를 이용하여, 제1 클래스에 해당하는 데이터의 도메인을 구분하는 제1 판별기(discriminator)를 학습시키는 단계;
상기 복수의 데이터셋 중 제2 도메인의 상기 제1 클래스에 대응하는 제2 데이터셋에서 추출된 상기 제2 특징 데이터를 이용하여, 상기 제1 판별기를 학습시키는 단계;
상기 복수의 데이터셋 중 상기 제1 도메인의 제2 클래스에 대응하는 제3 데이터셋에서 추출된 상기 제3 특징 데이터를 이용하여, 제2 클래스에 해당하는 데이터의 도메인을 구분하는 제2 판별기를 학습시키는 단계;
상기 복수의 데이터셋 중 상기 제2 도메인의 상기 제2 클래스에 대응하는 제4 데이터셋에서 추출된 상기 제4 특징 데이터를 이용하여, 상기 제2 판별기를 학습시키는 단계;
상기 제1 판별기 및 상기 제2 판별기 중 적어도 하나의 판별기의 학습의 정확도가 제1 임계 값을 초과하면, 상기 특징 추출 레이어 및 출력 레이어를 학습시키는 단계; 및
상기 출력 레이어가 상기 제1 특징 데이터, 상기 제2 특징 데이터, 상기 제3 특징 데이터 및 상기 제4 특징 데이터를 입력 받아 클래스를 분류하고, 클래스 분류 결과를 출력하는 단계를 포함하는,
도메인 어댑테이션 방법.
제1 항에 있어서,
상기 제1 도메인은 상기 제2 도메인과 적어도 하나의 동일한 클래스를 가지는,
도메인 어댑테이션 방법.
제2 항에 있어서,
상기 제1 도메인 및 상기 제2 도메인은 의료 데이터셋을 포함하는 도메인이고,
상기 클래스는 양성(positive) 및 음성(negative) 중 어느 하나를 가리키는 클래스와, 질병(disease)의 종류를 가리키는 클래스와, 종양(tumor)의 종류를 가리키는 클래스 중 적어도 하나의 클래스를 포함하는,
도메인 어댑테이션 방법.
제1 항에 있어서,
상기 제1 도메인은 2D 이미지에 대응하고,
상기 제2 도메인은 3D 이미지에 대응하는,
도메인 어댑테이션 방법.
제4 항에 있어서,
상기 제1 데이터셋 및 상기 제3 데이터셋은 FFDM(Full-Field Digital Mammography) 이미지를 포함하고,
상기 제2 데이터셋 및 상기 제4 데이터셋은 DBT(Digital breast tomosynthesis) 이미지를 포함하는,
도메인 어댑테이션 방법.
제1 항에 있어서,
상기 제1 데이터셋 및 상기 제3 데이터셋은 단일 레이어 이미지를 포함하고,
상기 제2 데이터셋 및 상기 제4 데이터셋은 멀티 레이어 이미지를 포함하는,
도메인 어댑테이션 방법.
삭제
제1 항에 있어서,
상기 특징 추출 레이어 및 출력 레이어를 학습시키는 단계는,
정답(ground truth) 도메인 레이블이 반전된 반전 레이블과, 상기 제1 판별기로부터 획득한 도메인 예측 값과의 차이에 기반한 오차를 역전파하여 상기 특징 추출 레이어의 가중치를 업데이트 하는 단계를 포함하는,
도메인 어댑테이션 방법.
제8 항에 있어서,
상기 특징 추출 레이어의 가중치를 업데이트 하는 단계는,
상기 특징 추출 레이어의 학습의 결과로 상기 출력 레이어의 학습의 정확도가 제2 임계 값 이상인 경우에 한하여, 정답 도메인 레이블이 반전된 반전 레이블과, 상기 제2 판별기로부터 획득한 도메인 예측 값과의 차이에 기반한 오차를 역전파하여 상기 특징 추출 레이어의 가중치를 업데이트 하는 단계를 포함하는,
도메인 어댑테이션 방법.
제8 항에 있어서,
상기 특징 추출 레이어의 가중치를 업데이트 하는 단계는,
상기 특징 추출 레이어의 학습의 결과로 상기 출력 레이어의 학습의 정확도가 제2 임계 값 미만이면, 상기 반전 레이블의 역전파에 있어서 상기 출력 레이어의 중요도를 증가시키는 단계를 포함하는,
도메인 어댑테이션 방법.
하나 이상의 인스트럭션들(instructions)을 저장하는 메모리 및
상기 저장된 하나 이상의 인스트럭션들을 실행함으로써,
특징 추출 레이어에 의해 복수의 데이터셋에서 제1 특징 데이터, 제2 특징 데이터, 제3 특징 데이터 및 제4 특징 데이터를 추출하고,
상기 복수의 데이터셋 중 제1 도메인의 제1 클래스에 대응하는 제1 데이터셋에서 추출된 상기 제1 특징 데이터를 이용하여, 제1 클래스에 해당하는 데이터의 도메인을 구분하는 제1 판별기를 학습시키고,
상기 복수의 데이터셋 중 제2 도메인의 상기 제1 클래스에 대응하는 제2 데이터셋에서 추출된 상기 제2 특징 데이터를 이용하여, 상기 제1 판별기를 학습시키고,
상기 복수의 데이터셋 중 상기 제1 도메인의 제2 클래스에 대응하는 제3 데이터셋에서 추출된 상기 제3 특징 데이터를 이용하여, 제2 클래스에 해당하는 데이터의 도메인을 구분하는 제2 판별기를 학습시키고,
상기 복수의 데이터셋 중 상기 제2 도메인의 상기 제2 클래스에 대응하는 제4 데이터셋에서 추출된 상기 제4 특징 데이터를 이용하여, 상기 제2 판별기를 학습시키고,
상기 제1 판별기 및 상기 제2 판별기 중 적어도 하나의 판별기의 학습의 정확도가 제1 임계 값을 초과하면, 상기 특징 추출 레이어 및 출력 레이어를 학습시키고,
상기 출력 레이어가 상기 제1 특징 데이터, 상기 제2 특징 데이터, 상기 제3 특징 데이터 및 상기 제4 특징 데이터를 입력 받아 클래스를 분류하고, 클래스 분류 결과를 출력하는 프로세서를 포함하는,
도메인 어댑테이션 장치.
제11 항에 있어서,
상기 제1 도메인은 상기 제2 도메인과 적어도 하나의 동일한 클래스를 가지는,
도메인 어댑테이션 장치.
제12 항에 있어서,
상기 제1 도메인 및 상기 제2 도메인은 의료 데이터셋을 포함하는 도메인이고,
상기 클래스는 양성(positive) 및 음성(negative) 중 어느 하나를 가리키는 클래스와, 질병(disease)의 종류를 가리키는 클래스와, 종양(tumor)의 종류를 가리키는 클래스 중 적어도 하나의 클래스를 포함하는,
도메인 어댑테이션 장치.
제11 항에 있어서,
상기 제1 도메인은 2D 이미지에 대응하고,
상기 제2 도메인은 3D 이미지에 대응하는,
도메인 어댑테이션 장치.
제14 항에 있어서,
상기 제1 데이터셋 및 상기 제3 데이터셋은 FFDM(Full-Field Digital Mammography) 이미지를 포함하고,
상기 제2 데이터셋 및 상기 제4 데이터셋은 DBT(Digital breast tomosynthesis) 이미지를 포함하는,
도메인 어댑테이션 장치.
제11 항에 있어서,
상기 제1 데이터셋 및 제3 데이터셋은 단일 레이어 이미지를 포함하고,
상기 제2 데이터셋 및 제4 데이터셋은 멀티 레이어 이미지를 포함하는,
도메인 어댑테이션 장치.
삭제
제11 항에 있어서,
정답 도메인 레이블이 반전된 반전 레이블과, 상기 제1 판별기로부터 획득한 도메인 예측 값과의 차이에 기반한 오차를 역전파하여 상기 특징 추출 레이어의 가중치를 업데이트 하는,
도메인 어댑테이션 장치.
컴퓨팅 장치와 결합되어,
특징 추출 레이어에 의해 복수의 데이터셋에서 제1 특징 데이터, 제2 특징 데이터, 제3 특징 데이터 및 제4 특징 데이터를 추출하는 단계;
상기 복수의 데이터셋 중 제1 도메인의 제1 클래스에 대응하는 제1 데이터셋에서 추출된 상기 제1 특징 데이터를 이용하여, 제1 클래스에 해당하는 데이터의 도메인을 구분하는 제1 판별기를 학습시키는 단계;
상기 복수의 데이터셋 중 제2 도메인의 상기 제1 클래스에 대응하는 제2 데이터셋에서 추출된 상기 제2 특징 데이터를 이용하여, 상기 제1 판별기를 학습시키는 단계;
상기 복수의 데이터셋 중 상기 제1 도메인의 제2 클래스에 대응하는 제3 데이터셋에서 추출된 상기 제3 특징 데이터를 이용하여, 제2 클래스에 해당하는 데이터의 도메인을 구분하는 제2 판별기를 학습시키는 단계;
상기 복수의 데이터셋 중 상기 제2 도메인의 상기 제2 클래스에 대응하는 제4 데이터셋에서 추출된 상기 제4 특징 데이터를 이용하여, 상기 제2 판별기를 학습시키는 단계;
상기 제1 판별기 및 상기 제2 판별기 중 적어도 하나의 판별기의 학습의 정확도가 제1 임계 값을 초과하면, 상기 특징 추출 레이어 및 출력 레이어를 학습시키는 단계; 및
상기 출력 레이어가 상기 제1 특징 데이터, 상기 제2 특징 데이터, 상기 제3 특징 데이터 및 상기 제4 특징 데이터를 입력 받아 클래스를 분류하고, 클래스 분류 결과를 출력하는 단계를 실행시키기 위하여 컴퓨터로 판독가능한 기록매체에 저장된,
컴퓨터 프로그램.
제19 항에 있어서,
상기 제1 도메인은 2D 이미지에 대응하고,
상기 제2 도메인은 3D 이미지에 대응하는,
컴퓨터 프로그램.