KR20210127069A

KR20210127069A - 융합 모델 신경망의 성능 제어 방법

Info

Publication number: KR20210127069A
Application number: KR1020200187864A
Authority: KR
Inventors: 수후이 쿠; 이장환; 징후아 야오; 사이 마라파레디; 얀 캉
Original assignee: 삼성디스플레이 주식회사
Priority date: 2020-04-10
Filing date: 2020-12-30
Publication date: 2021-10-21
Also published as: US11948347B2; US20240242494A1; US20210319270A1

Abstract

본 발명의 한 실시예에 따른 융합 모델 신경망의 성능 제어 방법은, 제1 신경망에 대하여 제1 소스로 미리 훈련된 제1 후보 모델 집합을 취득하는 단계, 제2 신경망에 대하여 제2 소스로 미리 훈련된 제2 후보 모델 집합을 취득하는 단계, 상기 제1 후보 모델 중 하나와 상기 제2 후보 모델 중 하나로 이루어진 각각의 짝에 대하여, 모델 거리(model distance)(D_m)를 결정하는 단계, 상기 모델 거리(D_m)에 기초하여 상기 제1 후보 모델과 상기 제2 후보 모델로 이루어진 짝들의 부분 집합을 선택하는 단계, 그리고 상기 부분 집합에 기초하여 상기 제1 신경망과 상기 제2 신경망을 결합하여 융합 모델 신경망의 두 가지(branch)를 생성하는 단계를 포함한다.

Description

융합 모델 신경망의 성능 제어 방법 {METHOD OF CONTROLLING PERFORMANCE OF FUSION MODEL NEURAL NETWORK}

본 발명은 융합 모델 신경망의 성능 제어 방법에 관한 것이다.

본 출원은 2020년 4월 10일에 미국 특허청에 출원한 미국 특허출원번호 제63/008,484호를 우선권 주장하며, 여기에 인용함으로써 이 출원의 전체 내용을 본원에 포함한다.

표시 장치 산업은 최근 급격하게 성장하고 있다. 요청에 따라 새로운 종류의 표시 패널 모듈과 서로 다른 제조 방법이 투입되고 있으며 제품 사양이 엄격해지고 있다. 이러한 변화 가운데에서 제품 품질을 유지하려면 보통 장비 및 품질 관리 방법을 강화할 필요가 있다. 더 상세하게는, 결함의 조기 발견, 이상 공정 상태 예측, 품질 불량 예측을 기대한다.

표시 패널의 제조에서, 결함 검토 시스템을 사용하여 결함을 분류하고 결함의 근본 원인을 판단하는 데 도움을 준다. 결함 검토 시스템은 보통 결함 영역 주변의 고해상도(마이크로미터 아래 레벨) 영상을 획득함으로써 이를 수행한다. 획득한 영상에 기초하여, 작업자는 결함의 종류와 그 결함이 생산량에 어떻게 영향을 미치는지에 따라 그 결함을 범주로 분류할 수 있다. 더 상세하게 설명하자면, 작업자는 다수의 결함 영상을 샘플링하고, 많은 시간을 소비하여 분류되지 않은 결함 영상을 범주로 나눌 수 있는 특징을 찾는다. 이 과정은 시간이 많이 들 뿐 아니라, 작업자에 따라 분류가 달라지기 때문에 일관성이 없다.

이러한 속도 및 일관성 문제를 해결하기 위하여 결함 분류 자동화 시스템이 개발되고 있으며, 일부 시스템은 복잡한 기계 학습 방법을 사용한다. 매우 많은 수의 서로 다른 종류의 영상들, 이들 각각에 (존재한다면) 존재하는 결함의 정확한 식별, 각 결함에 부여할 가중치/중요도(weight/significance)의 정도에 대한 판단 등 여러 요인으로 인하여 속도와 정확도를 소기의 수준까지 달성하는 것은 아직 시험대에 있다.

본 발명이 해결하고자 하는 과제는 영상 기반 결함 감지/식별(IBDI: image-based defect detection/identification) 시스템을 더 빠르고 더 정확하게 하는 것이다.

본 발명의 한 실시예에 따른 영상 기반 예측 시스템은, 제1 소스를 입력 데이터로 사용하여 제1 후보 모델 집합으로 미리 훈련된 제1 신경망, 제2 소스를 입력 데이터로 사용하여 제2 후보 모델 집합으로 미리 훈련된 제2 신경망, 상기 제1 후보 모델 중 하나와 상기 제2 후보 모델 중 상기 제1 후보 모델 중 하나와 상기 제2 후보 모델 중 하나로 이루어진 각각의 짝에 대하여, 모델 거리(model distance)(D_m)를 계산하는 프로세서, 상기 제1 신경망과 상기 제2 신경망의 선택된 짝으로부터 생성된 융합 모델을 포함한다.

이와 같이 함으로써 영상 기반 결함 감지/식별 시스템을 더 빠르고 더 정확하게 할 수 있다.

도 1은 본 발명의 한 실시예에 따른 다중 모드(multi-modal) IBDI 시스템의 개략적으로 보여준다.
도 2는 본 발명의 한 실시예에 따른 모델 거리 생성 과정을 개략적으로 보여준다.
도 3은 본 발명의 한 실시예에 따른 톱 K 짝 선택 자동화 과정을 개략적으로 보여준다.
도 4a 내지 도 4c는 본 발명의 한 실시예에 따라 사용될 수 있는 다중 모드 모델을 보여준다.
도 5는 정확도 개선과 모델 거리(Dm)의 상호 관계를 그래프로 보여준다.
도 6은 상호 정보량과 상대적인 개선 사이의 상호 관계를 그래프로 보여준다.
도 7은 본 발명의 한 실시예를 수행하는 데 사용할 수 있는 데이터 처리 시스템을 개략적으로 나타낸다.
도 8은 신경망의 뉴런-시냅스 모델의 기호화 표현이다.

본 발명을 표시 장치 패널 제조와 관련하여 설명하겠지만, 여기에서 설명하는 시스템과 방법은 반도체 제조를 위한 결함 식별 및 범주화 등 다른 식별 및 범주화 기기에도 적용할 수 있다. 또한 두 개의 가지를 가지는 다중 소스 데이터와 관련하여 설명하겠지만, 본 발명은 이에 한정되지 않는다.

종래의 영상 분류 문제에서, 데이터 집합(dataset)에서 하나의 "인스턴스(instance)"는 보통 하나의 영상이며, 이러한 영상에 대해서 신경망 모델(neural network model)을 훈련시켜 예측 확률과 실측 자료 사이의 손실을 최소화한다. 예를 들면, 신경망이 고양이를 식별하기 위하여 훈련 중이라면, 하나 이상의 고양이가 있거나[긍정적(positive)] 고양이가 없는[부정적(negative)] 일련의 단일 영상들로 훈련을 할 것이다. 영상 기반 결함 감지/식별(IBDI: image-based defect detection/identification)의 경우에, 데이터 집합은 앞서의 고양이 예와는 다를 것이다. IBDI 데이터 집합의 각 "인스턴스"는 다양한 데이터 소스[보기: 현미경 영상(microscopy image) 및 분광기 영상(spectroscopy image), 또는 투과 전자 현미경(TEM: transmission electron microscopy) 영상 및 고각 환형 암장(HAADF: high-angle annular dark-field) 영상]를 포함하며, 각 소스로부터의 데이터는 하나 이상의 독립 영상으로 표현된다. 예를 들면, HAADF 영상기의 출력은 서로 다른 영상이며, 각 영상은 서로 다른 원소/물질(element/material)에 적절히 대응한다. 따라서, IBDI 시스템용 신경망은 서로 다른 가지를 포함할 수 있으며, 각 가지는 그 가지에 대응하는 데이터 소스와 관련된 하나 이상의 모델을 포함한다.

도 1은 본 발명의 한 실시예에 따른 다중 모드(multi-modal) IBDI 시스템의 개략적으로 보여준다. 이 시스템은 제1 가지 신경망(branch neural network)(줄여서 제1 가지)(100)을 포함하며, 제1 가지(100)는 내부적으로 정렬된(internally aligned) 제1 데이터 집합을 수신(receive) 또는 취득(obtain)하여 제1 가지(100) 내에 있는 하나 이상의 모델을 훈련한다. 여기에서 데이터 집합이 "내부적으로 정렬된다(internally aligned)"는 것은 동일한 데이터 수집 시스템(data acquisition system)으로부터 수집되거나 동일한 데이터 수집 소스(same data acquisition source)를 사용한다는 것을 뜻한다. 이 시스템은 또한 제2 가지 신경망(줄여서 제2 가지)(200)을 포함하며, 제2 가지(200)는 내부적으로 정렬된 제2 데이터 집합을 수신하여 제2 가지(200) 내에 있는 하나 이상의 모델을 제1 가지(100)와 독립적으로 훈련한다. 제2 데이터 집합은 제1 데이터 집합과 다른 데이터 수집 시스템으로부터 수집될 수 있으나, 동일한 제품(product) 또는 대상(object)에 기초한다. 제1 데이터는 제1 데이터 수집 시스템(보기: TEM 영상 소스)에서 나올 수 있고, 제2 데이터는 제2 데이터 수집 시스템(보기: HAADF 영상 소스)으로부터 나올 수 있다. IBDI 시스템은 제1 및 제2 가지(100, 200) 위의 융합 모델(400)에 있는 컨볼루션 층을 통하여 제1 가지(100)의 하나 이상의 선택된 모델과 제2 가지(200)의 하나 이상의 선택된 모델을 잇는다. 더 상세하게 설명하자면, 제1 가지(100)의 출력과 제2 가지(200)의 출력을 합치거나(concatenating) 두 출력에 연산[보기: 내적(dot product)]을 수행함으로써, 두 출력을 연결할 수 있다. 제1 가지(100)의 하나 이상의 선택된 모델과 제2 가지(200)의 하나 이상의 선택된 모델의 선택에 대해서 뒤에서 더 상세하게 설명한다.

제1 데이터 집합(보기: 제1 데이터/소스) 및 제2 데이터 집합 (보기: 제2 데이터/소스) 각각이 서로 다른 특성(property)[보기: 축척(scale), 해상도(resolution)]을 가지고 입력되어, 각 데이터 집합 내의 서로 다른 영상 집합이 서로 다른 관점의 정보를 제공하도록 한다. 제1 가지(100)의 제1 데이터 집합은 제2 가지(200)의 제2 데이터 집합과 정렬되지 않을 수 있는데, 이는 앞서 언급한 것처럼, 제1 데이터 집합과 제2 데이터 집합이 서로 다른 포맷을 가질 수 있는 서로 다른 시스템/소스를 사용하여 수집되기 때문이다. 포맷은 색 패턴(color pattern), 영상 각도(angle), 축척(scale), 범위(scope), 질감(texture) 등일 수 있다. 어떤 예에서는, 제1 가지(100)에 대한 데이터 소스가 TEM 영상 등 현미경 영상이고, 제2 가지(200)에 대한 데이터 소스가 HAADF 영상과 더불어 에너지 분산형 X-선 분광법(EDS: energy-dispersive X-ray spectroscopy) 영상 등 분광기 영상이다. 제1 데이터 집합 및 제2 데이터 집합은 여기에서 설명하는 실시예에서처럼 정지 영상에 한정되지 않는다. 예를 들면, 제1 데이터 집합 및 제2 데이터 집합 각각은 독립적으로 비디오, 문자, 영상, 라이다 데이터(Lidar data), 레이더 데이터(radar data), 영상 융합 데이터 등일 수 있다.

제1 데이터 집합과 제2 데이터 집합이 서로 다른 데이터 수집 시스템에서 수집되고 내부적으로 정렬되지 않기 때문에, 각 데이터 집합은 따로따로 훈련 받는다. 따라서, 제1 가지(100)의 하나 이상의 모델과 제2 가지(200)의 하나 이상의 모델은 독립적으로 훈련 받는다. 이는 단일한 데이터 수집 시스템으로부터 미리 훈련 받은(pre-trained) 모델이 각 가지 모델을 초기화함으로써 가능하다. 제1 가지(100)에 있는 많은 가지 모델은 서로 다른 모델 구조, 하이퍼 파라미터(hyper-parameters) 등을 사용하여 하나의 단일한 데이터 소스(보기: 제1 데이터 집합)로부터 훈련 받을 수 있고, 제2 가지(200)에 있는 동일하게 많은 수의 모델은 다른 데이터 소스(보기: 제2 데이터 집합)를 사용하여 훈련 받을 수 있다. 각각의 단일한 데이터 소스에 대하여, 많은 모델들이 서로 다른 구조 및 학습 하이퍼 파라미터, 예를 들어, VGG 신경망 구조(architecture), 모바일넷(mobilenet) 신경망 구조, 서로 다른 학습 하이퍼 파라미터를 가지는 레지듀(residue) 신경망 구조로 만들어진다. 따라서, 제1 가지(100)가 서로 다른 모델을 많이 포함하고, 제2 가지(200)도 서로 다른 모델을 많이 포함하며, 제1 가지(100)와 제2 가지(200)의 모델들의 서로 다른 조합 가능성은 더 많다. 서로 다른 모델은 서로 다른 특징을 파악할 것이다.

가지 모델은 둘 이상의 데이터 소스를 사용하여 훈련 받는다. 하나의 예를 들면, 제1 가지 모델은 영상을 소스로 사용하고, 제2 가지 모델은 영상에 대한 설명을 소스로 사용할 수 있다. 가지들은 서로 다른 특성을 가질 수 있는데, 하나는 영상을 처리하고 다른 하나는 문자를 처리한다. 두 개의 가지가 두 개의 서로 다른 데이터 수집 시스템의 출력(보기: HAADF 영상 및 TEM 영상)을 수신하면, 이들은 유사한(like) 영상 및 문자고, 하나의 가지에 대한 입력으로 사용될 수 있다.

각 가지가 이런 식으로 초기화된 다음, 융합 모델(컨볼루션 층)(400)이 훈련 받는다. 융합 모델(400)의 훈련 시간은 융합 모델(400)을 생성하는 데 사용되는 제1 가지(100) 모델과 제2 가지(200) 모델의 짝의 수에 기초할 수 있다. 제1 가지(100) 및 제2 가지(200)의 모델의 모든 가능한 조합에 기초하여 융합 모델(400)을 생성하고 훈련시키는 것은 시간이 많이 든다. 훈련하는 동안, 제1 가지(100)는 제1 데이터 수집 시스템의 입력을 취하고 제1 출력 특성(feature)을 생성한다. 제2 가지(200)는 제2 데이터 수집 시스템의 입력을 취하고 제2 출력 특성을 생성한다. 제1 및 제2 출력 특성은 서로 연결/융합되어 신경망 층인 융합 모델(400)에 훈련용으로 입력된다. 융합 모델(400)은 제1 및 제2 출력 특성의 융합본(fused version)을 취하고 예측을 출력한다.

본 발명의 한 실시예에 따른 방법 및 시스템은 서로 결합하여 다중 모드 융합 모델(400)으로 입력될, 제1 가지(100)에 대한 하나 이상의 미리 훈련된 단일 소스 모델과 제2 가지(200)에 대한 하나 이상의 미리 훈련된 단일 소스 모델을 선택하는 방법을 제공한다. 미리 훈련된 단일 소스 모델의 선택은, 다중 모드 모델을 훈련시키기 전에, 본 발명의 한 실시예에 따른 시스템과 방법이 여러 후보 모델 사이의 거리 메트릭(metric)을 실험하고, 거리 메트릭에 기초하여 다중 모드 모델의 잠재적 정확성을 예측함으로써 이루어진다. 거리 메트릭에 기초하여 하나 이상의 모델을 선택하면 개별적으로 모델의 성능에만 기초하여 융합 모델에 포함될 모델을 선택하는 시스템에 비하여 융합 모델이 더 정확해진다. 모델에 대한 거리 메트릭 측정값은 D _m ( m ₁ , m ₂ , D)으로 표현되고, 각 모델의 잠재 특성 공간 사이의 거리를 표현한다. 여기에서,

은 데이터 집합 D가 미리 훈련시킨 모델 1이고,

는 데이터 집합 D가 미리 훈련시킨 모델 2이다.

본 발명의 한 실시예에 따른 시스템 및 방법은 각 표본(보기: instance)에 대해서

에서

,

와

사이의 거리:

를 결정한다. 본 발명의 한 실시예에 따른 시스템 및 방법은

를 결정하는데,

는 Wasserstein 거리이고, 척도(measure)로서 상호 정보량 손실을 가진다. 여기에서,

는 모델 1이 데이터 표본 x 에서 데이터 수집 시스템 1을 사용하여 데이터 표본을 취한다는 것을 나타낸다.

는 모델 2가 데이터 표본 y 에서 데이터 수집 시스템 2를 사용하여 데이터 표본을 취한다는 것을 나타낸다.

도 2는 [예를 들어 제1 가지(100)의] 제1 모델(100a)과 [예를 들어 제2 가지(200)의] 제2 모델(200a) 사이의 모델 거리(D _m)를 결정하는 방법을 보여주는 도면이다. 도시한 바와 같이, 입력 데이터(D)가 제1 모델(100a)과 제2 모델(200a)에 입력된다. 예를 들면, 입력 데이터(D)는 인스턴스/표본 집합을 포함할 수 있으며, 각 인스턴스/표본(

)은 제1 영상(

)(보기: TEM 영상) 및 제2 영상(

)(보기: HAADF 영상)을 포함한다. 제1 모델(100a)은 제1 영상(보기: 제1형 영상)을 수신하고, 제2 모델(200a)은 제2 영상(보기: 제2형 영상)을 수신할 수 있다. 때로는, 제1 모델(100a) 및 제2 모델(200a)은 동일한 데이터 소스 입력을 가질 수 있는데, 예를 들면, 양 모델은 제1 영상(

)을 수신할 수 있다. 입력 데이터(D)에 응답하여, 제1 모델(100a)은 제1 잠재 특성 공간을 출력하고, 제2 모델(200a)은 제2 잠재 특성 공간을 출력한다. 본 발명의 한 실시예에 따른 시스템 및 방법은 두 가지로부터 출력된 특성 공간 사이의 거리를 결정하여, 앞서 설명한 모델 거리(D _m)를 생성한다.

도 2의 아래쪽에 도시한 바와 같이, 본 발명의 한 실시예에 따른 시스템 및 방법은 또한, 제1 모델(100a) 및 제2 모델(200a) 사이의 모델 거리(D _m)에 기초하여, 입력 데이터(D)에 대한 제1 모델(100a)의 성능에 기초하여, 입력 데이터(D)에 대한 제2 모델(200a)의 성능에 기초하여, 또는 이들의 조합에 기초하여, 제1 모델(100a) 및 제2 모델(200a)을 사용하여 생성한 다중 모드 융합 모델의 성능을 예측한다. 다중 모드 융합 모델의 성능은 모델 거리(D _m)와 관계 있다. 성능을 모델 거리(D _m)의 함수로 그려보면 거의 일직선이 된다. 따라서, 성능과 두 모델 간 모델 거리 등 각 가지의 모델 정보로 정확도 개선을 결정한다.

본 발명의 한 실시예에서는, 거리 메트릭, D _m은 앞서 설명한 것처럼 Wasserstein 거리(상호 정보량 손실이 척도로 있는)로 구현된다. 그러나, 본 발명의 다른 실시예는 다른 거리 척도(measure)를 사용한다. 예를 들면, 본 발명의 다른 실시예는 Euclidean 거리, Mahalanobis 거리, MMD(maximum mean discrepancy) 또는 제1 모델(100a) 및 제2 모델(200a)이 출력하는 특성 공간 사이의 그러한 것을 결정할 수 있다. Wasserstein 거리와 상호 정보량은 융합 모델 성능 개선과 관련 있고, 이러한 상호 관계는 주어진 두 개의 미리 훈련된 모델이 어떤 것이라도 최종 성능을 예측할 수 있다.

제1 가지(100)와 제2 가지(200)로부터의 모델 짝들은 복수 개 있고, 각각의 짝은 제1 가지(100)의 모델 하나와 제2 가지(200)의 모델 하나를 포함한다. 본 발명의 한 실시예에 따른 시스템 및 방법은 각각의 짝에 대해서 짝짓기를 사용하여 생성한 다중 모드 융합 모델의 예측 성능을 앞서 설명한 것과 같이 결정할 수 있다. 발명의 한 실시예에 따른 시스템 및 방법은 톱-K(top-K) 짝짓기에 기초한 K 융합 모델을 생성하고 훈련시킬 수 있다. 도 3은 톱-K 짝 선택 자동화 과정을 개략적으로 보여 준다. 도시한 바와 같이, 제1 가지(100)는 입력 데이터(D)를 사용하여 U 개의 미리 훈련된 모델을 포함하고, 제2 가지(200)는 입력 데이터(D)를 사용하여 V 개의 미리 훈련된 모델을 포함한다. 제1 가지(100)의 U 개의 미리 훈련된 모델 중 하나와 제2 가지(200)의 V 개의 미리 훈련된 모델 중 하나로 이루어진 각각의 짝에 대하여, 거리 평가기(distance evaluator)(500)는 모델 거리(D _m)를 결정한다. 성능 추정기(600)는 여러 짝들의 모델 거리(D _m)를 사용하여 성능을 추정한다. 본 발명의 한 실시예에서는, 성능 추정기(600)는 선을 모델 거리(D _m) 그래프(plot)에 맞춘다. 앞서 언급한 바와 같이, 모델 거리(D _m)는 성능 개선과 관련 있다. 따라서, 성능 추정기(600)가 생성한 선형 모델은 상대적인 성능 개선과 사용되었던 가지 모델의 성능을 예측한다. 따라서, 다중 모드 융합 모델의 성능은 모델 거리(D _m)와 그 선에 기초하여 추정할 수 있다. 그러므로 발명의 한 실시예에 따른 시스템 및 방법은 톱 K 성능을 산출하는 모델 짝짓기를 선택한다. 톱 K 짝을 사용하여 완전한(full) 융합 모델을 생성하고[보기: 하나의 짝짓기 당 하나의 융합 모델(400)이 탄생한다.], 이러한 융합 모델을 훈련시킨다. 이 과정을 자동화하면 가능한 모든 조합을 훈련시키는 것에 비하여 시간을 매우 줄일 수 있으며, 짝들의 어떤 부분 집합이 가장 나은 결과를 낳을지에 대한 인간 추정 기반(human-estimate-based) 추측보다 성능이 전체적으로 좋아질 수 있다.

도 4는 본 발명의 한 실시예에 따라 사용될 수 있는 다중 모드 모델을 보여준다. 제1 가지(100)는 제1 데이터 집합(보기: 제1 소스/데이터 수집 시스템으로부터의 영상)을 수신하여 특성을 추출한다. 제2 가지(200)는 제1 데이터 집합과 정렬되지 않을 수 있는 제2 데이터 집합(보기: 제2 소스/데이터 수집 시스템으로부터의 영상)을 수신한다. 제1 가지(100)는 U 개의 모델에 의하여 독립적으로 미리 훈련 받고, 제2 가지(200)는 V 개의 다른 모델에 의하여 미리 훈련 받는다. 다중 모드 모델을 훈련시키는 데 시간 t가 소요되면, 모든 가능한 서로 다른 조합을 훈련시키는 데에는 U * V * t 만큼의 시간이 소요될 것이다. 그러나 앞에서 설명한 거리 메트릭(Dm)을 사용하면 그 계산이 빨라질 수 있으며, 다음과 같이 성능 이득을 재빨리 계산할 수 있다.

. 톱 K 짝을 선택하고, 융합 모델을 컨볼루션 층의 톱 K 짝으로 훈련시켜 고성능 분류기를 생성할 수 있다. 거리 모델을 사용하여 절약한 시간은 (U * V -k)t 이다.

도 4의 다중 모드 모델 예에서, 제1 가지(100)는 제1 데이터 소스로부터 영상을 입력으로서 수신하고, 제2 가지(200)는 제2 데이터 소스로부터 영상을 입력으로서 수신한다. 제1 가지(100) 및 제2 가지(200) 모두에 대하여, 영상에 공간 인식(spatial attention) 열 지도(heat map)(122, 222)를 덮어 씌워 결함이 발생할 가능성이 있는 곳에 표시를 한다. 이는 영상의 최종 예측 결함 클래스(오류 유형 / 오류 없음)에 기초하여 조정되는 공간 지도 망(space map network)을 생성하는 인식 모듈(attention module)을 통하여 얻어진다. 공간 지도 망은 입력 데이터와 최종 결함 층 결정(final defect layer decision) 사이의 공간적 관계를 나타낸다. 도 4의 예에서, 가지 신경망 및 융합 신경망 각각은 N 개의 블록을 가지는데, "N"은 신경망의 깊이를 나타내는 파라미터이다.

본 발명의 한 실시예에 따르면, 인식 모듈은 피드-포워드(feed-forward) 컨볼루션 신경망(convolutional neural network)에 대한 효과적인 인식 모듈인 CBAM(convolutional block attention module)일 수 있다. 본 발명의 한 실시예에 따르면, CBAM은 공간 및 채널 인식을 제공한다. 공간 인식은 오류 위치와 관련된 공간 열 지도이고, 채널 인식은 데이터의 색상/계조(color/grayscale) 채널과 관련 있다. 각 가지에서, CBAM 모델은 국소화 함수(localization function)를 위하여 훈련 받는다. 도 4에 도시한 실시예에서, MobileNetV2-CBAM 은 한 블록에 사용된다. 그 블록의 MobileNetV2 부분은 여기에서 "중추(backbone)"라고 하며, 독립적으로 훈련시켜 커다란 영상 분류 데이터 집합에 사용한다. 도 4는 CBAM 부분이 처음부터(from scratch) 훈련 받으며, 서로 다른 중추 중 어떤 것과도 통합될 수 있다는 것을 보여준다. 도시한 바와 같이, 중추 부분은 처음부터 훈련 받지 않지만, 분류를 위하여 CBAM과 함께 미세 조정된다. 이러한 미세 조정은 분류 성능을 적정화 또는 개선한다.

CBAM은 특성 지도를 입력으로 수신하고, 이어 일 차원 채널 인식 지도와 이 차원 공간 인식 지도를 추론한다. 채널 인식 모듈은 주어진 입력 영상에 대해서 의미 있는 "것"("what" is meaningful)에 초점을 맞춘다. 공간 인식 모듈은 정보 부분이 있는 "곳"("where" the informative part is)에 초점을 맞추며, 채널 인식과는 상호 보완적이다. 채널 인식과 공간 인식을 계산하는 특정한 방법이 알려져 있으며, Woo, "CBAM: Convolutional Block Attention Module," ECCV 2018 등의 간행물에서 찾을 수 있다. 특성 지도 F R ^C×H×W 를 입력으로서 수신하는 예에서는, 인식 과정 전체를 다음과 같이 요약할 수 있다.

여기에서

는 원소별 곱셈(element-wise multiplication)을 나타낸다. 곱셈을 하는 동안, 인식 값을 동보 통신(broadcast)(복사)한다. 채널 인식 값은 공간 차원을 따라 동보 통신하고, 공간 인식 값은 채널 차원을 따라 동보 통신한다. F"은 CBAM의 출력이다.

도 5 및 도 6은 성능 개선과 모델 거리(Dm)의 상호 관계를 보여준다. 더 상세하게는, 도 5는 정확도 개선과 모델 거리(Dm)의 상호 관계를 보여준다. 도 5는 실험 데이터에 기초하여, 짝짓기에 기초하여 생성된 융합 모델의 정확도 개선에 대한 모델 짝 사이의 Wasserstein 거리(Dm)의 효과를 보여준다. 그래프는 융합 모델에서 거리(Dm)가 짧을수록 정확도가 더 크게 개선되는 강한 상호 관계를 보여 준다. 따라서, 도 5에 기초하여, 톱 K 짝은 가장 짧은 Dm/Wasserstein 거리를 생성하는 K 짝이다. 도 6은 실험 데이터에 기초하여, 짝짓기에 기초하여 생성된 융합 모델에서 상호 정보량과 상대적인 개선 사이의 상호 관계를 보여준다. 상호 정보량이 많아질수록 많이 개선된다.

여기에서는 방법 또는 기술로서 실시예를 설명하였지만, 컴퓨터가 읽을 수 있는 비임시 저장 매체에 인스트럭션의 형태로 저장된 것일 수도 있다. 컴퓨터가 읽을 수 있는 매체는 예를 들면, 컴퓨터가 읽을 수 있는 코드를 저장하는 반도체, 자기, 광자기, 광학 또는 다른 형태의 매체일 수 있다. 또한, 본 발명은 여기에서 설명하는 실시예를 구현한 장치를 포함할 수 있다. 이러한 장치는 본 발명의 실시예를 구현하는 동작을 수행하는 전용 또는 프로그램가능한 회로를 포함할 수 있다.

이러한 장치 예로는 적절하게 프로그램되는 범용 컴퓨터 및/또는 전용 연산 장치(dedicated computing device)를 포함하며, 본 발명의 실시예를 구현하는 다양한 동작을 수행하는 컴퓨터 / 연산 장치 및 전용/프로그램가능한 하드웨어 회로(전기, 기계 및/또는 광학 회로)의 조합을 포함할 수 있다. 예를 들면, 도 3에 도시한 거리 평가기(500) 및 성능 추정기(600)는 도 7에 도시한 것처럼 데이터 처리 시스템(300)으로 구현될 수 있다. 데이터 처리 시스템(300)은 키보드, 마우스 또는 키패드 등 입력 장치(332)와 표시 장치(334), 그리고 프로세서(338)와 통신하는 메모리(336)를 포함할 수 있다. 데이터 처리 시스템(300)은 프로세서(338)와 통신하는 I/O 데이터 포트(346)를 더 포함할 수 있다. I/O 데이터 포트(346)는 데이터 처리 시스템(300)과 다른 컴퓨터 시스템 또는 신경망(100, 200) 등 네트워크 사이의 정보 전송에 사용될 수 있다. 데이터 처리 시스템(300)의 이러한 성분들은 종래의 성분들이다.

본 발명의 실시예에 따른 시스템은 모든 성분이 동일한 위치 내에 있는 경우에 한정되지 않는다. 예를 들면, 본 발명의 한 실시예에 따르면, 도 3의 거리 평가기(500) 및 성능 추정기(600)는 분산 컴퓨팅 시스템으로 구현될 수 있다. 분산 컴퓨팅 시스템은 서로 통신하며 동작들을 조직화한 서로 다른 네트워크 컴퓨터에 그 성분들을 위치시킨다. 거리 평가기(500) 및 성능 추정기(600)는 서로 다른 컴퓨터일 수 있다. 이와는 달리, 거리 평가기(500) 및 성능 추정기(600) 중 하나 또는 둘 다가 서로 다른 컴퓨터에 분산될 수 있다. 시스템의 다른 부분은 또한 적절한 곳에 배치될 수 있다.

신경망은 하드웨어, 소프트웨어 또는 이들의 조합으로 구현될 수 있다. 도 8은 본 발명을 구현하는 데 사용되는 신경망을 하드웨어로 구현한 예를 보여주고 있다. 신경망의 하드웨어 구현은 아날로그 또는 디지털 뉴런-시냅스 회로를 사용하여 만들 수 있으며, 계산이 덜 복잡한 점 등 소프트웨어 구현의 이점을 가지고 있다. 신경망의 하드웨어 판은 소프트웨어 판과 마찬가지로 생물학적 시스템의 뉴런과 시냅스를 흉내 내며, 그래프의 꼭지점(vertices)과 모서리(edges)에 해당한다. 도 8은 뉴런-시냅스 모델의 기호화 표현(symbolic representation)으로서 인접 뉴런으로부터의 입력을 시냅스 가중치(synaptic weights)를 사용하여 더하고, 비선형 활성 함수(activation function)가 뉴런의 출력을 결정한다. 시냅스를 쌓을 때에는, 시냅스 수가 뉴런 수의 제곱으로 조정된다. 시냅스 가중치는 알고리즘이 적절하게 수렴하도록 매우 정밀하게 정의되며, 갱신 가능하다. 뉴런 상태를 위하여, 가중치가 부여된 입력의 총합(summation)을 수행한다. 신경망의 하드웨어 구현은 공개되어 있다.

본 발명은 여기에 기재한 취지와 범위 내에서 변경 및 수정될 수 있다. 본 명세서의 설명은 완전하지 않을 수 있으며 본 발명을 명세서에 기재된 형태 그대로 한정하고자 하는 것이 아니다.

100, 200: 가지(branch)
100a, 200a: 모델
300: 데이터 처리 시스템
332: 입력 장치
334: 표시 장치
336: 메모리
338: 프로세서
346: I/O 데이터 포트
400: 융합 모델
500: 거리 평가기
600: 성능 추정기

Claims

제1 신경망에 대하여 제1 소스로 미리 훈련된 제1 후보 모델 집합을 취득하는 단계,
제2 신경망에 대하여 제2 소스로 미리 훈련된 제2 후보 모델 집합을 취득하는 단계,
상기 제1 후보 모델 중 하나와 상기 제2 후보 모델 중 하나로 이루어진 각각의 짝에 대하여, 모델 거리(model distance)(D_m)를 판단하는 단계,
상기 모델 거리(D_m)에 기초하여 상기 제1 후보 모델과 상기 제2 후보 모델로 이루어진 짝들의 부분 집합을 선택하는 단계, 그리고
상기 부분 집합에 기초하여 상기 제1 신경망과 상기 제2 신경망을 결합하여 융합 모델 신경망의 두 가지(branch)를 생성하는 단계
를 포함하는 융합 모델 신경망의 성능 제어 방법.
제1항에서,
상기 모델 거리(D_m)는
으로 계산되고,

은 데이터 집합
가 미리 훈련시킨 모델 1이고,

는 데이터 집합
가 미리 훈련시킨 모델 2이고,
각 표본에 대해서,
에서
,

는 상호 정보량에 기초한 거리인
융합 모델 신경망의 성능 제어 방법.
제2항에서,
상기 거리 d _s 는 척도로서 상호 정보량 손실을 가지는 Wasserstein 거리, Euclidean 거리, Mahalanobis 거리, MMD(maximum mean discrepancy) 중 하나인 융합 모델 신경망의 성능 제어 방법.
제2항에서,
상기 부분 집합 선택 단계는, 상기 모델 거리(D_m)가 최단인 짝을 선택하는 단계를 포함하며, 상기 모델 거리(D_m)는 척도로서 상호 정보량 손실을 가지는 Wasserstein 거리인 융합 모델 신경망의 성능 제어 방법.
제1항에서,
상기 제1 소스는 입력 영상의 형태인 융합 모델 신경망의 성능 제어 방법.
제5항에서,
상기 제2 소스는 입력 영상의 형태이고,
상기 제1 소스와 상기 제2 소스는 서로 다른
융합 모델 신경망의 성능 제어 방법.
제1항에서,
상기 제1 소스 및 상기 제2 소스 각각은 분광기 영상 및 현미경 영상 중 하나인 융합 모델 신경망의 성능 제어 방법.
제1항에서,
상기 제1 후보 모델과 상기 제2 후보 모델의 톱 K 짝을 선택하는 단계, 그리고
상기 톱 K 짝을 사용하여 상기 융합 모델을 훈련시키는 단계
를 더 포함하며,
상기 톱 K는 상기 모델 거리(D_m)가 최단인 K 개의 짝인
융합 모델 신경망의 성능 제어 방법.
제1항에서,
상기 제1 후보 모델은 서로 다른 모델 구조와 하이퍼 파라미터(hyper-parameters)를 사용하여 상기 제1 소스로부터 훈련 받은 모델인 융합 모델 신경망의 성능 제어 방법.
제1항에서,
상기 제1 소스 및 상기 제2 소스 각각은 TEM(transmission electron microscopy) 영상 및 HAADF(high angle annular dark field) 영상 중 하나인 융합 모델 신경망의 성능 제어 방법.