KR20200000451A

KR20200000451A - 반도체 검사 및 계측 시스템들을 위한 확장가능하고 유연한 작업 분배 아키텍처

Info

Publication number: KR20200000451A
Application number: KR1020197037694A
Authority: KR
Inventors: 아자이 굽타; 산카르 벤카타라만; 사시 발라싱암; 모한 마하데반
Original assignee: 케이엘에이 코포레이션
Priority date: 2017-05-23
Filing date: 2018-05-18
Publication date: 2020-01-02
Also published as: KR102606550B1; US20180341525A1; TWI782023B; WO2018217545A1; US11237872B2; TW201907297A; CN110612514A

Abstract

반도체 검사 및 계측을 위한 고 대역폭, 하이브리드 프로세서 계산 시스템들을 위한 실시간 작업 분배 소프트웨어 아키텍처들이 개시된다. 컴퓨팅 요구를 충족시키기 위해 CPU들 및 GPU들의 개수를 변경하는 것에 의해 이미징 프로세싱 컴퓨터 아키텍처가 확장가능할 수 있다. 이 아키텍처는 최대 처리량을 위해 이미지 프로세싱 작업들을 병렬로 실행하기 위해 마스터 노드와 하나 이상의 워커 노드를 사용하여 정의된다. 마스터 노드는 반도체 웨이퍼 또는 레티클로부터의 입력 이미지 데이터를 수신할 수 있다. 입력 이미지 데이터에 기초한 작업들이 워커 노드들 중 하나에 분배된다. 각각의 워커 노드는 적어도 하나의 CPU와 적어도 하나의 GPU를 포함할 수 있다. 이미지 프로세싱 작업은 다수의 태스크들을 포함할 수 있고, 이미지를 프로세싱하기 위해 워커 작업 관리자를 사용하여 태스크들 각각이 워커 노드 내의 CPU 또는 GPU 중 하나에 배정될 수 있다.

Description

반도체 검사 및 계측 시스템들을 위한 확장가능하고 유연한 작업 분배 아키텍처

관련 출원들의 상호 참조

본 출원은 2017년 5월 23일자로 출원되고 미국 출원 번호 62/509,927을 배정받은 가특허 출원에 대한 우선권을 주장하며, 이 미국 출원의 개시내용은 이로써 참고로 포함된다.

개시내용의 분야

본 개시내용은 반도체 검사 및 계측 시스템들에 관한 것이다.

반도체 제조 산업의 발전은 수율 관리, 특히 계측 및 검사 시스템들에 대해 점점 더 많은 요구를 하고 있다. 임계 치수들이 계속 축소된다. 경제성은 산업계에 고수율, 고가치의 생산을 달성하기 위해 시간을 단축시키도록 주도하고 있다. 수율 문제를 검출하는 것으로부터 이를 해결하는 것까지의 총 시간을 최소화하는 것이 반도체 제조업체에 대한 투자 수익률을 결정한다.

로직 및 메모리 디바이스들과 같은, 반도체 디바이스들을 제조하는 것은 전형적으로 반도체 디바이스들의 다양한 피처들 및 다중 레벨들을 형성하기 위해 많은 수의 제조 프로세스들을 사용하여 반도체 웨이퍼를 프로세싱하는 것을 포함한다. 예를 들어, 리소그래피는 레티클로부터의 패턴을 반도체 웨이퍼 상에 배열된 포토레지스트에 전사하는 것을 수반하는 반도체 제조 프로세스이다. 반도체 제조 프로세스들의 부가의 예들은 화학 기계적 폴리싱(CMP), 에칭, 퇴적, 및 이온 주입을 포함하지만, 이들로 제한되지 않는다. 다수의 반도체 디바이스들은 단일 반도체 웨이퍼 상에 어떤 배열로 제조되고 이어서 개별 반도체 디바이스들로 분리될(separated) 수 있다.

검사 프로세스들은 반도체 제조 프로세스 동안 다양한 단계들에서 웨이퍼들 상의 결함들을 검출하여 제조 프로세스에서의 보다 높은 수율, 따라서 보다 높은 수익을 증진시키기 위해 사용된다. 검사는 항상 집적 회로들(IC들)과 같은 반도체 디바이스들을 제조하는 것의 중요한 부분이었다. 그렇지만, 반도체 디바이스들의 치수들이 감소함에 따라, 수용가능한(acceptable) 반도체 디바이스들의 성공적인 제조에 검사가 훨씬 더 중요해지는데, 그 이유는 보다 작은 결함들이 디바이스들을 고장나게 할 수 있기 때문이다. 예를 들어, 반도체 디바이스들의 치수들이 감소함에 따라, 감소하는 크기의 결함들의 검출이 필요하게 되었는데, 그 이유는 상대적으로 작은 결함들조차도 반도체 디바이스들에 원하지 않는 수차들을 야기할 수 있기 때문이다.

결함 검토는 전형적으로 검사 프로세스에 의해 검출되었던 결함들을 재검출하는 것(re-detecting) 및 고배율 광학 시스템 또는 스캐닝 전자 현미경(scanning electron microscope, SEM) 중 어느 하나를 사용하여 보다 고분해능으로 결함들에 관한 부가 정보를 생성하는 것을 수반한다. 결함 검토는 전형적으로 결함들이 검사에 의해 검출되었던 시료들 상의 이산 위치들(discrete locations)에서 수행된다. 결함 검토에 의해 생성된 결함들에 대한 보다 고분해능의 데이터는 프로파일, 거칠기(roughness), 또는 보다 정확한 사이즈 정보 등과 같은 결함들의 어트리뷰트들(attributes)을 결정하는 데 보다 적합하다.

반도체 제조 프로세스 동안 다양한 단계들에서 프로세스를 모니터링 및 제어하기 위해 계측 프로세스들이 또한 사용된다. 시료들 상에서 결함들이 검출되는 검사 프로세스들과는 달리, 계측 프로세스들이 현재 사용되는 검사 툴들(inspection tools)을 사용하여 결정될 수 없는 시료들의 하나 이상의 특성을 측정하는 데 사용된다는 점에서 계측 프로세스들은 검사 프로세스들과 상이하다. 예를 들어, 계측 프로세스들은, 프로세스의 성능이 하나 이상의 특성으로부터 결정될 수 있도록, 프로세스 동안 시료들 상에 형성된 피처들의 치수(예컨대, 선 폭(line width), 두께 등)와 같은 시료들의 하나 이상의 특성을 측정하는 데 사용된다. 그에 부가하여, 시료들의 하나 이상의 특성이 수용가능하지 않은(unacceptable)(예컨대, 특성(들)에 대한 미리 결정된 범위를 벗어난) 경우, 프로세스에 의해 제조된 부가의 시료들이 수용가능한 특성(들)을 갖도록, 시료들의 하나 이상의 특성의 측정치들이 프로세스의 하나 이상의 파라미터를 변경하는 데 사용될 수 있다.

검사에 의해 검출되는 결함들이 결함 검토에서 재방문되는 결함 검토 프로세스들과는 달리, 어떠한 결함도 검출되지 않았던 위치들에서 계측 프로세스들이 수행될 수 있다는 점에서 계측 프로세스들은 결함 검토 프로세스들과 또한 상이하다. 환언하면, 결함 검토와 달리, 계측 프로세스가 시료들 상에서 수행되는 위치들은 시료들 상에서 수행되는 검사 프로세스의 결과들과 무관할 수 있다. 특히, 계측 프로세스가 수행되는 위치들은 검사 결과들과 무관하게 선택될 수 있다.

반도체 검사 및 계측 툴들은 일반적으로 실시간 고 대역폭 임베디드 시스템들이다. 반도체 검사 및 계측 툴들은 계산 부하들을 상이한 프로세서 유형들(예컨대, CPU들 및 GPU들)에 걸쳐 동적으로 분배하는 작업 분배 시스템들(job distribution systems)을 포함하지 않는다. 반도체 검사 및 계측 툴들은 하이브리드(예컨대, CPU 및 GPU) 이미지 프로세싱 시스템들을 또한 포함하지 않는다.

따라서, 반도체 검사 및 계측 툴들에 개선된 작업 분배 아키텍처가 필요하다.

제1 실시예에서 시스템이 제공된다. 이 시스템은 복수의 워커 노드들(worker nodes) 및 복수의 워커 노드들과 전자 통신하는 마스터 노드(master node)를 포함한다. 워커 노드들 각각은 워커 작업 관리자(worker job manager)를 실행하는 적어도 하나의 CPU 및 CPU와 전자 통신하는 적어도 하나의 GPU를 포함한다. 워커 작업 관리자는 수신된 작업을 복수의 태스크들로 분할하도록 구성된다. 워커 작업 관리자들 각각은 수신된 작업의 태스크들 각각을 워커 노드 내의 CPU 중 하나 또는 GPU 중 하나에 배정하도록 구성된다. 워커 작업 관리자들 각각은 워커 노드 내의 GPU 중 하나 대신에 CPU 중 하나에 태스크들 중 하나를 배정할지 또는 워커 노드 내의 CPU 중 하나 대신에 GPU 중 하나에 태스크들 중 하나를 배정할지를 결정하도록 구성된다. 마스터 노드는 반도체 웨이퍼 또는 레티클에 관한 입력 이미지 데이터를 수신한다. 마스터 노드는 입력 이미지 데이터를 적어도 제1 작업으로 분할하고 제1 작업을 워커 노드들 중 하나에 분배하도록 구성된다. 워커 작업 관리자들 각각은 추후 작업에서의 태스크들보다 제1 작업에서의 태스크들을 우선순위화하도록 추가로 구성된다.

워커 노드들 중 하나에서 GPU보다 CPU가 더 많이 있을 수 있거나 워커 노드들 중 하나에서 CPU보다 GPU가 더 많이 있을 수 있다.

마스터 노드는 입력 이미지 데이터를 제2 작업으로 분할하고 제2 작업을 워커 노드들 중 하나에 분배하도록 추가로 구성될 수 있다.

이 시스템은 워커 작업 관리자를 실행하는 CPU와 전자 통신하는 워커 노드들 중 하나 내의 다른 CPU를 포함할 수 있다.

이 시스템은 마스터 노드와 전자 통신하는 적어도 하나의 CPU 워커 노드를 포함할 수 있다. CPU 워커 노드는 GPU 중 어느 것도 갖지 않고 CPU 중 하나 이상을 포함할 수 있다. CPU 워커 노드 내의 CPU 중 하나가 워커 작업 관리자를 실행할 수 있다.

이 시스템은 마스터 노드와 전자 통신하는 적어도 하나의 GPU 워커 노드를 포함할 수 있다. GPU 워커 노드는 워커 작업 관리자를 실행하는 것 외에는 CPU 중 어느 것도 갖지 않고 GPU 중 하나 이상을 포함할 수 있다.

이 시스템은 애플리케이션 프로그래밍 인터페이스를 사용하여 통합 메모리 제어기(integrated memory controller, IMC) 클라이언트와 통신하도록 구성된 인터페이스 계층을 포함할 수 있다.

워커 작업 관리자들 각각은 딥 러닝 모델을 갖는 모듈을 포함할 수 있다. 딥 러닝 모델은 수신된 작업에서의 태스크들 각각을 워커 노드 내의 CPU 중 하나 또는 GPU 중 하나에 배정하도록 구성될 수 있다.

이 시스템은 GPU와 전자 통신하는 신경 네트워크를 포함할 수 있다.

마스터 노드는 프로세싱 툴과 전자 통신할 수 있다. 프로세싱 툴은 반도체 검사 툴 또는 반도체 계측 툴을 포함한다.

제2 실시예에서 방법이 제공된다. 입력 이미지 데이터는 반도체 검사 툴 또는 반도체 계측 툴로부터 마스터 노드에 수신된다. 입력 이미지 데이터는 반도체 웨이퍼 또는 레티클에 관한 것이다. 마스터 노드를 사용하여, 입력 이미지 데이터는 적어도 제1 작업으로 분할된다. 마스터 노드를 사용하여, 제1 작업은 마스터 노드와 전자 통신하는 복수의 워커 노드들 중 제1 워커 노드에 분배된다. 워커 노드들 각각은 워커 작업 관리자를 실행하는 적어도 하나의 CPU 및 CPU와 전자 통신하는 적어도 하나의 GPU를 포함한다. 워커 작업 관리자는 수신된 작업을 복수의 태스크들로 분할하도록 구성된다. 제1 워커 노드 내의 워커 작업 관리자를 사용하여, 제1 작업이 복수의 태스크들로 분할된다. 제1 워커 노드 내의 워커 작업 관리자를 사용하여, 제1 작업에서의 태스크들 각각이 제1 워커 노드 내의 CPU 중 하나 또는 GPU 중 하나에 배정된다. 제1 워커 노드 내의 워커 작업 관리자를 사용하여, 제1 작업에서의 태스크들이 추후 작업에서의 태스크들보다 우선순위화된다.

일 예에서, 입력 이미지 데이터는 마스터 노드를 사용하여 제2 작업으로 분할될 수 있다. 제2 작업은 마스터 노드를 사용하여 복수의 워커 노드들 중 제2 워커 노드에 분배될 수 있다. 제2 워커 노드 내의 워커 작업 관리자를 사용하여, 제2 작업이 복수의 태스크들로 분할될 수 있다. 제2 워커 노드 내의 워커 작업 관리자를 사용하여, 제2 작업에서의 태스크들 각각이 제2 워커 노드 내의 CPU 중 하나 또는 GPU 중 하나에 배정될 수 있다.

워커 작업 관리자들 각각은 딥 러닝 모델을 갖는 모듈을 포함할 수 있다. 딥 러닝 모델은 수신된 작업에서의 태스크들 각각을 워커 노드 내의 CPU 중 하나 또는 GPU 중 하나에 배정하도록 구성될 수 있다. 이 방법은 딥 러닝 모델을 리트레이닝(retraining)시키는 단계를 추가로 포함할 수 있다.

워커 작업 관리자들은 선입 선출 작업 큐(first in first out job queue) 하에서 동작할 수 있다.

워커 작업 관리자는 수신된 작업에서의 태스크들 각각을 워커 노드 내의 CPU 중 하나 또는 GPU 중 하나에 배정하도록 구성될 수 있으며, 워커 작업 관리자는 태스크들의 완료 시간을 최소화하도록 태스크들을 배정한다.

입력 이미지 데이터는 동일한 배치들에서(in equal batches) GPU들에 분배될 수 있다.

입력 이미지 데이터는 다수의 웨이퍼 위치들로부터의 것일 수 있다. 입력 이미지 데이터는 동일한 배치에서(in a same batch) 프로세싱될 수 있다.

제1 작업은 병렬로 그리고 실시간으로 제1 워커 노드에 분배될 수 있다. 입력 이미지 데이터가 메모리에서 취득될 때 제1 작업이 제1 워커 노드에 분배될 수 있다.

본 개시내용의 본질 및 목적들의 보다 충분한 이해를 위해, 첨부 도면들과 관련하여 이루어진 이하의 상세한 설명이 참조되어야 한다.
도 1a 및 도 1b는 본 개시내용에 따른 시스템 아키텍처의 실시예의 블록 다이어그램들을 도시하고, 여기서 도 1b의 워커 노드는 도 1a에서의 워커 노드 0, 워커 노드 1, 워커 노드 (K-1) 각각과 함께 사용될 수 있다;
도 2는 본 개시내용에 따른 GPU 작업 관리자 아키텍처의 실시예의 다이어그램이다;
도 3은 본 개시내용에 따른 다수의 GPU 태스크들을 실행하기 위한 GPU 작업 관리자 아키텍처의 실시예의 상세 다이어그램이다;
도 4는 데이터 병렬처리(data parallelism)를 통한 확장성을 나타내는 다이어그램이다.
도 5는 본 개시내용에 따른 하이브리드 이미지 컴퓨터(IMC) 소프트웨어 아키텍처의 실시예의 다이어그램이다;
도 6은 본 개시내용에 따른 GPU 작업 관리자의 알고리즘 프로세스 소프트웨어 스택의 다이어그램이다;
도 7은 본 개시내용에 따른 방법의 플로차트이다.

비록 청구된 주제(subject matter)가 몇몇 실시예들과 관련하여 기술될 것이지만, 본 명세서에 기재된 이점들 및 특징들 전부를 제공하지는 않는 실시예들을 포함한, 다른 실시예들이 또한 본 개시내용의 범위 내에 있다. 본 개시내용의 범위를 벗어나지 않으면서 다양한 구조적, 논리적, 프로세스 단계, 및 전자적 변경들이 이루어질 수 있다. 그에 따라, 본 개시내용의 범위는 첨부된 청구항들을 참조하는 것에 의해서만 한정된다.

본 명세서에 개시된 실시예들은 반도체 검사 및 계측에 사용될 수 있는 고 대역폭, 하이브리드 프로세서 계산 시스템들을 위한 실시간 작업 분배 소프트웨어 아키텍처들을 포함한다. 이 아키텍처는 확장가능하고, 비용 및 시스템 처리량을 충족시키는 데 요구되는 임의의 계산 대역폭에 대한 컴퓨팅 요구(computing needs)를 충족시키기 위해 CPU들 및 GPU들의 개수가 조정될 수 있다. 따라서, 이 아키텍처는 임의의 반도체 검사 또는 계측 툴 또는 제품 플랫폼에 도움이 될(serve) 수 있다. 일부 실시예들에서, GPU 배칭(GPU batching)은 최소한의 레이턴시를 갖는 효율적인 데이터 전송 및 GPU 코어들의 효율적인 이용을 위해 다수의 태스크들을 GPU들에 디스패치하기 전에 그룹화한다.

본 명세서에 개시된 실시예들은 유연한 아키텍처를 사용할 수 있다. 이 아키텍처는 CPU 상에서 실행될 종래의 알고리즘들에 의해 인터스페이싱되는(interspaced) 임의의 개수의 GPU 바운드(GPU-bound) 태스크 유형들을 포함한, CPU 또는 GPU 상에서의 임의의 유형의 계산을 지원할 수 있다. 모든 종류들의 태스크 유형들이 CPU 또는 GPU 상에서 실행될 수 있다. 그 결과, 이 아키텍처는 하이브리드(CPU/GPU) 해결책을 구축하려고 의도하는 대부분의 검사 및 계측 툴들에 맞게 적합화되고 커스터마이즈될 수 있다. 실시간 분산 아키텍처는 작업들을 최소한의 작업 디스패치 레이턴시로 다수의 노드들에 걸쳐 있는 다수의 프로세서들(예컨대, CPU들 또는 GPU들)에 병렬로 그리고 실시간으로(예컨대, 이미지가 메모리에서 취득될 때) 분배할 수 있다.

이 아키텍처의 실시예들은 CPU-GPU 작업부하들이 노드 내에서 또는 노드들에 걸쳐 자연스럽게 혼합될(예컨대, CPU 태스크에서 GPU 태스크로 CPU 태스크로) 수 있게 해준다. 이는 또한 노드당 불균일한 개수의 CPU들 및 GPU들에 대해 효율적인 프로세싱을 가질 수 있는 능력을 제공할 수 있다. 따라서, 노드당 CPU들의 개수가 노드당 GPU들의 개수보다 많거나 적을 수 있다.

도 1은 시스템 아키텍처(100)의 실시예의 블록 다이어그램이다. 시스템(100)은 마스터 노드(101) 및 다수의 워커 노드들(102)을 포함한다. 마스터 노드(101) 및 워커 노드들(102)은, 고속 인피니밴드(Infiniband) 네트워크를 사용하는 것과 같이, 56 Gbps와 같은 속도로 양방향 통신을 갖도록 접속될 수 있다.

일 예에서, 마스터 노드(101)는 2개의 인텔 x64 프로세서 칩을 포함한다. 예를 들어, 칩당 14개의 CPU 코어를 가진 브로드웰(Broadwell) 칩들이 사용될 수 있다. 이 예에서, 마스터 노드(101)는 256 GB의 RAM을 포함한다.

시스템 아키텍처(100)는 1개 내지 72개 - 이들 사이의 임의의 값 또는 범위를 포함함 - 의 워커 노드(102)를 포함할 수 있다. 특정의 실시예에서, 시스템 아키텍처(101)는 2개 내지 40개의 워커 노드(102)를 포함한다. 또 다른 특정의 실시예에서, 시스템 아키텍처는 18개의 워커 노드(102)를 포함한다.

워커 노드들(102) 각각은 적어도 하나의 CPU(103) 및 CPU(103)와 전자 통신하는 적어도 하나의 GPU(104)를 포함한다. 일 예에서, 워커 노드(102)는 2개의 인텔 x64 프로세서 칩을 포함한다. 예를 들어, 칩당 10개의 CPU 코어를 가진 브로드웰 칩들이 사용될 수 있다. 이 예에서, 워커 노드(102)는 256 GB의 RAM을 포함한다.

각각의 워커 노드(102) 내의 CPU(103) 중 하나는, GPU 작업 관리자와 같은, 워커 작업 관리자(105)를 실행할 수 있다. 워커 작업 관리자(105)는 워커 노드(102) 내의 별개의 CPU 상에서 실행될 수 있다. 예를 들어, 워커 노드(102)는 20개의 CPU를 포함할 수 있으며, 그 중 하나가 워커 작업 관리자(105)를 실행한다.

워커 작업 관리자(105)는 수신된 작업(데이터 샤드(data shard))을 CPU(103) 또는 GPU(104)에 의해 프로세싱될 복수의 태스크들로 분할하도록 구성될 수 있다. 수신된 작업은 워커 노드(102)에 로컬적으로 저장될 수 있다. 작업은, 논리적 이미지 프로세싱 경계들에 기초하여, 다수의 태스크들로 이루어져 있다. 이러한 논리적 분리 중 일부는 태스크들을 분할하는 데 CPU 또는 GPU가 사용되는지에 기초한다.

워커 작업 관리자(105)는 또한 수신된 작업을 다수의 작업으로 분할할 수 있다. 이것은 데이터 병렬처리의 한 형태이다.

일 예에서, 하나 이상의 워커 노드(102)는 그 워커 노드(102) 내의 다른 CPU(103)와 전자 통신하는, 워커 작업 관리자(105)를 실행하기 위한 CPU(103)를 포함한다.

워커 작업 관리자들(105) 각각은 수신된 작업의 태스크들 각각을 워커 노드(102) 내의 CPU(103) 중 하나 또는 GPU(104) 중 하나에 배정하도록 구성될 수 있다. 워커 작업 관리자(105)는 태스크들 각각이 배정되는 CPU(103) 또는 GPU(104)와 동일한 워커 노드(102)에 있을 수 있다.

워커 작업 관리자들(105) 각각은 워커 노드(102) 내의 GPU(104) 중 하나 대신에 CPU(103) 중 하나에 태스크들 중 하나를 배정할지 또는 워커 노드(102) 내의 CPU(103) 중 하나 대신에 GPU(104)에 태스크들 중 하나를 배정할지를 결정하도록 구성될 수 있다.일 예에서, 작업과 연관된 태스크들 각각은 그의 연산을 제어하기 위한 구성 세부사항들을 갖는다. 이 구성 세부사항들 중 하나는 그의 실행을 위한 프로세서 유형일 수 있으며, 이 프로세서 유형은 CPU(103) 또는 GPU(104)가 그의 연산을 실행하는 데 사용되는지를 좌우(dictate)할 수 있다.

워커 작업 관리자(105)는 이어서 다수의 작업들에 대응하는 다수의 CPU 바운드(CPU-bound) 태스크들(예컨대, 태스크 0, 태스크 2, 또는 태스크 4)을 CPU 바운드 알고리즘 프로세스들에 그리고 다수의 작업들에 대응하는 다수의 GPU 바운드 태스크들(예컨대, 태스크 1 또는 태스크 3)을 GPU 바운드 알고리즘 프로세스들 또는 GPU 작업 관리자 프로세스(예시되지 않음)에 디스패치할 수 있다. 예를 들어, 작업 인덱스 T 내지 작업 인덱스 (T+P-1)의 태스크 0은 P개의 CPU 바운드 알고리즘 프로세스에 디스패치될 것인 반면 작업 인덱스들 <=(T-1) 중 일부의 태스크 1 또는 태스크 3은 GPU 작업 관리자 프로세스에 의해 현재 프로세싱되고 있다. 주어진 작업에 대한 모든 태스크들은 CPU들과 GPU들 사이에서 호핑하면서 순차적인 순서로 실행될 수 있으며 여기서 하나의 태스크의 출력은 다음 태스크에 대한 입력으로서 피드된다. 예를 들어, (도 1에 도시된 바와 같이), n개의 작업 중 임의의 것에 대한 태스크 시퀀스는 태스크 0(CPU), 태스크 1(GPU), 태스크 2(CPU), 태스크 3(GPU), 및 태스크 4(CPU)일 것이다. 그렇지만, 작업 X로부터의 태스크들은 작업 Y로부터의 태스크들에 의존하지 않는다. 따라서, CPU 및/또는 GPU들이 프로세싱에 이용가능한 한, 작업 X 및 작업 Y로부터의 태스크들이 병렬로 실행될 수 있다.

GPU 작업 관리자는 각각의 유형의 GPU 기반 작업 실행을 위한 별개의 작업 큐들을 가지는 것에 의해 내부 병렬 워크플로 실행 메커니즘(internal, parallel work-flow execution mechanism)을 가질 수 있다. 일 예에서, “검출" 및 "분류" 유형 GPU 작업들이 있으며, GPU 작업 관리자는 그 작업 큐들에 서비스하기 위한 다수의 CPU 스레드들(내부적으로), 및 GPU 프로세서로부터 출력된 결과들을 프로세싱하기 위한 별개의 CPU 스레드를 포함한다.

GPU 작업 관리자 프로세스에 디스패치되는 GPU 바운드 태스크들은, 보다 높은 CPU 대 GPU 데이터 전송 효율을 갖도록 GPU들에 디스패치되기 전에 입력 데이터의 배칭(batching)을 가능하게 해주기 위해, GPU 작업 관리자 프로세스의 입력 큐에 큐잉될 수 있다. 입력 데이터는 입력 이미지 데이터일 수 있다.

개시된 아키텍처는 임의의 유형의 GPU 바운드 태스크를 지원하도록 충분히 유연하다. 이 아키텍처의 실시예에 대한 계산 모델(compute model)이 생성될 수 있다. 워커 노드들을 추가 또는 제거하는 동안 또는 노드당 GPU들을 추가 또는 제거하는 동안 계산 모델이 업데이트될 수 있다.

시스템 아키텍처(100)는 웨이퍼들을 검사하기 위한 다양한 동작 모드들을 갖는다. 각각의 작업에 대해 수행될 고유한 태스크 세트에 기초하여 각각의 동작 모드에 대한 계산 모델이 설계될 수 있다. 계산 모델은 태스크들의 리스트 및 이미지 입력 조건들에 기초한 각각의 태스크에 대한 계산 시간을 가질 수 있다. 계산 모델은 모든 태스크들의 총 프로세싱 시간을 합계(tally up)할 수 있다. 이 시간에 기초하여, 요구된 입력 이미지 레이트를 충족시키기 위해, CPU 및 GPU 프로세서들의 개수, 및 노드들의 총수가 결정될 수 있다.

입력 데이터가, 예를 들어, 고속 인피니밴드 링크들을 사용하여 노드들에 걸쳐 전송될 수 있다.

이 아키텍처의 다른 실시예들이 가능하다. 예를 들어, 워커 노드들 중 일부만이 CPU들 및 GPU들 둘 다를 포함하고 나머지 워커 노드들은 CPU들만을 포함한다. 다른 예에서, CPU 바운드 및 GPU 바운드 태스크들을 위한 전용 워커 노드들이 있다.

이 아키텍처의 실시예들은 CPU들과 GPU들 사이를 왔다갔다 하면서 다수의 태스크 유형들을 지원할 수 있다. GPU 작업 관리자 데이터 흐름은 도 3에 도시되어 있으며 단일 노드 내의 단일 호스트 CPU 및 다수의 GPU들 상에서 실행되는 GPU 작업 관리자 소프트웨어 스택을 통해 데이터가 어떻게 흐르는지를 보여준다. 도 5에 도시된 GPU 작업 관리자 아키텍처는 실시예들의 유연성 및 확장성을 예시한다.

마스터 노드(101)는 워커 노드들(102)과 전자 통신한다. 마스터 노드(101)는, 입력 이미지 데이터와 같은, 반도체 웨이퍼 또는 레티클에 관한 입력 데이터를 수신할 수 있다. 마스터 노드(101)는 입력 데이터를 적어도 제1 작업으로 분할하고 제1 작업을 워커 노드들(102) 중 하나에 분배하도록 구성될 수 있다. 마스터 노드(101) 상에서 실행되는 마스터 작업 관리자는 입력 데이터를 작업들(데이터 샤드들)로 분할(샤딩)할 수 있다. 각각의 작업은 마스터 노드(101) 내의 마스터 작업 관리자를 사용하여 워커 노드들(102) 중 하나에게 송신된다.

각각의 작업은 웨이퍼 상의 사이트(site)에 대응할 수 있고 그에 관련된 사이트 인덱스(site index)를 가질 수 있다. 입력 데이터를 작업들로 분할할 때, 마스터 노드 작업 관리자는 이미지 컴퓨터 시스템 전체에 걸쳐 로드 밸런싱(load balancing)을 최대화하기 위해 작업들을 워커 노드들에 디스패치할 수 있다. 이것은 사이트/작업과 연관된 모든 태스크들이 단일 워커 노드에게 전송되도록 보장할 수 있으며, 이는 단일 사이트 작업을 프로세싱하기 위한 워커 노드들 사이의 임의의 교차 트래픽(cross traffic)을 최소화한다.

스와싱(swathing) 아키텍처에서는, 입력 데이터가 데이터 전송 레이턴시를 피하기 위해 마스터 노드(101)를 사용하지 않고 워커 노드들(102)에 의해 직접 분할될 것이다.

마스터 노드(101)는, 반도체 검사 또는 반도체 계측 툴과 같은, 프로세싱 툴과 전자 통신할 수 있다. 예를 들어, 마스터 노드(101)는 스캐닝 전자 현미경(scanning electron microscope, SEM), 광학 현미경, 광대역 플라스마(broad band plasma, BBP) 툴, 또는 다른 반도체 검사 또는 계측 툴들과 전자 통신할 수 있다.

워커 작업 관리자들(105) 각각은 추후 작업에서의 태스크들보다 제1 작업에서의 태스크들을 우선순위화하도록 추가로 구성될 수 있다.

마스터 노드(101)는 입력 데이터를 제2 작업으로 분할하고 제2 작업을 워커 노드들(102) 중 하나에 분배하도록 추가로 구성될 수 있다. 이것은 제1 작업을 수신한 바로 그 워커 노드(102) 또는 상이한 워커 노드(102)일 수 있다.

각각의 워커 노드(102)의 구성(composition)은 다를 수 있다. 워커 노드(102)에 GPU(104)보다 CPU(103)가 더 많이 있을 수 있거나, 워커 노드에 동일한 수의 CPU(103) 및 GPU(104)가 있을 수 있거나, 또는 워커 노드(102)에 CPU(103)보다 GPU(104)가 더 많이 있을 수 있다. 도 1에서 동일한 구성을 갖는 것으로 예시되어 있지만, 하나 이상의 워커 노드(102)는 상이한 구성의 CPU(103) 및 GPU(104)를 가질 수 있다. 일 예에서, 워커 노드들(102) 각각은 상이한 구성의 CPU(103) 및 GPU(104)를 가질 수 있다.

일 예에서, 워커 노드(102)에 20개 이상의 CPU 및 1개 내지 4개의 GPU가 있을 수 있다. 일반적으로, 워커 노드(102)에 GPU들보다 CPU들이 더 많이 있지만, 다른 구성들이 가능하다.

시스템(100)은 마스터 노드(101)와 전자 통신하는 적어도 하나의 CPU 워커 노드를 포함할 수 있다. CPU 워커 노드는 하나 이상의 CPU를 포함하며, 그 중 하나는 워커 작업 관리자(105)를 실행한다. CPU 워커 노드는 GPU를 포함하지 않는다.

시스템(100)은 마스터 노드(101)와 전자 통신하는 적어도 하나의 GPU 워커 노드를 포함할 수 있다. GPU 워커 노드는 하나 이상의 GPU를 포함한다. GPU 워커 노드는 CPU를 포함하지 않거나 워커 작업 관리자(105)를 실행할 CPU만을 포함한다.

시스템(100)은 애플리케이션 프로그래밍 인터페이스를 사용하여 IMC 클라이언트와 통신하도록 구성될 수 있는 인터페이스 계층을 포함할 수 있다.

실시예에서, 워커 작업 관리자들(105) 각각은 딥 러닝 모델을 갖는 모듈을 포함한다. 딥 러닝 모델은 수신된 작업에서의 태스크들 각각을 워커 노드(102) 내의 CPU(103) 중 하나 또는 GPU(104) 중 하나에 배정하도록 구성될 수 있다. 딥 러닝 모델이 태스크를 CPU(103) 또는 GPU(104)에 배정하는지는 구성 파일에서의 미리 결정된 설정일 수 있다.

주어진 동작 모드의 검사에 대하여, 대응하는 딥 러닝 모델 또는 모델이 있을 것이다. 모델 또는 모델들의 세트가 그 태스크 구성에 기초하여 각각의 워커 노드의 CPU 또는 GPU 상에 로딩될 수 있다. 일 예에서, 딥 러닝 모델이 CPU 대신에 GPU 상에서 실행된다.

실시예에서, 신경 네트워크는 GPU(104)와 전자 통신한다. 예를 들어, 신경 네트워크는 대응하는 이미지 프로세싱 태스크에 대한 딥 러닝 모델을 실행하기 위해 GPU(104) 또는 CPU 상에 배포될 수 있다.

본 명세서에 개시된 실시예를 사용하여, GPU 바운드 태스크 유형들이 실행될 수 있다. 다양한 애플리케이션 프로그램 인터페이스들을 사용하여 IMC 클라이언트 소프트웨어와 통신하는 씬 래퍼 또는 인터페이스 계층(thin wrapper or interface layer)이 사용될 수 있다. 이 래퍼는 주어진 태스크 유형을 초기화하고, 이미지들 및 알고리즘 파라미터들을 실행을 위한 입력들로서 제공하며, 실행으로부터의 결과들을 출력할 수 있다. 입력 선입 선출(FIFO) 큐가 사용될 수 있다. 각각의 네트워크에 대해, 특정 태스크 유형을 배치 모드(batch mode)로 실행하기 위해 하나 이상의 GPU에 피드될 데이터가 항상 이용가능하도록, 입력 데이터를 버퍼링하기 위해 입력 FIFO 큐가 생성될 수 있다. 데이터는 이미지 컴퓨터 클라이언트 스레드를 사용하여 입력 데이터 큐에 인큐잉될(enqueued) 수 있고 실행을 위해 데이터를 하나 이상의 GPU에게 추가로 전송하는 프로세싱 스레드(입력 큐에 대한 블로킹(blocking))에 의해 디큐잉될(dequeued) 수 있다. GPU가 현재 데이터를 처리하느라 비지(busy)인 동안 IMC 클라이언트 스레드는 활성일 수 있고 향후 데이터(future data)를 계속 인큐잉할 수 있다. 프로세싱 스레드가 블로킹되고 GPU들이 프로세싱을 완료하기를 기다리지만 IMC 스레드는 얼라이브(alive)인 채로 유지될 수 있다. 프로세싱이 GPU에 의해 완료된 후에, 태스크 결과들은 프로세싱 스레드에 의해 출력 FIFO 큐 내로 인큐잉될 수 있다. 결과들 스레드(출력 FIFO 큐 상에 블로킹되어 있음)는 출력 데이터를 디큐잉할 수 있고 출력을 이미지 컴퓨터 공유 메모리에 복사한다.

본 명세서에 개시된 아키텍처의 실시예들은 최소한의 구현 노력으로 실행될 새로운 GPU 바운드 태스크 유형들의 추가를 가능하게 해줄 수 있다. 태스크 유형 1만을 실행하거나 동일한 작업 내의 태스크 유형 1과 태스크 유형 2 둘 다를 실행하는 옵션으로 2개의 GPU 바운드 태스크 유형이 실행될 수 있다. 데이터 병렬처리를 통한 확장성을 보여주는 다이어그램인, 도 4에 도시된 바와 같이, 하나 이상의 GPU 상에서 실행하기 위한 새로운 GPU 바운드 태스크 유형들의 추가가 수행될 수 있다. GPU 작업 관리자에 추가되는 임의의 새로운 태스크 유형에 대해, 이 아키텍처는: 데이터를 초기화하고 인큐잉하기 위해 IMC 클라이언트와 인터페이싱하기 위한 래퍼; 입력 데이터 FIFO 큐; GPU 실행을 위한 프로세싱 스레드; 출력 결과들 FIFO 큐; 및 결과들을 IMC 클라이언트에게 게시하기 위한 결과들스레드를 포함할 수 있다.

도 4는 본 명세서에 개시된 모듈들에 대응하는 박스들을 도시한다. 태스크 유형 1은 왼쪽에 있고 태스크 유형 2에 대한 모든 박스들은 오른쪽에 있다. 최대한의 성능 효율 및 로드 밸런싱을 위해, 이 아키텍처는 신경 네트들(neural nets) 각각을 개별 GPU들에 피닝(pinning)하거나 데이터 병렬처리를 사용하여 단일 신경 네트를 위해 모든 GPU들을 사용함에 있어서 유연성이 있다. 이 아키텍처는 입력 데이터를 GPU들에 피드하는 동안 CPU들이 병목(bottleneck)으로 되는 것을 방지하기 위해 하나 이상의 CPU를 명시된 GPU들의 리스트에 할당할 수 있다.

일 예에서, 사용자는 주어진 신경 네트워크를 위해 사용될 GPU들의 리스트를 명시하고, 이 아키텍처는 입력 데이터를 동일한 배치들에서 자동 분할하고 그 배치들을 리스트에 명시된 모든 GPU들에 디스패치할 수 있다. 이것은 도 5에서 보여진다. 따라서, 데이터 병렬처리를 사용하는 GPU들의 개수가 스케일링될 수 있다.

본 명세서에 개시된 실시예들은 GPU를 충분히 이용하기 위해 다수의 웨이퍼 사이트들또는 위치들로부터의 입력 이미지 데이터가 동일한 배치에서 프로세싱될 수 있게 해줄 수 있다.

CPU-GPU 작업부하들 또는 태스크들의 혼합체(mix)는 본 명세서에 개시된 아키텍처의 실시예들을 사용하여 수행될 수 있다. 이 하이브리드 아키텍처는, 예를 들어, CPU 태스크, GPU 태스크, 및 CPU 태스크의 시퀀스를 실행할 수 있다. 이것은 노드당 불균일한 개수의 CPU들 및 GPU들에 대해 효율적인 프로세싱을 제공할 수 있다. 예를 들어, 노드에서 CPU들의 개수가 GPU들의 개수보다 많거나 적을 수 있으며, 데이터 프로세싱 시간들은 영향을 받지 않는다.

작업들은 병렬로 그리고 실시간으로 분배될 수 있다. 따라서, 이미지가 최소한의 작업 디스패치 레이턴시로 메모리에서 취득될 때 작업들이 다수의 노드들에 걸쳐 다수의 프로세서들(예컨대, CPU들 또는 GPU들)에 분배될 수 있다.

데이터를 메모리에 유지하는 대신에 입/출력 중간 데이터가 디스크로부터 판독되거나 디스크에 기입될 수 있다. 이것은 디스크 입/출력으로 인해 효율성에 영향을 미칠 수 있지만, 수용가능한 프로세싱 성능을 제공할 수 있다.

일 실시예에서, CPU 프로세싱을 위한 적어도 하나의 전용 노드 및/또는 GPU 프로세싱을 위한 적어도 하나의 전용 노드가 있다. 주어진 노드 내에서의 하이브리드 프로세싱을 갖는 대신에 하이브리드 프로세싱이 노드들에 걸쳐 발생한다. 따라서, GPU 바운드 태스크는 전용 GPU 노드에 디스패치되고, CPU 바운드 태스크는 전용 CPU 노드에 디스패치된다. 일 예에서, 모든 GPU 바운드 태스크들은 전용 GPU 노드에 디스패치되고 모든 CPU 바운드 태스크들은 전용 CPU 노드에 디스패치된다. 내부 통신 네트워크(예컨대, 인피니밴드)가 데이터 전송에 사용될 수 있다.

반도체 웨이퍼들에 대한 딥 러닝 기반 검사 및 계측 시스템들은 본 명세서에 개시된 아키텍처 실시예들에 의해 가능하게 될 수 있다. 따라서, 본 명세서에 개시된 실시예들은 검사 및 계측 시스템들에서 이용될 수 있다.

도 2는 GPU 작업 관리자 아키텍처의 실시예의 다이어그램이다. 도 2는 다수의 유형들의 GPU 기반 태스크들이 다수의 GPU 프로세서들을 사용하여 단일 작업 관리 인프라스트럭처 내에서 어떻게 실행될 수 있는지를 설명한다.

도 3은 다수의 GPU 태스크들을 실행하기 위한 GPU 작업 관리자 아키텍처의 실시예의 다른 다이어그램이다. 도 3은 작업에서의 다양한 유형들의 GPU 기반 태스크들을 핸들링하기 위한 내부 작업 디스패치 및 결과들 핸들링 큐들을 갖는 GPU 작업 관리자에 대한 다양한 소프트웨어 인터페이스들을 도시한다.

도 6은 GPU 작업 관리자 소프트웨어 스택의 다이어그램이다. 소프트웨어 스택은 워커 작업 관리자를 사용하여 워크플로(workflow)를 효율적으로 관리하는 계층화된 아키텍처일 수 있다.

도 7은 방법(200)의 플로차트이다. 방법(200)은, 반도체 검사 및 계측을 위한 것들과 같은, 고 대역폭, 하이브리드 프로세서 계산 시스템들을 위한 실시간 작업 분배 소프트웨어 아키텍처를 가능하게 해준다. 방법(200)은 확장가능하고 유연할 수 있으며, GPU 배칭을 사용할 수 있다.

방법(200)에서, 201에서, 입력 이미지 데이터와 같은, 입력 데이터가 마스터 노드에 수신된다. 입력 데이터는 반도체 검사 툴 또는 반도체 계측 툴로부터의 것일 수 있다. 일 예에서, 입력 데이터는 반도체 웨이퍼 또는 레티클에 관한 것이다. 입력 데이터는 광학 카메라 또는 전자 빔 스캐닝 시스템으로부터의 것일 수 있다. 이 소스들 각각은 대응하는 이미지 센서로부터의 다수의 데이터 채널들을 포함할 수 있다.

202에서, 입력 데이터는 마스터 노드를 사용하여 적어도 제1 작업으로 분할된다.

203에서, 제1 작업은, 마스터 노드를 사용하여, 마스터 노드와 전자 통신하는 복수의 워커 노드들 중 제1 워커 노드에 분배된다. 워커 노드들 각각은 워커 작업 관리자를 실행하는 적어도 하나의 CPU 및 CPU와 전자 통신하는 적어도 하나의 GPU를 포함한다. 워커 작업 관리자는 수신된 작업을 복수의 태스크들로 분할하도록 구성된다.

제1 워커 노드 내의 워커 작업 관리자를 사용하여, 204에서 제1 작업이 복수의 태스크로 분할된다.

205에서, 제1 작업에서의 태스크들 각각은 제1 워커 노드 내의 워커 작업 관리자를 사용하여 제1 워커 노드 내의 CPU 중 하나 또는 GPU 중 하나에 배정된다.

206에서, 제1 작업에서의 태스크들은 제1 워커 노드 내의 워커 작업 관리자를 사용하여 추후 작업에서의 태스크들보다 우선순위화된다.

일 예에서, 입력 데이터는 마스터 노드를 사용하여 제2 작업으로 분할된다. 제2 작업은 마스터 노드를 사용하여 복수의 워커 노드들 중 제2 워커 노드에 분배된다. 제2 워커 노드 내의 워커 작업 관리자를 사용하여, 제2 작업이 복수의 태스크들로 분할된다. 제2 작업에서의 태스크들 각각은 제2 워커 노드 내의 워커 작업 관리자를 사용하여 제2 워커 노드 내의 CPU 중 하나 또는 GPU 중 하나에 배정된다.

워커 작업 관리자들 각각은 딥 러닝 모델을 갖는 모듈을 포함할 수 있다. 딥 러닝 모델은 수신된 작업에서의 태스크들 각각을 워커 노드 내의 CPU 중 하나 또는 GPU 중 하나에 배정하도록 구성된다. 딥 러닝 모델이 존재하면, 방법(100)은 딥 러닝 모델을 리트레이닝시키는 단계를 포함할 수 있다. 딥 러닝 모델은, 피처 검출 및 분류를 위해 이미지들을 프로세싱하도록 구성된, 신경 네트워크일 수 있다. 딥 러닝 모델은 트레이닝 동작으로부터 획득될 수 있다. 트레이닝 동안, 웨이퍼 또는 레티클로부터의 큰 입력 이미지 데이터 세트는 그 세트에서의 이미지 각각에 대한 원하는 출력 결과와 함께 신경 네트워크에 제시된다. 트레이닝 동작은 딥 러닝 소프트웨어 애플리케이션을 사용하여 완료될 수 있으며, 이 트레이닝의 결과는 모델이며, 이 모델은 이어서 임의의 입력 이미지 세트에 대한 원하는 출력을 생성하는 데 사용될 수 있다.

워커 작업 관리자들은 선입 선출 작업 큐 하에서 동작할 수 있다.

입력 데이터는 동일한 배치들에서 GPU들에 분배될 수 있다.

입력 데이터는 다수의 웨이퍼 위치들로부터의 것일 수 있으며, 여기서 입력 데이터는 동일한 배치에서 프로세싱된다.

제1 작업은 병렬로 그리고 실시간으로 제1 워커 노드에 분배될 수 있다. 따라서, 입력 데이터가 메모리에서 취득될 때 제1 작업이 제1 워커 노드에 분배될 수 있다.

부가의 실시예는, 본 명세서에 개시된 바와 같이, 작업 분배를 위한 제어기 상에서 실행가능한 프로그램 명령어들을 저장하는 비일시적 컴퓨터 판독가능 매체에 관한 것이다. 특히, 마스터 노드 또는 워커 노드는 실행가능 프로그램 명령어들을 포함하는 비일시적 컴퓨터 판독가능 매체를 갖는 전자 데이터 저장 매체에서의 메모리에 커플링될 수 있다. 컴퓨터-구현 방법은 본 명세서에 설명된 임의의 방법(들)의 임의의 단계(들)를 포함할 수 있다. 예를 들어, 마스터 노드, 워커 노드, 또는 이 시스템의 다른 부분들은 도 7의 단계들 중 일부 또는 전부를 수행하도록 프로그래밍될 수 있다. 전자 데이터 저장 매체에서의 메모리는 자기 또는 광학 디스크, 자기 테이프, 또는 본 기술분야에 공지된 임의의 다른 적합한 비일시적 컴퓨터 판독가능 매체와 같은 저장 매체일 수 있다.

프로그램 명령어들은, 그 중에서도, 프로시저 기반 기법들, 컴포넌트 기반 기법들, 및/또는 객체 지향 기법들을 포함하는, 다양한 방식들 중 임의의 것으로 구현될 수 있다. 예를 들어, 프로그램 명령어들은, 원하는 바에 따라, ActiveX 컨트롤들, C++ 객체들, JavaBeans, MFC(Microsoft Foundation Classes), SSE(Streaming SIMD Extension), 또는 다른 기술들 또는 방법론들을 사용하여 구현할 수 있다.

본 명세서에서 사용되는 바와 같이, 용어 "웨이퍼"는 일반적으로 반도체 또는 비-반도체 재료로 형성된 기판들을 지칭한다. 그러한 반도체 또는 비-반도체 재료의 예들은 단결정 실리콘, 갈륨 비화물, 및 인듐 인화물을 포함하지만, 이들로 제한되지 않는다. 그러한 기판들은 반도체 제조 설비들에서 흔히 발견되고 그리고/또는 프로세싱될 수 있다.

웨이퍼는 기판 상에 형성된 하나 이상의 층을 포함할 수 있다. 예를 들어, 그러한 층들은 레지스트, 유전체 재료, 및 도전성 재료를 포함할 수 있지만, 이들로 제한되지 않는다. 많은 상이한 유형들의 그러한 층들이 본 기술분야에 공지되어 있으며, 용어 웨이퍼는, 본 명세서에서 사용되는 바와 같이, 모든 유형들의 그러한 층들을 포함하는 웨이퍼를 포괄하는 것으로 의도된다.

웨이퍼 상에 형성되는 하나 이상의 층은 패터닝되거나 패터닝되지 않을 수 있다. 예를 들어, 웨이퍼는, 각각이 반복가능한 패터닝된 피처들을 갖는, 복수의 다이들을 포함할 수 있다. 그러한 재료 층들의 형성 및 프로세싱은 궁극적으로는 완성된 디바이스들을 결과할 수 있다. IC들과 같은 많은 상이한 유형들의 디바이스들이 웨이퍼 상에 형성될 수 있으며, 용어 웨이퍼는, 본 명세서에서 사용되는 바와 같이, 본 기술분야에 공지된 임의의 유형의 디바이스가 상부에 제조되고 있는 웨이퍼를 포괄하도록 의도된다. 본 명세서에서 사용되는 바와 같이, 용어 “칩"은 특정의 목적을 위해 설계된 IC들의 집합체를 포함할 수 있다.

실시예들이 웨이퍼들과 관련하여 본 명세서에서 설명되어 있지만, 실시예들이, 마스크 또는 포토마스크라고도 흔히 지칭될 수 있는, 레티클과 같은 다른 시료에 대해 사용될 수 있다는 것이 이해되어야 한다. 많은 상이한 유형들의 레티클들이 본 기술분야에 공지되어 있고, 용어들 "레티클", "마스크", 및 "포토마스크"는, 본 명세서에서 사용되는 바와 같이, 본 기술분야에 공지된 모든 유형들의 레티클들을 포괄하는 것으로 의도된다.

방법의 단계들 각각은 본 명세서에 설명된 바와 같이 수행될 수 있다. 방법들은 본 명세서에 설명된 프로세서 및/또는 컴퓨터 서브시스템(들) 또는 시스템(들)에 의해 수행될 수 있는 임의의 다른 단계(들)를 또한 포함할 수 있다. 단계들은, 본 명세서에 설명된 실시예들 중 임의의 것에 따라 구성될 수 있는, 하나 이상의 컴퓨터 시스템에 의해 수행될 수 있다. 그에 부가하여, 위에서 설명된 방법들은 본 명세서에서 설명된 시스템 실시예들 중 임의의 것에 의해 수행될 수 있다.

비록 본 개시내용이 하나 이상의 특정 실시예와 관련하여 설명되었지만, 본 개시내용의 범위를 벗어나지 않으면서 본 개시내용의 다른 실시예들이 이루어질 수 있다는 점이 이해될 것이다. 따라서, 본 개시내용은 첨부된 청구항들 및 그의 타당한 해석에 의해서만 제한되는 것으로 간주된다.

Claims

시스템으로서,
복수의 워커 노드들 - 상기 워커 노드들 각각은:
워커 작업 관리자를 실행하는 적어도 하나의 CPU - 상기 워커 작업 관리자는 수신된 작업을 복수의 태스크들로 분할하도록 구성됨 -; 및
상기 CPU와 전자 통신하는 적어도 하나의 GPU를 포함하며,
상기 워커 작업 관리자들 각각은 상기 수신된 작업의 상기 태스크들 각각을 상기 워커 노드 내의 상기 CPU 중 하나 또는 상기 GPU 중 하나에 배정하도록 구성되고;
상기 워커 작업 관리자들 각각은 상기 워커 노드 내의 상기 GPU 중 하나 대신에 상기 CPU 중 하나에 상기 태스크들 중 하나를 배정할지 또는 상기 워커 노드 내의 상기 CPU 중 하나 대신에 상기 GPU 중 하나에 상기 태스크들 중 하나를 배정할지를 결정하도록 구성됨 -; 및
상기 복수의 워커 노드들과 전자 통신하는 마스터 노드 - 상기 마스터 노드는 반도체 웨이퍼 또는 레티클에 관한 입력 이미지 데이터를 수신하고, 상기 마스터 노드는:
상기 입력 이미지 데이터를 적어도 제1 작업으로 분할하고;
상기 제1 작업을 상기 워커 노드들 중 하나에 분배하도록 구성됨 -
를 포함하고;
상기 워커 작업 관리자들 각각은 또한, 추후 작업에서의 태스크들보다 상기 제1 작업에서의 상기 태스크들을 우선순위화하도록 구성되는 것인, 시스템.
제1항에 있어서, 상기 워커 노드들 중 하나에 상기 GPU보다 상기 CPU가 더 많이 있는 것인, 시스템.
제1항에 있어서, 상기 워커 노드들 중 하나에 상기 CPU보다 상기 GPU가 더 많이 있는 것인, 시스템.
제1항에 있어서, 상기 마스터 노드는 또한, 상기 입력 이미지 데이터를 제2 작업으로 분할하고 상기 제2 작업을 상기 워커 노드들 중 하나에 분배하도록 구성되는 것인, 시스템.
제1항에 있어서, 상기 워커 작업 관리자를 실행하는 상기 CPU와 전자 통신하는 상기 워커 노드들 중 하나 내의 다른 CPU를 더 포함하는, 시스템.
제1항에 있어서, 상기 마스터 노드와 전자 통신하는 적어도 하나의 CPU 워커 노드를 더 포함하고, 상기 CPU 워커 노드는 상기 GPU 중 어느 것도 갖지 않고 상기 CPU 중 하나 이상을 포함하며, 상기 CPU 워커 노드 내의 상기 CPU 중 하나가 상기 워커 작업 관리자를 실행하는 것인, 시스템.
제1항에 있어서, 상기 마스터 노드와 전자 통신하는 적어도 하나의 GPU 워커 노드를 더 포함하고, 상기 GPU 워커 노드는 상기 워커 작업 관리자를 실행하는 것 외에는 상기 CPU 중 어느 것도 갖지 않고 상기 GPU 중 하나 이상을 포함하는 것인, 시스템.
제1항에 있어서, 애플리케이션 프로그래밍 인터페이스를 사용하여 IMC 클라이언트와 통신하도록 구성된 인터페이스 계층을 더 포함하는, 시스템.
제1항에 있어서, 상기 워커 작업 관리자들 각각은 딥 러닝 모델을 갖는 모듈을 포함하고, 상기 딥 러닝 모델은 상기 수신된 작업에서의 상기 태스크들 각각을 상기 워커 노드 내의 상기 CPU 중 하나 또는 상기 GPU 중 하나에 배정하도록 구성되는 것인, 시스템.
제1항에 있어서, 상기 GPU와 전자 통신하는 신경 네트워크를 더 포함하는, 시스템.
제1항에 있어서, 상기 마스터 노드는 프로세싱 툴과 전자 통신하고, 상기 프로세싱 툴은 반도체 검사 툴 또는 반도체 계측 툴을 포함하는 것인, 시스템.
방법으로서,
반도체 검사 툴 또는 반도체 계측 툴로부터 마스터 노드에서 입력 이미지 데이터를 수신하는 단계 - 상기 입력 이미지 데이터는 반도체 웨이퍼 또는 레티클에 관한 것임 -;
상기 마스터 노드를 사용하여, 상기 입력 이미지 데이터를 적어도 제1 작업으로 분할하는 단계;
상기 마스터 노드를 사용하여, 상기 제1 작업을 상기 마스터 노드와 전자 통신하는 복수의 워커 노드들 중 제1 워커 노드에 분배하는 단계 - 상기 워커 노드들 각각은:
워커 작업 관리자를 실행하는 적어도 하나의 CPU - 상기 워커 작업 관리자는 수신된 작업을 복수의 태스크들로 분할하도록 구성됨 -; 및
상기 CPU와 전자 통신하는 적어도 하나의 GPU를 포함함 -;
상기 제1 워커 노드 내의 상기 워커 작업 관리자를 사용하여, 상기 제1 작업을 복수의 태스크들로 분할하는 단계;
상기 제1 워커 노드 내의 상기 워커 작업 관리자를 사용하여, 상기 제1 작업에서의 상기 태스크들 각각을 상기 제1 워커 노드 내의 상기 CPU 중 하나 또는 상기 GPU 중 하나에 배정하는 단계; 및
상기 제1 워커 노드 내의 상기 워커 작업 관리자를 사용하여, 상기 제1 작업에서의 상기 태스크들을 추후 작업에서의 태스크들보다 우선순위화하는 단계
를 포함하는, 방법.
제12항에 있어서,
상기 마스터 노드를 사용하여, 상기 입력 이미지 데이터를 제2 작업으로 분할하는 단계;
상기 마스터 노드를 사용하여, 상기 제2 작업을 상기 복수의 워커 노드들 중 제2 워커 노드에 분배하는 단계;
상기 제2 워커 노드 내의 상기 워커 작업 관리자를 사용하여, 상기 제2 작업을 복수의 태스크들로 분할하는 단계; 및
상기 제2 워커 노드 내의 상기 워커 작업 관리자를 사용하여, 상기 제2 작업에서의 상기 태스크들 각각을 상기 제2 워커 노드 내의 상기 CPU 중 하나 또는 상기 GPU 중 하나에 배정하는 단계
를 더 포함하는, 방법.
제12항에 있어서, 상기 워커 작업 관리자들 각각은 딥 러닝 모델을 갖는 모듈을 포함하고, 상기 딥 러닝 모델은 상기 수신된 작업에서의 상기 태스크들 각각을 상기 워커 노드 내의 상기 CPU 중 하나 또는 상기 GPU 중 하나에 배정하도록 구성되며, 상기 방법은 상기 딥 러닝 모델을 리트레이닝(retraining)시키는 단계
를 더 포함하는 것인, 방법.
제12항에 있어서, 상기 워커 작업 관리자들은 선입 선출 작업 큐(first in first out job queue) 하에서 동작하는 것인, 방법.
제12항에 있어서, 상기 워커 작업 관리자는 상기 수신된 작업에서의 상기 태스크들 각각을 상기 워커 노드 내의 상기 CPU 중 하나 또는 상기 GPU 중 하나에 배정하도록 구성되고, 상기 워커 작업 관리자는 상기 태스크들의 완료 시간을 최소화하도록 상기 태스크들을 배정하는 것인, 방법.
제12항에 있어서, 상기 입력 이미지 데이터는 동일한 배치들에서(in equal batches) 상기 GPU들에 분배되는 것인, 방법.
제12항에 있어서, 상기 입력 이미지 데이터는 다수의 웨이퍼 위치들로부터의 것이고, 상기 입력 이미지 데이터는 동일한 배치에서(in a same batch) 프로세싱되는 것인, 방법.
제12항에 있어서, 상기 제1 작업은 병렬로 그리고 실시간으로 상기 제1 워커 노드에 분배되는 것인, 방법.
제19항에 있어서, 상기 입력 이미지 데이터가 메모리에서 취득될 때 상기 제1 작업이 상기 제1 워커 노드에 분배되는 것인, 방법.