KR20230049047A

KR20230049047A - 마스크된 어텐션으로 이미지 변환기에 공간적 국소성을 통합하는 방법

Info

Publication number: KR20230049047A
Application number: KR1020220127254A
Authority: KR
Inventors: 링 리; 알리 샤피 아데스타니; 조셉 에이치. 하쏜
Original assignee: 삼성전자주식회사
Priority date: 2021-10-05
Filing date: 2022-10-05
Publication date: 2023-04-12
Also published as: US20230103997A1

Abstract

본 개시는 L 레이어, 및 H 어텐션 헤드들을 포함하고, 상기 어텐션 헤드들 중 h'의 어텐션 헤드들은 소프트맥스(Softmax) 동작 이전에 추가된 어텐션 마스크를 포함하고, 상기 어텐션 헤드들 중 h의 어텐션 헤드들은 마스크되지 않은 어텐션 헤드들을 포함하고, H=h+h'인 비전 변환기를 제공한다.

Description

마스크된 어텐션으로 이미지 변환기에 공간적 국소성을 통합하는 방법{INTEGRATING SPATIAL LOCALITY INTO IMAGE TRANSFORMERS WITH MASKED ATTENTION}

본 개시는 이미지 변환기에 관한 것이다. 구체적으로는, 본 개시는 어텐션 마스크를 포함하는 이미지 변환기 및 본 개시에 따른 이미지 변환기에서 어텐션 마스크를 추가할 위치를 결정하기 위한 방법에 관한 것이다.

번역 등가성(translation equivariance) 및 국소성(locality)과 같은 귀납적 바이어스들(inductive bias)을 본질적으로 갖추고 있는 컨볼루션 신경망(CNN)은 컴퓨터 비전(CV) 작업을 위한 사실상의 모델이었다. 최근에 비전 변환기는 자연어 처리(NLP) 작업에서 변환기-기반 모델의 성공으로 모멘텀을 얻었다.

본 개시에서 해결하고자 하는 일 과제는, 이미지 변환기에서 어텐션 마스크를 추가하는 위치를 결정하는 방법을 제공하는 데에 있다.

상술한 과제를 해결하기 위한 일 실시예는, L 레이어, 및 H 어텐션 헤드들을 포함하고, 상기 어텐션 헤드들 중 h'의 어텐션 헤드들은 소프트맥스(Softmax) 동작 이전에 추가된 어텐션 마스크를 포함하고, 상기 어텐션 헤드들 중 h의 어텐션 헤드들은 마스크되지 않은 어텐션 헤드들을 포함하고, H=h+h'인 비전 변환기를 포함한다.

상술한 과제를 해결하기 위한 일 실시예는, 이미지 변환기에 공간적 국소성을 통합하는 방법에 있어서, 상기 방법은 상기 이미지 변환기의 각 레이어에서 선택된 어텐션 헤드에 어텐션 마스크를 추가하는 단계, 상기 이미지 변환기의 각 레이어에 대한 어텐션 국소성 점수를 결정하는 단계, 0.75보다 큰 상기 레이어에 대한 상기 어텐션 국소성 점수에 기초하여 레이어의 모든 어텐션 헤드들에 어텐션 마스크를 추가하는 단계, 0.35 이상 0.75 이하인 상기 레이어에 대한 상기 어텐션 국소성 점수에 기초하여 레이어에 더 이상 어텐션 마스크들을 추가하지 않는 단계, 및 0.35 미만인 상기 레이어에 대한 상기 어텐션 국소성 점수에 기초하여 레이어에서 어텐션 마스크를 제거하는 단계를 포함하는 방법을 포함한다.

본 개시에서 따른 일 실시예는, 이미지 변환기에서 어텐션 마스크를 추가하는 위치를 결정하는 방법을 제공한다.

도 1은 본 개시에 따라 각각의 패치가 16x16 픽셀을 포함하는 196개의 패치로 분할된 224x224 픽셀 이미지에 매핑된 어텐션 마스크의 두 가지 예를 도시한다.
도 2는 h'개의 어텐션 헤드가 로컬 정보에 초점을 맞추도록 할당될 수 있는 제1 모듈(201)로 그룹화될 수 있고, 나머지 h-h'개의 변경되지 않은(마스크되지 않은) 어텐션 헤드가 글로벌 종속성을 캡처하는 제2 모듈로 그룹화될 수 있는 H개의 어텐션 헤드를 갖는 MHA 모듈을 도시하다.
도 3은 본 개시에 따라 어텐션 마스크를 추가할 위치를 결정하기 위한 예시적인 마스크 전략 방법의 흐름도이다.
도 4는 본 개시의 실시예에서 어텐션 마스크를 추가할 위치를 결정하기 위한도 3의 예시적인 마스크 전략 방법을 수행하기 위한 시스템을 도시한다.
도 5a 및 도 5b는 본 개시에 따른 예시적인 하드 마스크 및 예시적인 소프트 마스크를 각각 도시한다.
도 6은 본 개시에 따라 어텐션 헤드에 소프트 마스킹이 적용될 수 있는 방법을 도시한다.
도 7은 본 개시에 따른 가상 훈련 시스템을 포함하는 전자 장치를 도시한다.

이하 상세한 설명에서, 본 개시의 완전한 이해를 제공하기 위해 다수의 특정 세부사항이 제시된다. 그러나, 개시된 측면이 이러한 특정 세부사항 없이 실시될 수 있다는 것이 당업자에 의해 이해될 것이다. 다른 예에서, 잘 알려진 방법, 절차, 구성요소 및 회로는 본 개시 내용을 모호하게 하지 않기 위해 상세하게 설명되지 않았다.

본 명세서 전반에 걸쳐 "일 실시예" 또는 "일 실시예"에 대한 참조는 실시예와 관련하여 설명된 특정 특징, 구조 또는 특성이 본 명세서에 개시된 적어도 하나의 실시예에 포함될 수 있음을 의미한다. 따라서, 본 명세서 전반에 걸쳐 다양한 위치에서 "일 실시예에서" 또는 "일 실시예에 따라"(또는 유사한 의미를 갖는 다른 문구)의 출현이 반드시 모두 동일한 실시예를 지칭하는 것은 아닐 수 있다. 또한, 특정 특징, 구조 또는 특성은 하나 이상의 실시예에서 임의의 적절한 방식으로 조합될 수 있다. 이와 관련하여, 본 명세서에서 사용되는 바와 같이, "예시적인"이라는 단어는 "예시, 사례 또는 예시로서 제공되는"을 의미한다. 본 명세서에서 "예시적인" 것으로 설명된 임의의 실시예는 다른 실시예에 비해 반드시 바람직하거나 유리한 것으로 해석되어서는 안 된다. 추가적으로, 특정 특징, 구조, 또는 특성은 하나 이상의 실시예에서 임의의 적절한 방식으로 조합될 수 있다. 또한, 본 명세서에서 논의되는 내용에 따라 단수 용어는 대응하는 복수 형태를 포함할 수 있고, 복수 용어는 대응하는 단수 형태를 포함할 수 있다. 유사하게, 하이픈으로 연결된 용어(예: "-차원", "미리-결정된", "픽셀-별" 등)는 하이픈으로 연결되지 않은 해당 버전(예: "2차원", " 미리 결정된," "픽셀 특정" 등)과 상호 교환적으로 사용될 수 있고, 대문자로 된 항목(예: "PIXOUT" 등)은 해당하는 대문자가 아닌 버전(예: "pixout")과 상호 교환적으로 사용될 수 있다. 이러한 간헐적인 상호 교환적 사용은 서로 일치하지 않는 것으로 간주되지 않다.

또한, 본 명세서에서 논의되는 내용에 따라 단수 용어는 대응하는 복수 형태를 포함할 수 있고, 복수 용어는 대응하는 단수 형태를 포함할 수 있다. 여기에 도시되고 논의된 다양한 도면(구성요소 다이어그램 포함)은 단지 예시를 위한 것이며 축척에 맞춰 그려진 것이 아니라는 점에 유의해야 한다. 예를 들어, 일부 요소의 치수는 명확성을 위해 다른 요소에 비해 과장될 수 있다. 또한, 적절한 것으로 간주되는 경우, 도면 사이에 참조 번호가 대응되거나 유사한 요소를 지칭하도록 반복되었다.

본 명세서에서 사용된 용어는 단지 일부 예시적인 실시예를 설명하기 위한 것이며 청구된 주제를 제한하도록 의도되지 않는다. 본 명세서에 사용된 바와 같이, 단수 형태는 문맥이 명백하게 달리 나타내지 않는 한 복수 형태도 포함하는 것으로 의도된다. 본 명세서에서 사용될 때 "포함한다" 및/또는 "포함하는"이라는 용어는 명시된 특징, 정수, 단계, 연산, 요소 및/또는 구성요소의 존재를 지정하지만 존재나 하나 이상의 다른 특징, 정수, 단계, 연산, 요소, 구성요소 및/또는 이들의 그룹의 추가를 배제하지 않는다는 것이 더 이해될 것이다. 본 명세서에 사용된 "첫 번째", "두 번째" 등의 용어는 앞에 오는 명사에 대한 레이블로 사용되며, 명시적으로 정의되지 않는 한 어떤 유형의 순서(예: 공간, 시간, 논리 등)도 의미하지 않는다. 또한, 동일하거나 유사한 기능을 갖는 부품, 컴포넌트, 블록, 회로, 유닛 또는 모듈을 지칭하기 위해 동일한 참조 번호가 2개 이상의 도면에 걸쳐 사용될 수 있다. 그러나 이러한 사용은 설명의 단순성과 논의의 편의를 위한 것이고, 그러한 구성요소 또는 유닛의 구성 또는 아키텍처 세부사항이 모든 실시예에 걸쳐 동일하거나 그러한 공통적으로 참조되는 부품/모듈이 여기에 개시된 예시적인 실시예의 일부를 구현하는 유일한 방법이라는 것을 의미하지 않는다.

요소 또는 층이 다른 요소 또는 층에 있는, "연결된" 또는 "연결된" 것으로 언급될 때 다른 요소 또는 층에 직접 연결되거나 중간 요소 또는 층이 존재할 수 있음을 이해해야 한다. 대조적으로, 요소가 다른 요소 또는 층에 "직접 연결됨", 또는 "직접 결합됨"으로 언급될 때, 중간 요소 또는 층은 존재하지 않는다. 동일한 숫자는 전체에 걸쳐 동일한 요소를 나타낸다. 본 명세서에 사용된 바와 같이, "및/또는"이라는 용어는 관련된 나열된 항목 중 하나 이상의 모든 조합을 포함한다.

본 명세서에 사용된 용어 "첫 번째", "두 번째" 등은 앞에 오는 명사에 대한 레이블로 사용되며, 그렇게 명시적으로 정의되지 않는 한 임의의 유형의 순서(예: 공간적, 시간적, 논리적 등)를 의미하지 않다. 또한, 동일하거나 유사한 기능을 갖는 부품, 컴포넌트, 블록, 회로, 유닛 또는 모듈을 지칭하기 위해 동일한 참조 번호가 2개 이상의 도면에 걸쳐 사용될 수 있다. 그러나 이러한 사용은 설명의 단순성과 논의의 편의를 위한 것이고, 그러한 구성요소 또는 유닛의 구성 또는 아키텍처 세부사항이 모든 실시예에 걸쳐 동일하거나 그러한 공통적으로 참조되는 부품/모듈이 여기에 개시된 예시적인 실시예의 일부를 구현하는 유일한 방법이라는 것을 의미하지 않는다.

달리 정의되지 않는 한, 여기에서 사용된 모든 용어(기술 및 과학 용어 포함)는 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의된 것과 같은 용어는 관련 기술의 맥락에서 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 명시적으로 정의되어 있지 않는 한 이상화되거나 지나치게 형식적인 의미로 해석되지 않는 것으로 이해될 것이다.

본 명세서에서 사용되는 바와 같이, "모듈"이라는 용어는 모듈과 관련하여 본 명세서에서 설명된 기능을 제공하도록 구성된 소프트웨어, 펌웨어 및/또는 하드웨어의 임의의 조합을 지칭한다. 예를 들어, 소프트웨어는 소프트웨어 패키지, 코드 및/또는 명령 세트 또는 명령으로 구현될 수 있으며, 여기에 설명된 임의의 구현에서 사용되는 용어 "하드웨어"는 예를 들어, 하드와이어드 회로, 프로그래밍 가능 회로, 상태 머신 회로, 및/또는 프로그래밍 가능 회로에 의해 실행되는 명령어를 저장하는 펌웨어의 단일 또는 임의의 조합 또는 어셈블리를 포함할 수 있다. 모듈은 집합적으로 또는 개별적으로 집적 회로(IC), 시스템 온 칩(SoC), 어셈블리 등과 같은 더 큰 시스템의 일부를 형성하는 회로로 구현될 수 있다.

변환기 아키텍처는 NLP 작업에서 놀라운 성공으로 많은 모델 변형에 영감을 주었다. ViT(Vision Transformer)는 비전 작업을 위한 최초의 순수 변압기 기반 모델이며 CV 애플리케이션에서 순수 변압기 기반 아키텍처를 확장한다. 픽셀 수준 프로세스 대신 ViT는 더 나은 계산 효율성을 위해 원본 이미지를 입력으로 패치들의 시퀀스로 분할한다. ViT의 기본 구조는 임베딩 레이어, 멀티 헤드 어텐션, 피드포워드 네트워크를 포함한다. 또 다른 아키텍처인 데이터 효율적인 이미지 변환기(DeiT)는 더 강력한 데이터 증대, 정규화 및 지식 증류를 도입하여 ViT 모델을 개선한다.

변환기에서 이미지를 처리하기 위해 원본(224x224) RGB 이미지가 N개의 패치 시퀀스로 병합된다. 각 패치는 일반적으로 14x14 또는 16x16 픽셀로 고정된 크기를 가질 수 있다. 그런 다음 패치는 ViT/DeiT에서 타이니(tiny), 스몰(small) 및 베이스(base) 모델에 대해 각각 192, 384 및 768의 숨겨진 디멘션(D)을 갖는 패치 임베딩으로 변환된다. 패치 토큰 외에도 임베딩 계층은 위치 토큰(positional token), 클래스 토큰(class token) 및 증류 토큰(distillation token)을 통해 위치 정보, 분류 및 지식 증류를 각각 통합한다. 위치 토큰은 훈련 가능한 위치 임베딩으로 패치 임베딩에 추가된다. 그러나 위치 임베딩은 임베딩 레이어에만 추가된다. 올-투-올(all-to-all) 어텐션은 패치들의 순서에 불변하기 때문에 공간 정보는 변압기 계층에서 크게 손실된다. 클래스 토큰은 또 다른 학습 가능한 벡터(1xD)이며 패치 토큰에 연결될 수 있다. 클래스 토큰은 클래스를 예측하기 위해 분류기에서 사용될 수 있다. 클래스 토큰은 패치 토큰에서 정보를 수집하여 출력 예측을 수행하는 동시에 훈련 중에 패치 간에 정보를 전파할 수 있다. 증류 토큰은 CNN 또는 기타 복잡한 모델과 같은 교사 모델에서 지식 이전에 적용될 수 있다. 모델의 증류된 버전을 학습할 때 증류 토큰은 클래스 토큰과 함께 패치 토큰에 추가로 연결될 수 있다(총 N+2). 증류 토큰은 교사 모델에서 추가 정보를 제공하여 클래스 토큰을 보완할 수 있다. 테스트 시 클래스 토큰 또는 증류 토큰 또는 두 토큰의 융합이 선형 분류기에 대한 입력으로 사용된다. MHA(Multi-Head Attention) 모듈에는 세 가지 주요 구성요소인 키 벡터, 쿼리 벡터 및 값 벡터가 포함된다. 키(Nxd, K) 및 쿼리(Nxd, Q)는 출력(Nxd)에 대한 값(Nxd, V)의 각 해당 요소에 대한 가중치를 추정하기 위해 훈련되고 수학식 1과 같이 곱해질 수 있다.

Softmax 동작이 입력 행렬의 각 행에 적용되는 경우 d는 키, 쿼리 및 값 벡터의 디멘션이고 √d는 적절한 정규화를 제공한다. MHA에는 입력의 다른 부분에 동시에 어텐드(attend)하기 위해 여러 어텐션 헤드가 포함되어 있다. MHA 레이어의 h 헤드를 고려하면 숨겨진 디멘션 D는 D=h×d인 모든 헤드에 동일하게 분할된다.

FFN(Feed-Forward Network)은 MHA 모듈을 따르고 GeLU(Gaussian Error Linear Unit) 활성화에 의해 분리되는 2개의 선형 변환 계층을 포함한다. 숨겨진 디멘션은 제1 선형 레이어 이후에 D에서 4D로 4배 확장되고 제2 선형 레이어에서 다시 D로 축소된다. MHA와 FFN 모두 잔여 연산(residul operation)으로 계층 정규화와 함께 스킵 커넥션들을 사용한다.

공간적 국소성은 컴퓨터 비전 작업에서 중요한 역할을 한다. CNN(Convolutional Neural Network) 모델은 일반적으로 수용 필드가 3x3, 5x5 또는 7x7인 공유 가중치의 슬라이딩 필터를 사용하여 공간적 국소성을 캡처한다. CNN 모델과 달리 변환기 구조에는 국소성이 명시적으로 도입되지 않는다. 본 개시에 르면, 국소성은 임의의 추가 매개변수 또는 연산을 도입하지 않고 어텐션 마스크를 사용하여 각 레이어의 자가 어텐션 모듈에 명시적으로 삽입될 수 있다. 핵심 측면은 올투올 어텐션(all-to-all Attention) 제품(즉, QK^T)에 마스크를 적용하여 가장 가까운 이웃의 가중치(중요도)를 강화하고 마스크에 의해 선택된 토큰에서만 정보 집계를 허용하는 것이다.

도 1은 본 명세서에 개시된 주제에 따라 각각의 패치가 16x16 픽셀을 포함하는 196개의 패치로 분할된 224x224 픽셀 이미지(100)에 매핑된 어텐션 마스크의 두 가지 예를 묘사한다. 패치(16)와 정렬되는 제1 예시 어텐션 마스크(101)는 패치(16)에 직접 이웃하는 패치들이 선택되는 3x3 마스크이다. 특히, 패치 16과 정렬된 3x3 마스크(101)는 패치(16)를 가리키는 화살표들로 표시된 대로 패치 1, 2, 3, 15, 17, 29, 30 및 31인 패치 16에 가장 가까운 이웃에서만 정보를 수집하고, 나머지 패치들의 정보는 무시된다. 이것은 패치 16이 모든 0-195 패치들에서 정보를 수집하는 일반적인 all-to-all Attention 모듈과 다르다.

패치(72)와 정렬되는 제2 예시 어텐션 마스크(102)는 마스크의 깊이를 직접 이웃하는 패치를 넘어 제2 레벨 이웃으로 확장함으로써 패치에 대한 정보가 수집되는 5x5 마스크이다. 특히, 패치(72)와 정렬된 5x5 마스크(102)는 패치(42 46, 56 60, 70, 71, 73, 74, 84 88 및 98 102)로부터 정보를 수집한다.

클래스 토큰(및 증류 토큰)은 여전히 정방향 및 역방향 전달 동안 정보를 수집하고 확산하기 위해 모든 패치에 어텐션한다. 각 어텐션 제품은 Q 및 K에 의해 계산되는 마스크에 의해 선택될 수 있으므로 마스크된 어텐션 헤드도 콘텐츠 기반 위치 정보를 유지한다.

어텐션 마스크는 Softmax 동작 전에 추가되어 패치의 가장 가까운 이웃에 초점을 맞추도록 어텐션 맵의 분포를 조절한다:

여기서 M∈R^((N+1)×(N+1))은 국소적으로 가까운 이웃의 가중치(중요도)만 통과하고 나머지 패치들의 가중치들을 0으로 설정하여 공간적 국소성을 어텐션 헤드로 인코드하는 이진 어텐션 마스크다. 보다 정확하게는 선택되지 않은 패치는 Softmax 동작의 분자에서 e⁰=1로 나타난다.

모델이 국소성의 중요성을 유연하게 학습할 수 있도록 하기 때문에 Softmax 동작 전에 마스크를 추가하는 것이 중요하다. 따라서, 가장 가까운 이웃의 어텐션 곱의 결과가 의미 있게 0보다 크면(즉,

≫0), 국소 정보가 글로벌 정보보다 우세하다는 것을 제공하는 경향이 있다.

그러나 어텐션 제품 결과가 음수이거나 0에 가까우면 국소 정보가 중요하지 않고 글로벌 정보가 더 중요함을 시사하는 경향이 있다. 따라서 Softmax 동작 전에 마스크를 삽입하면 모델이 국소성을 적용하거나 국소성을 무시할 수 있다.

Softmax 동작은 QK^T 곱 결과를 확률 공간으로 전송하여 어텐션 맵(A)의 각 행의 합이 1이 되도록 한다. 각 패치에 대해 로컬 이웃에 초점을 맞출 확률은 그의 이웃들의 어텐션 맵 가중치들의 합과 같다. 이 합계가 1에 가까워지면 국소 정보가 중요하고, 합이 0에 가까우면 국소 정보보다 글로벌 정보가 더 중요하다는 의미이다. 패치 n에 대한 어텐션 국소성 점수(Attention Locality Score,

) 및 각 어텐션 헤드에 대한 모든 패치(N+1)의 평균 ALS는 다음과 같이 정의될 수 있다:

여기서 M은 제2 수학식와 관련하여 설명된 이진 어텐션 마스크이고, A=Softmax(

/√d)는 마스크된 어텐션 헤드에 대한 어텐션 맵이고, A=Softmax(QK^T/√d)는 마스크되지 않은 어텐션 헤드에 대한 어텐션 맵이고, n은 패치 인덱스이고, i는 어텐션 맵의 열 인덱스다. 여기에서 사용된 기호

는 요소별 곱(element-wise product)으로도 알려진 Hadamard 곱이다. ALS 메트릭은 비전 변환기 모델에서 서로 다른 어텐션 헤드의 국소 행동에 대한 인사이트를 얻는 데 사용할 수 있다.

도 4에 도시된 바와 같이 마스크된 어텐션 헤드를 통해 로컬 정보를 추출하는 동시에 원본 어텐션 헤드를 통해 글로벌 정보를 추출할 수 있다. 즉, 도 2는 h'개의 어텐션 헤드가 로컬 정보에 초점을 맞추도록 할당될 수 있는 제1 모듈(201)로 그룹화될 수 있고, H-h'개의 변경되지 않은(마스크되지 않은) 어텐션 헤드의 나머지는 글로벌 종속성을 캡처하는 제2 모듈(202)로 그룹화될 수 있는 H 어텐션 헤드를 포함하는 MHA 모듈(200)을 도시한다.

제1 모듈(201) 및 제2 모듈(202) 각각 내의 상이한 기능 블록들은 각각 표시된 기능을 제공하는 모듈일 수 있다. 예를 들어, 제1 모듈(201)에서 쿼리 토큰, 키 토큰 및 값 토큰은 각각 별도의 모듈에 의해 제공될 수 있다.

모듈은 어텐션 마스크를 수신하고 Softmax 모듈이 Softmax 동작을 수행하기 전에

를 수행한 다음 출력 모듈에 공급할 수 있다. 제2 모듈(202)은 QK^T 모듈에 의해 어텐션 마스크가 수신되지 않는다는 점을 제외하고는 제1 모듈(201) 내의 모듈과 유사한 모듈을 포함할 수 있다.

어텐션 마스크의 깊이 외에, MHA 모듈(200)에서 마스크된 어텐션 헤드의 수 및 위치(마스크를 삽입할 레이어)도 하이퍼-파라미터일 수 있다. 본 명세서에서 "하이퍼 파라미터(hyper-parameter)"라는 용어는 학습 과정을 제어하기 위해 사용되는 값을 갖는 파라미터이다. 마스크가 어텐션 헤드에 국소성을 인코딩하지만 프루닝 어텐션 맵처럼 작동하는 마스크의 정규화는 MHA 모듈의 학습 능력을 제한할 수 있다. 따라서 어텐션 마스크를 추가할 위치는 신중한 고려가 필요할 수 있다.

도 3은 본 개시에 따라 어텐션 마스크를 추가할 위치를 결정하기 위한 예시적인 마스크 전략 방법(300)의 흐름도이다. 방법(300)은 301에서 시작한다. 302에서, 인덱스 i는 0과 같도록 초기화된다. 303에서, 어텐션 마스크는 모든 레이어들에 대한 하나의 어텐션 헤드에만 추가된다. 예를 들어, 어텐션 마스크는 모든 레이어들의 헤드 0에 추가된다. 304에서

는 모든 레이어에 대해 계산된다. 305에서,

가 1에 가까운지 여부가 결정된다. 일 실시예에서,

가 0.75보다 큰지 여부가 305에서 결정될 수 있다. 다른 실시예에서, 0.75와 다른 임계값이 사용될 수 있다. 305에서

가 1에 가깝다고 결정되면 흐름은 레이어 i의 모든 헤드에 어텐션 마스크가 추가되는 306으로 계속된다. 흐름은 인덱스 h가 0으로 초기화되는 307로 계속된다.

308에서

는 레이어 i의 각 헤드에 대해 계산된다. 309에서,

가 0에 가까운지 여부가 결정된다. 일 실시예에서, 308에서

가 0.35보다 작은지 여부가 결정될 수 있다. 다른 실시예에서, 0.35와 다른 임계값이 사용될 수 있다. 309에서

가 0에 가까우면 흐름은 헤드 h에서 어텐션 마스크가 제거되는 310으로 계속된다. 흐름은 311로 계속된다. 309에서

가 0에 가깝지 않은 것으로 결정되면 흐름은 계층 i의 모든 헤드가 평가되었는지 여부가 결정되는 311로 계속된다. 그렇지 않은 경우 흐름은 인덱스 h가 증가하고 흐름이 309로 돌아가는 312로 계속된다. 311에서, 평가된 레이어 i의 모든 헤드에서 결정되면, 흐름은 317로 계속된다.

305에서

가 1에 가깝지 않다고 판단되면 흐름은 313으로 진행하여

가 0.5에 가까운지 판단한다. 일 실시예에서,

가 0.35와 0.75 사이인지 여부가 313에서 결정될 수 있다. 다른 실시예에서,

가 1에 가깝고 0에 가까운지 여부를 결정하는 데 사용되는 임계값과 일치하는 다른 범위가 313에서 사용될 수 있다. 313에서,

는 0.5에 가깝다고 결정되면, 흐름은 레이어 i의 헤드에 더 이상 어텐션 마스크가 추가되지 않는 314로 계속된다. 그런 다음 흐름은 316으로 계속된다.

313에서

가 0.5에 가깝지 않은 것으로 결정되면 흐름은 레이어 i에서 싱글 어텐션 마스크가 제거되는 315로 계속된다. 그런 다음 흐름은 316으로 계속된다.

316에서, 모든 층이 평가되었는지 여부가 결정된다. 그렇지 않다면, 흐름은 인덱스 i가 증분되는 317로 계속되고 흐름은 303으로 돌아간다. 316에서 모든 층이 평가되었다고 결정되면, 흐름은 마스크 전략 방법(300)이 종료되는 318로 계속된다.

일 실시예에서, 308에서 사용된 임계값은 0.25일 수 있고, 313에서 사용된 임계값은 0.4 및 0.6일 수 있다. 0.25와 0.4 사이, 그리고 0.6과 0.75 사이의 2개의 갭 중 어느 하나에 속하는 것으로 결정되면, 방법(300)은 레이어 i의 모든 헤드들에 어텐션 마스크를 추가하거나, 레이어 i의 헤드들에 더 이상 어텐션 마스크들을 추가하지 않거나, 헤드 h에서 어텐션 마스크를 제거하는 것에 관한 지시를 사용자에게 질의할 수 있다.

도 4는 본 개시에 따라 어텐션 마스크를 추가할 위치를 결정하기 위해 예시적인 마스크 전략 방법(300)을 수행하기 위한 시스템(400)을 도시한다. 시스템(400)은 마이크로프로세서와 같은 제어기(401), 메모리(402), 및 디스플레이와 같은 입/출력(I/O) 장치(402)를 포함한다. 일 실시예에서, 제어기(401)는 예시적인 마스크 전략 방법(300)을 수행하기 위해 메모리(402)에 저장된 명령어를 실행할 수 있다. 시스템(400)은 I/O 장치(403)를 통해 중간 및 최종 결과를 제공한다. 다른 실시예에서, 시스템(400)은 예시적인 마스크 전략 방법(300)을 수행하도록 구성된 상태 머신일 수 있다.

복잡한 검색 문제를 완화하고 마스크 배치를 자동으로 학습하기 위해 각 어텐션 헤드에 대해 학습 가능한 스케일 팩터 α∈(0,1)를 도입할 수 있다. 이러한 기술은 원본 마스크의 0들이 스케일 팩터들로 대체되고 1들은 1들로 유지되는 소프트 마스킹이라고 한다. 여기서 하드 마스킹이라는 용어는 0들과 1들을 사용하는 원본 유형의 마스크에 사용된다. 아래의 수학식 4 및 수학식 5는 각각 하드 마스킹 및 소프트 마스킹에 대한 정의를 제공한다.

여기서

및

는 각각 하드 마스크 및 소프트 마스크에서 n번째 행 및 j번째 열이다.

도 5a 및 5b는 본 개시에 따른 예시적인 하드 마스크(501) 및 예시적인 소프트 마스크(502)를 각각 도시한다. 스케일 팩터 α는 인접하지 않은 패치의 어텐션 가중치에 페널티를 주기 위해 동작한다. 스케일 팩터 α는 패치 토큰이 공간적 국소성에 다르게 기여할 수 있도록 한다. 예를 들어, α가 0에 접근하면 어텐션 헤드는 패치에 대한 국소 정보에 더 집중한다. 반대로, α가 1에 가까울 때 어텐션 헤드는 패치에 대한 글로벌 정보에 어텐드한다. 결과적으로 모든 레이어의 각 어텐션 헤드는 국소성의 중요성을 유연하게 결정할 수 있다. Soft Masking은 훈련 중에 추가 파라미터를 추가하는 것처럼 보이지만 실제로는 추가 파라미터의 수는 상대적으로 무시할 수 있다. 예를 들어, 3개의 헤드가 있는 12레이어 MaiT 소형 모델에는 36개의 추가 파라미터들만 도입된다.

도 6은 본 개시에 따라 어텐션 헤드(500)에 소프트 마스킹이 적용될 수 있는 방법을 도시한다. 소프트 마스킹은 각 어텐션 헤드에 대해 학습 가능한 국소 바이어스 α를 추가하여 변압기의 용량과 유연성을 유지하면서 어텐션 맵의 공간 국소성을 향상시킬 수 있다. 국소 바이어스 α는 어텐션 맵의 대각선 요소에만 추가되어 도 6에 도시된 바와 같이 가까운 이웃을 강화한다. 어텐션 맵은 다음과 같이 변경된다:

여기서 M은 어텐션 마스크이고 α는 각 어텐션 헤드에 대한 공유 바이어스다. 학습 가능한 바이어스 α는 모든 레이어의 각 어텐션 헤드가 국소성의 중요성을 유연하게 결정할 수 있도록 한다. 이것은 또한 순수 마스크와 관련된 어텐션 마스크에 대한 헤드 사이의 최상의 위치를 결정하는 문제를 완화할 수 있다.

본 개시의 주요 특징은 도 1에 도시된 바와 같이 공간적 국소성을 변환기로 인코딩하기 위해 어텐션 마스크를 적용하는 것이다. 어텐션 마스크는 어텐션 맵이 가까운 이웃에 집중하도록 한다. 추가적으로, 더 나은 성능을 위해, 본 개시는 도 2에 도시된 바와 같이 공간 바이어스를 갖는 업그레이드를 포함할 수도 있다. 공간 바이어스 항은 가까운 이웃의 가중치를 향상시키기 위해 어텐션 마스크에 추가될 수 있다.

도 7은 본 개시에 따른 어텐션 마스크를 구비한 이미지 변환기를 포함하는 전자 장치(700)를 도시한다. 전자 장치(700)는 버스(790)를 통해 서로 연결된 제어기(또는 CPU)(710), 키패드, 키보드, 디스플레이, 터치 스크린 디스플레이, 2D 이미지 센서, 3D 이미지 센서 등과 같은 입출력 장치(720), 메모리(730), 인터페이스(740), GPU(750), 영상 처리부(760), 신경 처리부(770), TOF 처리부(780)를 포함할 수 있다. 제어기(710)는, 예를 들면, 적어도 하나의 마이크로프로세서, 적어도 하나의 디지털 신호 프로세서, 적어도 하나의 마이크로제어기 등을 포함할 수 있다. 메모리(730)는 제어기(710)에 의해 사용되는 명령 코드 및/또는 사용자 데이터를 저장하도록 구성될 수 있다. 영상 처리부(760) 또는 신경 처리부(770) 중 적어도 하나는 본 개시에 따른 어텐션 마스크를 갖는 이미지 변환기를 포함한다.

전자 장치(700) 및 전자 장치(700)의 다양한 시스템 구성요소는 하나 또는 모듈로 형성될 수 있다. 인터페이스(740)는, 예를 들면, RF 신호를 이용하여 무선 통신 네트워크와 데이터를 송수신하도록 구성된 무선 인터페이스를 포함하도록 구성될 수 있다. 무선 인터페이스(740)는, 예를 들면, 안테나를 포함할 수 있다. 전자 장치(700)는 또한 CDMA(Code Division Multiple Access), GSM(Global System for Mobile Communications), NADC(North American Digital Communications)와 E TDMA(Extended Time Division Multiple Access), WCDMA(광대역 CDMA), CDMA2000, Wi Fi, Municipal Wi Fi(Muni Wi Fi), Bluetooth, DECT(Digital Enhanced Cordless Telecommunications), 무선 범용 직렬 버스(무선 USB), Fast low-latency access with seamless handoff Orthogonal Frequency Division Multiplexing (Flash OFDM), IEEE 802.20, GPRS(General Packet Radio Service), iBurst, WiBro(Wireless Broadband), WiMAX, WiMAX-Advanced, Universal Mobile Telecommunication Service - Time Division Duplex (UMTS TDD), High Speed Packet Access (HSPA), Evolution Data Optimized(EVDO), Long Term Evolution - Advanced(LTE-Advanced), Multichannel Multipoint Distribution Service(MMDS), 5세대 무선(5G), 6세대 무선(6G) 등과 같은 통신 시스템의 통신 인터페이스 프로토콜에 사용될 수 있다. ,.

본 명개시의 시스템 동작의 실시예는 본 개시에 개시된 구조 및 이들의 구조적 등가물을 포함하는 디지털 전자 회로, 또는 컴퓨터 소프트웨어, 펌웨어, 또는 하드웨어, 또는 이들의 조합으로 구현될 수 있다. 본 개시의 실시예는 하나 이상의 컴퓨터 프로그램, 즉, 데이터 처리 장치의 동작을 제어하거나 실행을 위해 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램 명령의 하나 이상의 모듈로서 구현될 수 있다. 대안적으로 또는 추가로, 프로그램 명령은 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 전송을 위한 정보를 인코딩하도록 생성된 인공적으로 생성된 전파 신호, 예를 들어 기계 생성 전기, 광학 또는 전자기 신호에 인코딩될 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 저장 장치, 컴퓨터 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 어레이 또는 장치, 또는 이들의 조합일 수 있거나 이에 포함될 수 있다. 더욱이, 컴퓨터 저장 매체는 전파 신호는 아니지만, 컴퓨터 저장 매체는 인위적으로 생성된 전파 신호로 인코딩된 컴퓨터 프로그램 명령의 소스 또는 목적지일 수 있다. 컴퓨터 저장 매체는 또한 하나 이상의 개별 물리적 구성요소 또는 매체(예: 여러 CD, 디스크 또는 기타 저장 장치)일 수 있거나 이에 포함될 수 있다. 또한, 본 명세서에서 설명하는 동작은 컴퓨터가 읽을 수 있는 하나 이상의 저장 장치에 저장되거나 다른 소스로부터 수신된 데이터에 대해 데이터 처리 장치가 수행하는 동작으로 구현될 수 있다.

본 명세서는 많은 특정 구현 세부사항을 포함할 수 있지만, 구현 세부사항은 청구된 주제의 범위에 대한 제한적으로 해석되어서는 안 되며, 오히려 특정 실시예에 특정한 특징에 대한 설명으로 해석되어야 한다. 별도의 실시예와 관련하여 본 명세서에 설명된 특정 특징은 단일 실시예에서 조합하여 구현될 수도 있다. 역으로, 단일 실시예의 맥락에서 설명된 다양한 특징은 또한 개별적으로 또는 임의의 적절한 하위 조합으로 다중 실시예에서 구현될 수 있다. 더욱이, 특징이 특정 조합으로 작용하는 것으로 위에서 설명될 수 있고 심지어 초기에 그렇게 청구될 수도 있지만, 청구된 조합의 하나 이상의 특징이 일부 경우에 조합에서 제거될 수 있고 청구된 조합은 하위 조합 또는 하위 조합의 변형일 수 있다.

유사하게, 동작이 도면에 특정 순서로 도시되어 있지만, 이는 그러한 동작이 도시된 특정 순서로 또는 순차적인 순서로 수행되어야 하거나, 또는 예시된 모든 동작이 바람직한 결과를 달성하기 위해 수행되어야 함을 요구하는 것으로 이해되어서는 안 된다. 특정 상황에서는 멀티태스킹과 병렬 처리가 유리할 수 있다. 더욱이, 위에서 설명된 실시예에서 다양한 시스템 구성요소의 분리는 모든 실시예에서 그러한 분리를 요구하는 것으로 이해되어서는 안 되며, 설명된 프로그램 구성요소 및 시스템은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 여러 소프트웨어 제품들의 패키지로 포함될 수 있음을 이해해야 한다.

따라서, 본 개시 특정 실시예가 여기에서 설명되었다. 다른 실시예는 다음 청구항의 범위 내에 있다. 어떤 경우에는 청구범위에 명시된 조치가 다른 순서로 수행될 수 있으며 여전히 바람직한 결과를 얻을 수 있다. 또한, 첨부 도면에 도시된 프로세스는 바람직한 결과를 달성하기 위해 도시된 특정 순서 또는 순차적인 순서를 반드시 필요로 하는 것은 아니다. 특정 구현에서 멀티태스킹 및 병렬 처리가 유리할 수 있다.

본 개시가 속한 기술분야의 통상의 기술자에 의해 인식되는 바와 같이, 여기에 설명된 혁신적인 개념은 광범위한 애플리케이션에 걸쳐 수정 및 변경될 수 있다. 따라서, 청구된 주제의 범위는 위에서 논의된 특정 예시적인 교시에 제한되어서는 안 되며, 대신 다음 청구범위에 의해 정의된다.

Claims

L 레이어; 및
H 어텐션 헤드들을 포함하고,
상기 어텐션 헤드들 중 h'의 어텐션 헤드들은 소프트맥스(Softmax) 동작 이전에 추가된 어텐션 마스크를 포함하고, 상기 어텐션 헤드들 중 h의 어텐션 헤드들은 마스크되지 않은 어텐션 헤드들을 포함하고, H=h+h'인 비전 변환기.
제1 항에 있어서,
적어도 하나의 어텐션 마스크는 쿼리 벡터(Query vector)와 키 벡터(Key vector)를 곱하여 요소별 곱(element-wise product)을 형성하는 비전 변환기.
제2 항에 있어서,
적어도 하나의 어텐션 마스크는 3x3 어텐션 마스크를 포함하는 비전 변환기.
제2 항에 있어서,
적어도 하나의 어텐션 마스크는 5x5 어텐션 마스크를 포함하는 비전 변환기.
제2 항에 있어서,
적어도 하나의 어텐션 마스크는 패치의 가장 가까운 이웃을 선택하고 상기 패치의 상기 가장 가까운 이웃들보다 멀리 있는 패치들은 무시하는 하드 마스크를 포함하는 비전 변환기.
제2 항에 있어서,
적어도 하나의 어텐션 마스크는 패치의 가장 가까운 이웃들의 가중치들에 배율(magnification factor)을 곱하고 상기 패치의 상기 가장 가까운 이웃들보다 더 멀리 있는 패치들의 가중치들을 전달하는 소프트 마스크를 포함하는 비전 변환기.
제2 항에 있어서,
적어도 하나의 어텐션 마스크에 학습 가능한 바이어스 α가 추가된 비전 변환기.
제7 항에 있어서,
상기 학습 가능한 바이어스 α는 상기 적어도 하나의 어텐션 맵의 대각선 요소들에 추가되는 비전 변환기.
이미지 변환기에 공간적 국소성을 통합하는 방법에 있어서,
상기 방법은:
상기 이미지 변환기의 각 레이어에서 선택된 어텐션 헤드에 어텐션 마스크를 추가하는 단계;
상기 이미지 변환기의 각 레이어에 대한 어텐션 국소성 점수를 결정하는 단계;
0.75보다 큰 상기 레이어에 대한 상기 어텐션 국소성 점수에 기초하여 레이어의 모든 어텐션 헤드들에 어텐션 마스크를 추가하는 단계;
0.35 이상 0.75 이하인 상기 레이어에 대한 상기 어텐션 국소성 점수에 기초하여 레이어에 더 이상 어텐션 마스크들을 추가하지 않는 단계; 및
0.35 미만인 상기 레이어에 대한 상기 어텐션 국소성 점수에 기초하여 레이어에서 어텐션 마스크를 제거하는 단계를 포함하는 방법.
제9 항에 있어서,
상기 이미지 변환기의 각 레이어에서 상기 선택된 어텐션 헤드에 어텐션 마스크를 추가하는 단계는 Softmax 동작 전에 어텐션 헤드를 추가하는 단계를 포함하는 방법.