KR102479817B1 - 소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법 - Google Patents

소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR102479817B1
KR102479817B1 KR1020210164889A KR20210164889A KR102479817B1 KR 102479817 B1 KR102479817 B1 KR 102479817B1 KR 1020210164889 A KR1020210164889 A KR 1020210164889A KR 20210164889 A KR20210164889 A KR 20210164889A KR 102479817 B1 KR102479817 B1 KR 102479817B1
Authority
KR
South Korea
Prior art keywords
attention
tokenization
patch
vision
shifted
Prior art date
Application number
KR1020210164889A
Other languages
English (en)
Inventor
송병철
이승훈
이승현
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020210164889A priority Critical patent/KR102479817B1/ko
Application granted granted Critical
Publication of KR102479817B1 publication Critical patent/KR102479817B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Image Processing (AREA)

Abstract

소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법이 제시된다. 본 발명의 일 실시예에 따른 컴퓨터 장치에 의해 수행되는 소규모 데이터세트를 위한 비전 트랜스포머 장치의 동작 방법은, 비전 트랜스포머 장치의 토큰화 과정에서 이웃 픽셀간의 공간적 관계 정보를 증가시키는 시프트된 패치 토큰화(Shifted Patch Tokenization, SPT)를 수행하는 단계를 포함하고, 상기 시프트된 패치 토큰화(SPT)를 수행하는 단계는, 공간적 차원에서 입력 영상을 여러 방향으로 시프팅시키고 상기 입력 영상과 함께 연결하여 토큰화할 수 있다.

Description

소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법{Vision Transformer Apparatus for Small Dataset and Method of Operation}
아래의 본 발명의 실시예들은 소규모 데이터세트를 위한 비전 트랜스포머(vision transformer) 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 비전 트랜스포머가 소규모 데이터세트에서 사전학습 없이 처음부터 학습할 수 있게 하는 소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법에 관한 것이다.
영상 데이터의 시각적 표현(visual representation)의 학습에 효과적인 합성곱 신경망(Convolutional Neural Network, CNN)은 컴퓨터비전 분야에서 독보적으로 주류로 사용되어 왔다. 한편, 자연어처리 분야에서는 셀프 어텐션(self-attention) 메커니즘에 근거한 소위 트랜스포머가 엄청난 성공을 거두었다. 그래서 컴퓨터비전 분야에서도 셀프 어텐션 매커니즘을 합성곱 신경망과 조합하려는 시도들이 존재했다. 이러한 연구들은 셀프 어텐션 매커니즘이 영상 도메인에도 효과적으로 적용됨을 입증했다. 최근에는 온전히 셀프 어텐션만으로 구성된 전통적인 트랜스포머를 영상 데이터에 적용한 비전 트랜스포머가 영상 분류에서 ResNet과 EfficientNet보다 우수한 성능을 보인 바 있다. 이는 컴퓨터비전 분야에서도 트랜스포머가 큰 주목을 받는 계기가 되었다.
비전 트랜스포머는 합성곱 신경망의 핵심인 합성곱 필터를 거의 사용하지 않는다. 단지, 비전 트랜스포머의 토큰화 과정에서만 합성곱 필터가 사용되고 있다. 그래서 비전 트랜스포머는 합성곱 신경망보다 구조적으로 지역성 귀납적 편향이 부족하고, 이러한 특성 때문에 비전 트랜스포머가 좋은 시각적 표현을 얻기 위해서는 엄청난 양의 학습용 데이터가 필요하다. 예를 들면, 단지 소규모 데이터세트를 학습하기 위해서 비전 트랜스포머는 JFT-300M와 같은 대규모 데이터세트에 대한 사전학습 전략을 선행해야 했다. 사전학습에 대한 부담을 완화하기 위해, ImageNet와 같은 중간 규모 데이터세트를 처음부터 학습하기 위한 여러 비전 트랜스포머 기법들이 제안되었다. 이런 데이터 효율적인 비전 트랜스포머들은 네트워크 구조 관점에서 지역성 귀납적 편향을 증가시키려고 노력했다. 예를 들면, 합성곱 신경망처럼 계층적 구조를 채택하여 다양한 수용 영역을 사용하거나, 셀프 어텐션 매커니즘 자체를 개선하였다. 그러나 중간 규모 데이터세트에 대해서 처음부터 학습하는 것도 여전히 상당한 계산 비용을 요구한다. 더욱이 소규모 데이터세트를 처음부터 학습하는 기술은 데이터세트 규모와 성능의 트레이드오프(trade-off)를 고려할 때 매우 도전적이다. 따라서 지역성 귀납적 편향을 충분히 증가시켜 소규모 데이터세트도 잘 학습할 수 있는 비전 트랜스포머의 연구가 필요하다.
그러나, 지역성 귀납적 편향을 저해함으로써 비전 트랜스포머의 성능을 제한하는 두 가지 문제점이 있다.
첫 번째는 열악한 토큰화이다. 비전 트랜스포머는 주어진 영상을 동일한 크기의 겹치지 않는 패치로 나누고, 각 패치를 시각적 토큰으로 선형투영 한다. 이때 각 패치에 동일한 선형투영이 적용된다. 이를 통해 비전 트랜스포머의 토큰화는 순열분변 특성을 가져 패치 간 관계를 잘 임베딩 할 수 있게 한다. 반대급부로 겹치지 않는 패치들은 시각적 토큰이 상대적으로 작은 수용 영역을 갖게 한다. 예를 들면, 동일한 다운 샘플링 비율을 가지는 겹치는 패치로 토큰화 하는 것보다 겹치지 않는 패치 기반으로 토큰화 하는 것이 작은 수용 영역을 가진다. 좁은 수용 영역은 비전 트랜스포머가 너무 적은 수의 픽셀로 토큰화하게 만든다. 결국 각 시각적 토큰에 이웃 픽셀과의 공간적 관계정보가 충분히 임베딩되지 못한다.
두 번째 문제는 열악한 어텐션(attention) 매커니즘이다. 영상 데이터의 특징 차원이 자연어 데이터와 오디오 데이터보다 월등히 커서 임베딩된 토큰의 수가 상당히 클 수밖에 없다. 이 때문에 토큰들의 어텐션 점수의 분포가 평활화되는 현상이 발생한다. 결국 비전 트랜스포터가 중요한 시각적 토큰에 지역적으로 어텐션하지 못하는 문제 즉, 열악한 어텐션 매커니즘 문제가 생긴다.
상기 두 가지의 대표적인 문제들이 타겟 클래스에 집중하지 못하는 고도로 중복된 어텐션을 야기한다. 이런 중복된 어텐션은 트랜스포머가 배경에 쉽게 집중하고 타겟 클래스의 형태를 잘 포착하지 못하게 한다.
최근 비전 트랜스포머의 대규모 데이터세트에 대한 의존성을 완화하기 위해 데이터 효율적인 비전 트랜스포머가 여러 연구에서 제안되었다. 이러한 비전 트랜스포머는 중간 규모 데이터세트에 대해서도 처음부터 학습이 가능하다.
예를 들면, DeiT는 데이터 증강 기법과 정칙화 전략을 이용하여 비전 트랜스포머의 효율성을 제고하였고, 증류 토큰을 도입하여 지식 증류 기법을 사용했다. T2T는 겹치지 않는 패치를 flattening하여 트랜스포머에 적용하는 토큰화 방식을 사용했다. 이는 토큰 주변의 지역 구조 정보를 학습할 수 있게 해준다. PiT(비특허문헌 2)는 합성곱 레이어의 풀링 구조에 기반한 공간 차원 축소를 통해 다양한 수용 영역을 실현하였다. CvT는 선형 투영과 다층 퍼셉트론 레이어를 모두 합성곱 레이어로 대체하였다. 또한, PiT처럼 CvT도 합성곱 레이어만으로 다양한 수용 영역을 생성했다. Swin Transformer는 겹치지 않는 국소 영역에서 계산되는 어텐션을 사용하면서 패치 통합을 통해 토큰의 수를 점진적으로 줄여나가는 효율적인 계층적 트랜스포머를 제시했다. CaiT(비특허문헌 5)는 깊이가 깊은 트랜스포머도 학습 시 잘 수렴시키는 LayerScale 기법을 제안하였다. 또한, CaiT의 트랜스포머 인코더는 패치-어텐션 레이어와 클래스-어텐션 레이어(layer)로 나누어져 클래스 임베딩에 효과적이다.
그러나, 앞서 언급한 비전 트랜스포머들은 적어도 ImageNet과 같은 중간 규모 데이터세트로 학습될 때에만 의미 있는 성능을 보였으며, 소규모 데이터세트로 학습한 사례는 아직까지 보고된 바 없다. 소규모 데이터세트에서 처음부터 학습이 가능 하려면, 비전 트랜스포머의 지역성 귀납 편향이 충분히 확보되어야 한다.
Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv: 2010.11929 (2020). Heo, Byeongho, et al. "Rethinking spatial dimensions of vision transformers." arXiv preprint arXiv: 2103.16302 (2021). Yuan, Li, et al. "Tokens-to-token vit: Training vision transformers from scratch on imagenet." arXiv preprint arXiv: 2101.11986 (2021). Liu, Ze, et al. "Swin transformer: Hierarchical vision transformer using shifted windows." arXiv preprint arXiv: 2103.14030 (2021). Touvron, Hugo, et al. "Going deeper with image transformers." arXiv preprint arXiv: 2103.17239 (2021).
본 발명의 실시예들은 소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법에 관하여 기술하며, 보다 구체적으로 비전 트랜스포머가 소규모 데이터세트에서 사전학습 없이 처음부터 학습할 수 있게 하는 기술을 제공한다.
본 발명의 실시예들은 시프트된 패치 토큰화(SPT)와 지역 셀프 어텐션(LSA)을 통하여 비전 트랜스포머의 지역성 귀납적 편향을 향상시켜 소규모 데이터세트에서도 잘 학습할 수 있도록 하는 소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법을 제공하는데 있다.
본 발명의 일 실시예에 따른 컴퓨터 장치에 의해 수행되는 소규모 데이터세트를 위한 비전 트랜스포머 장치의 동작 방법은, 비전 트랜스포머 장치의 토큰화 과정에서 이웃 픽셀간의 공간적 관계 정보를 증가시키는 시프트된 패치 토큰화(Shifted Patch Tokenization, SPT)를 수행하는 단계를 포함하고, 상기 시프트된 패치 토큰화(SPT)를 수행하는 단계는, 공간적 차원에서 입력 영상을 여러 방향으로 시프팅시키고 상기 입력 영상과 함께 연결하여 토큰화할 수 있다.
상기 토큰화 과정 이후, 상기 비전 트랜스포머 장치의 셀프 어텐션이 지엽적으로 작동하도록 유도하는 지역 셀프 어텐션(Locality Self-Attention, LSA)을 수행하는 단계를 더 포함하고, 상기 지역 셀프 어텐션(LSA)을 수행하는 단계는, 각 토큰이 큰 관계를 가지는 인접한 토큰들에 더 어텐션하도록 할 수 있다.
상기 시프트된 패치 토큰화(SPT)를 수행하는 단계는, 공간적 차원에서 입력 영상을 여러 방향으로 시프팅시켜 시프트된 영상을 획득하는 단계; 상기 시프트된 영상을 상기 입력 영상과 함께 연결하여 연결된 특징을 획득하는 단계; 상기 연결된 특징에 패치 분할을 적용하여 패치 특징을 획득하는 단계; 및 상기 패치 특징을 시각적 토큰으로 임베딩하기 위해 패치 평탄화, 레이어 정규화 및 선형 투영을 수행하는 단계를 포함하여 이루어질 수 있다.
상기 시프트된 패치 토큰화(SPT)를 수행하는 단계는, 상기 입력 영상을 공간적으로 시프팅시킨 만큼 토큰화 레이어의 수용 영역을 확장시켜, 상기 수용 영역을 확장시키기 이전보다 많은 상기 공간적 관계 정보를 상기 시각적 토큰에 임베딩할 수 있다.
상기 지역 셀프 어텐션(LSA)을 수행하는 단계는, 셀프 어텐션의 softmax 함수에 학습 가능한 temperature 파라미터를 적용하고, 유사성 행렬의 대각성분에 음의 무한대를 곱하여, 각 토큰이 큰 관계를 가지는 인접한 토큰들에 더 어텐션하도록 할 수 있다.
본 발명의 다른 실시예에 따른 소규모 데이터세트를 위한 비전 트랜스포머 장치는, 토큰화 과정에서 이웃 픽셀간의 공간적 관계 정보를 증가시키는 시프트된 패치 토큰화(Shifted Patch Tokenization, SPT)를 수행하는 시프트된 패치 토큰화부를 포함하고, 상기 시프트된 패치 토큰화부는, 공간적 차원에서 입력 영상을 여러 방향으로 시프팅시키고 상기 입력 영상과 함께 연결하여 토큰화할 수 있다.
상기 비전 트랜스포머 장치의 셀프 어텐션이 지엽적으로 작동하도록 유도하는 지역 셀프 어텐션(Locality Self-Attention, LSA)을 수행하는 지역 셀프 어텐션부를 더 포함하고, 상기 지역 셀프 어텐션부는, 각 토큰이 큰 관계를 가지는 인접한 토큰들에 더 어텐션하도록 할 수 있다.
본 발명의 실시예들에 따르면 비전 트랜스포머가 소규모 데이터세트에서 사전학습 없이 처음부터 학습할 수 있게 하는 소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법을 제공할 수 있다.
본 발명의 실시예들에 따르면 시프트된 패치 토큰화(SPT)와 지역 셀프 어텐션(LSA)을 통하여 비전 트랜스포머의 지역성 귀납적 편향을 향상시켜 소규모 데이터세트에서도 잘 학습할 수 있도록 하는 소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법을 제공할 수 있다.
본 발명의 실시예들에 따르면 시프트된 패치 토큰화(SPT)와 지역 셀프 어텐션(LSA)을 통해 구조 변경 없이 이식 가능한 모듈 형태로 기존 비전 트랜스포머 계열에 쉽게 적용되어 성능을 향상시킬 수 있는 소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 시프트된 패치 토큰화(SPT)를 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 지역 셀프 어텐션(LSA)을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예들에 따른 소규모 데이터세트를 위한 비전 트랜스포머 장치의 동작 방법을 나타내는 흐름도이다.
도 4는 본 발명의 일 실시예들에 따른 소규모 데이터세트를 위한 비전 트랜스포머 장치를 나타내는 블록도이다.
도 5는 본 발명의 일 실시예에 따른 클래스 토큰의 어텐션 점수 시각화 비교를 나타낸다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
최근에 트랜스포머 구조를 영상 인식 작업에 알맞게 적용한 비전 트랜스포머 가 합성곱 신경망을 능가하는 성능을 보였다. 하지만 ViT(비특허문헌 1)의 높은 성능은 JFT-300M과 같은 대규모 데이터세트를 사용한 사전학습 전략에 기인하며, 비전 트랜스포머의 방대한 데이터세트에 대한 의존도는 낮은 지역성 귀납적 편향 때문으로 해석된다.
본 발명의 실시예들은 지역성 귀납적 편향의 부족 문제를 효과적으로 해결하여 비전 트랜스포머가 소규모 데이터세트조차도 사전학습 없이 처음부터 학습할 수 있게 하는 시프트된 패치 토큰화(Shifted Patch Tokenization, SPT)와 지역 셀프 어텐션(Locality Self-Attention, LSA)을 제안한다.
보다 구체적으로, 실시예들은 시프트된 패치 토큰화(SPT)는 입력 영상을 픽셀 단위로 이동시키고 이동된 영상들을 입력 영상과 함께 연결한 후 토큰화한다. 이를 통해서 이웃 픽셀들과의 공간적 상관 정보가 유용하게 이용될 수 있다. 지역 셀프 어텐션(LSA)은 셀프 어텐션의 softmax 함수에 학습 가능한 temperature가 적용되고, 유사성 행렬의 대각성분에 음의 무한대를 곱한다. 이는 각 토큰이 큰 관계를 가지는 인접한 토큰들에 더 어텐션하도록 한다. 더욱이, 시프트된 패치 토큰화(SPT)와 지역 셀프 어텐션(LSA)은 종래 비전 트랜스포머에 쉽게 적용되는 일반적이고 효과적인 추가 모듈이다.
실험 결과를 통해 시프트된 패치 토큰화(SPT)와 지역 셀프 어텐션(LSA)을 모두 적용했을 때, 정성적으로나 정략적으로 비전 트랜스포머 계열의 성능을 효과적으로 향상시킴을 확인할 수 있다.
본 발명의 실시예들의 소규모 데이터세트를 위한 비전 트랜스포머 장치의 동작 방법은 두 가지 부분으로 구성될 수 있다.
첫 번째는, 공간적으로 시프팅시킨 만큼 토큰화 레이어의 수용 영역을 확장시키는 시프트된 패치 토큰화(SPT)이다. 확장된 수용 영역으로부터 더 많은 공간적 정보를 시각적 토큰에 임베딩할 수 있다.
두 번째는, 비전 트랜스포머의 어텐션 점수 분포의 평활화 문제를 해소하는 지역 셀프 어텐션(LSA)이다. 결과적으로 지역 셀프 어텐션(LSA)은 비전 트랜스포머의 어텐션이 지엽적으로 작동하도록 유도할 수 있다.
실시예들에 따르면 시프트된 패치 토큰화(SPT)와 지역 셀프 어텐션(LSA)을 통하여 비전 트랜스포머의 지역성 유도 편향을 향상시켜 소규모 데이터세트에서도 잘 학습할 수 있도록 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 시프트된 패치 토큰화(SPT)를 설명하기 위한 도면이다.
도 1을 참조하면, 시프트된 패치 토큰화(SPT, 100)는 입력 영상(101)을 여러 방향으로 공간적으로 시프팅(110)시키고 이들을 입력 영상(101)과 채널 차원으로 연결(120)한 다음, 기존의 비전 트랜스포머처럼 패치 분할(130)을 적용한다. 이어서, 시각적 토큰(105)으로의 임베딩을 위해, 패치 평탄화(140), 레이어 정규화(Layer Normalization, LN)(150) 및 선형 투영(160)의 세 과정들이 연이어 동작한다.
보다 구체적으로, 시프트된 패치 토큰화(SPT, 100)는 입력 영상(101)을 여러 방향으로 공간적으로 시프팅(110)시켜 시프트된 영상(102)을 획득할 수 있다. 예컨대 시프트된 영상(102)은 Left-Up, Right-Up, Left-Down, Right-Down과 같은 영상일 수 있다. 이러한 시프트된 영상(102)을 입력 영상(101)과 채널 차원으로 연결(120)하여 연결된 특징(103)을 획득할 수 있다. 이후, 패치 분할(130)을 적용하여 패치 특징(104)을 획득하고, 패치 특징(104)을 시각적 토큰(105)으로 패치 평탄화(140), 레이어 정규화(Layer Normalization, LN)(150) 및 선형 투영(160)할 수 있다.
이러한 시프트된 패치 토큰화(SPT)를 다음 식과 같이 표현할 수 있다.
[수학식 1]
Figure 112021136620050-pat00001
[수학식 2]
Figure 112021136620050-pat00002
여기서, 는 입력 영상을 나타내고,
Figure 112021136620050-pat00003
는 번째 평탄화된 벡터를 나타낸다. 이때, 은 패치의 개수를 의미한다. 그리고, 는 번째 시프팅된 영상을 나타내고, 는 시프팅된 패치의 개수를 의미한다.
시프트된 패치 토큰화(SPT)는 각 시각적 토큰에 기존의 토큰화보다 더 넓은 수용 영역을 임베딩 할 수 있어, 비전 트랜스포머의 지역성 귀납적 편향을 효과적으로 향상시킬 수 있다.
도 2는 본 발명의 일 실시예에 따른 지역 셀프 어텐션(LSA)을 설명하기 위한 도면이다.
도 2를 참조하면, 일반적으로 softmax 함수(240)는 temperature scaling를 통해 출력 분포의 부드러움을 조절할 수 있다. 지역 셀프 어텐션(LSA, 204)은 softmax 함수(240)의 temperature 파라미터를 학습(220)함으로써 어텐션 점수 분포를 일차적으로 뾰족(sharp)하게 만들 수 있다.
추가적으로, 쿼리(Query, 201)와 키(Key, 202)로 계산되는 유사도 행렬의 대각 성분들을 강제로 낮추는 소위 대각 성분 마스킹(230)을 적용하여 셀프 토큰의 관계 정보를 제거할 수 있다. 이 대각 성분 마스킹(230)은 셀프 토큰과 다른 토큰과의 어텐션 점수를 상대적으로 증가시켜서, 어텐션 점수 분포를 더욱 뾰족하게 만들 수 있다.
지역 셀프 어텐션(LSA)을 다음 식과 같이 나타낼 수 있다.
[수학식 3]
Figure 112021136620050-pat00004
[수학식 4]
Figure 112021136620050-pat00005
여기서,
Figure 112021136620050-pat00006
는 마스킹된 유사도 행렬의 각 원소를 나타내고,
Figure 112021136620050-pat00007
는 학습 가능한 파라미터이다. 또한, 는 학습 가능한 선형 투영이다.
본 발명의 실시예들은 소규모 데이터세트를 처음부터 잘 학습하기 위해 비전 트랜스포머의 지역성 귀납적 편향을 효과적으로 향상시키는 두 가지 해법들을 제안한다.
첫 번째로, 토큰화 과정에서 이웃 픽셀간의 공간적 관계 정보를 증가시키는 시프트된 패치 토큰화(Shifted Patch Tokenization, SPT)를 제안한다. 시프트된 패치 토큰화(SPT)의 아이디어는 일시적인 시프트 모듈(Temporal Shift Module, TSM)로부터 착안되었다. 일시적인 시프트 모듈(TSM)은 특징의 일부 시간 채널을 시프팅해서 효과적인 시간적 모델링을 수행했다. 이에 영감을 받아 실시예들은 공간적 차원에서 입력 영상을 여러 방향으로 시프팅하고 이 특징들을 원본과 함께 연결한 후 토큰화한다. 시프트된 패치 토큰화(SPT)는 기존 토큰화보다 비전 트랜스포머에 더 넓은 수용 영역을 부여할 수 있다. 이는 각 시각적 토큰에 더 많은 공간적 정보를 임베딩하여 지역성 귀납적 편향을 증가시키는 효과를 낸다.
두 번째로, 비전 트랜스포머가 지역적으로 어텐션 할 수 있도록 하는 지역 셀프 어텐션(Locality Self-Attention, LSA)을 제안한다. 지역 셀프 어텐션(LSA)은 셀프 토큰을 제외한 나머지 토큰만을 사용해서 어텐션 점수를 구하고, softmax 함수에 학습 가능한 temperature를 적용해서 어텐션 점수의 평활화 문제를 해소한다. 지역 셀프 어텐션(LSA)은 셀프 어텐션 매커니즘이 셀프 토큰에 너무 어텐션 하지 않도록 유도하기 때문에, 고정된 temperature를 사용하는 종래 비전 트랜스포머와 달리 중요한 시각적 토큰에 어텐션 할 수 있게 만든다.
제안된 시프트된 패치 토큰화(SPT)와 지역 셀프 어텐션(LSA)은 구조 변경 없이 이식 가능한 모듈 형태로 기존 비전 트랜스포머 계열에 쉽게 적용되어 성능을 향상시킨다.
도 3은 본 발명의 일 실시예들에 따른 소규모 데이터세트를 위한 비전 트랜스포머 장치의 동작 방법을 나타내는 흐름도이다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 컴퓨터 장치에 의해 수행되는 소규모 데이터세트를 위한 비전 트랜스포머 장치의 동작 방법은, 비전 트랜스포머 장치의 토큰화 과정에서 이웃 픽셀간의 공간적 관계 정보를 증가시키는 시프트된 패치 토큰화(Shifted Patch Tokenization, SPT)를 수행하는 단계(S110)를 포함하여 이루어질 수 있다.
또한, 토큰화 과정 이후, 비전 트랜스포머 장치의 셀프 어텐션이 지엽적으로 작동하도록 유도하는 지역 셀프 어텐션(Locality Self-Attention, LSA)을 수행하는 단계(S120)를 더 포함할 수 있다.
아래에서 본 발명의 일 실시예들에 따른 소규모 데이터세트를 위한 비전 트랜스포머 장치의 동작 방법을 보다 구체적으로 설명하기로 한다.
본 발명의 일 실시예들에 따른 소규모 데이터세트를 위한 비전 트랜스포머 장치의 동작 방법은 소규모 데이터세트를 위한 비전 트랜스포머 장치를 예를 들어 설명할 수 있다.
도 4는 본 발명의 일 실시예들에 따른 소규모 데이터세트를 위한 비전 트랜스포머 장치를 나타내는 블록도이다.
도 4를 참조하면, 본 발명의 일 실시예들에 따른 소규모 데이터세트를 위한 비전 트랜스포머 장치(400)는 시프트된 패치 토큰화부(410)를 포함하여 이루어질 수 있으며, 실시예에 따라 지역 셀프 어텐션부(420)를 더 포함하여 이루어질 수 있다.
단계(S110)에서, 시프트된 패치 토큰화부(410)는 비전 트랜스포머 장치의 토큰화 과정에서 이웃 픽셀간의 공간적 관계 정보를 증가시키는 시프트된 패치 토큰화(SPT)를 수행할 수 있다.
시프트된 패치 토큰화부(410)는 공간적 차원에서 입력 영상을 여러 방향으로 시프팅시키고 입력 영상과 함께 연결하여 토큰화할 수 있다. 보다 구체적으로, 시프트된 패치 토큰화부(410)는 공간적 차원에서 입력 영상을 여러 방향으로 시프팅시켜 시프트된 영상을 획득하고, 시프트된 영상을 입력 영상과 함께 연결하여 연결된 특징을 획득하며, 연결된 특징에 패치 분할을 적용하여 패치 특징을 획득한 후, 패치 특징을 시각적 토큰으로 임베딩하기 위해 패치 평탄화, 레이어 정규화 및 선형 투영을 수행할 수 있다.
이에 따라 시프트된 패치 토큰화부(410)는 입력 영상을 공간적으로 시프팅시킨 만큼 토큰화 레이어의 수용 영역을 확장시켜, 수용 영역을 확장시키기 이전보다 많은 공간적 관계 정보를 시각적 토큰에 임베딩할 수 있다.
단계(S120)에서, 지역 셀프 어텐션부(420)는 비전 트랜스포머 장치의 셀프 어텐션이 지엽적으로 작동하도록 유도하는 지역 셀프 어텐션(LSA)을 수행할 수 있다.
지역 셀프 어텐션부(420)는 각 토큰이 큰 관계를 가지는 인접한 토큰들에 더 어텐션하도록 할 수 있다. 보다 구체적으로, 지역 셀프 어텐션부(420)는 셀프 어텐션의 softmax 함수에 학습 가능한 temperature 파라미터를 적용하고, 유사성 행렬의 대각성분에 음의 무한대를 곱하여, 각 토큰이 큰 관계를 가지는 인접한 토큰들에 더 어텐션하도록 할 수 있다.
아래에서는 시프트된 패치 토큰화(SPT)와 지역 셀프 어텐션(LSA)을 모두 적용했을 때 정량적 결과 비교를 설명한다.
표 1은 소규모 데이터세트에서의 성능을 나타낸다.
[표 1]
Figure 112021136620050-pat00008
표 1을 참조하면, 본 발명의 실시예들에 따른 효과를 증명하기 위해 대표적인 소규모 데이터셋(CIFAR-10, CIFAR-100, SVHN, Tiny-ImageNet)에 대해 성능을 평가했다. 본 발명이 적용된 비전 트랜스포머(ViT(비특허문헌 1), PiT(비특허문헌 2), T2T(비특허문헌 3), Swin(비특허문헌 4), CaiT(비특허문헌 5))에서 평균적으로 높은 성능 향상을 달성하였다. 예를 들면 ViT(비특허문헌 1), PiT(비특허문헌 2), T2T(비특허문헌 3), Swin(비특허문헌 4), CaiT(비특허문헌 5)에서 각각 최대 4.00, 4.01, 1.26, 4.08, 2.81 포인트 성능 향상을 이루었다.
여기서, ‘SL’ 표기는 시프트된 패치 토큰화(SPT)와 지역 셀프 어텐션(LSA)이 적용됨을 의미한다.
아래에서는 시프트된 패치 토큰화(SPT)와 지역 셀프 어텐션(LSA)을 모두 적용했을 때 정성적 결과 비교를 설명한다.
도 5는 본 발명의 일 실시예에 따른 클래스 토큰의 어텐션 점수 시각화 비교를 나타낸다.
본 발명의 실시예들에 따른 정성적인 결과 비교를 각 모델에 대하여 클래스 토큰의 어텐션 점수를 시각화할 수 있다. 클래스 토큰의 어텐션 점수의 분포를 통해 비전 트랜스포머가 어느 위치에 집중하는지 알 수 있다. 도 5에 도시된 바와 같은 결과로부터 시프트된 패치 토큰화(SPT)와 지역 셀프 어텐션(LSA)이 되었을 때 어텐션 점수가 클래스의 형태를 포착하여 지엽적으로 분포됨을 확인할 수 있다. 이로부터 본 발명의 실시예들이 비전 트랜스포머의 지역성 귀납적 편향을 효과적으로 향상시켜 성능을 개선함을 알 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (7)

  1. 컴퓨터 장치에 의해 수행되는 소규모 데이터세트를 위한 비전 트랜스포머 장치의 동작 방법에 있어서,
    비전 트랜스포머 장치의 토큰화 과정에서 이웃 픽셀간의 공간적 관계 정보를 증가시키는 시프트된 패치 토큰화(Shifted Patch Tokenization, SPT)를 수행하는 단계; 및
    상기 토큰화 과정 이후, 상기 비전 트랜스포머 장치의 셀프 어텐션이 지엽적으로 작동하도록 유도하는 지역 셀프 어텐션(Locality Self-Attention, LSA)을 수행하는 단계
    를 포함하고,
    상기 시프트된 패치 토큰화(SPT)를 수행하는 단계는,
    공간적 차원에서 입력 영상을 여러 방향으로 시프팅시키고 상기 입력 영상과 함께 연결하여 토큰화하며, 상기 입력 영상을 공간적으로 시프팅시킨 만큼 토큰화 레이어의 수용 영역을 확장시켜, 상기 수용 영역을 확장시키기 이전보다 많은 상기 공간적 관계 정보를 시각적 토큰에 임베딩하고,
    상기 지역 셀프 어텐션(LSA)을 수행하는 단계는,
    어텐션 점수 분포의 평활화 문제를 해소하기 위해 셀프 어텐션의 softmax 함수의 temperature 파라미터를 학습하여 상기 어텐션 점수 분포를 뾰족(sharp)하게 만들어, 각 토큰이 큰 관계를 가지는 인접한 토큰들에 더 어텐션하도록 하는 것
    을 특징으로 하는, 비전 트랜스포머 장치의 동작 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 시프트된 패치 토큰화(SPT)를 수행하는 단계는,
    공간적 차원에서 입력 영상을 여러 방향으로 시프팅시켜 시프트된 영상을 획득하는 단계;
    상기 시프트된 영상을 상기 입력 영상과 함께 연결하여 연결된 특징을 획득하는 단계;
    상기 연결된 특징에 패치 분할을 적용하여 패치 특징을 획득하는 단계; 및
    상기 패치 특징을 시각적 토큰으로 임베딩하기 위해 패치 평탄화, 레이어 정규화 및 선형 투영을 수행하는 단계
    를 포함하는, 비전 트랜스포머 장치의 동작 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 지역 셀프 어텐션(LSA)을 수행하는 단계는,
    셀프 어텐션의 softmax 함수에 학습 가능한 temperature 파라미터를 적용하고, 유사성 행렬의 대각성분에 음의 무한대를 곱하여, 각 토큰이 큰 관계를 가지는 인접한 토큰들에 더 어텐션하도록 하는 것
    을 특징으로 하는, 비전 트랜스포머 장치의 동작 방법.
  6. 소규모 데이터세트를 위한 비전 트랜스포머 장치에 있어서,
    토큰화 과정에서 이웃 픽셀간의 공간적 관계 정보를 증가시키는 시프트된 패치 토큰화(Shifted Patch Tokenization, SPT)를 수행하는 시프트된 패치 토큰화부; 및
    상기 비전 트랜스포머 장치의 셀프 어텐션이 지엽적으로 작동하도록 유도하는 지역 셀프 어텐션(Locality Self-Attention, LSA)을 수행하는 지역 셀프 어텐션부
    를 포함하고,
    상기 시프트된 패치 토큰화부는,
    공간적 차원에서 입력 영상을 여러 방향으로 시프팅시키고 상기 입력 영상과 함께 연결하여 토큰화하며, 상기 입력 영상을 공간적으로 시프팅시킨 만큼 토큰화 레이어의 수용 영역을 확장시켜, 상기 수용 영역을 확장시키기 이전보다 많은 상기 공간적 관계 정보를 시각적 토큰에 임베딩하고,
    상기 지역 셀프 어텐션부는,
    어텐션 점수 분포의 평활화 문제를 해소하기 위해 셀프 어텐션의 softmax 함수의 temperature 파라미터를 학습하여 상기 어텐션 점수 분포를 뾰족(sharp)하게 만들어, 각 토큰이 큰 관계를 가지는 인접한 토큰들에 더 어텐션하도록 하는 것
    을 특징으로 하는, 비전 트랜스포머 장치.
  7. 삭제
KR1020210164889A 2021-11-25 2021-11-25 소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법 KR102479817B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210164889A KR102479817B1 (ko) 2021-11-25 2021-11-25 소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210164889A KR102479817B1 (ko) 2021-11-25 2021-11-25 소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법

Publications (1)

Publication Number Publication Date
KR102479817B1 true KR102479817B1 (ko) 2022-12-21

Family

ID=84536705

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210164889A KR102479817B1 (ko) 2021-11-25 2021-11-25 소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR102479817B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052007A (zh) * 2023-03-30 2023-05-02 山东锋士信息技术有限公司 一种融合时间和空间信息的遥感图像变化检测方法
CN116287138A (zh) * 2023-05-23 2023-06-23 杭州华得森生物技术有限公司 基于fish的细胞检测系统及其方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200129198A (ko) * 2017-05-23 2020-11-17 구글 엘엘씨 어텐션-기반의 시퀀스 변환 신경망
KR20210124901A (ko) * 2020-04-07 2021-10-15 네이버 주식회사 이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200129198A (ko) * 2017-05-23 2020-11-17 구글 엘엘씨 어텐션-기반의 시퀀스 변환 신경망
KR20210124901A (ko) * 2020-04-07 2021-10-15 네이버 주식회사 이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv: 2010.11929 (2020).
Heo, Byeongho, et al. "Rethinking spatial dimensions of vision transformers." arXiv preprint arXiv: 2103.16302 (2021).
Liu, Ze, et al. "Swin transformer: Hierarchical vision transformer using shifted windows." arXiv preprint arXiv: 2103.14030 (2021).
Touvron, Hugo, et al. "Going deeper with image transformers." arXiv preprint arXiv: 2103.17239 (2021).
Yuan, Li, et al. "Tokens-to-token vit: Training vision transformers from scratch on imagenet." arXiv preprint arXiv: 2101.11986 (2021).

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052007A (zh) * 2023-03-30 2023-05-02 山东锋士信息技术有限公司 一种融合时间和空间信息的遥感图像变化检测方法
CN116052007B (zh) * 2023-03-30 2023-08-11 山东锋士信息技术有限公司 一种融合时间和空间信息的遥感图像变化检测方法
CN116287138A (zh) * 2023-05-23 2023-06-23 杭州华得森生物技术有限公司 基于fish的细胞检测系统及其方法
CN116287138B (zh) * 2023-05-23 2023-08-11 杭州华得森生物技术有限公司 基于fish的细胞检测系统及其方法

Similar Documents

Publication Publication Date Title
Lee et al. Vision transformer for small-size datasets
Yao et al. Dual vision transformer
KR102479817B1 (ko) 소규모 데이터세트를 위한 비전 트랜스포머 장치 및 그 동작 방법
CN111127346A (zh) 基于部分到整体注意力机制的多层次图像修复方法
Su et al. Multi‐scale cross‐path concatenation residual network for Poisson denoising
Wang et al. Image splicing detection based on convolutional neural network with weight combination strategy
CN114223019A (zh) 用于参数有效的语义图像分割的反馈解码器
Feng et al. Mipi 2022 challenge on under-display camera image restoration: Methods and results
Zhang et al. Perspective-adaptive convolutions for scene parsing
Peng et al. Building super-resolution image generator for OCR accuracy improvement
Hu et al. Dear-gan: Degradation-aware face restoration with gan prior
Wang et al. Ucl-dehaze: Towards real-world image dehazing via unsupervised contrastive learning
Xu et al. Rethinking surgical captioning: End-to-end window-based mlp transformer using patches
Zhang et al. Rrsr: Reciprocal reference-based image super-resolution with progressive feature alignment and selection
Xu et al. Learning dynamic style kernels for artistic style transfer
Nasrollahi et al. Deep artifact-free residual network for single-image super-resolution
Yu et al. MagConv: Mask-guided convolution for image inpainting
Sun et al. Two-stage deep single-image super-resolution with multiple blur kernels for Internet of Things
CN116310324A (zh) 一种基于语义分割的金字塔跨层融合解码器
Yao et al. Multiscale residual fusion network for image denoising
CN113688783B (zh) 人脸特征提取方法、低分辨率人脸识别方法及设备
Huo et al. Efficient photorealistic style transfer with multi-order image statistics
Tang et al. Context module based multi-patch hierarchical network for motion deblurring
Liu et al. Point2CN: Progressive two-view correspondence learning via information fusion
Shen et al. Mask-guided explicit feature modulation for multispectral pedestrian detection

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant