KR102458463B1

KR102458463B1 - 이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법

Info

Publication number: KR102458463B1
Application number: KR1020210032668A
Authority: KR
Inventors: 라를루스-라혼두 디아느; 페레즈 줄리엔; 불렌트 사리일디스 메르트
Original assignee: 네이버 주식회사
Priority date: 2020-04-07
Filing date: 2021-03-12
Publication date: 2022-10-26
Also published as: JP2021166046A; KR20210124901A; JP7195365B2; US11263753B2; US20210312628A1

Abstract

다음의 단계에 의해, 방법 및 시스템은 마스킹된 언어 모델링에 기초하여 이미지 인식을 위한 컨볼루션 신경망을 사전 훈련시킨다: 컨볼루션 신경망에 이미지를 입력하는 단계; 컨볼루션 신경망으로부터 시각적 임베딩 벡터들의 시각적 임베딩 텐서를 출력하는 단계; 토큰들의 목록을 생성하기 위해 캡션을 토큰화하는 단계 - 적어도 하나의 토큰은 컨볼루션 신경망에 의해 수신된 이미지에 대한 시각적 대응을 가짐 -;마스킹될 토큰들의 목록 내의 토큰들 중 하나를 무작위로 선택하는 단계 - 선택된 토큰은 정답(ground truth)으로 간주됨 -; 언어 모델 신경망을 사용하여 토큰들의 은닉된 표현들을 계산하는 단계;마스킹된 토큰의 은닉된 표현을 질의 벡터로 사용하여 시각적 임베딩 텐서에서 시각적 임베딩 벡터들을 주의 깊게 풀링(pool)하는 단계;풀링된 시각적 임베딩 벡터들을 토큰들에 매핑함으로써 마스킹된 토큰을 예측하는 단계; 마스킹된 토큰과 연관된 예측 손실을 결정하는 단계; 및 예측 손실을 컨볼루션 신경망으로 역전파하여 그의 파라미터들을 조정하는 단계.

Description

이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법{A METHOD FOR TRAINING A CONVOLUTIONAL NEURAL NETWORK FOR IMAGE RECOGNITION USING IMAGE-CONDITIONED MASKED LANGUAGE MODELING}

본 개시는 이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법에 관한 것으로, 구체적으로 마스킹된 언어 모델링에 기초하여 이미지 인식을 위한 컨볼루션 신경망을 사전 훈련시키는 방법에 관한 것이다.

컴퓨터 비전의 딥 러닝 접근법들에서는 대규모의 수동으로 주석이 달린(annotated) 데이터세트들이 활용된다. 이들 데이터 소스들은 관심있는 특정 태스크들, 예컨대, 이미지 분류, 객체 감지 또는 장면 세분화(scene segmentation)에 대한 최신 모델들을 훈련시킬 수 있게 한다. 또한 대규모의 수동으로 주석이 달린 데이터세트들은 대용량 신경망들이 다수의 태스크들에 걸쳐 전달가능한 표현들을 학습할 수 있게 한다.

기계 학습 파이프라인들, 예컨대, 자율 주행 자동차들 또는 자율 개인 어시스턴트들에는 중요한 작업들이 명령되므로 보다 정확하고 강력한 모델들을 구축할 필요가 있다.

이러한 중요한 작업들로의 전환은 신경망 기반 아키텍처들의 계산 복잡성을 증가시키면서 더 유능한 모델들의 훈련을 필요로 한다. 그러나, 입력 이미지들에 대해 세분화된 분석을 수행해야 하는 태스크들에 대해 구조화된 주석이 달린 데이터를 수집하는 것은 어렵고 비용이 많이 든다.

보다 구체적으로, 그러한 데이터가 충분하지 않은 도메인들에 대해 주석이 달린 데이터를 수집하거나 시각적 장면들의 구조에 대한 자세한 이해 또는 객체 유형들 및 속성들에 대한 세분화된 분석이 필요한 태스크들에 대해 주석이 달린 데이터를 수집하는 것은 어렵고 비용이 많이 든다.

하나의 특정 예는 감지기가 인식해야 하는 모든 개별 객체 및 개념의 경계 박스(bounding box)들을 필요로 하는 객체 감지 태스크에 대한 주석들이다.

주석이 달릴 복잡한 장면의 예시가 도 2에 도시되어 있다. 도 2에 도시된 바와 같이, 이미지(300)는 집 또는 대저택(330)을 포함한다. 집 또는 대저택(330)은 정원 영역(미도시)을 둘러싸는 벽 또는 울타리(340)를 갖는다. 이미지(300)는 상록수들(320) 및 낙엽수(321)를 더 포함한다. 도 2에 도시된 바와 같이, 이미지(300)는 또한 구름들(310)을 포함한다.

도 2의 이미지(300)에 대한 적절한 주석들을 생성하기 위해, 도 3의 경계 박스들(410)이 감지될 다양한 객체들 주위로 구현된다. 도 3은 미세하지 않은 스케일의 경계 박스들(410)의 사용을 예시한다. 창문들, 문들, 굴뚝들 등의 감지와 같이 더 정밀한 감지가 요구되는 경우, 도 3은 더 많은 수의 경계 박스들(410)을 사용할 것이다. 이들 경계 박스들의 사용은 정밀(rigorous) 모델들을 훈련시키기 위한 강한 지도(strong supervision)를 요구한다.

또한, 개별 시각적 태스크들에 대한 주석들을 수집하는 비용을 줄이기 위해 보다 약한(weaker) 지도 신호들에 의존하는 모델들을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련시키는 것이 바람직하다.

또한 개별 시각적 태스크들에 대한 주석들을 수집하는 비용을 줄이기 위해 소셜 미디어 플랫폼들과 같이 풍부하지만 상당히 잡음이 있는 공개적으로 이용가능한 지식 기반들을 사용하고, 약한 지도 신호들에 의존하는 모델들을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련시키는 것이 바람직하다.

본 개시의 일 실시예에 따르면, 샴(Siamese) 아키텍처를 사용하여 이미지 인식을 위한 컨볼루션 신경망을 사전 훈련시키는 방법은, 샴 아키텍처의 제1 분기(branch)는 시각적 표현들을 생성하는 컨볼루션 신경망이고, 샴 아키텍처의 제2 분기는 텍스트 표현들을 생성하는 언어 모델 신경망이며, 방법은: (a) 언어 모델 신경망의 마스킹된 토큰을 사용하고 컨볼루션 신경망에 의해 생성된 이미지의 시각적 표현들을 사용하여 이미지 조건화 마스킹된 언어 모델링(Image-conditioned Masked Language, IMLM) 태스크를 해결하는 단계를 포함하며, 이미지 조건화 마스킹된 언어 모델링 태스크를 해결하는 단계는 (a1)이미지 조건화 마스킹된 언어 모델링 태스크의 예측 손실들을 계산하는 단계, 및 (a2)예측 손실들을 컨볼루션 신경망에 역전파(back propagate)함으로써 컨볼루션 신경망을 훈련시키는 단계를 포함한다.

본 개시의 다른 일 실시예에 따르면, 마스킹된 언어 모델링에 기초하여 이미지 인식을 위한 컨볼루션 신경망을 사전 훈련시키는 방법은, (a) 컨볼루션 신경망에 이미지를 입력하는 단계, (b) 컨볼루션 신경망으로부터 H x W x C 차원 이미지 임베딩 텐서를 출력하는 단계 - H 및 W는 C-차원 시각적 특징 벡터들의 공간 그리드의 높이와 폭을 나타냄 -, (c)토큰들의 목록을 생성하기 위해 캡션을 토큰화하는 단계 - 적어도 하나의 토큰은 컨볼루션 신경망에 의해 수신된 이미지에 대한 시각적 대응을 가짐 -, (d) 토큰들의 목록 내의 토큰들 중 하나를 마스킹하는 단계, (e) H x W x C 차원 이미지 임베딩 텐서의 시각적 특징 벡터들을 사용하여 마스킹된 토큰을 예측하는 단계, (f) 마스킹된 토큰과 연관된 예측 손실을 결정하는 단계 및(g) 예측 손실을 컨볼루션 신경망으로 역전파하여 그의 파라미터들을 조정하는 단계를 포함한다.

본 개시의 또 다른 일 실시예에 따르면, 마스킹된 언어 모델링에 기초하여 이미지 인식을 위한 컨볼루션 신경망을 사전 훈련시키는 방법은, (a) 컨볼루션 신경망에 이미지를 입력하는 단계, (b) 컨볼루션 신경망으로부터 시각적 임베딩 벡터들의 시각적 임베딩 텐서를 출력하는 단계, (c)토큰들의 목록을 생성하기 위해 캡션을 토큰화하는 단계 - 적어도 하나의 토큰은 컨볼루션 신경망에 의해 수신된 이미지에 대한 시각적 대응을 가짐 -, (d)마스킹될 토큰들의 목록 내의 토큰들 중 하나를 무작위로 선택하는 단계 - 선택된 토큰은 정답(ground truth)으로 간주됨 -, (e)언어 모델 신경망을 사용하여 토큰들의 은닉된 표현들을 계산하는 단계, (f) 마스킹된 토큰의 은닉된 표현을 질의 벡터로 사용하여 시각적 임베딩 텐서에서 시각적 임베딩 벡터들을 주의 깊게 풀링(pool)하는 단계, (g) 풀링된 시각적 임베딩 벡터들을 토큰들에 매핑함으로써 마스킹된 토큰을 예측하는 단계, (h) 마스킹된 토큰과 연관된 예측 손실을 결정하는 단계 , 및 (i) 예측 손실을 컨볼루션 신경망으로 역전파하여 그의 파라미터들을 조정하는 단계를 포함한다.

도면들은 단지 다양한 실시예들을 예시하기 위한 것이며 제한하는 것으로 해석되어서는 안 된다.
도 1은 훈련 방법 및 재식별 방법에 대한 아키텍처의 예를 도시한다.
도 2는 주석이 달릴 복잡한 장면의 예를 도시한다.
도 3은 도 2에 대해 생성된 경계 박스 주석들의 예를 도시한다.
도 4는 BERT(Bidirectional Encoder Representations from Transformers) 모델에서 해결된 마스킹된 언어 모델링 태스크의 완전한 체인의 블록 다이어그램을 도시한다.
도 5는 이미지 인식을 위한 컨볼루션 신경망을 훈련시키는 데 사용되는 이미지 조건화 마스킹된 언어 모델링(Image-conditioned Masked Language Modeling, IMLM)의 완전한 체인의 블록 다이어그램을 도시한다.
도 6은 선형 계층들을 사용한 ImageNet Top-1 분류 정확도를 보여주는 표를 도시한다.
도 7은 RotNe에 의해 학습된 이미지 표현들과 이미지 검색 태스크에 대한 이미지 조건화 마스킹된 언어 모델링의 비교를 보여주는 표를 도시한다.

아래에서 기술되는 방법들 및/또는 프로세스들은 서버(100)에 의해, 도 1에 도시된 것과 같은 아키텍처 내에서 구현될 수 있다.

아래의 설명에서, 시각적 임베딩들과 시각적 표현들은 이들 공식들이 동일하기 때문에 상호교환적으로 사용된다.

서버(100)는 일반적으로 데이터 교환을 위해 인터넷과 같은 확장된 네트워크(200)에 연결된다. 서버(100)는 데이터 프로세서(110) 및 하드 디스크와 같은 메모리(120)를 포함한다.

위에서 언급한 바와 같이, 소셜 미디어 플랫폼들과 같이 풍부하지만 상당히 잡음이 있는 공개적으로 이용가능한 지식 기반들을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련시키는 것이 바람직하다.

이러한 플랫폼들에 매일 업로드되는 데이터의 양을 고려할 때 사용자들에 의해 직접 주석이 달린 데이터로부터 이익을 얻는 것은 모델들의 성능을 상당히 높일 수 있다. 보다 구체적으로, 수십억 개의 소셜 미디어 이미지들의 해시 태그들을 예측하는 것이 ImageNet의 객체 분류 태스크에서의 큰 향상으로 이어지는 것으로 나타났다. 또한 인터넷 상의 요리 비디오들로부터 대규모 영상 데이터세트를 수집하고 자동으로 파싱(parse)된 주석들을 포함함으로써 VideoBERT 모델이 훈련될 수 있는 것으로 나타났다.

또한 위에서 언급했듯이, 개별 시각적 태스크들에 대한 주석들을 수집하는 비용을 줄이기 위해 보다 약한 지도 신호들에 의존하는 모델들을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련시키는 것이 바람직하다.

보다 구체적으로, 무료로 이용가능한 이미지들의 대규모 세트에 대한 프록시 태스크를 해결함으로써 이미지 임베딩 모델들을 학습하기 위해 컴퓨터 비전에서 비지도 학습(unsupervised learning)이 활용되었다. 임베딩 모델이 학습되면, 이는 타겟 태스크들의 목록을 최소한의 노력으로 해결하는 데 사용될 수 있다.

예를 들어, 비지도 프록시 태스크는 자동 인코더들을 사용하여 데이터의 잠재 공간을 학습할 수 있는 반면, 타겟 태스크들은 지도(supervised) 객체(이미지) 분류, 감지 또는 세분화를 포함할 수 있다. 대용량 자동 인코더가 학습되면, 그의 인코더 네트워크는, (i) 각각의 타겟 태스크에 대한 별도의 모델을 미세 조정하는 초기 상태, 또는 (ii) 표현 학습의 부담 없이 타겟 태스크들을 효율적으로 해결할 수 있는 특징 추출기로서 사용될 수 있다.

그러나, 어느 경우든, 인코더 네트워크에 의해 학습된 표현들의 성능은 프록시 태스크의 목적에 엄격하게 의존한다. 따라서, 입력 도메인의 주요 표현들을 캡처하는 프록시 태스크들을 공식화하는 것이 요구된다.

자기 지도 학습(self-supervised learning)을 활용하는 다른 도메인-특정 프록시 태스크들에서는, 입력 공간의 구조에 대한 암시적 사전 지식을 학습하기 위해 "프리텍스트(pretext)” 태스크가 해결된다. 전술된 바와 같이, 사전 지식은 타겟 태스크들에 활용될 수 있다. 컴퓨터 비전 애플리케이션들의 경우, 그레이 스케일 이미지의 색상화, 이미지 회전들의 예측, 또는 이미지 임베딩들의 클러스터링은 다운스트림 비전 문제들에 대해 유용한 사전지식(prior)들을 제공한다. 마찬가지로, 다음 문장 예측 및 마스킹된 언어 모델링 태스크들을 해결하는 것은, 언어 모델이 자연어 처리 타겟 태스크들의 다양한 세트에 대해 실질적으로 더 잘 수행될 수 있게 한다.

비지도 표현 학습이 유익할 수 있지만, 전이 학습에서는 지도 학습이 여전히 큰 차이를 가지고 더 잘 수행된다. 비지도 표현 학습은 또한 주석들의 부족을 보완하기 위해 훨씬 더 큰 규모의 데이터세트들을 필요로 한다.

따라서, 예를 들어, 준지도 학습(semi-supervised learning) 하에서 두 패러다임들에서 이익을 얻는 대체 공식들을 찾는 것이 바람직하다.

이미지/텍스트 기술 쌍(image/textual description pair)들은 소셜 미디어 플랫폼들에서 풍부하고 융성하다는 것에 유의한다.

아래에서 보다 상세히 기술되는 바와 같이, 이들 이미지/텍스트 기술 쌍들은 적절한 시각적 임베딩들을 훈련시키는데 활용될 수 있다. 보다 구체적으로, 아래에서 자세히 기술되는 바와 같이, 이미지 조건화 마스킹된 언어 모델링 태스크라고 칭하는 프록시 태스크는 언어 모델에 의해 파악된 텍스트 부가 정보(side information)를 활용하여 이미지에 나타날 수 있는 시각적 임베딩 모델 객체들 및 개념들을 학습시키는 데 활용된다.

예를 들어, 시각적 임베딩 모델의 훈련은 도 3의 경계 주석들을 "It is cloudy", “The house is old,” “There is a beautiful chateau among the trees,” “The trees on the left are evergreen,” “The lone maple tree is panted to the East of the house,” 또는 “The chateau has a walled garden”와 같은 불완전한 텍스트 기술(textual description)들로 대체함으로써 실현된다.

이미지 조건화 마스킹된 언어 모델링을 활용할 때, 서로 상이한 모달리티들(modalities)에서 작동하는 두 가지 모듈들, 즉 사전 훈련된 언어 모델과 시각적 인식 모델이 사용된다. 이들 모듈들을 사용하면, 시각적 장면 이해를 목적으로 자연어의 의미론적 구조가 활용된다.

예를 들어, 이미지-캡션 쌍들로 구성된 데이터세트가 주어지면, 이미지 조건화 마스킹된 언어 모델링은 데이터세트의 캡션들에 대한 마스킹된 언어 모델링 태스크를 해결한다. 그러나, 언어 사전지식 및 데이터세트 편향에 기초하여 마스킹된 단어들을 예측하는 대신, 이미지 조건화 마스킹된 언어 모델링은 캡션과 연관된 이미지를 보는 것에 의해 예측한다.

보다 구체적으로, 이미지-캡션 쌍이 주어지면, 캡션의 단어가 마스킹되고 이미지 조건화 마스킹된 언어 모델링은 이미지의 표현을 사용하여 마스킹된 단어의 레이블을 예측하려고 시도한다.

위에서 언급된 바와 같이, 다양한 비전 태스크들에 걸쳐 사용될 수 있는 효율적이고 전달가능한 표현들을 학습하도록 시각적 임베딩 모델을 훈련시키기 위해, 이미지 조건화 마스킹된 언어 모델링 기반 프록시 태스크가 활용된다. 이미지 조건화 마스킹된 언어 모델링에서, 마스킹된 언어 모델링 태스크는 시각적 정보를 사용하여 해결되며, 이에 대해서는 아래에서 자세히 기술된다.

이미지 조건화 마스킹된 언어 모델링을 더 잘 이해하기 위해, 마스킹된 언어 모델링이 자연어 표현들에 어떻게 적용되는지 간략하게 설명한다.

마스킹된 언어 모델링은 대규모 텍스트 말뭉치에 대해 언어 모델을 사전 훈련시키기 위한 자기 지도 프록시 태스크이다. 이러한 유형의 사전 훈련 방식은 언어 모델이 효율적인 언어 사전지식들을 학습할 수 있게 하므로, 언어 모델을 단순히 미세 조정하는 것만으로도 광범위한 자연어 처리 타겟 태스크들에서 최신 기술에 비해 상당한 개선들을 달성할 수 있다.

이 사전 훈련 태스크에서, (i) 단어들의 시퀀스가 토큰화되고, (ii) 토큰들의 무작위 서브세트가 마스킹되거나, 다른 토큰들로 대체되거나, 그대로 유지되도록 선택되고, (iii) 모든 토큰들은 언어 모델(양방향 트랜스포머 인코더 모델)에 대한 입력으로서 주어지고, (iv) 언어 모델은 (토큰들이 변경된 경우, 토큰들이 마스킹되거나 대체되기 전) 선택된 토큰들의 정답(ground-truth) 레이블들을 올바르게 예측하도록 훈련된다. 도 4는 이러한 사전 훈련 태스크를 수행하기 위한 아키텍처를 도시한다.

도 4에 도시된 바와 같이, "THERE IS A BEAUTIFUL CHATEAU AMONG THE TREES"를 나타내는 토큰들의 세트가 - 여기서, chateau에 대한 토큰이 마스킹됨 -트랜스포머 인코더(510)에 입력되어 마스킹된 토큰(520)의 콘텍스트화된 표현을 생성한다. 마스킹된 토큰(520)의 콘텍스트화된 표현은 BERT(Delvin et al. "Bert: Pre-training of deep bidirectional transformers for language understanding"에 기술됨)와 같은 콘텍스트 필터(530)에 입력되어 단어 예측들(540)을 생성한다.

도 4를 참조하여 자연어 표현들에 적용되는 마스킹된 언어 모델링을 설명하였으며, 이제 이미지 조건화 마스킹된 언어 모델링에 대해 더 자세히 기술한다.

사전 훈련 태스크는 이미지-캡션 쌍들이 포함된 데이터세트를 활용하며:

여기서, I_i는 이미지이고,

는 장면 I_i의 m_i 캡션들의 세트이다.

사전 훈련 프로세스에는 두 개의 신경망 모듈들: 완전 컨볼루션 신경망(fully-convolutional neural network, F-CNN)(도 5의 660) 기반 이미지 임베딩 모델 Φ_θCNN(·) 및 사전 훈련된 언어 모델(LM)ψ_θLM(·)이고, 여기서, θ_CNN 및 θ_LM은 각각 F-CNN 및 LM의 파라미터들이다.

이미지 임베딩 모델 Φ_θCNN(·)은 RGB 이미지(I_i)(도 5의 300)를 입력으로 취하고, H x W x C 차원 이미지 임베딩 텐서(도 5의 670)를 출력하며; 즉, Φ_θCNN(I) ∈ R ^{H x W x C}이고, 여기서, H와 W는 C-차원 시각적 특징 벡터들의 공간 그리드의 높이와 폭을 나타낸다.

한편, 사전 훈련된 언어 모델(LM) ψ_θLM(·)(도 5의 610)은 캡션 c_i,j(도 5의 THERE IS A BEAUTIFUL [MASK] AMONG THE TREES, 여기서, 마스킹된 토큰은 "CHATEAU"임)를 토큰화함으로써 획득된 토큰들의 목록 [t₁, . . ., t_T]^i,j를 입력으로서 수신하고, 토큰들 [ψ_θLM(t1) . . ., ψ_θLM(t_T)]^i,j(도 5의 620)의 D-차원 콘텍스트화된 표현들을 출력하며, 여기서, ψ_θLM(t_t) ∈ R^D이다.

이미지 조건화 마스킹된 언어 모델링에서, 이미지 Ii에 대해 주석이 달린 각각의 캡션

은 이미지 I_i에 나타나는 적어도 하나의 특정 동작 또는 객체를 기술한다. 다시 말해, 캡션 c_i,j에는 이미지 I_i에서 시각적 대응을 갖는 적어도 하나의 토큰이 있다고 가정할 수 있다. 이어서, 토큰들 중 하나가 마스킹되고 I_i로부터 추출된 시각적 특징들 Φ_θCNN(I_i)를 사용하여 토큰의 레이블을 예측하려고 시도할 수 있다. 이러한 방식으로, 토큰 예측 손실을 시각적 임베딩 모델 Φ_θCNN(·)에 역전파(back-propagate)함으로써 파라미터들 θ_CNN이 조정될 수 있다.

보다 구체적으로, 이미지-캡션 쌍(I_i, c_i,j)이 주어지면 이미지 조건화 마스킹된 언어 모델링의 학습 문제는 다음과 같이 정의된다. 처음에는 두 모달리티들의 입력 표현들이 추출된다. 캡션 c_i,j는 [t₁, . . ., t_T]^i,j로 토큰화된다. 토큰들 중 하나는 무작위로 선택된다 t_m ∈ [t₁, . . ., t_T]^i,j.

선택된 토큰 y_tm의 식별(즉, 토큰 어휘에서 선택된 토큰의 색인)은 정답으로 간주된다. 이어서, t_m은 "[마스크]"로 대체된다. 토큰들의 은닉된 표현들 [ψ_θLM(t1) . . ., ψ_θLM(t_T)]^i,j는 언어 모델에 의해 계산되며, 여기서, ψ_θLM(t_t) ∈ R^D이다.

병렬적으로, 이미지의 시각적 임베딩 텐서 Φ_θCNN(I) ∈ R ^{H x W x C}는 F-CNN(도 5의 660)에 의해 계산된다.

일 실시예에서, 마스킹된 토큰의 은닉된 표현 ψ_θLM(t_m)은 시각적 임베딩 텐서 Φ_θCNN(I_i)를 주의 깊게 풀링(pool)하기 위한 질의 벡터로 사용될 수 있다.

이 프로세스는 시각적 임베딩 벡터들 Φ_θCNN(I_i)의 그리드에 대한 공간 어텐션 메커니즘(spatial attention mechanism)이며, 여기서, 어텐션 점수들은 마스킹된 토큰 ψ_θLM(t_m)의 은닉된 표현에 따라 조건화되고, 아래에서 더 자세히 설명된다. 마지막으로, 어텐션 모듈(도 5의 650)에 의해 풀링된 시각적 임베딩 벡터가 토큰 어휘에 매핑되어 마스킹된 토큰의 레이블을 예측한다.

.

위의 프로세스는 텍스트 데이터로부터 추출된 신뢰할 수 있는 부가 정보를 F-CNN(도 5의 660)에 제공함으로써 F-CNN(도 5의 660)을 훈련시키도록 수행된다. 훈련을 수행하기 위해, BERT와 같은 사전 훈련된 양방향 트랜스포머 인코더 모델을 언어 모델로 사용할 수 있다. 다른 언어 모델들이 사용될 수 있다. F-CNN을 훈련시키는 동안 BERT에 의해 학습된 언어 사전지식의 이익을 얻기 위해서: (i) BERT (θ_LM)의 파라미터들이 동결되고(frozen), (ii) 풀링된 시각적 임베딩 벡터가, 콘텍스트 필터(도 5의 630) 및 사전 훈련된 BERT 모델의 부분들인 토큰 임베딩들을 사용하여 토큰 어휘 공간에 매핑된다.

BERT 모델들은 2개의 자기 지도 프리텍스트 태스크들(마스킹된 언어 모델링 태스크 및 다음 문장 예측 태스크)을 해결하여 훈련되며; 따라서, 훈련에는 추가적인 수동으로 주석 달기가 필요하지 않음에 유의한다.

이미지 조건화 마스킹된 언어 모델링에서, 무엇을 Φ_θCNN(I_i)에 학습시킬 것인가는 훈련 중에 마스킹되는 토큰들을 제한함으로써 선택적으로 결정될 수 있다. 마스킹 가능한 토큰들의 목록을 미리 결정하는 것에 의한 학습 절차에 대한 이러한 유형의 유연한 제어는 다수의 이점들을 가질 수 있다.

첫째, 이미지들에서 감지하기에는 애매모호한 토큰들; 예컨대, ‘대략(about)", "아름다운(beautiful)" 또는 "지지(support)"가 제거될 수 있다. 이들 토큰들을 제거함으로써, 모호한 개념들을 예측하는 것으로부터 발생하는 잡음이 있는 학습 신호가 필터링될 수 있고, 따라서 훈련을 안정화시킬 수 있다.

둘째, 토큰 선택을 위한 커리큘럼 학습 기반 접근법이 채택될 수 있으며, 여기서 마스킹 가능한 토큰들이 훈련 과정 중에 동적으로 업데이트된다.

결국, 최소화되는 목표는 다음과 같은 로그-우도(log-likelihood)이다:

여기서, θ_ATT는 가능하게는 어텐션 모듈(도 5의 650)에서 사용될 수 있는 훈련가능한 파라미터들이고 M은 마스킹 가능한 토큰들의 세트이다.

요약하면, 이미지와 연관된 캡션의 마스킹된 토큰은 이미지를 직접 "보는 것"에 의해 예측된다; 즉, 마스킹된 토큰은 완전 컨볼루션 신경망에서 오는 시각적 정보만 사용하여 예측된다. F-CNN로부터 추출된 W X H 크기의 공간 그리드 상에 놓인 C-차원 시각적 특징 벡터들은 BERT로부터 추출된 마스킹된 토큰의 콘텍스트화된 은닉된 표현에 대한 조건화에 의해 참고된다(attended). 마지막으로, 참고된(풀링된) 시각적 특징 벡터는 BERT에 의해 학습된 토큰 임베딩 공간으로 투영된다.

다음은 시각적 임베딩 벡터들에 대한 어텐션을 계산하는 것에 대한 설명이다.

자연어 처리 애플리케이션들을 위한 텍스트 시퀀스들을 모델링하기 위해, 스케일링된 내적 어텐션(scaled dot product attention)으로 칭하는 하나의 특정 자기 어텐션 방식이 사용되었다. 다른 어텐션 메커니즘들이 사용될 수 있음에 유의한다.

스케일링된 내적 어텐션 방식에 있어서, 트랜스포머 아키텍처의 각각의 계층에서, D-차원 키 k, 질의 q 및 값 v 벡터들이 입력 시퀀스의 각각의 토큰에 대해 계산된다. 이어서, 토큰 t_b에 대한 토큰 t_a의 어텐션 점수는 다음과 같이 계산된다:

여기서, q_a및 k_b는 각각 네트워크의 소정 계층에서의 토큰들 t_a 및 t_b에 대해 계산된 R^D의 질의 및 키 벡터들이다. 입력 시퀀스에서 각각의 토큰 간의 쌍별(pairwise) 어텐션 점수들에 기초하여, 토큰들의 콘텍스트화된 표현들이 다음과 같이 계산된다:

여기서, Q, K, V는 네트워크의 소정 계층에서의 모든 토큰들에 대해 계산되는 RTXD의 질의들, 키들 및 값들이다.

이것은 시각적 질문 답변의 목적을 위해 유도된 어텐션 단위들을 구축하도록 확장되었다. 유도된 어텐션 단위에 있어서, 어텐션 점수들은 장-단기 기억 모델에서 오는 토큰들의 은닉된 표현들과 ResNet101-백본형 Fast R-CNN 모델들의 동결된 시각적 임베딩 벡터들 사이에서 계산된다. 이를 위해 키 및 값 벡터들은 토큰 표현들에 의해 계산되고 질의 벡터들은 이미지 표현들에 의해 계산된다. 이러한 방식으로, 시각적 정보를 질의함으로써 토큰 표현들이 콘텍스트화된다.

시각적 질문 응답과 이미지 조건화 마스킹된 언어 모델링 태스크들은 데이터 모달리티들 및 해결되는 태스크들에 대해 유사하지만, 전술된 훈련은 다른 접근법을 따른다.

사전 훈련된 시각적 임베딩 모델을 사용하고 언어 모델을 훈련시켜 시각적 질문 응답 태스크를 위한 다중 모드 표현들을 학습하는 대신, 사전 훈련된 언어 모델을 사용하여 시각적 임베딩 모델이 훈련되어 이미지 조건화 마스킹된 언어 모델링 태스크를 위한 시각적 표현들을 학습한다. 따라서, 풀(pool) 시각적 표현들은 마스킹된 토큰들의 콘텍스트화된 표현을 질의함으로써 풀링된다.

보다 구체적으로, 질의 벡터 q는 사전 훈련된 BERT 모델에 의해 계산된 캡션 c_i,j의 마스킹된 토큰의 은닉된 표현이다. 키 및 값 벡터들은 2개의 서로 상이한 컨볼루션 신경 블록들 ρ_θK 및 ρ_θV를 사용하여 F-CNN의 출력을 BERT 모델의 토큰 표현 공간에 매핑함으로써 계산되며, 여기서, θ_K 및 θ_V는 이들 블록들의 훈련가능한 파라미터들이다; 즉, θ_ATT = {θ_K ∪ θ_V}. 이들 블록들은: (i) 시각적 임베딩 벡터들과 마스킹된 토큰의 표현 사이의 스케일링된 내적 어텐션 점수들을 계산하기 위해 - 그들의 차원이 일치해야 함 -, (ii) 이미지 임베딩 모델 Φ_θCNN(I_i)에 의해 학습된 표현들을 시각적 임베딩 공간으로부터 토큰 표현 공간으로의 매핑을 분리하기 위해, 그리고 (iii) F-CNN이 컨볼루션 변환들을 사용하여 시각적 임베딩 벡터들의 공간 그리드를 출력할 때, 다음을 획득하기 위한 벡터들의 배열을 획득하기 위해 사용되며:

여기서, q ∈ R^D는 질의 벡터로 사용되는, 마스킹된 토큰의 은닉된 표현이고, K와 V는 컨볼루션 블록들에 의해 계산된 R^MXD의 키들 및 값들이고(표기법을 더 간단하게 만들기 위해, 컨볼루션 블록들이 W x H 차원 공간 그리드를 M = W x H 크기의 배열로 평탄화한다고 가정함), 이제, γ(q, K, V )는 마스킹된 토큰 표현을 질의함으로써 획득한 R^D에서 콘텍스트화된 시각적 임베딩들을 생성한다.

최종적으로, γ(q, K, V )는 위에서 설명한 바와 같이 토큰 어휘 공간에 매핑된다. 훈련 중에, θ_CNN, θ_K 및 θ_V는 다음과 같은 방정식 1에 정의된 토큰 예측 손실을 최적화함으로써 조정된다:

.

모델을 효율적인 이미지 표현들을 학습하는 그의 능력들과 관련하여 평가하는 일반적인 관행에는 세 가지 고려 사항들이 있다.

제1 고려 사항은 타겟 태스크들의 스펙트럼과 관련이 있다: 광범위한 타겟 태스크들에서 표현들을 일반화할 수 있는가? 예를 들어, 자동 인코더에 의해 학습된 표현들이 객체 분류에서 표면 추정 또는 시각적 탐색에 이르는 다양한 태스크들에 유용한가?

제2 및 제3 고려 사항들은 원하는 성능을 달성하는 데 필요한 파라미터들 및 주석이 달린 훈련 샘플들의 수와 관련이 있다: 모델이 계산적으로 더 저렴한 아키텍처 또는 훨씬 적은 주석이 달린 데이터를 사용하여 특정 타겟 태스크에서 동일한 성능 수준을 달성할 수 있는가?

이들 기본 양태들에 기초하여 모델들을 벤치마킹하기 위해, 객체 분류, 감지 및 세분화, 이미지 검색 또는 퓨샷 러닝(few-shot learning)을 포함하여 몇 가지 타겟 태스크들이 제안되었다.

시각적 세계에 대한 사전 지식을 수집하여 효율적인 이미지 표현들을 학습하는 방법으로, 비지도 학습의 한 형태로 자기 지도 프록시 태스크들이 제안되었다.

다음 테스트들에서, 이미지 조건화 마스킹된 언어 모델링은 다음과 같은 이유들로 비지도 학습 기반 접근법들과 비교되었다.

첫째, 시각적 임베딩 모델들을 훈련시키고 평가하기 위해 해결되는 프록시와 타겟 태스크들은 서로 분리되어 있다. 이미지 조건화 마스킹된 언어 모델링에 있어서, 시각적 임베딩 모델들은 사전 훈련된 언어 모델에 의해 안내되는 마스킹된 단어 예측 태스크를 해결함으로써 훈련된다. 이어서, 시각적 임베딩 모델들에 의해 학습된 표현들은 다른 본질적으로 상이한 비전 태스크들; 예컨대, 객체 분류 또는 이미지 검색으로서 평가된다.

그런 의미에서, 추가 텍스트 입력(잡음이 있고 불완전하지만)이 사용되더라도, 이미지 조건화 마스킹된 언어 모델링은 타겟 태스크들과 관련하여 비지도 방식으로 훈련된다.

둘째, 인터넷에서 발견되는 풍부한 이미지-캡션 쌍들은 데이터 주석 달기 병목 현상을 극복하기 위한 약한 지도(weak supervision)의 잠재적 소스가 될 수 있다. 따라서, 이미지 조건화 마스킹된 언어 모델링은 비전 태스크들에 대한 이 풍부한 약한 지도가 활용될 수 있는, 시각적 임베딩 모델들을 훈련하기 위한 대안적인 방법이다.

셋째, 비지도 학습 접근법들은 비전 태스크들의 목록에서 이미지 표현들을 평가하기 위한 벤치마크 프로토콜들을 자연스럽게 확립했다. 이들 프로토콜들을 직접 실험함으로써, 이미지 조건화 마스킹된 언어 모델링으로 얻은 이득을 측정할 수 있다.

테스트에서, Φ_θCNN, ρ_θK 및 ρ_θV 모듈들은 Visual Genome 데이터세트에 제공된 (이미지, 영역 기술(region description)) 튜플들에 관한 것이다. Visual Genome에는 108,077개의 이미지들과 540만개의 영역 기술들이 포함되어 있다. 각각의 영역 기술은 이미지에 있는 객체들 간의 특정 상호작용에 대한 것이며 경계 박스 및 캡션 주석들과 함께 제공된다. 목표는 F-CNN을 훈련하기 위한 목적으로 불완전한 약한 지도를 활용하는 것이기 때문에, 실험들에서 경계 박스 주석들은 삭제된다.

이들 실험들에서, 이미지 영역의 10% 미만 또는 90% 초과를 점유하는 영역 기술들은 제거된다. 이어서, WordPiece 토큰화가 적용되고 길이가 3 미만이거나 15를 초과하는 시퀀스들은 제거된다. 마스킹 가능한 토큰들의 목록은 캡션들에 있는 가장 일반적인 2,000개의 명사들과 형용사들로 구성된다. 그렇게 하는 동안, 마스킹된 토큰의 레이블을 예측하는 것이 목적이므로, 단일 조각으로 토큰화되는 명사들과 형용사들이 선택된다.

명사들과 형용사들은 기술(description)들로 파싱된다. 영역 기술들과 마스킹 가능한 단어들 양자 모두를 전처리한 후, 데이터세트는 약 1백만개의 영역 기술들과 1,246개의 마스킹 가능한 단어들을 갖는다. 따라서, 방정식 1은 (이미지, 영역 기술) 쌍들에 대한 1246-가지(way) 분류 문제로 바뀐다. 나머지 기술들 중 50k 영역 기술들의 2개의 세트들을 무작위로 선택하여 검증 및 테스트 세트들을 구성한다.

일관성을 유지하기 위해, AlexNet-유사 컨볼루션 신경망인 이미지 임베딩 모델 ΦθCNN이 사용되며, 각각의 컨볼루션 계층에는 BatchNorm2D 계층이 있다. 테스트들에서, ImageNet에서 사전 훈련된 AlexNet 체크 포인트는 회전 예측 태스크와 함께 로딩된다. 그러나, 전술된 바와 같이, 어텐션 메커니즘을 사용하여 시각적 특징들이 풀링되기 때문에, AlexNet의 마지막 최대 풀링 및 완전히 연결된 계층들이 제거된다.

ρ_θK 및 ρ_θV 블록들은 나중에 2개의 Conv2D-BatchNorm2D-ReLU 계층들과 선형 Conv2D 계층을 사용하여 구축된다. BERT 모델의 토큰 표현들의 차원인 768개의 채널을 갖는 마지막 선형 Conv2D를 제외한 각각의 Conv2D 계층은 3 x 3 커널들과 512개의 채널들을 갖는다. 또한 ρ_θK 및 ρ_θV가 시각적 특징 벡터들의 공간 구성을 이해하기 위해, 원-햇(one-hat) 위치 임베딩들은 ρ_θK 및 ρ_θV 블록들에 공급되기 전에 시각적 특징 벡터들 Φ_θCNN(I_i)에 결합된다(concatenated). 모델의 모든 훈련가능한 파라미터들은 각각 Φ_θCNN 및 [ρ_θK, ρ_θV] 네트워크들의 파라미터들에 대해 학습률들이 5 x 10⁵ 및 5 x 10⁴인 ADAM 옵티마이져를 사용하여, 256 크기의 배치(batch)들로 100k SGD 업데이트들을 수행함으로써 조정된다. 선형 학습률 감소(learning rate decay)는 훈련 중에 적용된다.

이미지 조건화 마스킹된 언어 모델링은 ILSVRC-2012 챌린지 데이터세트에 대한 객체 분류 태스크에 대한 몇 가지 최신 자기 지도 학습 접근법들과 비교되었다. 이 태스크에 대한 표준 평가 절차는 사전 훈련된 모델들로부터 이미지 표현들을 추출하고 동결된 표현들 상부에 로지스틱 회귀 분류기(logistic regression classifier)들을 훈련시키는 것을 수반한다. AlexNet에는 5개의 컨볼루션 계층들이 있으므로, 동결된 표현들은 각각의 컨볼루션 계층의 출력에서 계산되고, 이어서 공간적으로 크기가 조정됨으써, 각각의 계층의 표현들이 대략 9k 차원이 된다. 그 다음, 각 분기에서 평탄화 및 BatchNorm2D 및 완전 연결 계층들이 부가되고, 새로 추가된 이들 파라미터들은 ILSVRC-2012 데이터세트의 훈련 세트에 대해 35 에포크(epoch)들 동안 SGD 업데이트들을 수행함으로써 훈련된다.

이 태스크에서의 성능을 계산하기 위해 공개적으로 공유된 저장소가 사용된다. 비교되는 모든 접근법들은 이미지 조건화 마스킹된 언어 모델링과 같은 AlexNet-유사 아키텍처를 사용한다.

이미지 조건화 마스킹된 언어 모델링에 의해 훈련된 AlexNet 아키텍처로부터 추출된 이미지 표현들은 자기 지도 학습 접근법들에 비해 상당한 개선들로 이어진다. RotNet과 이미지 조건화 마스킹된 언어 모델링을 비교함으로써, 전달가능한 표현들을 학습하기 위해 언어 사전지식을 활용하는 분명한 이점이 실현된다. 또한 컨볼루션 계층 파라미터들의 개수가 Deep Cluster보다 AlexNet에서 실질적으로 더 클 수 있지만, 이미지 조건화 마스킹된 언어 모델링은 특히 AlexNet에 대한 보다 일반적인 표현들의 학습을 가능하게 한다. 이와 관련하여, 이미지 조건화 마스킹된 언어 모델링으로 F-CNN을 훈련시키는 것이 Deep Cluster보다 더 효율적이다.

도 6은 선형 계층들을 사용한 ImageNet Top-1 분류 정확도를 나타내는 표 1을 도시한다. 표 1의 모든 접근법들은 모델들에서 AlexNet-유사 아키텍처를 사용한다. 표 1의 제1 부분과 제2 부분은 이 벤치마크의 상한과 하한이다.

이미지 조건화 마스킹된 언어 모델링 및 RotNet을 이미지 검색 태스크에 대해 테스트하였다. 클래스 수준 분류 태스크와는 대조적으로, 이 태스크는 이미지들의 세분화된 세부 사항들을 캡처하는 측면에서 모델들을 벤치마킹함으로써 클래스 내 분산(intra-class variation)들을 선호한다.

이 두 모델들에 의해 학습된 표현들을 평가하기 위해, AlexNet의 컨볼루션 계층들을 취하고 일반화된 평균 풀링, L2 정규화, 및 완전 연결 계층들이 부가된다. 완전 연결 계층의 파라미터들은 Landmarks 데이터세트의 클린(clean) 버전에 대한 AP 손실을 최소화함으로써 300 에포크 동안 훈련된다. 완전한 모델은 평균-평균-정밀도(mean-average-precision) 점수들을 계산함으로써 재방문한 Oxford Buildings 및 Paris 데이터 세트들에서 테스트된다. 이미지 조건화 마스킹된 언어 모델링 태스크를 해결함으로써 생성된 이미지 표현들은 이 태스크에서 RotNet 모델에 의해 획득된 상대들을 훨씬 능가한다. 결과들은 도 7의 표 2에 제시된다.

오답(distractor)들은 오답 세트로부터 오답들을 무작위로 선택하고 선택한 오답들을 갤러리 세트에 추가하여 선택했다.

이 확장된 데이터세트에 대해 보고된 이전 최신 결과들과 훈련된 모델들을 비교하면. 훈련된 모델의 두 버전들(r 및 b)은 도 4에 제시된 바와 같이, 최신 기술(y)을 훨씬 능가한다.

요약하면, 샴(Siamese) 아키텍처를 사용하여 이미지 인식을 위한 컨볼루션 신경망을 사전 훈련시키는 방법으로서, 샴 아키텍처의 제1 분기(branch)는 시각적 표현들을 생성하는 컨볼루션 신경망이고, 샴 아키텍처의 제2 분기는 텍스트 표현들을 생성하는 언어 모델 신경망이며, 방법은 (a) 언어 모델 신경망의 마스킹된 토큰을 사용하고 컨볼루션 신경망에 의해 생성된 이미지의 시각적 표현들을 사용하여 이미지 조건화 마스킹된 언어 모델링 태스크를 해결하는 단계를 포함하며, 이미지 조건화 마스킹된 언어 모델링 태스크를 해결하는 단계는 (a1) 이미지 조건화 마스킹된 언어 모델링 태스크의 예측 손실들을 계산하는 단계, 및 (a2) 예측 손실들을 컨볼루션 신경망에 역전파함으로써 컨볼루션 신경망을 훈련시키는 단계를 포함하는 방법이다.

마스킹된 언어 모델링에 기초하여 이미지 인식을 위한 컨볼루션 신경망을 사전 훈련시키는 방법으로서, (a) 컨볼루션 신경망에 이미지를 입력하는 단계;(b) 컨볼루션 신경망으로부터 H x W x C 차원 이미지 임베딩 텐서를 출력하는 단계 - H 및 W는 C-차원 시각적 특징 벡터들의 공간 그리드의 높이와 폭을 나타냄 -; (c) 토큰들의 목록을 생성하기 위해 캡션을 토큰화하는 단계 - 적어도 하나의 토큰은 컨볼루션 신경망에 의해 수신된 이미지에 대한 시각적 대응을 가짐 -; (d) 토큰들의 목록 내의 토큰들 중 하나를 마스킹하는 단계; (e) H x W x C 차원 이미지 임베딩 텐서의 시각적 특징 벡터들을 사용하여 마스킹된 토큰을 예측하는 단계; (f) 마스킹된 토큰과 연관된 예측 손실을 결정하는 단계; 및(g) 예측 손실을 컨볼루션 신경망으로 역전파하여 그의 파라미터들을 조정하는 단계를 포함하는 방법이다.

마스킹된 언어 모델링에 기초하여 이미지 인식을 위한 컨볼루션 신경망을 사전 훈련시키는 방법으로서, (a) 컨볼루션 신경망에 이미지를 입력하는 단계; (b) 컨볼루션 신경망으로부터 시각적 임베딩 벡터들의 시각적 임베딩 텐서를 출력하는 단계;(c) 토큰들의 목록을 생성하기 위해 캡션을 토큰화하는 단계 - 적어도 하나의 토큰은 컨볼루션 신경망에 의해 수신된 이미지에 대한 시각적 대응을 가짐 -; (d) 마스킹될 토큰들의 목록 내의 토큰들 중 하나를 무작위로 선택하는 단계 - 선택된 토큰은 정답으로 간주됨 -; (e) 언어 모델 신경망을 사용하여 토큰들의 은닉된 표현들을 계산하는 단계; (f) 마스킹된 토큰의 은닉된 표현을 질의 벡터로 사용하여 시각적 임베딩 텐서에서 시각적 임베딩 벡터들을 주의 깊게 풀링하는 단계; (g) 풀링된 시각적 임베딩 벡터들을 토큰들에 매핑함으로써 마스킹된 토큰을 예측하는 단계; (h) 마스킹된 토큰과 연관된 예측 손실을 결정하는 단계; 및 (i) 예측 손실을 컨볼루션 신경망으로 역전파하여 그의 파라미터들을 조정하는 단계를 포함하는 방법이다.

시각적 특징 벡터의 시각적 임베딩 텐서는 H x W x C 차원 이미지 임베딩 텐서일 수 있으며, 여기서, H 및 W는 C-차원 시각적 임베딩 벡터들의 공간 그리드의 높이와 폭을 나타낸다.

풀링된 시각적 특징 벡터들은 콘텍스트 필터를 사용하여 토큰 어휘 공간에 매핑될 수 있다.

마스킹된 토큰을 예측하는 것은 시각적 임베딩 벡터들의 그리드에 걸쳐 공간 어텐션 메커니즘을 사용할 수 있으며, 여기서, 어텐션 점수들은 마스킹된 토큰의 은닉된 표현에 따라 조건화된다.

다수의 위에 개시된 실시예들의 변형예들 및 다른 특징들 및 기능들, 또는 그의 대안들이 바람직하게는 많은 다른 상이한 시스템들 또는 응용들로 조합될 수 있음이 이해될 것이다. 또한, 다양한 현재 예기치 않거나 뜻밖의 대안들, 수정들, 변형들, 또는 그 내의 개선들이 당업자에 의해 후속적으로 이루어질 수 있고, 이들은 또한 상기 설명 및 하기 특허 청구범위에 의해 포함되도록 의도된다.

Claims

샴(Siamese) 아키텍처를 사용하여 이미지 인식을 위한 컨볼루션 신경망을 사전 훈련시키는 방법으로서, 상기 샴 아키텍처의 제1 분기(branch)는 시각적 표현들을 생성하는 컨볼루션 신경망이고, 상기 샴 아키텍처의 제2 분기는 텍스트 표현들을 생성하는 언어 모델 신경망이며, 상기 방법은:
(a)상기 언어 모델 신경망의 마스킹된 토큰을 사용하고 상기 컨볼루션 신경망에 의해 생성된 이미지의 시각적 표현들을 사용하여 이미지 조건화 마스킹된 언어 모델링(Image-conditioned Masked Language, IMLM) 태스크를 해결하는 단계를 포함하며,
상기 이미지 조건화 마스킹된 언어 모델링 태스크를 해결하는 단계는
(a1) 상기 이미지의 시각적 표현들을 사용하여, 상기 마스킹된 토큰을 예측하는 단계;
(a2) 상기 마스킹된 토큰과 연관된 예측 손실들을 계산하는 단계; 및
(a3) 상기 예측 손실들을 상기 컨볼루션 신경망에 역전파(back propagate)함으로써 상기 컨볼루션 신경망을 훈련시키는 단계를 포함하는, 방법.
마스킹된 언어 모델링에 기초하여 이미지 인식을 위한 컨볼루션 신경망을 사전 훈련시키는 방법으로서,
(a)상기 컨볼루션 신경망에 이미지를 입력하는 단계;
(b)상기 컨볼루션 신경망으로부터 H x W x C 차원 이미지 임베딩 텐서를 출력하는 단계 - H 및 W는 C-차원 시각적 특징 벡터들의 공간 그리드의 높이와 폭을 나타냄 -;
(c)토큰들의 목록을 생성하기 위해 캡션을 토큰화하는 단계 - 적어도 하나의 토큰은 상기 컨볼루션 신경망에 의해 수신된 상기 이미지에 대한 시각적 대응을 가짐 -;
(d)상기 토큰들의 목록 내의 상기 토큰들 중 하나를 마스킹하는 단계;
(e)상기 H x W x C 차원 이미지 임베딩 텐서의 상기 시각적 특징 벡터들을 사용하여 상기 마스킹된 토큰을 예측하는 단계;
(f)상기 마스킹된 토큰과 연관된 예측 손실을 결정하는 단계; 및
(g)상기 예측 손실을 상기 컨볼루션 신경망으로 역전파하여 그의 파라미터들을 조정하는 단계를 포함하는, 방법.
마스킹된 언어 모델링에 기초하여 이미지 인식을 위한 컨볼루션 신경망을 사전 훈련시키는 방법으로서,
(a)상기 컨볼루션 신경망에 이미지를 입력하는 단계;
(b)상기 컨볼루션 신경망으로부터 시각적 임베딩 벡터들의 시각적 임베딩 텐서를 출력하는 단계;
(c)토큰들의 목록을 생성하기 위해 캡션을 토큰화하는 단계 - 적어도 하나의 토큰은 상기 컨볼루션 신경망에 의해 수신된 상기 이미지에 대한 시각적 대응을 가짐 -;
(d)마스킹될 상기 토큰들의 목록 내의 상기 토큰들 중 하나를 무작위로 선택하는 단계 - 상기 선택된 토큰은 정답(ground truth)으로 간주됨 -;
(e)언어 모델 신경망을 사용하여 상기 토큰들의 은닉된 표현들을 계산하는 단계;
(f)상기 마스킹된 토큰의 상기 은닉된 표현을 질의 벡터로 사용하여 상기 시각적 임베딩 텐서에서 상기 시각적 임베딩 벡터들을 주의 깊게 풀링(pool)하는 단계;
(g)상기 풀링된 시각적 임베딩 벡터들을 상기 토큰들에 매핑함으로써 상기 마스킹된 토큰을 예측하는 단계;
(h)상기 마스킹된 토큰과 연관된 예측 손실을 결정하는 단계; 및
(i)상기 예측 손실을 상기 컨볼루션 신경망으로 역전파하여 그의 파라미터들을 조정하는 단계를 포함하는, 방법.
제3항에 있어서, 시각적 특징 벡터의 상기 시각적 임베딩 텐서는 H x W x C 차원 이미지 임베딩 텐서이고, H 및 W는 C-차원 시각적 임베딩 벡터들의 공간 그리드의 높이 및 폭을 나타내는, 방법.
제3항에 있어서, 상기 풀링된 시각적 특징 벡터들은 콘텍스트 필터를 사용하여 토큰 어휘 공간에 매핑되는, 방법.
제4항에 있어서, 상기 마스킹된 토큰을 예측하는 단계는 상기 시각적 임베딩 벡터들의 그리드에 걸쳐 공간 어텐션 메커니즘(spatial attention mechanism)을 사용하고, 어텐션 점수들은 상기 마스킹된 토큰의 상기 은닉된 표현에 따라 조건화되는, 방법.