KR20240076861A

KR20240076861A - 영상-언어 정렬 모델에서 객체의 속성값을 이용한 이미지/텍스트 표현 벡터의 세분화된 표현 강화 방법

Info

Publication number: KR20240076861A
Application number: KR1020220157945A
Authority: KR
Inventors: 김산; 신사임; 장진예; 정민영
Original assignee: 한국전자기술연구원
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2024-05-31
Also published as: WO2024111870A1

Abstract

영상-언어 정렬 모델에서 객체의 속성값을 이용한 이미지/텍스트 표현 벡터의 세분화된 표현 강화 방법이 제공된다. 본 발명의 실시예에 따른 영상-언어 정렬 모델 학습 방법은, 입력되는 이미지에서 이미지의 객체 별로 표현 벡터를 생성하고, 입력되는 텍스트에서 텍스트의 객체 별로 표현 벡터를 생성하며, 생성되는 객체 별 표현 벡터들을 이용하여 대조 손실 함수를 통해 영상-언어 정렬 모델을 학습시킨다. 이에 의해, 객체별 속성 표현을 강화하여 각 속성이 객체에 종속되어 표현되도록 함으로써, 영상-언어 정렬 모델로 보다 복합한 자연어 쿼리에 대하여 정확한 이미지 검색이 가능해지고, 다양한 객체가 존재하는 이미지에 대한 정확한 자연어 검색 또한 가능해진다.

Description

영상-언어 정렬 모델에서 객체의 속성값을 이용한 이미지/텍스트 표현 벡터의 세분화된 표현 강화 방법{Method for reinforcing object repesentation of image/text repesentation vector using object attribute in image-language matching model}

본 발명은 딥러닝 기술에 관한 것으로, 더욱 상세하게는 이미지를 표현하는 표현 벡터와 텍스트를 표현하는 표현 벡터를 정렬하는 영상-언어 정렬 모델을 학습시키는 방법에 관한 것이다.

종래의 영상-언어 정렬 모델은 도 1에 도시된 바와 같이 이미지 전체를 표현하는 하나의 전역 표현 벡터(Global representation)와 텍스트 전체를 표현하는 하나의 전역 표현 벡터를 이용하여 긍정 쌍(Positive pair) 간 내적은 커지고 부정 쌍(Negative pair) 간 내적을 작아지도록 학습함으로써 영상 모델과 언어 모델의 임베딩 벡터를 정렬한다.

여기서 이미지를 하나의 표현 벡터를 이용하여 정렬하기 때문에 이미지 내 각 객체의 속성이 어느 객체에 종속되었는지 명확하게 표현하기 어렵다. 예를 들어 종래의 방법들은 도 2의 이미지들을 하나의 표현 벡터로 표현하기 때문에 "파란 셔츠에 베이지 색 바지" 텍스트의 표현 벡터와 내적을 하였을 때, 두 이미지들의 표현 벡터 모두 내적값이 높아지게 된다.

이로 인하여 종래 기술은 "주황색 후드를 입고 조깅하는 사람"에 대한 이미지 검색 결과, 도 3의 <Top 1>처럼 "주황색"이 "후드"라는 객체에 종속되었음을 파악하지 못하고 "주황색 모자"에 "후드"를 입고 조깅하는 사람이 검색되는 현상이 발생한다.

이러한 문제점을 해결하기 위하여 다양한 시도가 있었으나 그 중 가장 유명한 것은 구글의 Contrastive Captioners 이다. 하지만 이 기술도 객체 단위 표현 강화 방법이 아니기 때문에 객체 별 속성 종속 문제가 해결되지 않는다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 대조 학습 기반 영상-언어 정렬 모델에서 전역 표현 벡터만을 이용한 벡터 표현이 객체 속성 반영을 제대로 하지 못하는 문제를 개선하기 위한 방안으로, 객체 별 벡터 표현을 이용하여 객체 속성을 효과적으로 반영한 영상-언어 표현을 생성하여 영상-언어 정렬 모델을 학습시키는 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 영상-언어 정렬 모델 학습 방법은 영상-언어 정렬 모델이 입력되는 이미지에서 이미지의 객체 별로 표현 벡터를 생성하는 제1 생성단계; 영상-언어 정렬 모델이 입력되는 텍스트에서 텍스트의 객체 별로 표현 벡터를 생성하는 제2 생성단계; 및 제1 생성단계에서 생성되는 객체 별 표현 벡터와 제2 생성단계에서 생성되는 객체 별 표현 벡터를 이용하여 대조 손실 함수를 통해 영상-언어 정렬 모델을 학습시키는 단계;를 포함한다.

객체 별 표현 벡터는, 객체에 대한 속성을 표현한 벡터일 수 있다.

하나의 객체에 대해, 다수의 속성들이 포함될 수 있다.

제2 생성단계는, 평균 풀링 또는 주의 집중 풀링을 활용하여 다수의 속성들을 하나의 객체 별 표현 벡터로 생성하는 것일 수 있다.

본 발명에 따른 영상-언어 정렬 모델 학습 방법은 제1 생성단계에서 생성되는 객체 별 표현 벡터로부터 객체 별 속성을 분류하는 단계;를 더 포함하고, 학습 단계는, 분류된 속성을 이용하여 교차 엔트로피 손실 함수를 통해 영상-언어 정렬 모델을 학습시키는 것일 수 있다.

본 발명에 따른 영상-언어 정렬 모델 학습 방법은 영상-언어 정렬 모델이 입력되는 이미지에서 이미지의 전역 표현 벡터를 생성하는 제3 생성단계; 영상-언어 정렬 모델이 입력되는 텍스트에서 텍스트의 전역 표현 벡터를 생성하는 제4 생성단계;를 더 포함하고, 학습 단계는, 제3 생성단계에서 생성되는 전역 표현 벡터와 제4 생성단계에서 생성되는 전역 표현 벡터를 이용하여 대조 손실 함수를 통해 영상-언어 정렬 모델을 학습시키는 것일 수 있다.

객체는, 객체를 검출하도록 학습된 인공지능 모델에 의해 이미지에서 검출된 객체일 수 있다.

본 발명에 따른 영상-언어 정렬 모델 학습 방법은 학습된 영상-언어 정렬 모델을 이용하여, 텍스트 기반으로 이미지를 검색하는 단계;를 더 포함할 수 있다.

본 발명에 따른 영상-언어 정렬 모델 학습 방법은 학습된 영상-언어 정렬 모델을 이용하여, 이미지 기반으로 텍스트를 검색하는 단계;를 더 포함할 수 있다.

본 발명의 다른 측면에 따르면, 영상-언어 정렬 모델이 입력되는 이미지에서 이미지의 객체 별로 표현 벡터를 생성하고, 영상-언어 정렬 모델이 입력되는 텍스트에서 텍스트의 객체 별로 표현 벡터를 생성하며, 생성되는 객체 별 표현 벡터들로 대조 손실 함수를 통해 영상-언어 정렬 모델을 학습시키는 프로세서; 및 프로세서에 필요한 저장공간을 제공하는 저장부;를 포함하는 것을 특징으로 하는 영상-언어 정렬 모델 학습 시스템이 제공된다.

본 발명의 또다른 측면에 따르면, 영상-언어 정렬 모델을 생성하는 단계; 생성된 영상-언어 정렬 모델을 이용하여, 텍스트 기반으로 이미지를 검색하는 단계;를 포함하고, 영상-언어 정렬 모델은, 영상-언어 정렬 모델이 입력되는 이미지에서 이미지의 객체 별로 표현 벡터를 생성하고, 영상-언어 정렬 모델이 입력되는 텍스트에서 텍스트의 객체 별로 표현 벡터를 생성하며, 생성되는 객체 별 표현 벡터들 이용하여 대조 손실 함수를 통해 학습된 것을 특징으로 하는 영상-언어 정렬 모델 연산 방법이 제공된다.

본 발명의 또다른 측면에 따르면, 영상-언어 정렬 모델을 생성하고, 생성된 영상-언어 정렬 모델을 이용하여 텍스트 기반으로 이미지를 검색하는 프로세서; 및 프로세서에 필요한 저장공간을 제공하는 저장부;를 포함하고, 영상-언어 정렬 모델은, 영상-언어 정렬 모델이 입력되는 이미지에서 이미지의 객체 별로 표현 벡터를 생성하고, 영상-언어 정렬 모델이 입력되는 텍스트에서 텍스트의 객체 별로 표현 벡터를 생성하며, 생성되는 객체 별 표현 벡터들 이용하여 대조 손실 함수를 통해 학습된 것을 특징으로 하는 영상-언어 정렬 모델 학습 시스템이 제공된다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 이미지와 텍스트에 존재하는 객체 별로 표현 벡터를 생성하고 객체별 속성 표현을 강화하여 각 속성이 객체에 종속되어 표현되도록 함으로써, 영상-언어 정렬 모델로 보다 복합한 자연어 쿼리에 대하여 정확한 이미지 검색이 가능해지고, 다양한 객체가 존재하는 이미지에 대한 정확한 자연어 검색 또한 가능해진다.

도 1. 종래의 영상-언어 정렬 모델 임베딩 방법
도 2. 종래 기술의 문제점 설명에 제공되는 이미지들
도 3. 종래 기술의 문제점 설명에 제공되는 이미지 검색 결과들
도 4. Contrastive Captioners의 학습 개념도
도 5. 본 발명이 적용가능한 영상-언어 정렬 모델 학습 방법
도 6. 본 발명의 일 실시예에 따른 영상-언어 정렬 모델 학습 방법
도 7. 본 발명의 다른 실시예에 따른 영상-언어 정렬 모델 학습/연산 시스템

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

본 발명의 실시예에서는 영상-언어 정렬 모델에서 객체의 속성값을 이용한 이미지/텍스트 표현 벡터의 세분화된 표현 강화 방법을 제시한다.

영상-언어 정렬 모델에 의한 표현 정렬 과정에서, 전역 표현 벡터(Global representation vector) 간 정렬 뿐만 아니라 이미지와 텍스트 내 객체 별 표현 벡터(Object representation vector)를 추가적으로 정렬하고, 각 객체 별 속성 분류기를 통해 속성이 객체 별 표현 벡터에 표현되도록 강화함으로써, 복잡한 구조의 자연어 질의에 대한 검색 성능을 향상시키는 기술이다.

구체적으로 영상-언어 모델 정렬 과정에서 이미지와 텍스트 마다 객체 별 표현 벡터들의 조합으로 나누고, 객체 별 표현 벡터를 만들어 상응하는 벡터들끼리의 내적이 커지도록 대조 손실함수(Contrastive Loss)를 통해 객체 벡터들을 정렬한다. 또한 각 객체 별 속성 값을 이용하여 해당 속성이 객체 별 표현 벡터에 내재되도록 보조 손실 함수(Auxiliary loss)를 이용하여 강화한다.

도 5는 본 발명이 적용가능한 영상-언어 정렬 모델 학습 방법의 설명에 제공되는 도면이다. 학습되는 영상-언어 정렬 모델은 전역 표현 벡터 정렬만 수행되는 모델이다.

도시된 바와 같이 먼저 영상-언어 정렬 모델이 입력되는 텍스트에서 텍스트의 전역 표현 벡터(Text global representation vector)를 생성하고, 입력되는 이미지에서 이미지의 전역 표현 벡터(Image global representation vector)를 생성하고, 생성된 두 전역 표현 벡터들끼리 내적하여 대조 손실 함수를 통해 상응하는 객체 표현 벡터들이 정렬되도록 영상-언어 정렬 모델을 학습시킨다.

도 6은 본 발명의 일 실시예에 따른 영상-언어 정렬 모델 학습 방법의 설명에 제공되는 도면이다. 학습되는 영상-언어 정렬 모델은 전역 표현 벡터 외에 객체 표현 벡터 정렬까지 수행되는 모델이다.

먼저 입력되는 이미지를 객체 검출 모델에 입력하여, 이미지에 존재하는객체들을 검출한다(S110). 객체 검출 모델로 Yolo 등을 활용할 수 있다.

다음 영상-언어 정렬 모델의 비디오 인코더가 객체가 검출된 이미지에 대해, 전역 표현 벡터를 생성하고, 객체 별로 표현 벡터를 각각 생성한다(S120). S120단계에서 생성되는 객체 별 표현 벡터의 개수는 이미지에서 검출된 객체의 개수와 동일하다.

객체 별 표현 벡터는 각 객체에 대한 속성을 표현한 벡터로, 하나의 객체에 대한 속성은 다수 개일 수 있다.

그리고 영상-언어 정렬 모델의 텍스트 인코더가 입력되는 텍스트에 대해 전역 표현 벡터를 생성하고 객체 별 속성 표현 영역에 대한 표현 벡터를 각각 생성한다(S130).

도 6에서 "라운드넥", "화이트", "반팔", "크롭티"는 <상의> 객체에 대한 속성 표현으로, S130단계에서는 이 영역에 대한 표현들을 하나의 벡터로 표현하여 객체 표현 벡터를 생성한다.

하나의 객체 표현으로 변환하기 위한 방법으로 평균 풀링(Mean pooling), 주의 집중 풀링(Attentive pooling) 등을 활용할 수 있다.

도 6에서 "롤업", "미니", "청바지"는 <하의> 객체에 대한 속성 표현으로, S130단계에서는 이 영역에 대한 표현들에 대해서도 하나의 벡터로 표현하여 객체 표현 벡터를 생성한다.

다음 S120단계에서 생성된 이미지에 대한 객체 별 표현 벡터와 S130단계에서 생성된 텍스트에 대한 객체 별 표현 벡터를 내적하여, 대조 손실 함수들을 통해 상응하는 표현 벡터별로 정렬되도록 영상-언어 정렬 모델을 학습시킨다(S140).

또한 분류기들을 이용하여 이미지에 대한 객체 별 표현 벡터들에 대한 속성 값들을 분류하여, 교차 엔트로피 손실(Cross entropy loss) 함수를 통해 영상-언어 정렬 모델을 학습시킨다(S150).

이는 객체 별 표현 벡터들에 상응하는 객체의 속성 값이 내재되도록 강화하기 위한 것이다. 도 6에서 <상의> 객체 표현의 경우 "크롭", "라운드넥", "화이트"가 분류 값으로 나오도록 학습시키고, <하의> 객체 표현의 경우 "롤업", "미니", "청바지"가 분류 값으로 나오도록 학습시킨다.

이후 S120단계에서 생성된 이미지에 대한 전역 표현 벡터와 S130단계에서 생성된 텍스트에 대한 전역 표현 벡터를 내적하여, 대조 손실 함수룰 통해 상응하는 표현 벡터별로 정렬되도록 영상-언어 정렬 모델을 학습시킨다(S160).

도 7은 본 발명의 다른 실시예에 따른 영상-언어 정렬 모델 학습/연산 시스템의 구성을 도시한 도면이다. 본 발명의 실시예에 따른 영상-언어 정렬 모델 학습/연산 시스템은, 도시된 바와 같이, 통신부(210), 출력부(220), 프로세서(230), 입력부(240) 및 저장부(250)를 포함하여 구성되는 컴퓨팅 시스템으로 구현 가능하다.

통신부(210)는 외부 기기와 통신하고 외부 네트워크에 연결하기 위한 통신 수단이고, 출력부(220)는 프로세서(230)의 실행 결과를 표시하고, 입력부(240)는 사용자 명령을 프로세서(230)로 전달한다.

프로세서(230)는 도 5를 통해 제시한 영상-언어 정렬 모델을 학습시키는 한편, 학습된 영상-언어 정렬 모델을 이용하여 텍스트 기반으로 이미지를 검색하거나, 반대로 이미지 기반으로 텍스트를 검색할 수 있다.

저장부(250)는 프로세서(230)가 기능하고 동작함에 있어 필요한 저장공간을 제공한다.

지금까지, 영상-언어 정렬 모델 학습 방법 및 시스템에 대해 바람직한 실시예들 들어 상세히 설명하였다.

이미지 전체를 표현하는 표현 벡터와 텍스트 전체를 표현하는 표현 벡터만을 대조 손실 함수를 통해 정렬하는 기존 방법과 달리, 본 발명의 실시예에서는 전역 표현 벡터 뿐만 아니라, 이미지/텍스트 각각 객체 별 표현 벡터들까지 대조 손실 함수를 통해 정렬하였다.

추가적으로 각 객체 별 속성 표현을 각 객체 벡터에 내재화 시키기 위하여, 속성값을 분류하도록 학습시키는 교차 엔트로피 손실 함수(Cross entropy loss)를 보조 손실 함수(Auxiliary loss)로 활용하였다.

이에 의해, 이미지와 텍스트에 존재하는 객체 별로 표현 벡터를 생성하고 객체별 속성 표현을 강화하여 각 속성이 객체에 종속되어 표현되도록 하여, 종래의 영상-언어 모델 보다 복합한 자연어 쿼리에 대하여 정확한 이미지 검색이 가능하고, 다양한 객체가 존재하는 이미지에 대한 정확한 텍스트 검색 또한 가능해진다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

210 : 통신부
220 : 출력부
230 : 프로세서
240 : 입력부
250 : 저장부

Claims

영상-언어 정렬 모델이 입력되는 이미지에서 이미지의 객체 별로 표현 벡터를 생성하는 제1 생성단계;
영상-언어 정렬 모델이 입력되는 텍스트에서 텍스트의 객체 별로 표현 벡터를 생성하는 제2 생성단계; 및
제1 생성단계에서 생성되는 객체 별 표현 벡터와 제2 생성단계에서 생성되는 객체 별 표현 벡터를 이용하여 대조 손실 함수를 통해 영상-언어 정렬 모델을 학습시키는 단계;를 포함하는 것을 특징으로 하는 영상-언어 정렬 모델 학습 방법.
청구항 1에 있어서,
객체 별 표현 벡터는,
객체에 대한 속성을 표현한 벡터인 것을 특징으로 하는 영상-언어 정렬 모델 학습 방법.
청구항 2에 있어서,
하나의 객체에 대해,
다수의 속성들이 포함될 수 있는 것을 특징으로 하는 영상-언어 정렬 모델 학습 방법.
청구항 3에 있어서,
제2 생성단계는,
평균 풀링 또는 주의 집중 풀링을 활용하여 다수의 속성들을 하나의 객체 별 표현 벡터로 생성하는 것을 특징으로 하는 영상-언어 정렬 모델 학습 방법.
청구항 1에 있어서,
제1 생성단계에서 생성되는 객체 별 표현 벡터로부터 객체 별 속성을 분류하는 단계;를 더 포함하고,
학습 단계는,
분류된 속성을 이용하여 교차 엔트로피 손실 함수를 통해 영상-언어 정렬 모델을 학습시키는 것을 특징으로 하는 영상-언어 정렬 모델 학습 방법.
청구항 1에 있어서,
영상-언어 정렬 모델이 입력되는 이미지에서 이미지의 전역 표현 벡터를 생성하는 제3 생성단계;
영상-언어 정렬 모델이 입력되는 텍스트에서 텍스트의 전역 표현 벡터를 생성하는 제4 생성단계;를 더 포함하고,
학습 단계는,
제3 생성단계에서 생성되는 전역 표현 벡터와 제4 생성단계에서 생성되는 전역 표현 벡터를 이용하여 대조 손실 함수를 통해 영상-언어 정렬 모델을 학습시키는 것을 특징으로 하는 영상-언어 정렬 모델 학습 방법.
청구항 1에 있어서,
객체는,
객체를 검출하도록 학습된 인공지능 모델에 의해 이미지에서 검출된 객체인 것을 특징으로 하는 영상-언어 정렬 모델 학습 방법.
청구항 1에 있어서,
학습된 영상-언어 정렬 모델을 이용하여, 텍스트 기반으로 이미지를 검색하는 단계;를 더 포함하는 것을 특징으로 하는 영상-언어 정렬 모델 학습 방법.
청구항 1에 있어서,
학습된 영상-언어 정렬 모델을 이용하여, 이미지 기반으로 텍스트를 검색하는 단계;를 더 포함하는 것을 특징으로 하는 영상-언어 정렬 모델 학습 방법.
영상-언어 정렬 모델이 입력되는 이미지에서 이미지의 객체 별로 표현 벡터를 생성하고, 영상-언어 정렬 모델이 입력되는 텍스트에서 텍스트의 객체 별로 표현 벡터를 생성하며, 생성되는 객체 별 표현 벡터들로 대조 손실 함수를 통해 영상-언어 정렬 모델을 학습시키는 프로세서; 및
프로세서에 필요한 저장공간을 제공하는 저장부;를 포함하는 것을 특징으로 하는 영상-언어 정렬 모델 학습 시스템.
영상-언어 정렬 모델을 생성하는 단계;
생성된 영상-언어 정렬 모델을 이용하여, 텍스트 기반으로 이미지를 검색하는 단계;를 포함하고,
영상-언어 정렬 모델은,
영상-언어 정렬 모델이 입력되는 이미지에서 이미지의 객체 별로 표현 벡터를 생성하고,
영상-언어 정렬 모델이 입력되는 텍스트에서 텍스트의 객체 별로 표현 벡터를 생성하며,
생성되는 객체 별 표현 벡터들 이용하여 대조 손실 함수를 통해 학습된 것을 특징으로 하는 영상-언어 정렬 모델 연산 방법.
영상-언어 정렬 모델을 생성하고, 생성된 영상-언어 정렬 모델을 이용하여 텍스트 기반으로 이미지를 검색하는 프로세서; 및
프로세서에 필요한 저장공간을 제공하는 저장부;를 포함하고,
영상-언어 정렬 모델은,
영상-언어 정렬 모델이 입력되는 이미지에서 이미지의 객체 별로 표현 벡터를 생성하고,
영상-언어 정렬 모델이 입력되는 텍스트에서 텍스트의 객체 별로 표현 벡터를 생성하며,
생성되는 객체 별 표현 벡터들 이용하여 대조 손실 함수를 통해 학습된 것을 특징으로 하는 영상-언어 정렬 모델 학습 시스템.