KR102563550B1 - 읽기 전용 프롬프트 학습 방법 및 장치 - Google Patents

읽기 전용 프롬프트 학습 방법 및 장치 Download PDF

Info

Publication number
KR102563550B1
KR102563550B1 KR1020230049563A KR20230049563A KR102563550B1 KR 102563550 B1 KR102563550 B1 KR 102563550B1 KR 1020230049563 A KR1020230049563 A KR 1020230049563A KR 20230049563 A KR20230049563 A KR 20230049563A KR 102563550 B1 KR102563550 B1 KR 102563550B1
Authority
KR
South Korea
Prior art keywords
text
rpo
image
token
data
Prior art date
Application number
KR1020230049563A
Other languages
English (en)
Other versions
KR102563550B9 (ko
Inventor
김현우
박진영
최준명
이상혁
이동준
송석원
서지희
Original Assignee
고려대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교산학협력단 filed Critical 고려대학교산학협력단
Priority to KR1020230049563A priority Critical patent/KR102563550B1/ko
Application granted granted Critical
Publication of KR102563550B1 publication Critical patent/KR102563550B1/ko
Publication of KR102563550B9 publication Critical patent/KR102563550B9/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 일 실시 예에 따른 읽기 전용 프롬프트 최적화(read only prompt optimization, RPO) 모델에 기반한 읽기 전용 프롬프트 학습 방법은, 텍스트 데이터 및 이미지 데이터를 전처리하는 단계, 텍스트 RPO 토큰 및 이미지 RPO 토큰을 획득하는 단계, 전처리된 텍스트 데이터 및 상기 텍스트 RPO 토큰을 기반으로 하나 이상의 텍스트 특징 값을 추출하는 단계, 전처리된 이미지 데이터 및 상기 이미지 RPO 토큰을 기반으로 하나 이상의 이미지 특징 값을 추출하는 단계, 상기 하나 이상의 텍스트 특징 값 및 상기 하나 이상의 이미지 특징 값을 기반으로 상기 텍스트 데이터 및 상기 이미지 데이터 사이의 유사도를 측정하는 단계, 상기 유사도를 기반으로 이미지 데이터와 가장 유사한 텍스트 데이터를 예측 레이블로 선택하는 단계 및 상기 예측 레이블과 실제 레이블을 기반으로 RPO 모델을 학습하는 단계를 포함할 수 있다.

Description

읽기 전용 프롬프트 학습 방법 및 장치{METHOD AND APPARATUS FOR READ-ONLY PROMPT LEARNING}
본 발명은 읽기 전용(read-only) 프롬프트 학습 방법 및 장치에 관한 것으로, 보다 상세하게는 기존의 프롬프트 학습 기법과 달리 데이터를 나타내는 토큰의 특징 값을 학습하지 않고 프롬프트의 특징 값만을 학습하여 데이터 정보를 훼손하지 않고 학습 가능한 프롬프트 학습 방법 및 이를 위한 장치에 관한 것이다.
인공지능(Artificial intelligence, AI) 및 딥러닝(deep learning) 알고리즘은 컴퓨터 비전 및 자연어처리 분야에서 널리 이용되고 있으며, 특히 이미지에서의 물체 분류 또는 탐지 및 추적 등에서 활발하게 활용되고 있다. 물체 분류(object classification)은 이미지에 등장하는 물체가 무엇을 나타내는지 분류하는 기술이다. 예를 들어, 이미지 내에 고양이가 있을 경우, 해당 이미지의 물체를 고양이라고 분류하는 기술이다. 레이블 일반화(base-to-new generalization)는 학습 시 사용하지 않은 레이블에 대해서도 물체 분류를 할 수 있도록 학습하는 기술이다. 즉, 레이블 일반화는 학습되지 않은 새로운 레이블을 가진 물체에 대해서도 물체 분류를 잘 수행할 수 있도록 학습하는 기술을 의미한다. 도메인 일반화(Domain generalization)는 다른 도메인의 이미지에 대해서도 물체 분류를 할 수 있도록 학습하는 기술이다. 즉, 도메인 일반화는 완전히 다른 형태의 데이터에 대해서도 물체 분류를 잘 수행할 수 있도록 학습하는 기술을 의미한다. 프롬프트 학습(prompt learning)은 프롬프트를 이용하여 모델을 학습하는 기술을 의미한다. 예를 들어, 고양이(cat) 이미지를 분류하기 위해 고양이를 의미하는 "cat"이라는 단어 뿐만 아니라 프롬프트 "A photo of a"를 붙여 "A photo of a cat"을 인풋으로 인공지능 모델을 학습시키는 기술을 의미한다. 본 발명은 레이블 및 도메인 일반화(generalization)가 가능하도록 하는 프롬프트 학습 기술에 관한 것이다.
대한민국 등록특허공보 제10-2429534호(2022.08.01.)
본 발명이 해결하고자 하는 기술적 과제는, 기존의 프롬프트 학습 기법과 달리 데이터를 나타내는 토큰의 특징 값을 학습하지 않고 프롬프트의 특징 값만을 학습하여 데이터 정보를 훼손하지 않는 프롬프트 학습을 수행하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
전술한 기술적 과제를 달성하기 위한 본 발명의 일 실시 예에 따른 읽기 전용 프롬프트 최적화(read only prompt optimization, RPO) 모델에 기반한 읽기 전용 프롬프트 학습 방법은, 텍스트 데이터 및 이미지 데이터를 전처리하는 단계, 텍스트 RPO 토큰 및 이미지 RPO 토큰을 획득하는 단계, 전처리된 텍스트 데이터 및 상기 텍스트 RPO 토큰을 기반으로 하나 이상의 텍스트 특징 값을 추출하는 단계, 전처리된 이미지 데이터 및 상기 이미지 RPO 토큰을 기반으로 하나 이상의 이미지 특징 값을 추출하는 단계, 상기 하나 이상의 텍스트 특징 값 및 상기 하나 이상의 이미지 특징 값을 기반으로 상기 텍스트 데이터 및 상기 이미지 데이터 사이의 유사도를 측정하는 단계, 상기 유사도를 기반으로 이미지 데이터와 가장 유사한 텍스트 데이터를 예측 레이블로 선택하는 단계 및 상기 예측 레이블과 실제 레이블을 기반으로 RPO 모델을 학습하는 단계를 포함할 수 있다.
일 실시 예에 따르면, 상기 하나 이상의 텍스트 특징 값은 어텐션 레이어를 적어도 하나 포함하는 신경망 레이어를 기반으로 추출되고, 상기 어텐션 레이어에서 입력되는 텍스트 RPO 토큰과 관련된 컴포넌트는 모두 0으로 마스킹될 수 있다.
일 실시 예에 따르면, 상기 하나 이상의 이미지 특징 값은 어텐션 레이어를 적어도 하나 포함하는 신경망 레이어를 기반으로 추출되고, 상기 어텐션 레이어에서 입력되는 이미지 RPO 토큰과 관련된 컴포넌트는 모두 0으로 마스킹될 수 있다.
일 실시 예에 따르면, 상기 하나 이상의 텍스트 특징 값은 t 1, t 2,
Figure 112023042475416-pat00001
,t k 이고, 상기 하나 이상의 이미지 특징 값은 v 1, v 2,
Figure 112023042475416-pat00002
,v k 이고, k는 상기 텍스트 RPO 토큰의 개수 또는 상기 이미지 RPO 토큰의 개수일 수 있다.
일 실시 예에 따르면, 상기 텍스트 데이터 및 상기 이미지 데이터 사이의 유사도는, i = 0,1,
Figure 112023042475416-pat00003
, k에 대해 텍스트 특징 값 t i 와 이미지 특징 값 v i의 코사인 유사도의 평균 값을 기반으로 측정될 수 있다.
일 실시 예에 따르면, 상기 예측 레이블로 선택하는 단계는, 복수 개의 텍스트 데이터에 대하여 상기 이미지 데이터와의 유사도를 식별하는 단계 및 상기 복수 개의 텍스트 데이터 중 상기 이미지 데이터와의 유사도가 가장 높은 텍스트 데이터를 상기 예측 레이블로 선택하는 단계를 포함할 수 있다.
또한 전술한 기술적 과제를 달성하기 위한 본 발명의 일 실시 예에 따른 읽기 전용 프롬프트 최적화(read only prompt optimization, RPO) 모델에 기반한 읽기 전용 프롬프트 학습 장치에 있어서, 텍스트 데이터를 전처리하고, 텍스트 RPO 토큰을 획득하고, 전처리된 텍스트 데이터 및 상기 텍스트 RPO 토큰을 기반으로 하나 이상의 텍스트 특징 값을 추출하는 고차원 텍스트 인식부, 이미지 데이터를 전처리하고, 이미지 RPO 토큰을 획득하고, 전처리된 이미지 데이터 및 상기 이미지 RPO 토큰을 기반으로 하나 이상의 이미지 특징 값을 추출하는 고차원 이미지 인식부 및 상기 하나 이상의 텍스트 특징 값 및 상기 하나 이상의 이미지 특징 값을 기반으로 상기 텍스트 데이터 및 상기 이미지 데이터 사이의 유사도를 측정하고, 상기 유사도를 기반으로 이미지 데이터와 가장 유사한 텍스트 데이터를 예측 레이블로 선택하고, 상기 예측 레이블과 실제 레이블을 기반으로 RPO 모델을 학습하는 이미지-텍스트 매칭부를 포함할 수 있다.
일 실시 예에 따르면, 상기 고차원 텍스트 인식부는, 상기 텍스트 데이터의 전처리를 수행하는 텍스트 획득부, 기 텍스트 RPO 토큰을 획득하는 프롬프트 획득부, 상기 전처리된 텍스트 데이터 및 상기 텍스트 RPO 토큰을 기반으로 상기 하나 이상의 텍스트 특징 값을 추출하는 특징 탐지부 및 상기 특징 탐지부에서 상기 하나 이상의 텍스트 특징 값을 추출하는 과정에서 누적되는 정보를 모아주는 역할을 수행하는 시멘틱 정합부를 포함할 수 있다.
일 실시 예에 따르면, 상기 고차원 이미지 인식부는, 상기 이미지 데이터의 전처리를 수행하는 이미지 획득부, 상기 이미지 RPO 토큰을 획득하는 프롬프트 획득부, 상기 전처리된 이미지 데이터 및 상기 이미지 RPO 토큰을 기반으로 상기 하나 이상의 이미지 특징 값을 추출하는 특징 탐지부 및 상기 특징 탐지부에서 상기 하나 이상의 이미지 특징 값을 추출하는 과정에서 누적되는 정보를 모아주는 역할을 수행하는 시멘틱 정합부를 포함할 수 있다.
또한 전술한 기술적 과제를 달성하기 위한 본 발명의 일 실시 예에 따른 컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램은 텍스트 데이터 및 이미지 데이터를 전처리하는 단계, 텍스트 RPO 토큰 및 이미지 RPO 토큰을 획득하는 단계, 전처리된 텍스트 데이터 및 상기 텍스트 RPO 토큰을 기반으로 하나 이상의 텍스트 특징 값을 추출하는 단계, 전처리된 이미지 데이터 및 상기 이미지 RPO 토큰을 기반으로 하나 이상의 이미지 특징 값을 추출하는 단계, 상기 하나 이상의 텍스트 특징 값 및 상기 하나 이상의 이미지 특징 값을 기반으로 상기 텍스트 데이터 및 상기 이미지 데이터 사이의 유사도를 측정하는 단계, 상기 유사도를 기반으로 이미지 데이터와 가장 유사한 텍스트 데이터를 예측 레이블로 선택하는 단계 및 상기 예측 레이블과 실제 레이블을 기반으로 RPO 모델을 학습하는 단계를 실행할 수 있다.
본 발명의 다양한 실시 예들에 따르면, 기존 토큰들의 학습에 부정적인 영향을 미치지 않으면서 학습 가능한 읽기 전용 프롬프트 학습 방법이 제공된다.
또한, 본 발명의 다양한 실시 예들에 따르면, 딥러닝 모델의 레이블 일반화, 도메인 일반화 효과를 가지게 할 수 있다. 모델을 일부의 데이터로 학습을 진행해도 다른 새로운 데이터에 대해서 좋은 성능을 가지는 물체 분류가 수행될 수 있도록 할 수 있으며, 학습 때 사용하지 않은 레이블을 가진 이미지에 대해서도 좋은 물체 분류 성능을 가지도록 할 수 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.
도 1은 초거대 데이터로 학습된 모델을 새로운 데이터 셋(set)에 적용하기 위한 기존의 방법인 프롬프트 튜닝 방법을 나타낸 도면이다.
도 2는 초거대 데이터로 학습된 모델을 새로운 데이터 셋(set)에 적용하기 위한 기존의 다른 방법인 선형 탐색 방법을 나타낸 도면이다.
도 3은 기존의 프롬프트 튜닝 방법 및 선형 탐색 방법의 성능을 나타낸 도면이다.
도 4는 본 발명의 일 실시 예에 따른 읽기 전용 프롬프트 최적화(read only prompt optimization, RPO) 모델을 나타낸 도면이다.
도 5은 본 발명의 일 실시 예에 따른 RPO 모델을 기반으로 읽기 전용 프롬프트 학습을 수행하는 장치의 구성을 나타낸 블록도이다.
도 6은 본 발명의 일 실시 예에 따른 RPO 모델을 이용한 프롬프트 학습 방법을 순서도로 나타낸 도면이다.
도 7은 본 발명의 일 실시 예에 따른 RPO 모델을 이용한 프롬프트 학습의 전체적인 과정의 예시를 나타낸 도면이다.
도 8은 본 발명의 일 실시 예에 따른 고차원 텍스트 인식부의 구성을 나타낸 블록도이다.
도 9는 본 발명의 일 실시 예에 따른 고차원 이미지 인식부의 구성을 나타낸 블록도이다.
도 10은 본 발명의 일 실시 예에 따른 RPO 모델을 적용하기 위한 이미지 데이터에 대한 어텐션 마스킹을 나타낸 도면이다.
도 11은 본 발명의 일 실시 예에 따른 RPO 모델을 적용하기 위한 텍스트 데이터에 대한 어텐션 마스킹을 나타낸 도면이다.
본 발명의 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하의 상세한 설명에 의해 보다 명확하게 이해될 것이다. 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다.
본 명세서에서 개시되는 실시 예들은 본 발명의 범위를 한정하는 것으로 해석되거나 이용되지 않아야 할 것이다. 이 분야의 통상의 기술자에게 본 명세서의 실시 예를 포함한 설명은 다양한 응용을 갖는다는 것이 당연하다. 따라서, 본 발명의 상세한 설명에 기재된 임의의 실시 예들은 본 발명을 보다 잘 설명하기 위한 예시적인 것이며 본 발명의 범위가 실시 예들로 한정되는 것을 의도하지 않는다.
도면에 표시되고 아래에 설명되는 기능 블록들은 가능한 구현의 예들일 뿐이다. 다른 구현들에서는 상세한 설명의 사상 및 범위를 벗어나지 않는 범위에서 다른 기능 블록들이 사용될 수 있다. 또한, 본 발명의 하나 이상의 기능 블록이 개별 블록들로 표시되지만, 본 발명의 기능 블록들 중 하나 이상은 동일 기능을 실행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합일 수 있다.
또한, 어떤 구성요소들을 포함한다는 표현은 "개방형"의 표현으로서 해당 구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안 된다.
나아가 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급될 때에는, 그 다른 구성요소에 직접적으로 연결 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 한다.
도 1은 초거대 데이터로 학습된 모델을 새로운 데이터 셋(set)에 적용하기 위한 기존의 방법인 프롬프트 튜닝 방법을 나타낸 도면이다.
도 1을 참조하면, 기존의 프롬프트 튜닝 방법(100)은 파란색으로 표현된 토큰화된 이미지들과 주황색으로 표현된 프롬프트를 입력으로 받아, 트랜스포머 인코더 레이어(transformer encoder layer)를 통과시켜 고차원의 표현을 출력하며 이를 통해 여러가지 데이터 셋의 분류 문제를 빠르고 효율적으로 해결할 수 있다. 기존의 프롬프트 튜닝 방법은 트랜스포머 인코더 레이어로 표기된 학습된 모델을 고정시켜 두고, 이를 보조하기 위한 목적의 학습 가능한 프롬프트만을 학습하여 새로운 데이터에 대한 학습을 돕는다. 그러나 이러한 기존의 프롬프트 튜닝 방법은 데이터가 학습된 트랜스포머 레이어를 통과할 때 이미지 토큰들이 프롬프트들의 영향을 받아 점차적으로 내부적 표현들이 변화하며, 이에 따라 모델의 견고성과 일반화에 대해 부정적인 영향을 미칠 수 있다. 도 1을 참조하면, 학습이 진행될수록 처음 온전히 파란색으로 표현된 이미지 토큰들이 프롬프트의 영향을 받아 주황색이 함께 존재하는 것으로 변화됨을 볼 수 있다.
도 2는 초거대 데이터로 학습된 모델을 새로운 데이터 셋(set)에 적용하기 위한 기존의 다른 방법인 선형 탐색 방법을 나타낸 도면이다.
도 2를 참조하면, 기존의 선형 탐색 방법(200)은 새로운 데이터셋에 대한 파인 튜닝을 위해, 도 1을 통해 설명한 프롬프트 튜닝과 달리, 선형 레이어(linear layer)를 활용한다. 이는 트랜스포머 인코더 레이어로 표기된 모델의 내재적인 표현을 변화시키지 않기 때문에 안정적인 성능을 가지지만, 프롬프트 튜닝과 달리 새로운 레이어를 쌓는데 이는 상대적으로 더 많은 파라미터를 학습해야 한다는 비효율성이 존재한다.
도 3은 기존의 프롬프트 튜닝 방법 및 선형 탐색 방법의 성능을 나타낸 도면이다.
구체적으로, 도 3의 세로축에 도시된 CoOP (310), CoCoOp (320) 및 Linear Probing (330)은 기존의 프롬프트 튜닝 방법 또는 선형 탐색 방법을 활용한 방법들을 나타내며 가로축인 Accuracy는 각 방법을 이용하였을 때 출력되는 결과의 정확도, 즉 모델의 성능을 나타낸다. CoOP (310), CoCoOP (320)은 기존의 프롬프트 튜닝 방법을 활용한 방법으로, 도 3에 도시된 바와 같이 성능의 편차가 매우 큰 것을 볼 수 있다. Linear Probing (330)은 기존의 선형 탐색 방법을 활용한 방법으로, CoOp (310) 또는 CoCoOp (320)와 비교할 때 더 높은 성능을 가지고 성능의 편차가 적어 안정적이지만 앞서 설명한 바와 같이 새로운 레이어를 쌓는데 이는 상대적으로 더 많은 파라미터를 학습해야 한다는 비효율성이 존재한다.
따라서, 본 발명은 앞서 언급한 프롬프트 튜닝 방법 및 선형 탐색 방법의 장점을 모두 활용하는 읽기 전용 프롬프트 최적화(read-only prompt optimization, RPO) 모델을 제안한다.
도 4는 본 발명의 일 실시 예에 따른 읽기 전용 프롬프트 최적화(read only prompt optimization, RPO) 모델을 나타낸 도면이다.
도 4를 참조하면, RPO는 프롬프트 튜닝 방법과 동일하게 파란색으로 표현된 토큰화된 이미지들과 주황색으로 표현된 학습 가능한 프롬프트를 입력받아 고차원의 표현을 출력하며, 이를 통해 새로운 데이터셋의 분류 문제를 빠르고 효율적으로 해결한다. 그러나 앞서 언급한 기존 프롬프트 튜닝 방법의 단점을 개선하기 위해, RPO는 기존의 프롬프트 튜닝 방법과 달리 학습 과정에서 이미지 토큰들의 정보들을 오로지 읽기만 하는 Read-only 프롬프트를 도입하여 새로운 데이터의 학습 과정에 활용한다. 이를 통해 본 발명이 제안하는 RPO는 학습 과정에서 선형 탐색 방법과 같이 학습된 모델의 내재적인 표현에 전혀 영향을 주지 않으므로 안정적인 성능을 달성할 수 있을 뿐만 아니라, 많은 파라미터의 학습이 필요한 추가적인 선형 레이어를 필요로 하지 않기 때문에 선형 탐색 방법과 비교하여 훨씬 더 높은 파라미터 효율성을 달성할 수 있다.
도 5은 본 발명의 일 실시 예에 따른 RPO 모델을 기반으로 읽기 전용 프롬프트 학습을 수행하는 장치의 구성을 나타낸 블록도이다.
구체적으로, 도 5를 참조하면 본 발명의 일 실시 예에 따른 읽기 전용 프롬프트 학습을 수행하는 장치(500)는, 고차원 텍스트 인식부(510), 고차원 이미지 인식부(520) 및 이미지-텍스트 매칭부(530)를 포함할 수 있다. 고차원 텍스트 인식부(510)는 텍스트 데이터를 입력받아 전처리를 수행하며, 학습을 위한 RPO 토큰을 획득하며, 입력된 텍스트 데이터 및 RPO 토큰을 기반으로 주어진 분류 문제에 적합한 특징들을 추출하여 출력한다. 고차원 이미지 인식부(520)는 이미지 데이터를 입력받아 전처리를 수행하고, 학습을 위한 RPO 토큰을 획득하며, 입력된 이미지 데이터 및 RPO 토큰을 기반으로 주어진 분류 문제에 적합한 특징들을 추출하여 출력한다. 이미지-텍스트 매칭부(530)은 고차원 텍스트 인식부(510)로부터 추출된 특징 값 및 고차원 이미지 인식부(520)로부터 추출된 특징 값 사이의 유사도를 측정하고, 이를 기반으로 입력된 이미지 데이터와 가장 유사한 텍스트 데이터를 예측 레이블로 선택하고, 선택된 예측 레이블과 실제 레이블 사이의 오차가 최소화되도록 RPO 모델을 학습한다.
도 6은 본 발명의 일 실시 예에 따른 RPO 모델을 이용한 프롬프트 학습 방법을 순서도로 나타낸 도면이고, 도 7은 본 발명의 일 실시 예에 따른 RPO 모델을 이용한 프롬프트 학습의 전체적인 과정의 예시를 나타낸 도면이다.
본 발명의 RPO 모델은 이미지 데이터와 텍스트 데이터를 각각 입력 데이터로 사용하며, 이들을 인식하기 위해 전처리를 수행한다(610). 전처리 과정에서 이미지 데이터는 작은 토큰 단위로 토큰화한 후 신경망을 통과시켜 잠재 변수로 치환되고(611), 텍스트 데이터는 문장으로 변환된 후 단어 단위로 토큰화하여 잠재변수로 치환된다(612). 구체적으로 도 7의 예시에서, 이미지 데이터로는 고양이의 사진이 사용되고 해당 이미지는 4개의 토큰으로 토큰화되어 잠재 변수로 치환되고, 텍스트 데이터로는 'A class of a [CLASS]'와 같이 문장 형태로 변환된 후 단어 단위인 "a", "photo", "of", "a", "[CLASS]"와 같이 5개의 토큰으로 토큰화되어 잠재 변수로 치환되는 과정이 610 단계의 전처리 단계에 해당한다.
잠재변수로 변환된 이미지 데이터 및 텍스트 데이터는 K 개의 RPO 토큰들과 결합되어 신경망으로 입력된다(620). 구체적으로 도 7의 예시에서, 텍스트 데이터에 대해서는
Figure 112023042475416-pat00004
,
Figure 112023042475416-pat00005
,
Figure 112023042475416-pat00006
의 세 개의 RPO 토큰이 존재하며, 이미지 데이터에 대해서는
Figure 112023042475416-pat00007
,
Figure 112023042475416-pat00008
,
Figure 112023042475416-pat00009
의 세 개의 RPO 토큰이 존재한다. 텍스트 데이터에 대해서 생성된 RPO 토큰
Figure 112023042475416-pat00010
,
Figure 112023042475416-pat00011
,
Figure 112023042475416-pat00012
는 전처리된 텍스트 데이터와 함께 신경망으로 입력되고(621), 이미지 데이터에 대해서 생성된 RPO 토큰
Figure 112023042475416-pat00013
,
Figure 112023042475416-pat00014
,
Figure 112023042475416-pat00015
는 전처리된 이미지 데이터와 함께 신경망으로 입력된다(622).
신경망에 입력된 RPO 토큰은 신경망을 통과하는 동안 데이터들로부터 분류 문제에 적합한 특징들만을 추출하여 출력한다(630). 구체적으로 도 7의 예시에서, 텍스트 데이터의 RPO 토큰
Figure 112023042475416-pat00016
,
Figure 112023042475416-pat00017
,
Figure 112023042475416-pat00018
은 텍스트 데이터를 전처리한 토큰들과 함께 L 개의 레이어(T 1, T 2, T 3,
Figure 112023042475416-pat00019
,T L )을 통과하면서 분류 문제에 적합한 특징들을 추출하여
Figure 112023042475416-pat00020
,
Figure 112023042475416-pat00021
,
Figure 112023042475416-pat00022
를 출력하고(631). 또한 이미지 데이터의 RPO 토큰
Figure 112023042475416-pat00023
,
Figure 112023042475416-pat00024
,
Figure 112023042475416-pat00025
역시 이미지 데이터를 전처리한 토큰들과 함께 L 개의 레이어(V 1, V 2, V 3,
Figure 112023042475416-pat00026
, V L )를 통과하면서 분류 문제에 적합한 특징들을 추출하며
Figure 112023042475416-pat00027
,
Figure 112023042475416-pat00028
,
Figure 112023042475416-pat00029
를 출력한다(632).
이후, 신경망을 통과한 K 개의 RPO 토큰들을 기반으로 이미지 데이터와 텍스트 데이터 간의 유사도를 측정한다(640). 640 단계에서는 텍스트 데이터와 관련된 RPO 토큰과 이미지 데이터와 관련된 RPO 토큰에서 각각 대응되는 값들 간의 코사인 유사도를 구한 후, 이들의 평균 값을 통해 입력된 이미지 데이터와 텍스트 데이터 간의 유사도를 측정할 수 있다. 구체적으로 도 7의 예시에서, 640 단계는 신경망을 통과하여 출력된 텍스트 데이터 관련 RPO 토큰 중
Figure 112023042475416-pat00030
과 신경망을 통과하여 출력된 이미지 데이터 관련 RPO 토큰인 중
Figure 112023042475416-pat00031
과 대응되는
Figure 112023042475416-pat00032
사이의 코사인 유사도를 산출하고, 마찬가지로
Figure 112023042475416-pat00033
Figure 112023042475416-pat00034
사이의 코사인 유사도,
Figure 112023042475416-pat00035
Figure 112023042475416-pat00036
사이의 코사인 유사도를 산출한 후 이들 각각의 코사인 유사도 값들의 평균 값을 측정하는 과정일 수 있다. 최종적으로 산출된 코사인 유사도 값들의 평균 값이 이미지 데이터와 텍스트 데이터 간의 유사도로 간주된다.
이상 설명한 610 단계 내지 640 단계는 N 개의 서로 다른 텍스트 데이터에 대하여 반복적으로 수행되며, 이들 중 가장 유사도가 높은 텍스트 데이터를 입력된 이미지 데이터와 가장 적합한 텍스트 데이터로 선택한다(650). 즉, 하나의 이미지 데이터에 대해 복수 개의 서로 다른 텍스트 데이터와의 유사도를 측정하여, 이들 복수 개의 서로 다른 텍스트 데이터들 중 입력된 이미지 데이터와 가장 유사도가 높은 텍스트 데이터를 선택하며, 이 때 선택된 텍스트 데이터를 RPO 모델이 출력하는 예측 레이블로 간주한다.
마지막으로, 획득한 예측 레이블과 실제 레이블 사이의 오차를 줄이는 방향으로 RPO 모델을 학습한다(660).
도 8은 본 발명의 일 실시 예에 따른 고차원 텍스트 인식부의 구성을 나타낸 블록도이다.
도 8을 참조하면, 본 발명의 일 실시 예에 따른 고차원 텍스트 인식부(510)는 텍스트 획득부(511), 프롬프트 획득부(513), 특징 탐지부(515) 및 시멘틱 정합부(517)을 포함할 수 있다.
고차원 텍스트 인식부(510)의 텍스트 획득부(511)는 입력받은 텍스트 데이터를 기존 프롬프트의 형태, 예를 들어 'A class of a [CLASS]'로 변환한 후 모델에 입력하기 위하여 토큰화하는 전처리 작업을 수행한다.
고차원 텍스트 인식부(510)의 프롬프트 획득부(513)는 전처리된 텍스트 데이터와 함께 신경망에 입력되는 RPO 토큰을 획득하는 기능을 수행하며, 일 예로 도 7의 예시에서
Figure 112023042475416-pat00037
,
Figure 112023042475416-pat00038
,
Figure 112023042475416-pat00039
를 획득한다.
고차원 텍스트 인식부(510)의 특징 탐지부(515)는 전처리된 텍스트 데이터 및 RPO 토큰을 입력받아 주어진 분류 문제에 적합한 특징들을 추출하여 출력하며, 특징 탐지부(515)는 도 7의 예시에서 고차원 텍스트 인식부(510)에 포함된 L 개의 Read-only Tr Layer(T 1, T 2, T 3,
Figure 112023042475416-pat00040
, T L )에 대응되며, 레이어를 통과한 출력 값으로
Figure 112023042475416-pat00041
.
Figure 112023042475416-pat00042
,
Figure 112023042475416-pat00043
를 출력할 수 있다.
고차원 텍스트 인식부(510)의 시멘틱 정합부(517)는 전처리된 텍스트 데이터와 RPO 토큰들이 특징 탐지부(515)에 해당하는 L 개의 Read-only Tr layer를 통과하면서 누적되는 정보들을 모아주는 역할을 수행한다.
도 9는 본 발명의 일 실시 예에 따른 고차원 이미지 인식부의 구성을 나타낸 블록도이다.
도 9를 참조하면, 본 발명의 일 실시 예에 따른 고차원 이미지 인식부(520)는 이미지 획득부(522), 프롬프트 획득부(524), 특징 탐지부(526) 및 시멘틱 정합부(528)을 포함할 수 있다.
고차원 이미지 인식부(520)의 이미지 획득부(522)는 입력받은 이미지 데이터를 모델에 입력으로 사용하기 위하여 데이터의 크기를 맞춰주고 토큰화하는 전처리 작업을 수행한다.
고차원 이미지 인식부(520)의 프롬프트 획득부(524)는 전처리된 이미지 데이터와 함께 신경망에 입력되는 RPO 토큰을 획득하는 기능을 수행하며, 일 예로 도 7의 예시에서
Figure 112023042475416-pat00044
,
Figure 112023042475416-pat00045
,
Figure 112023042475416-pat00046
를 획득한다.
고차원 이미지 인식부(520)의 특징 탐지부(526)는 전처리된 이미지 데이터 및 RPO 토큰을 입력받아 주어진 분류 문제에 적합한 특징들을 추출하여 출력한다. 특징 탐지부(526)는 도 7의 예시에서 고차원 이미지 인식부(520)에 포함된 L 개의 Read-only Tr Layer(V 1, V 2, V 3,
Figure 112023042475416-pat00047
, V L )에 대응되며, 레이어를 통과한 출력 값으로
Figure 112023042475416-pat00048
,
Figure 112023042475416-pat00049
,
Figure 112023042475416-pat00050
를 출력할 수 있다.
고차원 이미지 인식부(520)의 시멘틱 정합부(528)는 전처리된 이미지 데이터와 RPO 토큰들이 특징 탐지부(526)에 해당하는 L 개의 Read-only Tr layer를 통과하면서 누적되는 정보들을 모아주는 역할을 수행한다.
한편, 고차원 텍스트 인식부(510)를 구성하는 각 레이어 (T 1, T 2, T 3,
Figure 112023042475416-pat00051
, T L ) 및 고차원 이미지 인식부(520)를 구성하는 각 레이어(V 1, V 2, V 3,
Figure 112023042475416-pat00052
, V L )는 어텐션(attention) 연산을 수행하기 위한 어텐션 레이어를 포함할 수 있다. 본 발명은 상기 각 레이어를 RPO 모델을 위한 Read-only Tr layer로 구현하기 위해 각 레이어에 포함된 어텐션 레이어를 마스킹하는 방법을 제안한다. 이하 도 10 및 도 11을 참조하여 상세히 설명한다.
도 10은 본 발명의 일 실시 예에 따른 RPO 모델을 적용하기 위한 이미지 데이터에 대한 어텐션 마스킹을 나타낸 도면이다.
도 10의 예시에서,
Figure 112023042475416-pat00053
는 이미지 데이터를 나타내고,
Figure 112023042475416-pat00054
,
Figure 112023042475416-pat00055
,
Figure 112023042475416-pat00056
,
Figure 112023042475416-pat00057
는 각각 프롬프트(또는 RPO 토큰)을 나타낸다. 도 10에서, 1010 또는 1020에 포함된 컴포넌트들과 같이 색상이 있는 컴포넌트들은 Read-only Tr layer를 통과할 때 각 파라미터 간 정보가 교환됨, 즉 파라미터가 서로 영향을 끼칠 수 있음을 나타낸다. 반면, 1030 또는 1040에 포함된 컴포넌트들과 같이 색상이 없는(또는 회색 색상의) 컴포넌트들은 어떤 값이 입력 되는지와 관계없이 항상 0으로 마스킹을 함으로써 Read-only Tr layer를 통과할 때 각 파라미터 간 정보가 교환되지 않음, 즉 파라미터가 서로 영향을 끼치지 않음을 의미한다. 본 발명의 도 10에서 정보가 교환되거나 또는 파라미터가 영향을 끼친다는 것의 의미는 레이어를 통과할 때 세로축에 기재된 파라미터가 가로축에 기재된 파라미터로부터 정보를 제공받음, 즉 영향을 받음을 의미한다. 즉 가로축에 기재된 파라미터는 Read-only Tr layer를 통과할 때 정보를 제공하는 파라미터들이고, 세로축에 기재된 파라미터는 Read-only Tr layer를 통과할 때 정보를 제공받는 파라미터들에 해당한다.
구체적으로 도 10의 예시에서, 1010의 각 컴포넌트는 가로축은 이미지 데이터
Figure 112023042475416-pat00058
에 대응되고, 세로축 또한 이미지 데이터
Figure 112023042475416-pat00059
에 대응된다. 이 경우 1010의 각 컴포넌트는 색상을 가지므로, Read-only Tr layer를 통과할 때, 이미지 데이터
Figure 112023042475416-pat00060
가 레이어에 입력된
Figure 112023042475416-pat00061
의 영향을 받아 출력됨을 의미한다. 도 10의 예시에서 1020의 각 컴포넌트는 가로축은 이미지 데이터
Figure 112023042475416-pat00062
에 대응되고, 세로축은 프롬프트
Figure 112023042475416-pat00063
,
Figure 112023042475416-pat00064
,
Figure 112023042475416-pat00065
,
Figure 112023042475416-pat00066
에 대응된다. 이 경우 1020의 각 컴포넌트는 색상을 가지므로, Read-only Tr layer를 통과할 때 세로축의 프롬프트
Figure 112023042475416-pat00067
,
Figure 112023042475416-pat00068
,
Figure 112023042475416-pat00069
,
Figure 112023042475416-pat00070
가 레이어에 입력된 이미지 데이터
Figure 112023042475416-pat00071
의 영향을 받아 출력됨을 의미한다.
한편 본 발명은 가로축이 프롬프트
Figure 112023042475416-pat00072
,
Figure 112023042475416-pat00073
,
Figure 112023042475416-pat00074
,
Figure 112023042475416-pat00075
에 해당하는 1030 및 1040의 각 컴포넌트들에 대해서는 어떤 값이 입력되는지와 관계없이 항상 0으로 마스킹을 하며, 이를 1030 및 1040의 각 컴포넌트들이 색상을 가지지 않는(또는 회색 색상) 것으로 나타내었다. 도 10의 예시에서 1030의 각 컴포넌트는 가로축은 프롬프트
Figure 112023042475416-pat00076
,
Figure 112023042475416-pat00077
,
Figure 112023042475416-pat00078
,
Figure 112023042475416-pat00079
에 대응되고, 세로축은 이미지 데이터
Figure 112023042475416-pat00080
에 대응된다. 이 때 1030의 각 컴포넌트들은 색상을 가지지 않으므로, Read-only Tr layer를 통과할 때 가로축의 프롬프트
Figure 112023042475416-pat00081
,
Figure 112023042475416-pat00082
,
Figure 112023042475416-pat00083
,
Figure 112023042475416-pat00084
가 세로축의 이미지 데이터
Figure 112023042475416-pat00085
에 영향을 주지 않음을 의미한다. 또한, 도 10의 예시에서 1040의 각 컴포넌트는 가로축 및 세로축 모두 프롬프트
Figure 112023042475416-pat00086
,
Figure 112023042475416-pat00087
,
Figure 112023042475416-pat00088
,
Figure 112023042475416-pat00089
에 대응된다. 이 때 1040의 각 컴포넌트들은 색상을 가지지 않으므로, Read-only Tr layer를 통과할 때 세로축의 프롬프트
Figure 112023042475416-pat00090
,
Figure 112023042475416-pat00091
,
Figure 112023042475416-pat00092
,
Figure 112023042475416-pat00093
가 레이어에 입력된 프롬프트
Figure 112023042475416-pat00094
,
Figure 112023042475416-pat00095
,
Figure 112023042475416-pat00096
,
Figure 112023042475416-pat00097
로부터 영향을 받지 않고 출력됨을 의미한다.
상기 설명한 도 10의 예시를 정리하면, 이미지 데이터
Figure 112023042475416-pat00098
및 프롬프트
Figure 112023042475416-pat00099
는 모두 Read-only Tr layer를 통과할 때, 레이어에 입력된 이미지 데이터
Figure 112023042475416-pat00100
로부터만 영향을 받게된다.
이처럼 레이어를 통과할 때 모든 파라미터들이 서로 영향을 끼치는 기존 기술과 달리(즉, 기존 기술에 따르면 모든 컴포넌트들을 색상을 가진 컴포넌트로 활용) 본 발명은 정보를 제공하는 가로축 프롬프트
Figure 112023042475416-pat00101
,
Figure 112023042475416-pat00102
,
Figure 112023042475416-pat00103
,
Figure 112023042475416-pat00104
에 대응되는 컴포넌트들을 모두 0으로 마스킹함으로써 Read-only Tr layer를 통과할 때 다른 파라미터에 영향을 주지 않도록 하며, 이를 통해 입력된 기존 이미지 데이터를 훼손하지 않고 학습을 진행할 수 있다.
도 11은 본 발명의 일 실시 예에 따른 RPO 모델을 적용하기 위한 텍스트 데이터에 대한 어텐션 마스킹을 나타낸 도면이다.
도 11의 예시에서,
Figure 112023042475416-pat00105
는 이미지 데이터를 나타내고,
Figure 112023042475416-pat00106
,
Figure 112023042475416-pat00107
,
Figure 112023042475416-pat00108
,
Figure 112023042475416-pat00109
는 각각 프롬프트(또는 RPO 토큰)를 나타낸다. 도 11에서, 1110의 일부 또는 1120에 포함된 컴포넌트들과 같이 색상이 있는 컴포넌트들은 Read-only Tr layer를 통과할 때 각 파라미터 간 정보가 교환됨, 즉 파라미터가 서로 영향을 끼칠 수 있음을 나타낸다. 반면, 1110의 나머지 일부, 1030 또는 1040에 포함된 컴포넌트들과 같이 색상이 없는(또는 회색 색상의) 컴포넌트들은 어떤 값이 입력 되는지와 관계없이 항상 0으로 마스킹을 함으로써 Read-only Tr layer를 통과할 때 각 파라미터 간 정보가 교환되지 않음, 즉 파라미터가 서로 영향을 끼치지 않음을 의미한다. 본 발명의 도 11에서 정보가 교환되거나 또는 파라미터가 영향을 끼친다는 것의 의미는 레이어를 통과할 때 세로축에 기재된 파라미터가 가로축에 기재된 파라미터로부터 정보를 제공받음, 즉 영향을 받음을 의미한다. 즉 가로축에 기재된 파라미터는 Read-only Tr layer를 통과할 때 정보를 제공하는 파라미터들이고, 세로축에 기재된 파라미터는 Read-only Tr layer를 통과할 때 정보를 제공받는 파라미터들에 해당한다.
구체적으로 도 11의 예시에서, 1110의 각 컴포넌트는 가로축은 이미지 데이터
Figure 112023042475416-pat00110
에 대응되고, 세로축 또한 이미지 데이터
Figure 112023042475416-pat00111
에 대응된다. 이 경우 1011의 일부 컴포넌트는 색상을 가지며, 이는 Read-only Tr layer를 통과할 때, 텍스트 데이터
Figure 112023042475416-pat00112
의 일부가 레이어에 입력된
Figure 112023042475416-pat00113
의 일부의 영향을 받아 출력됨을 의미한다. 도 11의 예시에서 1120의 각 컴포넌트는 가로축은 텍스트 데이터
Figure 112023042475416-pat00114
에 대응되고, 세로축은 프롬프트
Figure 112023042475416-pat00115
,
Figure 112023042475416-pat00116
,
Figure 112023042475416-pat00117
,
Figure 112023042475416-pat00118
에 대응된다. 이 경우 1120의 각 컴포넌트는 색상을 가지므로, Read-only Tr layer를 통과할 때 세로축의 프롬프트
Figure 112023042475416-pat00119
,
Figure 112023042475416-pat00120
,
Figure 112023042475416-pat00121
,
Figure 112023042475416-pat00122
가 레이어에 입력된 이미지 데이터 의 영향을 받아 출력됨을 의미한다.
한편 본 발명은 가로축이 프롬프트
Figure 112023042475416-pat00123
,
Figure 112023042475416-pat00124
,
Figure 112023042475416-pat00125
,
Figure 112023042475416-pat00126
에 해당하는 1130 및 1140의 각 컴포넌트들, 그리고 1110의 일부 컴포넌트에 대해서는 어떤 값이 입력되는지와 관계없이 항상 0으로 마스킹을 하며, 이를 1130 및 1140의 각 컴포넌트들, 그리고 그리고 1110의 일부 컴포넌트이 색상을 가지지 않는(또는 회색 색상) 것으로 나타내었다. 도 11의 예시에서 1130의 각 컴포넌트는 가로축은 프롬프트
Figure 112023042475416-pat00127
,
Figure 112023042475416-pat00128
,
Figure 112023042475416-pat00129
,
Figure 112023042475416-pat00130
에 대응되고, 세로축은 텍스트 데이터
Figure 112023042475416-pat00131
에 대응된다. 이 때 1130의 각 컴포넌트들은 색상을 가지지 않으므로, Read-only Tr layer를 통과할 때 가로축의 프롬프트
Figure 112023042475416-pat00132
,
Figure 112023042475416-pat00133
,
Figure 112023042475416-pat00134
,
Figure 112023042475416-pat00135
가 세로축의 텍스트 데이터
Figure 112023042475416-pat00136
에 영향을 주지 않음을 의미한다. 또한, 도 11의 예시에서 1140의 각 컴포넌트는 가로축 및 세로축 모두 프롬프트
Figure 112023042475416-pat00137
,
Figure 112023042475416-pat00138
,
Figure 112023042475416-pat00139
,
Figure 112023042475416-pat00140
에 대응된다. 이 때 1140의 각 컴포넌트들은 색상을 가지지 않으므로, Read-only Tr layer를 통과할 때 세로축의 프롬프트
Figure 112023042475416-pat00141
,
Figure 112023042475416-pat00142
,
Figure 112023042475416-pat00143
,
Figure 112023042475416-pat00144
가 레이어에 입력된 프롬프트
Figure 112023042475416-pat00145
,
Figure 112023042475416-pat00146
,
Figure 112023042475416-pat00147
,
Figure 112023042475416-pat00148
로부터 영향을 받지 않고 출력됨을 의미한다.
상기 설명한 도 11의 예시를 정리하면, 텍스트 데이터
Figure 112023042475416-pat00149
의 일부 및 프롬프트
Figure 112023042475416-pat00150
,
Figure 112023042475416-pat00151
,
Figure 112023042475416-pat00152
,
Figure 112023042475416-pat00153
는 모두 Read-only Tr layer를 통과할 때, 레이어에 입력된 텍스트 데이터
Figure 112023042475416-pat00154
로부터만 영향을 받게된다.
이처럼 레이어를 통과할 때 모든 파라미터들이 서로 영향을 끼치는 기존 기술과 달리(즉, 기존 기술에 따르면 모든 컴포넌트들을 색상을 가진 컴포넌트로 활용) 본 발명은 정보를 제공하는 가로축 프롬프트
Figure 112023042475416-pat00155
,
Figure 112023042475416-pat00156
,
Figure 112023042475416-pat00157
,
Figure 112023042475416-pat00158
에 대응되는 컴포넌트들을 모두 0으로 마스킹함으로써 Read-only Tr layer를 통과할 때 다른 파라미터에 영향을 주지 않도록 하며, 이를 통해 입력된 텍스트 데이터를 훼손하지 않고 학습을 진행할 수 있다.
이상 설명한 마스킹 기법을 이용하면 학습에 사용되는 프롬프트가 모델의 내재적인 표현에 영향을 주지 않으므로 기존 프롬프트 튜닝 방법과 비교하여 안정적인 성능을 달성할 수 있으며, 많은 파라미터의 학습이 필요한 추가적인 선형 레이어를 필요로 하지 않기 때문에 기존의 선형 탐색 방법과 비교하여도 훨씬 더 높은 파라미터 효율성을 달성할 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시 예들을 설명하였지만, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100: 기존의 프롬프트 튜닝방법
200: 기존의 선형 탐색 방법
310: CoOP 320: CoCoOp 330: Linear Probing
500: 읽기 전용 프롤프트 학습을 수행하는 장치
510: 고차원 텍스트 인식부
511: 텍스트 획득부 513: 프롬프트 획득부 515: 특징 탐지부 517: 시멘틱 정합부
520: 고차원 이미지 인식부
522: 이미지 획득부 524: 프롬프트 획득부 526: 특징 탐지부 528: 시멘틱 정합부
530: 이미지-텍스트 매칭부

Claims (10)

  1. 읽기 전용 프롬프트 최적화(Read only Prompt Optimization, RPO) 모델에 기반한 읽기 전용 프롬프트 학습 방법에 있어서,
    텍스트 데이터 및 이미지 데이터를 전처리하는 단계;
    텍스트 RPO 토큰 및 이미지 RPO 토큰을 획득하는 단계;
    전처리된 텍스트 데이터 및 상기 텍스트 RPO 토큰을 입력하여 하나 이상의 텍스트 특징 값이 반영된 텍스트 RPO 토큰을 출력하는 단계;
    전처리된 이미지 데이터 및 상기 이미지 RPO 토큰을 입력하여 하나 이상의 이미지 특징 값이 반영된 이미지 RPO 토큰을 출력하는 단계;
    상기 출력한 텍스트 RPO 토큰 및 이미지 RPO 토큰을 이용하여 상기 텍스트 데이터 및 상기 이미지 데이터 사이의 유사도를 측정하는 단계;
    상기 유사도를 기반으로 이미지 데이터와 가장 유사한 텍스트 데이터를 예측 레이블로 선택하는 단계; 및
    상기 예측 레이블과 실제 레이블을 기반으로 RPO 모델을 학습하는 단계;
    를 포함하는 읽기 전용 프롬프트 학습 방법에 있어서,
    상기 하나 이상의 텍스트 특징 값은 어텐션 레이어를 적어도 하나 포함하는 신경망 레이어를 통과하여 추출되며,
    상기 텍스트 RPO 토큰은 관련된 컴포넌트 모두를 0으로 마스킹하여 상기 신경망 레이어를 통과하는 과정에서 상기 하나 이상의 텍스트 특징 값에 영향을 주지 않으며,
    상기 하나 이상의 이미지 특징 값은 어텐션 레이어를 적어도 하나 포함하는 신경망 레이어를 통과하여 추출되고,
    상기 이미지 RPO 토큰은 관련된 컴포넌트 모두를 0으로 마스킹하여 상기 신경망 레이어를 통과하는 과정에서 상기 하나 이상의 이미지 특징 값에 영향을 주지 않는,
    읽기 전용 프롬프트 학습 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 하나 이상의 텍스트 특징 값은 t 1, t 2,
    Figure 112023042475416-pat00159
    ,t k 이고,
    상기 하나 이상의 이미지 특징 값은 v 1, v 2,
    Figure 112023042475416-pat00160
    ,v k 이고,
    k는 상기 텍스트 RPO 토큰의 개수 또는 상기 이미지 RPO 토큰의 개수인 것을 특징으로 하는 읽기 전용 프롬프트 학습 방법.
  5. 제4항에 있어서,
    상기 텍스트 데이터 및 상기 이미지 데이터 사이의 유사도는, i = 0,1,
    Figure 112023042475416-pat00161
    , k에 대해 텍스트 특징 값 t i 와 이미지 특징 값 v i의 코사인 유사도의 평균 값을 기반으로 측정되는 것을 특징으로 하는 읽기 전용 프롬프트 학습 방법.
  6. 제1항에 있어서,
    상기 예측 레이블로 선택하는 단계는,
    복수 개의 텍스트 데이터에 대하여 상기 이미지 데이터와의 유사도를 식별하는 단계; 및
    상기 복수 개의 텍스트 데이터 중 상기 이미지 데이터와의 유사도가 가장 높은 텍스트 데이터를 상기 예측 레이블로 선택하는 단계를 포함하는 것을 특징으로 하는 읽기 전용 프롬프트 학습 방법.
  7. 읽기 전용 프롬프트 최적화(read only prompt optimization, RPO) 모델에 기반한 읽기 전용 프롬프트 학습 장치에 있어서,
    텍스트 데이터를 전처리하고, 텍스트 RPO 토큰을 획득하고, 전처리된 텍스트 데이터 및 상기 텍스트 RPO 토큰을 입력하여 하나 이상의 텍스트 특징 값이 반영된 텍스트 RPO 토큰을 출력하는 고차원 텍스트 인식부;
    이미지 데이터를 전처리하고, 이미지 RPO 토큰을 획득하고, 전처리된 이미지 데이터 및 상기 이미지 RPO 토큰을 입력하여 하나 이상의 이미지 특징 값이 반영된 이미지 RPO 토큰을 출력하는 고차원 이미지 인식부; 및
    상기 출력한 텍스트 RPO 토큰 및 이미지 RPO 토큰을 이용하여 상기 텍스트 데이터 및 상기 이미지 데이터 사이의 유사도를 측정하고, 상기 유사도를 기반으로 이미지 데이터와 가장 유사한 텍스트 데이터를 예측 레이블로 선택하고, 상기 예측 레이블과 실제 레이블을 기반으로 RPO 모델을 학습하는 이미지-텍스트 매칭부;
    를 포함하는 읽기 전용 프롬프트 학습 장치에 있어서,
    상기 하나 이상의 텍스트 특징 값은 어텐션 레이어를 적어도 하나 포함하는 신경망 레이어를 통과하여 추출되며,
    상기 텍스트 RPO 토큰은 관련된 컴포넌트 모두를 0으로 마스킹하여 상기 신경망 레이어를 통과하는 과정에서 상기 하나 이상의 텍스트 특징 값에 영향을 주지 않으며,
    상기 하나 이상의 이미지 특징 값은 어텐션 레이어를 적어도 하나 포함하는 신경망 레이어를 통과하여 추출되고,
    상기 이미지 RPO 토큰은 관련된 컴포넌트 모두를 0으로 마스킹하여 상기 신경망 레이어를 통과하는 과정에서 상기 하나 이상의 이미지 특징 값에 영향을 주지 않는,
    읽기 전용 프롬프트 학습 장치.
  8. 제7항에 있어서,
    상기 고차원 텍스트 인식부는,
    상기 텍스트 데이터의 전처리를 수행하는 텍스트 획득부;
    상기 텍스트 RPO 토큰을 획득하는 프롬프트 획득부;
    상기 전처리된 텍스트 데이터 및 상기 텍스트 RPO 토큰을 기반으로 상기 하나 이상의 텍스트 특징 값을 추출하는 특징 탐지부; 및
    상기 특징 탐지부에서 상기 하나 이상의 텍스트 특징 값을 추출하는 과정에서 누적되는 정보를 모아주는 역할을 수행하는 시멘틱 정합부를 포함하는 것을 특징으로 하는 읽기 전용 프롬프트 학습 장치.
  9. 제7항에 있어서,
    상기 고차원 이미지 인식부는,
    상기 이미지 데이터의 전처리를 수행하는 이미지 획득부;
    상기 이미지 RPO 토큰을 획득하는 프롬프트 획득부;
    상기 전처리된 이미지 데이터 및 상기 이미지 RPO 토큰을 기반으로 상기 하나 이상의 이미지 특징 값을 추출하는 특징 탐지부; 및
    상기 특징 탐지부에서 상기 하나 이상의 이미지 특징 값을 추출하는 과정에서 누적되는 정보를 모아주는 역할을 수행하는 시멘틱 정합부를 포함하는 것을 특징으로 하는 읽기 전용 프롬프트 학습 장치.
  10. 컴퓨팅 장치와 결합하여,
    텍스트 데이터 및 이미지 데이터를 전처리하는 단계;
    텍스트 RPO 토큰 및 이미지 RPO 토큰을 획득하는 단계;
    전처리된 텍스트 데이터 및 상기 텍스트 RPO 토큰을 입력하여 하나 이상의 텍스트 특징 값이 반영된 텍스트 RPO 토큰을 출력하는 단계;
    전처리된 이미지 데이터 및 상기 이미지 RPO 토큰을 입력하여 하나 이상의 이미지 특징 값이 반영된 이미지 RPO 토큰을 출력하는 단계;
    상기 출력한 텍스트 RPO 토큰 및 이미지 RPO 토큰을 이용하여 상기 텍스트 데이터 및 상기 이미지 데이터 사이의 유사도를 측정하는 단계;
    상기 유사도를 기반으로 이미지 데이터와 가장 유사한 텍스트 데이터를 예측 레이블로 선택하는 단계; 및
    상기 예측 레이블과 실제 레이블을 기반으로 RPO 모델을 학습하는 단계;
    를 실행하는 컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 하나 이상의 텍스트 특징 값은 어텐션 레이어를 적어도 하나 포함하는 신경망 레이어를 통과하여 추출되며,
    상기 텍스트 RPO 토큰은 관련된 컴포넌트 모두를 0으로 마스킹하여 상기 신경망 레이어를 통과하는 과정에서 상기 하나 이상의 텍스트 특징 값에 영향을 주지 않으며,
    상기 하나 이상의 이미지 특징 값은 어텐션 레이어를 적어도 하나 포함하는 신경망 레이어를 통과하여 추출되고,
    상기 이미지 RPO 토큰은 관련된 컴포넌트 모두를 0으로 마스킹하여 상기 신경망 레이어를 통과하는 과정에서 상기 하나 이상의 이미지 특징 값에 영향을 주지 않는,
    컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램.
KR1020230049563A 2023-04-14 2023-04-14 읽기 전용 프롬프트 학습 방법 및 장치 KR102563550B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230049563A KR102563550B1 (ko) 2023-04-14 2023-04-14 읽기 전용 프롬프트 학습 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230049563A KR102563550B1 (ko) 2023-04-14 2023-04-14 읽기 전용 프롬프트 학습 방법 및 장치

Publications (2)

Publication Number Publication Date
KR102563550B1 true KR102563550B1 (ko) 2023-08-11
KR102563550B9 KR102563550B9 (ko) 2023-11-13

Family

ID=87565900

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230049563A KR102563550B1 (ko) 2023-04-14 2023-04-14 읽기 전용 프롬프트 학습 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102563550B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116842126A (zh) * 2023-08-29 2023-10-03 青岛网信信息科技有限公司 一种利用llm实现知识库精准输出的方法、介质及系统
CN117079299A (zh) * 2023-10-12 2023-11-17 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN117388716A (zh) * 2023-12-11 2024-01-12 四川长园工程勘察设计有限公司 基于时序数据的电池组故障诊断方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210124901A (ko) * 2020-04-07 2021-10-15 네이버 주식회사 이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법
KR20220107917A (ko) * 2021-01-26 2022-08-02 쿠팡 주식회사 아이템 유사도를 모델링하고 아이템 정보를 상관시키기 위한 시스템 및 방법
KR102429534B1 (ko) 2020-11-02 2022-08-04 주식회사 루닛 대상 이미지에 대한 추론 작업을 수행하는 방법 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210124901A (ko) * 2020-04-07 2021-10-15 네이버 주식회사 이미지 조건화 마스킹된 언어 모델링을 사용하여 이미지 인식을 위한 컨볼루션 신경망을 훈련하기 위한 방법
KR102429534B1 (ko) 2020-11-02 2022-08-04 주식회사 루닛 대상 이미지에 대한 추론 작업을 수행하는 방법 및 시스템
KR20220107917A (ko) * 2021-01-26 2022-08-02 쿠팡 주식회사 아이템 유사도를 모델링하고 아이템 정보를 상관시키기 위한 시스템 및 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116842126A (zh) * 2023-08-29 2023-10-03 青岛网信信息科技有限公司 一种利用llm实现知识库精准输出的方法、介质及系统
CN116842126B (zh) * 2023-08-29 2023-12-19 青岛网信信息科技有限公司 一种利用llm实现知识库精准输出的方法、介质及系统
CN117079299A (zh) * 2023-10-12 2023-11-17 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN117079299B (zh) * 2023-10-12 2024-01-09 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN117388716A (zh) * 2023-12-11 2024-01-12 四川长园工程勘察设计有限公司 基于时序数据的电池组故障诊断方法、系统及存储介质
CN117388716B (zh) * 2023-12-11 2024-02-13 四川长园工程勘察设计有限公司 基于时序数据的电池组故障诊断方法、系统及存储介质

Also Published As

Publication number Publication date
KR102563550B9 (ko) 2023-11-13

Similar Documents

Publication Publication Date Title
KR102563550B1 (ko) 읽기 전용 프롬프트 학습 방법 및 장치
CN109086756B (zh) 一种基于深度神经网络的文本检测分析方法、装置及设备
CN110826638B (zh) 基于重复注意力网络的零样本图像分类模型及其方法
CN110795585B (zh) 基于生成对抗网络的零样本图像分类系统及其方法
US11461638B2 (en) Figure captioning system and related methods
CN110826639B (zh) 一种利用全量数据训练零样本图像分类方法
CN116304984A (zh) 基于对比学习的多模态意图识别方法及系统
CN110991515B (zh) 一种融合视觉上下文的图像描述方法
CN113806198B (zh) 一种基于深度学习的系统状态诊断方法
CN115687643A (zh) 一种训练多模态信息抽取模型的方法及信息抽取方法
Rai et al. Pho (SC) Net: an approach towards zero-shot word image recognition in historical documents
Akanksh et al. Automated invoice data extraction using image processing
CN113920494A (zh) 一种基于transformer的车牌字符识别方法
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
KR102152260B1 (ko) 키-밸류 관계인식장치 및 키-밸류 관계인식방법
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
KR102457455B1 (ko) 인공지능 기반의 미술품 가격 예측 장치 및 방법
Vijayaraju Image retrieval using image captioning
Bhatt et al. Pho (SC)-CTC—a hybrid approach towards zero-shot word image recognition
KR102363961B1 (ko) 제품 이미지 기반의 분석 방법, 장치 및 프로그램
CN115964484A (zh) 基于多标签分类模型实现的法律多意图识别方法和装置
CN114882488A (zh) 基于深度学习与注意力机制的多源遥感图像信息处理方法
Palani et al. Detecting and extracting information of medicines from a medical prescription using deep learning and computer vision
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
Valcan Convolutional Neural Network Training System For Eye Location On Infrared Driver Recordings Using Automatically Generated Ground Truth Data

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]