KR102279797B1 - 멀티모달 데이터 융합 시스템 및 방법 - Google Patents

멀티모달 데이터 융합 시스템 및 방법 Download PDF

Info

Publication number
KR102279797B1
KR102279797B1 KR1020210029317A KR20210029317A KR102279797B1 KR 102279797 B1 KR102279797 B1 KR 102279797B1 KR 1020210029317 A KR1020210029317 A KR 1020210029317A KR 20210029317 A KR20210029317 A KR 20210029317A KR 102279797 B1 KR102279797 B1 KR 102279797B1
Authority
KR
South Korea
Prior art keywords
data
text
image
fusion
normalized
Prior art date
Application number
KR1020210029317A
Other languages
English (en)
Inventor
양형정
도트엉동
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Priority to KR1020210029317A priority Critical patent/KR102279797B1/ko
Application granted granted Critical
Publication of KR102279797B1 publication Critical patent/KR102279797B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/46
    • G06K9/6267
    • G06T5/002
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 멀티모달 데이터 융합 시스템 및 방법에 관한 것으로, 데이터 수신부가 외부로부터 이미지 및 텍스트 정보를 수신하고, 특징점 도출부가 상기 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출하고, 자기 교차부가 상기 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하고, 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하며, 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 상기 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성하고, 상호 교차 융합부가 상기 이미지 정규화 데이터와 상기 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 상기 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하고, 도출된 각각의 상기 제2 이미지 결과 데이터와 상기 텍스트 정규화 데이터 및 상기 제2 텍스트 결과 데이터와 상기 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합 데이터를 생성하며, 융합 데이터 도출부가 상기 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출하는 융합 데이터 도출부를 포함하는 구성으로 서로 다른 양식을 가지는 이미지 및 텍스트 데이터에 대한 적절한 기능을 학습하여 잘못된 지식의 전달을 효과적으로 방지할 수 있다.

Description

멀티모달 데이터 융합 시스템 및 방법{MULTIMODAL DATA FUSION SYSTEM AND METHOD}
본 발명은 멀티모달 데이터 융합 시스템 및 방법에 관한 것으로, 이미지와 텍스트의 멀티 모달 데이터를 융합할 수 있도록 한 기술에 관한 것이다.
데이터 수집 기술의 확장으로 다중 모드 데이터는 어플리케이션 엔지니어링에서 중요한 요소로 자리잡고 있다. 이러한 다중 모드 데이터는 웹상의 메시지에 텍스트 설명이 포함된 사진, 시각과 오디오 신호가 모두 포함된 비디오로 표현될 수 있다.
그러나, 이미지에 텍스트 설명이 포함된 데이터라고 하더라도 모델이 특정 유형의 데이터를 인식하여 학습하기에는 데이터 유형을 구분하는 지정된 데이터가 없기 때문에 구조화된 레이블을 획득할 수 없어 학습하기에 어려움이 있다.
이러한 문제를 해결하기 위한 한 가지 유형의 데이터만 클러스터링하는 방법,
딥러닝 기술을 이용한 이미지와 텍스트 데이터 융합 방법이 제기되었지만 그럼에도 불구하고 해결해야하는 과제가 남아있다.
먼저, 단일 모달 접근 방식은 텍스트를 무시하고 이미지만 클러스터링 하거나 한가지 유형의 데이터만 클러스터링하는 방식으로 연구 가치가 있었지만, 의미 있는 클러스터를 생성하지 못해 성능저하를 보이며, 캡션이 이미지의 내용을 완전히 설명하지 않아 잘못된 할당이 발생하는 문제가 있다.
최근 딥러닝 기술이 도입되면서 딥러닝을 이용한 데이터 표현을 자동으로 캡쳐 하면서 클러스터링 알고리즘을 개선된 이미지와 텍스트 융합 방법이 관심을 받아왔다.
그러나, 각각의 양식은 품질 차이 또는 상관 관계에도 불구하고 내장된 기능을 융합하기 전에 유사성 기여도를 갖거나 수동 계수를 곱하는 것으로 간주되어 클러스터링 단계에서 최적으로 통합된 표현을 얻는데 어려움이 있다.
따라서, 이를 해결하기 위한 텍스트와 이미지 기능을 융합하기 위한 다중 모드 융합 기술의 개발이 시급하다.
본 발명은, 서로 다른 양식을 가지는 이미지 및 텍스트 데이터에 대한 적절한 기능을 학습하여 잘못된 지식의 전달을 효과적으로 방지할 수 있는 멀티모달 데이터 융합 시스템 및 방법을 제공할 수 있다.
본 발명의 일 측면에 따른 멀티모달 데이터 융합 시스템은 외부로부터 이미지 및 텍스트 정보를 수신하는 데이터 수신부; 상기 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출하는 특징점 도출부; 상기 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하고, 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하며, 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 상기 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성하는 자기 교차부; 상기 이미지 정규화 데이터와 상기 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 상기 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하고, 도출된 각각의 상기 제2 이미지 결과 데이터와 상기 텍스트 정규화 데이터 및 상기 제2 텍스트 결과 데이터와 상기 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합 데이터를 생성하는 상호 교차 융합부; 및 상기 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출하는 융합 데이터 도출부를 포함한다.
바람직하게는, 상기 자기 교차부는 상기 이미지 데이터와 텍스트 데이터에서 노이즈(Noise)를 제거할 수 있다.
바람직하게는, 상기 융합 데이터 도출부는 이미지-텍스트 데이터와 텍스트-이미지 데이터의 오차를 최소화하도록 학습할 수 있다.
본 발명의 다른 측면에 따른 멀티모달 데이터 융합 방법은 외부로부터 이미지 및 텍스트 정보를 수신하는 데이터 수신 단계; 상기 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출하는 특징점 도출 단계; 상기 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하는 입력 데이터 생성 단계; 상기 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하는 제1 결과 데이터 도출 단계; 상기 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 상기 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성하는 정규화 단계; 상기 이미지 정규화 데이터와 상기 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하는 제2 결과 데이터 도출 단계; 상기 도출된 각각의 상기 제2 이미지 결과 데이터와 상기 텍스트 정규화 데이터 및 상기 제2 텍스트 결과 데이터와 상기 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합 데이터를 생성하는 상호 교차 융합 단계; 및 상기 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출하는 융합 데이터 도출 단계를 포함한다.
본 발명에 따르면, 이미지 표현과 텍스트 표현을 동시에 학습하고 융합함에 서로 다른 양식을 가지는 이미지 및 텍스트 데이터에 대한 적절한 기능을 학습하여 잘못된 지식의 전달을 효과적으로 방지할 수 있고, 이에 따라 공통 패턴에 대한 신뢰성을 향상시킬 수 있다.
도 1은 일 실시예에 따른 멀티모달 데이터 융합 시스템 장치의 구성도이다.
도 2는 일 실시예에 따른 멀티모달 데이터 융합 시스템의 전체 프로세스를 계략적으로 나타낸 모식도이다.
도 3은 일 실시예에 따른 데이터 융합 알고리즘을 나타낸 모식도이다.
도 4는 일 실시예에 따른 데이터 융합 방법을 나타낸 순서도이다.
이하에서는 본 발명에 따른 멀티모달 데이터 융합 시스템 및 방법을 첨부된 도면들을 참조하여 상세하게 설명한다. 이러한 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로, 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명의 목적 및 효과는 하기의 설명에 의해서 자연스럽게 이해되거나 보다 분명해 질 수 있으며, 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
도 1은 일 실시예에 따른 멀티모달 데이터 융합 시스템 장치의 구성도이다.
도 1에서 나타낸 바와 같이, 일 실시예에 따른 멀티모달 데이터 융합 시스템 장치의 구성은 데이터 수신부(100), 특징점 도출부(300), 자기 교차부(500), 상호 교차 융합부(700), 융합 데이터 도출부(900)를 포함할 수 있다.
도 2는 일 실시예에 따른 멀티모달 데이터 융합 시스템의 전체 프로세스를 계략적으로 나타낸 모식도이다.
도 2에서 나타낸 바와 같이, 일 실시예에 따른 멀티모달 데이터 융합 시스템의 프로세스는 외부로부터 이미지 및 텍스트 정보를 수신하고, 수신된 이미지 정보와 텍스트 정보에 대한 특징점을 도출한 다음, 도출된 이미지와 텍스트 특징점 각각에 대한 입력 데이터를 생성하고, 생성된 입력 데이터를 연산하여 정규화 데이터를 생성하며, 생성된 이미지 및 텍스트 정규화 데이터로 상호 융합된 융합 데이터를 생성한다. 마지막으로, 생성된 융합 데이터에 대한 임베디드 분포간의 쿨백 라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 학습 및 도출한다.
더욱 상세하게는, 일 실시예에 따른 멀티모달 데이터 융합 시스템 장치의 구성을 참고하여 설명하도록 한다.
데이터 수신부(100)는 외부로부터 이미지 및 텍스트 정보를 수신할 수 있다. 이때, 수신되는 이미지 및 텍스트 정보는 이미지 및 텍스트의 아날로그 정보 또는 디지털 정보일 수 있다. 텍스트 정보에서 모든 비 ASCII 문자, 구두점 및 특수 기호가 제거된 후 인코딩 프로세스 전에 소문자, 형태소 분석 및 형식화를 수행할 수 있다.
특징점 도출부(300)는 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출할 수 있다. 여기서, 이미지 정보에 대한 특징점은 ResNet-50 모델을 사용하여 224 x 224 픽셀의 2048차원의 이미지 특징을 추출할 수 있고, 텍스트 정보에 대한 특징점은 doc2vec을 사용하여 캡션을 삽입하고 300차원 텍스트 특징을 추출할 수 있다.
이때, 추출되는 이미지와 텍스트의 특징점은 인코더와 디코더를 통해 각 샘플의 잠재 특징을 찾는 것을 목표로 할 수 있다. 입력되는 이미지의 공간 구조를 활용하기 위해 Feedforward로 완전히 연결된 오토 인코더는
Figure 112021026246984-pat00001
, 디코더는
Figure 112021026246984-pat00002
으로 표현되는데 이는 다음 수학식으로 표현될 수 있다.
[수학식 1]
Figure 112021026246984-pat00003
Figure 112021026246984-pat00004
수학식 1에서, x와 z는 행렬이고, *는 행렬 곱셈 연산자이며, σ는 시그모이드 활성 함수이다. 이미지 및 텍스트 정보의 입력으로 추출된 특징점은 융합되기 전 저 차원 공간으로 재구성될 수 있다. 이때, 사용되는 인코더는 및 디코더의 매개 변수는 재구성 오류를 최소화하도록 다음 수학식을 통해 연산될 수 있다.
[수학식 2]
Figure 112021026246984-pat00005
수학식 2에서, n은 데이터 세트의 포인트 수이며,
Figure 112021026246984-pat00006
Figure 112021026246984-pat00007
번째 포인트이다. 여기서, 이미지 특징(
Figure 112021026246984-pat00008
)에 대한 가중치(
Figure 112021026246984-pat00009
)와 텍스트 임베딩(
Figure 112021026246984-pat00010
)에 대한 가중치(
Figure 112021026246984-pat00011
)로 저 차원 공간에서 재구성된 특성을 각각 학습할 수 있으며, 텍스트 인코더에 대해 이미지 재구성 손실(
Figure 112021026246984-pat00012
)과 텍스트 재구성 손실(
Figure 112021026246984-pat00013
)은 다음 수학식으로 표현될 수 있다.
[수학식 3]
Figure 112021026246984-pat00014
Figure 112021026246984-pat00015
도 3은 일 실시예에 따른 데이터 융합 알고리즘을 나타낸 모식도이다.
도 3에서 나타낸 바와 같이, 일 실시예에 따른 데이터 융합 알고리즘은 자기 교자부와 상호 교차 융합부(700)로 나뉜다.
자기 교차부(500)는 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하고, 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하며, 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성할 수 있다. 이때, 이미지 데이터와 텍스트 데이터의 노이즈(Noise)를 제거할 수 있다. 즉, 하나의 양식에는 정보가 없거나, 신뢰할 수 없는 정보를 제거하기 위해 복수의 입력 데이터를 벡터내적하여 오류를 제거할 수 있다.
여기서, 이미지 특정점에 대한 자기 교차 알고리즘은 다음 수학식으로 표현될 수 있다.
[수학식 4]
Figure 112021026246984-pat00016
Figure 112021026246984-pat00017
Figure 112021026246984-pat00018
Figure 112021026246984-pat00019
Figure 112021026246984-pat00020
수학식 4에서,
Figure 112021026246984-pat00021
는 이미지 특징점이고,
Figure 112021026246984-pat00022
Figure 112021026246984-pat00023
의 입력 데이터
Figure 112021026246984-pat00024
,
Figure 112021026246984-pat00025
,
Figure 112021026246984-pat00026
가 자기 교차 알고리즘을 통해 도출된 이미지 정규화 데이터이다.
또한, 텍스트 특징점에 대한 자기 교차 알고리즘은 앞서 언급한 이미지 특징점의 자기 교차 알고리즘과 동일하게 수행될 수 있다. 즉,
Figure 112021026246984-pat00027
는 텍스트 특징점이고,
Figure 112021026246984-pat00028
Figure 112021026246984-pat00029
의 입력 데이터
Figure 112021026246984-pat00030
,
Figure 112021026246984-pat00031
,
Figure 112021026246984-pat00032
가 자기 교차 알고리즘을 통해 도출된 텍스트 정규화 데이터이다.
상호 교차 융합부(700)는 이미지 정규화 데이터와 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하고, 도출된 각각의 제2 이미지 결과 데이터와 텍스트 정규화 데이터 및 제2 텍스트 결과 데이터와 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합데이터를 생성할 수 있다.
여기서, 텍스트-이미지 융합 데이터를 생성하는 알고리즘은 다음 수학식으로 표현될 수 있다.
[수학식 5]
Figure 112021026246984-pat00033
Figure 112021026246984-pat00034
Figure 112021026246984-pat00035
Figure 112021026246984-pat00036
수학식 5에서,
Figure 112021026246984-pat00037
는 이미지 정규화 데이터이고, h는 교차하는 데이터의 개수고, d는
Figure 112021026246984-pat00038
,
Figure 112021026246984-pat00039
,
Figure 112021026246984-pat00040
,
Figure 112021026246984-pat00041
,
Figure 112021026246984-pat00042
의 차원이며, 이미지 교차주의 블록에서 학습할 매개 변수이다.
텍스트-이미지 융합 데이터는 앞서 상술한 알고리즘과 동일한 방법이 적용되며 이때, 텍스트 정규화 데이터는
Figure 112021026246984-pat00043
이고,
Figure 112021026246984-pat00044
,
Figure 112021026246984-pat00045
,
Figure 112021026246984-pat00046
,
Figure 112021026246984-pat00047
는 텍스트 교차주의 블록에서 학습할 매개 변수이다.
상술한 상호 교차 융합 알고리즘으로 이미지에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트에 이미지가 융합된 텍스트-이미지 융합 데이터가 도출될 수 있다.
융합 데이터 도출부(900)는 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출할 수 있다.
즉, 융합데이터 도출부(900)는 상호 교차 융합부(700)의 블록에서 도출된 출력값으로 이미지와 텍스트를 공동으로 나타내는 융합된 데이터를 얻을 수 있으며, 이는 다음 수학식으로 표현될 수 있다.
[수학식 6]
Figure 112021026246984-pat00048
수학식 6에서, z* 는 텍스트와 이미지가 융합된 최종 융합 데이터이고,
Figure 112021026246984-pat00049
는 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 가중치이다.
도 4는 일 실시예에 따른 데이터 융합 방법을 나타낸 순서도이다.
도 4에서 나타낸 바와 같이, 일 실시예에 따른 데이터 융합 방법은 데이터 수신 단계(S100), 특징점 도출 단계(S200), 입력 데이터 생성 단계(S300), 제1 결과 데이터 도출 단계(S400), 정규화 데이터 생성 단계(S500), 제2 결과 데이터 도출 단계(S600), 상호 교차 융합 단계(S700), 및 융합 데이터 도출 단계(S800)를 포함할 수 있다.
데이터 수신 단계(S100)는 외부로부터 이미지 및 텍스트 정보를 수신할 수 있다.
특징점 도출 단계(S200)는 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출할 수 있다.
입력 데이터 생성 단계(S300)는 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성할 수 있다.
제1 결과 데이터 도출 단계(S400)는 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출할 수 있다.
정규화 데이터 생성 단계(S500)는 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성할 수 있다.
제2 결과 데이터 도출 단계(S600)는 이미지 정규화 데이터와 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출할 수 있다.
상호 교차 융합 단계(S700)는 도출된 각각의 제2 이미지 결과 데이터와 텍스트 정규화 데이터 및 제2 텍스트 결과 데이터와 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합데이터를 생성할 수 있다.
융합 데이터 도출 단계(S800)는 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출할 수 있다.
이상에서 대표적인 실시예를 통하여 본 발명을 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명한 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 특허청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다.
100: 데이터 수신부 300: 특징점 도출부
500: 자기 교차부 700: 상호 교차 융합부
900: 융합 데이터 도출부

Claims (4)

  1. 외부로부터 이미지 및 텍스트 정보를 수신하는 데이터 수신부;
    상기 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출하는 특징점 도출부;
    상기 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하고, 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하며, 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 상기 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성하는 자기 교차부;
    상기 이미지 정규화 데이터와 상기 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 상기 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하고, 도출된 각각의 상기 제2 이미지 결과 데이터와 상기 텍스트 정규화 데이터 및 상기 제2 텍스트 결과 데이터와 상기 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합 데이터를 생성하는 상호 교차 융합부; 및
    상기 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출하는 융합 데이터 도출부를 포함하는 멀티모달 데이터 융합 시스템.
  2. 제1항에 있어서,
    상기 자기 교차부는 상기 이미지 데이터와 텍스트 데이터에서 노이즈(Noise)를 제거하는 것을 특징으로 하는 멀티모달 데이터 융합 시스템.
  3. 삭제
  4. 외부로부터 이미지 및 텍스트 정보를 수신하는 데이터 수신 단계;
    상기 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출하는 특징점 도출 단계;
    상기 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하는 입력 데이터 생성 단계;
    상기 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하는 제1 결과 데이터 도출 단계;
    상기 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 상기 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성하는 정규화 단계;
    상기 이미지 정규화 데이터와 상기 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하는 제2 결과 데이터 도출 단계;
    상기 도출된 각각의 상기 제2 이미지 결과 데이터와 상기 텍스트 정규화 데이터 및 상기 제2 텍스트 결과 데이터와 상기 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합 데이터를 생성하는 상호 교차 융합 단계; 및
    상기 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출하는 융합 데이터 도출 단계를 포함하는 멀티모달 데이터 융합 방법.

KR1020210029317A 2021-03-05 2021-03-05 멀티모달 데이터 융합 시스템 및 방법 KR102279797B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210029317A KR102279797B1 (ko) 2021-03-05 2021-03-05 멀티모달 데이터 융합 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210029317A KR102279797B1 (ko) 2021-03-05 2021-03-05 멀티모달 데이터 융합 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR102279797B1 true KR102279797B1 (ko) 2021-07-21

Family

ID=77143632

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210029317A KR102279797B1 (ko) 2021-03-05 2021-03-05 멀티모달 데이터 융합 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102279797B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023128432A1 (ko) * 2021-12-29 2023-07-06 삼성전자 주식회사 상품을 인식하는 방법 및 전자 장치
KR20230128812A (ko) 2022-02-28 2023-09-05 전남대학교산학협력단 교차 모달 학습 기반의 감정 추론 시스템 및 방법
WO2023201990A1 (zh) * 2022-04-19 2023-10-26 苏州浪潮智能科技有限公司 一种视觉定位方法、装置、设备及介质
KR102622435B1 (ko) * 2023-04-11 2024-01-08 고려대학교산학협력단 텍스트를 활용한 도메인 비특이적인 이미지 분류 장치 및 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080051479A (ko) * 2006-12-05 2008-06-11 한국전자통신연구원 멀티모달 융합 처리 방법 및 그 장치
KR20080069887A (ko) * 2007-01-24 2008-07-29 퍼듀 리서치 파운데이션 이미지 처리장치 및 그 이미지 처리방법
KR20120134965A (ko) * 2011-06-04 2012-12-12 제노젠(주) 멀티모달 입력장치를 이용한 인터액션 방법
KR20180101959A (ko) * 2017-03-06 2018-09-14 서강대학교산학협력단 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템
KR20190002328A (ko) * 2017-06-29 2019-01-08 삼성전자주식회사 문서 이미지의 텍스트와 도형을 분리하는 방법 및 장치
KR20200098379A (ko) * 2019-02-12 2020-08-20 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080051479A (ko) * 2006-12-05 2008-06-11 한국전자통신연구원 멀티모달 융합 처리 방법 및 그 장치
KR20080069887A (ko) * 2007-01-24 2008-07-29 퍼듀 리서치 파운데이션 이미지 처리장치 및 그 이미지 처리방법
KR20120134965A (ko) * 2011-06-04 2012-12-12 제노젠(주) 멀티모달 입력장치를 이용한 인터액션 방법
KR20180101959A (ko) * 2017-03-06 2018-09-14 서강대학교산학협력단 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템
KR20190002328A (ko) * 2017-06-29 2019-01-08 삼성전자주식회사 문서 이미지의 텍스트와 도형을 분리하는 방법 및 장치
KR20200098379A (ko) * 2019-02-12 2020-08-20 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체
JP2020135852A (ja) * 2019-02-12 2020-08-31 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 画像に基づくデータ処理方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jeong, Jong-Mun, Hyung-Jeong Yang, and Sun-Hee Kim. "Multi-modal sense based interface for augmented reality in table top display." Journal of Korea Multimedia Society 12.5 (2009) *
Lahat, Dana, Tülay Adali, and Christian Jutten. "Multimodal data fusion: an overview of methods, challenges, and prospects." Proceedings of the IEEE 103.9 (2015) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023128432A1 (ko) * 2021-12-29 2023-07-06 삼성전자 주식회사 상품을 인식하는 방법 및 전자 장치
KR20230128812A (ko) 2022-02-28 2023-09-05 전남대학교산학협력단 교차 모달 학습 기반의 감정 추론 시스템 및 방법
WO2023201990A1 (zh) * 2022-04-19 2023-10-26 苏州浪潮智能科技有限公司 一种视觉定位方法、装置、设备及介质
KR102622435B1 (ko) * 2023-04-11 2024-01-08 고려대학교산학협력단 텍스트를 활용한 도메인 비특이적인 이미지 분류 장치 및 방법

Similar Documents

Publication Publication Date Title
KR102279797B1 (ko) 멀티모달 데이터 융합 시스템 및 방법
Zhang et al. Uncertainty inspired RGB-D saliency detection
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN110544275B (zh) 生成配准的带病灶分割标签的多模态mri的方法、系统及介质
CN100448257C (zh) 图像处理装置及其方法
Zhang et al. Viscode: Embedding information in visualization images using encoder-decoder network
CN115311720B (zh) 一种基于Transformer的deepfake生成方法
CN112070114B (zh) 基于高斯约束注意力机制网络的场景文字识别方法及系统
CN111242829A (zh) 一种水印提取方法、装置、设备及存储介质
CN113052759B (zh) 基于mask和自动编码器的场景复杂文本图像编辑方法
CN112733861B (zh) 基于u型残差网络的文本擦除和抠字方法
Kawabe et al. Application of deep learning to classification of braille dot for restoration of old braille books
CN117292020A (zh) 图像生成方法、装置、电子设备及存储介质
CN110889276B (zh) 复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
KR20230038164A (ko) 신경망 기반의 특징점 학습 장치 및 방법
CN116402067A (zh) 面向多语种文字风格保持的跨语言自监督生成方法
CN113554549B (zh) 文本图像的生成方法、装置、计算机设备和存储介质
CN115454554A (zh) 文本描述的生成方法、装置、终端及存储介质
CN114913516A (zh) 一种烟草零售许可证的识别方法及系统
CN108108794B (zh) 一种基于二维码图像隐藏的可视化信息增强方法和系统
CN115053263A (zh) 使用人工智能的虚拟脸部生成方法及装置
CN113744158A (zh) 图像生成方法、装置、电子设备和存储介质
CN114025165B (zh) 一种人脸识别精度保持的图像压缩方法以及系统
US20240169701A1 (en) Affordance-based reposing of an object in a scene

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant