KR102279797B1

KR102279797B1 - 멀티모달 데이터 융합 시스템 및 방법

Info

Publication number: KR102279797B1
Application number: KR1020210029317A
Authority: KR
Inventors: 양형정; 도트엉동
Original assignee: 전남대학교산학협력단
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-07-21

Abstract

본 발명은 멀티모달 데이터 융합 시스템 및 방법에 관한 것으로, 데이터 수신부가 외부로부터 이미지 및 텍스트 정보를 수신하고, 특징점 도출부가 상기 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출하고, 자기 교차부가 상기 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하고, 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하며, 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 상기 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성하고, 상호 교차 융합부가 상기 이미지 정규화 데이터와 상기 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 상기 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하고, 도출된 각각의 상기 제2 이미지 결과 데이터와 상기 텍스트 정규화 데이터 및 상기 제2 텍스트 결과 데이터와 상기 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합 데이터를 생성하며, 융합 데이터 도출부가 상기 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출하는 융합 데이터 도출부를 포함하는 구성으로 서로 다른 양식을 가지는 이미지 및 텍스트 데이터에 대한 적절한 기능을 학습하여 잘못된 지식의 전달을 효과적으로 방지할 수 있다.

Description

멀티모달 데이터 융합 시스템 및 방법{MULTIMODAL DATA FUSION SYSTEM AND METHOD}

본 발명은 멀티모달 데이터 융합 시스템 및 방법에 관한 것으로, 이미지와 텍스트의 멀티 모달 데이터를 융합할 수 있도록 한 기술에 관한 것이다.

데이터 수집 기술의 확장으로 다중 모드 데이터는 어플리케이션 엔지니어링에서 중요한 요소로 자리잡고 있다. 이러한 다중 모드 데이터는 웹상의 메시지에 텍스트 설명이 포함된 사진, 시각과 오디오 신호가 모두 포함된 비디오로 표현될 수 있다.

그러나, 이미지에 텍스트 설명이 포함된 데이터라고 하더라도 모델이 특정 유형의 데이터를 인식하여 학습하기에는 데이터 유형을 구분하는 지정된 데이터가 없기 때문에 구조화된 레이블을 획득할 수 없어 학습하기에 어려움이 있다.

이러한 문제를 해결하기 위한 한 가지 유형의 데이터만 클러스터링하는 방법,

딥러닝 기술을 이용한 이미지와 텍스트 데이터 융합 방법이 제기되었지만 그럼에도 불구하고 해결해야하는 과제가 남아있다.

먼저, 단일 모달 접근 방식은 텍스트를 무시하고 이미지만 클러스터링 하거나 한가지 유형의 데이터만 클러스터링하는 방식으로 연구 가치가 있었지만, 의미 있는 클러스터를 생성하지 못해 성능저하를 보이며, 캡션이 이미지의 내용을 완전히 설명하지 않아 잘못된 할당이 발생하는 문제가 있다.

최근 딥러닝 기술이 도입되면서 딥러닝을 이용한 데이터 표현을 자동으로 캡쳐 하면서 클러스터링 알고리즘을 개선된 이미지와 텍스트 융합 방법이 관심을 받아왔다.

그러나, 각각의 양식은 품질 차이 또는 상관 관계에도 불구하고 내장된 기능을 융합하기 전에 유사성 기여도를 갖거나 수동 계수를 곱하는 것으로 간주되어 클러스터링 단계에서 최적으로 통합된 표현을 얻는데 어려움이 있다.

따라서, 이를 해결하기 위한 텍스트와 이미지 기능을 융합하기 위한 다중 모드 융합 기술의 개발이 시급하다.

본 발명은, 서로 다른 양식을 가지는 이미지 및 텍스트 데이터에 대한 적절한 기능을 학습하여 잘못된 지식의 전달을 효과적으로 방지할 수 있는 멀티모달 데이터 융합 시스템 및 방법을 제공할 수 있다.

본 발명의 일 측면에 따른 멀티모달 데이터 융합 시스템은 외부로부터 이미지 및 텍스트 정보를 수신하는 데이터 수신부; 상기 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출하는 특징점 도출부; 상기 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하고, 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하며, 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 상기 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성하는 자기 교차부; 상기 이미지 정규화 데이터와 상기 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 상기 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하고, 도출된 각각의 상기 제2 이미지 결과 데이터와 상기 텍스트 정규화 데이터 및 상기 제2 텍스트 결과 데이터와 상기 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합 데이터를 생성하는 상호 교차 융합부; 및 상기 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출하는 융합 데이터 도출부를 포함한다.

바람직하게는, 상기 자기 교차부는 상기 이미지 데이터와 텍스트 데이터에서 노이즈(Noise)를 제거할 수 있다.

바람직하게는, 상기 융합 데이터 도출부는 이미지-텍스트 데이터와 텍스트-이미지 데이터의 오차를 최소화하도록 학습할 수 있다.

본 발명의 다른 측면에 따른 멀티모달 데이터 융합 방법은 외부로부터 이미지 및 텍스트 정보를 수신하는 데이터 수신 단계; 상기 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출하는 특징점 도출 단계; 상기 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하는 입력 데이터 생성 단계; 상기 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하는 제1 결과 데이터 도출 단계; 상기 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 상기 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성하는 정규화 단계; 상기 이미지 정규화 데이터와 상기 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하는 제2 결과 데이터 도출 단계; 상기 도출된 각각의 상기 제2 이미지 결과 데이터와 상기 텍스트 정규화 데이터 및 상기 제2 텍스트 결과 데이터와 상기 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합 데이터를 생성하는 상호 교차 융합 단계; 및 상기 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출하는 융합 데이터 도출 단계를 포함한다.

본 발명에 따르면, 이미지 표현과 텍스트 표현을 동시에 학습하고 융합함에 서로 다른 양식을 가지는 이미지 및 텍스트 데이터에 대한 적절한 기능을 학습하여 잘못된 지식의 전달을 효과적으로 방지할 수 있고, 이에 따라 공통 패턴에 대한 신뢰성을 향상시킬 수 있다.

도 1은 일 실시예에 따른 멀티모달 데이터 융합 시스템 장치의 구성도이다.
도 2는 일 실시예에 따른 멀티모달 데이터 융합 시스템의 전체 프로세스를 계략적으로 나타낸 모식도이다.
도 3은 일 실시예에 따른 데이터 융합 알고리즘을 나타낸 모식도이다.
도 4는 일 실시예에 따른 데이터 융합 방법을 나타낸 순서도이다.

이하에서는 본 발명에 따른 멀티모달 데이터 융합 시스템 및 방법을 첨부된 도면들을 참조하여 상세하게 설명한다. 이러한 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로, 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

본 발명의 목적 및 효과는 하기의 설명에 의해서 자연스럽게 이해되거나 보다 분명해 질 수 있으며, 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.

도 1은 일 실시예에 따른 멀티모달 데이터 융합 시스템 장치의 구성도이다.

도 1에서 나타낸 바와 같이, 일 실시예에 따른 멀티모달 데이터 융합 시스템 장치의 구성은 데이터 수신부(100), 특징점 도출부(300), 자기 교차부(500), 상호 교차 융합부(700), 융합 데이터 도출부(900)를 포함할 수 있다.

도 2는 일 실시예에 따른 멀티모달 데이터 융합 시스템의 전체 프로세스를 계략적으로 나타낸 모식도이다.

도 2에서 나타낸 바와 같이, 일 실시예에 따른 멀티모달 데이터 융합 시스템의 프로세스는 외부로부터 이미지 및 텍스트 정보를 수신하고, 수신된 이미지 정보와 텍스트 정보에 대한 특징점을 도출한 다음, 도출된 이미지와 텍스트 특징점 각각에 대한 입력 데이터를 생성하고, 생성된 입력 데이터를 연산하여 정규화 데이터를 생성하며, 생성된 이미지 및 텍스트 정규화 데이터로 상호 융합된 융합 데이터를 생성한다. 마지막으로, 생성된 융합 데이터에 대한 임베디드 분포간의 쿨백 라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 학습 및 도출한다.

더욱 상세하게는, 일 실시예에 따른 멀티모달 데이터 융합 시스템 장치의 구성을 참고하여 설명하도록 한다.

데이터 수신부(100)는 외부로부터 이미지 및 텍스트 정보를 수신할 수 있다. 이때, 수신되는 이미지 및 텍스트 정보는 이미지 및 텍스트의 아날로그 정보 또는 디지털 정보일 수 있다. 텍스트 정보에서 모든 비 ASCII 문자, 구두점 및 특수 기호가 제거된 후 인코딩 프로세스 전에 소문자, 형태소 분석 및 형식화를 수행할 수 있다.

특징점 도출부(300)는 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출할 수 있다. 여기서, 이미지 정보에 대한 특징점은 ResNet-50 모델을 사용하여 224 x 224 픽셀의 2048차원의 이미지 특징을 추출할 수 있고, 텍스트 정보에 대한 특징점은 doc2vec을 사용하여 캡션을 삽입하고 300차원 텍스트 특징을 추출할 수 있다.

이때, 추출되는 이미지와 텍스트의 특징점은 인코더와 디코더를 통해 각 샘플의 잠재 특징을 찾는 것을 목표로 할 수 있다. 입력되는 이미지의 공간 구조를 활용하기 위해 Feedforward로 완전히 연결된 오토 인코더는

, 디코더는

으로 표현되는데 이는 다음 수학식으로 표현될 수 있다.

[수학식 1]

수학식 1에서, x와 z는 행렬이고, *는 행렬 곱셈 연산자이며, σ는 시그모이드 활성 함수이다. 이미지 및 텍스트 정보의 입력으로 추출된 특징점은 융합되기 전 저 차원 공간으로 재구성될 수 있다. 이때, 사용되는 인코더는 및 디코더의 매개 변수는 재구성 오류를 최소화하도록 다음 수학식을 통해 연산될 수 있다.

[수학식 2]

수학식 2에서, n은 데이터 세트의 포인트 수이며,

은

번째 포인트이다. 여기서, 이미지 특징(

)에 대한 가중치(

)와 텍스트 임베딩(

)에 대한 가중치(

)로 저 차원 공간에서 재구성된 특성을 각각 학습할 수 있으며, 텍스트 인코더에 대해 이미지 재구성 손실(

)과 텍스트 재구성 손실(

)은 다음 수학식으로 표현될 수 있다.

[수학식 3]

도 3은 일 실시예에 따른 데이터 융합 알고리즘을 나타낸 모식도이다.

도 3에서 나타낸 바와 같이, 일 실시예에 따른 데이터 융합 알고리즘은 자기 교자부와 상호 교차 융합부(700)로 나뉜다.

자기 교차부(500)는 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하고, 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하며, 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성할 수 있다. 이때, 이미지 데이터와 텍스트 데이터의 노이즈(Noise)를 제거할 수 있다. 즉, 하나의 양식에는 정보가 없거나, 신뢰할 수 없는 정보를 제거하기 위해 복수의 입력 데이터를 벡터내적하여 오류를 제거할 수 있다.

여기서, 이미지 특정점에 대한 자기 교차 알고리즘은 다음 수학식으로 표현될 수 있다.

[수학식 4]

수학식 4에서,

는 이미지 특징점이고,

는

의 입력 데이터

,

가 자기 교차 알고리즘을 통해 도출된 이미지 정규화 데이터이다.

또한, 텍스트 특징점에 대한 자기 교차 알고리즘은 앞서 언급한 이미지 특징점의 자기 교차 알고리즘과 동일하게 수행될 수 있다. 즉,

는 텍스트 특징점이고,

는

의 입력 데이터

,

가 자기 교차 알고리즘을 통해 도출된 텍스트 정규화 데이터이다.

상호 교차 융합부(700)는 이미지 정규화 데이터와 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하고, 도출된 각각의 제2 이미지 결과 데이터와 텍스트 정규화 데이터 및 제2 텍스트 결과 데이터와 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합데이터를 생성할 수 있다.

여기서, 텍스트-이미지 융합 데이터를 생성하는 알고리즘은 다음 수학식으로 표현될 수 있다.

[수학식 5]

수학식 5에서,

는 이미지 정규화 데이터이고, h는 교차하는 데이터의 개수고, d는

,

의 차원이며, 이미지 교차주의 블록에서 학습할 매개 변수이다.

텍스트-이미지 융합 데이터는 앞서 상술한 알고리즘과 동일한 방법이 적용되며 이때, 텍스트 정규화 데이터는

이고,

,

는 텍스트 교차주의 블록에서 학습할 매개 변수이다.

상술한 상호 교차 융합 알고리즘으로 이미지에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트에 이미지가 융합된 텍스트-이미지 융합 데이터가 도출될 수 있다.

융합 데이터 도출부(900)는 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출할 수 있다.

즉, 융합데이터 도출부(900)는 상호 교차 융합부(700)의 블록에서 도출된 출력값으로 이미지와 텍스트를 공동으로 나타내는 융합된 데이터를 얻을 수 있으며, 이는 다음 수학식으로 표현될 수 있다.

[수학식 6]

수학식 6에서, z^*는 텍스트와 이미지가 융합된 최종 융합 데이터이고,

는 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 가중치이다.

도 4는 일 실시예에 따른 데이터 융합 방법을 나타낸 순서도이다.

도 4에서 나타낸 바와 같이, 일 실시예에 따른 데이터 융합 방법은 데이터 수신 단계(S100), 특징점 도출 단계(S200), 입력 데이터 생성 단계(S300), 제1 결과 데이터 도출 단계(S400), 정규화 데이터 생성 단계(S500), 제2 결과 데이터 도출 단계(S600), 상호 교차 융합 단계(S700), 및 융합 데이터 도출 단계(S800)를 포함할 수 있다.

데이터 수신 단계(S100)는 외부로부터 이미지 및 텍스트 정보를 수신할 수 있다.

특징점 도출 단계(S200)는 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출할 수 있다.

입력 데이터 생성 단계(S300)는 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성할 수 있다.

제1 결과 데이터 도출 단계(S400)는 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출할 수 있다.

정규화 데이터 생성 단계(S500)는 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성할 수 있다.

제2 결과 데이터 도출 단계(S600)는 이미지 정규화 데이터와 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출할 수 있다.

상호 교차 융합 단계(S700)는 도출된 각각의 제2 이미지 결과 데이터와 텍스트 정규화 데이터 및 제2 텍스트 결과 데이터와 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합데이터를 생성할 수 있다.

융합 데이터 도출 단계(S800)는 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출할 수 있다.

이상에서 대표적인 실시예를 통하여 본 발명을 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명한 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 특허청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다.

100: 데이터 수신부 300: 특징점 도출부
500: 자기 교차부 700: 상호 교차 융합부
900: 융합 데이터 도출부

Claims

외부로부터 이미지 및 텍스트 정보를 수신하는 데이터 수신부;
상기 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출하는 특징점 도출부;
상기 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하고, 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하며, 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 상기 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성하는 자기 교차부;
상기 이미지 정규화 데이터와 상기 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 상기 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하고, 도출된 각각의 상기 제2 이미지 결과 데이터와 상기 텍스트 정규화 데이터 및 상기 제2 텍스트 결과 데이터와 상기 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합 데이터를 생성하는 상호 교차 융합부; 및
상기 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출하는 융합 데이터 도출부를 포함하는 멀티모달 데이터 융합 시스템.
제1항에 있어서,
상기 자기 교차부는 상기 이미지 데이터와 텍스트 데이터에서 노이즈(Noise)를 제거하는 것을 특징으로 하는 멀티모달 데이터 융합 시스템.
삭제
외부로부터 이미지 및 텍스트 정보를 수신하는 데이터 수신 단계;
상기 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출하는 특징점 도출 단계;
상기 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하는 입력 데이터 생성 단계;
상기 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하는 제1 결과 데이터 도출 단계;
상기 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 상기 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성하는 정규화 단계;
상기 이미지 정규화 데이터와 상기 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하는 제2 결과 데이터 도출 단계;
상기 도출된 각각의 상기 제2 이미지 결과 데이터와 상기 텍스트 정규화 데이터 및 상기 제2 텍스트 결과 데이터와 상기 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합 데이터를 생성하는 상호 교차 융합 단계; 및
상기 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출하는 융합 데이터 도출 단계를 포함하는 멀티모달 데이터 융합 방법.