KR102279797B1 - 멀티모달 데이터 융합 시스템 및 방법 - Google Patents
멀티모달 데이터 융합 시스템 및 방법 Download PDFInfo
- Publication number
- KR102279797B1 KR102279797B1 KR1020210029317A KR20210029317A KR102279797B1 KR 102279797 B1 KR102279797 B1 KR 102279797B1 KR 1020210029317 A KR1020210029317 A KR 1020210029317A KR 20210029317 A KR20210029317 A KR 20210029317A KR 102279797 B1 KR102279797 B1 KR 102279797B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- text
- image
- fusion
- normalized
- Prior art date
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title abstract description 12
- 238000009795 derivation Methods 0.000 claims abstract description 13
- 238000009826 distribution Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 229940050561 matrix product Drugs 0.000 claims description 5
- 230000006870 function Effects 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 6
- 238000007500 overflow downdraw method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G06K9/46—
-
- G06K9/6267—
-
- G06T5/002—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 멀티모달 데이터 융합 시스템 및 방법에 관한 것으로, 데이터 수신부가 외부로부터 이미지 및 텍스트 정보를 수신하고, 특징점 도출부가 상기 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출하고, 자기 교차부가 상기 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하고, 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하며, 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 상기 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성하고, 상호 교차 융합부가 상기 이미지 정규화 데이터와 상기 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 상기 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하고, 도출된 각각의 상기 제2 이미지 결과 데이터와 상기 텍스트 정규화 데이터 및 상기 제2 텍스트 결과 데이터와 상기 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합 데이터를 생성하며, 융합 데이터 도출부가 상기 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출하는 융합 데이터 도출부를 포함하는 구성으로 서로 다른 양식을 가지는 이미지 및 텍스트 데이터에 대한 적절한 기능을 학습하여 잘못된 지식의 전달을 효과적으로 방지할 수 있다.
Description
본 발명은 멀티모달 데이터 융합 시스템 및 방법에 관한 것으로, 이미지와 텍스트의 멀티 모달 데이터를 융합할 수 있도록 한 기술에 관한 것이다.
데이터 수집 기술의 확장으로 다중 모드 데이터는 어플리케이션 엔지니어링에서 중요한 요소로 자리잡고 있다. 이러한 다중 모드 데이터는 웹상의 메시지에 텍스트 설명이 포함된 사진, 시각과 오디오 신호가 모두 포함된 비디오로 표현될 수 있다.
그러나, 이미지에 텍스트 설명이 포함된 데이터라고 하더라도 모델이 특정 유형의 데이터를 인식하여 학습하기에는 데이터 유형을 구분하는 지정된 데이터가 없기 때문에 구조화된 레이블을 획득할 수 없어 학습하기에 어려움이 있다.
이러한 문제를 해결하기 위한 한 가지 유형의 데이터만 클러스터링하는 방법,
딥러닝 기술을 이용한 이미지와 텍스트 데이터 융합 방법이 제기되었지만 그럼에도 불구하고 해결해야하는 과제가 남아있다.
먼저, 단일 모달 접근 방식은 텍스트를 무시하고 이미지만 클러스터링 하거나 한가지 유형의 데이터만 클러스터링하는 방식으로 연구 가치가 있었지만, 의미 있는 클러스터를 생성하지 못해 성능저하를 보이며, 캡션이 이미지의 내용을 완전히 설명하지 않아 잘못된 할당이 발생하는 문제가 있다.
최근 딥러닝 기술이 도입되면서 딥러닝을 이용한 데이터 표현을 자동으로 캡쳐 하면서 클러스터링 알고리즘을 개선된 이미지와 텍스트 융합 방법이 관심을 받아왔다.
그러나, 각각의 양식은 품질 차이 또는 상관 관계에도 불구하고 내장된 기능을 융합하기 전에 유사성 기여도를 갖거나 수동 계수를 곱하는 것으로 간주되어 클러스터링 단계에서 최적으로 통합된 표현을 얻는데 어려움이 있다.
따라서, 이를 해결하기 위한 텍스트와 이미지 기능을 융합하기 위한 다중 모드 융합 기술의 개발이 시급하다.
본 발명은, 서로 다른 양식을 가지는 이미지 및 텍스트 데이터에 대한 적절한 기능을 학습하여 잘못된 지식의 전달을 효과적으로 방지할 수 있는 멀티모달 데이터 융합 시스템 및 방법을 제공할 수 있다.
본 발명의 일 측면에 따른 멀티모달 데이터 융합 시스템은 외부로부터 이미지 및 텍스트 정보를 수신하는 데이터 수신부; 상기 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출하는 특징점 도출부; 상기 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하고, 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하며, 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 상기 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성하는 자기 교차부; 상기 이미지 정규화 데이터와 상기 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 상기 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하고, 도출된 각각의 상기 제2 이미지 결과 데이터와 상기 텍스트 정규화 데이터 및 상기 제2 텍스트 결과 데이터와 상기 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합 데이터를 생성하는 상호 교차 융합부; 및 상기 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출하는 융합 데이터 도출부를 포함한다.
바람직하게는, 상기 자기 교차부는 상기 이미지 데이터와 텍스트 데이터에서 노이즈(Noise)를 제거할 수 있다.
바람직하게는, 상기 융합 데이터 도출부는 이미지-텍스트 데이터와 텍스트-이미지 데이터의 오차를 최소화하도록 학습할 수 있다.
본 발명의 다른 측면에 따른 멀티모달 데이터 융합 방법은 외부로부터 이미지 및 텍스트 정보를 수신하는 데이터 수신 단계; 상기 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출하는 특징점 도출 단계; 상기 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하는 입력 데이터 생성 단계; 상기 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하는 제1 결과 데이터 도출 단계; 상기 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 상기 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성하는 정규화 단계; 상기 이미지 정규화 데이터와 상기 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하는 제2 결과 데이터 도출 단계; 상기 도출된 각각의 상기 제2 이미지 결과 데이터와 상기 텍스트 정규화 데이터 및 상기 제2 텍스트 결과 데이터와 상기 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합 데이터를 생성하는 상호 교차 융합 단계; 및 상기 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출하는 융합 데이터 도출 단계를 포함한다.
본 발명에 따르면, 이미지 표현과 텍스트 표현을 동시에 학습하고 융합함에 서로 다른 양식을 가지는 이미지 및 텍스트 데이터에 대한 적절한 기능을 학습하여 잘못된 지식의 전달을 효과적으로 방지할 수 있고, 이에 따라 공통 패턴에 대한 신뢰성을 향상시킬 수 있다.
도 1은 일 실시예에 따른 멀티모달 데이터 융합 시스템 장치의 구성도이다.
도 2는 일 실시예에 따른 멀티모달 데이터 융합 시스템의 전체 프로세스를 계략적으로 나타낸 모식도이다.
도 3은 일 실시예에 따른 데이터 융합 알고리즘을 나타낸 모식도이다.
도 4는 일 실시예에 따른 데이터 융합 방법을 나타낸 순서도이다.
도 2는 일 실시예에 따른 멀티모달 데이터 융합 시스템의 전체 프로세스를 계략적으로 나타낸 모식도이다.
도 3은 일 실시예에 따른 데이터 융합 알고리즘을 나타낸 모식도이다.
도 4는 일 실시예에 따른 데이터 융합 방법을 나타낸 순서도이다.
이하에서는 본 발명에 따른 멀티모달 데이터 융합 시스템 및 방법을 첨부된 도면들을 참조하여 상세하게 설명한다. 이러한 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로, 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명의 목적 및 효과는 하기의 설명에 의해서 자연스럽게 이해되거나 보다 분명해 질 수 있으며, 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.
도 1은 일 실시예에 따른 멀티모달 데이터 융합 시스템 장치의 구성도이다.
도 1에서 나타낸 바와 같이, 일 실시예에 따른 멀티모달 데이터 융합 시스템 장치의 구성은 데이터 수신부(100), 특징점 도출부(300), 자기 교차부(500), 상호 교차 융합부(700), 융합 데이터 도출부(900)를 포함할 수 있다.
도 2는 일 실시예에 따른 멀티모달 데이터 융합 시스템의 전체 프로세스를 계략적으로 나타낸 모식도이다.
도 2에서 나타낸 바와 같이, 일 실시예에 따른 멀티모달 데이터 융합 시스템의 프로세스는 외부로부터 이미지 및 텍스트 정보를 수신하고, 수신된 이미지 정보와 텍스트 정보에 대한 특징점을 도출한 다음, 도출된 이미지와 텍스트 특징점 각각에 대한 입력 데이터를 생성하고, 생성된 입력 데이터를 연산하여 정규화 데이터를 생성하며, 생성된 이미지 및 텍스트 정규화 데이터로 상호 융합된 융합 데이터를 생성한다. 마지막으로, 생성된 융합 데이터에 대한 임베디드 분포간의 쿨백 라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 학습 및 도출한다.
더욱 상세하게는, 일 실시예에 따른 멀티모달 데이터 융합 시스템 장치의 구성을 참고하여 설명하도록 한다.
데이터 수신부(100)는 외부로부터 이미지 및 텍스트 정보를 수신할 수 있다. 이때, 수신되는 이미지 및 텍스트 정보는 이미지 및 텍스트의 아날로그 정보 또는 디지털 정보일 수 있다. 텍스트 정보에서 모든 비 ASCII 문자, 구두점 및 특수 기호가 제거된 후 인코딩 프로세스 전에 소문자, 형태소 분석 및 형식화를 수행할 수 있다.
특징점 도출부(300)는 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출할 수 있다. 여기서, 이미지 정보에 대한 특징점은 ResNet-50 모델을 사용하여 224 x 224 픽셀의 2048차원의 이미지 특징을 추출할 수 있고, 텍스트 정보에 대한 특징점은 doc2vec을 사용하여 캡션을 삽입하고 300차원 텍스트 특징을 추출할 수 있다.
이때, 추출되는 이미지와 텍스트의 특징점은 인코더와 디코더를 통해 각 샘플의 잠재 특징을 찾는 것을 목표로 할 수 있다. 입력되는 이미지의 공간 구조를 활용하기 위해 Feedforward로 완전히 연결된 오토 인코더는 , 디코더는 으로 표현되는데 이는 다음 수학식으로 표현될 수 있다.
[수학식 1]
수학식 1에서, x와 z는 행렬이고, *는 행렬 곱셈 연산자이며, σ는 시그모이드 활성 함수이다. 이미지 및 텍스트 정보의 입력으로 추출된 특징점은 융합되기 전 저 차원 공간으로 재구성될 수 있다. 이때, 사용되는 인코더는 및 디코더의 매개 변수는 재구성 오류를 최소화하도록 다음 수학식을 통해 연산될 수 있다.
[수학식 2]
수학식 2에서, n은 데이터 세트의 포인트 수이며, 은 번째 포인트이다. 여기서, 이미지 특징()에 대한 가중치()와 텍스트 임베딩()에 대한 가중치()로 저 차원 공간에서 재구성된 특성을 각각 학습할 수 있으며, 텍스트 인코더에 대해 이미지 재구성 손실()과 텍스트 재구성 손실()은 다음 수학식으로 표현될 수 있다.
[수학식 3]
도 3은 일 실시예에 따른 데이터 융합 알고리즘을 나타낸 모식도이다.
도 3에서 나타낸 바와 같이, 일 실시예에 따른 데이터 융합 알고리즘은 자기 교자부와 상호 교차 융합부(700)로 나뉜다.
자기 교차부(500)는 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하고, 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하며, 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성할 수 있다. 이때, 이미지 데이터와 텍스트 데이터의 노이즈(Noise)를 제거할 수 있다. 즉, 하나의 양식에는 정보가 없거나, 신뢰할 수 없는 정보를 제거하기 위해 복수의 입력 데이터를 벡터내적하여 오류를 제거할 수 있다.
여기서, 이미지 특정점에 대한 자기 교차 알고리즘은 다음 수학식으로 표현될 수 있다.
[수학식 4]
또한, 텍스트 특징점에 대한 자기 교차 알고리즘은 앞서 언급한 이미지 특징점의 자기 교차 알고리즘과 동일하게 수행될 수 있다. 즉, 는 텍스트 특징점이고, 는 의 입력 데이터 , , 가 자기 교차 알고리즘을 통해 도출된 텍스트 정규화 데이터이다.
상호 교차 융합부(700)는 이미지 정규화 데이터와 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하고, 도출된 각각의 제2 이미지 결과 데이터와 텍스트 정규화 데이터 및 제2 텍스트 결과 데이터와 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합데이터를 생성할 수 있다.
여기서, 텍스트-이미지 융합 데이터를 생성하는 알고리즘은 다음 수학식으로 표현될 수 있다.
[수학식 5]
상술한 상호 교차 융합 알고리즘으로 이미지에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트에 이미지가 융합된 텍스트-이미지 융합 데이터가 도출될 수 있다.
융합 데이터 도출부(900)는 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출할 수 있다.
즉, 융합데이터 도출부(900)는 상호 교차 융합부(700)의 블록에서 도출된 출력값으로 이미지와 텍스트를 공동으로 나타내는 융합된 데이터를 얻을 수 있으며, 이는 다음 수학식으로 표현될 수 있다.
[수학식 6]
도 4는 일 실시예에 따른 데이터 융합 방법을 나타낸 순서도이다.
도 4에서 나타낸 바와 같이, 일 실시예에 따른 데이터 융합 방법은 데이터 수신 단계(S100), 특징점 도출 단계(S200), 입력 데이터 생성 단계(S300), 제1 결과 데이터 도출 단계(S400), 정규화 데이터 생성 단계(S500), 제2 결과 데이터 도출 단계(S600), 상호 교차 융합 단계(S700), 및 융합 데이터 도출 단계(S800)를 포함할 수 있다.
데이터 수신 단계(S100)는 외부로부터 이미지 및 텍스트 정보를 수신할 수 있다.
특징점 도출 단계(S200)는 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출할 수 있다.
입력 데이터 생성 단계(S300)는 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성할 수 있다.
제1 결과 데이터 도출 단계(S400)는 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출할 수 있다.
정규화 데이터 생성 단계(S500)는 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성할 수 있다.
제2 결과 데이터 도출 단계(S600)는 이미지 정규화 데이터와 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출할 수 있다.
상호 교차 융합 단계(S700)는 도출된 각각의 제2 이미지 결과 데이터와 텍스트 정규화 데이터 및 제2 텍스트 결과 데이터와 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합데이터를 생성할 수 있다.
융합 데이터 도출 단계(S800)는 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출할 수 있다.
이상에서 대표적인 실시예를 통하여 본 발명을 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명한 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 특허청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다.
100: 데이터 수신부 300: 특징점 도출부
500: 자기 교차부 700: 상호 교차 융합부
900: 융합 데이터 도출부
500: 자기 교차부 700: 상호 교차 융합부
900: 융합 데이터 도출부
Claims (4)
- 외부로부터 이미지 및 텍스트 정보를 수신하는 데이터 수신부;
상기 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출하는 특징점 도출부;
상기 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하고, 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하며, 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 상기 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성하는 자기 교차부;
상기 이미지 정규화 데이터와 상기 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 상기 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하고, 도출된 각각의 상기 제2 이미지 결과 데이터와 상기 텍스트 정규화 데이터 및 상기 제2 텍스트 결과 데이터와 상기 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합 데이터를 생성하는 상호 교차 융합부; 및
상기 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출하는 융합 데이터 도출부를 포함하는 멀티모달 데이터 융합 시스템.
- 제1항에 있어서,
상기 자기 교차부는 상기 이미지 데이터와 텍스트 데이터에서 노이즈(Noise)를 제거하는 것을 특징으로 하는 멀티모달 데이터 융합 시스템.
- 삭제
- 외부로부터 이미지 및 텍스트 정보를 수신하는 데이터 수신 단계;
상기 수신된 이미지 정보에 대한 특징점과 텍스트 정보에 대한 특징점을 각각 도출하는 특징점 도출 단계;
상기 도출된 각각의 특징점으로 이미지 데이터와 텍스트 데이터 각각에 대하여 적어도 하나의 이미지 입력 데이터와 텍스트 입력 데이터를 생성하는 입력 데이터 생성 단계;
상기 생성된 적어도 하나의 이미지 입력 데이터 또는 텍스트 입력 데이터에 대해 각각의 입력 데이터를 벡터내적한 다음, 소프트맥스(Softmax) 함수로 연산하여 연산된 값 중 가장 큰 값의 제1 이미지 결과 데이터와 제1 텍스트 결과 데이터를 도출하는 제1 결과 데이터 도출 단계;
상기 도출된 제1 이미지 결과 데이터와 이미지 입력 데이터 및 제1 텍스트 결과 데이터와 텍스트 입력 데이터를 벡터내적하여 상기 이미지 및 텍스트 데이터가 정규화된 이미지 정규화 데이터와 텍스트 정규화 데이터를 생성하는 정규화 단계;
상기 이미지 정규화 데이터와 상기 텍스트 정규화 데이터 각각을 복제하여 적어도 하나의 이미지 복제 데이터와 텍스트 복제 데이터를 생성하고, 생성된 적어도 하나의 이미지 복제 데이터 및 텍스트 복제 데이터 각각을 행렬곱으로 연산하고, 연산된 데이터의 값이 너무 크거나 작은 값들을 제거하도록 스케일링 한 다음, 소프트맥스 함수로 연산하여 연산된 값 중 가장 큰 값의 제2 이미지 결과 데이터와 제2 텍스트 결과 데이터를 도출하는 제2 결과 데이터 도출 단계;
상기 도출된 각각의 상기 제2 이미지 결과 데이터와 상기 텍스트 정규화 데이터 및 상기 제2 텍스트 결과 데이터와 상기 이미지 정규화 데이터를 행렬곱으로 연산하여 이미지 데이터에 텍스트 데이터가 융합된 이미지-텍스트 융합 데이터와 텍스트 데이터에 이미지 데이터가 융합된 텍스트-이미지 융합 데이터를 생성하는 상호 교차 융합 단계; 및
상기 이미지-텍스트 융합 데이터와 텍스트-이미지 융합 데이터에 대한 임베디드 분포 간의 쿨백-라이블러 발산(Kullback Leibler divergence)을 최소화하여 최종 융합 데이터를 도출하는 융합 데이터 도출 단계를 포함하는 멀티모달 데이터 융합 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210029317A KR102279797B1 (ko) | 2021-03-05 | 2021-03-05 | 멀티모달 데이터 융합 시스템 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210029317A KR102279797B1 (ko) | 2021-03-05 | 2021-03-05 | 멀티모달 데이터 융합 시스템 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102279797B1 true KR102279797B1 (ko) | 2021-07-21 |
Family
ID=77143632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210029317A KR102279797B1 (ko) | 2021-03-05 | 2021-03-05 | 멀티모달 데이터 융합 시스템 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102279797B1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023128432A1 (ko) * | 2021-12-29 | 2023-07-06 | 삼성전자 주식회사 | 상품을 인식하는 방법 및 전자 장치 |
KR20230128812A (ko) | 2022-02-28 | 2023-09-05 | 전남대학교산학협력단 | 교차 모달 학습 기반의 감정 추론 시스템 및 방법 |
WO2023201990A1 (zh) * | 2022-04-19 | 2023-10-26 | 苏州浪潮智能科技有限公司 | 一种视觉定位方法、装置、设备及介质 |
KR102622435B1 (ko) * | 2023-04-11 | 2024-01-08 | 고려대학교산학협력단 | 텍스트를 활용한 도메인 비특이적인 이미지 분류 장치 및 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080051479A (ko) * | 2006-12-05 | 2008-06-11 | 한국전자통신연구원 | 멀티모달 융합 처리 방법 및 그 장치 |
KR20080069887A (ko) * | 2007-01-24 | 2008-07-29 | 퍼듀 리서치 파운데이션 | 이미지 처리장치 및 그 이미지 처리방법 |
KR20120134965A (ko) * | 2011-06-04 | 2012-12-12 | 제노젠(주) | 멀티모달 입력장치를 이용한 인터액션 방법 |
KR20180101959A (ko) * | 2017-03-06 | 2018-09-14 | 서강대학교산학협력단 | 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템 |
KR20190002328A (ko) * | 2017-06-29 | 2019-01-08 | 삼성전자주식회사 | 문서 이미지의 텍스트와 도형을 분리하는 방법 및 장치 |
KR20200098379A (ko) * | 2019-02-12 | 2020-08-20 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체 |
-
2021
- 2021-03-05 KR KR1020210029317A patent/KR102279797B1/ko active IP Right Grant
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080051479A (ko) * | 2006-12-05 | 2008-06-11 | 한국전자통신연구원 | 멀티모달 융합 처리 방법 및 그 장치 |
KR20080069887A (ko) * | 2007-01-24 | 2008-07-29 | 퍼듀 리서치 파운데이션 | 이미지 처리장치 및 그 이미지 처리방법 |
KR20120134965A (ko) * | 2011-06-04 | 2012-12-12 | 제노젠(주) | 멀티모달 입력장치를 이용한 인터액션 방법 |
KR20180101959A (ko) * | 2017-03-06 | 2018-09-14 | 서강대학교산학협력단 | 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템 |
KR20190002328A (ko) * | 2017-06-29 | 2019-01-08 | 삼성전자주식회사 | 문서 이미지의 텍스트와 도형을 분리하는 방법 및 장치 |
KR20200098379A (ko) * | 2019-02-12 | 2020-08-20 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체 |
JP2020135852A (ja) * | 2019-02-12 | 2020-08-31 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 画像に基づくデータ処理方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム |
Non-Patent Citations (2)
Title |
---|
Jeong, Jong-Mun, Hyung-Jeong Yang, and Sun-Hee Kim. "Multi-modal sense based interface for augmented reality in table top display." Journal of Korea Multimedia Society 12.5 (2009) * |
Lahat, Dana, Tülay Adali, and Christian Jutten. "Multimodal data fusion: an overview of methods, challenges, and prospects." Proceedings of the IEEE 103.9 (2015) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023128432A1 (ko) * | 2021-12-29 | 2023-07-06 | 삼성전자 주식회사 | 상품을 인식하는 방법 및 전자 장치 |
KR20230128812A (ko) | 2022-02-28 | 2023-09-05 | 전남대학교산학협력단 | 교차 모달 학습 기반의 감정 추론 시스템 및 방법 |
WO2023201990A1 (zh) * | 2022-04-19 | 2023-10-26 | 苏州浪潮智能科技有限公司 | 一种视觉定位方法、装置、设备及介质 |
KR102622435B1 (ko) * | 2023-04-11 | 2024-01-08 | 고려대학교산학협력단 | 텍스트를 활용한 도메인 비특이적인 이미지 분류 장치 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102279797B1 (ko) | 멀티모달 데이터 융합 시스템 및 방법 | |
Zhang et al. | Uncertainty inspired RGB-D saliency detection | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN110544275B (zh) | 生成配准的带病灶分割标签的多模态mri的方法、系统及介质 | |
CN100448257C (zh) | 图像处理装置及其方法 | |
Zhang et al. | Viscode: Embedding information in visualization images using encoder-decoder network | |
CN115311720B (zh) | 一种基于Transformer的deepfake生成方法 | |
CN112070114B (zh) | 基于高斯约束注意力机制网络的场景文字识别方法及系统 | |
CN111242829A (zh) | 一种水印提取方法、装置、设备及存储介质 | |
CN113052759B (zh) | 基于mask和自动编码器的场景复杂文本图像编辑方法 | |
CN112733861B (zh) | 基于u型残差网络的文本擦除和抠字方法 | |
Kawabe et al. | Application of deep learning to classification of braille dot for restoration of old braille books | |
CN117292020A (zh) | 图像生成方法、装置、电子设备及存储介质 | |
CN110889276B (zh) | 复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
KR20230038164A (ko) | 신경망 기반의 특징점 학습 장치 및 방법 | |
CN116402067A (zh) | 面向多语种文字风格保持的跨语言自监督生成方法 | |
CN113554549B (zh) | 文本图像的生成方法、装置、计算机设备和存储介质 | |
CN115454554A (zh) | 文本描述的生成方法、装置、终端及存储介质 | |
CN114913516A (zh) | 一种烟草零售许可证的识别方法及系统 | |
CN108108794B (zh) | 一种基于二维码图像隐藏的可视化信息增强方法和系统 | |
CN115053263A (zh) | 使用人工智能的虚拟脸部生成方法及装置 | |
CN113744158A (zh) | 图像生成方法、装置、电子设备和存储介质 | |
CN114025165B (zh) | 一种人脸识别精度保持的图像压缩方法以及系统 | |
US20240169701A1 (en) | Affordance-based reposing of an object in a scene |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |