KR20220109118A

KR20220109118A - 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템 및 방법

Info

Publication number: KR20220109118A
Application number: KR1020210012401A
Authority: KR
Inventors: 김남규; 김태진; 김무성
Original assignee: 국민대학교산학협력단
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2022-08-04
Also published as: KR102649947B1

Abstract

본 발명은 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템 및 방법에 관한 것으로, 상기 시스템은 이미지와 텍스트 쌍의 통합 데이터를 사전 학습하여 임베딩 모델을 구축하는 임베딩 모델 구축부; 상기 임베딩 모델을 기초로 이미지와 텍스트 쌍의 특정 입력에 대한 정보량을 산출하는 정보량 산출부; 상기 정보량을 기초로 상기 특정 입력에서 이미지와 텍스트 차원의 고유 정보를 추출하고 각각 독립적으로 학습하는 고유 정보 학습부; 및 상기 독립적으로 학습된 결과에 따라 이미지와 텍스트의 고유 정보를 각각 벡터화하고 상호 융합하여 상기 특정 입력에 대한 심층 상황벡터를 생성하는 심층 상황벡터 생성부를 포함한다.

Description

이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템 및 방법{SYSTEM AND METHOD OF UNDERSTANDING DEEP CONTEXT USING IMAGE AND TEXT DEEP LEARNING}

본 발명은 심층 상황 이해를 위한 통합 딥러닝 기술에 관한 것으로, 보다 상세하게는 이미지와 텍스트 데이터의 고유한 정보를 함께 사용하여 상황을 좀 더 깊게 이해할 수 있는 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템 및 방법에 관한 것이다.

이미지와 같은 시각 정보에는 직관적이고 사실적인 정보가 내포되어 있으며, 인간은 눈을 통해 시각 정보를 순식간에 처리하고 해석할 수 있다. 최근 인공지능 기술의 발전으로 이러한 시각 정보의 편의성을 다양한 분야에서 활용하려는 시도가 꾸준히 증가하고 있다.

하지만 이미지 데이터만을 활용할 경우, 시각적으로 표현되지 않는 정보(맛, 향기, 소리, 온도 과거의 상태 등)를 제대로 나타내고 이해하기 어렵다는 한계를 갖는다.

반면 텍스트 데이터는 이미지를 통해 시각적으로 표현할 수 없는 다양한 정보를 표현할 수 있다. 하지만 반대로 텍스트 데이터는 이미지 데이터를 통해 손쉽게 표현할 수 있는 시각적인 정보를 충분히 자세하게 표현하기 어렵다는 한계를 갖는다.

예를 들어, '사과'와 '피망'이라는 단어를 사용하지 않고 두 객체를 구분하여 설명하는 경우를 생각해 보자. '빨갛고 동그란 형태이며 윗 부분에 초록색이 연결되어 있음' 정도의 설명으로는 두 객체를 구분하기 어려울 것이다. 이는 텍스트 데이터만을 사용하여 시각적 정보를 표현하는 방식의 한계를 나타낸다.

이처럼 이미지 혹은 텍스트 데이터가 단일로 활용될 경우 여러 한계를 지니고 있으며, 특히 어떠한 상황에 대한 심층적 이해가 필요한 상황에서는 그 단점이 더 크게 부각될 수 있다.

한국공개특허 제 10-2018-0101959호 (2018.09.14)호

본 발명의 일 실시예는 이미지와 텍스트 데이터의 고유한 정보를 함께 사용하여 상황을 좀 더 깊게 이해할 수 있는 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템 및 방법을 제공하고자 한다.

본 발명의 일 실시예는 이미지와 텍스트의 고유 정보를 활용하여 이미지 혹은 텍스트의 단일 데이터만 사용했을 때보다 훨씬 유사한 상황을 찾아서 제공할 수 있는 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템 및 방법을 제공하고자 한다.

실시예들 중에서, 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템은 이미지와 텍스트 쌍의 통합 데이터를 사전 학습하여 임베딩 모델을 구축하는 임베딩 모델 구축부; 상기 임베딩 모델을 기초로 이미지와 텍스트 쌍의 특정 입력에 대한 정보량을 산출하는 정보량 산출부; 상기 정보량을 기초로 상기 특정 입력에서 이미지와 텍스트 차원의 고유 정보를 추출하고 각각 독립적으로 학습하는 고유 정보 학습부; 및 상기 독립적으로 학습된 결과에 따라 이미지와 텍스트의 고유 정보를 각각 벡터화하고 상호 융합하여 상기 특정 입력에 대한 심층 상황벡터를 생성하는 심층 상황벡터 생성부를 포함한다.

상기 임베딩 모델은 상기 통합 데이터의 이미지와 텍스트를 동일 공간으로 사상(mapping)시키는 학습 모델로서 해당 이미지와 텍스트 각각을 벡터화 할 수 있다.

상기 임베딩 모델은 이미지와 텍스트 각각이 표현하는 상황이 유사할수록 상기 벡터화 되는 이미지 벡터와 텍스트 벡터 간의 유사도가 증가하는 방향으로 학습될 수 있다.

상기 정보량 산출부는 상기 특정 입력에 대해 상기 임베딩 모델을 적용하여 이미지 벡터와 텍스트 벡터를 각각 생성하고 해당 이미지 벡터와 해당 텍스트 벡터 간의 유사도를 기초로 상기 정보량을 산출할 수 있다.

상기 정보량 산출부는 상기 해당 이미지 벡터와 상기 해당 텍스트 벡터를 기초로 어텐션 스코어(Attention Score)를 산출하여 상기 유사도로 사용할 수 있다.

상기 정보량 산출부는 기준값과 상기 유사도 간의 차이로서 상기 정보량을 산출할 수 있다.

상기 고유 정보 학습부는 상기 해당 텍스트 벡터에 상기 정보량을 적용하여 가중 텍스트 벡터를 생성하고 상기 해당 이미지 벡터와 상기 가중 텍스트 벡터를 상기 고유 정보로서 학습할 수 있다.

상기 고유 정보 학습부는 상기 해당 텍스트 벡터가 복수인 경우 각 텍스트 벡터마다 해당 정보량에 비례하는 정보 가중치를 곱함으로써 상기 가중 텍스트 벡터를 생성할 수 있다.

상기 심층 상황벡터 생성부는 상기 벡터화의 결과로 생성된 고유 벡터들을 순차로 연결(concatenation)하여 상기 심층 상황벡터를 생성할 수 있다.

실시예들 중에서, 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 방법은 이미지와 텍스트 쌍의 통합 데이터를 사전 학습하여 임베딩 모델을 구축하는 단계; 상기 임베딩 모델을 기초로 이미지와 텍스트 쌍의 특정 입력에 대한 정보량을 산출하는 단계; 상기 정보량을 기초로 상기 특정 입력에서 이미지와 텍스트 차원의 고유 정보를 추출하고 각각 독립적으로 학습하는 단계; 및 상기 독립적으로 학습된 결과에 따라 이미지와 텍스트의 고유 정보를 각각 벡터화하고 상호 융합하여 상기 특정 입력에 대한 심층 상황벡터를 생성하는 단계를 포함한다.

상기 정보량을 산출하는 단계는 상기 특정 입력에 대해 상기 임베딩 모델을 적용하여 이미지 벡터와 텍스트 벡터를 각각 생성하고 해당 이미지 벡터와 해당 텍스트 벡터 간의 유사도를 기초로 상기 정보량을 산출하는 단계를 포함한다.

상기 정보량을 산출하는 단계는 기준값과 상기 유사도 간의 차이로서 상기 정보량을 산출하는 단계를 포함한다.

상기 독립적으로 학습하는 단계는 상기 해당 텍스트 벡터에 상기 정보량을 적용하여 가중 텍스트 벡터를 생성하고 상기 해당 이미지 벡터와 상기 가중 텍스트 벡터를 상기 고유 정보로서 학습하는 단계를 포함한다.

상기 심층 상황벡터를 생성하는 단계는 상기 벡터화의 결과로 생성된 고유 벡터들을 순차로 연결(concatenation)하여 상기 심층 상황벡터를 생성하는 단계를 포함한다.

개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명의 일 실시예에 따른 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템 및 방법은 이미지와 텍스트 데이터의 고유한 정보를 함께 사용하여 상황을 좀 더 깊게 이해할 수 있다.

본 발명의 일 실시예에 따른 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템 및 방법은 이미지와 텍스트의 고유 정보를 활용하여 이미지 혹은 텍스트의 단일 데이터만 사용했을 때보다 훨씬 유사한 상황을 찾아서 제공할 수 있다.

도 1은 본 발명에 따른 심층 상황 이해 시스템의 일 실시예를 설명하는 도면이다.
도 2는 도 1의 심층 상황 이해 장치의 시스템 구성을 설명하는 도면이다.
도 3은 도 1의 심층 상황 이해 장치의 기능적 구성을 나타내는 도면이다.
도 4는 본 발명에 따른 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 방법을 설명하는 순서도이다.
도 5는 본 발명에 따른 심층 상황 이해 시스템의 동작 과정을 설명하는 도면이다.
도 6은 통합된 사전학습 임베딩 모델을 설명하는 도면이다.
도 7은 이미지 기반 텍스트 벡터의 가중화 동작을 설명하는 도면이다.
도 8은 가중된 문서 임베딩 과정을 설명하는 도면이다.
도 9 내지 11은 본 발명에 따른 심층 상황 이해의 다양한 사례들을 설명하는 도면이다.

본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

도 1은 본 발명에 따른 심층 상황 이해 시스템의 일 실시예를 설명하는 도면이다.

도 1을 참조하면, 심층 상황 이해 시스템(100)은 사용자 단말(110), 심층 상황 이해 장치(130) 및 데이터베이스(150)를 포함할 수 있다.

사용자 단말(110)은 이미지와 텍스트를 입력하고 심층 상황 이해를 기반으로 검색, 분류 등에 관한 태스크(task)의 결과를 확인할 수 있는 컴퓨팅 장치에 해당할 수 있다. 즉, 사용자 단말(110)은 심층 상황 이해 장치(130)와의 연동을 기반으로 다양한 분야에서 소정의 목적 달성을 위한 수단으로서 사용되는 장치에 해당할 수 있다. 예를 들어, 사용자 단말(110)은 심층 상황 이해 장치(130)와 연결되어 동작하는 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 다양한 디바이스로도 구현될 수 있다.

또한, 사용자 단말(110)은 심층 상황 이해 장치(130)와 네트워크를 통해 연결될 수 있고, 복수의 사용자 단말(110)들은 심층 상황 이해 장치(130)와 동시에 연결될 수 있다. 또한, 사용자 단말(110)은 심층 상황 이해 시스템(100)에 접근하여 소정의 서비스를 이용할 수 있는 전용 프로그램 또는 어플리케이션을 설치하여 실행할 수 있다.

심층 상황 이해 장치(130)는 이미지와 텍스트의 통합 데이터를 기반으로 심층 상황 이해를 위한 통합된 상황벡터를 생성할 수 있는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 심층 상황 이해 장치(130)는 사용자 단말(110)과 유선 네트워크 또는 블루투스, WiFi 등과 같은 무선 네트워크로 연결될 수 있고, 네트워크를 통해 사용자 단말(110)과 데이터를 송·수신할 수 있다. 또한, 심층 상황 이해 장치(130)는 데이터의 수집 또는 추가 기능의 제공을 위하여 별도의 외부 시스템(도 1에 미도시함)과 연동하여 동작하도록 구현될 수도 있다.

일 실시예에서, 심층 상황 이해 장치(130)는 본 발명에 적용되는 다양한 딥러닝 모델을 포함하여 구현될 수 있다. 또한, 심층 상황 이해 장치(130)는 딥러닝 모델의 구축을 독립적으로 수행하는 딥러닝 장치를 포함하여 구현될 수 있다.

데이터베이스(150)는 심층 상황 이해 장치(130)의 동작 과정에서 필요한 다양한 정보들을 저장하는 저장장치에 해당할 수 있다. 예를 들어, 데이터베이스(150)는 이미지와 텍스트 쌍의 통합 데이터를 저장할 수 있고, 딥러닝을 통해 구축된 다양한 학습 모델들에 관한 정보를 저장할 수 있으며, 반드시 이에 한정되지 않고, 심층 상황 이해 장치(130)가 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다.

한편, 도 1에서, 데이터베이스(150)는 심층 상황 이해 장치(130)와 독립적인 장치로서 도시되어 있으나, 반드시 이에 한정되지 않고, 심층 상황 이해 장치(130)의 논리적인 저장장치로서 심층 상황 이해 장치(130)에 포함되어 구현될 수 있음은 물론이다.

도 2는 도 1의 심층 상황 이해 장치의 시스템 구성을 설명하는 도면이다.

도 2를 참조하면, 심층 상황 이해 장치(130)는 프로세서(210), 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)를 포함하여 구현될 수 있다.

프로세서(210)는 심층 상황 이해 장치(130)가 동작하는 과정에서의 각 단계들을 처리하는 프로시저를 실행할 수 있고, 그 과정 전반에서 읽혀지거나 작성되는 메모리(230)를 관리할 수 있으며, 메모리(230)에 있는 휘발성 메모리와 비휘발성 메모리 간의 동기화 시간을 스케줄할 수 있다. 프로세서(210)는 심층 상황 이해 장치(130)의 동작 전반을 제어할 수 있고, 메모리(230), 사용자 입출력부(250) 및 네트워크 입출력부(270)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다. 프로세서(210)는 심층 상황 이해 장치(130)의 CPU(Central Processing Unit)로 구현될 수 있다.

메모리(230)는 SSD(Solid State Drive) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현되어 심층 상황 이해 장치(130)에 필요한 데이터 전반을 저장하는데 사용되는 보조기억장치를 포함할 수 있고, RAM(Random Access Memory)과 같은 휘발성 메모리로 구현된 주기억장치를 포함할 수 있다.

사용자 입출력부(250)는 사용자 입력을 수신하기 위한 환경 및 사용자에게 특정 정보를 출력하기 위한 환경을 포함할 수 있다. 예를 들어, 사용자 입출력부(250)는 터치 패드, 터치 스크린, 화상 키보드 또는 포인팅 장치와 같은 어댑터를 포함하는 입력장치 및 모니터 또는 터치스크린과 같은 어댑터를 포함하는 출력장치를 포함할 수 있다. 일 실시예에서, 사용자 입출력부(250)는 원격 접속을 통해 접속되는 컴퓨팅 장치에 해당할 수 있고, 그러한 경우, 심층 상황 이해 장치(130)는 독립적인 서버로서 수행될 수 있다.

네트워크 입출력부(270)은 네트워크를 통해 외부 장치 또는 시스템과 연결하기 위한 환경을 포함하고, 예를 들어, LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 VAN(Value Added Network) 등의 통신을 위한 어댑터를 포함할 수 있다.

도 3은 도 1의 심층 상황 이해 장치의 기능적 구성을 나타내는 도면이다.

도 3을 참조하면, 심층 상황 이해 장치(130)는 임베딩 모델 구축부(310), 정보량 산출부(330), 고유 정보 학습부(350), 심층 상황벡터 생성부(370) 및 제어부(390)를 포함할 수 있다.

임베딩 모델 구축부(310)는 이미지와 텍스트 쌍의 통합 데이터를 사전 학습하여 임베딩 모델을 구축할 수 있다. 여기에서, 임베딩 모델은 통합 데이터의 이미지와 텍스트를 동일 공간으로 사상(mapping)시키는 학습 모델로서 해당 이미지와 텍스트 각각을 벡터화 할 수 있다. 즉, 구축된 임베딩 모델에 이미지와 텍스트 쌍으로 구성된 데이터를 입력하면 해당 이미지와 텍스트 각각에 대응되는 이미지 벡터와 텍스트 벡터가 생성될 수 있다. 이때, 텍스트는 복수의 단어(word)들로 구성될 수 있으며, 복수의 단어들은 하나의 문장을 형성할 수 있다. 또한, 텍스트는 적어도 하나의 문장(sentence)으로 구성될 수 있으며, 예를 들어, 문서(document)에 해당할 수 있다.

또한, 임베딩 모델은 이미지와 텍스트 각각이 표현하는 상황이 유사할수록 벡터화 되는 이미지 벡터와 텍스트 벡터 간의 유사도가 증가하는 방향으로 학습될 수 있다. 예를 들어, 임베딩 모델은 '사과'라는 텍스트가 '사과' 이미지와 유사한 벡터를 갖도록 학습될 수 있다. 임베딩 모델은 이미지와 텍스트 쌍으로 구성된 통합 데이터 모집단을 기초로 임베딩 모델 구축부(310)에 의해 사전에 구축될 수 있으며, 구축된 임베딩 모델은 정보량 산출과 고유 정보 학습을 위한 벡터들을 생성하는데 활용될 수 있다. 임베딩 모델에 대해서는 도 6에서 추가적으로 설명한다.

정보량 산출부(330)는 임베딩 모델을 기초로 이미지와 텍스트 쌍의 특정 입력에 대한 정보량을 산출할 수 있다. 여기에서, 정보량은 이미지로 설명하지 못하는 정보 중 텍스트를 통해 추가로 설명되는 정보의 양을 의미하며, 이미지와 텍스트 통합 사전학습 임베딩 모델을 통해 추출된 텍스트와 이미지 벡터를 상호 비교한 결과로서 산출될 수 있다. 보다 구체적으로, 이미지에 포함된 정보와 텍스트에 포함된 정보가 유사할수록 정보량은 0에 가까워질 수 있다.

일 실시예에서, 정보량 산출부(330)는 특정 입력에 대해 임베딩 모델을 적용하여 이미지 벡터와 텍스트 벡터를 각각 생성하고 해당 이미지 벡터와 해당 텍스트 벡터 간의 유사도를 기초로 정보량을 산출할 수 있다. 즉, 정보량 산출부(330)는 단순하게 벡터 간의 유사도 비교를 통해 정보량을 산출할 수 있으며, 정보량 산출에 사용되는 이미지 벡터와 텍스트 벡터는 기 구축된 임베딩 모델의 출력으로 획득할 수 있다.

일 실시예에서, 정보량 산출부(330)는 해당 이미지 벡터와 해당 텍스트 벡터를 기초로 어텐션 스코어(Attention Score)를 산출하여 유사도로 사용할 수 있다. 즉, 단순 벡터들 간의 유사도 비교 방법의 대안으로서 어텐션 스코어를 계산하여 정보량을 산출하는 방법이 적용될 수 있다. 어텐션 스코어는 벡터 간의 유사도에 관한 어텐션 함수(또는 어텐션 스코어 함수)를 통해 산출될 수 있다. 한편, 정보량 산출부(330)는 임베딩 모델이 출력한 이미지 벡터와 텍스트 벡터를 기초로 다양한 방법을 통해 정보량을 산출할 수 있다.

일 실시예에서, 정보량 산출부(330)는 기준값과 유사도 간의 차이로서 정보량을 산출할 수 있다. 예를 들어, 정보량은 '1 - 유사도'로 정의될 수 있다. 정보량 산출부(330)는 이미지 벡터와 텍스트 벡터 간의 유사도가 높을수록 특정 상황을 표현하는 공통 정보가 많은 것으로 해석하여, 기준값에서 유사도를 뺀 값으로 정의되는 정보량을 통해 텍스트가 가진 고유 정보의 양을 표현할 수 있다.

고유 정보 학습부(350)는 정보량을 기초로 특정 입력에서 이미지와 텍스트 차원의 고유 정보를 추출하고 각각 독립적으로 학습할 수 있다. 고유 정보 학습부(350)는 이미지와 텍스트가 가진 고유 정보를 독립적을 학습하는 동작을 수행할 수 있으며, 이를 위해 이미지와 텍스트 각각에 대한 학습 모델을 독립적으로 구축할 수 있다. 고유 정보 학습부(350)에 의해 구축되는 학습 모델은 이미지와 텍스트 각각에 대해 고유 정보가 강조되는 형태의 특징 벡터를 출력으로 생성할 수 있다.

또한, 고유 정보 학습부(350)는 이미지 벡터와 텍스트 벡터 각각에 대한 학습을 위해 학습 알고리즘을 개별적으로 사용할 수 있다. 예를 들어, 이미지 벡터의 학습을 위해 CNN(Convolution Neural Network) 모델이 사용될 수 있고, 텍스트 벡터의 학습을 위해 HAN(Hierarchical Attention Network) 모델이 사용될 수 있으며, 반드시 이에 한정되지 않고 다양한 학습 알고리즘을 선택적으로 사용하여 각 벡터에 대한 학습을 수행할 수 있음은 물론이다.

일 실시예에서, 고유 정보 학습부(350)는 해당 텍스트 벡터에 정보량을 적용하여 가중 텍스트 벡터를 생성하고 해당 이미지 벡터와 가중 텍스트 벡터를 고유 정보로서 학습할 수 있다. 고유 정보 학습부(350)는 정보량 산출부(330)에 의해 산출된 정보량을 텍스트 벡터에 대한 가중치로 활용할 수 있다. 즉, 가중 텍스트 벡터는 텍스트 벡터에 정보량에 대한 정보 가중치가 적용된 결과에 해당할 수 있으며, 이미지로 설명하지 못하는 정보 중 텍스트로 설명 가능한 정보가 상대적으로 강조되어 변환된 벡터에 해당할 수 있다.

일 실시예에서, 고유 정보 학습부(350)는 해당 텍스트 벡터가 복수인 경우 각 텍스트 벡터마다 해당 정보량에 비례하는 정보 가중치를 곱함으로써 가중 텍스트 벡터를 생성할 수 있다. 이미지와 함께 입력되는 텍스트는 하나의 문장에 해당하거나 또는 복수의 문장들로 구성된 문서(document)에 해당할 수도 있다. 해당 텍스트 벡터가 복수인 경우 각 텍스트 벡터마다 정보량에 따른 정보 가중치가 곱 연산으로 적용될 수 있다. 이때, 이미지 벡터를 기준으로 각 텍스트 벡터의 정보량이 산출될 수 있고, 정보량에 따른 정보 가중치가 텍스트 벡터마다 적용될 수 있다. 고유 정보 학습부(350)는 가중화된 텍스트 벡터들을 학습 모델의 입력을 사용하여 텍스트의 고유 정보에 관한 학습을 수행할 수 있다.

심층 상황벡터 생성부(370)는 독립적으로 학습된 결과에 따라 이미지와 텍스트의 고유 정보를 각각 벡터화하고 상호 융합하여 특정 입력에 대한 심층 상황벡터를 생성할 수 있다. 즉, 심층 상황벡터는 특정 상황을 표현하는 이미지와 텍스트 정보가 하나로 통합되어 벡터화된 결과에 해당할 수 있다.

일 실시예에서, 심층 상황벡터 생성부(370)는 벡터화의 결과로 생성된 고유 벡터들을 순차로 연결(concatenation)하여 심층 상황벡터를 생성할 수 있다. 즉, 이미지 데이터의 고유 정보를 학습한 모델과 텍스트 데이터의 고유 정보를 학습한 모델을 통해 산출된 각각의 벡터를 순차적으로 이어 붙인 결과 심층 상황벡터가 생성될 수 있으며, 유사 상황 검색, 분류 등의 태스크(task)에 심층 상황벡터가 활용될 수 있다.

제어부(390)는 심층 상황 이해 장치(130)의 전체적인 동작을 제어하고, 임베딩 모델 구축부(310), 정보량 산출부(330), 고유 정보 학습부(350) 및 심층 상황벡터 생성부(370) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.

도 4는 본 발명에 따른 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 방법을 설명하는 순서도이다.

도 4를 참조하면, 심층 상황 이해 장치(130)는 임베딩 모델 구축부(310)를 통해 이미지와 텍스트 쌍의 통합 데이터를 사전 학습하여 임베딩 모델을 구축할 수 있다(단계 S410). 심층 상황 이해 장치(130)는 정보량 산출부(330)를 통해 임베딩 모델을 기초로 이미지와 텍스트 쌍의 특정 입력에 대한 정보량을 산출할 수 있다(단계 S430).

또한, 심층 상황 이해 장치(130)는 고유 정보 학습부(350)를 통해 정보량을 기초로 특정 입력에서 이미지와 텍스트 차원의 고유 정보를 추출하고 각각 독립적으로 학습할 수 있다(단계 S450). 심층 상황 이해 장치(130)는 심층 상황벡터 생성부(370)를 통해 독립적으로 학습된 결과에 따라 이미지와 텍스트의 고유 정보를 각각 벡터화하고 상호 융합하여 특정 입력에 대한 심층 상황벡터를 생성할 수 있다(단계 S470).

도 5는 본 발명에 따른 심층 상황 이해 시스템의 동작 과정을 설명하는 도면이다.

도 5를 참조하면, 심층 상황 이해 시스템(100)은 통합된 사전학습 임베딩 모델(Integrated Pre-trained Embedding Model)(510)을 이용하여 이미지와 텍스트의 입력 쌍(Images & Texts)에 대해 각각 이미지 벡터(Image Vectors)와 텍스트 벡터(또는 문장 벡터, Sentence Vectors)를 생성할 수 있다. 이때, 이미지 벡터와 텍스트 벡터는 공통된 정보가 많을수록 유사한 벡터로 표현될 수 있으며, 벡터 간의 유사성은 벡터 간의 거리에 대응될 수 있다.

또한, 심층 상황 이해 시스템(100)은 이미지 벡터와 텍스트 벡터 간의 비교 분석을 통해 정보량(Information Quantity)를 산출할 수 있으며, 이후 정보량에 기초하여 이미지 벡터와 텍스트 벡터의 고유 정보에 관한 학습을 독립적으로 수행할 수 있다. 이미지에 포함된 정보와 텍스트에 포함된 정보가 유사할수록 정보량은 0에 가까워지며, 구체적으로 정보량은 (1-유사도)로 계산될 수 있다. 이미지 데이터와 텍스트 데이터의 유사도는 단순하게 벡터간 유사도 비교를 통해 도출할 수 있으며, 다른 대안으로 어텐션 스코어(Attention Score)를 계산하여 산출할 수도 있다.

또한, 심층 상황 이해 시스템(100)은 계산된 정보량을 문장 벡터의 가중치(Information Weight)로 활용하여 가중된 문장 벡터를 생성할 수 있고, 가중된 문장 벡터들을 기초로 가중된 문서 임베딩(Weighted Document Embedding) (550)을 수행할 수 있다. 이때, 문서 임베딩을 위해 HAN 모델(또는 LSTM 등)이 사용될 수 있다. 이후, 구축된 HAN 모델을 통해 이미지에서 추출할 수 없는 정보를 담은 텍스트 정보를 벡터(Compressed Document Vectors)로 추출할 수 있다.

이와 별개로, 심층 상황 이해 시스템(100)은 이미지 벡터들을 기초로 이미지 인코딩(Image Encoding)(530)을 수행할 수 있고, 텍스트에서 추출할 수 없는 정보를 담은 이미지 정보를 벡터(Compressed Image Vectors)로 추출할 수 있다. 이때, 이미지 인코딩(530)을 위해 ResNet, Inception-V3 등이 활용될 수 있다.

또한, 심층 상황 이해 시스템(100)은 이미지 인코딩(Image Encoding)(530)과 가중된 문서 임베딩(Weighted Document Embedding)(550)을 통해 각각 생성된 벡터들을 융합(Vector Integration)하여 최종적인 심층 상황벡터(Deep Context Vector)를 생성할 수 있다.

도 6은 통합된 사전학습 임베딩 모델을 설명하는 도면이다.

도 6을 참조하면, 심층 상황 이해 시스템(100)은 통합된 사전학습 임베딩 모델을 활용하여 이미지와 텍스트 쌍의 입력에 대해 각각의 벡터를 획득할 수 있다. 통합된 사전학습 임베딩 모델은 방대한 양의 페어(Pair)한 이미지와 텍스트를 특정 차원(공간)(Multimodal Space)에 사상(Mapping)하도록 신경망 학습을 통해 구축될 수 있다.

도 6에서, 입력 텍스트(610)는 워드(word) 별로 임베딩(embedding) 된 후 LSTM을 통해 소정의 크기를 갖는 벡터로 변환될 수 있으며, 입력 이미지(630)는 소정의 크기를 갖는 벡터로 임베딩되어 텍스트 벡터와 동일한 공간에 매핑될 수 있다. 즉, 심층 상황 이해 시스템(100)은 통합된 사전학습 임베딩 모델을 통해 동일 공간으로 사상된 벡터들 간의 거리를 기초로 이미지와 텍스트 간의 유사도 비교를 수행할 수 있다. 이를 기초로 심층 상황 이해 시스템(100)은 텍스트가 가진 정보량을 구체적으로 산출할 수 있다.

도 7은 이미지 기반 텍스트 벡터의 가중화 동작을 설명하는 도면이다.

도 7을 참조하면, 심층 상황 이해 장치(130)는 이미지(Image)와 텍스트(또는 Document) 쌍의 입력 데이터를 수신하여 통합된 사전학습 임베딩 모델(710)을 기초로 각각의 벡터들(730a, 730b)을 생성할 수 있다. 심층 상황 이해 장치(130)는 이미지 벡터(730a)와 텍스트 벡터(730b) 간의 유사도를 기초로 정보량을 산출할 수 있다. 이때, 입력 데이터가 문서(Document)인 경우 심층 상황 이해 장치(130)는 문서의 텍스트들(T1, T2)마다 텍스트 벡터(730b)를 생성할 수 있다. 한편, 정보량은 '1 - 유사도'로 정의될 수 있으나, 반드시 이에 한정되지 않을 수 있다.

이후, 심층 상황 이해 장치(130)는 정보량을 기초로 정보 가중치를 각 텍스트 벡터에 적용하여 가중 텍스트 벡터를 생성할 수 있다. 도 7에서, 텍스트 T1의 경우 이미지와의 유사도가 60%이므로 정보량은 40%이고 정보 가중치 0.4가 텍스트 벡터(T1 vectors)에 적용될 수 있다. 텍스트 T2의 경우 이미지와의 유사도가 23%이므로 정보량은 77%이고 정보 가중치 0.77이 텍스트 벡터(T2 vectors)에 적용될 수 있다.

이후, 심층 상황 이해 장치(130)는 각 벡터들을 기초로 이미지 또는 텍스트가 가진 고유 정보(750a, 750b)를 각각 학습할 수 있다. 만약 학습을 통해 모델 구축이 완료된 경우라면 심층 상황 이해 장치(130)는 이미지 벡터와 가중 텍스트 벡터를 각 모델에 입력하여 고유 정보를 가진 벡터들을 획득할 수 있고, 해당 벡터들을 융합하여 최종적으로 심층 상황벡터를 생성할 수 있다.

도 8은 가중된 문서 임베딩 과정을 설명하는 도면이다.

도 8을 참조하면, 심층 상황 이해 장치(130)는 가중된 문장 벡터를 이용하여 가중된 문서 임베딩(Weighted Document Embedding)(A)을 수행할 수 있고, 이를 통해 텍스트 고유 정보를 표현하는 문서 벡터(Document Vectors)(850)를 생성할 수 있다. 이때, 가중된 문서 임베딩(A)을 위해 HAN, LSTM 등이 활용될 수 있다. 또한, 가중된 문장 벡터는 통합된 사전학습 임베딩 모델을 통해 획득한 문장 벡터들(Sentence 1 ~ n)에 대해 정보 가중치(Information Weight)(830)를 적용한 결과로서 획득될 수 있다.

예를 들어, 'Sentence 1'의 문장 벡터(810)가 300차원이고, 정보 가중치(830)가 0.7인 경우(이때, 이미지 벡터와의 유사도는 0.3) 가중 문장 벡터는 [0.004, 0.034, -0.170, ..., 0.396, -0.993, -0.231] × 0.7을 통해 생성될 수 있다.

도 9 내지 11은 본 발명에 따른 심층 상황 이해의 다양한 사례들을 설명하는 도면이다.

도 9 내지 11을 참조하면, 심층 상황 이해 장치(130)는 이미지와 텍스트의 고유한 정보를 함께 사용함으로써 각 차원의 부족한 정보들을 상호 보완하여 보다 풍부한 정보를 획득할 수 있다. 결과적으로, 심층 상황 이해 장치(130)는 심층 상황벡터를 이용하여 단일 데이터만으로 유사 상황을 찾을 때 보다 훨씬 더 정교하게 유사 상황을 찾을 수 있다.

특히, 심층 상황 이해 장치(130)는 다양한 분야에 활용되어 심층적인 상황에 대한 이해를 높일 수 있다. 도 9에서, 심층 상황 이해 장치(130)는 의료 진단 분야에 활용되어 이미지 또는 텍스트 만으로 진단 시 불충분한 정보로 인해 진단의 정확성이 떨어지는 문제를 보완할 수 있다. 즉, 이미지를 통해 빨갛다, 엄지 아래 손바닥 화상 등 텍스트로 정확히 표현되지 못하는 시각적 정보, 위치 정보 등의 고유 정보를 획득할 수 있다. 또한, 텍스트를 통해 어제, 끓는 물, 약 바름, 아픔 등 이미지로 표현되지 못하는 시간적 선후 관계나 상황에 대한 인과 관계 등의 고유 정보를 획득할 수 있다. 따라서, 심층 상황 이해 장치(130)는 의료 진단 과정에서 환자의 상태를 정확히 파악하는데 활용되어 환자에 대한 진단 및 치료 과정에 기여할 수 있다.

도 10에서, 심층 상황 이해 장치(130)는 119 신고 분야에 활용되어 이미지 또는 텍스트 만으로 상황 전파 시 불충분한 정보로 인해 구조의 신속성이 떨어지는 문제를 보완할 수 있다. 즉, 이미지를 통해 머리 출혈, 쓰러짐, 헬멧, 자전거 등 텍스트로 정확히 표현되지 못하는 시각적 정보, 위치 정보, 상태 정보 등의 고유 정보를 획득할 수 있다. 또한, 텍스트를 통해 트럭에 치임, 5분 등 이미지로 표현되지 못하는 시간적 선후 관계나 상황에 대한 인과 관계 등의 고유 정보를 획득할 수 있다. 따라서, 심층 상황 이해 장치(130)는 119 신고 과정에서 피해자의 상태와 사건의 경중을 파악하는데 활용되어 신속한 구조 과정에 기여할 수 있다.

도 11에서, 심층 상황 이해 장치(130)는 의료 문의 분야에 활용되어 이미지 또는 텍스트 만으로 상품 구매 과정에서 고객의 불만을 정확히 파악하기 어려워 환불이나 AS를 위한 원활한 소통이 힘든 문제를 보완할 수 있다. 즉, 이미지를 통해 바지, 청색, 뒷주머니 아래 훼손 등 텍스트로 정확히 표현되지 못하는 시각적 정보, 위치 정보, 상태 정보 등의 고유 정보를 획득할 수 있다. 또한, 텍스트를 통해 3일전 주문, 오늘 도착, 한 번도 안 입음, 실망, 환불 등 이미지로 표현되지 못하는 시간적 선후 관계나 상황에 대한 인과 관계, 감정 등의 고유 정보를 획득할 수 있다. 따라서, 심층 상황 이해 장치(130)는 의류 문의 과정에서 의류 상태와 고객 불만을 파악하는데 활용되어 원활한 상담 과정에 기여할 수 있다.

한편, 심층 상황 이해 장치(130)는 전자제품 A/S, 식물 케어, 피부(두피) 진단 등 다양한 분야에서 이미지와 텍스트의 고유 정보를 융합하여 상황에 대한 보다 심층적인 이해를 제공할 수 있는 딥러닝 기반의 시스템을 제공할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 심층 상황 이해 시스템
110: 사용자 단말 130: 심층 상황 이해 장치
150: 데이터베이스
210: 프로세서 230: 메모리
250: 사용자 입출력부 270: 네트워크 입출력부
310: 임베딩 모델 구축부 330: 정보량 산출부
350: 고유 정보 학습부 370: 심층 상황벡터 생성부
390: 제어부
610: 입력 텍스트 630: 입력 이미지
730a: 이미지 벡터 730b: 텍스트 벡터
750a: 이미지 정보 750b: 텍스트 고유 정보

Claims

이미지와 텍스트 쌍의 통합 데이터를 사전 학습하여 임베딩 모델을 구축하는 임베딩 모델 구축부;
상기 임베딩 모델을 기초로 이미지와 텍스트 쌍의 특정 입력에 대한 정보량을 산출하는 정보량 산출부;
상기 정보량을 기초로 상기 특정 입력에서 이미지와 텍스트 차원의 고유 정보를 추출하고 각각 독립적으로 학습하는 고유 정보 학습부; 및
상기 독립적으로 학습된 결과에 따라 이미지와 텍스트의 고유 정보를 각각 벡터화하고 상호 융합하여 상기 특정 입력에 대한 심층 상황벡터를 생성하는 심층 상황벡터 생성부를 포함하는 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템.
제1항에 있어서, 상기 임베딩 모델은
상기 통합 데이터의 이미지와 텍스트를 동일 공간으로 사상(mapping)시키는 학습 모델로서 해당 이미지와 텍스트 각각을 벡터화 하는 것을 특징으로 하는 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템.
제2항에 있어서, 상기 임베딩 모델은
이미지와 텍스트 각각이 표현하는 상황이 유사할수록 상기 벡터화 되는 이미지 벡터와 텍스트 벡터 간의 유사도가 증가하는 방향으로 학습되는 것을 특징으로 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템.
제1항에 있어서, 상기 정보량 산출부는
상기 특정 입력에 대해 상기 임베딩 모델을 적용하여 이미지 벡터와 텍스트 벡터를 각각 생성하고 해당 이미지 벡터와 해당 텍스트 벡터 간의 유사도를 기초로 상기 정보량을 산출하는 것을 특징으로 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템.
제4항에 있어서, 상기 정보량 산출부는
상기 해당 이미지 벡터와 상기 해당 텍스트 벡터를 기초로 어텐션 스코어(Attention Score)를 산출하여 상기 유사도로 사용하는 것을 특징으로 하는 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템.
제4항에 있어서, 상기 정보량 산출부는
기준값과 상기 유사도 간의 차이로서 상기 정보량을 산출하는 것을 특징으로 하는 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템.
제4항에 있어서, 상기 고유 정보 학습부는
상기 해당 텍스트 벡터에 상기 정보량을 적용하여 가중 텍스트 벡터를 생성하고 상기 해당 이미지 벡터와 상기 가중 텍스트 벡터를 상기 고유 정보로서 학습하는 것을 특징으로 하는 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템.
제7항에 있어서, 상기 고유 정보 학습부는
상기 해당 텍스트 벡터가 복수인 경우 각 텍스트 벡터마다 해당 정보량에 비례하는 정보 가중치를 곱함으로써 상기 가중 텍스트 벡터를 생성하는 것을 특징으로 하는 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템.
제1항에 있어서, 상기 심층 상황벡터 생성부는
상기 벡터화의 결과로 생성된 고유 벡터들을 순차로 연결(concatenation)하여 상기 심층 상황벡터를 생성하는 것을 특징으로 하는 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 시스템.
이미지와 텍스트 쌍의 통합 데이터를 사전 학습하여 임베딩 모델을 구축하는 단계;
상기 임베딩 모델을 기초로 이미지와 텍스트 쌍의 특정 입력에 대한 정보량을 산출하는 단계;
상기 정보량을 기초로 상기 특정 입력에서 이미지와 텍스트 차원의 고유 정보를 추출하고 각각 독립적으로 학습하는 단계; 및
상기 독립적으로 학습된 결과에 따라 이미지와 텍스트의 고유 정보를 각각 벡터화하고 상호 융합하여 상기 특정 입력에 대한 심층 상황벡터를 생성하는 단계를 포함하는 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 방법.
제10항에 있어서, 상기 정보량을 산출하는 단계는
상기 특정 입력에 대해 상기 임베딩 모델을 적용하여 이미지 벡터와 텍스트 벡터를 각각 생성하고 해당 이미지 벡터와 해당 텍스트 벡터 간의 유사도를 기초로 상기 정보량을 산출하는 단계를 포함하는 것을 특징으로 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 방법.
제11항에 있어서, 상기 정보량을 산출하는 단계는
기준값과 상기 유사도 간의 차이로서 상기 정보량을 산출하는 단계를 포함하는 것을 특징으로 하는 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 방법.
제11항에 있어서, 상기 독립적으로 학습하는 단계는
상기 해당 텍스트 벡터에 상기 정보량을 적용하여 가중 텍스트 벡터를 생성하고 상기 해당 이미지 벡터와 상기 가중 텍스트 벡터를 상기 고유 정보로서 학습하는 단계를 포함하는 것을 특징으로 하는 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 방법.
제10항에 있어서, 상기 심층 상황벡터를 생성하는 단계는
상기 벡터화의 결과로 생성된 고유 벡터들을 순차로 연결(concatenation)하여 상기 심층 상황벡터를 생성하는 단계를 포함하는 것을 특징으로 하는 이미지와 텍스트 통합 데이터에 대한 딥러닝 기반 심층 상황 이해 방법.