KR20230029261A - 모달별 중요도 기반 멀티모달 인공지능 학습 시스템 및 그 방법 - Google Patents

모달별 중요도 기반 멀티모달 인공지능 학습 시스템 및 그 방법 Download PDF

Info

Publication number
KR20230029261A
KR20230029261A KR1020210111547A KR20210111547A KR20230029261A KR 20230029261 A KR20230029261 A KR 20230029261A KR 1020210111547 A KR1020210111547 A KR 1020210111547A KR 20210111547 A KR20210111547 A KR 20210111547A KR 20230029261 A KR20230029261 A KR 20230029261A
Authority
KR
South Korea
Prior art keywords
modal
importance
learning
intra
multimodal
Prior art date
Application number
KR1020210111547A
Other languages
English (en)
Inventor
김글빛
박외진
Original Assignee
(주)아크릴
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아크릴 filed Critical (주)아크릴
Priority to KR1020210111547A priority Critical patent/KR20230029261A/ko
Publication of KR20230029261A publication Critical patent/KR20230029261A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 모달별 중요도 기반 멀티모달 인공지능 학습 시스템 및 그 방법에 관한 것이다.
본 발명에 따른 모달별 중요도 기반 멀티모달 인공지능 학습 시스템은, 복수의 모달 입력부를 통해 서로 다른 데이터를 각각 입력받아 서로 동일한 기능을 수행하는 네트워크를 각각 학습하여 서로 다른 잠재 벡터를 각각 추출하는 모달 추출부와; 모달 추출부에서 추출된 서로 다른 복수의 잠재 벡터를 각각 입력받아 인트라 네트워크를 통해 각 모달 간의 연관적인 정보를 학습하고 중간 산출물을 출력하는 인트라 네트워크부; 및 인트라 네트워크부에서 획득한 신호와 산출된 중요도 벡터값을 함께 계산하여 최종 결과를 도출하는 결과도출 네트워크부를 포함한다.
이와 같은 본 발명에 의하면, 각 모달별로 동일한 기능을 수행하는 독립적인 엔진을 통해 모달 각각에 대해서도 유의미한 잠재 벡터를 추출하여 멀티모달의 입력으로 사용함으로써, 미가공의(raw) 데이터를 입력으로 사용할 때보다 시스템의 성능을 개선할 수 있다.

Description

모달별 중요도 기반 멀티모달 인공지능 학습 시스템 및 그 방법{Multimodal artificial intelligence learning system based on importance of each modal and method thereof}
본 발명은 모달별 중요도 기반 멀티모달 인공지능 학습 시스템 및 그 방법에 관한 것으로서, 더 상세하게는 모달 각각에 대해서도 유의미한 잠재 벡터를 추출하여 멀티모달의 입력으로 사용함으로써 시스템의 성능을 개선할 수 있는 모달별 중요도 기반 멀티모달 인공지능 학습 시스템 및 그 방법에 관한 것이다.
인공지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템으로서, 기존 룰(rule)을 기반으로 원하는 기능을 구현하는 시스템과 달리 방대한 양의 데이터를 기반으로 기계가 스스로 학습하고, 그 룰(rule)을 스스로 구현하는 시스템이다. 사용자가 원하는 기능에 따라 다양한 입력과 출력이 존재하며, 데이터를 증강함에 따라 시스템의 성능이 향상되기 때문에 여러 수신부를 통해 수집된 다양한 모달리티(modality) 정보를 활용하는 시스템들이 사용되고 있다.
한 가지 테스크를 진행하는데 있어 각각의 모달리티들을 통해 문제를 해결할 수 있으나, 인간의 지능처럼 복합적으로 판단하기 위해 여러 모달리티를 동시에 입력으로 사용하여 인공지능을 학습한다. 인공지능 시스템의 높은 인식률 및 분류기 등의 성능을 위해, 복수의 서로 다른 도메인에 대한 신호 입력을 동시에 학습하고, 시스템이 모달리티 간의 중요도를 스스로 학습하는 방향으로 발전하였다. 인간의 경우는 외적인, 경험적인 학습에 의해 직관적인 모달의 중요도를 인지하여 모달 간의 중요도를 판단하여 결론을 도출하지만, 인공지능 시스템의 경우는 인공지능 시스템에 제공할 수 있는 정보가 한정적이기 때문에 이러한 고려가 힘들고, 스스로 중요도를 판단하지만 오히려 성능에 방해가 되는 경우가 있다. 이에 따라 단일 모달의 결과보다 각기 다른 입력에 대한 멀티모달 모델의 인식 정확도가 낮으며, 사용자가 판단하기에 잘못된 모달 중요도에 의한 결과에 대해 피드백하더라도 이를 직접적으로 인공지능 모델에 반영하기 어려운 문제가 있다.
한편, 한국 공개특허공보 제10-2019-0056940호(특허문헌 1)에는 "멀티모달 데이터 학습 방법 및 장치"가 개시되어 있는 바, 이에 따른 멀티모달 데이터 학습 방법은, 제 1 학습 네트워크 모델을 이용하여, 제1 신호의 특성을 대표하는 제1 맥락(Context) 정보와 제2 신호의 특성을 대표하는 제2 맥락 정보를 획득하는 단계;제 2 학습 네트워크 모델을 이용하여, 상기 제1 맥락 정보와 상기 제2 맥락 정보를 기초로 은닉층 정보를 획득하는 단계; 상기 제 2 학습 네트워크 모델을 이용하여, 상기 은닉층 정보 간의 관련 정도를 나타내는 상관관계 값(Correlation Value)을 획득하는 단계; 및 상기 상관관계 값이 최대값으로 도출되는 상기 은닉층 정보를 학습하는 단계를 포함하는 것을 특징으로 한다.
이상과 같은 특허문헌 1의 경우, 제1, 제2 학습 네트워크 모델을 이용하여 제1, 제2 맥락 정보를 획득함으로써, 복수의 서로 다른 도메인 신호에 대해 가중치를 계산하는 방식에 의해서는 각 도메인 내에 존재하는 주요 맥락(context) 정보를 추출할 수 없는 문제와, 두 개의 도메인 간에 계산되는 상관관계의 개수와 관련하여 도메인의 개수가 N개로 늘어나는 경우, 연산량이 N(N-1)/2 로 늘어나는 문제를 해결할 수 있는 장점이 있기는 하나, 멀티모달 인공지능 엔진의 네트워크 설계와 관련하여 시스템의 성능을 개선할 수 있는 방안은 제시하지 못하고 있으며, 모달 각각에 대해서도 어떤 모달에 집중을 하여 네트워크가 학습되어야 할지 등 학습의 정확도를 개선할 수 있는 해결책을 제시하지 못하고 있다.
한국 공개특허공보 제10-2019-0056940호(2019.05.27.)
본 발명은 상기와 같은 사항을 종합적으로 감안하여 창출된 것으로서, 멀티모달 인공지능 엔진의 네트워크를 설계시, 각 모달별로 동일한 기능을 수행하는 독립적인 엔진을 통해 모달 각각에 대해서도 유의미한 잠재 벡터를 추출하여 멀티모달의 입력으로 사용함으로써, 미가공의(raw) 데이터를 입력으로 사용할 때보다 시스템의 성능을 개선할 수 있는 모달별 중요도 기반 멀티모달 인공지능 학습 시스템 및 그 방법을 제공함에 그 목적이 있다.
본 발명의 다른 목적은 모달 간의 중요도를 반영하는 교차모달 변환기 (crossmodal transformer) 등의 인트라(intra) 정보를 반영할 수 있는 네트워크를 기반으로 모달 각각에 대해서도 어떤 모달에 집중을 하여 네트워크가 학습되어야 할지 반영하고, 중요 모달에 대한 플래그(flag) 또는 웨이트(weight)를 추가로 레이블링하여 학습의 정확도를 개선할 수 있는 모달별 중요도 기반 멀티모달 인공지능 학습 시스템 및 그 방법을 제공함에 있다.
상기의 목적을 달성하기 위하여 본 발명에 따른 모달별 중요도 기반 멀티모달 인공지능 학습 시스템은, 모달별 중요도에 기반하여 멀티모달 인공지능을 학습시키기 위한 시스템으로서,
복수의 모달 입력부를 통해 서로 다른 데이터를 각각 입력받아 서로 동일한 기능을 수행하는 네트워크를 각각 학습하여 서로 다른 잠재 벡터를 각각 추출하는 모달 추출부와;
상기 모달 추출부에서 추출된 서로 다른 복수의 잠재 벡터를 각각 입력받아 인트라 네트워크를 통해 각 모달 간의 연관적인 정보를 학습하고 중간 산출물을 출력하는 인트라 네트워크부; 및
상기 인트라 네트워크부에서 획득한 신호와 산출된 중요도 벡터값을 함께 계산하여 최종 결과를 도출하는 결과도출 네트워크부를 포함하는 점에 그 특징이 있다.
여기서, 상기 인트라 네트워크부에서 출력된 중간 산출물은 중요도 벡터를 포함할 수 있다.
또한, 상기 모달 추출부는,
제1 데이터를 제1 모달 입력부를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크를 학습하여 제1 잠재 벡터를 추출하는 제1 모달 추출부와;
제2 데이터를 제2 모달 입력부를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크를 학습하여 제2 잠재 벡터를 추출하는 제2 모달 추출부와;
제n 데이터를 제n 모달 입력부를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크를 학습하여 제n 잠재 벡터를 추출하는 제n 모달 추출부를 포함할 수 있다.
이때, 상기 제1, 제2,..., 제n 모달 추출부에서 각각 추출된 제1, 제2,..., 제n 잠재 벡터들은 상기 인트라 네트워크부를 통해 모달 간의 중요도를 학습하고, 중요도 플래그 또는 웨이트를 계산할 수 있다.
또한, 상기 인트라 네트워크부는 복수의 인트라 네트워크로 구성되고, 각 인트라 네트워크의 출력 신호는 모달 서로 간의 정보를 연관시키기 위해 각 인트라 네트워크 간에 서로의 입력으로 재활용되도록 구성될 수 있다.
또한, 상기 결과도출 네트워크부는 분류기 모델, 회귀(regression) 모델 중 적어도 어느 하나를 포함할 수 있다.
또한, 상기의 목적을 달성하기 위하여 본 발명에 따른 모달별 중요도 기반 멀티모달 인공지능 학습 방법은, 모달별 중요도에 기반하여 멀티모달 인공지능을 학습시키기 위한 방법으로서,
a) 모달 추출부에 의해 복수의 모달 입력부를 통해 서로 다른 데이터를 각각 입력받아 서로 동일한 기능을 수행하는 네트워크를 각각 학습하여 서로 다른 잠재 벡터를 각각 추출하는 단계와;
b) 인트라 네트워크부에 의해 상기 모달 추출부에서 추출된 서로 다른 복수의 잠재 벡터를 각각 입력받아 인트라 네트워크를 통해 각 모달 간의 연관적인 정보를 학습하고 중간 산출물을 출력하는 단계; 및
c) 결과도출 네트워크부에 의해 상기 인트라 네트워크부에서 획득한 신호와 산출된 중요도 벡터값을 함께 계산하여 최종 결과를 도출하는 단계를 포함하는 점에 그 특징이 있다.
여기서, 상기 단계 b)에서 상기 인트라 네트워크부에 의해 출력된 중간 산출물은 중요도 벡터를 포함할 수 있다.
또한, 상기 단계 a)에서 상기 모달 추출부에 의해 서로 다른 잠재 벡터를 각각 추출하는 단계는,
a-1) 제1 모달 추출부에 의해 제1 데이터를 제1 모달 입력부를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크를 학습하여 제1 잠재 벡터를 추출하는 단계와;
a-2) 제2 모달 추출부에 의해 제2 데이터를 제2 모달 입력부를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크를 학습하여 제2 잠재 벡터를 추출하는 단계와;
a-3) 제n 모달 추출부에 의해 제n 데이터를 제n 모달 입력부를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크를 학습하여 제n 잠재 벡터를 추출하는 단계를 포함할 수 있다.
이때, 상기 제1, 제2,..., 제n 모달 추출부에 의해 각각 추출된 제1, 제2,..., 제n 잠재 벡터들은 상기 인트라 네트워크부를 통해 모달 간의 중요도를 학습하고, 중요도 플래그 또는 웨이트를 계산할 수 있다.
또한, 상기 단계 b)에서의 상기 인트라 네트워크부는 복수의 인트라 네트워크로 구성되고, 각 인트라 네트워크의 출력 신호는 모달 서로 간의 정보를 연관시키기 위해 각 인트라 네트워크 간에 서로의 입력으로 재활용될 수 있다.
이와 같은 본 발명에 의하면, 각 모달별로 동일한 기능을 수행하는 독립적인 엔진을 통해 모달 각각에 대해서도 유의미한 잠재 벡터를 추출하여 멀티모달의 입력으로 사용함으로써, 미가공의(raw) 데이터를 입력으로 사용할 때보다 시스템의 성능을 개선할 수 있는 효과가 있다.
또한, 모달 간의 중요도를 반영하는 교차모달 변환기 등의 인트라(intra) 정보를 반영할 수 있는 네트워크를 기반으로 모달 각각에 대해서도 어떤 모달에 집중을 하여 네트워크가 학습되어야 할지 반영하고, 중요 모달에 대한 플래그 또는 웨이트를 추가로 레이블링함으로써 학습의 정확도를 개선할 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 모달별 중요도 기반 멀티모달 인공지능 학습 시스템의 구성을 개략적으로 나타낸 도면이다.
도 2는 도 1에 도시된 시스템에서의 모달 추출부의 내부 구성을 개략적으로 나타낸 도면이다.
도 3은 본 발명의 실시예에 따른 모달별 중요도 기반 멀티모달 인공지능 학습 방법의 실행 과정을 나타낸 흐름도이다.
도 4는 도 3의 단계 S301에서의 서로 다른 잠재 벡터의 추출에 대한 서브 루틴을 나타낸 흐름도이다.
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정되어 해석되지 말아야 하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈", "장치" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 모달별 중요도 기반 멀티모달 인공지능 학습 시스템의 구성을 개략적으로 나타낸 도면이다.
도 1을 참조하면, 본 발명에 따른 모달별 중요도 기반 멀티모달 인공지능 학습 시스템(100)은, 모달별 중요도에 기반하여 멀티모달 인공지능을 학습시키기 위한 시스템으로서, 모달 추출부(110), 인트라 네트워크부(120), 결과도출 네트워크부(130)를 포함하여 구성된다.
모달 추출부(110)는 복수의 모달 입력부(201∼203)(도 2 참조)를 통해 서로 다른 데이터를 각각 입력받아 서로 동일한 기능을 수행하는 네트워크(204)(도 2 참조)를 각각 학습하여 서로 다른 잠재 벡터를 각각 추출한다. 이와 같은 모달 추출부(110)에 대해서는 뒤에서 다시 설명하기로 한다.
인트라 네트워크부(120)는 상기 모달 추출부(110)에서 추출된 서로 다른 복수의 잠재 벡터를 각각 입력받아 인트라 네트워크(120a)를 통해 각 모달 간의 연관적인 정보를 학습하고 중간 산출물을 출력한다. 이와 같은 인트라 네트워크부(120)에서 출력된 중간 산출물은 중요도 벡터를 포함할 수 있다. 물론, 이러한 중간 산출물은 다양한 형태로 존재할 수 있다. 또한, 상기 인트라 네트워크부(120)는 복수의 인트라 네트워크(120a)로 구성되고, 각 인트라 네트워크(120a)의 출력 신호는 모달 서로 간의 정보를 연관시키기 위해 각 인트라 네트워크(120a) 간에 서로의 입력으로 재활용되도록 구성될 수 있다. 또한, 인트라 네트워크부(120)는 교차모달 변환기(crossmodal transformer), 관심 네트워크(attention network) 등으로 구성될 수 있다.
결과도출 네트워크부(130)는 상기 인트라 네트워크부(120)에서 획득한 신호와 산출된 중요도 벡터값을 함께 계산하여 최종 결과를 도출한다. 이와 같은 결과도출 네트워크부(130)는 분류기 모델, 회귀(regression) 모델 중 적어도 어느 하나를 포함할 수 있다.
여기서, 또한 이상과 같은 인트라 네트워크부(120)와 결과도출 네트워크부 (130)는 단일 네트워크로 구성될 수도 있다.
도 2는 도 1에 도시된 시스템에서의 모달 추출부의 내부 구성을 개략적으로 나타낸 도면이다.
도 2를 참조하면, 모달 추출부(110)는, 제1 데이터(x1 in)를 제1 모달 입력부(201)를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크(204)를 학습하여 제1 잠재 벡터를 추출하는 제1 모달 추출부(110f)와; 제2 데이터(x2 in)를 제2 모달 입력부(202)를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크(204)를 학습하여 제2 잠재 벡터를 추출하는 제2 모달 추출부(110s)와; 제n 데이터(xn in)를 제n 모달 입력부(203)를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크(204)를 학습하여 제n 잠재 벡터를 추출하는 제n 모달 추출부(110n)를 포함하여 구성될 수 있다.
이때, 상기 제1, 제2,...,제n 모달 추출부(110f,110s,...,110n)에서 각각 추출된 제1, 제2,...,제n 잠재 벡터들은 상기 인트라 네트워크부(120)를 통해 모달 간의 중요도를 학습하고, 중요도 플래그 또는 웨이트를 계산할 수 있다.
여기서, 레이블된 중요도 플래그 또는 웨이트를 활용하는 방법은 도 1에 도시된 바와 같이, 가중합으로 설계할 수도 있고, 다양한 퓨전 방법이 존재할 수 있다. 즉, 인트라 네트워크부에 활용하는 퓨전 방법, 잠재 벡터가 인트라 네트워크부에 입력으로 들어가는 부분에서 활용하는 퓨전 방법, 중간 산출물과 레이블된 중요도 벡터 간의 손실(loss)로 활용하는 방법 등이 존재할 수 있다.
이하에서는 이상과 같은 구성을 가지는 본 발명에 따른 모달별 중요도 기반 멀티모달 인공지능 학습 시스템을 바탕으로 한 모달별 중요도 기반 멀티모달 인공지능 학습 방법에 대하여 설명해 보기로 한다.
도 3은 본 발명의 실시예에 따른 모달별 중요도 기반 멀티모달 인공지능 학습 방법의 실행 과정을 나타낸 흐름도이다.
도 3을 참조하면, 본 발명에 따른 모달별 중요도 기반 멀티모달 인공지능 학습 방법은, 모달별 중요도에 기반하여 멀티모달 인공지능을 학습시키기 위한 방법으로서, 먼저 모달 추출부(110)에 의해 복수의 모달 입력부(201, 202, 203)를 통해 서로 다른 데이터(x1 in, x2 in, xn in)를 각각 입력받아 서로 동일한 기능을 수행하는 네트워크(204)를 각각 학습하여 서로 다른 잠재 벡터(잠재 벡터 1, 잠재 벡터 2,...,잠재 벡터 n)를 각각 추출한다(단계 S301). 여기서, 이와 같은 잠재 벡터의 추출과 관련해서는 뒤에서 다시 설명하기로 한다.
인트라 네트워크부(120)는 상기 모달 추출부(110)에서 추출된 서로 다른 복수의 잠재 벡터(잠재 벡터 1, 잠재 벡터 2,...,잠재 벡터 n)를 각각 입력받아 인트라 네트워크(120a)를 통해 각 모달 간의 연관적인 정보를 학습하고 중간 산출물을 출력한다(단계 S302). 여기서, 상기 인트라 네트워크부(120)에 의해 출력된 중간 산출물은 중요도 벡터를 포함할 수 있다. 또한, 인트라 네트워크부(120)는 복수의 인트라 네트워크(120a)로 구성되고, 각 인트라 네트워크(120a)의 출력 신호는 모달 서로 간의 정보를 연관시키기 위해 각 인트라 네트워크(120a) 간에 서로의 입력으로 재활용될 수 있다.
이렇게 하여 인트라 네트워크부(120)에 의해 중간 산출물(예컨대, 중요도 벡터)이 출력되면, 결과도출 네트워크부(130)는 상기 인트라 네트워크부(120)에서 획득한 신호와 산출된 중요도 벡터값을 함께 계산하여 최종 결과를 도출한다(단계 S303).
도 4는 도 3의 단계 S301에서의 서로 다른 잠재 벡터의 추출에 대한 서브 루틴을 나타낸 흐름도이다.
도 4를 참조하면, 이는 위에서 설명한 도 3의 단계 S301에서의 모달 추출부(110)에 의해 서로 다른 잠재 벡터를 각각 추출하는 것에 대한 서브 루틴으로, 상기 모달 추출부(110)에 의해 서로 다른 잠재 벡터를 각각 추출하는 단계(S301)는, 제1 모달 추출부(110f)에 의해 제1 데이터(x1 in)를 제1 모달 입력부(201)를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크(204)를 학습하여 제1 잠재 벡터(잠재 벡터 1)를 추출하는 단계(S401)와; 제2 모달 추출부(110s)에 의해 제2 데이터(x2 in)를 제2 모달 입력부(202)를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크(204)를 학습하여 제2 잠재 벡터(잠재 벡터 2)를 추출하는 단계(S402)와; 제n 모달 추출부(110n)에 의해 제n 데이터(xn in)를 제n 모달 입력부(203)를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크(204)를 학습하여 제n 잠재 벡터(잠재 벡터 n)를 추출하는 단계(S402)를 포함할 수 있다.
이상과 같은 일련의 과정에서, 상기 제1, 제2, 제n 모달 추출부(201,202, 203)에 의해 각각 추출된 제1, 제2, 제n 잠재 벡터들은 상기 인트라 네트워크부(120)를 통해 모달 간의 중요도를 학습하고, 중요도 플래그 또는 웨이트를 계산할 수 있다.
이상의 설명과 같이, 본 발명에 따른 모달별 중요도 기반 멀티모달 인공지능 학습 시스템 및 그 방법은 각 모달별로 동일한 기능을 수행하는 독립적인 엔진을 통해 모달 각각에 대해서도 유의미한 잠재 벡터를 추출하여 멀티모달의 입력으로 사용하여 모달 간의 상이한 데이터 형식을 통일함으로써, 단대단(end-to-end)으로 학습할 시 모달 간의 정렬(align)을 맞추기가 수월하며, 이에 따라 미가공의(raw) 데이터를 입력으로 사용할 때보다 시스템의 성능을 개선할 수 있는 효과가 있다.
또한, 모달 간의 중요도를 반영하는 교차모달 변환기 등의 인트라(intra) 정보를 반영할 수 있는 네트워크를 기반으로 모달 각각에 대해서도 어떤 모달에 집중을 하여 네트워크가 학습되어야 할지 반영하고, 중요 모달에 대한 플래그 또는 웨이트를 추가로 레이블링함으로써 학습의 정확도를 개선할 수 있는 효과가 있다.
또한, 복수의 서로 다른 도메인에 대한 신호입력을 동시에 학습할 시, 어떤 입력 모달에 중요도를 두어야 할지 엔진이 스스로 학습하기 어려운 부분에 대한 부가적인 학습의 정답/기준을 제시함으로써, 인간의 직관적인 모달의 중요도를 인공지능 시스템에 학습시킬 수 있는 장점이 있다.
또한, 멀티모달 인공지능 네트워크가 스스로 학습하는 모달 간의 중요도와 라벨링한 모달 간의 중요도(flag)와의 가중치를 학습하게 함으로써, 보조적인 모달 중요도(flag)를 입력으로 제공하지 않을 때도 우수한 성능이 발휘되는 장점이있다.
이상, 바람직한 실시예를 통하여 본 발명에 관하여 상세히 설명하였으나, 본 발명은 이에 한정되는 것은 아니며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양하게 변경, 응용될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다. 따라서, 본 발명의 진정한 보호 범위는 다음의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
100: (본 발명)모달별 중요도 기반 멀티모달 인공지능 학습 시스템
110: 모달 추출부 110f: 제1 모달 추출부
110s: 제2 모달 추출부 110n: 제n 모달 추출부
120: 인트라 네트워크부 120a: 동일 기능 수행 네트워크
130: 결과도출 네트워크부

Claims (11)

  1. 모달별 중요도에 기반하여 멀티모달 인공지능을 학습시키기 위한 시스템으로서,
    복수의 모달 입력부를 통해 서로 다른 데이터를 각각 입력받아 서로 동일한 기능을 수행하는 네트워크를 각각 학습하여 서로 다른 잠재 벡터를 각각 추출하는 모달 추출부와;
    상기 모달 추출부에서 추출된 서로 다른 복수의 잠재 벡터를 각각 입력받아 인트라 네트워크를 통해 각 모달 간의 연관적인 정보를 학습하고 중간 산출물을 출력하는 인트라 네트워크부; 및
    상기 인트라 네트워크부에서 획득한 신호와 산출된 중요도 벡터값을 함께 계산하여 최종 결과를 도출하는 결과도출 네트워크부를 포함하는 모달별 중요도 기반 멀티모달 인공지능 학습 시스템.
  2. 제1항에 있어서,
    상기 인트라 네트워크부에서 출력된 중간 산출물은 중요도 벡터를 포함하는
    것을 특징으로 하는 모달별 중요도 기반 멀티모달 인공지능 학습 시스템.
  3. 제1항에 있어서,
    상기 모달 추출부는,
    제1 데이터를 제1 모달 입력부를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크를 학습하여 제1 잠재 벡터를 추출하는 제1 모달 추출부와;
    제2 데이터를 제2 모달 입력부를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크를 학습하여 제2 잠재 벡터를 추출하는 제2 모달 추출부와;
    제n 데이터를 제n 모달 입력부를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크를 학습하여 제n 잠재 벡터를 추출하는 제n 모달 추출부를 포함하는 것을 특징으로 하는 모달별 중요도 기반 멀티모달 인공지능 학습 시스템.
  4. 제3항에 있어서,
    상기 제1, 제2,..., 제n 모달 추출부에서 각각 추출된 제1, 제2,..., 제n 잠재 벡터들은 상기 인트라 네트워크부를 통해 모달 간의 중요도를 학습하고, 중요도 플래그 또는 웨이트를 계산하는 것을 특징으로 하는 모달별 중요도 기반 멀티모달 인공지능 학습 시스템.
  5. 제1항에 있어서,
    상기 인트라 네트워크부는 복수의 인트라 네트워크로 구성되고, 각 인트라 네트워크의 출력 신호는 모달 서로 간의 정보를 연관시키기 위해 각 인트라 네트워크 간에 서로의 입력으로 재활용되도록 구성된 것을 특징으로 하는 모달별 중요도 기반 멀티모달 인공지능 학습 시스템.
  6. 제1항에 있어서,
    상기 결과도출 네트워크부는 분류기 모델, 회귀(regression) 모델 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 모달별 중요도 기반 멀티모달 인공지능 학습 시스템.
  7. 모달별 중요도에 기반하여 멀티모달 인공지능을 학습시키기 위한 방법으로서,
    a) 모달 추출부에 의해 복수의 모달 입력부를 통해 서로 다른 데이터를 각각 입력받아 서로 동일한 기능을 수행하는 네트워크를 각각 학습하여 서로 다른 잠재 벡터를 각각 추출하는 단계와;
    b) 인트라 네트워크부에 의해 상기 모달 추출부에서 추출된 서로 다른 복수의 잠재 벡터를 각각 입력받아 인트라 네트워크를 통해 각 모달 간의 연관적인 정보를 학습하고 중간 산출물을 출력하는 단계; 및
    c) 결과도출 네트워크부에 의해 상기 인트라 네트워크부에서 획득한 신호와 산출된 중요도 벡터값을 함께 계산하여 최종 결과를 도출하는 단계를 포함하는 모달별 중요도 기반 멀티모달 인공지능 학습 방법.
  8. 제7항에 있어서,
    상기 단계 b)에서 상기 인트라 네트워크부에 의해 출력된 중간 산출물은 중요도 벡터를 포함하는 것을 특징으로 하는 모달별 중요도 기반 멀티모달 인공지능 학습 방법.
  9. 제7항에 있어서,
    상기 단계 a)에서 상기 모달 추출부에 의해 서로 다른 잠재 벡터를 각각 추출하는 단계는,
    a-1) 제1 모달 추출부에 의해 제1 데이터를 제1 모달 입력부를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크를 학습하여 제1 잠재 벡터를 추출하는 단계와;
    a-2) 제2 모달 추출부에 의해 제2 데이터를 제2 모달 입력부를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크를 학습하여 제2 잠재 벡터를 추출하는 단계와;
    a-3) 제n 모달 추출부에 의해 제n 데이터를 제n 모달 입력부를 통해 입력받아 서로 동일한 기능을 수행하는 네트워크를 학습하여 제n 잠재 벡터를 추출하는 단계를 포함하는 것을 특징으로 하는 모달별 중요도 기반 멀티모달 인공지능 학습 방법.
  10. 제9항에 있어서,
    상기 제1, 제2,..., 제n 모달 추출부에 의해 각각 추출된 제1, 제2,..., 제n 잠재 벡터들은 상기 인트라 네트워크부를 통해 모달 간의 중요도를 학습하고, 중요도 플래그 또는 웨이트를 계산하는 것을 특징으로 하는 모달별 중요도 기반 멀티모달 인공지능 학습 방법.
  11. 제7항에 있어서,
    상기 단계 b)에서의 상기 인트라 네트워크부는 복수의 인트라 네트워크로 구성되고, 각 인트라 네트워크의 출력 신호는 모달 서로 간의 정보를 연관시키기 위해 각 인트라 네트워크 간에 서로의 입력으로 재활용되는 것을 특징으로 하는 모달별 중요도 기반 멀티모달 인공지능 학습 방법.
KR1020210111547A 2021-08-24 2021-08-24 모달별 중요도 기반 멀티모달 인공지능 학습 시스템 및 그 방법 KR20230029261A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210111547A KR20230029261A (ko) 2021-08-24 2021-08-24 모달별 중요도 기반 멀티모달 인공지능 학습 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210111547A KR20230029261A (ko) 2021-08-24 2021-08-24 모달별 중요도 기반 멀티모달 인공지능 학습 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR20230029261A true KR20230029261A (ko) 2023-03-03

Family

ID=85510346

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210111547A KR20230029261A (ko) 2021-08-24 2021-08-24 모달별 중요도 기반 멀티모달 인공지능 학습 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR20230029261A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190056940A (ko) 2017-11-17 2019-05-27 삼성전자주식회사 멀티모달 데이터 학습 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190056940A (ko) 2017-11-17 2019-05-27 삼성전자주식회사 멀티모달 데이터 학습 방법 및 장치

Similar Documents

Publication Publication Date Title
US11551007B2 (en) Determining intent from a historical vector of a to-be-analyzed statement
KR20210038449A (ko) 문답 처리, 언어 모델 훈련 방법, 장치, 기기 및 저장 매체
CN107832432A (zh) 一种搜索结果排序方法、装置、服务器和存储介质
Schick et al. BERTRAM: Improved word embeddings have big impact on contextualized model performance
CN104464733A (zh) 一种语音对话的多场景管理方法及装置
CN109712108B (zh) 一种基于多样鉴别性候选框生成网络的针对视觉定位方法
CN108121800A (zh) 基于人工智能的信息生成方法和装置
CN115380284A (zh) 非结构化文本分类
CN111709223B (zh) 基于bert的句子向量生成方法、装置及电子设备
CN110390110B (zh) 用于语义匹配的预训练生成句子向量的方法和装置
KR20200070198A (ko) 자동 질문 생성을 이용한 챗봇 장치 및 그 동작방법
CN110717555B (zh) 一种基于自然语言和生成对抗网络的图片生成系统及装置
US11650717B2 (en) Using artificial intelligence to iteratively design a user interface through progressive feedback
CN117521675A (zh) 基于大语言模型的信息处理方法、装置、设备及存储介质
US20220385703A1 (en) Cognitively learning to generate scripts that simulate live-agent actions and responses in synchronous conferencing
Liu et al. Determining truth degrees of input places in fuzzy Petri nets
CN112506503B (zh) 一种编程方法、装置、终端设备及存储介质
CN114169408A (zh) 一种基于多模态注意力机制的情感分类方法
KR20230029261A (ko) 모달별 중요도 기반 멀티모달 인공지능 학습 시스템 및 그 방법
Xu et al. CNN-based skip-gram method for improving classification accuracy of chinese text
Kimura et al. New perspective of interpretability of deep neural networks
Loh et al. Implementation of Artificial Intelligence Chatbot in Semiconductor Manufacturing to Optimize Overall Equipment Effectiveness
CN116521832A (zh) 对话交互方法、装置及系统、电子设备和存储介质
CN116384405A (zh) 文本处理方法,文本分类方法及情感识别方法
CN115016641A (zh) 基于手势识别的会议控制方法、装置、会议系统和介质