KR20230109931A - 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치 및 방법 - Google Patents

비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치 및 방법 Download PDF

Info

Publication number
KR20230109931A
KR20230109931A KR1020220005770A KR20220005770A KR20230109931A KR 20230109931 A KR20230109931 A KR 20230109931A KR 1020220005770 A KR1020220005770 A KR 1020220005770A KR 20220005770 A KR20220005770 A KR 20220005770A KR 20230109931 A KR20230109931 A KR 20230109931A
Authority
KR
South Korea
Prior art keywords
video
question
story
transformer model
answer
Prior art date
Application number
KR1020220005770A
Other languages
English (en)
Inventor
장병탁
최성호
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020220005770A priority Critical patent/KR20230109931A/ko
Priority to PCT/KR2022/012050 priority patent/WO2023136417A1/ko
Priority to JP2022199912A priority patent/JP2023103966A/ja
Publication of KR20230109931A publication Critical patent/KR20230109931A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치 및 방법을 개시한다. 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치는, 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터 및 비디오 질의 응답을 위한 질문 데이터를 입력 받고, 이를 연산 처리한 결과를 출력하기 위한 입출력부; 비디오 스토리 질의응답을 수행하기 위한 프로그램 및 데이터가 저장되는 저장부; 및 적어도 하나의 프로세서를 포함하며, 상기 프로그램을 실행시킴으로써 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 제어부;를 포함하고, 상기 제어부는, 상기 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터로부터 시간적 순서에 따라 서로 인접한 전후 비디오 클립의 문맥을 고려하여 비디오 스토리를 학습시키는 것을 특징으로 한다.

Description

비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치 및 방법{APPARATUS AND METHOD FOR BUILDING A TRANSFORMER MODEL FOR VIDEO STORY QUESTION AND ANSWERING}
본 명세서에서 개시되는 실시예들은 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치 및 방법에 관한 것으로, 더욱 상세하게는, 비디오 데이터에 포함된 비디오 클립의 전후 문맥을 고려하여 비디오 스토리를 학습하는 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치 및 방법에 관한 것이다.
최근에는 시각 및 자연어 처리에 대한 심층학습 기술의 발전에 힘입어 멀티모달 데이터에 대한 관심이 높아졌고, 비디오 데이터에 대한 이해를 측정하는 여러 형태의 태스크(task)가 주목받고 있다.
다양한 형태의 태스크 중, 비디오 질의 응답(Video Question Answering)은 비디오 이해 능력을 자연어 형태로 된 오지선다의 객관식 문제의 정확도로 측정한다. 특히, 비디오 질의응답을 해결하기 위해선 멀티모달 비디오에 등장하는 다양한 데이터의 복잡한 상관관계를 학습하고 주어진 질의 응답에 대한 핵심 정보를 찾아야 한다.
최근에는 이를 해결하기 위해, 트랜스포머(transformer)를 기초로 하여 대규모 학습을 진행한 모델들이 소개되어지고 있다. 비디오를 위한 대규모 사전 학습은 비디오 이해를 평가하기 위한 다양한 태스크에서 상당한 성능을 보이고 있고, 자연어 처리에서 좋은 성능을 낸 모델을 기반으로 구축되었다. 하지만, 종래의 기술에 따르면, 비디오 스토리 질의 응답을 수행하는 트랜스포머의 경우 비디오의 길이가 늘어남에 따라 계산 비용이 기하급수적으로 증가하여, 길이가 짧은 비디오에 대해서만 처리가 가능하다는 문제점이 있었다.
한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.
한국공개특허 제10-2020-0144417호(2020.12.29. 공개)
본 명세서에서 개시되는 실시예들은, 비디오 데이터에 포함된 비디오 클립의 전후 문맥을 고려하여 비디오 스토리를 학습하는 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 일 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치는, 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터 및 비디오 질의 응답을 위한 질문 데이터를 입력 받고, 비디오 스토리 질의 응답 결과를 출력하기 위한 입출력부; 비디오 스토리 질의응답을 수행하기 위한 프로그램 및 데이터가 저장되는 저장부; 및 적어도 하나의 프로세서를 포함하며, 상기 프로그램을 실행시킴으로써 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 제어부;를 포함하고, 상기 제어부는, 상기 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터로부터 시간적 순서에 따라 서로 인접한 전후 비디오 클립의 문맥을 고려하여 비디오 스토리를 학습시키는 것을 특징으로 한다.
다른 실시예에 따르면, 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치가 수행하는 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법은, 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터 및 비디오 질의 응답을 위한 질문 데이터를 입력 받는 단계; 및 상기 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터로부터 시간적 순서에 따라 서로 인접한 전후 비디오 클립의 문맥을 고려하여 비디오 스토리를 학습시키는 단계;를 포함한다.
또 다른 실시예에 따르면, 기록매체는, 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체이다. 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치가 수행하는 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법은, 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터 및 비디오 질의 응답을 위한 질문 데이터를 입력 받는 단계; 및 상기 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터로부터 시간적 순서에 따라 서로 인접한 전후 비디오 클립의 문맥을 고려하여 비디오 스토리를 학습시키는 단계;를 포함한다.
또 다른 실시예에 따르면, 컴퓨터 프로그램은, 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치에 의해 수행되며, 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법을 수행하기 위해 기록 매체에 저장된 컴퓨터 프로그램이다. 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치가 수행하는 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법은, 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터 및 비디오 질의 응답을 위한 질문 데이터를 입력 받는 단계; 및 상기 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터로부터 시간적 순서에 따라 서로 인접한 전후 비디오 클립의 문맥을 고려하여 비디오 스토리를 학습시키는 단계;를 포함한다.
전술한 과제 해결 수단 중 어느 하나에 의하면, 비디오 데이터에 포함된 비디오 클립의 전후 문맥을 고려한 트랜스포머를 구축하여 비디오 스토리 질의 응답을 수행함에 있어서, 큰 계산 비용을 들이지 않고 길이가 긴 비디오를 효과적으로 처리할 수 있는 효과가 있다.
전술한 과제 해결 수단 중 또 다른 하나에 의하면, 비디오 데이터에 포함된 비디오 클립의 전후 문맥을 고려한 트랜스포머를 구축함으로써 비디오 스토리 질의 응답뿐만 아니라, 비디오의 다음 장면 예측, 인과관계 추론 등의 다양한 분야에 활용할 수 있는 효과가 있다.
개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
이하, 첨부되는 도면들은 본 명세서에 개시되는 바람직한 실시예를 예시하는 것이며, 발명을 실시하기 위한 구체적인 내용들과 함께 본 명세서에 개시되는 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 명세서에 개시되는 내용은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 종래 기술에 따른 트랜스포머 모델을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 트랜스포머 모델을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치의 기능 블록도이다.
도 4는 일 실시예에 따른 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법을 설명하기 위한 흐름도이다.
아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐 아니라, '그 중간에 다른 구성을 사이에 두고 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.
이하 첨부된 도면을 참고하여 실시예들을 상세히 설명하기로 한다.
도 1은 종래 기술에 따른 트랜스포머 모델을 설명하기 위한 도면이다.
도 1은 종래 기술에 따른 트랜스포머 모델을 도시한 것으로, 비디오 표상(representation) 학습에 이용된 트랜스포머 모델의 구조를 나타낸다. 이때, 트랜스포머 모델은 바닐라 트랜스포머(Vanilla Transformer)일 수 있다. 한편, 도 1에 도시된 트랜스포머는 인코더(100)가 모든 비디오 프레임들에 대해 계층(layer)마다 분리되도록 설정될 수 있다. 이때, 도 1에 도시된 트랜스포머에서 각각의 구간(S1, S2, S3)에 대해 분리된 인코더(100)는 시간적 트랜스포머(Temporal Transformer)일 수 있다. 도 1에 도시된 트랜스포머 모델을 이용하여 비디오 스토리 질의 응답을 수행할 수 있지만, 도 1에 도시된 바와 같은 트랜스포머는 각각의 구간(S1, S2, S3)에 대해 분리된 인코더(100)가 입력되는 비디오 데이터에 포함된 비디오 클립의 전후 맥락을 고려하고 있지 않기 때문에, 비디오의 길이가 길어지는 경우 계산 비용이 기하급수적으로 증가하는 문제가 발생하여, 짧은 길이를 갖는 비디오 스토리 질의 응답에서만 사용되었다. 이에 따라, 길이가 긴 비디오를 보다 효과적으로 처리할 수 있는 트랜스포머가 필요하게 되었으며, 이에 따라 비디오 데이터에 포함된 비디오 클립의 전후 문맥을 고려한 트랜스포머가 구축되었다. 일 실시예에 따른 비디오 데이터에 포함된 비디오 클립의 전후 문맥을 고려한 트랜스포머에 대해서는 도 2 및 도 3을 통해 보다 상세히 후술하기로 한다.
도 2는 일 실시예에 따른 트랜스포머 모델을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 트랜스포머 모델을 도시한 것으로, 비디오 표상(representation) 학습에 이용된 트랜스포머 모델의 구조를 나타낸다. 이때, 트랜스포머 모델은 문맥 트랜스포머(Contextual Transformer)일 수 있다. 한편, 도 2에 도시된 트랜스포머는 인코더(200)가 모든 비디오 프레임들에 대해 계층(layer)마다 분리되도록 설정될 수 있다. 도 2에 도시된 트랜스포머는 각각의 구간(S1, S2, S3)에 대해 분리된 인코더(200)가 입력되는 비디오 데이터에 포함된 비디오 클립의 전후 맥락을 고려하여 비디오 스토리를 학습함에 따라, 계층이 높아짐에 따라 고려할 수 있는 전후 구간의 비디오 클립 개수가 달라질 수 있다. 여기서, 비디오 클립은 짧게 녹화된 동영상을 의미할 수 있다. 예컨대, 제2계층의 S1 및 S3 구간에서는 2개의 구간이 고려될 수 있으며, 제 2 계층의 S2 구간에서는 3개의 구간이 고려될 수 있다. 이때, 비디오 데이터는 복수 개의 연속적인 비디오 클립을 포함할 수 있으며, 상술된 비디오 클립은 복수 개의 비주얼 토큰(visual token)과 텍스트 토큰(text token)을 포함할 수 있다. 한편, 도 2에 도시된 문맥 트랜스포머에서 각각의 구간(S1, S2, S3)에 대해 분리된 인코더(200)는 크로스 모달 트랜스포머(Cross-modal Transformer)일 수 있으며, 상술된 크로스 모달 트랜스포머는 각 구간(S1, S2, S3)에 해당하는 비주얼 토큰(visual token) 및 텍스트 토큰(text token)을 입력으로 받을 수 있다. 도 2에 도시된 바와 같은 트랜스포머는 각각의 구간(S1, S2, S3)에 대해 분리된 인코더(100)가 입력되는 비디오 데이터에 포함된 비디오 클립의 전후 맥락을 고려하여 비디오 스토리를 학습하기 때문에, 큰 계산 비용을 들이지 않고 길이가 긴 비디오를 효과적으로 처리할 수 있다. 또한, 비디오 데이터에 포함된 비디오 클립의 전후 문맥을 고려한 트랜스포머를 구축함으로써 비디오 스토리 질의 응답뿐만 아니라, 비디오의 다음 장면 예측, 인과관계 추론 등의 다양한 분야에 활용할 수 있는 효과가 있다.
한편, 상술된 도 2의 트랜스포머는, 도 3에 도시된 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치에 의해 구축될 수 있다.
도 3은 일 실시예에 따른 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치의 기능 블록도이다.
도 3을 참조하면, 일 실시예에 따른 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치(300)는 입출력부(310), 저장부(320) 및 제어부(330)를 포함한다.
입출력부(310)는 사용자로부터 입력을 수신하기 위한 입력부와 작업의 수행결과 또는 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치(300)의 상태 등의 정보를 표시하기 위한 출력부를 포함할 수 있다. 즉, 입출력부(310)는 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터 및 비디오 질의 응답을 위한 질문 데이터를 입력 받고, 비디오 스토리 질의 응답 결과를 출력하기 위한 구성이다. 이때, 비디오 클립은, 복수 개의 비주얼 토큰(visual token)과 텍스트 토큰(text token)을 포함할 수 있다.
저장부(320)는 파일 및 프로그램이 저장될 수 있는 구성으로서, 다양한 종류의 메모리를 통해 구성될 수 있다. 특히, 저장부(320)에는 후술하는 제어부(330)가 이하에서 제시되는 알고리즘에 따라 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축할 수 있도록 하는 데이터 및 프로그램이 저장될 수 있다.
제어부(330)는 CPU, GPU, 아두이노 등과 같은 적어도 하나의 프로세서를 포함하는 구성으로서, 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치(300)의 전체적인 동작을 제어할 수 있다. 즉, 제어부(330)는 비디오 스토리 질의 응답을 수행하도록 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치(300)에 포함된 다른 구성들을 제어할 수 있다. 제어부(330)는 저장부(320)에 저장된 프로그램을 실행함으로써 이하에서 제시되는 알고리즘에 따라 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 연산을 수행할 수 있다. 제어부(330)가 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 연산을 수행하는 방법에 대해서는 후술하기로 한다.
이하에서는 제어부(330)가 저장부(320)에 저장된 프로그램을 실행시킴으로써 일 실시예에 따른 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법을 수행하는 과정에 대해 상세히 설명하기로 한다.
제어부(330)는 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터로부터 시간적 순서에 따라 서로 인접한 전후 비디오 클립의 문맥을 고려하여 비디오 스토리를 학습시킬 수 있다. 이때, 비디오 클립은, 복수 개의 비주얼 토큰(visual token)과 텍스트 토큰(text token)을 포함할 수 있다. 예컨대, 입출력부(310)를 통해 입력되는 비디오 데이터는 T 개의 연속적인 비디오 클립()으로 나타낼 수 있다. 이때, 각각의 비디오 클립()은 N개의 비주얼 토큰(visual token)과 M개의 텍스트 토큰(text token)을 포함할 수 있다. 종래 기술에 따른 일반적인 구조를 갖는 트랜스포머를 사용하면 비디오 클립()의 은닉 표상(hidden representation)을 생성할 수 있는데, 이때, 은닉 표상을 로 나타낼 수 있다. 이때, d는 은닉 차수(hidden dimension)를 의미할 수 있다. 한편, 일반적인 반복회귀 트랜스포머(Recurrence Transformer)의 경우에는 은닉 표상을 아래의 수학식 1과 같이 변형하여 이용할 수 있다.
[수학식 1]
여기서, 는 각각 트랜스포머 구조의 쿼리(query), 키(key), 값(value)에 해당하며, m은 메모리 길이(memory length)를 의미할 수 있다. 한편, 는 확장된 문맥(context)이며, 이러한 점이 만 사용자는 종래 기술에 따른 트랜스포머와의 차이점일 수 있다. 또한, 는 학습되는 선형 투영 매개변수(linear projection parameter)이며, 는 스탑-그라디언트(stop-gradient)를 의미할 수 있다. 한편, 상술한 수학식 1에 따른 반복회귀 트랜스포머를 전후 맥락을 함께 고려하도록 변형하여 표현하면 아래의 수학식 2와 같이 나타낼 수 있다.
[수학식 2]
일 실시예에 따르면, 제어부(330)는 상술한 수학식 2를 사용하여, 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축할 수 있다.
제어부(330)는 분리된 각각의 인코더를 통해 미리 설정된 구간에 해당하는 비디오 클립별로 각 비디오 클립에 포함되는 비주얼 토큰 및 텍스트 토큰을 입력으로 받아, 서로 인접한 전후 비디오 클립의 하위 계층(lower layer)의 은닉 표상(hidden representation)을 계산하고, 계산된 은닉 표상을 활용하여 전후 맥락을 고려한 비디오 데이터의 표상을 계산함으로써 비디오 스토리지를 학습시킬 수 있다. 이때, 제어부(330)는 비디오 클립별로 마스크드 모달리티 모델(Masked Modality Model, 이하 MMM)을 이용하여 시간적 순서(temporal order)를 학습할 수 있다. 마스크드 모달리티 모델(MMM)은 기존 모델인 마스크드 랭귀지 모델(Masked Language Model)에서 제안되었던, 토큰(token) 단위의 마스킹(masking) 기법을 주어진 구간의 토큰(token) 전체에 대한 마스킹(masking)으로 확장한 것일 수 있다. 마스크드 모달리티 모델(MMM)은 하나의 모달리티(Modality)를 다른 모달리티(Modality)로부터 생성될 수 있게 하면서, 인코더가 주변 토큰(token)으로부터 너무 쉽게 마스크드 토큰(masked token)을 생성하는 것을 방지할 수 있으며, 모달리티(modality) 간의 배열(alignment)을 학습시킬 수 있다. 여기서, 모달리티는 영상 및 텍스트 등일 수 있다. 이에 따라, 일 실시예에 따른 문맥 트랜스포머를 이용하여 상술된 학습을 수행하면, 전후 문맥을 기초로 세그먼트(예컨대, 구간별로 분리된 비디오 데이터)에 대한 내용을 예측할 수 있어, 자연스러운 이야기의 흐름을 학습할 수 있다.
한편, 마스크드 모달리티 모델(Masked Modality Model)은 부정 대조 학습(Negative Contrastive Learning)으로 학습될 수 있다. 이때, 마스크드 모달리티 모델(Masked Modality Model)은 아래의 수학식 3과 같이 나타낼 수 있다.
[수학식 3]
이때, 는 마스킹되지 않은(non-masked) 비주얼 토큰(visual token)과 단어 임베딩(word embedding)을 의미할 수 있으며, 예측된 토큰인 는 그라운드 트루스 토큰 임베딩(ground-truth token embedding)과 가까워지고, 다른 토큰(token)들과는 멀어진다.
도 4는 일 실시예에 따른 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법을 설명하기 위한 흐름도이다.
도 4에 도시된 실시예에 따른 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법은 도 2 내지 도 3에 도시된 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치(100)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하에서 생략된 내용이라고 하더라도, 도 2 내지 도 3에 도시된 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치(100)에 관하여 이상에서 기술한 내용은 도 4에 도시된 실시예에 따른 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법에도 적용될 수 있다.
도 4를 참조하면, 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치(100)는 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터 및 비디오 질의 응답을 위한 질문 데이터를 입력받을 수 있다(S410). 이때, 비디오 클립은, 복수 개의 비주얼 토큰(visual token)과 텍스트 토큰(text token)을 포함할 수 있다.
비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치(100)는 S410 단계에서 입력받은 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터로부터 시간적 순서에 따라 서로 인접한 전후 비디오 클립의 문맥을 고려하여 비디오 스토리를 학습시킬 수 있다(S420). 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치(100)는 분리된 각각의 인코더를 통해 미리 설정된 구간에 해당하는 상기 비디오 클립별로 각 비디오 클립에 포함되는 비주얼 토큰 및 텍스트 토큰을 입력으로 받아, 상기 서로 인접한 전후 비디오 클립의 하위 계층(lower layer)의 은닉 표상(hidden representation)을 계산하고, 상기 계산된 은닉 표상을 활용하여 전후 맥락을 고려한 비디오 데이터의 표상을 계산함으로써 비디오 스토리지를 학습시킬 수 있다. 이때, 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치(100)는 비디오 클립별로 마스크드 모달리티 모델(Masked Modality Model, 이하 MMM)을 이용하여 시간적 순서(temporal order)를 학습할 수 있다. 마스크드 모달리티 모델(MMM)은 기존 모델인 마스크드 랭귀지 모델(Masked Language Model)에서 제안되었던, 토큰(token) 단위의 마스킹(masking) 기법을 주어진 구간의 토큰(token) 전체에 대한 마스킹(masking)으로 확장한 것일 수 있다. 마스크드 모달리티 모델(MMM)은 하나의 모달리티(Modality)를 다른 모달리티(Modality)로부터 생성될 수 있게 하면서, 인코더가 주변 토큰(token)으로부터 너무 쉽게 마스크드 토큰(masked token)을 생성하는 것을 방지할 수 있으며, 모달리티(modality) 간의 배열(alignment)을 학습시킬 수 있다. 한편, 마스크드 모달리티 모델(Masked Modality Model)은 부정 대조 학습(Negative Contrastive Learning)으로 학습될 수 있다. 이때, 마스크드 모달리티 모델(Masked Modality Model)은 상술된 수학식 3과 같이 나타낼 수 있다.
이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.
구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.
뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.
한편, 본 명세서를 통해 설명된 일실시예에 따른 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.
또한, 본 명세서를 통해 설명된 일실시예에 따른 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.
따라서, 본 명세서를 통해 설명된 일실시예에 따른 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 마더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.
여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.
또한, 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.
그리고, 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.
상술한 실시예들은 예시를 위한 것이며, 상술한 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술한 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 명세서를 통해 보호받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
300 : 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치
310 : 입출력부
320 : 저장부
330 : 제어부

Claims (10)

  1. 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터 및 비디오 질의 응답을 위한 질문 데이터를 입력 받고, 비디오 스토리 질의 응답 결과를 출력하기 위한 입출력부;
    비디오 스토리 질의응답을 수행하기 위한 프로그램 및 데이터가 저장되는 저장부; 및
    적어도 하나의 프로세서를 포함하며, 상기 프로그램을 실행시킴으로써 비디오 스토리 질의응답을 위한 트랜스포머 모델을 구축하는 제어부;를 포함하고,
    상기 제어부는,
    상기 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터로부터 시간적 순서에 따라 서로 인접한 전후 비디오 클립의 문맥을 고려하여 비디오 스토리를 학습시키는 것을 특징으로 하는 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치.
  2. 제 1 항에 있어서,
    상기 비디오 클립은,
    복수 개의 비주얼 토큰(visual token)과 텍스트 토큰(text token)을 포함하고,
    상기 제어부는,
    분리된 각각의 인코더를 통해 미리 설정된 구간에 해당하는 상기 비디오 클립별로 각 비디오 클립에 포함되는 비주얼 토큰 및 텍스트 토큰을 입력으로 받아, 상기 서로 인접한 전후 비디오 클립의 하위 계층(lower layer)의 은닉 표상(hidden representation)을 계산하고, 상기 계산된 은닉 표상을 활용하여 전후 맥락을 고려한 비디오 데이터의 표상을 계산함으로써 비디오 스토리지를 학습시키는 것을 특징으로 하는 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치.
  3. 제 1 항에 있어서,
    상기 제어부는,
    상기 비디오 클립별로 마스크드 모달리티 모델(Masked Modality Model)을 이용하여 시간적 순서(temporal order)를 학습하는 것을 특징으로 하는 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치.
  4. 제 3 항에 있어서,
    상기 마스크드 모달리티 모델(Masked Modality Model)은 부정 대조 학습(Negative Contrastive Learning)으로 학습되는 것을 특징으로 하는 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치.
  5. 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치가 수행하는 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법에 있어서,
    복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터 및 비디오 질의 응답을 위한 질문 데이터를 입력 받는 단계; 및
    상기 복수 개의 연속적인 비디오 클립을 포함하는 비디오 데이터로부터 시간적 순서에 따라 서로 인접한 전후 비디오 클립의 문맥을 고려하여 비디오 스토리를 학습시키는 단계;를 포함하는 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법.
  6. 제 5 항에 있어서,
    상기 비디오 클립은,
    복수 개의 비주얼 토큰(visual token)과 텍스트 토큰(text token)을 포함하고,
    상기 비디오 스토리를 학습시키는 단계는,
    분리된 각각의 인코더를 통해 미리 설정된 구간에 해당하는 상기 비디오 클립별로 각 비디오 클립에 포함되는 비주얼 토큰 및 텍스트 토큰을 입력으로 받아, 상기 서로 인접한 전후 비디오 클립의 하위 계층(lower layer)의 은닉 표상(hidden representation)을 계산하고, 상기 계산된 은닉 표상을 활용하여 전후 맥락을 고려한 비디오 데이터의 표상을 계산함으로써 비디오 스토리지를 학습시키는 단계를 포함하는 것을 특징으로 하는 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법.
  7. 제 5 항에 있어서,
    상기 비디오 스토리를 학습시키는 단계는,
    상기 비디오 클립별로 마스크드 모달리티 모델(Masked Modality Model)을 이용하여 시간적 순서(temporal order)를 학습하는 단계를 포함하는 것을 특징으로 하는 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법.
  8. 제 7 항에 있어서,
    상기 마스크드 모달리티 모델(Masked Modality Model)은 부정 대조 학습(Negative Contrastive Learning)으로 학습되는 것을 특징으로 하는 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 방법.
  9. 제 5 항에 기재된 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
  10. 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치에 의해 수행되며, 제 5 항에 기재된 방법을 수행하기 위해 기록 매체에 저장된 컴퓨터 프로그램.
KR1020220005770A 2022-01-14 2022-01-14 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치 및 방법 KR20230109931A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020220005770A KR20230109931A (ko) 2022-01-14 2022-01-14 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치 및 방법
PCT/KR2022/012050 WO2023136417A1 (ko) 2022-01-14 2022-08-11 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치 및 방법
JP2022199912A JP2023103966A (ja) 2022-01-14 2022-12-15 ビデオストーリー質問応答のためのトランスフォーマーモデルを構築する装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220005770A KR20230109931A (ko) 2022-01-14 2022-01-14 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20230109931A true KR20230109931A (ko) 2023-07-21

Family

ID=87279250

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220005770A KR20230109931A (ko) 2022-01-14 2022-01-14 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치 및 방법

Country Status (3)

Country Link
JP (1) JP2023103966A (ko)
KR (1) KR20230109931A (ko)
WO (1) WO2023136417A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117439800B (zh) * 2023-11-21 2024-06-04 河北师范大学 一种网络安全态势预测方法、系统及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200144417A (ko) 2019-06-18 2020-12-29 빅펄 주식회사 멀티모달 콘텐츠 분석 시스템 및 그 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101369270B1 (ko) * 2012-03-29 2014-03-10 서울대학교산학협력단 멀티 채널 분석을 이용한 비디오 스트림 분석 방법
KR102387305B1 (ko) * 2017-11-17 2022-04-29 삼성전자주식회사 멀티모달 데이터 학습 방법 및 장치
CN112106043B (zh) * 2018-12-07 2022-06-07 首尔大学校产学协力团 问题应答装置及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200144417A (ko) 2019-06-18 2020-12-29 빅펄 주식회사 멀티모달 콘텐츠 분석 시스템 및 그 방법

Also Published As

Publication number Publication date
WO2023136417A1 (ko) 2023-07-20
JP2023103966A (ja) 2023-07-27

Similar Documents

Publication Publication Date Title
US20160232444A1 (en) Scoring type coercion for question answering
US9454725B2 (en) Passage justification scoring for question answering
EP3724823A1 (en) Concurrent training of functional subnetworks of a neural network
US20200192985A1 (en) Method and apparatus with machine translation
Burns et al. A dataset for interactive vision-language navigation with unknown command feasibility
CN111433784A (zh) 用于检索视频时间段的方法和系统
US10423416B2 (en) Automatic creation of macro-services
CN118212328A (zh) 使用生成模型的对应于用户输入的故事视频生成
US9524475B1 (en) Presenting discriminant change history records on topology graphs
KR20230109931A (ko) 비디오 스토리 질의 응답을 위한 트랜스포머 모델을 구축하는 장치 및 방법
CN112396085A (zh) 识别图像的方法和设备
JP7348296B2 (ja) 目標志向的強化学習方法及びこれを遂行するための装置
US11423655B2 (en) Self-supervised sequential variational autoencoder for disentangled data generation
KR102245480B1 (ko) 레이어 블록을 이용한 딥러닝 모델 생성 방법
KR20200068553A (ko) 딥러닝 네트워크를 이용하여 복수의 이미지들로부터 이야기를 생성하기 위한 방법 및 장치
US8621486B2 (en) Significance level automation
US11157829B2 (en) Method to leverage similarity and hierarchy of documents in NN training
WO2022116762A1 (en) Learning unpaired multimodal feature matching for semi-supervised learning
CN114676832A (zh) 神经网络模型运行方法、介质和电子设备
WO2021113467A1 (en) Generating followup questions for interpretable recursive multi-hop question answering
KR20210047666A (ko) 연속데이터 기반 무결성 부여 해쉬체인 생성장치 및 해쉬체인 생성방법
KR102675490B1 (ko) 다수준 등장인물 주의집중을 통한 비디오 스토리 이해 방법 및 이를 수행하기 위한 컴퓨팅 장치
US11182673B2 (en) Temporal memory adapted for single-shot learning and disambiguation of multiple predictions
KR102560188B1 (ko) 멀티모달 인공지능 에이전트를 이용하여 강화학습을 수행하는 방법 및 이를 수행하기 위한 컴퓨팅 장치
KR102321064B1 (ko) 부호화된 네트워크 생성 장치 및 방법