KR20210056071A - 심층 영상 이해를 이용한 영상 기반 대화 시스템 - Google Patents

심층 영상 이해를 이용한 영상 기반 대화 시스템 Download PDF

Info

Publication number
KR20210056071A
KR20210056071A KR1020190142709A KR20190142709A KR20210056071A KR 20210056071 A KR20210056071 A KR 20210056071A KR 1020190142709 A KR1020190142709 A KR 1020190142709A KR 20190142709 A KR20190142709 A KR 20190142709A KR 20210056071 A KR20210056071 A KR 20210056071A
Authority
KR
South Korea
Prior art keywords
feature
answer
image
question
conversation
Prior art date
Application number
KR1020190142709A
Other languages
English (en)
Other versions
KR102352128B1 (ko
Inventor
김인철
조영수
Original Assignee
경기대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경기대학교 산학협력단 filed Critical 경기대학교 산학협력단
Priority to KR1020190142709A priority Critical patent/KR102352128B1/ko
Publication of KR20210056071A publication Critical patent/KR20210056071A/ko
Application granted granted Critical
Publication of KR102352128B1 publication Critical patent/KR102352128B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3349Reuse of stored results of previous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06K9/00711
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

심층 영상 이해를 이용한 영상 기반 대화 시스템이 개시된다. 이 시스템은 입력 영상 내 객체의 속성 정보를 인식하는 입력 처리부, 및 입력 영상에 관한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 답변을 선택하되 객체의 속성 정보를 고려하여 답변을 선택한다.

Description

심층 영상 이해를 이용한 영상 기반 대화 시스템{System for visual dialog using deep visual understanding}
본 발명은 심층 신경망(deep neural network) 모델에 관한 것으로, 특히 영상에 관한 질문과 답변으로 진행되는 영상 기반 대화(visual dialog)를 위한 심층 신경망 모델에 관한 것이다.
최근 들어 컴퓨터 비전(computer vision) 기술과 자연어 처리(natural language processing) 기술이 발달함에 따라, 이 두 가지 기술들이 함께 요구되는 영상/비디오 캡션 생성(image/video captioning), 영상 기반 질문-응답(visula question answering, VQA), 영상 기반 대화(visual dialog) 등과 같은 복합 지능 문제들에 관한 연구들이 활발해졌다. 일반적으로 영상 기반 질문-응답(VQA)에서는 입력 영상에 관해 질문과 답변을 주고받되, 질문들 간에는 서로 독립성이 있다고 가정한다. 이에 반해, 영상 기반 질문-응답(VQA)을 확장한 영상 기반 대화는 하나의 영상에 관해 지속적으로 질문과 답변을 주고받는 작업을 말하며, 질문들 간에는 직간접적으로 상호 의존성이 존재할 수 있다고 가정한다.
국내등록특허공보 제10-1804632호 (2017년 12월 4일 공고)
본 발명은 영상 기반 대화를 위한 답변자 에이전트의 성능 향상을 위한 기술적 방안을 제공함을 목적으로 한다.
일 양상에 따른 심층 영상 이해를 이용한 영상 기반 대화 시스템은 입력 영상 내 객체의 속성 정보를 인식하는 입력 처리부, 및 입력 영상에 관한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 답변을 선택하되 객체의 속성 정보를 고려하여 답변을 선택할 수 있다.
입력 처리부는 입력 영상에 대한 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 영상 처리부, 입력 영상에 대한 질문자의 질문 특징과 과거 대화 특징을 융합하여 언어 특징을 생성하는 언어 처리부, 및 최종 시각 특징과 언어 특징을 융합하여 맥락 특징을 생성하는 맥락 생성부를 포함하며, 답변 선택부는 맥락 특징을 기반으로 답변 리스트에 속한 후보 답변들 중에서 질문에 대한 답변을 선택할 수 있다.
영상 처리부는 입력 영상 전체에 대한 시각 특징을 추출하는 시각 특징 추출부, 입력 영상에서 객체를 탐지하는 객체 탐지부, 탐지 객체의 속성 정보를 인식하는 속성 인식부, 및 시각 특징과 탐지 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 최종 시각 특징 생성부를 포함할 수 있다.
영상 처리부는 언어 특징을 사용하여 시각 특징에 주의 집중(attention)을 적용하는 시각 주의 집중부를 더 포함하며, 최종 시각 특징 생성부는 주의 집중된 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성할 수 있다.
언어 처리부는 영상에 대한 현재 질문으로부터 질문 특징을 추출하는 질문 특징 추출부, 영상에 대해 질문-대답 쌍으로 이루어진 과거 대화 이력으로부터 질문-대답 쌍별로 대화 특징을 추출하는 대화 특징 추출부, 및 질문 특징과 대화 특징을 융합하여 언어 특징을 생성하는 언어 특징 생성부를 포함할 수 있다.
언어 특징 생성부는 현재 질문 특징과 각각의 대화 특징을 내적 연산(Inner Product)한 후에 상대적으로 연관도가 높은 대화 특징에 주의 집중하는 언어 주의 집중부를 포함할 수 있다.
답변 선택부는 답변 리스트에 속한 후보 답변마다 답변 특징을 추출하고, 맥락 특징과 각각의 답변 특징을 내적 연산하여 내적값을 구한 후에 해당 후보 답변의 점수로 변환하며, 변환된 점수들 중에서 상대적으로 높은 점수의 후보 답변을 질문에 대한 답변으로 선택 출력할 수 있다.
답변 선택부는 후보 답변들을 각각 단어 임베딩(Word Embedding)시킨 후에 LSTM(Long-Short Term Memory)을 통해 인코딩하여 답변 특징을 추출할 수 있다.
한편, 일 양상에 따른 심층 영상 이해를 이용한 영상 기반 대화 방법은 입력 영상 내 객체의 속성 정보를 인식하는 입력 처리 단계, 및 입력 영상에 관한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 답변을 선택하되 객체의 속성 정보를 고려하여 답변을 선택하는 답변 선택 단계를 포함할 수 있다.
본 발명은 영상 기반 대화에 있어서 주어진 영상에 포함된 객체를 탐지하고 그 속성을 인식한 후에 그 정보를 질문자의 질문에 대한 답변을 생성하는데 추가적으로 이용함으로써, 답변자 에이전트의 성능을 향상시키는 효과를 창출한다.
도 1은 일 실시예에 따른 심층 영상 이해를 이용한 영상 기반 대화 시스템 블록도이다.
도 2는 영상 기반 대화(Visual Dialog)의 예를 나타낸다.
도 3은 일 실시예에 따른 인코더 구조도이다.
도 4는 일 실시예에 따른 디코더 구조도이다.
전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 심층 영상 이해를 이용한 영상 기반 대화 시스템 블록도이다. 본 시스템은 컴퓨팅 가능한 전자 기기에 탑재 가능한 것으로, 전자 기기에는 제한이 없다. 예를 들어, 휴대 가능한 스마트폰이나 스마트패드와 같은 모바일 단말은 물론 고정 설치된 컴퓨팅 장비나 고정 혹은 이동 가능한 대화형 로봇 등이 될 수 있다. 도 1에 도시된 바와 같이, 본 시스템은 입력 처리부(100)와 답변 선택부(500)를 포함한다. 이들은 소프트웨어적으로 구현될 수 있으며, 하드웨어적으로 하나 이상의 프로세서에 의해 실행되어 해당 프로세스를 수행한다. 입력 처리부(100)는 영상 기반 대화를 위해 입력으로 주어진 영상에서 객체를 탐지하고 그 탐지된 객체의 속성 정보를 인식한다. 그리고 답변 선택부(500)는 입력 영상과 관련한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 적절한 답변을 선택하는데, 이때 입력 처리부(100)에서 인식된 객체의 속성 정보를 고려하여 답변을 선택한다.
입력 처리부(100)는 영상 처리부(200)와 언어 처리부(300) 및 맥락 생성부(400)를 포함할 수 있다. 영상 처리부(200)는 입력 영상의 시각 특징을 추출하고 그 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성한다. 언어 처리부(300)는 입력 영상에 대한 질문자의 질문으로부터 추출된 질문 특징과 입력 영상에 대한 과거의 대화 이력으로부터 추출된 하나 이상의 대화 특징을 융합하여 언어 특징을 생성한다. 시각 특징과 질문 특징 및 대화 특징 추출을 위해 딥러닝 알고리즘이 이용될 수 있다. 맥락 생성부(400)는 영상 처리부(200)의 최종 시각 특징과 언어 처리부(300)의 언어 특징을 융합하여 맥락 특징을 생성한다. 이 맥락 특징은 질문자의 질문에 대한 답변 선택을 위해 이용된다. 즉, 답변 선택부(500)는 맥락 생성부(400)에 의해 생성된 맥락 특징에 기초하여 답변 리스트에 속한 후보 답변들 중에서 질문에 대한 가장 적절한 답변을 선택한다.
영상 처리부(200)는 시각 특징 추출부(210)와 객체 탐지부(220)와 속성 인식부(230) 및 최종 시각 특징 생성부(240)를 포함할 수 있다. 시각 특징 추출부(210)는 입력 영상에 대한 시각 특징을 추출하는데, 합성곱 신경망(Convolutional Newral Network, CNN) 알고리즘을 이용하여 시각 특징을 추출할 수 있다. 일 실시예에 있어서, 시각 특징 추출부(210)에서 사용되는 합성곱 신경망은 VGG16이다. 객체 탐지부(220)는 입력 영상에 속한 객체를 탐지한다. 탐지 대상 객체는 사람으로 제한될 수 있다. 일 실시예에 있어서, 객체 탐지부(220)는 단-단계 탐지기(single-phase detector)인 YOLO(You Only Look Once)를 사용하여 영상에 존재하는 객체를 탐지한다. 구체적으로, YOLO v3가 사용될 수 있다. 그리고 객체 탐지를 위해 사용되는 YOLO는 MO COCO 데이터 집합에서 사람을 탐지하도록 미리 학습된 것일 수 있다.
속성 인식부(230)는 탐지된 객체의 속성 정보를 인식한다. 일 실시예에 있어서, 속성 인식부는 DeepMAR에 기반하여 객체의 속성을 인식한다. DeepMAR보행자 데이터 집합인 PETA로 미리 학습된 것일 수 있다. 그리고 속성 정보에는 성별(gender), 연령(age), 의복 스타일(concept) 중에서 적어도 일부가 포함될 수 있는데, 속성 인식부(230)는 DeepMAR을 변형하여 PETA 데이터셋에서 정의된 속성들 중에서도 사람에 대해 가장 많이 나오는 속성인 성별, 연령, 의복 스타일을 인식한다.
최종 시각 특징 생성부(240)는 시각 특징 추출부(210)에 의해 추출된 시각 특징과 속성 인식부(230)에 의해 인식된 속성 정보를 융합하여 최종 시각 특징을 생성한다. 최종 시각 특징을 생성하는데 이용되는 시각 특징은 언어 특징을 이용하여 주의 집중된 것일 수 있다. 이를 위해, 영상 처리부(200)는 시각 주의 집중부(250)를 더 포함하는데, 시각 주의 집중부(250)는 언어 특징을 사용하여 어텐션 기법(예를 들어, soft-attention)을 통해 시각 특징에 주의 집중을 적용한다.
언어 처리부(300)는 질문 특징 추출부(310)와 대화 특징 추출부(320) 및 언어 특징 생성부(330)를 포함할 수 있다. 질문 특징 추출부(310)는 입력 영상에 대해 자연어로 구성된 질문으로부터 질문 특징을 추출한다. 일 실시예에 있어서, 질문 특징 추출부(310)는 질문자의 질문에 대해 순환신경망(recurrent neural network)인 LSTM(Long Short-Term Memory)에 기초하여 특징을 추출한다. 대화 특징 추출부(320)는 입력 영상에 대해 자연어로 구성된 과거 대화 이력(이전 대화 이력)으로부터 대화 특징을 추출한다. 일 실시예에 있어서, 대화 특징 추출부(320)는 과거 대화 이력을 구성하는 각 라운드의 질문과 답변 쌍에 대해 LSTM 신경망에 기초하여 특징을 추출을 추출한다. 여기서, 과거 대화 이력은 입력 영상에 대해 현재 질문 이전에 이루어진 각 라운드의 질문과 답변 쌍을 포함하여 구성되는데, 입력 영상에 대한 짧은 설명문인 캡션(caption)도 포함될 수 있다. 참고로, 라운드라 함은 질문 순번(횟수)을 의미하는 것으로, 현재 질문이 10번째 질문일 경우에는 10라운드가 되며, 과거 대화 이력에는 총 9개의 질문-답변 쌍이 포함된다.
언어 특징 생성부(330)는 추출된 질문 특징과 대화 특징을 융합하여 언어 특징을 생성한다. 이때, 언어 특징은 주의 집중이 적용된 것일 수 있다. 이를 위해, 언어 특징 생성부(330)는 언어 주의 집중부(331)를 포함한다. 언어 주의 집중부(331)는 현재 질문 특징과 각각의 대화 특징을 내적 연산(Inner Product)한 후에 상대적으로 현재 질문과 연관도가 높은 대화 특징에 주의 집중한다.
한편, 답변 선택부(500)는 답변 리스트에 속한 후보 답변마다 답변 특징을 추출한다. 일 실시예에 있어서, 답변 선택부(500)는 후보 답변들을 각각 단어 임베딩(Word Embedding)시킨 후에 LSTM(Long-Short Term Memory)을 통해 인코딩함에 의해 후보 답변별로 답변 특징을 추출한다. 답변 특징 추출이 완료되면, 답변 선택부(500)는 맥락 특징과 각각의 답변 특징을 내적 연산하여 내적값을 구한 후에 해당 후보 답변의 점수로 변환하며, 변환된 점수들 중에서 상대적으로 높은 점수의 후보 답변을 질문에 대한 답변으로 선택 출력한다.
이하에서는 심층 영상 이해를 이용한 영상 기반 대화 방법에 대해 보다 구체적으로 설명한다. 본 시스템은 인코더-디코더 구조(encoder-decoder framework)로 이루어질 수 있다. 즉, 답변자 에이전트는 인코더-디코더 구조로 설계될 수 있다. 인코더-디코더 구조에서 인코더는 입력(영상, 질문, 과거 대화 이력)들의 특징을 추출한 후 이를 융합하는 과정을 진행하고, 디코더는 융합된 특징을 입력으로 사용하여 후보 답변 리스트에서 가장 적절한 답변을 선택한다. 도 1에서 입력 처리부(100)는 인코더에 해당하며, 답변 선택부(500)는 디코더에 해당한다.
도 2와 같이 답변자 에이전트에게는 하나의 영상과 이 영상에 관한 캡션(caption) 문장이 주어질 수 있다. 질문자가 매번 영상에 관한 질문을 던지면, 답변자 에이전트가 에이전트가 적절한 답변을 생성함으로써 대화가 진행된다. 따라서 답변자 에이전트 인코더의 입력으로는 주어진 영상(Image
Figure pat00001
), 현재 라운드의 질문(Question
Figure pat00002
), 그리고 캡션을 포함한 이전 라운드까지의 대화 이력(History)
Figure pat00003
이 주어진다. 인코더에서 입력들은 각각의 네트워크를 거쳐 특징들이 추출된다. 추출된 특징들을 결합시켜 최종 인코딩된 특징(Encoded Features
Figure pat00004
)인 맥락 특징을 얻는다. 디코더는 인코더의 출력
Figure pat00005
와 현재 질문에 해당하는 100개의 후보 답변 리스트(
Figure pat00006
)를 받는다. 디코더는 후보 답변 리스트에서 가장 적절한 답변(
Figure pat00007
)을 선택한다.
인코더에 대해 설명한다. 인코더는 대화 이력
Figure pat00008
와 현재의 질문
Figure pat00009
로부터 언어 특징(linguistic features) 벡터
Figure pat00010
을 추출한다. 언어 특징 벡터와 입력 영상으로부터 추출된 시각적 특징 벡터를 최종 인코딩된 특징 벡터를 생성하는데 사용된다. 도 2에 인코더의 구조가 도시되어 있다. 대화 이력
Figure pat00011
과 현재의 질문
Figure pat00012
는 모두 자연어 텍스트이다. 따라서 영상 캡션
Figure pat00013
, 각 라운드의 질문과 답변 쌍
Figure pat00014
, 그리고 현재의 질문
Figure pat00015
는 각각 단어 임베딩(Word Embedding)과 순환 신경망(Recurrent Neural Network, RNN)인 LSTM(Long-Short Term Memory) 계층을 통해 특징을 인코딩한다. 다음 단계에서는 과거 대화 이력
Figure pat00016
에서 현재의 질문
Figure pat00017
과 연관성이 높은 질문과 답변 쌍
Figure pat00018
에 주의 집중(attention)한다. 현재의 질문
Figure pat00019
의 특징 벡터와 대화 이력
Figure pat00020
를 구성하는 각각의 질문-답변 쌍
Figure pat00021
의 특징 벡터들과 내적(Inner Product) 연산을 통해 연관성을 계산한다. 이렇게 계산된 현재 질문
Figure pat00022
과의 연관도는 대화 이력
Figure pat00023
를 구성하는 각 질문-답변 쌍
Figure pat00024
에 대한 가중치(weight)로 사용된다. 그리고 이 가중치들을 기초로 질문-답변 쌍
Figure pat00025
들에 대한 가중 합(Weighted Sum)을 계산함으로써, 대화 이력
Figure pat00026
에 대한 최종 특징 벡터를 구한다. 이렇게 구해진 대화 이력
Figure pat00027
의 특징 벡터는 다시 현재 질문
Figure pat00028
의 특징 벡터와 단순 결합(Concatenation)된 후, 완전 연결 층(Fully-Connected Layer)을 거쳐 하나의 언어 특징(linguistic features) 벡터
Figure pat00029
을 생성한다.
인코더에서는 입력 영상 안에 존재하는 사람들에 대한 속성 정보(attribute)를 추출해낸다. 또한, 인코더는 언어 특징 벡터를 사용하여 전체 이미지에서 가장 관련 있는 영역에 주의 집중한다. 우선, 입력 영상
Figure pat00030
으로부터 대표적인 합성곱 신경망(convolutional neural network, CNN)인 VGG16을 통해 영상 전체에 관한 시각 특징을 추출한다. 이어서 MS COCO 데이터 집합에서 사람을 탐지하도록 미리 학습시킨 YOLO v3를 사람 탐지기(Person Detector)로 사용한다. YOLO v3를 통해 영상 특징 맵(visual feature map)에서 각각의 사람 영역을 탐지해낸다(Person Detection). 이와 같은 사람 탐지 단계(person detection stage)를 통해 얻는 각 사람 영역의 시각 특징(Cropped Regions)들은 사람 속성 인식(Person Attribute Recognition) 단계를 거친다. 보행자 데이터 집합인 PETA로 학습된 DeepMAR을 사람 속성 인식기(Person Attribute Recognizer)로 사용한다.
본 시스템에서는 DeepMAR을 변형하여, 각 사람마다 성별(gender), 연령(age), 의복 스타일(clothes concept) 속성들을 추출해낸다. 이때, 성별 속성은 여성(female), 남성(male)과 같이 2가지 중 하나의 값을 가질 수 있으며, 연령 속성은 30세 미만(less than 30), 30세 이상 44세 이하(30 to 44), 45세 이상 59세 이하(45 to 59) 그리고 60세 이상(60 and above) 과 같이 4가지 값 중 하나의 값을 가질 수 있다. 또한, 연령 속성은 추가적으로 30세 이하는 젊다(young), 나머지는 늙었다(old)와 같이 2가지 중 하나의 값을 가질 수도 있다. 마지막으로, 의복 스타일은 평상복(casual), 정복(formal)과 같이 2가지 중 하나의 값을 가질 수 있다.
인코더는 주의 집중 메커니즘을 사용하여 입력 영상에서 현재 질문
Figure pat00031
와 대화 이력
Figure pat00032
와 관련 있는 영역을 알아낸다. 전체 영상에 관한 시각 특징 벡터와 언어 특징 벡터 사이의 상관 관계는 내적을 통해 계산된다. 이후, 계산된 내적 값은 소프트맥스(Softmax) 계층을 통해 가중치 값으로 사용된다. 이 가중치를 전체 영상에 관한 시각 특징에 적용하여 주의 집중된 시각 특징 벡터를 구한다. 추출된 사람의 속성들과 주의 집중이 적용된 영상 전체에 관한 시각 특징은 단순 결합(Concatenation)과 완전 연결 층(Fully-Connected Layer)을 거치면서 하나로 결합된다. 결합된 특징은 최종적인 시각 특징 벡터
Figure pat00033
와 언어 특징 벡터
Figure pat00034
을 단순 결합한 후, 완전 연결 층을 거쳐 최종 인코딩된 특징(final encoded features) 벡터
Figure pat00035
를 생성한다.
디코더에 대해 설명한다. 본 시스템의 식별 디코더(Discriminative Decoder)는 인코더로부터 얻은 융합된 특징 정보인
Figure pat00036
를 기반으로 답변 리스트(
Figure pat00037
)에서 가장 적절한 답변을 선택한다. 도 3에 식별 디코더의 구조가 도시되어 있다. 식별 디코더는 입력으로 들어오는 답변 리스트(
Figure pat00038
)의 각 후보 답변
Figure pat00039
들을 단어 임베딩(Word Embedding)을 시킨 이후에 LSTM을 사용하여 인코딩한다. 인코딩된 각각의 답변 특징 벡터는 인코더의 출력인
Figure pat00040
와 내적(Dot Product)을 구해, 둘 사이의 연관성을 계산한다. 그리고 각각의 내적값들은 Softmax를 통과하면서 각 후보 답변의 점수
Figure pat00041
로 변환되어 점수 리스트(
Figure pat00042
)에 저장된다. 디코더를 학습할 때는 정답 답변의 색인과 점수 리스트를 사용하여 교차 엔트로피 오차(Cross Entropy Error)가 최소화되도록 학습한다. 학습된 디코더를 이용해 주어진 질문에 대한 답변을 선택할 때는 점수 리스트를 참조하여 점수가 가장 높은 답변을 선택하여 출력한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100 : 입력 처리부 200 : 영상 처리부
210 : 시각 특징 추출부 220 : 객체 탐지부
230 : 속성 인식부 240 : 최종 시각 특징 생성부
250 : 시각 주의 집중부 300 : 언어 처리부
310 : 질문 특징 추출부 320 : 대화 특징 추출부
330 : 언어 특징 생성부 331 : 언어 주의 집중부
400 : 맥락 생성부 500 : 답변 선택부

Claims (18)

  1. 입력 영상 내 객체의 속성 정보를 인식하는 입력 처리부; 및
    입력 영상에 관한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 답변을 선택하되, 객체의 속성 정보를 고려하여 답변을 선택하는 답변 선택부;
    를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
  2. 제 1 항에 있어서, 입력 처리부는 :
    입력 영상에 대한 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 영상 처리부;
    입력 영상에 대한 질문자의 질문 특징과 과거 대화 특징을 융합하여 언어 특징을 생성하는 언어 처리부; 및
    최종 시각 특징과 언어 특징을 융합하여 맥락 특징을 생성하는 맥락 생성부;를 포함하며,
    답변 선택부는 맥락 특징을 기반으로 답변 리스트에 속한 후보 답변들 중에서 질문에 대한 답변을 선택하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
  3. 제 2 항에 있어서, 영상 처리부는 :
    입력 영상 전체에 대한 시각 특징을 추출하는 시각 특징 추출부;
    입력 영상에서 객체를 탐지하는 객체 탐지부;
    탐지 객체의 속성 정보를 인식하는 속성 인식부; 및
    시각 특징과 탐지 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 최종 시각 특징 생성부;
    를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
  4. 제 3 항에 있어서, 영상 처리부는 :
    언어 특징을 사용하여 시각 특징에 주의 집중(attention)을 적용하는 시각 주의 집중부;를 더 포함하며,
    최종 시각 특징 생성부는 주의 집중된 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
  5. 제 3 항에 있어서,
    객체 탐지부는 YOLO(You Only Look Once)를 사용하여 영상에 존재하는 객체를 탐지하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
  6. 제 3 항에 있어서,
    속성 인식부는 DeepMAR을 사용하여 객체의 속성을 인식하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
  7. 제 4 항에 있어서, 언어 처리부는 :
    영상에 대한 현재 질문으로부터 질문 특징을 추출하는 질문 특징 추출부;
    영상에 대해 질문-대답 쌍으로 이루어진 과거 대화 이력으로부터 질문-대답 쌍별로 대화 특징을 추출하는 대화 특징 추출부; 및
    질문 특징과 대화 특징을 융합하여 언어 특징을 생성하는 언어 특징 생성부;
    를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
  8. 제 7 항에 있어서, 언어 특징 생성부는 :
    현재 질문 특징과 각각의 대화 특징을 내적 연산(Inner Product)한 후에 상대적으로 연관도가 높은 대화 특징에 주의 집중하는 언어 주의 집중부;
    를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    객체는 사람이며 속성 정보에는 성별, 연령, 의복 스타일 중에서 적어도 일부가 포함된 심층 영상 이해를 이용한 영상 기반 대화 시스템.
  10. 제 2 항 내지 제 8 항 중 어느 한 항에 있어서,
    답변 선택부는 답변 리스트에 속한 후보 답변마다 답변 특징을 추출하고, 맥락 특징과 각각의 답변 특징을 내적 연산하여 내적값을 구한 후에 해당 후보 답변의 점수로 변환하며, 변환된 점수들 중에서 상대적으로 높은 점수의 후보 답변을 질문에 대한 답변으로 선택 출력하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
  11. 제 10 항에 있어서,
    답변 선택부는 후보 답변들을 각각 단어 임베딩(Word Embedding)시킨 후에 LSTM(Long-Short Term Memory)을 통해 인코딩하여 답변 특징을 추출하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
  12. 입력 영상 내 객체의 속성 정보를 인식하는 입력 처리 단계; 및
    입력 영상에 관한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 답변을 선택하되, 객체의 속성 정보를 고려하여 답변을 선택하는 답변 선택 단계;
    를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 방법.
  13. 제 12 항에 있어서, 입력 처리 단계는 :
    입력 영상에 대한 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 영상 처리 단계;
    입력 영상에 대한 질문자의 질문 특징과 과거 대화 특징을 융합하여 언어 특징을 생성하는 언어 처리 단계; 및
    최종 시각 특징과 언어 특징을 융합하여 맥락 특징을 생성하는 단계;를 포함하며,
    답변 선택 단계는 맥락 특징을 기반으로 답변 리스트에 속한 후보 답변들 중에서 질문에 대한 답변을 선택하는 심층 영상 이해를 이용한 영상 기반 대화 방법.
  14. 제 13 항에 있어서, 영상 처리 단계는 :
    입력 영상 전체에 대한 시각 특징을 추출하는 단계;
    입력 영상 내 객체를 탐지하는 단계;
    탐지 객체의 속성 정보를 인식하는 단계;
    언어 특징을 사용하여 시각 특징에 주의 집중을 적용하는 단계; 및
    주의 집중된 시각 특징과 탐지 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 단계;
    를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 방법.
  15. 제 14 항에 있어서, 언어 처리 단계는 :
    영상에 대한 현재 질문으로부터 질문 특징을 추출하는 단계;
    영상에 대해 질문-대답 쌍으로 이루어진 과거 대화 이력으로부터 질문-대답 쌍별로 대화 특징을 추출하는 단계; 및
    질문 특징과 대화 특징을 융합하여 언어 특징을 생성하는 단계;
    를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 방법.
  16. 제 15 항에 있어서,
    언어 특징 생성 단계는 현재 질문 특징과 각각의 대화 특징을 내적 연산(Inner Product)한 후에 상대적으로 연관도가 높은 대화 특징에 주의 집중하는 심층 영상 이해를 이용한 영상 기반 대화 방법.
  17. 제 13 항 내지 제 16 항 중 어느 한 항에 있어서, 답변 선택 단계는 :
    답변 리스트에 속한 후보 답변마다 답변 특징을 추출하는 단계;
    맥락 특징과 각각의 답변 특징을 내적 연산하여 내적값을 구한 후에 해당 후보 답변의 점수로 변환하는 단계; 및
    변환된 점수들 중에서 상대적으로 높은 점수의 후보 답변을 질문에 대한 답변으로 선택 출력하는 단계;
    를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 방법.
  18. 제 17 항에 있어서,
    답변 특징을 추출하는 단계는 후보 답변들을 각각 단어 임베딩(Word Embedding)한 후에 LSTM(Long-Short Term Memory)을 통해 인코딩하여 각각의 답변 특징을 추출하는 심층 영상 이해를 이용한 영상 기반 대화 방법.
KR1020190142709A 2019-11-08 2019-11-08 심층 영상 이해를 이용한 영상 기반 대화 시스템 KR102352128B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190142709A KR102352128B1 (ko) 2019-11-08 2019-11-08 심층 영상 이해를 이용한 영상 기반 대화 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190142709A KR102352128B1 (ko) 2019-11-08 2019-11-08 심층 영상 이해를 이용한 영상 기반 대화 시스템

Publications (2)

Publication Number Publication Date
KR20210056071A true KR20210056071A (ko) 2021-05-18
KR102352128B1 KR102352128B1 (ko) 2022-01-19

Family

ID=76158688

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190142709A KR102352128B1 (ko) 2019-11-08 2019-11-08 심층 영상 이해를 이용한 영상 기반 대화 시스템

Country Status (1)

Country Link
KR (1) KR102352128B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868451A (zh) * 2021-09-02 2021-12-31 天津大学 基于上下文级联感知的社交网络跨模态对话方法及装置
CN114661874A (zh) * 2022-03-07 2022-06-24 浙江理工大学 基于多角度语义理解与自适应双通道的视觉问答方法
CN115422388A (zh) * 2022-09-13 2022-12-02 四川省人工智能研究院(宜宾) 一种视觉对话方法及系统
KR20230020796A (ko) * 2021-08-04 2023-02-13 서울대학교산학협력단 다수준 등장인물 주의집중을 통한 비디오 스토리 이해 방법 및 이를 수행하기 위한 컴퓨팅 장치
WO2024015252A1 (en) * 2022-07-11 2024-01-18 Pryon Incorporated Supervised summarization and structuring of unstructured documents

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562147B2 (en) * 2020-01-23 2023-01-24 Salesforce.Com, Inc. Unified vision and dialogue transformer with BERT

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101804632B1 (ko) 2015-10-02 2017-12-04 엘지전자 주식회사 대화형 에이전트 서비스 제공 장치, 그 동작 방법
KR20190023547A (ko) * 2017-08-29 2019-03-08 서울대학교산학협력단 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101804632B1 (ko) 2015-10-02 2017-12-04 엘지전자 주식회사 대화형 에이전트 서비스 제공 장치, 그 동작 방법
KR20190023547A (ko) * 2017-08-29 2019-03-08 서울대학교산학협력단 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Dangwei Li et al., Multi-attribute learning for pedestrian attribute recognition in surveillance scenarios, 2015 3rd IAPR Asian Conference on Pattern Recognition, 2015.10.03, pp.111-115. *
Joseph Redmon et al., You Only Look Once: Unified, Real-Time Object Detection, 2016 IEEE Conference on Computer Vision and Pattern Recognition, 2016.06.30, pp.779-788. *
Qiang Wang and Yahong Han, Visual Dialog with Targeted Objects, 2019 IEEE International Conference on Multimedia and Expo, 2019.07.08, pp.1564-1569. *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230020796A (ko) * 2021-08-04 2023-02-13 서울대학교산학협력단 다수준 등장인물 주의집중을 통한 비디오 스토리 이해 방법 및 이를 수행하기 위한 컴퓨팅 장치
CN113868451A (zh) * 2021-09-02 2021-12-31 天津大学 基于上下文级联感知的社交网络跨模态对话方法及装置
CN113868451B (zh) * 2021-09-02 2024-06-11 天津大学 基于上下文级联感知的社交网络跨模态对话方法及装置
CN114661874A (zh) * 2022-03-07 2022-06-24 浙江理工大学 基于多角度语义理解与自适应双通道的视觉问答方法
CN114661874B (zh) * 2022-03-07 2024-04-30 浙江理工大学 基于多角度语义理解与自适应双通道的视觉问答方法
WO2024015252A1 (en) * 2022-07-11 2024-01-18 Pryon Incorporated Supervised summarization and structuring of unstructured documents
CN115422388A (zh) * 2022-09-13 2022-12-02 四川省人工智能研究院(宜宾) 一种视觉对话方法及系统

Also Published As

Publication number Publication date
KR102352128B1 (ko) 2022-01-19

Similar Documents

Publication Publication Date Title
KR102352128B1 (ko) 심층 영상 이해를 이용한 영상 기반 대화 시스템
KR102167760B1 (ko) 수어동작 인식 처리절차 및 움직임 추적 Pre-trained 모델을 이용한 수어동작 분석 알고리즘 시스템
CN111984772B (zh) 一种基于深度学习的医疗影像问答方法及系统
CN110781680A (zh) 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN113902964A (zh) 基于关键词感知的多模态注意力视频问答方法与系统
CN111967272B (zh) 基于语义对齐的视觉对话生成系统
CN113792177B (zh) 基于知识引导深度注意力网络的场景文字视觉问答方法
CN110543554A (zh) 针对多轮对话的分类方法和装置
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN111859954A (zh) 目标对象识别方法、装置、设备及计算机可读存储介质
Verma et al. A comprehensive review on automation of Indian sign language
CN111597341A (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN115237255B (zh) 一种基于眼动和语音的自然图像共指目标定位系统及方法
CN111311364B (zh) 基于多模态商品评论分析的商品推荐方法及系统
Xue et al. Lipformer: learning to lipread unseen speakers based on visual-landmark transformers
CN117150320B (zh) 对话数字人情感风格相似度评价方法及系统
Sharma et al. Sign language to speech translation
CN113780350B (zh) 一种基于ViLBERT和BiLSTM的图像描述方法
Park et al. KNU CI System at SemEval-2018 Task4: Character Identification by Solving Sequence-Labeling Problem
CN114419409A (zh) 基于人脸识别和分层融合策略的多模态恶意迷因图检测方法
Malakan et al. Classify, detect and tell: real-time American sign language
CN114067362A (zh) 基于神经网络模型的手语识别方法、装置、设备及介质
CN114492462A (zh) 基于情绪分析和生成式对抗网络的对话生成方法及系统
Eunice et al. Deep learning and sign language models based enhanced accessibility of e-governance services for speech and hearing-impaired

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)