KR20210056071A - 심층 영상 이해를 이용한 영상 기반 대화 시스템 - Google Patents
심층 영상 이해를 이용한 영상 기반 대화 시스템 Download PDFInfo
- Publication number
- KR20210056071A KR20210056071A KR1020190142709A KR20190142709A KR20210056071A KR 20210056071 A KR20210056071 A KR 20210056071A KR 1020190142709 A KR1020190142709 A KR 1020190142709A KR 20190142709 A KR20190142709 A KR 20190142709A KR 20210056071 A KR20210056071 A KR 20210056071A
- Authority
- KR
- South Korea
- Prior art keywords
- feature
- answer
- image
- question
- conversation
- Prior art date
Links
- 230000000007 visual effect Effects 0.000 title claims description 69
- 238000000034 method Methods 0.000 claims description 28
- 239000000284 extract Substances 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 18
- 239000003795 chemical substances by application Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- HVVWZTWDBSEWIH-UHFFFAOYSA-N [2-(hydroxymethyl)-3-prop-2-enoyloxy-2-(prop-2-enoyloxymethyl)propyl] prop-2-enoate Chemical compound C=CC(=O)OCC(CO)(COC(=O)C=C)COC(=O)C=C HVVWZTWDBSEWIH-UHFFFAOYSA-N 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- HAHMABKERDVYCH-ZUQRMPMESA-N neticonazole hydrochloride Chemical compound Cl.CCCCCOC1=CC=CC=C1\C(=C/SC)N1C=NC=C1 HAHMABKERDVYCH-ZUQRMPMESA-N 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3349—Reuse of stored results of previous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
- G06F16/784—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G06K9/00711—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
심층 영상 이해를 이용한 영상 기반 대화 시스템이 개시된다. 이 시스템은 입력 영상 내 객체의 속성 정보를 인식하는 입력 처리부, 및 입력 영상에 관한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 답변을 선택하되 객체의 속성 정보를 고려하여 답변을 선택한다.
Description
본 발명은 심층 신경망(deep neural network) 모델에 관한 것으로, 특히 영상에 관한 질문과 답변으로 진행되는 영상 기반 대화(visual dialog)를 위한 심층 신경망 모델에 관한 것이다.
최근 들어 컴퓨터 비전(computer vision) 기술과 자연어 처리(natural language processing) 기술이 발달함에 따라, 이 두 가지 기술들이 함께 요구되는 영상/비디오 캡션 생성(image/video captioning), 영상 기반 질문-응답(visula question answering, VQA), 영상 기반 대화(visual dialog) 등과 같은 복합 지능 문제들에 관한 연구들이 활발해졌다. 일반적으로 영상 기반 질문-응답(VQA)에서는 입력 영상에 관해 질문과 답변을 주고받되, 질문들 간에는 서로 독립성이 있다고 가정한다. 이에 반해, 영상 기반 질문-응답(VQA)을 확장한 영상 기반 대화는 하나의 영상에 관해 지속적으로 질문과 답변을 주고받는 작업을 말하며, 질문들 간에는 직간접적으로 상호 의존성이 존재할 수 있다고 가정한다.
본 발명은 영상 기반 대화를 위한 답변자 에이전트의 성능 향상을 위한 기술적 방안을 제공함을 목적으로 한다.
일 양상에 따른 심층 영상 이해를 이용한 영상 기반 대화 시스템은 입력 영상 내 객체의 속성 정보를 인식하는 입력 처리부, 및 입력 영상에 관한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 답변을 선택하되 객체의 속성 정보를 고려하여 답변을 선택할 수 있다.
입력 처리부는 입력 영상에 대한 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 영상 처리부, 입력 영상에 대한 질문자의 질문 특징과 과거 대화 특징을 융합하여 언어 특징을 생성하는 언어 처리부, 및 최종 시각 특징과 언어 특징을 융합하여 맥락 특징을 생성하는 맥락 생성부를 포함하며, 답변 선택부는 맥락 특징을 기반으로 답변 리스트에 속한 후보 답변들 중에서 질문에 대한 답변을 선택할 수 있다.
영상 처리부는 입력 영상 전체에 대한 시각 특징을 추출하는 시각 특징 추출부, 입력 영상에서 객체를 탐지하는 객체 탐지부, 탐지 객체의 속성 정보를 인식하는 속성 인식부, 및 시각 특징과 탐지 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 최종 시각 특징 생성부를 포함할 수 있다.
영상 처리부는 언어 특징을 사용하여 시각 특징에 주의 집중(attention)을 적용하는 시각 주의 집중부를 더 포함하며, 최종 시각 특징 생성부는 주의 집중된 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성할 수 있다.
언어 처리부는 영상에 대한 현재 질문으로부터 질문 특징을 추출하는 질문 특징 추출부, 영상에 대해 질문-대답 쌍으로 이루어진 과거 대화 이력으로부터 질문-대답 쌍별로 대화 특징을 추출하는 대화 특징 추출부, 및 질문 특징과 대화 특징을 융합하여 언어 특징을 생성하는 언어 특징 생성부를 포함할 수 있다.
언어 특징 생성부는 현재 질문 특징과 각각의 대화 특징을 내적 연산(Inner Product)한 후에 상대적으로 연관도가 높은 대화 특징에 주의 집중하는 언어 주의 집중부를 포함할 수 있다.
답변 선택부는 답변 리스트에 속한 후보 답변마다 답변 특징을 추출하고, 맥락 특징과 각각의 답변 특징을 내적 연산하여 내적값을 구한 후에 해당 후보 답변의 점수로 변환하며, 변환된 점수들 중에서 상대적으로 높은 점수의 후보 답변을 질문에 대한 답변으로 선택 출력할 수 있다.
답변 선택부는 후보 답변들을 각각 단어 임베딩(Word Embedding)시킨 후에 LSTM(Long-Short Term Memory)을 통해 인코딩하여 답변 특징을 추출할 수 있다.
한편, 일 양상에 따른 심층 영상 이해를 이용한 영상 기반 대화 방법은 입력 영상 내 객체의 속성 정보를 인식하는 입력 처리 단계, 및 입력 영상에 관한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 답변을 선택하되 객체의 속성 정보를 고려하여 답변을 선택하는 답변 선택 단계를 포함할 수 있다.
본 발명은 영상 기반 대화에 있어서 주어진 영상에 포함된 객체를 탐지하고 그 속성을 인식한 후에 그 정보를 질문자의 질문에 대한 답변을 생성하는데 추가적으로 이용함으로써, 답변자 에이전트의 성능을 향상시키는 효과를 창출한다.
도 1은 일 실시예에 따른 심층 영상 이해를 이용한 영상 기반 대화 시스템 블록도이다.
도 2는 영상 기반 대화(Visual Dialog)의 예를 나타낸다.
도 3은 일 실시예에 따른 인코더 구조도이다.
도 4는 일 실시예에 따른 디코더 구조도이다.
도 2는 영상 기반 대화(Visual Dialog)의 예를 나타낸다.
도 3은 일 실시예에 따른 인코더 구조도이다.
도 4는 일 실시예에 따른 디코더 구조도이다.
전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 심층 영상 이해를 이용한 영상 기반 대화 시스템 블록도이다. 본 시스템은 컴퓨팅 가능한 전자 기기에 탑재 가능한 것으로, 전자 기기에는 제한이 없다. 예를 들어, 휴대 가능한 스마트폰이나 스마트패드와 같은 모바일 단말은 물론 고정 설치된 컴퓨팅 장비나 고정 혹은 이동 가능한 대화형 로봇 등이 될 수 있다. 도 1에 도시된 바와 같이, 본 시스템은 입력 처리부(100)와 답변 선택부(500)를 포함한다. 이들은 소프트웨어적으로 구현될 수 있으며, 하드웨어적으로 하나 이상의 프로세서에 의해 실행되어 해당 프로세스를 수행한다. 입력 처리부(100)는 영상 기반 대화를 위해 입력으로 주어진 영상에서 객체를 탐지하고 그 탐지된 객체의 속성 정보를 인식한다. 그리고 답변 선택부(500)는 입력 영상과 관련한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 적절한 답변을 선택하는데, 이때 입력 처리부(100)에서 인식된 객체의 속성 정보를 고려하여 답변을 선택한다.
입력 처리부(100)는 영상 처리부(200)와 언어 처리부(300) 및 맥락 생성부(400)를 포함할 수 있다. 영상 처리부(200)는 입력 영상의 시각 특징을 추출하고 그 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성한다. 언어 처리부(300)는 입력 영상에 대한 질문자의 질문으로부터 추출된 질문 특징과 입력 영상에 대한 과거의 대화 이력으로부터 추출된 하나 이상의 대화 특징을 융합하여 언어 특징을 생성한다. 시각 특징과 질문 특징 및 대화 특징 추출을 위해 딥러닝 알고리즘이 이용될 수 있다. 맥락 생성부(400)는 영상 처리부(200)의 최종 시각 특징과 언어 처리부(300)의 언어 특징을 융합하여 맥락 특징을 생성한다. 이 맥락 특징은 질문자의 질문에 대한 답변 선택을 위해 이용된다. 즉, 답변 선택부(500)는 맥락 생성부(400)에 의해 생성된 맥락 특징에 기초하여 답변 리스트에 속한 후보 답변들 중에서 질문에 대한 가장 적절한 답변을 선택한다.
영상 처리부(200)는 시각 특징 추출부(210)와 객체 탐지부(220)와 속성 인식부(230) 및 최종 시각 특징 생성부(240)를 포함할 수 있다. 시각 특징 추출부(210)는 입력 영상에 대한 시각 특징을 추출하는데, 합성곱 신경망(Convolutional Newral Network, CNN) 알고리즘을 이용하여 시각 특징을 추출할 수 있다. 일 실시예에 있어서, 시각 특징 추출부(210)에서 사용되는 합성곱 신경망은 VGG16이다. 객체 탐지부(220)는 입력 영상에 속한 객체를 탐지한다. 탐지 대상 객체는 사람으로 제한될 수 있다. 일 실시예에 있어서, 객체 탐지부(220)는 단-단계 탐지기(single-phase detector)인 YOLO(You Only Look Once)를 사용하여 영상에 존재하는 객체를 탐지한다. 구체적으로, YOLO v3가 사용될 수 있다. 그리고 객체 탐지를 위해 사용되는 YOLO는 MO COCO 데이터 집합에서 사람을 탐지하도록 미리 학습된 것일 수 있다.
속성 인식부(230)는 탐지된 객체의 속성 정보를 인식한다. 일 실시예에 있어서, 속성 인식부는 DeepMAR에 기반하여 객체의 속성을 인식한다. DeepMAR보행자 데이터 집합인 PETA로 미리 학습된 것일 수 있다. 그리고 속성 정보에는 성별(gender), 연령(age), 의복 스타일(concept) 중에서 적어도 일부가 포함될 수 있는데, 속성 인식부(230)는 DeepMAR을 변형하여 PETA 데이터셋에서 정의된 속성들 중에서도 사람에 대해 가장 많이 나오는 속성인 성별, 연령, 의복 스타일을 인식한다.
최종 시각 특징 생성부(240)는 시각 특징 추출부(210)에 의해 추출된 시각 특징과 속성 인식부(230)에 의해 인식된 속성 정보를 융합하여 최종 시각 특징을 생성한다. 최종 시각 특징을 생성하는데 이용되는 시각 특징은 언어 특징을 이용하여 주의 집중된 것일 수 있다. 이를 위해, 영상 처리부(200)는 시각 주의 집중부(250)를 더 포함하는데, 시각 주의 집중부(250)는 언어 특징을 사용하여 어텐션 기법(예를 들어, soft-attention)을 통해 시각 특징에 주의 집중을 적용한다.
언어 처리부(300)는 질문 특징 추출부(310)와 대화 특징 추출부(320) 및 언어 특징 생성부(330)를 포함할 수 있다. 질문 특징 추출부(310)는 입력 영상에 대해 자연어로 구성된 질문으로부터 질문 특징을 추출한다. 일 실시예에 있어서, 질문 특징 추출부(310)는 질문자의 질문에 대해 순환신경망(recurrent neural network)인 LSTM(Long Short-Term Memory)에 기초하여 특징을 추출한다. 대화 특징 추출부(320)는 입력 영상에 대해 자연어로 구성된 과거 대화 이력(이전 대화 이력)으로부터 대화 특징을 추출한다. 일 실시예에 있어서, 대화 특징 추출부(320)는 과거 대화 이력을 구성하는 각 라운드의 질문과 답변 쌍에 대해 LSTM 신경망에 기초하여 특징을 추출을 추출한다. 여기서, 과거 대화 이력은 입력 영상에 대해 현재 질문 이전에 이루어진 각 라운드의 질문과 답변 쌍을 포함하여 구성되는데, 입력 영상에 대한 짧은 설명문인 캡션(caption)도 포함될 수 있다. 참고로, 라운드라 함은 질문 순번(횟수)을 의미하는 것으로, 현재 질문이 10번째 질문일 경우에는 10라운드가 되며, 과거 대화 이력에는 총 9개의 질문-답변 쌍이 포함된다.
언어 특징 생성부(330)는 추출된 질문 특징과 대화 특징을 융합하여 언어 특징을 생성한다. 이때, 언어 특징은 주의 집중이 적용된 것일 수 있다. 이를 위해, 언어 특징 생성부(330)는 언어 주의 집중부(331)를 포함한다. 언어 주의 집중부(331)는 현재 질문 특징과 각각의 대화 특징을 내적 연산(Inner Product)한 후에 상대적으로 현재 질문과 연관도가 높은 대화 특징에 주의 집중한다.
한편, 답변 선택부(500)는 답변 리스트에 속한 후보 답변마다 답변 특징을 추출한다. 일 실시예에 있어서, 답변 선택부(500)는 후보 답변들을 각각 단어 임베딩(Word Embedding)시킨 후에 LSTM(Long-Short Term Memory)을 통해 인코딩함에 의해 후보 답변별로 답변 특징을 추출한다. 답변 특징 추출이 완료되면, 답변 선택부(500)는 맥락 특징과 각각의 답변 특징을 내적 연산하여 내적값을 구한 후에 해당 후보 답변의 점수로 변환하며, 변환된 점수들 중에서 상대적으로 높은 점수의 후보 답변을 질문에 대한 답변으로 선택 출력한다.
이하에서는 심층 영상 이해를 이용한 영상 기반 대화 방법에 대해 보다 구체적으로 설명한다. 본 시스템은 인코더-디코더 구조(encoder-decoder framework)로 이루어질 수 있다. 즉, 답변자 에이전트는 인코더-디코더 구조로 설계될 수 있다. 인코더-디코더 구조에서 인코더는 입력(영상, 질문, 과거 대화 이력)들의 특징을 추출한 후 이를 융합하는 과정을 진행하고, 디코더는 융합된 특징을 입력으로 사용하여 후보 답변 리스트에서 가장 적절한 답변을 선택한다. 도 1에서 입력 처리부(100)는 인코더에 해당하며, 답변 선택부(500)는 디코더에 해당한다.
도 2와 같이 답변자 에이전트에게는 하나의 영상과 이 영상에 관한 캡션(caption) 문장이 주어질 수 있다. 질문자가 매번 영상에 관한 질문을 던지면, 답변자 에이전트가 에이전트가 적절한 답변을 생성함으로써 대화가 진행된다. 따라서 답변자 에이전트 인코더의 입력으로는 주어진 영상(Image ), 현재 라운드의 질문(Question ), 그리고 캡션을 포함한 이전 라운드까지의 대화 이력(History) 이 주어진다. 인코더에서 입력들은 각각의 네트워크를 거쳐 특징들이 추출된다. 추출된 특징들을 결합시켜 최종 인코딩된 특징(Encoded Features )인 맥락 특징을 얻는다. 디코더는 인코더의 출력 와 현재 질문에 해당하는 100개의 후보 답변 리스트()를 받는다. 디코더는 후보 답변 리스트에서 가장 적절한 답변()을 선택한다.
인코더에 대해 설명한다. 인코더는 대화 이력 와 현재의 질문 로부터 언어 특징(linguistic features) 벡터 을 추출한다. 언어 특징 벡터와 입력 영상으로부터 추출된 시각적 특징 벡터를 최종 인코딩된 특징 벡터를 생성하는데 사용된다. 도 2에 인코더의 구조가 도시되어 있다. 대화 이력 과 현재의 질문 는 모두 자연어 텍스트이다. 따라서 영상 캡션 , 각 라운드의 질문과 답변 쌍 , 그리고 현재의 질문 는 각각 단어 임베딩(Word Embedding)과 순환 신경망(Recurrent Neural Network, RNN)인 LSTM(Long-Short Term Memory) 계층을 통해 특징을 인코딩한다. 다음 단계에서는 과거 대화 이력 에서 현재의 질문 과 연관성이 높은 질문과 답변 쌍 에 주의 집중(attention)한다. 현재의 질문 의 특징 벡터와 대화 이력 를 구성하는 각각의 질문-답변 쌍 의 특징 벡터들과 내적(Inner Product) 연산을 통해 연관성을 계산한다. 이렇게 계산된 현재 질문 과의 연관도는 대화 이력 를 구성하는 각 질문-답변 쌍 에 대한 가중치(weight)로 사용된다. 그리고 이 가중치들을 기초로 질문-답변 쌍 들에 대한 가중 합(Weighted Sum)을 계산함으로써, 대화 이력 에 대한 최종 특징 벡터를 구한다. 이렇게 구해진 대화 이력 의 특징 벡터는 다시 현재 질문 의 특징 벡터와 단순 결합(Concatenation)된 후, 완전 연결 층(Fully-Connected Layer)을 거쳐 하나의 언어 특징(linguistic features) 벡터 을 생성한다.
인코더에서는 입력 영상 안에 존재하는 사람들에 대한 속성 정보(attribute)를 추출해낸다. 또한, 인코더는 언어 특징 벡터를 사용하여 전체 이미지에서 가장 관련 있는 영역에 주의 집중한다. 우선, 입력 영상 으로부터 대표적인 합성곱 신경망(convolutional neural network, CNN)인 VGG16을 통해 영상 전체에 관한 시각 특징을 추출한다. 이어서 MS COCO 데이터 집합에서 사람을 탐지하도록 미리 학습시킨 YOLO v3를 사람 탐지기(Person Detector)로 사용한다. YOLO v3를 통해 영상 특징 맵(visual feature map)에서 각각의 사람 영역을 탐지해낸다(Person Detection). 이와 같은 사람 탐지 단계(person detection stage)를 통해 얻는 각 사람 영역의 시각 특징(Cropped Regions)들은 사람 속성 인식(Person Attribute Recognition) 단계를 거친다. 보행자 데이터 집합인 PETA로 학습된 DeepMAR을 사람 속성 인식기(Person Attribute Recognizer)로 사용한다.
본 시스템에서는 DeepMAR을 변형하여, 각 사람마다 성별(gender), 연령(age), 의복 스타일(clothes concept) 속성들을 추출해낸다. 이때, 성별 속성은 여성(female), 남성(male)과 같이 2가지 중 하나의 값을 가질 수 있으며, 연령 속성은 30세 미만(less than 30), 30세 이상 44세 이하(30 to 44), 45세 이상 59세 이하(45 to 59) 그리고 60세 이상(60 and above) 과 같이 4가지 값 중 하나의 값을 가질 수 있다. 또한, 연령 속성은 추가적으로 30세 이하는 젊다(young), 나머지는 늙었다(old)와 같이 2가지 중 하나의 값을 가질 수도 있다. 마지막으로, 의복 스타일은 평상복(casual), 정복(formal)과 같이 2가지 중 하나의 값을 가질 수 있다.
인코더는 주의 집중 메커니즘을 사용하여 입력 영상에서 현재 질문 와 대화 이력 와 관련 있는 영역을 알아낸다. 전체 영상에 관한 시각 특징 벡터와 언어 특징 벡터 사이의 상관 관계는 내적을 통해 계산된다. 이후, 계산된 내적 값은 소프트맥스(Softmax) 계층을 통해 가중치 값으로 사용된다. 이 가중치를 전체 영상에 관한 시각 특징에 적용하여 주의 집중된 시각 특징 벡터를 구한다. 추출된 사람의 속성들과 주의 집중이 적용된 영상 전체에 관한 시각 특징은 단순 결합(Concatenation)과 완전 연결 층(Fully-Connected Layer)을 거치면서 하나로 결합된다. 결합된 특징은 최종적인 시각 특징 벡터 와 언어 특징 벡터 을 단순 결합한 후, 완전 연결 층을 거쳐 최종 인코딩된 특징(final encoded features) 벡터 를 생성한다.
디코더에 대해 설명한다. 본 시스템의 식별 디코더(Discriminative Decoder)는 인코더로부터 얻은 융합된 특징 정보인 를 기반으로 답변 리스트()에서 가장 적절한 답변을 선택한다. 도 3에 식별 디코더의 구조가 도시되어 있다. 식별 디코더는 입력으로 들어오는 답변 리스트()의 각 후보 답변 들을 단어 임베딩(Word Embedding)을 시킨 이후에 LSTM을 사용하여 인코딩한다. 인코딩된 각각의 답변 특징 벡터는 인코더의 출력인 와 내적(Dot Product)을 구해, 둘 사이의 연관성을 계산한다. 그리고 각각의 내적값들은 Softmax를 통과하면서 각 후보 답변의 점수 로 변환되어 점수 리스트()에 저장된다. 디코더를 학습할 때는 정답 답변의 색인과 점수 리스트를 사용하여 교차 엔트로피 오차(Cross Entropy Error)가 최소화되도록 학습한다. 학습된 디코더를 이용해 주어진 질문에 대한 답변을 선택할 때는 점수 리스트를 참조하여 점수가 가장 높은 답변을 선택하여 출력한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100 : 입력 처리부
200 : 영상 처리부
210 : 시각 특징 추출부 220 : 객체 탐지부
230 : 속성 인식부 240 : 최종 시각 특징 생성부
250 : 시각 주의 집중부 300 : 언어 처리부
310 : 질문 특징 추출부 320 : 대화 특징 추출부
330 : 언어 특징 생성부 331 : 언어 주의 집중부
400 : 맥락 생성부 500 : 답변 선택부
210 : 시각 특징 추출부 220 : 객체 탐지부
230 : 속성 인식부 240 : 최종 시각 특징 생성부
250 : 시각 주의 집중부 300 : 언어 처리부
310 : 질문 특징 추출부 320 : 대화 특징 추출부
330 : 언어 특징 생성부 331 : 언어 주의 집중부
400 : 맥락 생성부 500 : 답변 선택부
Claims (18)
- 입력 영상 내 객체의 속성 정보를 인식하는 입력 처리부; 및
입력 영상에 관한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 답변을 선택하되, 객체의 속성 정보를 고려하여 답변을 선택하는 답변 선택부;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 시스템. - 제 1 항에 있어서, 입력 처리부는 :
입력 영상에 대한 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 영상 처리부;
입력 영상에 대한 질문자의 질문 특징과 과거 대화 특징을 융합하여 언어 특징을 생성하는 언어 처리부; 및
최종 시각 특징과 언어 특징을 융합하여 맥락 특징을 생성하는 맥락 생성부;를 포함하며,
답변 선택부는 맥락 특징을 기반으로 답변 리스트에 속한 후보 답변들 중에서 질문에 대한 답변을 선택하는 심층 영상 이해를 이용한 영상 기반 대화 시스템. - 제 2 항에 있어서, 영상 처리부는 :
입력 영상 전체에 대한 시각 특징을 추출하는 시각 특징 추출부;
입력 영상에서 객체를 탐지하는 객체 탐지부;
탐지 객체의 속성 정보를 인식하는 속성 인식부; 및
시각 특징과 탐지 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 최종 시각 특징 생성부;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 시스템. - 제 3 항에 있어서, 영상 처리부는 :
언어 특징을 사용하여 시각 특징에 주의 집중(attention)을 적용하는 시각 주의 집중부;를 더 포함하며,
최종 시각 특징 생성부는 주의 집중된 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 심층 영상 이해를 이용한 영상 기반 대화 시스템. - 제 3 항에 있어서,
객체 탐지부는 YOLO(You Only Look Once)를 사용하여 영상에 존재하는 객체를 탐지하는 심층 영상 이해를 이용한 영상 기반 대화 시스템. - 제 3 항에 있어서,
속성 인식부는 DeepMAR을 사용하여 객체의 속성을 인식하는 심층 영상 이해를 이용한 영상 기반 대화 시스템. - 제 4 항에 있어서, 언어 처리부는 :
영상에 대한 현재 질문으로부터 질문 특징을 추출하는 질문 특징 추출부;
영상에 대해 질문-대답 쌍으로 이루어진 과거 대화 이력으로부터 질문-대답 쌍별로 대화 특징을 추출하는 대화 특징 추출부; 및
질문 특징과 대화 특징을 융합하여 언어 특징을 생성하는 언어 특징 생성부;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 시스템. - 제 7 항에 있어서, 언어 특징 생성부는 :
현재 질문 특징과 각각의 대화 특징을 내적 연산(Inner Product)한 후에 상대적으로 연관도가 높은 대화 특징에 주의 집중하는 언어 주의 집중부;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 시스템. - 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
객체는 사람이며 속성 정보에는 성별, 연령, 의복 스타일 중에서 적어도 일부가 포함된 심층 영상 이해를 이용한 영상 기반 대화 시스템. - 제 2 항 내지 제 8 항 중 어느 한 항에 있어서,
답변 선택부는 답변 리스트에 속한 후보 답변마다 답변 특징을 추출하고, 맥락 특징과 각각의 답변 특징을 내적 연산하여 내적값을 구한 후에 해당 후보 답변의 점수로 변환하며, 변환된 점수들 중에서 상대적으로 높은 점수의 후보 답변을 질문에 대한 답변으로 선택 출력하는 심층 영상 이해를 이용한 영상 기반 대화 시스템. - 제 10 항에 있어서,
답변 선택부는 후보 답변들을 각각 단어 임베딩(Word Embedding)시킨 후에 LSTM(Long-Short Term Memory)을 통해 인코딩하여 답변 특징을 추출하는 심층 영상 이해를 이용한 영상 기반 대화 시스템. - 입력 영상 내 객체의 속성 정보를 인식하는 입력 처리 단계; 및
입력 영상에 관한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 답변을 선택하되, 객체의 속성 정보를 고려하여 답변을 선택하는 답변 선택 단계;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 방법. - 제 12 항에 있어서, 입력 처리 단계는 :
입력 영상에 대한 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 영상 처리 단계;
입력 영상에 대한 질문자의 질문 특징과 과거 대화 특징을 융합하여 언어 특징을 생성하는 언어 처리 단계; 및
최종 시각 특징과 언어 특징을 융합하여 맥락 특징을 생성하는 단계;를 포함하며,
답변 선택 단계는 맥락 특징을 기반으로 답변 리스트에 속한 후보 답변들 중에서 질문에 대한 답변을 선택하는 심층 영상 이해를 이용한 영상 기반 대화 방법. - 제 13 항에 있어서, 영상 처리 단계는 :
입력 영상 전체에 대한 시각 특징을 추출하는 단계;
입력 영상 내 객체를 탐지하는 단계;
탐지 객체의 속성 정보를 인식하는 단계;
언어 특징을 사용하여 시각 특징에 주의 집중을 적용하는 단계; 및
주의 집중된 시각 특징과 탐지 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 단계;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 방법. - 제 14 항에 있어서, 언어 처리 단계는 :
영상에 대한 현재 질문으로부터 질문 특징을 추출하는 단계;
영상에 대해 질문-대답 쌍으로 이루어진 과거 대화 이력으로부터 질문-대답 쌍별로 대화 특징을 추출하는 단계; 및
질문 특징과 대화 특징을 융합하여 언어 특징을 생성하는 단계;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 방법. - 제 15 항에 있어서,
언어 특징 생성 단계는 현재 질문 특징과 각각의 대화 특징을 내적 연산(Inner Product)한 후에 상대적으로 연관도가 높은 대화 특징에 주의 집중하는 심층 영상 이해를 이용한 영상 기반 대화 방법. - 제 13 항 내지 제 16 항 중 어느 한 항에 있어서, 답변 선택 단계는 :
답변 리스트에 속한 후보 답변마다 답변 특징을 추출하는 단계;
맥락 특징과 각각의 답변 특징을 내적 연산하여 내적값을 구한 후에 해당 후보 답변의 점수로 변환하는 단계; 및
변환된 점수들 중에서 상대적으로 높은 점수의 후보 답변을 질문에 대한 답변으로 선택 출력하는 단계;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 방법. - 제 17 항에 있어서,
답변 특징을 추출하는 단계는 후보 답변들을 각각 단어 임베딩(Word Embedding)한 후에 LSTM(Long-Short Term Memory)을 통해 인코딩하여 각각의 답변 특징을 추출하는 심층 영상 이해를 이용한 영상 기반 대화 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190142709A KR102352128B1 (ko) | 2019-11-08 | 2019-11-08 | 심층 영상 이해를 이용한 영상 기반 대화 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190142709A KR102352128B1 (ko) | 2019-11-08 | 2019-11-08 | 심층 영상 이해를 이용한 영상 기반 대화 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210056071A true KR20210056071A (ko) | 2021-05-18 |
KR102352128B1 KR102352128B1 (ko) | 2022-01-19 |
Family
ID=76158688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190142709A KR102352128B1 (ko) | 2019-11-08 | 2019-11-08 | 심층 영상 이해를 이용한 영상 기반 대화 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102352128B1 (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113868451A (zh) * | 2021-09-02 | 2021-12-31 | 天津大学 | 基于上下文级联感知的社交网络跨模态对话方法及装置 |
CN114661874A (zh) * | 2022-03-07 | 2022-06-24 | 浙江理工大学 | 基于多角度语义理解与自适应双通道的视觉问答方法 |
CN115422388A (zh) * | 2022-09-13 | 2022-12-02 | 四川省人工智能研究院(宜宾) | 一种视觉对话方法及系统 |
KR20230020796A (ko) * | 2021-08-04 | 2023-02-13 | 서울대학교산학협력단 | 다수준 등장인물 주의집중을 통한 비디오 스토리 이해 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
WO2024015252A1 (en) * | 2022-07-11 | 2024-01-18 | Pryon Incorporated | Supervised summarization and structuring of unstructured documents |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11562147B2 (en) * | 2020-01-23 | 2023-01-24 | Salesforce.Com, Inc. | Unified vision and dialogue transformer with BERT |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101804632B1 (ko) | 2015-10-02 | 2017-12-04 | 엘지전자 주식회사 | 대화형 에이전트 서비스 제공 장치, 그 동작 방법 |
KR20190023547A (ko) * | 2017-08-29 | 2019-03-08 | 서울대학교산학협력단 | 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템 |
-
2019
- 2019-11-08 KR KR1020190142709A patent/KR102352128B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101804632B1 (ko) | 2015-10-02 | 2017-12-04 | 엘지전자 주식회사 | 대화형 에이전트 서비스 제공 장치, 그 동작 방법 |
KR20190023547A (ko) * | 2017-08-29 | 2019-03-08 | 서울대학교산학협력단 | 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템 |
Non-Patent Citations (3)
Title |
---|
Dangwei Li et al., Multi-attribute learning for pedestrian attribute recognition in surveillance scenarios, 2015 3rd IAPR Asian Conference on Pattern Recognition, 2015.10.03, pp.111-115. * |
Joseph Redmon et al., You Only Look Once: Unified, Real-Time Object Detection, 2016 IEEE Conference on Computer Vision and Pattern Recognition, 2016.06.30, pp.779-788. * |
Qiang Wang and Yahong Han, Visual Dialog with Targeted Objects, 2019 IEEE International Conference on Multimedia and Expo, 2019.07.08, pp.1564-1569. * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230020796A (ko) * | 2021-08-04 | 2023-02-13 | 서울대학교산학협력단 | 다수준 등장인물 주의집중을 통한 비디오 스토리 이해 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
CN113868451A (zh) * | 2021-09-02 | 2021-12-31 | 天津大学 | 基于上下文级联感知的社交网络跨模态对话方法及装置 |
CN113868451B (zh) * | 2021-09-02 | 2024-06-11 | 天津大学 | 基于上下文级联感知的社交网络跨模态对话方法及装置 |
CN114661874A (zh) * | 2022-03-07 | 2022-06-24 | 浙江理工大学 | 基于多角度语义理解与自适应双通道的视觉问答方法 |
CN114661874B (zh) * | 2022-03-07 | 2024-04-30 | 浙江理工大学 | 基于多角度语义理解与自适应双通道的视觉问答方法 |
WO2024015252A1 (en) * | 2022-07-11 | 2024-01-18 | Pryon Incorporated | Supervised summarization and structuring of unstructured documents |
CN115422388A (zh) * | 2022-09-13 | 2022-12-02 | 四川省人工智能研究院(宜宾) | 一种视觉对话方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
KR102352128B1 (ko) | 2022-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102352128B1 (ko) | 심층 영상 이해를 이용한 영상 기반 대화 시스템 | |
KR102167760B1 (ko) | 수어동작 인식 처리절차 및 움직임 추적 Pre-trained 모델을 이용한 수어동작 분석 알고리즘 시스템 | |
CN111984772B (zh) | 一种基于深度学习的医疗影像问答方法及系统 | |
CN110781680A (zh) | 基于孪生网络和多头注意力机制的语义相似度匹配方法 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN113902964A (zh) | 基于关键词感知的多模态注意力视频问答方法与系统 | |
CN111967272B (zh) | 基于语义对齐的视觉对话生成系统 | |
CN113792177B (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN110543554A (zh) | 针对多轮对话的分类方法和装置 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN111859954A (zh) | 目标对象识别方法、装置、设备及计算机可读存储介质 | |
Verma et al. | A comprehensive review on automation of Indian sign language | |
CN111597341A (zh) | 一种文档级关系抽取方法、装置、设备及存储介质 | |
CN115237255B (zh) | 一种基于眼动和语音的自然图像共指目标定位系统及方法 | |
CN111311364B (zh) | 基于多模态商品评论分析的商品推荐方法及系统 | |
Xue et al. | Lipformer: learning to lipread unseen speakers based on visual-landmark transformers | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
Sharma et al. | Sign language to speech translation | |
CN113780350B (zh) | 一种基于ViLBERT和BiLSTM的图像描述方法 | |
Park et al. | KNU CI System at SemEval-2018 Task4: Character Identification by Solving Sequence-Labeling Problem | |
CN114419409A (zh) | 基于人脸识别和分层融合策略的多模态恶意迷因图检测方法 | |
Malakan et al. | Classify, detect and tell: real-time American sign language | |
CN114067362A (zh) | 基于神经网络模型的手语识别方法、装置、设备及介质 | |
CN114492462A (zh) | 基于情绪分析和生成式对抗网络的对话生成方法及系统 | |
Eunice et al. | Deep learning and sign language models based enhanced accessibility of e-governance services for speech and hearing-impaired |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) |