KR102451299B1 - 동물의 상황인지를 통한 캡션 생성 시스템 - Google Patents

동물의 상황인지를 통한 캡션 생성 시스템 Download PDF

Info

Publication number
KR102451299B1
KR102451299B1 KR1020200112132A KR20200112132A KR102451299B1 KR 102451299 B1 KR102451299 B1 KR 102451299B1 KR 1020200112132 A KR1020200112132 A KR 1020200112132A KR 20200112132 A KR20200112132 A KR 20200112132A KR 102451299 B1 KR102451299 B1 KR 102451299B1
Authority
KR
South Korea
Prior art keywords
feature vector
sound
result
context
caption
Prior art date
Application number
KR1020200112132A
Other languages
English (en)
Other versions
KR20220030583A (ko
Inventor
이종욱
채희찬
박대희
정용화
최윤아
홍민기
Original Assignee
고려대학교 세종산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 세종산학협력단 filed Critical 고려대학교 세종산학협력단
Priority to KR1020200112132A priority Critical patent/KR102451299B1/ko
Publication of KR20220030583A publication Critical patent/KR20220030583A/ko
Application granted granted Critical
Publication of KR102451299B1 publication Critical patent/KR102451299B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06K9/627
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Acoustics & Sound (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

동물의 상황인지를 통한 캡션 생성 시스템 및 방법이 제시된다. 본 발명에서 제안하는 동물의 상황인지를 통한 캡션 생성 시스템은 영상 정보의 옵티컬-플로우(optical-flow)와 RGB정보에 대한 영상 특징 벡터를 추출하고, 소리 정보에 대한 소리 특징 벡터를 추출하며, 소리 특징 벡터로부터 소리 분류 특징 벡터를 추출하는 특징 추출 모듈, 어텐션 기법이 적용된 계층적 LSTM 인코더를 통해 영상 특징 벡터 및 소리 특징 벡터에 대한 객체의 지역적 특징 및 전역적 특징을 탐지하고 전역적 문맥(global context) 및 지역적 문맥(local context) 벡터를 추출하는 인코딩 모듈 및 인코딩 모듈에서 추출된 전역적 문맥 및 지역적 문맥 벡터와 특징 추출 모듈에서 추출된 소리 분류 특징 벡터를 이용하여 소리 분류 특징 벡터를 포함한 캡셔닝 결과와 소리 분류 특징 벡터를 배제한 캡셔닝 결과를 각각 구한 후 두 캡셔닝 결과를 결합하여 최종 캡션 결과를 생성하는 디코딩 모듈을 포함한다.

Description

동물의 상황인지를 통한 캡션 생성 시스템{Caption Generation System through Animal Context-Awareness}
본 발명은 동물의 상황인지를 통한 캡션 생성 시스템 및 방법에 관한 것이다.
2018년 한국펫사료협회의 조사에 따르면 우리나라 전체 가구 중 28.8%가 반려동물을 양육하고 있다고 보고되었다. 이에 비례해 최근 반려동물에 대한 연구들이 다방면으로 활발하게 진행 중이다. 하지만 이러한 연구들은 반려동물의 행동 및 상황을 단순 식별하는 수준에서 그치고 있으며, 이러한 연구들은 행동 분류 혹은 소리 분류와 같은 단순한 형태의 연구들이 주를 이루고 있어, 인간을 대상으로 하는 연구들에 비하여 연구의 성숙도가 현저히 떨어진다. 이는 실생활에서 상당한 비중을 차지하는 반려동물에 대한 고수준의 연구가 필요함을 나타낸다.
최근 캡셔닝 연구 분야는 이미지 캡셔닝을 넘어, 동영상을 활용한 캡셔닝 모델들이 많이 개발되고 있다. 하지만 이러한 연구들은 한 영상에서 다양한 움직임을 표현하는 것에 취약함을 보이며, 시각적으로 나타나는 상황만을 설명할 뿐 영상에 나타난 특정 객체의 여러 상황적인 측면을 고려하지 못하기 때문에 그에 맞는 고수준의 캡션을 생성하는 데에도 한계를 보인다.
본 발명이 이루고자 하는 기술적 과제는 반려동물에 대한 고수준의 연구로써, 이미 충분히 성숙된 반려동물의 행동 탐지 및 분류 기술을 동영상 캡셔닝 연구에 기본 요소기술로 임베딩하여 반려묘의 행동과 소리에 따른 암묵적 의도를 표현할 수 있는 상황인지형 캡션의 자동 생성을 최종 목적으로 한다. 본 발명에서는 반려묘 동영상의 옵티컬-플로우, RGB 및 소리 분류 정보를 활용한 캡셔닝 시스템을 제안한다. 즉, 제안된 시스템은 실제 반려묘를 양육하는 환경에서 수집한 동영상 데이터셋을 사용하여 동영상의 특징 벡터를 추출한 후, 계층적 LSTM 인코더로 동영상의 지역적/전역적 상황을 파악하고, 디코더를 거쳐 상황에 맞는 캡션을 생성할 수 있도록 학습을 수행하고자 한다.
일 측면에 있어서, 본 발명에서 제안하는 동물의 상황인지를 통한 캡션 생성 시스템은 영상 정보의 옵티컬-플로우(optical-flow)와 RGB정보에 대한 영상 특징 벡터를 추출하고, 소리 정보에 대한 소리 특징 벡터를 추출하며, 소리 특징 벡터로부터 소리 분류 특징 벡터를 추출하는 특징 추출 모듈, 어텐션 기법이 적용된 계층적 LSTM 인코더를 통해 영상 특징 벡터 및 소리 특징 벡터에 대한 객체의 지역적 특징 및 전역적 특징을 탐지하고 전역적 문맥(global context) 및 지역적 문맥(local context) 벡터를 추출하는 인코딩 모듈 및 인코딩 모듈에서 추출된 전역적 문맥 및 지역적 문맥 벡터와 특징 추출 모듈에서 추출된 소리 분류 특징 벡터를 이용하여 소리 분류 특징 벡터를 포함한 캡셔닝 결과와 소리 분류 특징 벡터를 배제한 캡셔닝 결과를 각각 구한 후 두 캡셔닝 결과를 결합하여 최종 캡션 결과를 생성하는 디코딩 모듈을 포함한다.
특징 추출 모듈은 영상 특징 벡터 및 소리 특징 벡터를 추출하여 인코딩 모듈로 전달하고, LSTM 기반 분류기를 통해 소리 특징 벡터로부터 소리 분류 특징 벡터를 추출하여 디코딩 모듈로 전달한다.
영상 특징 벡터는 옵티컬-플로우와 RGB정보에 대한 학습을 통해 각각의 결과의 평균값으로서 추출되고, 소리 분류 특징 벡터는 어텐션 기법이 적용된 LSTM 기반 분류기를 통해 소리 특징 벡터를 입력으로 이용하여 학습되고, 복수의 클래스로 분류되어 추출된다.
인코딩 모듈은 영상 특징 벡터 및 소리 특징 벡터를 위한 각각의 인코딩 모듈은 동일한 구조를 갖는 어텐션 기법이 적용된 계층적 LSTM 인코더를 이용하고, 객체의 행동을 탐지하여 영상 특징 벡터 및 소리 특징 벡터에 대한 지역적 문맥을 추출하고, 객체의 행동 변화를 탐지하여 영상 특징 벡터 및 소리 특징 벡터에 대한 전역적 문맥을 추출한다.
디코딩 모듈은 어텐션 기법을 적용하여 생성된 행동 변화에 대한 전역적 문맥 및 일정 시간에서의 워드 임베딩의 결합을 입력으로 하는 행동 변화 디코더 및 행동 변화 디코더의 출력, 어텐션 기법을 적용하여 생성된 행동에 대한 지역적 문맥, 일정 시간에서의 워드 임베딩 및 소리 분류 특징 벡터의 결합을 입력으로 하는 행동 탐지 디코더를 포함한다.
행동 탐지 디코더는 최종 캡션 결과에 대한 소리 정보의 영향 및 캡션의 변화 과정을 분석하기 위해 계층적 캡션 결과 생성 과정을 수행한다.
계층적 캡션 결과 생성 과정은 사전 학습된 소리 분류 모델을 이용하여 소리 분류 특징 벡터를 포함하는 캡셔닝 결과를 출력하고, 소리 분류 특징 벡터를 패딩 값으로 대체하여 소리 분류 특징 벡터를 배제하는 캡셔닝 결과를 출력한 후, 소리 분류 특징 벡터를 포함하는 캡셔닝 결과 및 소리 분류 특징 벡터를 배제하는 캡셔닝 결과를 조합하여 최종 캡션 결과를 생성한다.
또 다른 일 측면에 있어서, 본 발명에서 제안하는 동물의 상황인지를 통한 캡션 생성 방법은 특징 추출 모듈을 통해 영상 정보의 옵티컬-플로우(optical-flow)와 RGB정보에 대한 영상 특징 벡터를 추출하고, 소리 정보에 대한 소리 특징 벡터를 추출하며, 소리 특징 벡터로부터 소리 분류 특징 벡터를 추출하는 단계, 어텐션 기법이 적용된 계층적 LSTM 인코더를 포함하는 인코딩 모듈을 통해 영상 특징 벡터 및 소리 특징 벡터에 대한 객체의 지역적 특징 및 전역적 특징을 탐지하고 전역적 문맥(global context) 및 지역적 문맥(local context) 벡터를 추출하는 단계 및 디코딩 모듈을 통해 인코딩 모듈에서 추출된 전역적 문맥 및 지역적 문맥 벡터와 특징 추출 모듈에서 추출된 소리 분류 특징 벡터를 이용하여 소리 분류 특징 벡터를 포함한 캡셔닝 결과와 소리 분류 특징 벡터를 배제한 캡셔닝 결과를 각각 구한 후 두 캡셔닝 결과를 결합하여 최종 캡션 결과를 생성하는 단계를 포함한다.
본 발명의 실시예들에 따르면 실제 반려동물을 기르는 상황에서 얻어진 동영상을 기반으로 반려동물의 시청각적 요소들을 모두 고려해 종합적인 상황을 인지하고, 상황에 맞는 반려동물의 상태를 해석해 캡션의 형태로 주인에게 전달해 줄 수 있다. 캡션 생성에 있어서 옵티컬-플로우 정보를 활용하였기에 단일동작뿐만 아니라 연속적인 동작까지도 효과적으로 표현할 수 있다. 또한 소리 분류정보를 통해서 반려동물의 본능이나 기분까지도 고려한 캡션을 생성할 수 있게 된다. 주인은 이러한 캡션 정보를 토대로 미처 파악하지 못한 반려동물의 상태나 기분을 더 민감하게 파악할 수 있고, 이에 맞춰 반려동물에게 대응함으로써 보다 효율적으로 반려동물 양육환경에 도움을 줄 수 있을 것으로 기대된다.
도 1은 본 발명의 일 실시예에 따른 동물의 상황인지를 통한 캡션 생성 시스템의 구성을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 특징 추출 모듈을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 I3D 모델을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 VGGish 모델을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 사전 학습되는 소리 분류 모델에 관하여 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 인코딩 모듈을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 디코더 모듈을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 동물의 상황인지를 통한 캡션 생성 방법을 설명하기 위한 흐름도이다.
도 9는 본 발명의 일 실시예에 따른 반려묘 영상 데이터 수집 환경을 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따른 캡션 정답지 생성 예시를 나타내는 도면이다.
도 11은 본 발명의 일 실시예에 따른 옵티컬-플로우 반영 유무에 따라 생성되는 캡션 결과를 나타내는 도면이다.
도 12는 본 발명의 일 실시예에 따른 반려묘가 앉아있는 영상의 캡쳐 화면을 나타내는 도면이다.
본 발명은 딥러닝 알고리즘을 기반으로 동물의 동영상 데이터를 통해 동물의 현재 상황을 인지하고, 그에 맞는 캡션을 생성하는 방법에 관한 것이다. 본 발명의 실시예에 따른 동물의 상황인지를 통한 캡션 생성 시스템은 특징 추출 모듈, 인코딩 모듈, 디코딩 모듈의 3단계로 구성된다. 즉, 제안된 시스템은 동영상의 옵티컬-플로우(optical-flow)와 RGB정보를 특징 벡터로 출력하는 Google사의 I3D(Inflated 3D ConvNet)모델과 소리 정보를 위한 VGGish모델에서 특징 벡터를 추출한 후, 어텐션 기법이 적용된 계층적 LSTM 인코더를 통해 문맥(context) 벡터를 추출한다. 이후, 문맥 벡터와 Bi-LSTM(Bidirectional LSTM) 모델을 통해 나온 소리 분류 특징 벡터가 영문 캡션을 생성하는 디코더에 전달돼 영상과 소리 정보를 모두 고려한 최종 캡션 결과를 생성한다.
본 발명에서 제안하는 캡션 생성 모델을 이용하여 가정환경 내에서의 반려동물들의 동영상에서 반려동물의 행동, 위치뿐만 아니라 반려동물의 울음소리에 담겨있는 감정정보를 이용하여 반려동물의 현재 상황을 이해하고 이를 캡션의 형태로 표현해 줌으로써, 주인이 미처 생각하지 못했던 반려동물의 상황을 쉽게 이해하고 이에 알맞은 대응을 할 수 있다는 장점이 있다. 이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 동물의 상황인지를 통한 캡션 생성 시스템의 구성을 나타내는 도면이다.
제안하는 동물의 상황인지를 통한 캡션 생성 시스템은 특징 추출 모듈(110), 인코딩 모듈(120) 및 디코딩 모듈(130)을 포함한다.
본 발명의 일 실시예에 따른 동물의 상황인지를 통한 캡션 생성 시스템은 동영상의 옵티컬-플로우(optical-flow)와 RGB정보를 특징 벡터로 출력하는 Google사의 I3D(Inflated 3D ConvNet)모델과 소리 정보를 위한 VGGish모델에서 특징 벡터를 추출한 후, 어텐션 기법이 적용된 계층적 LSTM 인코더를 통해 문맥(context) 벡터를 추출한다. 이후, 문맥 벡터와 Bi-LSTM(Bidirectional LSTM) 모델을 통해 나온 소리 분류 특징 벡터가 영문 캡션을 생성하는 디코더에 전달돼 최종 캡션 결과를 생성한다.
특징 추출 모듈(110)은 영상 정보의 옵티컬-플로우(optical-flow)와 RGB정보에 대한 영상 특징 벡터를 추출하고, 소리 정보에 대한 소리 특징 벡터를 추출하며, 소리 특징 벡터로부터 소리 분류 특징 벡터를 추출한다.
특징 추출 모듈(110)은 영상 특징 벡터 및 소리 특징 벡터를 추출하여 인코딩 모듈로 전달하고, LSTM 기반 분류기를 통해 소리 특징 벡터로부터 소리 분류 특징 벡터를 추출하여 디코딩 모듈로 전달한다.
영상 특징 벡터는 옵티컬-플로우와 RGB정보에 대한 학습을 통해 각각의 결과의 평균값으로서 추출되고, 소리 분류 특징 벡터는 어텐션 기법이 적용된 LSTM 기반 분류기를 통해 소리 특징 벡터를 입력으로 이용하여 학습되고, 복수의 클래스로 분류되어 추출된다.
도 2는 본 발명의 일 실시예에 따른 특징 추출 모듈을 설명하기 위한 도면이다.
도 2와 같이, 특징 추출 모듈에서는 영상 데이터에서 영상과 소리에 대한 특징 벡터를 추출하기 위해 사전 학습된 CNN(convolutional neural network)모델을 사용한다. 본 발명의 일 실시예에 따르면, 영상 특징 벡터는 Google사의 DeepMind 팀에서 제공하는 I3D모델을 사용하여 옵티컬-플로우와 RGB에 해당하는 특징 벡터를 추출하고, 소리 특징 벡터는 VGG모델을 소리 정보에 맞춰 변형한 VGGish 모델을 사용하여 소리 특징 벡터를 추출한다. 이 과정을 통해 추출된 영상 특징 벡터 및 소리 특징 벡터는 각각 인코딩 모듈에 전달된다. 추가로, VGGish 모델을 거쳐 나온 소리 특징 벡터를 이용해 LSTM기반의 분류기를 통해 소리 분류 특징 벡터를 추출하고, 소리 분류 특징 벡터는 디코딩 모듈에 직접 전달된다.
도 3은 본 발명의 일 실시예에 따른 I3D 모델을 설명하기 위한 도면이다.
본 발명의 일 실시예에 따른 I3D 모델은 기존 ImageNet 데이터셋으로 비디오에서의 행동 인식을 수행하기 위해 제시되었다. 기존의 행동 인식 모델들과 다르게, 옵티컬-플로우 정보를 추가함으로써, 움직임 정보에 대해 더 민감함 결과를 생성하도록 설계되었다. RGB와 옵티컬-플로우를 각각의 네트워크에서 학습을 시키고, 각각의 결과의 평균값을 통해 최종적인 결과를 예측해내며, 실험을 통해해 모든 경우에서 옵티컬-플로우를 추가했을 경우 더 좋은 성능을 보이는 것을 확인하였다.
도 4는 본 발명의 일 실시예에 따른 VGGish 모델을 설명하기 위한 도면이다.
본 발명의 일 실시예에 따른 VGGish 모델은 소리 정보에 맞도록 VGG 모델의 A모델을 변형한 모델이다. 변경된 내용은 첫째, 입력의 경우 96×96 크기의 log mel spectrogram을 받도록 변경되었다. 둘째, 마지막 컨볼루셔널과 maxpool 계층을 제거하였다. 셋째, 1000크기의 완전 연결 계층 대신 128크기의 완전 연결 계층을 사용하여 좀더 작은 임베딩 결과를 생성한다.
도 5는 본 발명의 일 실시예에 따른 사전 학습되는 소리 분류 모델에 관하여 설명하기 위한 도면이다.
도 5(a)는 본 발명의 일 실시예에 따른 사전 학습되는 소리 분류 모델을 나타내는 도면이다.
도 5(b)는 본 발명의 일 실시예에 따른 본 시스템에서 사용되는 소리 분류 모델을 나타내는 도면이다.
소리 분류 모델은 VGGish모델에서 나온 소리 특징 벡터를 입력으로 사용하며, 반려묘의 소리 분류를 위해 사전 학습된다. 소리 분류를 위해 도 5(a)와 같이, 어텐션 기법이 적용된 Bi-LSTM을 사용하며, 반려묘의 소리는 야옹(meowing), 채터링(chattering), 하악질(hissing), 그 외(예를 들어, 방에서 발생하는 다른 소리들)와 같은 총 4가지의 클래스로 분류되게 학습한다.
이후, 본 시스템에서 사용될 때에는 도 5(b)에 나타낸 바와 같이 마지막 밀집 레이어(dense layer)에서 생성되는 특징 벡터를 소리 분류 특징 벡터(510)로 디코더에 전달한다.
본 발명에서 많이 사용하는 어텐션 기법에 대해 설명한다. LSTM의 은닉 상태(hidden state)가
Figure 112020093244019-pat00001
와 같을 때, 시간
Figure 112020093244019-pat00002
에 생성되는 문맥(context) 벡터
Figure 112020093244019-pat00003
는 식(1)과 같이 특징 벡터의 가중치 합으로 계산된다.
Figure 112020093244019-pat00004
(1)
이러한 가중치
Figure 112020093244019-pat00005
는 결과를 더 잘 생성해 낼 수 있는 특정 특징에 더 큰 가중치를 부여하는 역할을 한다.
다시 도 1을 참조하면, 인코딩 모듈(120)은 어텐션 기법이 적용된 계층적 LSTM 인코더를 통해 영상 특징 벡터 및 소리 특징 벡터에 대한 객체의 지역적 특징 및 전역적 특징을 탐지하고 전역적 문맥(global context) 및 지역적 문맥(local context) 벡터를 추출한다.
인코딩 모듈(120)은 영상 특징 벡터 및 소리 특징 벡터를 위한 각각의 인코딩 모듈은 동일한 구조를 갖는 어텐션 기법이 적용된 계층적 LSTM 인코더를 이용하고, 객체의 행동을 탐지하여 영상 특징 벡터 및 소리 특징 벡터에 대한 지역적 문맥을 추출하고, 객체의 행동 변화를 탐지하여 영상 특징 벡터 및 소리 특징 벡터에 대한 전역적 문맥을 추출한다.
도 6은 본 발명의 일 실시예에 따른 인코딩 모듈을 설명하기 위한 도면이다.
본 발명의 일 실시예에 따른 인코딩 모델은 시각화(visual) 인코더와 소리(audio) 인코더가 기본적으로 같은 구조를 이룬다. 이러한 인코딩 모듈은 두 단계의 계층적 LSTM으로 구성된다. 즉, 인코더 구조의 하단에 위치한 LSTM 계층(320)은 영상에 나타나는 객체의 행동(다시 말해, 지역적 특징)을 탐지하는 역할을 수행하고, 상단에 위치한 LSTM 계층(610)은 영상의 객체 행동의 변화(다시 말해, 전역적 특징)를 표현하는 역할을 수행한다.
여기서 지역적 특징이란, 예를 들어 "고양이가 걷는다", "고양이가 점프한다"와 같이 객체의 행동에 대한 특징을 나타내며, 전역적 특징이란 "고양이가 걷다가 점프한다"와 같이 객체 행동의 변화에 초점을 맞춘 특징이다.
다시 도 1을 참조하면, 디코딩 모듈(130)은 인코딩 모듈에서 추출된 전역적 문맥 및 지역적 문맥 벡터와 특징 추출 모듈에서 추출된 소리 분류 특징 벡터를 이용하여 소리 분류 특징 벡터를 포함한 캡셔닝 결과와 소리 분류 특징 벡터를 배제한 캡셔닝 결과를 각각 구한 후 두 캡셔닝 결과를 결합하여 최종 캡션 결과를 생성한다.
디코딩 모듈(130)은 행동 변화 디코더 및 행동 탐지 디코더를 포함한다.
행동 변화 디코더는 어텐션 기법을 적용하여 생성된 행동 변화에 대한 전역적 문맥 및 일정 시간에서의 워드 임베딩의 결합을 입력으로 하고, 행동 탐지 디코더는 행동 변화 디코더의 출력, 어텐션 기법을 적용하여 생성된 행동에 대한 지역적 문맥, 일정 시간에서의 워드 임베딩 및 소리 분류 특징 벡터의 결합을 입력으로 한다.
행동 탐지 디코더는 최종 캡션 결과에 대한 소리 정보의 영향 및 캡션의 변화 과정을 분석하기 위해 계층적 캡션 결과 생성 과정을 수행한다.
계층적 캡션 결과 생성 과정은 사전 학습된 소리 분류 모델을 이용하여 소리 분류 특징 벡터를 포함하는 캡셔닝 결과를 출력하고, 소리 분류 특징 벡터를 패딩 값으로 대체하여 소리 분류 특징 벡터를 배제하는 캡셔닝 결과를 출력한 후, 소리 분류 특징 벡터를 포함하는 캡셔닝 결과 및 소리 분류 특징 벡터를 배제하는 캡셔닝 결과를 조합하여 최종 캡션 결과를 생성한다.
도 7은 본 발명의 일 실시예에 따른 디코더 모듈을 설명하기 위한 도면이다.
도 7(a)는 디코더 전체 구조를 나타내고, 도 7(b)는 소리 분류 특징 벡터를 배제한 결과를 나타내며, 도 7(c)는 최종 캡션 결과를 나타내는 도면이다.
도 7(a)를 참조하면, 본 발명의 일 실시예에 따른 디코딩 모듈은 LSTM 기반의 행동 변화 디코더(global decoder)와 행동 탐지 디코더(local decoder)로 구성된다. 각각 소리 정보와 영상의 중요한 특징들을 강조하는 어텐션 기법을 활용하여, 행동 변화 디코더로 객체의 전체적인 행동 변화에 대한 순서를 이해한다. 그리고 행동 탐지 디코더는 행동 탐지 문맥(context)과 소리 분류 특징 벡터를 결합(concatenate)하여 행동 탐지 디코더의 입력으로 사용하고, 최종적으로 softmax를 통해 시간에 따라 가장 확률이 높은 단어를 생성한다.
행동 변화 디코더
Figure 112020093244019-pat00006
는 어텐션 기법을 통해 생성된 행동 변화에 대한 문맥
Figure 112020093244019-pat00007
Figure 112020093244019-pat00008
에서 생성된 워드 임베딩의 결합을 입력으로 하고, 하기식과 같이 나타낼 수 있다:
Figure 112020093244019-pat00009
(2)
행동 탐지 디코더의 경우, 행동 변화 디코더의 출력인
Figure 112020093244019-pat00010
, 어텐션을 통해
생성된 행동 탐지 문맥
Figure 112020093244019-pat00011
,
Figure 112020093244019-pat00012
의 워드 임베딩, 그리고 소리 분류 특징
Figure 112020093244019-pat00013
의 결합을 입력으로 사용하고, 하기식과 같이 나타낼 수 있다:
Figure 112020093244019-pat00014
(3)
또한, 본 발명에서는 결과 캡션 출력 시, 캡션의 변화 과정을 보기 위해 다음과 같은 계층적 캡션 결과 생성 과정을 거친다.
먼저, 소리 분류 모델에서의 결과를 출력한다. 최종 캡션 결과에 소리 정보가 어떤 클래스의 형태로 영향을 끼치는지 알아보기 위한 단계로써, 계층적 캡션 결과 생성을 위해 사전 학습된 소리 분류 모델의 결과를 출력한다.
다음으로, 소리 분류 특징 벡터를 배제한 캡셔닝 결과를 출력한다. 도 7(b)와 같이 소리 분류 특징이 최종 캡션 결과에 어떠한 영향을 끼치는지 확인하기 위해 소리 분류 특징 벡터를 패딩 값으로 대체 했을 경우 생성되는 캡션 결과를 확인한다. 패딩 값은 소리 분류 모델에 아무 소리가 나지 않는 소리 정보를 입력으로 했을 때 생성되는 소리 분류 특징 벡터를 사용한다.
마지막으로, 소리 분류 특징 벡터를 포함한 캡셔닝 결과와 소리 분류 특징 벡터를 배제한 캡셔닝 결과를 결합하여 최종 캡션 결과를 생성한다. 도 7(c)와 같이, 모든 특징 벡터들을 고려하여 비디오 클립에 대한 최종적인 캡션을 생성한다. 소리 분류 특징 벡터를 포함한 캡셔닝 결과와 소리 분류 특징 벡터를 배제한 캡셔닝 결과가 모두 종합된 캡션 결과가 생성되며, 소리 분류 특징 벡터를 포함한 캡셔닝 결과와 소리 분류 특징 벡터를 배제한 캡셔닝 결과에서 각각 생성된 결과와 종합된 최종 캡션 결과를 비교함으로써, 소리 특징 분류 벡터가 캡션 생성에 얼마나 효과적으로 작용하는지를 확인할 수 있다.
도 8은 본 발명의 일 실시예에 따른 동물의 상황인지를 통한 캡션 생성 방법을 설명하기 위한 흐름도이다.
제안하는 동물의 상황인지를 통한 캡션 생성 방법은 특징 추출 모듈을 통해 영상 정보의 옵티컬-플로우(optical-flow)와 RGB정보에 대한 영상 특징 벡터를 추출하고, 소리 정보에 대한 소리 특징 벡터를 추출하며, 소리 특징 벡터로부터 소리 분류 특징 벡터를 추출하는 단계(810), 어텐션 기법이 적용된 계층적 LSTM 인코더를 포함하는 인코딩 모듈을 통해 영상 특징 벡터 및 소리 특징 벡터에 대한 객체의 지역적 특징 및 전역적 특징을 탐지하고 전역적 문맥(global context) 및 지역적 문맥(local context) 벡터를 추출하는 단계(820) 및 디코딩 모듈을 통해 인코딩 모듈에서 추출된 전역적 문맥 및 지역적 문맥 벡터와 특징 추출 모듈에서 추출된 소리 분류 특징 벡터를 이용하여 소리 분류 특징 벡터를 포함한 캡셔닝 결과와 소리 분류 특징 벡터를 배제한 캡셔닝 결과를 각각 구한 후 두 캡셔닝 결과를 결합하여 최종 캡션 결과를 생성하는 단계(830)를 포함한다.
단계(810)에서, 특징 추출 모듈을 통해 영상 정보의 옵티컬-플로우(optical-flow)와 RGB정보에 대한 영상 특징 벡터를 추출하고, 소리 정보에 대한 소리 특징 벡터를 추출하며, 소리 특징 벡터로부터 소리 분류 특징 벡터를 추출한다.
영상 특징 벡터 및 소리 특징 벡터를 추출하여 인코딩 모듈로 전달하고, LSTM 기반 분류기를 통해 소리 특징 벡터로부터 소리 분류 특징 벡터를 추출하여 디코딩 모듈로 전달한다. 영상 특징 벡터는 옵티컬-플로우와 RGB정보에 대한 학습을 통해 각각의 결과의 평균값으로서 추출되고, 소리 분류 특징 벡터는 어텐션 기법이 적용된 LSTM 기반 분류기를 통해 소리 특징 벡터를 입력으로 이용하여 학습되고, 복수의 클래스로 분류되어 추출된다.
단계(820)에서, 어텐션 기법이 적용된 계층적 LSTM 인코더를 포함하는 인코딩 모듈을 통해 영상 특징 벡터 및 소리 특징 벡터에 대한 객체의 지역적 특징 및 전역적 특징을 탐지하고 전역적 문맥(global context) 및 지역적 문맥(local context) 벡터를 추출한다.
영상 특징 벡터 및 소리 특징 벡터를 위한 각각의 인코딩 모듈은 동일한 구조를 갖는 어텐션 기법이 적용된 계층적 LSTM 인코더를 이용하고, 객체의 행동을 탐지하여 영상 특징 벡터 및 소리 특징 벡터에 대한 지역적 문맥을 추출하고, 객체의 행동 변화를 탐지하여 영상 특징 벡터 및 소리 특징 벡터에 대한 전역적 문맥을 추출한다.
단계(830)에서, 디코딩 모듈을 통해 인코딩 모듈에서 추출된 전역적 문맥 및 지역적 문맥 벡터와 특징 추출 모듈에서 추출된 소리 분류 특징 벡터를 이용하여 소리 분류 특징 벡터를 포함한 캡셔닝 결과와 소리 분류 특징 벡터를 배제한 캡셔닝 결과를 각각 구한 후 두 캡셔닝 결과를 결합하여 최종 캡션 결과를 생성한다.
어텐션 기법을 적용하여 생성된 행동 변화에 대한 전역적 문맥 및 일정 시간에서의 워드 임베딩의 결합을 디코딩 모듈의 행동 변화 디코더로 입력하고, 행동 변화 디코더의 출력, 어텐션 기법을 적용하여 생성된 행동에 대한 지역적 문맥, 일정 시간에서의 워드 임베딩 및 소리 분류 특징 벡터의 결합을 디코딩 모듈의 행동 탐지 디코더로 입력한다.
디코딩 모듈의 행동 탐지 디코더를 통해 최종 캡션 결과에 대한 소리 정보의 영향 및 캡션의 변화 과정을 분석하기 위해 계층적 캡션 결과 생성 과정을 수행한다.
계층적 캡션 결과 생성 과정에서 사전 학습된 소리 분류 모델을 이용하여 소리 분류 특징 벡터를 포함하는 캡셔닝 결과를 출력하고, 소리 분류 특징 벡터를 패딩 값으로 대체하여 소리 분류 특징 벡터를 배제하는 캡셔닝 결과를 출력한 후, 소리 분류 특징 벡터를 포함하는 캡셔닝 결과 및 소리 분류 특징 벡터를 배제하는 캡셔닝 결과를 조합하여 최종 캡션 결과를 생성한다.
도 9는 본 발명의 일 실시예에 따른 반려묘 영상 데이터 수집 환경을 나타내는 도면이다.
본 발명의 일 실시예에 따른 실험에서 사용한 데이터는 2.8m
Figure 112020093244019-pat00015
2.7m 크기의 방에서 고양이 1마리를 대상으로 수집하였다. 고양이에 대한 자세한 정보는 부록에 첨부하였다. 영상 데이터는 라즈베리파이 카메라 모듈을 사용하여 416
Figure 112020093244019-pat00016
416 화질의 영상을 10 fps로 촬영하였으며, 도 9와 같이 방의 구조가 모두 보이도록 설치하였다. 소리 정보는 방 가운데에 마이크를 설치하여 수집하였다. 수집된 영상의 총 분량은 약 2주간의 분량이 수집되었다.
비디오 클립은 고양이의 행동이 1개 또는 연속된 2개의 동작이 포함된 영상이며, 클립을 나누는 기준은 고양이 행동의 시작 지점과 끝나는 지점을 기준으로 앞뒤로 1.5초의 여유를 두고 수집하였다. 클립은 표 1과 같이 5~30초 분량의 1,179개의 클립으로 구성된다. 표 1에서 단일 동작이란 반려묘의 걷기, 점프, 앉기, 먹기 등 한 가지 행동만을 포함한 데이터이며, 연속 동작은 단일 동작 2개 이상이 연속된 데이터이다. 그리고 상호 동작은 고양이의 단일 동작뿐만 아니라, 주인의 움직임까지도 나타나는 데이터이다. 또한 본 연구에서는 소리에 대한 비교실험을 위하여, 같은 영상에 대해 다른 종류의 소리를 적용한 합성 데이터도 존재한다. 실험 데이터는 학습 719개, 검증 150개, 테스트 310개로 구성했으며, 각 클립 당 5개의 정답지를 직접 생성해 사용하였다.
<표 1>
Figure 112020093244019-pat00017
도 10은 본 발명의 일 실시예에 따른 캡션 정답지 생성 예시를 나타내는 도면이다.
도 10은 '고양이가 방안을 걷고 있는' 영상에 대한 캡션의 정답지 생성 예시이다.
캡션의 정답지는 다음과 같다:
1. 고양이가 방 안을 걸어 다니고 있다.
2. 한 마리의 고양이가 방 안을 걸어 다니고 있다.
3. 고양이가 방을 서성이고 있다.
4. 고양이가 걸어 다니고 있다.
5. 고양이가 서성이고 있다.
본 발명의 실시예에 따른 실험에서는 MS-COCO 서버의 표준 평가 코드를 사용해 계산된 BLEU, METEOR, ROUGE-L 세 가지의 평가 지표를 사용한다.
본 발명의 실시예에 따른 반려묘의 행동 캡셔닝 시스템을 검증하기 위해, Ubuntu 18.04, Pytorch 0.4.1의 컴퓨터 환경에서 제안된 모델(도 1 참조)의 학습을 수행하였다.
소리 분류 모델(Bi-LSTM classifier)을 사전 학습시키 위해서 4개의 클래스 별로 150개 총 600개의 소리 정보를 사용하였다. 사용된 소리 정보에는 클래스 별 고양이 울음소리가 1회 이상 포함된 데이터를 사용하였다. 학습 하이퍼파라미터는 표 2와 같으며 그 정확도에 대한 결과는 표 3과 같다.
<표 2>
Figure 112020093244019-pat00018
<표 3>
Figure 112020093244019-pat00019
캡셔닝 모델을 학습하기 위한 하이퍼파라미터는 표 4와 같다.
<표 4>
Figure 112020093244019-pat00020
비교 실험을 위해서 종래기술의 캡션 생성 모델인 HACHA(Hierarchically Aligned Cross-modal Attention) 모델을 사용하였으며, 제안 모델은 RGB와 소리 정보를 사용한 HACA 모델의 구조에 옵티컬-플로우 정보를 추가한 제안 모델(Proposed-Op: Optical-flow)과 Proposed-Op 모델에 소리 분류 모델을 추가한 제안 모델(Proposed-SCM: Sound Classification Model)을 사용하였다.
본 발명의 실시예에 따른 실험은 반려묘의 동영상에서 옵티컬-플로우와 RGB 정보를 동시에 사용하는 제안된 시스템의 성능 평가로서 특히, 옵티컬-플로우 정보가 문장 생성에 미치는 영향력을 실험적으로 평가한다. 옵티컬-플로우의 유무에 따른 비교를 위해 HACA 모델과 Proposed-Op 모델만을 실험에 사용하였다.
표 5는 정량적 평가로써, RGB와 optical-flow를 동시에 사용한 제안 모델인 Proposed-Op 모델의 결과와 RGB만을 사용한 HACA 모델의 결과를 정량적으로 비교한 표이다.
<표 5>
Figure 112020093244019-pat00021
실험 결과, 제안 모델에서 optical-flow 정보를 포함함으로써, RGB만을 사용한 모델보다 더 높은 정확도를 보여준다.
도 11은 본 발명의 일 실시예에 따른 옵티컬-플로우 반영 유무에 따라 생성되는 캡션 결과를 나타내는 도면이다.
정량적 평가로는 확인할 수 없었던 자세한 결과 비교를 위해 정성적 평가를 실시한다. 도 11을 참조하면, 반려묘가 방에서 걷다가 점프하는 영상의 예시를 통해서, 제안된 시스템은 영상에서 객체의 움직임 정보를 효과적으로 표현하는 옵티컬-플로우의 특징 벡터에 의해 "걷기 후 점프"라는 시간흐름에 따른 객체의 움직임을 순차적 복문의 형태로 표현함을 확인할 수 있다. 반면, 영상의 RGB 정보만을 활용하여 캡셔닝을 수행한 HACA 모델의 경우에는 시간에 따른 객체 의 움직임 변화에 적절히 대응하지 못하는 다음과 같은 캡션 결과를 보여준다:
Figure 112020093244019-pat00022
본 발명의 실시예에 따른 실험은 반려묘의 영상에서 소리 분류 모델이 적용된 제안 모델을 평가하기 위한 실험으로써, 특히 소리 분류 모델이 캡션 결과 생성에 주는 영향을 실험적으로 평가한다. 비교 실험을 위해, HACA 모델, Proposed-Op 모델, Proposed-SCM 모델을 사용하였다.
표 6은 정량적 평가로써, 표 5의 결과에 소리 분류 모델이 추가된 Proposed-SCM 모델의 성능이 포함된 결과이다.
<표 6>
Figure 112020093244019-pat00023
실험 결과, 확실히 소리 분류 모델을 추가할 경우, 그렇지 않은 모델들보다 캡션 생성 정확도가 더 높게 나 오는 것을 확인할 수 있다
도 12는 본 발명의 일 실시예에 따른 반려묘가 앉아있는 영상의 캡쳐 화면을 나타내는 도면이다.
본 발명의 실시예에 따른 정성적 평가에서는 영상에서 소리의 변화에 따라 얼마나 민감하게 캡션 결과 생성에 반응을 하는지 실험적으로 검증한다. 실험을 위해서 같은 시각적 영상에 대해 각기 다른 소리 정보를 추가해 테스트한다. 도 12는 '반려묘가 창문에 앉아있는' 영상이고, 각각 채터링, 야옹, 하악질 소리가 캡션 생성 결과에 어떻게 영향을 끼치는지 보기 위해 아래와 같이 세 가지 상황을 가정해 합성 데이터를 만들어 실험을 진행하였다:
상황 1: 도 12의 영상 + 채터링이 포함된 소리 정보
상황 2: 도 12의 영상 + 야옹 소리가 포함된 소리 정보
상황 3: 도 12의 영상 + 하악질이 포함된 소리 정보
다음은 채터링(chattering)이 포함된 소리 정보가 들어갔을 경우에 대 한 캡션 생성 결과이다:
Figure 112020093244019-pat00024
HACA 모델과 Proposed-Op 모델의 경우, 소리에 대해 반응하지 못하고, 영상 정보에 치우친 '고양이가 창문에 앉아 있다(the cat is sitting at the window)'와 같은 캡션 결과를 생성하는 것을 볼 수 있다. 반면, 소리 분류 모델이 추가된 제 안 모델인 Proposed-SCM 모델의 경우, 소리 분류 결과는 채터링으로 제대로 된 분류를 수행 한 것을 확인 가능하다. 한편, 소리 분류 결과를 배제한 캡션 생성 결과는 다른 모델들과 같이 영상 정보에 치우친 결과를 생성하고 있다. 하지만 Proposed-SCM 모델에서 최종적으로 생성되는 결과는 '고양이가 창문에 앉아 있다(the cat is sitting at the window)'와 채터링이 합쳐져, '고양이가 사냥을 하고 싶어 한다(the cat wants to hunting)'와 같은 소리까지 고려한 최종 캡션이 생성된다. 여기서 '고양이가 창문에 앉아 있다(the cat is sitting at the window)'와 채터링이 합쳐질 경우 '고양이가 창문에 앉아 있고, 사냥을 하고 싶어 한다(the cat is sitting at the window and chattering)'와 같은 결과가 생성되어야 한다. 하지만 본 발명에서는 반려묘와 주인 간의 의사소통에 도움을 주는 목적에 맞춰, 채터링 소리에는 사냥의 본능이 내제되어다는 정보를 이용하여, '고양이가 사냥을 하고 싶어 한다(the cat wants to hunting)'와 같은 상황 인지적 의역을 생성해내도록 설계하였다.
다음은 야옹(meowing) 소리가 포함된 데이터로 실험을 했을 경우의 결 과이다:
Figure 112020093244019-pat00025
HACA와 Proposed-Op 모델은 상황 1과 마찬가지로 영상에 치우친 캡션 결과를 생성하고, Proposed-SCM 모델의 경우 최종적으로 야옹 소리에 반려묘의 원함의 감정이 포함된 것을 고려하여 '고양이는 창문을 열고 싶어한다(the cat wants to open the window)'라는 상황인지적 캡션을 올바르게 생성해 내는 것을 확인할 수 있다.
다음은 하악질(hissing) 소리가 포함된 데이터에 대한 실험 결과이다:
Figure 112020093244019-pat00026
HACA 모델의 경우 앞선 실험들과 마찬가지로 영상 정보가 많이 반영된 결과를 생성해내고 있다. 한편, Proposed-Op 모델의 경우 '고양이는 창문을 열고 싶어한다(the cat wants to open the window)'라는 잘못된 캡션을 생성해내고 있다. Proposed-Op 모델의 경우에도 소리 정보를 전혀 고려하지 않은 모델은 아니기 때문에 하악질에 대한 소리 정보를 야옹에 대한 소리로 오판단 하고 생성된 결과임을 짐작할 수 있다. 반면, Proposed-SCM 모델의 경우 확실하게 소리에 대한 분류 정보를 활용해서 '고양이가 화나 있다(the cat is angry)'라는 캡션을 정확하게 생성해 내는 것을 확인할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (14)

  1. 영상 정보의 옵티컬-플로우(optical-flow)와 RGB정보에 대한 영상 특징 벡터를 추출하고, 소리 정보에 대한 소리 특징 벡터를 추출하며, 소리 특징 벡터로부터 소리 분류 특징 벡터를 추출하는 특징 추출 모듈;
    어텐션 기법이 적용된 계층적 LSTM 인코더를 통해 영상 특징 벡터 및 소리 특징 벡터에 대한 객체의 지역적 특징 및 전역적 특징을 탐지하고 전역적 문맥(global context) 및 지역적 문맥(local context) 벡터를 추출하는 인코딩 모듈; 및
    인코딩 모듈에서 추출된 전역적 문맥 및 지역적 문맥 벡터와 특징 추출 모듈에서 추출된 소리 분류 특징 벡터를 이용하여 소리 분류 특징 벡터를 포함한 캡셔닝 결과와 소리 분류 특징 벡터를 배제한 캡셔닝 결과를 각각 구한 후 두 캡셔닝 결과를 결합하여 최종 캡션 결과를 생성하는 디코딩 모듈
    을 포함하고,
    상기 디코딩 모듈은,
    어텐션 기법을 적용하여 생성된 행동 변화에 대한 전역적 문맥 및 일정 시간에서의 워드 임베딩의 결합을 입력으로 하는 행동 변화 디코더; 및
    행동 변화 디코더의 출력, 어텐션 기법을 적용하여 생성된 행동에 대한 지역적 문맥, 일정 시간에서의 워드 임베딩 및 소리 분류 특징 벡터의 결합을 입력으로 하는 행동 탐지 디코더
    를 포함하고,
    상기 행동 변화 디코더를 통해 객체의 전체적인 행동 변화에 대한 순서를 분석하고,
    상기 행동 탐지 디코더는 최종 캡션 결과에 대한 소리 정보의 영향 및 캡션의 변화 과정을 분석하기 위해 계층적 캡션 결과 생성 과정을 수행하며,
    상기 계층적 캡션 결과 생성 과정은,
    사전 학습된 소리 분류 모델을 이용하여 소리 분류 특징 벡터를 포함하는 캡셔닝 결과를 출력하고, 소리 분류 특징 벡터를 패딩 값으로 대체하여 소리 분류 특징 벡터를 배제하는 캡셔닝 결과를 출력한 후, 소리 분류 특징 벡터를 포함하는 캡셔닝 결과 및 소리 분류 특징 벡터를 배제하는 캡셔닝 결과를 조합하여 상기 분석된 캡션의 변화 과정이 반영된 시간에 따라 가장 확률이 높은 단어를 최종 캡션 결과로 생성하는
    동물의 상황인지를 통한 캡션 생성 시스템.
  2. 제1항에 있어서,
    특징 추출 모듈은,
    영상 특징 벡터 및 소리 특징 벡터를 추출하여 인코딩 모듈로 전달하고, LSTM 기반 분류기를 통해 소리 특징 벡터로부터 소리 분류 특징 벡터를 추출하여 디코딩 모듈로 전달하는
    동물의 상황인지를 통한 캡션 생성 시스템.
  3. 제2항에 있어서,
    영상 특징 벡터는 옵티컬-플로우와 RGB정보에 대한 학습을 통해 각각의 결과의 평균값으로서 추출되고,
    소리 분류 특징 벡터는 어텐션 기법이 적용된 LSTM 기반 분류기를 통해 소리 특징 벡터를 입력으로 이용하여 학습되고, 복수의 클래스로 분류되어 추출되는
    동물의 상황인지를 통한 캡션 생성 시스템.
  4. 제1항에 있어서,
    인코딩 모듈은,
    영상 특징 벡터 및 소리 특징 벡터를 위한 각각의 인코딩 모듈은 동일한 구조를 갖는 어텐션 기법이 적용된 계층적 LSTM 인코더를 이용하고,
    객체의 행동을 탐지하여 영상 특징 벡터 및 소리 특징 벡터에 대한 지역적 문맥을 추출하고, 객체의 행동 변화를 탐지하여 영상 특징 벡터 및 소리 특징 벡터에 대한 전역적 문맥을 추출하는
    동물의 상황인지를 통한 캡션 생성 시스템.
  5. 삭제
  6. 삭제
  7. 삭제
  8. 특징 추출 모듈을 통해 영상 정보의 옵티컬-플로우(optical-flow)와 RGB정보에 대한 영상 특징 벡터를 추출하고, 소리 정보에 대한 소리 특징 벡터를 추출하며, 소리 특징 벡터로부터 소리 분류 특징 벡터를 추출하는 단계;
    어텐션 기법이 적용된 계층적 LSTM 인코더를 포함하는 인코딩 모듈을 통해 영상 특징 벡터 및 소리 특징 벡터에 대한 객체의 지역적 특징 및 전역적 특징을 탐지하고 전역적 문맥(global context) 및 지역적 문맥(local context) 벡터를 추출하는 단계; 및
    디코딩 모듈을 통해 인코딩 모듈에서 추출된 전역적 문맥 및 지역적 문맥 벡터와 특징 추출 모듈에서 추출된 소리 분류 특징 벡터를 이용하여 소리 분류 특징 벡터를 포함한 캡셔닝 결과와 소리 분류 특징 벡터를 배제한 캡셔닝 결과를 각각 구한 후 두 캡셔닝 결과를 결합하여 최종 캡션 결과를 생성하는 단계
    를 포함하고,
    상기 디코딩 모듈을 통해 인코딩 모듈에서 추출된 전역적 문맥 및 지역적 문맥 벡터와 특징 추출 모듈에서 추출된 소리 분류 특징 벡터를 이용하여 소리 분류 특징 벡터를 포함한 캡셔닝 결과와 소리 분류 특징 벡터를 배제한 캡셔닝 결과를 각각 구한 후 두 캡셔닝 결과를 결합하여 최종 캡션 결과를 생성하는 단계는,
    어텐션 기법을 적용하여 생성된 행동 변화에 대한 전역적 문맥 및 일정 시간에서의 워드 임베딩의 결합을 디코딩 모듈의 행동 변화 디코더로 입력하고,
    행동 변화 디코더의 출력, 어텐션 기법을 적용하여 생성된 행동에 대한 지역적 문맥, 일정 시간에서의 워드 임베딩 및 소리 분류 특징 벡터의 결합을 디코딩 모듈의 행동 탐지 디코더로 입력하며,
    상기 디코딩 모듈의 행동 변화 디코더를 통해 객체의 전체적인 행동 변화에 대한 순서를 분석하고,
    상기 디코딩 모듈의 행동 탐지 디코더를 통해 최종 캡션 결과에 대한 소리 정보의 영향 및 캡션의 변화 과정을 분석하기 위해 계층적 캡션 결과 생성 과정을 수행하고,
    상기 계층적 캡션 결과 생성 과정에서 사전 학습된 소리 분류 모델을 이용하여 소리 분류 특징 벡터를 포함하는 캡셔닝 결과를 출력하고, 소리 분류 특징 벡터를 패딩 값으로 대체하여 소리 분류 특징 벡터를 배제하는 캡셔닝 결과를 출력한 후, 소리 분류 특징 벡터를 포함하는 캡셔닝 결과 및 소리 분류 특징 벡터를 배제하는 캡셔닝 결과를 조합하여 상기 분석된 캡션의 변화 과정이 반영된 시간에 따라 가장 확률이 높은 단어를 최종 캡션 결과로 생성하는
    동물의 상황인지를 통한 캡션 생성 방법.
  9. 제8항에 있어서,
    특징 추출 모듈을 통해 영상 정보의 옵티컬-플로우와 RGB정보에 대한 영상 특징 벡터를 추출하고, 소리 정보에 대한 소리 특징 벡터를 추출하며, 소리 특징 벡터로부터 소리 분류 특징 벡터를 추출하는 단계는,
    영상 특징 벡터 및 소리 특징 벡터를 추출하여 인코딩 모듈로 전달하고, LSTM 기반 분류기를 통해 소리 특징 벡터로부터 소리 분류 특징 벡터를 추출하여 디코딩 모듈로 전달하는
    동물의 상황인지를 통한 캡션 생성 방법.
  10. 제9항에 있어서,
    영상 특징 벡터는 옵티컬-플로우와 RGB정보에 대한 학습을 통해 각각의 결과의 평균값으로서 추출되고,
    소리 분류 특징 벡터는 어텐션 기법이 적용된 LSTM 기반 분류기를 통해 소리 특징 벡터를 입력으로 이용하여 학습되고, 복수의 클래스로 분류되어 추출되는
    동물의 상황인지를 통한 캡션 생성 방법.
  11. 제8항에 있어서,
    어텐션 기법이 적용된 계층적 LSTM 인코더를 포함하는 인코딩 모듈을 통해 영상 특징 벡터 및 소리 특징 벡터에 대한 객체의 지역적 특징 및 전역적 특징을 탐지하고 전역적 문맥 및 지역적 문맥 벡터를 추출하는 단계는,
    영상 특징 벡터 및 소리 특징 벡터를 위한 각각의 인코딩 모듈은 동일한 구조를 갖는 어텐션 기법이 적용된 계층적 LSTM 인코더를 이용하고,
    객체의 행동을 탐지하여 영상 특징 벡터 및 소리 특징 벡터에 대한 지역적 문맥을 추출하고, 객체의 행동 변화를 탐지하여 영상 특징 벡터 및 소리 특징 벡터에 대한 전역적 문맥을 추출하는
    동물의 상황인지를 통한 캡션 생성 방법.
  12. 삭제
  13. 삭제
  14. 삭제
KR1020200112132A 2020-09-03 2020-09-03 동물의 상황인지를 통한 캡션 생성 시스템 KR102451299B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200112132A KR102451299B1 (ko) 2020-09-03 2020-09-03 동물의 상황인지를 통한 캡션 생성 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200112132A KR102451299B1 (ko) 2020-09-03 2020-09-03 동물의 상황인지를 통한 캡션 생성 시스템

Publications (2)

Publication Number Publication Date
KR20220030583A KR20220030583A (ko) 2022-03-11
KR102451299B1 true KR102451299B1 (ko) 2022-10-06

Family

ID=80814666

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200112132A KR102451299B1 (ko) 2020-09-03 2020-09-03 동물의 상황인지를 통한 캡션 생성 시스템

Country Status (1)

Country Link
KR (1) KR102451299B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102585003B1 (ko) * 2023-03-30 2023-10-10 최석문 컴퓨터 장치 및 이를 이용한 반려동물을 위한 커뮤니티 제공 방법
CN116665089B (zh) * 2023-05-08 2024-03-22 广州大学 基于三维时空网络的深度伪造视频检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009182400A (ja) * 2008-01-29 2009-08-13 Sony Corp 画像処理装置、画像処理方法、画像処理方法のプログラム及び画像処理方法のプログラムを記録した記録媒体
JP2019207720A (ja) * 2014-05-22 2019-12-05 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614613B (zh) * 2018-11-30 2020-07-31 北京市商汤科技开发有限公司 图像的描述语句定位方法及装置、电子设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009182400A (ja) * 2008-01-29 2009-08-13 Sony Corp 画像処理装置、画像処理方法、画像処理方法のプログラム及び画像処理方法のプログラムを記録した記録媒体
JP2019207720A (ja) * 2014-05-22 2019-12-05 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
KR20220030583A (ko) 2022-03-11

Similar Documents

Publication Publication Date Title
KR102660124B1 (ko) 동영상 감정 학습용 데이터 생성 방법, 동영상 감정 판단 방법, 이를 이용하는 동영상 감정 판단 장치
CN111294646B (zh) 一种视频处理方法、装置、设备及存储介质
De Geest et al. Online action detection
US10475442B2 (en) Method and device for recognition and method and device for constructing recognition model
US20190294881A1 (en) Behavior recognition
US11556302B2 (en) Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium
KR102451299B1 (ko) 동물의 상황인지를 통한 캡션 생성 시스템
Ma et al. Learning to generate grounded visual captions without localization supervision
KR20210031405A (ko) 암시적 포즈 표현을 이용한 행동 인식
KR102040309B1 (ko) 멀티미디어 콘텐츠와 연관되는 후각 정보 인식 장치 및 방법, 라벨 정보 생성 장치 및 방법
CN109508406B (zh) 一种信息处理方法、装置及计算机可读存储介质
KR20180092778A (ko) 실감정보 제공 장치, 영상분석 서버 및 실감정보 제공 방법
JP7473978B2 (ja) 機械学習によりサブシーンを含むシーンを分類する方法
CN112214606A (zh) 从图像中检测和预测对象事件
CN114064974A (zh) 信息处理方法、装置、电子设备、存储介质及程序产品
CN111291695A (zh) 人员违章行为识别模型训练方法、识别方法及计算机设备
KR20190108958A (ko) 유해단어 어휘목록 자동 생성과 기계학습을 이용한 청소년 유해가사 자동 분류 방법 및 장치
KR102221963B1 (ko) 화상 정보를 제공하는 인공 지능 장치 및 그 방법
US20230054330A1 (en) Methods, systems, and media for generating video classifications using multimodal video analysis
CN113657134B (zh) 语音播放方法和装置、存储介质及电子设备
CN113779159A (zh) 模型训练、论元检测方法、装置、电子设备及存储介质
Pini et al. Towards video captioning with naming: a novel dataset and a multi-modal approach
Yange et al. Violence detection in ranches using computer vision and convolution neural network
CN115063640B (zh) 交互检测方法、交互检测模型的预训练方法及设备
Monteiro Spatio-temporal action localization with Deep Learning

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right