KR102536362B1

KR102536362B1 - 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법, 이를 수행하기 위한 기록 매체 및 장치

Info

Publication number: KR102536362B1
Application number: KR1020200176658A
Authority: KR
Inventors: 이수원; 김희찬
Original assignee: 숭실대학교 산학협력단
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2023-05-23
Also published as: KR102536362B9; KR20220086318A

Abstract

비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법은, 인코더의 CNN(Convolutional Neural Network)으로부터 영상 특징을 추출하는 단계; 상기 인코더의 RNN(Recurrent Neural Network)으로부터 추출된 영상 특징을 기반으로 영상의 순차 정보를 학습하는 단계; LSTM(Long Shot Term Memory)를 통해 상기 인코더에서 추상화된 영상 정보를 입력으로 하여 다음으로 생성할 단어 확률을 학습하는 단계; 상기 인코더의 추상화된 영상 정보 및 다음으로 생성할 단어 정보를 이용하여 중요도에 따른 영상 정보인 문맥(context) 정보를 추출하는 단계; 추출된 문맥 정보를 기초로 영상 정보만을 이용한 단어 확률 분포와 단어 정보만을 이용한 단어 확률 분포를 각각 생성하는 단계; 및 영상 정보만을 이용한 단어 확률 분포와 단어 정보만을 이용한 단어 확률 분포의 중요도에 따른 스위칭을 통해 최종 단어 확률 분포를 생성하는 단계;를 포함한다. 이에 따라, 동일한 개체에 대한 설명이 단일 단어가 아닌 다수의 단어로 이루어진 경우에도 효과적으로 모델링 할 수 있다.

Description

비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법, 이를 수행하기 위한 기록 매체 및 장치{VISUAL-TEXTUAL REPRESENTATION SWITCHING METHOD FOR VIDEO CAPTIONING, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}

본 발명은 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 영상에서 하나의 객체나 행동이 한 단어나 여러 단어로 표현되는 경우 이러한 특성을 모델에 명시적으로 반영하기 위한 정보 선택의 스위칭 기술에 관한 것이다.

비디오 캡셔닝은 주어진 영상에 대하여 자연어 문장을 생성하는 문제로, 영상 처리와 자연어처리 연구가 통합된 연구 분야 중 하나이다. 이 문제는 영상을 요약하는 문제로 볼 수 있다. 과거에는 이미지 분류와 같은 영상 컴퓨터 비전과 자동 요약과 같은 자연어 처리 연구가 별도로 연구되어왔다.

현대에는 영상과 자연어가 동시에 존재하는 multi Modal 데이터와 그 분석 수요의 증가로, automatic video subtitling, video surveillance 등과 같이 컴퓨터 비전과 자연어처리가 융합된 연구가 활발히 진행되고 있다. 세부적으로, 비디오 캡셔닝은 주어진 영상에 대한 설명의 밀도(Density)에 따라 세분화될 수 있다.

비디오 캡셔닝은 기존의 이미지 캡셔닝에 비하여 보다 어려운 문제이다. 이 것은 영상 내의 여러 프레임에 나뉘어 존재하는 객체와 그 속성 및 행동에 대한 정보를 추출해야 하기 때문이다. 이 문제를 해결하기 위하여, 영상의 순차 구조를 학습하기 위한 여러 연구들이 제안되었다.

기존 연구들은 Video 특성을 추출하는 방법에 대한 연구이다. 기존 모델들은 동일한 개체에 대한 설명이 단일 단어가 아닌 다수의 단어로 이루어진 경우를 효과적으로 모델링하기 어려운 문제점이 존재한다.

예를 들어, 작은 개에 대한 영상일 때, 이 하나의 객체에 대한 설명으로 'a little dog'나 'a puppy' 등이 가능하다. 이와 같이 하나의 개체나 하나의 액션을 여러 단어로 표현하는 현상을 효과적으로 모델링하기 위한 비디오 캡셔닝 모델을 필요하다.

관련 연구를 살펴보면, 현대의 비디오 캡셔닝 task 에서는 영상과 텍스트 쌍을 End-to-end manner로 학습하는 모델들이 연구되었다. Venugopalan et al. 은 자동요약과 같은 자연어 처리 분야에서 널리 사용되는 sequence-to-sequence 구조와 인코더에 convolution neural network 를 결합한 모델을 제안하였다[Ven15b]. 이 구조는 매 프레임의 정보를 디코딩할 단어에 대한 중요도에 따라 선별할 수 없다는 문제점이 존재한다.

이를 완화하기 위하여, Yao et al.은 프레임별 중요도를 평가하는 temporal attention mechanism 을 적용한 모델을 제안하였다[Yao15]. 보다 자세한 영상 표현을 생성하기 위하여, Ballas et al.은 여러 블럭의 CNN 에서 추출된 표현 마다 각각 RNN 의 일종인 Gated recurrent unit[Cho14]으로 영상 정보를 추상화하는 모델을 제안하였다[Ballas16].

영상은 다른 시점으로 촬영된 작은 영상 클립들의 집합으로 볼 수 있다. 이러한 영상의 특성을 모델링하기 위하여, Baraldi et al. 은 두 층의 recurrent neural network 로 영상의 장면의 분할을 인식시키는 모델을 제안하였다[Baraldi17]. 이것과 유사하게, 영상의 description 에 대하여 문장과 문단의 의미를 계층적으로 모델링할 수 있도록, Yu et al. 은 문장을 위한 RNN 의 상위에 paragraph 를 위한 RNN 구조를 별도로 추가한 모델을 제안하였다[Yu16]. Yang et al.은 비디오 캡셔닝을 위한 Generative adversarial network 모델을 제안하였다[Yang18].

KR 10-1855597 B1 US 10,699,129 B1 US 2020/0342236 A1

[Ven15a] S. Venugopalan, H. Xu, J. Donahue, M. Rohrbach, R. Mooney, and K. Saenko, "Translating Videos to Natural Language using Deep Recurrent Neural Networks", in Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Denver, Colorado, USA, 2015, pp. 1494-1504. [Ven15b] S. Venugopalan, M. Rohrbach, J. Donahue, R. Mooney, T. Darrell, and K. Saenko, "Sequence to Sequence - Video to Text", in Proceedings of IEEE International Conference on Computer Vision, Santiago, Chile, 2015, pp. 4534-4542. [Yang18] Y. Yang, J. Zhou, J. Ai, Y. Bin, A. Hanjalic, H. T. Shen, and Y. Ji, "Video Captioning by Adversarial LSTM", IEEE Transactions on Image Processing, 27(11), 2018, pp. 5600-5611. [Yao15] L. Yao, A. Torabi, K. Cho, N. Ballas, C. Pal, H. Larochelle, and A. Courville, "Describing Videos by Exploiting Temporal Structure", in Proceedings of IEEE International Conference on Computer Vision, Santiago, Chile, 2015, pp. 4507-4515. [Ballas16] N. Ballas, L. Yao, C. Pal, and A. Courville. "Delving Deeper into Convolutional Networks for Learning Video Representations", in Proceedings of International Conference on Learning Representations, San Juan, Puerto Rico, 2016. [Yu16] H. Yu, J. Wang, Z. Huang, Y. Yang, and W. Xu, "Video Paragraph Captioning using Hierarchical Recurrent Neural Networks", in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Las Vegas, Nevada, USA, 2016, pp.4584-4593.

이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법을 제공하는 것이다.

본 발명의 다른 목적은 상기 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.

본 발명의 또 다른 목적은 상기 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법을 수행하기 위한 장치를 제공하는 것이다.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법은, 인코더의 CNN(Convolutional Neural Network)으로부터 영상 특징을 추출하는 단계; 상기 인코더의 RNN(Recurrent Neural Network)으로부터 추출된 영상 특징을 기반으로 영상의 순차 정보를 학습하는 단계; LSTM(Long Shot Term Memory)를 통해 상기 인코더에서 추상화된 영상 정보를 입력으로 하여 다음으로 생성할 단어 확률을 학습하는 단계; 상기 인코더의 추상화된 영상 정보 및 다음으로 생성할 단어 정보를 이용하여 중요도에 따른 영상 정보인 문맥(context) 정보를 추출하는 단계; 추출된 문맥 정보를 기초로 영상 정보만을 이용한 단어 확률 분포와 단어 정보만을 이용한 단어 확률 분포를 각각 생성하는 단계; 및 영상 정보만을 이용한 단어 확률 분포와 단어 정보만을 이용한 단어 확률 분포의 중요도에 따른 스위칭을 통해 최종 단어 확률 분포를 생성하는 단계;를 포함한다.

본 발명의 실시예에서, 상기 최종 단어 확률 분포를 생성하는 단계는, 영상 정보 기반 로짓과 텍스트 정보 기반 로짓의 가중합으로 최종 단어 확률 분포를 계산할 수 있다.

본 발명의 실시예에서, 상기 최종 단어 확률 분포를 생성하는 단계는, 영상 정보에 따른 단어와 단어 정보에 따른 단어를 각각 선택하여 하나의 객체 또는 액션이 여러 단어로 표현되는 것을 모델링할 수 있다.

본 발명의 실시예에서, 상기 최종 단어 확률 분포를 생성하는 단계는, 영상으로부터 정보를 이용할 것인지 여부에 대해 선택하는 스위칭 단계;를 포함할 수 있다.

본 발명의 실시예에서, 상기 영상 특징을 추출하는 단계는, 영상의 각 프레임을 고정 벡터로 표현할 수 있다.

본 발명의 실시예에서, 상기 중요도에 따른 영상 정보인 문맥(context) 정보를 추출하는 단계는, 시간적 정보(temporal information)에 대한 중요도를 측정하는 단계; 및 매 프레임의 공간적 정보(spatio information)에 대한 중요도를 측정하는 단계;를 포함할 수 있다.

상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 상기 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.

상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 장치는, 영상 특징을 추출하는 인코더의 CNN(Convolutional Neural Network)부; 상기 CNN부에서 추출된 영상 특징을 기반으로 영상의 순차 정보를 학습하는 인코더의 RNN(Recurrent Neural Network)부; 상기 인코더에서 추상화된 영상 정보를 입력으로 하여 다음으로 생성할 단어 확률을 학습하는 디코더의 LSTM(Long Shot Term Memory)부; 상기 인코더의 추상화된 영상 정보 및 다음으로 생성할 단어 정보를 이용하여 중요도에 따른 영상 정보인 문맥(context) 정보를 추출하고, 추출된 문맥 정보를 기초로 영상 정보만을 이용한 단어 확률 분포와 단어 정보만을 이용한 단어 확률 분포를 각각 생성하는 디코더의 주의 메커니즘(attention mechanisms)부; 및 영상 정보만을 이용한 단어 확률 분포와 단어 정보만을 이용한 단어 확률 분포의 중요도에 따른 스위칭을 통해 최종 단어 확률 분포를 생성하는 디코더의 완전 접속망(fully connected network)부;를 포함한다.

본 발명의 실시예에서, 상기 완전 접속망은, 영상 정보 기반 로짓과 텍스트 정보 기반 로짓의 가중합으로 최종 단어 확률 분포를 계산할 수 있다.

본 발명의 실시예에서, 상기 완전 접속망은, 영상 정보에 따른 단어와 단어 정보에 따른 단어를 각각 선택하여 하나의 객체 또는 액션이 여러 단어로 표현되는 것을 모델링할 수 있다.

본 발명의 실시예에서, 상기 완전 접속망은, 영상으로부터 정보를 이용할 것인지 여부에 대해 선택할 수 있다.

본 발명의 실시예에서, 상기 CNN부는, 영상의 각 프레임을 고정 벡터로 표현할 수 있다.

본 발명의 실시예에서, 상기 주의 메커니즘부는, 시간적 정보(temporal information)에 대한 중요도 및 매 프레임의 공간적 정보(spatio information)에 대한 중요도를 측정할 수 있다.

이와 같은 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법에 따르면, 하나의 개체나 하나의 액션을 여러 단어로 표현하는 현상을 효과적으로 모델링하기 위한 스위칭 방법을 제안한다. 본 발명에 따른 스위칭 방법은 영상 정보를 이용한 단어 로짓과 텍스트 정보를 이용한 단어 로짓의 가중합으로 구현되었다. MSVD를 이용한 모델 평가 결과, 본 발명의 제안 모델은 기존 모델들에 비하여 좋은 성능을 보였으며, 스위칭 방법은 다양한 형태로 구현될 수 있다.

도 1은 본 발명의 일 실시예에 따른 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 장치의 블록도이다.
도 2는 도 1의 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 장치의 동작을 설명하기 위한 개념도이다.
도 3은 본 발명과 종래기술의 MSVD 데이터셋을 이용하여 평가한 결과를 보여주는 도표이다.
도 4는 본 발명의 일 실시예에 따른 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법의 흐름도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 장치의 블록도이다. 도 2는 도 1의 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 장치의 동작을 설명하기 위한 개념도이다.

본 발명에 따른 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 장치(10, 이하 장치)는 영상에 대한 설명으로 자연어 문장을 생성하는 모델로서, 수 초에서 십 수초의 짧은 비디오 클립에 대한 개괄적인 설명을 생성하는 비디오 캡셔닝 기술이다.

도 1 및 도 2를 참조하면, 본 발명에 따른 장치(10)는 인코더(100)-디코더(300) 구조를 가진다.

상기 인코더(100)는 이미지 처리에 강점을 보이는 CNN부(110)와 순차 학습을 위한 RNN부(130)로 구성된다. 여러 CNN 구조를 사용할 수 있으나, 본 발명의 일 실시예에서는 비교적 적은 파라미터의 수로도 좋은 성능을 보인 MobilenetV2[San18]

를 사용한다.

영상과 그 프레임

을 입력으로, 추상화된 video representation은 마지막 출력 층

과 mean pooling 전의 층

이다. 이를 수식으로 표현하면 아래의 수학식 1과 같다.

[수학식 1]

본 발명은 CNN부(110)로부터 추출된 특징을 기반으로 RNN부(130)로 영상의 순차 정보를 학습한다. 영상의 순차 정보를 학습시키기 위하여, CNN(130)으로부터 추출된 특징을 LSTM(Long short term memory network)

를 이용하여 학습시킨다. 상기 인코더(100)의 은닉 상태

는 다음의 수학식 2와 같이 정의된다. 여기서,

의 mean pooling 이다.

[수학식 2]

본 발명의 디코더(300)는 LSTM(Long Shot Term Memory)부(310), 주의 메커니즘(attention mechanisms)부(330) 및 완전 접속망(fully connected network)부(350)의 세 가지 구성요소로 구성된다.

상기 LSTM(310)는 RNN의 일례로 단어 서열 학습을 위한 요소이다. 상기 LSTM(310)는 상기 인코더(100)에서 추상화된 영상 정보를 입력으로 하여 다음으로 생성할 단어 확률을 학습한다.

상기 주의 메커니즘부(330)는 하나는 영상 정보를 추려내기 위한 세 가지의 attention mechanisms을 수행한다. 상기 주의 메커니즘부(330)는 상기 인코더(100)의 추상화된 영상 정보 및 다음으로 생성할 단어 정보를 이용하여 중요도에 따른 영상 정보인 문맥(context) 정보를 추출하고, 추출된 문맥 정보를 기초로 영상 정보만을 이용한 단어 확률 분포와 단어 정보만을 이용한 단어 확률 분포를 각각 생성한다.

상기 완전 접속망(fully connected network)부(350)는 영상 정보만을 이용한 단어 확률 분포와 단어 정보만을 이용한 단어 확률 분포의 중요도에 따른 스위칭을 통해 최종 단어 확률 분포를 계산한다.

상기 디코더(300)의 LSTM(310)는 추상화된 영상 표현을 입력으로 LSTM

을 이용하여 다음 생성할 단어 확률을 학습한다. 상기 디코더(300)의 은닉 상태

는 다음의 수학식 3과 같이 정의된다.

[수학식 3]

수학식 3에서,

는 영상에 대한 각 프레임 표현

의 평균이다.

는 해당 단어의 임베딩 벡터를 나타낸다. 상기 디코더(300)는 영상의 전체 정보

와 이전 단어 정보만을 이용하여 학습하기 때문에, 단어 생성 시 중요한 프레임 정보를 참조할 필요가 존재한다.

이를 위하여 본 발명에서는 attention mechanism을 사용하여 인코더의 정보를 참조한다. 상기 인코더(100)에서 추상화된 영상 표현이 총 세 가지 이므로, 이 각 세가지에 대한 컨텍스트 정보들은 다음의 수학식 4와 같이 정의된다.

[수학식 4]

수학식 4에서, 시간적 정보(temporal information)에 대한 중요도를 측정하는 attention mechanism은

로, 매 프레임의 공간적 정보(spatio information)에 대한 중요도를 측정하는 attention mecanism은

로 표현되었다.

하나의 개체나 하나의 액션을 여러 단어로 표현하는 경우를 효과적으로 모델링하기 위하여 본 발명은 이번 디코딩 단계에서 영상 정보를 사용할지, 텍스트 정보를 사용할지 판단하는 스위칭 방법을 제안한다.

본 발명에서 제안된 스위칭 방법이 적용된 최종 단어 확률 분포

는 영상 정보 기반 로짓

과 텍스트 정보 기반 로짓 -

의 가중합으로 다음의 수학식 5와 같이 정의된다. -

[수학식 5]

수학식 5에서,

는 소프트 맥스 함수를 나타내고,

는 시그모이드 함수를 나타낸다.

는 활성 함수를 나타내고,

는 단어 사전의 수이다. 이 스위칭 방법에 따라, 디코더(300)는 영상 정보에 따른 단어와 단어 정보에 따른 단어를 따로 선택할 수 있다. 이를 통하여 본 발명은 하나의 객체 또는 액션이 여러 단어로 표현되는 것을 모델링할 수 있다.

모델 학습을 위한 로스 함수는 목표 단어

에 대한 음의 로그 우도 함수로 다음의 수학식 6과 같이 정의된다.

[수학식 6]

이하에서는, 본 발명의 객관적인 성능 평가를 위하여, MSVD 데이터셋을 이용하여 평가한 결과를 기술한다. 기존 연구들과 동일하게 데이터의 분할은 학습에 1200 개의 영상, 검증에 100 개, 평가에는 나머지 670 개를 사용하였다. 영상은 첫 240 frames 중에서 균등한 간격으로 30 frames 이 샘플링되고, 각 프레임은 center crop 후 가로 세로 224 pixel 로 resize 되었다.

전이 학습을 위하여 기존 Image captioning에 사용된 MSCOCO와 Flickr30k의 이미지 데이터를 사용하였다. 이미지 또한 center cropped된 후 resize 되었다.

본 발명의 인코더(100)에서 사용한 CNN은 여러 Imagenet으로 pretrained된 MobilenetV2[San18]를 사용하였다. 최적화 알고리즘은 Adam을 사용하였고, 학습률은 0.00005 로 설정되었다. 이미지를 이용한 사전 학습은 10 epoch 까지 진행되었으며, 10 epoch 의 가중치로부터 MSVD 학습 데이터를 이용하여 재 학습되었다.

최적 모델은 MSVD의 검증 데이터를 이용하여 선택되었다. 인코더(100)의 최대 입력 프레임 수는 30으로 설정되었다. 텍스트는 space tokenized 되었고, lowercase로 전환되었다. 그 이외의 전처리는 수행되지 않았다. 단어 사전의 수는 이미지 데이터와 MSVD의 학습 데이터에 존재하는 단어들의 수로 39,056 개로 설정되었다.

인코더와 디코더의 은닉 차원의 수는 128 로 설정되었다. 평가 척도로 기존 연구들과 마찬가지로 BLEU-4 (B-4) [Ref], METEOR (M) [Ref], CIDEr (C) [Ref]을 사용하였다. BLEU는 정답 caption과 동일한 ngram이 얼마나 존재하는지 Precision의 측면에서 측정하는 척도이다. METEOR는 유의어까지 확장하여 측정하는 척도이며, CIDEr는 TF-IDF 를 이용하여 적은 빈도의 단어를 맞추는 경우 보다 가중치를 적용하는 척도이다. 실험 결과는 도 3과 같다.

도 3을 참조하면, 본 발명은 기존 방법들에 비하여 CIDEr 척도는 좋은 성능을 보였다. 그 이외의 BLEU-4 나 METEOR 척도에서도 제안 방법은 그에 준하는 성능을 보였다.

본 발명은 하나의 개체나 하나의 액션을 여러 단어로 표현하는 현상을 효과적으로 모델링하기 위한 스위칭 방법을 제안하였다. 이 스위칭 방법은 영상 정보를 이용한 단어 로짓과 텍스트 정보를 이용한 단어 로짓의 가중합으로 구현되었다. MSVD 를 이용한 모델 평가 결과, 제안 모델은 기존 모델들에 비하여 좋은 성능을 보였다. 스위칭 방법은 다양한 형태로 구현될 수 있다.

도 4는 본 발명의 일 실시예에 따른 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법의 흐름도이다.

본 실시예에 따른 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법은, 도 1의 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1의 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.

또한, 본 실시예에 따른 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법은 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경을 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.

본 발명은 영상에 대한 설명으로 자연어 문장을 생성하는 모델로서, 수 초에서 십 수초의 짧은 비디오 클립에 대한 개괄적인 설명을 생성하는 비디오 캡셔닝 기술이다.

도 4를 참조하면, 본 실시예에 따른 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법은, 인코더의 CNN(Convolutional Neural Network)으로부터 영상 특징을 추출한다(단계 S10). 이 단계에서는 영상의 각 프레임을 고정 벡터로 표현한다.

상기 인코더의 RNN(Recurrent Neural Network)으로부터 추출된 영상 특징을 기반으로 영상의 순차 정보를 학습한다(단계 S20).

LSTM(Long Shot Term Memory)를 통해 상기 인코더에서 추상화된 영상 정보를 입력으로 하여 다음으로 생성할 단어 확률을 학습한다(단계 S30).

상기 인코더의 추상화된 영상 정보 및 다음으로 생성할 단어 정보를 이용하여 중요도에 따른 영상 정보인 문맥(context) 정보를 추출한다(단계 S40). 이 경우, 시간적 정보(temporal information)에 대한 중요도 및 매 프레임의 공간적 정보(spatio information)에 대한 중요도를 측정할 수 있다.

추출된 문맥 정보를 기초로 영상 정보만을 이용한 단어 확률 분포와 단어 정보만을 이용한 단어 확률 분포를 각각 생성한다(단계 S50).

영상 정보만을 이용한 단어 확률 분포와 단어 정보만을 이용한 단어 확률 분포의 중요도에 따른 스위칭을 통해 최종 단어 확률 분포를 생성한다(단계 S60).

상기 최종 단어 확률 분포를 생성하는 단계(단계 S60)는, 영상 정보 기반 로짓과 텍스트 정보 기반 로짓의 가중합으로 최종 단어 확률 분포를 계산할 수 있다.

상기 최종 단어 확률 분포를 생성하는 단계(단계 S60)는, 영상 정보에 따른 단어와 단어 정보에 따른 단어를 각각 선택하여 하나의 객체 또는 액션이 여러 단어로 표현되는 것을 모델링한다. 즉. 영상으로부터 정보를 이용할 것인지 여부에 대해 선택할 수 있다.

이와 같은, 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

본 발명은 널리 알려진 벤치마크 데이터에 대하여, 기존 방법에 비하여 좋은 성능을 보였다. 또한, 본 발명은 단어 확률 분포 생성 방법에 대한 발명이므로, 현대의 보다 많은 매개변수를 사용하는 GPT나 BERT와 같은 딥러닝 모델에 적용할 경우 더 높은 성능을 지닌 모델로 용이하게 확장 이용이 가능하다.

10: 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 장치
100: 인코더
110: CNN부
130: RNN부
300: 디코더
310: LSTM부
330: 주의 메커니즘부
350: 완전 접속망부

Claims

인코더의 CNN(Convolutional Neural Network)으로부터 영상 특징을 추출하는 단계;
상기 인코더의 RNN(Recurrent Neural Network)에서 상기 CNN으로부터 추출된 영상 특징을 기반으로 영상의 순차 정보를 학습하는 단계;
디코더의 LSTM(Long Shot Term Memory)를 통해 상기 인코더에서 추상화된 영상 정보를 입력으로 하여 다음으로 생성할 단어 확률을 학습하는 단계;
상기 인코더의 추상화된 영상 정보 및 다음으로 생성할 단어 정보를 이용하여 중요도에 따른 영상 정보인 문맥(context) 정보를 추출하는 단계;
추출된 문맥 정보를 기초로 영상 정보만을 이용한 단어 확률 분포와 단어 정보만을 이용한 단어 확률 분포를 각각 생성하는 단계; 및
영상 정보만을 이용한 단어 확률 분포와 단어 정보만을 이용한 단어 확률 분포의 중요도에 따른 스위칭을 통해 최종 단어 확률 분포를 생성하는 단계;를 포함하고,
상기 중요도에 따른 영상 정보인 문맥(context) 정보를 추출하는 단계는,
시간적 정보(temporal information)에 대한 중요도를 측정하는 단계; 및
매 프레임의 공간적 정보(spatio information)에 대한 중요도를 측정하는 단계;를 포함하고,
상기 문맥 정보는,
하기 [수학식 4]에 따라 상기 추상화된 영상 정보에 대한 문맥 정보로 정의되는, 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법.
[수학식4]

여기서,
,
,
는 문맥정보를 의미하고,
는 추상화된 video representation을,
은 mean pooling 전의 층을,
는 인코더의 은닉상태를,
는 디코더의 은닉상태를,
는 시간적 정보(temporal information)에 대한 중요도를 측정하는 attention mechanism을,
는 매 프레임의 공간적 정보(spatio information)에 대한 중요도를 측정하는 attention mecanism을 나타낸다.
제1항에 있어서, 상기 최종 단어 확률 분포를 생성하는 단계는,
영상 정보 기반 로짓과 텍스트 정보 기반 로짓의 가중합으로 최종 단어 확률 분포를 계산하는, 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법.
제1항에 있어서, 상기 최종 단어 확률 분포를 생성하는 단계는,
영상 정보에 따른 단어와 단어 정보에 따른 단어를 각각 선택하여 하나의 객체 또는 액션이 여러 단어로 표현되는 것을 모델링하는, 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법.
제1항에 있어서, 상기 최종 단어 확률 분포를 생성하는 단계는,
영상으로부터 정보를 이용할 것인지 여부에 대해 선택하는 스위칭 단계;를 포함하는, 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법.
제1항에 있어서, 상기 영상 특징을 추출하는 단계는,
영상의 각 프레임을 고정 벡터로 표현하는, 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법.
삭제
제1항에 따른 상기 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
영상 특징을 추출하는 인코더의 CNN(Convolutional Neural Network)부;
상기 CNN부에서 추출된 영상 특징을 기반으로 영상의 순차 정보를 학습하는 인코더의 RNN(Recurrent Neural Network)부;
상기 인코더에서 추상화된 영상 정보를 입력으로 하여 다음으로 생성할 단어 확률을 학습하는 디코더의 LSTM(Long Shot Term Memory)부;
상기 인코더의 추상화된 영상 정보 및 다음으로 생성할 단어 정보를 이용하여 중요도에 따른 영상 정보인 문맥(context) 정보를 추출하고, 추출된 문맥 정보를 기초로 영상 정보만을 이용한 단어 확률 분포와 단어 정보만을 이용한 단어 확률 분포를 각각 생성하는 디코더의 주의 메커니즘(attention mechanisms)부; 및
영상 정보만을 이용한 단어 확률 분포와 단어 정보만을 이용한 단어 확률 분포의 중요도에 따른 스위칭을 통해 최종 단어 확률 분포를 생성하는 디코더의 완전 접속망(fully connected network)부;를 포함하고,
상기 주의 메커니즘부는,
영상으로부터 정보를 이용할 것인지 여부에 대해 선택하고,
시간적 정보(temporal information)에 대한 중요도 및 매 프레임의 공간적 정보(spatio information)에 대한 중요도를 측정하고,
상기 문맥 정보는,
하기 [수학식 4]에 따라 상기 추상화된 영상 정보에 대한 문맥 정보로 정의되는, 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 장치.
[수학식4]

여기서,
,
,
는 문맥정보를 의미하고,
는 추상화된 video representation을,
은 mean pooling 전의 층을,
는 인코더의 은닉상태를,
는 디코더의 은닉상태를,
는 시간적 정보(temporal information)에 대한 중요도를 측정하는 attention mechanism을,
는 매 프레임의 공간적 정보(spatio information)에 대한 중요도를 측정하는 attention mecanism을 나타낸다.
제8항에 있어서, 상기 완전 접속망은,
영상 정보 기반 로짓과 텍스트 정보 기반 로짓의 가중합으로 최종 단어 확률 분포를 계산하는, 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 장치.
제8항에 있어서, 상기 완전 접속망은,
영상 정보에 따른 단어와 단어 정보에 따른 단어를 각각 선택하여 하나의 객체 또는 액션이 여러 단어로 표현되는 것을 모델링하는, 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 장치.
제8항에 있어서, 상기 완전 접속망은,
영상으로부터 정보를 이용할 것인지 여부에 대해 선택하는, 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 장치.
제8항에 있어서, 상기 CNN부는,
영상의 각 프레임을 고정 벡터로 표현하는, 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 장치.
삭제