WO2020256339A1

WO2020256339A1 - 전자 장치 및 이의 제어 방법

Info

Publication number: WO2020256339A1
Application number: PCT/KR2020/007554
Authority: WO
Inventors: 김경수; 김성진; 정윤재; 권인소; 김다훈; 우상현
Original assignee: 삼성전자주식회사; 한국과학기술원
Priority date: 2019-06-18
Filing date: 2020-06-11
Publication date: 2020-12-24
Also published as: US20220108550A1

Abstract

전자 장치 및 이의 제어 방법이 제공된다. 본 전자 장치는 적어도 하나의 인스트럭션(instruction)을 저장하는 메모리 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서를 포함하고, 상기 프로세서는, 상기 적어도 하나의 인스트럭션을 실행함으로써, 영상을 제1 인공 지능 모델에 입력하여 상기 영상에 포함된 복수의 이미지의 특징 데이터를 획득하고, 상기 복수의 이미지의 특징 데이터를 바탕으로 상기 영상의 복수의 키 프레임(key frame)을 획득하고, 상기 복수의 키 프레임 중 적어도 하나를 제외한 나머지 키 프레임을 제2 인공 지능 모델의 제1 인공 신경망에 입력하여 상기 나머지 키 프레임의 제1 특징 데이터를 획득하고, 상기 나머지 키 프레임의 제1 특징 데이터를 상기 제2 인공 지능 모델의 제2 인공 신경망에 입력하여 상기 나머지 키 프레임간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득하고, 상기 제2 특징 데이터를 바탕으로 상기 복수의 키 프레임 대한 텍스트를 획득할 수 있다.

Description

전자 장치 및 이의 제어 방법

본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로서, 더욱 상세하게는 영상의 키 프레임(key frame)을 획득하고, 키 프레임에 대한 텍스트를 획득하는 전자 장치 및 이의 제어 방법에 관한 것이다.

인공 지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 규칙 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공 지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 규칙 기반 스마트 시스템은 점차 딥러닝 기반 인공 지능 시스템으로 대체되고 있다.

인공 지능 기술은 기계학습(예로, 딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.

기계학습은 입력 데이터들의 특징을 스스로 분류/학습시키는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다. 특히, 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다.

한편, 최근에는 시각적 이해와 언어적 이해 기술을 통합하여 이미지에 대한 설명 문장을 생성하는 비디오 캡셔닝(Video captioning) 또는 스토리 텔링(storytelling) 기술에 대한 연구가 활발히 진행되고 있다.

기존의 기술의 경우, 복수의 이미지 전체에 대해 학습한 뒤에 학습한 이미지에 대한 텍스트를 획득하는 기술이 연구되었다. 다만, 기존의 기술을 활용하여 비디오 캡셔닝 또는 스토리 텔링을 수행할 경우, 이미지 간에 문맥적 흐름(contextual flow)에 맞도록 문장을 생성하기 위하여, 현재 이미지에 나타나지 않는 특징에 대한 문장이 생성되는 등 실제 이미지에 맞는 텍스트가 생성되지 않는 한계가 존재하였다.

본 개시는 상술한 필요성에 따라 안출된 것으로서, 본 개시는 영상에 포함된 복수의 이미지의 액션 및 장면 특징 데이터를 바탕으로 영상의 키 프레임을 획득하고, 키 프레임 중 적어도 하나를 제외한 키 프레임을 바탕으로 전체 키 프레임의 텍스트를 획득하는 전자 장치 및 이의 제어 방법을 제공함에 있다.

상술한 목적을 달성하기 위한 실시 예에 따른 전자 장치는, 적어도 하나의 인스트럭션(instruction)을 저장하는 메모리 및 상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서를 포함하고, 상기 프로세서는, 상기 적어도 하나의 인스트럭션을 실행함으로써, 영상을 제1 인공 지능 모델에 입력하여 상기 영상에 포함된 복수의 이미지의 특징 데이터를 획득하고, 상기 복수의 이미지의 특징 데이터를 바탕으로 상기 영상의 복수의 키 프레임(key frame)을 획득하고, 상기 복수의 키 프레임 중 적어도 하나를 제외한 나머지 키 프레임을 제2 인공 지능 모델의 제1 인공 신경망에 입력하여 상기 나머지 키 프레임의 제1 특징 데이터를 획득하고, 상기 나머지 키 프레임의 제1 특징 데이터를 상기 제2 인공 지능 모델의 제2 인공 신경망에 입력하여 상기 나머지 키 프레임간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득하고, 상기 제2 특징 데이터를 바탕으로 상기 복수의 키 프레임 대한 텍스트를 획득할 수 있다.

한편, 상술한 목적을 달성하기 위한 실시 예에 따른 전자 장치의 제어 방법은 영상을 제1 인공 지능 모델에 입력하여 상기 영상에 포함된 복수의 이미지의 특징 데이터를 획득하는 단계, 상기 복수의 이미지의 특징 데이터를 바탕으로 상기 영상의 복수의 키 프레임(key frame)을 획득하는 단계, 상기 복수의 키 프레임 중 적어도 하나를 제외한 나머지 키 프레임을 제2 인공 지능 모델의 제1 인공 신경망에 입력하여 상기 나머지 키 프레임의 제1 특징 데이터를 획득하는 단계, 상기 나머지 키 프레임의 제1 특징 데이터를 상기 제2 인공 지능 모델의 제2 인공 신경망에 입력하여 상기 나머지 키 프레임간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득하는 단계 및 상기 제2 특징 데이터를 바탕으로 상기 복수의 키 프레임 대한 텍스트를 획득하는 단계를 포함할 수 있다.

상술한 바와 같이 본 개시의 다양한 실시 예에 의해, 전자 장치는 영상 속 이미지의 액션 특징 데이터 및 장면 특징 데이터를 바탕으로 영상의 키 프레임을 획득하고, 키 프레임 중 적어도 하나를 제외한 키 프레임을 통해 전체 키 프레임에 대한 텍스트를 획득함으로써, 사용자는 영상을 설명하는 텍스트를 효율적으로 제공받을 수 있게 된다.

도 1은 본 개시의 일 실시 예에 따른, 전자 장치의 전체적인 동작을 설명하기 위한 도면,

도 2a는 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 간략히 도시한 블록도,

도 2b는 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 상세히 도시한 블록도,

도 3a는 본 개시의 일 실시 예에 따른, 전자 장치에 포함된 제1 인공 지능 모델의 동작을 설명하기 위한 도면,

도 3b는 본 개시의 일 실시 예에 따른, 전자 장치의 제1 인공 지능 모델의 제2 인공 신경망을 설명하기 위한 도면,

도 4는 본 개시의 일 실시 예에 따른, 전자 장치에 포함된 제2 인공 지능 모델의 동작을 설명하기 위한 도면,

도 5는 본 개시의 일 실시 예에 따른, 전자 장치의 제어 방법을 설명하기 위한 도면이다.

이하, 도면을 참조하여 본 개시에 대해 구체적으로 설명하도록 한다.

도 1은 본 개시의 일 실시 예에 따른, 전자 장치(100)의 전체적인 동작을 설명하기 위한 도면이다.

도 1에 도시된 바와 같이, 본 개시의 일 실시 예에 따른 전자 장치(100)는 영상(10)을 제1 인공 지능 모델(20)에 입력하여 영상(10)에 포함된 복수의 이미지의 특징 데이터를 획득할 수 있다. 구체적으로, 전자 장치(100)는 영상(10)을 제1 인공 지능 모델(20)의 제1 인공 신경망에 입력하여 복수의 이미지의 액션(action) 특징 데이터 및 장면(scene) 특징 데이터를 포함하는 복수의 이미지의 특징 데이터를 획득할 수 있다.

한편, 본 개시의 전자 장치(100)에 포함된 각 인공 지능 모델에 포함된 인공 신경망은 복수의 레이어(layer)들로 구성될 수 있다. 각 레이어는 복수의 가중치(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치의 연산을 통해 레이어의 연산을 수행할 수 있다. 가중치는 입력 신호가 결과 출력에 주는 영향도를 조절하는 매개 변수이다.

그리고, 제1 인공 지능 모델(20)의 제1 인공 신경망은 컨볼루션 신경망(Convolutional Neural Network)에 순환 신경망(Recurrent Neural Network)을 연결한 인공 신경망일 수 있으나 이는 일 실시 예에 불과하며, DNN (Deep Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 등 으로도 구현될 수 있다.

그리고, 액션 특징 데이터는 이미지 속에 포함된 개체의 움직임에 대한 특징과 관련된 데이터를 포함할 수 있다. 일 실시 예로, 영상에 포함된 복수의 이미지 중 개체가 정지한 이미지 및 개체가 정지했다가 움직이는 이미지가 포함되어 있는 경우, 전자 장치(100)는 제1 인공 지능 모델의 제1 인공 신경망을 통해 개체가 정지했을 때의 이미지 특징 데이터 및 움직였을 때의 이미지 특징 데이터를 포함하는 액션 특징 데이터를 획득할 수 있다.

그리고, 장면 특징 데이터는 이미지에 표시되는 장소 또는 환경의 특징과 관련된 데이터를 포함할 수 있다. 일 실시 예로, 복수의 이미지 중 농구 코트에 대한 이미지 및 관중석에 대한 이미지가 포함된 경우, 전자 장치(100)는 제1 인공 지능 모델의 제1 인공 신경망을 통해 장소가 농구 코트일 때 이미지 특징 데이터 및 장소가 관중석일 때 이미지 특징 데이터를 포함하는 장면 특징 데이터를 획득할 수 있다.

일 실시 예에 따른, 전자 장치(100)는 복수의 이미지의 액션 특징 데이터 및 장면 특징 데이터를 제1 인공 지능 모델의 제2 인공 신경망에 입력하여 복수의 이미지 각각의 프레임 레벨 스코어(frame level score)를 획득할 수 있다. 일 실시 예로, 전자 장치(100)는 제1 인공 지능 모델(20)의 제2 인공 신경망을 통해 이미지 각각의 액션 특징 데이터 및 장면 특징 데이터를 비교하여 각 이미지가 영상의 주요한 특징을 나타내는 키 프레임인지 여부를 판단할 수 있는 수치를 획득할 수 있다. 즉, 전자 장치(100)는 영상에 포함된 복수의 이미지의 액션 특징 및 장면 특징을 통해 영상에 포함된 복수의 이미지 중 주요한 특징을 나타내는 키 프레임을 획득할 수 있다.

제1 인공 지능 모델의 제2 인공 신경망은 비 지역 신경망(Non-local neural network)을 연결한 신경망일 수 있다. 비 지역 신경망은 입력된 데이터의 특정 영역이 아닌 전체 영역에 대해 연산(또는, 비 지역 연산(non-local operation))을 수행하여 입력된 데이터의 특징 데이터 및 각 특징 데이터들간의 관계에 대한 데이터를 획득할 수 있는 인공 신경망이다. 비 지역 신경망에 대한 구체적인 설명은 도 3b를 참조하여 구체적으로 설명하도록 한다.

프레임 레벨 스코어는 각 이미지가 영상의 키 프레임(Key frame)인지 여부를 판단할 수 있는 수치이다. 그리고, 키 프레임은 영상에서 개체의 단일 동작의 시작 및 끝을 나타내는 이미지로 영상의 중요한 특징을 나타낼 수 있는 이미지이다. 즉, 키 프레임은 영상에 포함된 복수의 이미지 중 개체의 움직임 또는 개체가 위치하는 장소의 변화를 시작하거나 끝날 때를 나타내는 이미지를 포함할 수 있다.

그리고, 전자 장치(100)는 획득한 이미지 각각의 프레임 레벨 스코어를 바탕으로 복수의 이미지 중 영상의 키 프레임을 식별할 수 있다. 일 실시 예로, 전자 장치(100)는 복수의 이미지 중 임계값을 초과하는 프레임 레벨 스코어를 가지는 이미지를 영상의 복수의 키 프레임(30-1,30-2, … 30-5)으로 식별하여 획득할 수 있다. 도 1에는 획득된 영상의 복수의 키 프레임(30-1,30-2, … 30-5)을 5장으로 도시하였으나 이는 일 실시 예에 불과하다.

그리고, 전자 장치(100)는 획득한 키 프레임의 액션 특징 데이터 및 장면 특징 데이터를 바탕으로 제1 인공 지능 모델을 학습시킬 수 있다. 즉, 전자 장치(100)는 키 프레임의 두 가지 특징 데이터를 바탕으로 제1 인공 지능 모델을 학습시킬 수 있다. 구체적으로, 전자 장치(100)는 획득한 키 프레임의 액션 특징 데이터 및 장면 특징 데이터 각각을 실제 영상의 키 프레임(또는, 사용자로부터 입력된 영상의 키 프레임)의 액션 특징 데이터 및 장면 특징 데이터와 비교하여 제1 인공 지능 모델을 학습시킬 수 있다. 일 실시 예로, 전자 장치(100)는 획득한 키 프레임에 역 전파(backpropagation) 알고리즘을 적용하여 제1 인공 지능 모델을 학습시킬 수 있으나 이는 일 실시 예에 불과하며 다양한 알고리즘(예를 들어, 확률적 경사 하강법(Stochastic Gradient Descent), 모멘텀(Momentum) 알고리즘, adagrad 알고리즘, adam 알고리즘 등)을 적용하여 제1 인공 지능 모델(20)을 학습시킬 수 있다.

한편, 전자 장치(100)는 복수의 키 프레임(30-1,30-2, … 30-5) 중 적어도 하나(30-2)를 제외한 나머지 키 프레임을 제2 인공 지능 모델(40)의 제1 인공 신경망에 입력하여 나머지 키 프레임의 제1 특징 데이터를 획득할 수 있다. 도 1의 경우, 복수의 키 프레임(30-1,30-2, … 30-5) 중 하나를 제외하였으나 이는 일 실시 예에 불과하며 2개 또는 그 이상의 키 프레임을 제외할 수 있다. 일 실시 예로, 전자 장치(100)는 제2 인공 지능 모델(40)의 학습 횟수에 따라 제외하는 키 프레임의 개수를 변경할 수 있다. 한편, 제2 인공 지능 모델(40)의 제1 인공 신경망은 컨볼루션 신경망일 수 있으나 이는 일 실시 예에 불과하다.

그리고, 전자 장치(100)는 나머지 키 프레임의 제1 특징 데이터를 제2 인공 지능 모델(40)의 제2 인공 신경망에 입력하여 나머지 키 프레임 간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득할 수 있다. 일 실시 예로, 제2 인공 지능 모델(40)의 제2 인공 신경망은 순환 신경망에 비 지역 신경망을 연결한 신경망일 수 있다. 그리고, 나머지 키 프레임의 제2 특징 데이터는 나머지 키 프레임의 제1 특징 데이터 간의 연관 관계와 관련된 데이터 등을 포함할 수 있다.

그리고, 전자 장치(100)는 나머지 키 프레임의 제2 특징 데이터를 바탕으로 복수의 키 프레임에 대한 텍스트(50-1,50-2, … 50-5)를 획득할 수 있다. 구체적으로, 전자 장치(100)는 나머지 키 프레임의 제1 특징 데이터와 제2 특징 데이터를 더한 데이터를 제2 인공 지능 모델(40)의 제2 인공 신경망에 입력하여 제외된 적어도 하나의 키 프레임(30-2)의 특징 데이터를 포함하는 제3 특징 데이터를 획득할 수 있다. 즉, 전자 장치(100)는 나머지 키 프레임의 연관 관계를 나타내는 제2 특징 데이터와 나머지 키 프레임의 제1 특징 데이터를 통해 제외된 이미지(30-2)의 특징 데이터를 추론하여 획득할 수 있다. 한편, 제2 인공 지능 모델(40)의 제3 인공 신경망은 제2 인공 신경망의 구조와 동일한 순환 신경망에 비 지역 신경망을 연결한 신경망 구조일 수 있으나, 제2 인공 신경망과 상이한 파라미터를 포함할 수 있다.

그리고, 전자 장치(100)는 제3 특징 데이터를 제2 인공 지능 모델(40)의 제4 인공 신경망에 입력하여 복수의 키 프레임 전체에 대한 텍스트(50-1,50-2, … 50-5)를 획득할 수 있다. 즉, 전자 장치(100)는 제2 인공 지능 모델(40)을 통해 복수의 키 프레임 중 적어도 하나를 제외하더라도 전체 키 프레임에 대한 텍스트(50-1,50-2, … 50-5)를 획득할 수 있다. 일 실시 예로, 도 1에 도시된 바와 같이, 전자 장치(100)는 복수의 키 프레임 중 하나(30-2)를 제외하였으나, 제2 인공 지능 모델(40)을 통해 제외된 키 프레임(30-2)에 대한 텍스트(예를 들면, It was a formal cap and gown event)(50-2)를 획득할 수 있다. 한편, 일 실시 예로, 제2 인공 지능 모델(40)의 제4 인공 신경망은 순환 신경망일 수 있다.

한편, 전자 장치(100)는 획득한 복수의 키 프레임에 대한 텍스트(50-1,50-2, … 50-5)를 바탕으로 제2 인공 지능 모델(40)을 학습시킬 수 있다. 구체적으로, 전자 장치(100)는 획득한 키 프레임에 대한 텍스트(50-1,50-2, … 50-5)와 실제 키 프레임에 대한 텍스트(혹은, 사용자로부터 입력된 키 프레임에 대한 텍스트에 대한 정보)와 비교하여 제2 인공 지능 모델을 학습시킬 수 있다. 일 실시 예로, 전자 장치(100)는 획득한 키 프레임에 대한 텍스트(50-1,50-2, … 50-5)에 역 전파(backpropagation) 알고리즘을 적용하여 제1 인공 지능 모델을 학습시킬 수 있으나 이는 일 실시 예에 불과하며 다양한 알고리즘(예를 들어, 확률적 경사 하강법(Stochastic Gradient Descent), 모멘텀(Momentum) 알고리즘, adagrad 알고리즘, adam 알고리즘 등)을 적용하여 제2 인공 지능 모델(40)을 학습시킬 수 있다.

도 2는 본 개시의 일 실시 예에 따른, 전자 장치(100)의 구성을 간략히 도시한 블록도이다. 도 2a에 도시된 바와 같이, 전자 장치(100)는 메모리(110) 및 프로세서(120)를 포함할 수 있다. 도 2a에 도시된 구성들은 본 개시의 실시 예들을 구현하기 위한 예시도이며, 통상의 기술자에게 자명한 수준의 적절한 하드웨어/소프트웨어 구성들이 전자 장치(100)에 추가로 포함될 수 있다.

메모리(110)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 인스트럭션(Instruction) 또는 데이터를 저장할 수 있다. 인스트럭션은 프로그래밍 언어(programming language)에서 전자 장치(100)에 대한 하나의 동작 문장(action statement)이며, 전자 장치(100)가 직접 수행할 수 있는 프로그램의 최소 단위이다.

특히, 메모리(110-)는 비휘발성 메모리, 휘발성 메모리, 플래시메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD) 등으로 구현될 수 있다. 메모리(110)는 프로세서(120)에 의해 액세스되며, 프로세서(120)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 본 개시에서 메모리라는 용어는 메모리(110), 프로세서(120) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다.

특히, 메모리(110)는 영상에서 키 프레임을 획득할 수 있는 제1 인공 지능 모델과 키 프레임에 대한 텍스트를 획득할 수 있는 제2 인공 지능 모델을 저장할 수 있다. 그리고, 메모리(110)는 각 인공 지능 모델에 포함되어 있는 복수의 인공 신경망에서 입력 및 출력되는 데이터를 저장할 수 있다.

프로세서(120)는 메모리(110)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작 및 기능을 제어할 수 있다. 특히, 프로세서(120)는 메모리(110)에 저장되어 있는 적어도 하나의 인스트럭션을 실행함으로써, 영상을 제1 인공 지능 모델에 입력하여 영상에 포함된 복수의 이미지의 특징 데이터를 획득할 수 있다. 구체적으로, 프로세서(120)는 영상을 제1 인공 지능 모델의 제1 인공 신경망에 입력하여 복수의 이미지의 복수의 이미지의 액션 특징 데이터 및 장면 특징 데이터를 포함한 특징 데이터를 획득할 수 있다.

한편, 프로세서(120)는 복수의 이미지의 액션 특징 데이터 및 장면 특징 데이터를 제1 인공 지능 모델의 제2 인공 신경망에 입력하여 복수의 이미지 각각의 프레임 레벨 스코어를 획득할 수 있다. 구체적으로, 프로세서(120)는 복수의 이미지에 포함된 액션 특징 및 장면 특징을 비교하여 각 이미지가 영상에 포함된 객체의 변화를 나타낼 수 있는지에 대한 수치인 프레임 레벨 스코어를 획득할 수 있다.

그리고, 프로세서(120)는 각 이미지의 프레임 레벨 스코어를 바탕으로 복수의 이미지 중 영상의 키 프레임을 식별하여 획득할 수 있다. 일 실시 예로, 프로세서(120)는 복수의 이미지 중 임계값을 초과하는 프레임 레벨 스코어를 가지는 이미지를 영상의 키 프레임으로 식별하고 획득할 수 있다.

한편, 프로세서(120)는 획득한 키 프레임의 액션 특징 데이터 및 장면 특징 데이터를 바탕으로 제1 인공 지능 모델을 학습시킬 수 있다. 구체적으로, 프로세서(120)는 실제 키 프레임(혹은, 사용자로부터 입력된 영상의 키 프레임 정보)의 액션 및 장면 특징 데이터와 획득한 키 프레임의 액션 및 장면 특징 데이터를 비교하여 제1 인공 지능 모델을 학습시킬 수 있다. 프로세서(120)가 획득한 키 프레임에 적용하는 학습 알고리즘은 역전파 알고리즘일 수 있으나 이는 일 실시 예에 불과하다.

한편, 프로세서(120)는 획득한 복수의 키 프레임 중 적어도 하나를 제외한 나머지 키 프레임을 제2 인공 지능 모델의 제1 인공 신경망에 입력하여 나머지 키 프레임의 제1 특징 데이터를 획득할 수 있다. 일 실시 예로, 프로세서(120)는 학습 횟수에 따라 복수의 키 프레임 중 제외하는 키 프레임의 개수를 조절할 수 있다. 구체적으로, 프로세서(120)는 제2 인공 지능 모델의 학습 횟수가 증가할 수록 복수의 키 프레임 중 제외하는 키 프레임의 개수를 증가시킬 수 있다.

그리고, 프로세서(120)는 나머지 키 프레임의 제1 특징 데이터를 제2 인공 지능 모델의 제2 인공 신경망에 입력하여 나머지 키 프레임간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득할 수 있다. 제2 특징 데이터는 나머지 키 프레임의 제1 특징 데이터의 연관 관계 정보, 각 나머지 키 프레임 간의 변화 비율에 대한 정보 등을 포함할 수 있다.

그리고, 프로세서(120)는 제2 특징 데이터를 바탕으로 복수의 키 프레임 전체에 대한 텍스트를 획득할 수 있다. 구체적으로, 프로세서(120)는 나머지 키 프레임의 제1 특징 데이터와 제2 특징 데이터를 더한 데이터를 제2 인공 지능 모델의 제3 인공 신경망에 입력하여 제외된 적어도 하나의 키 프레임의 특징 데이터를 포함하는 제3 특징 데이터를 획득할 수 있다. 즉, 프로세서(120)는 나머지 키 프레임간의 관계 정보 및 나머지 키 프레임의 제1 특징 데이터를 바탕으로 제외된 키 프레임의 특징 데이터를 추론하여 획득할 수 있다. 그리고, 프로세서(120)는 나머지 키 프레임의 특징 데이터를 포함하는 제3 특징 데이터를 제2 인공 지능 모델의 제4 인공 신경망에 입력하여 복수의 키 프레임 전체에 대한 텍스트를 획득할 수 있다.

한편, 프로세서(120)는 획득한 키 프레임에 대한 텍스트를 바탕으로 제2 인공 지능 모델을 학습시킬 수 있다. 구체적으로, 프로세서(120)는 획득한 키 프레임에 대한 텍스트와 실제 키 프레임에 대한 텍스트(또는, 사용자로부터 입력된 키 프레임에 대한 텍스트)와 비교하여 제2 인공 지능 모델을 학습시킬 수 있다. 그리고, 프로세서(120)가 획득한 키 프레임에 대한 텍스트에 적용하는 알고리즘은 역전파 알고리즘일 수 있으나 이는 일 실시 예에 불과하며 다양한 알고리즘을 적용하여 제2 인공 지능 모델을 학습시킬 수 있다.

한편, 프로세서(120)는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서(120)는 CPU(Central Processing Unit), AP(Application Processor) 등과 같은 범용 프로세서, GPU(graphics-processing Unit), VPU (Visual Processing Unit) 등과 같은 그래픽 전용 프로세서 또는 NPU(Neural Processing Unit)와 같은 인공지능 전용 프로세서일 수 있다.

하나 또는 복수의 프로세서는, 메모리(110)에 저장된 기정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 기정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다.

여기서, 학습을 통해 만들어진다는 것은, 다수의 학습 데이터들에 학습 알고리즘을 적용함으로써, 원하는 특성의 기정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버/시스템을 통해 이루어 질 수도 있다.

학습 알고리즘은, 다수의 학습 데이터들을 이용하여 소정의 대상 기기(예컨대, 로봇)을 훈련시켜 소정의 대상 기기 스스로 결정을 내리거나 예측을 할 수 있도록 하는 방법이다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으며, 본 개시에서의 학습 알고리즘은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.

도 2b는 본 개시의 일 실시 예에 따른, 전자 장치(100)의 구성을 상세히 도시한 블록도이다. 도 2b에 도시된 바와 같이 전자 장치(100)는 메모리(110), 프로세서(120), 통신부(130), 디스플레이(140) 및 입력부(150)를 포함할 수 있다. 한편, 메모리(110) 및 프로세서(20)는 도 2a에서 설명하였으므로, 중복되는 설명은 생략하도록 한다.

통신부(130)는 다양한 통신 방식을 통해 외부 장치와 통신을 수행할 수 있다. 통신부(140)가 외부 장치와 통신 연결되는 것은 제3 기기(예로, 중계기, 허브, 엑세스 포인트, 서버 또는 게이트웨이 등)를 거쳐서 통신하는 것을 포함할 수 있다.

한편, 통신부(140)는 외부 장치와 통신을 수행하기 위해 다양한 통신 모듈을 포함할 수 있다. 일 예로, 통신부(140)는 무선 통신 모듈을 포함할 수 있으며, 예를 들면, LTE, LTE-A(LTE Advance), CDMA(code division multiple access), WCDMA(wideband CDMA), UMTS(universal mobile telecommunications system), WiBro(Wireless Broadband), 또는 GSM(Global System for Mobile Communications) 등 중 적어도 하나를 사용하는 셀룰러 통신 모듈을 포함할 수 있다. 또 다른 예로, 무선 통신 모듈은, 예를 들면, WiFi(wireless fidelity), 블루투스, 블루투스 저전력(BLE), 지그비(Zigbee), 중 적어도 하나를 포함할 수 있다.

디스플레이(140)는 프로세서(120)의 제어에 따라 다양한 정보를 표시할 수 있다. 특히, 디스플레이(140)는 프로세서(120) 제어에 따라 영상, 키 프레임 및 키 프레임에 대응되는 텍스트를 표시할 수 있다.

그리고, 디스플레이(140)는 터치 패널과 함께 터치 스크린으로도 구현될 수 있다. 그러나 상술한 구현으로 한정되는 것은 아니며, 디스플레이(140)는 전자 장치(100)의 유형에 따라 다르게 구현될 수 있다.

입력부(150)는 다양한 사용자 입력을 수신하여 프로세서(120)로 전달할 수 있다. 특히, 입력부(150)는 터치 센서, (디지털) 펜 센서, 압력 센서, 키, 또는 마이크를 포함할 수 있다. 터치 센서는, 예를 들면, 정전식, 감압식, 적외선 방식, 또는 초음파 방식 중 적어도 하나의 방식을 사용할 수 있다. (디지털) 펜 센서는, 예를 들면, 터치 패널의 일부이거나, 별도의 인식용 쉬트를 포함할 수 있다.

일 실시 예로, 사용자로부터 메모리(110)에 저장되어 있는 각 인공 지능 모델의 학습을 위해 영상의 키 프레임 및 키 프레임에 대한 텍스트가 입력되면, 입력부(150)는 입력된 키 프레임 및 키 프레임에 대한 텍스트에 대한 신호를 수신하여 프로세서(120)로 전달할 수 있다.

오디오 출력부(160)는 오디오 처리부(미도시)에 의해 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 출력하는 구성이다. 일 실시 예로, 오디오 출력부(160)는 복수의 키 프레임에 대응되는 텍스트가 출력되었다는 알림음을 출력할 수 있다.

오디오 출력부(160)는 스피커로 구현될 수 있으나 이는 일 실시 예에 불과할 뿐, 오디오 데이터를 출력할 수 있는 다른 출력 단자로 구현될 수도 있다.

도 3a는 본 개시의 일 실시 예에 따른, 전자 장치(100)에 포함된 제1 인공 지능 모델(20)의 구성을 설명하기 위한 도면이다. 도 3a에 도시된 제1 인공 지능 모델(20)은 프로세서(120)에 의해 제어될 수 있다.

우선, 영상(310)이 입력되면, 제1 인공 지능 모델(20)의 제1 인공 신경망(320)는 영상에 포함된 복수의 이미지의 특징 데이터를 출력할 수 있다. 일 실시 예로, 제1 인공 지능 모델(20)의 제1 인공 신경망(320)은 획득한 복수의 이미지의 특징 데이터를 액션 특징 데이터 및 장면 특징 데이터로 분류할 수 있다.

한편, 제1 인공 지능 모델(20)의 제1 인공 신경망(320)이 컨볼루션 신경망에 순환 신경망이 연결된 인공 신경망으로 구현될 수 있다. 그리고, 복수의 이미지의 특징 데이터는 벡터 또는 행렬의 형태로 구현될 수 있다.

제1 인공 지능 모델(20)의 제1 인공 신경망(320)은 액션 특징 데이터 및 장면 특징 데이터로 분류된 복수의 이미지의 특징 데이터를 제1 인공 지능 모델(20)의 제2 인공 신경망(330)에 입력할 수 있다. 제1 인공 지능 모델(20)의 제2 인공 신경망(330)은 비 지역 인공 신경망으로 구현될 수 있다.

제1 인공 지능 모델(20)의 제2 인공 신경망(330)은 입력된 액션 특징 데이터 및 장면 특징 데이터를 바탕으로 복수의 이미지 각각의 프레임 레벨 스코어를 출력할 수 있다. 구체적으로, 제1 인공 지능 모델(20)의 제2 인공 신경망(330)은 복수의 이미지의 특징 데이터를 비교하여 각 이미지의 영상에 포함된 객체의 변화를 나타낼 수 있는지에 대한 수치인 프레임 레벨 스코어를 출력할 수 있다.

그리고, 프로세서(130)는 프레임 레벨 스코어를 바탕으로 복수의 이미지 중 영상의 키 프레임(340)를 식별하여 획득할 수 있다. 구체적으로, 프로세서(130)는 복수의 이미지 중 임계값을 초과하는 프레임 레벨 스코어를 가지는 이미지를 영상의 키 프레임(340)으로 식별하여 획득할 수 있다.

한편, 프로세서(120)는 획득한 키 프레임의 액션 특징 데이터 및 장면 특징 데이터를 바탕으로 제1 인공 지능 모델(20)를 학습시킬 수 있다. 프로세서(120)가 제1 인공 지능 모델(20)를 학습시키는 과정은 도 2a를 참조하여 설명하였으므로 중복되는 설명은 생략하도록 한다.

도 3b는 본 개시의 일 실시 예에 따른, 전자 장치(100)의 제1 인공 지능 모델의 제2 인공 신경망을 설명하기 위한 도면이다.

도 3b에 도시된 바와 같이, 제1 인공 지능 모델의 제2 인공 신경망은 비 지역 인공 신경망으로 구현될 수 있다. 복수의 이미지의 액션 특징 데이터(360-1) 및 장면 특징 데이터(360-2) 각각은 행렬(일 실시 에로, T(기설정된 값)X 512 행렬 형태)로 구현될 수 있다. 그리고, 복수의 이미지 각각의 액션 특징 데이터(360-1) 및 장면 특징 데이터(360-2)는 제1 인공 지능 모델의 제2 인공 신경망에 포함된 복수의 레이어(370-1, 370-2)에 각각 입력될 수 있다. 비 지역 인공 신경망의 비 지역 연산(non-local operation)은 공지의 기술이므로 연산 과정은 생략하도록 한다.

한편, 제1 인공 지능 모델의 제2 인공 신경망은 입력된 액션 특징 데이터(360-1) 및 장면 특징 데이터(360-2) 각각에 대한 특징 벡터(380-1, 380-2)를 출력할 수 있다. 그리고, 제1 인공 지능 모델의 제2 인공 신경망은 획득한 복수의 이미지 각각의 특징 벡터(380-1, 380-2)를 비교하여 복수의 이미지 각각의 프레임 레벨 스코어를 출력할 수 있다.

도 4는 본 개시의 일 실시 예에 따른, 전자 장치(100)에 포함된 제2 인공 신경망(40)의 구성을 설명하기 위한 도면이다. 제2 인공 신경망(40)은 프로세서(120)에 의해 제어될 수 있다.

일 실시 예로, 제2 인공 신경망(40)에 제1 인공 지능 모델을 통해 획득된 영상의 복수의 키 프레임(400-1, 400-2, … 400-5)이 입력될 수 있다. 도 4에는 제1 인공 지능 모델을 통해 획득된 복수의 키 프레임이 5인 것으로 도시되어 있으나 이는 일 실시 예에 불과하다.

한편, 프로세서(120) 제어에 의해 복수의 키 프레임(400-1, 400-2, … 400-5)중 적어도 하나가 제외된 키 프레임이 입력되면, 제2 인공 지능 모델(40)의 제1 인공 신경망(410)은 나머지 키 프레임 각각의 제1 특징 데이터를 출력할 수 있다. 제2 인공 지능 모델(40)의 제1 인공 신경망(410)은 컨볼루션 신경망으로 구현될 수 있으나 이는 일 실시 예에 불과하다.

그리고, 나머지 키 프레임 각각의 제1 특징 데이터가 입력되면, 제2 인공 지능 모델(40)의 제2 인공 신경망(420)은 나머지 키 프레임간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 출력할 수 있다. 제2 특징 데이터는 나머지 키 프레임간의 연관 관계 정보 등을 포함할 수 있다. 제2 인공 지능 모델(40)의 제2 인공 신경망(420)은 순환 신경망에 비 지역 신경망이 연결된 신경망일 수 있으나 이는 실시 예에 불과하다.

그리고, 제2 특징 데이터 및 제1 특징 데이터를 더한 데이터가 입력되면, 제2 인공 지능 모델(40)의 제3 인공 신경망(430)은 제외된 적어도 하나의 키 프레임의 특징 데이터를 포함하는 제3 특징 데이터를 출력할 수 있다. 즉, 제2 인공 지능 모델(40)의 제3 인공 신경망(430)은 나머지 키 프레임의 연관 관계 정보 및 나머지 키 프레임의 제1 특징 데이터를 통해 제외된 키 프레임의 특징 데이터를 추론하여 출력할 수 있다. 제2 인공 지능 모델(40)의 제3 인공 신경망(420)은 제2 인공 지능 모델(40)의 제2 인공 신경망(420)과 동일한 순환 신경망에 비 지역 신경망이 연결된 신경망 구조일 수 있으나, 서로 상이한 파라미터를 포함할 수 있다.

그리고, 제3 특징 데이터가 입력되면, 제2 인공 지능 모델(40)의 제4 인공 신경망(440)은 복수의 키 프레임 전체에 대한 텍스트(450-1, 450-2 … 450-5)를 출력할 수 있다. 즉, 복수의 키 프레임 중 적어도 하나(400-2)가 제외된 키 프레임이 입력되었으나, 제2 인공 지능 모델(40)은 나머지 키 프레임의 연관 관계 정보 및 나머지 키 프레임의 제1 특징 데이터를 통해 제외된 키 프레임(400-2)의 특징 데이터를 추론하고, 그에 대응되는 텍스트(It was a formal cap and gown event)(450-2)를 출력할 수 있다.

한편, 일 실시 예로 제2 인공 지능 모델(40)의 제4 인공 신경망(440)은 순환 신경망으로 구현될 수 있다. 그리고, 제2 인공 지능 모델(40)의 제4 인공 신경망(440)는 제3 특징 데이터를 디코딩하여 각 키 프레임에 대한 텍스트를 획득할 수 있다.

한편, 프로세서(120)는 획득한 키 프레임에 대한 텍스트를 통해 제2 인공 지능 모델(40)를 학습시킬 수 있다. 프로세서(120)가 제2 인공 지능 모델(40)를 학습시키는 과정은 도 2a를 참조하여 설명하였으므로 중복되는 설명은 생략하도록 한다.

그리고, 프로세서(120)는 제2 인공 지능 모델(40)을 학습시킨 횟수에 따라 복수의 키 프레임(400-1, 400-2, … 400-5) 중 제외하는 키 프레임의 개수를 증가시킬 수 있다. 일 실시 예로, 프로세서(120)는 복수의 키 프레임 중 하나를 제외하다가 제2 인공 지능 모델(40)이 기설정된 이폭(epoch)만큼 학습되면, 두 개의 키 프레임을 제외할 수 있다.

도 5는 본 개시의 일 실시 예에 따른, 전자 장치(100)의 제어 방법을 설명하기 위한 도면이다.

우선, 전자 장치(100)는 영상을 제1 인공 지능 모델에 입력하여 영상에 포함된 복수의 이미지의 특징 데이터를 획득할 수 있다(S510). 구체적으로, 전자 장치(100)는 제1 인공 지능 모델의 제1 인공 신경망에 입력하여 복수의 이미지의 특징 데이터를 획득할 수 있다. 그리고, 전자 장치(100)는 복수의 이미지의 특징 데이터를 액션(action) 특징 데이터 및 장면(scene) 특징 데이터로 분류할 수 있다. 즉, 복수의 이미지의 특징 데이터는 복수의 이미지의 액션(action) 특징 데이터 및 장면(scene) 특징 데이터를 포함할 수 있다.

한편, 전자 장치(100)는 복수의 이미지의 특징 데이터를 바탕으로 영상의 복수의 키 프레임을 획득할 수 있다(S520). 구체적으로, 전자 장치(100)는 액션 특징 데이터 및 장면 특징 데이터를 제1 인공 지능 모델의 제2 인공 신경망에 입력하여 복수의 이미지 각각의 프레임 레벨 스코어(frame level score)를 획득할 수 있다. 일 실시 예로, 전자 장치(100)는 제1 인공 지능 모델의 제2 인공 신경망을 통해 복수의 이미지의 액션 특징 데이터 및 장면 특징 데이터를 비교하여 영상에 포함된 객체가 변화하는 특징을 잘 나타낼 수 있는지에 대한 수치를 획득할 수 있다.

그리고, 전자 장치(100)는 프레임 레벨 스코어를 바탕으로 영상의 복수의 키 프레임을 획득할 수 있다. 구체적으로, 전자 장치(100)는 복수의 이미지 중 임계값을 초과하는 프레임 레벨 스코어를 가지는 이미지를 영상의 키 프레임으로 식별하여 획득할 수 있다.

한편, 전자 장치(100)는 획득한 키 프레임의 액션 특징 데이터 및 장면 특징 데이터를 바탕으로 제1 인공 지능 모델을 학습시킬 수 있다. 구체적으로, 전자 장치(100)는 획득한 키 프레임의 액션 특징 데이터 및 장면 특징 데이터를 사용자로부터 입력된 기정의된 영상의 키 프레임의 액션 특징 데이터와 장면 특징 데이터 각각을 비교하여 제1 인공 지능 모델을 학습시킬 수 있다.

그리고, 전자 장치(100)는 복수의 키 프레임 중 적어도 하나를 제외한 나머지 키 프레임을 제2 인공 지능 모델의 제1 인공 신경망에 입력하여 나머지 키 프레임의 제1 특징 데이터를 획득할 수 있다(S530). 일 실시 예로, 전자 장치(100)는 제2 인공 지능 모델을 학습시킨 횟수에 따라 복수의 키 프레임 중 제외하는 키 프레임의 개수를 증가 시킬 수 있다.

그리고, 전자 장치(100)는 나머지 키 프레임의 제1 특징 데이터를 제2 인공 지능 모델의 제2 인공 신경망에 입력하여 나머지 키 프레임 간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득할 수 있다(S540).

또한, 전자 장치(100)는 제2 특징 데이터를 바탕으로 복수의 키 프레임에 대한 텍스트를 획득할 수 있다(S550). 구체적으로, 전자 장치(100)는 나머지 키 프레임의 제1 특징 데이터와 나머지 키 프레임의 관계에 대한 정보를 포함하는 제2 특징 데이터를 더한 데이터를 제2 인공 지능 모델의 제3 인공 신경망에 입력하여 제외된 적어도 하나의 키 프레임의 특징 데이터를 포함하는 제3 특징 데이터를 획득할 수 있다. 즉, 전자 장치(100)는 나머지 키 프레임에 대한 데이터를 바탕으로 제외된 키 프레임에 대한 특징 데이터를 추론하여 획득할 수 있다.

그리고, 전자 장치(100)는 제3 특징 데이터를 제2 인공 지능 모델의 제4 인공 신경망에 입력하여 복수의 키 프레임에 대한 텍스트를 획득할 수 있다.

한편, 전자 장치(100)는 획득한 복수의 키 프레임을 바탕으로 제2 인공 지능 모델을 학습시킬 수 있다. 구체적으로, 전자 장치(100)는 복수의 키 프레임에 대한 텍스트와 사용자로부터 입력된 기정의된 복수의 키 프레임에 대한 텍스트와 비교하여 제2 인공 지능 모델을 학습시킬 수 있다.

본 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 본 개시의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

본 개시에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.

본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제 3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.

본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다.

대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

실시 예에 있어서 '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 '모듈' 혹은 복수의 '부'는 특정한 하드웨어로 구현될 필요가 있는 '모듈' 혹은 '부'를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.

본 개시의 다양한 실시 예들에 따른 전자 장치(100) 또는 사용자 단말 장치(200)는, 예를 들면, 스마트폰, 태블릿 PC, 이동 전화기, 영상 전화기, 전자책 리더기, 데스크탑 PC, 랩탑 PC, 넷북 컴퓨터, 워크스테이션, 서버, PDA, PMP(portable multimedia player) 중 적어도 하나를 포함할 수 있다.

본 개시의 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치(예: 디스플레이 장치(100))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

또한, 이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.

Claims

전자 장치에 있어서,

적어도 하나의 인스트럭션(instruction)을 저장하는 메모리; 및

상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서;를 포함하고,

상기 프로세서는, 상기 적어도 하나의 인스트럭션을 실행함으로써,

영상을 제1 인공 지능 모델에 입력하여 상기 영상에 포함된 복수의 이미지의 특징 데이터를 획득하고,

상기 복수의 이미지의 특징 데이터를 바탕으로 상기 영상의 복수의 키 프레임(key frame)을 획득하고,

상기 복수의 키 프레임 중 적어도 하나를 제외한 나머지 키 프레임을 제2 인공 지능 모델의 제1 인공 신경망에 입력하여 상기 나머지 키 프레임의 제1 특징 데이터를 획득하고,

상기 나머지 키 프레임의 제1 특징 데이터를 상기 제2 인공 지능 모델의 제2 인공 신경망에 입력하여 상기 나머지 키 프레임간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득하고,

상기 제2 특징 데이터를 바탕으로 상기 복수의 키 프레임 대한 텍스트를 획득하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 영상을 상기 제1 인공 지능 모델의 제1 인공 신경망에 입력하여 상기 복수의 이미지의 액션(action) 특징 데이터 및 장면(scene) 특징 데이터를 포함하는 상기 복수의 이미지의 특징 데이터를 획득하는 전자 장치.
제2항에 있어서,

상기 프로세서는,

상기 액션 특징 데이터 및 상기 장면 특징 데이터를 상기 제1 인공 지능 모델의 제2 인공 신경망에 입력하여 상기 복수의 이미지 각각의 프레임 레벨 스코어(frame level score)를 획득하고,

상기 프레임 레벨 스코어를 바탕으로 상기 복수의 이미지 중 상기 영상의 키 프레임을 식별하는 전자 장치.
제3항에 있어서,

상기 프로세서는,

상기 복수의 이미지 중 임계값을 초과하는 프레임 레벨 스코어를 가지는 이미지를 상기 영상의 키 프레임으로 식별하는 전자 장치.
제3항에 있어서,

상기 제1 인공 지능 모델의 제1 인공 신경망은 컨볼루션 신경망(Convolutional Neural Network)에 순환 신경망(Recurrent Neural Network)을 연결한 인공 신경망이고,

상기 제1 인공 지능 모델의 제2 인공 신경망은 비 지역 신경망(Non-local neural network)을 연결한 신경망인 것을 특징으로 하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 획득한 키 프레임의 액션 특징 데이터 및 장면 특징 데이터를 바탕으로 상기 제1 인공 지능 모델을 학습시키는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 나머지 키 프레임의 제1 특징 데이터와 상기 제2 특징 데이터를 더한 데이터를 상기 제2 인공 지능 모델의 제3 인공 신경망에 입력하여 상기 제외된 적어도 하나의 키 프레임의 특징 데이터를 포함하는 제3 특징 데이터를 획득하고,

상기 제3 특징 데이터를 상기 제2 인공 지능 모델의 제4 인공 신경망에 입력하여 상기 복수의 키 프레임에 대한 텍스트를 획득하는 전자 장치.
제7항에 있어서,

상기 학습된 인공 지능 모델은

상기 제2 인공 지능 모델의 제1 인공 신경망은 컨볼루션 신경망(Convolutional Neural Network)이고,

상기 제2 인공 지능 모델의 제2 인공 신경망 및 제3 인공 신경망은 순환 신경망(Recurrent Neural Network)에 비 지역 신경망(Non-local neural network)을 연결한 신경망이고,

상기 제2 인공 지능 모델의 제4 인공 신경망은 순환 신경망인 것을 특징으로 하는 전자 장치.
제7항에 있어서,

상기 제2 인공 지능 모델의 제2 인공 신경망은 상기 제3 인공 신경망과 구조는 동일하나 상이한 파라미터를 포함하는 것을 특징으로 하는 전자 장치.
제1항에 있어서,

상기 프로세서는,

상기 획득한 키 프레임 이미지에 대한 텍스트를 바탕으로 상기 제2 인공 지능 모델을 학습시키는 전자 장치.
전자 장치의 제어 방법에 있어서,

영상을 제1 인공 지능 모델에 입력하여 상기 영상에 포함된 복수의 이미지의 특징 데이터를 획득하는 단계;

상기 복수의 이미지의 특징 데이터를 바탕으로 상기 영상의 복수의 키 프레임(key frame)을 획득하는 단계;

상기 복수의 키 프레임 중 적어도 하나를 제외한 나머지 키 프레임을 제2 인공 지능 모델의 제1 인공 신경망에 입력하여 상기 나머지 키 프레임의 제1 특징 데이터를 획득하는 단계;

상기 나머지 키 프레임의 제1 특징 데이터를 상기 제2 인공 지능 모델의 제2 인공 신경망에 입력하여 상기 나머지 키 프레임간의 관계에 대한 정보를 포함하는 제2 특징 데이터를 획득하는 단계; 및

상기 제2 특징 데이터를 바탕으로 상기 복수의 키 프레임 대한 텍스트를 획득하는 단계;를 포함하는 전자 장치의 제어 방법.
제11항에 있어서,

상기 영상에 포함된 복수의 이미지의 특징 데이터를 획득하는 단계는

상기 영상을 상기 제1 인공 지능 모델의 제1 인공 신경망에 입력하여 상기 복수의 이미지의 액션(action) 특징 데이터 및 장면(scene) 특징 데이터를 포함하는 상기 복수의 이미지의 특징 데이터를 획득하는 단계;를 포함하는 전자 장치의 제어 방법.
제12항에 있어서,

상기 영상의 복수의 키 프레임(key frame)을 획득하는 단계는,

상기 액션 특징 데이터 및 상기 장면 특징 데이터를 상기 제1 인공 지능 모델의 제2 인공 신경망에 입력하여 상기 복수의 이미지 각각의 프레임 레벨 스코어(frame level score)를 획득하는 단계; 및

상기 프레임 레벨 스코어를 바탕으로 상기 복수의 이미지 중 상기 영상의 키 프레임을 식별하는 단계;를 포함하는 전자 장치의 제어 방법.
제13항에 있어서,

상기 영상의 복수의 키 프레임(key frame)을 획득하는 단계는,

상기 복수의 이미지 중 임계값을 초과하는 프레임 레벨 스코어를 가지는 이미지를 상기 영상의 키 프레임으로 식별하는 단계;를 포함하는 전자 장치의 제어 방법.
제13항에 있어서,

상기 제1 인공 지능 모델의 제1 인공 신경망은 컨볼루션 신경망(Convolutional Neural Network)에 순환 신경망(Recurrent Neural Network)을 연결한 인공 신경망이고,

상기 제1 인공 지능 모델의 제2 인공 신경망은 비 지역 신경망(Non-local neural network)을 연결한 신경망인 것을 특징으로 하는 전자 장치의 제어 방법.