KR20200094607A - 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치 및 그 동작 방법 - Google Patents

영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR20200094607A
KR20200094607A KR1020190060221A KR20190060221A KR20200094607A KR 20200094607 A KR20200094607 A KR 20200094607A KR 1020190060221 A KR1020190060221 A KR 1020190060221A KR 20190060221 A KR20190060221 A KR 20190060221A KR 20200094607 A KR20200094607 A KR 20200094607A
Authority
KR
South Korea
Prior art keywords
information
feature information
feature
images
image sequence
Prior art date
Application number
KR1020190060221A
Other languages
English (en)
Inventor
김경수
김준모
김병주
박민석
이시행
이예강
이재영
Original Assignee
삼성전자주식회사
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 한국과학기술원 filed Critical 삼성전자주식회사
Priority to PCT/KR2019/013609 priority Critical patent/WO2020159036A1/ko
Publication of KR20200094607A publication Critical patent/KR20200094607A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4882Data services, e.g. news ticker for displaying messages, e.g. warnings, reminders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공지능(AI) 시스템 및 그 응용에 관련된 것이다.
영상 시퀀스에 포함된 복수 개의 영상들을 획득하고, 복수 개의 영상 각각에 대하여 특징 정보를 추출하고, 추출된 특징 정보들을 복수 개의 영상들의 순서에 따라 순차적으로 처리함으로써, 영상 시퀀스의 특징에 관한 제1 특징 정보를 획득하고, 추출된 특징 정보들 간의 적어도 하나의 유사도에 기초하여 결정된 영상 시퀀스의 특징에 관한 제2 특징 정보를 획득하고, 제1 특징 정보 및 제2 특징 정보에 기초하여, 영상 시퀀스에 대한 캡션 정보를 생성하는, 전자 장치에서, 영상 시퀀스에 대한 캡션 정보를 생성하는 방법이 개시된다.

Description

영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치 및 그 동작 방법 {Electronic device and operating method for generating caption information for a image sequence}
본 개시는, 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치 및 그 동작 방법에 관한 것이다. 또한, 본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하는 인공지능(Artificial Intelligence, AI) 시스템 및 그 응용에 관련된 것이다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
비디오 캡셔닝 기술은, 영상 시퀀스의 장면들을 묘사하는 문장을 생성하는 기술이다. 비디오 캡셔닝 기술에 의하면, 상술한 인공지능 시스템에 기초하여, 영상 시퀀스의 장면들을 묘사하는 최적의 문장이 생성될 수 있다.
사용자는 비디오 캡셔닝 기술에 의해 생성된 문장을 통하여, 상당한 길이의 영상 시퀀스를 직접 시청하지 않고도, 영상 시퀀스의 내용을 쉽게 인식할 수 있다. 또한, 비디오 캡셔닝 기술에 의해 생성된 텍스트는, 영상 시퀀스의 내용을 압축적으로 나타내는 텍스트를 포함함에 따라서, 영상 시퀀스를 분류하거나 인식하는 등의 다양한 분야에서 활용될 수 있다.
따라서, 영상 시퀀스의 내용이 적절하고 명확하게 반영된 텍스트를 생성하기 위한, 비디오 캡셔닝 기술이 필요로 되고 있다.
본 개시가 해결하고자 하는 과제는 전술한 문제를 해결하기 위한 것으로서, 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치 및 그 동작 방법을 제공하기 위한 것이다.
또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 포함하는 컴퓨터 프로그램 제품을 제공하는 데 있다. 해결하려는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 전자 장치에서, 영상 시퀀스에 대한 캡션(caption) 정보를 생성하는 방법에 있어서, 상기 영상 시퀀스에 포함된 복수 개의 영상들을 획득하는 단계; 상기 복수 개의 영상 각각에 대하여 특징 정보를 추출하는 단계; 상기 추출된 특징 정보들을 상기 복수 개의 영상들의 순서에 따라 순차적으로 처리함으로써, 상기 영상 시퀀스의 특징에 관한 제1 특징 정보를 획득하는 단계; 상기 추출된 특징 정보들 간의 적어도 하나의 유사도에 기초하여 결정된 상기 영상 시퀀스의 특징에 관한 제2 특징 정보를 획득하는 단계; 및 상기 제1 특징 정보 및 상기 제2 특징 정보에 기초하여, 상기 영상 시퀀스에 대한 캡션 정보를 생성하는 단계를 포함한다.
또한, 본 개시의 제2 측면은, 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치는, 상기 영상 시퀀스에 포함된 복수 개의 영상들을 저장하는 메모리; 상기 복수 개의 영상 각각에 대하여 특징 정보를 추출하고, 상기 추출된 특징 정보들을 상기 복수 개의 영상들의 순서에 따라 순차적으로 처리함으로써, 상기 영상 시퀀스의 특징에 관한 제1 특징 정보를 획득하고, 상기 추출된 특징 정보들 간의 적어도 하나의 유사도에 기초하여 결정된 상기 영상 시퀀스의 특징에 관한 제2 특징 정보를 획득하고, 상기 제1 특징 정보 및 상기 제2 특징 정보에 기초하여, 상기 영상 시퀀스에 대한 캡션 정보를 생성하는, 적어도 하나의 프로세서; 및 상기 생성된 캡션 정보에 기초한 정보를 출력하는 출력부를 포함하는, 전자 장치를 포함한다.
또한, 본 개시의 제3 측면은, 제1 측면 또는 제2 측면의 방법을 수행하도록 하는 프로그램이 저장된 기록매체를 포함하는 컴퓨터 프로그램 제품을 제공할 수 있다.
일 실시 예에 의하면, 길이가 긴 영상 시퀀스의 경우에도, 영상 시퀀스 앞 부분의 영상들에 관한 특징이 적절히 반영된, 캡션 정보를 생성할 수 있다.
도 1은 일 실시 예에 의한 영상 시퀀스의 캡션 정보를 생성하는 일 예를 나타내는 도면이다.
도 2는 일 실시 예에 따라 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치(1000)의 일 예를 나타내는 블록도이다.
도 3은 일 실시 예에 따른 비지역적 특징 추출부가 제2 특징 정보를 획득하는 방법의 일 예를 나타낸 도면이다.
도 4는 일 실시 예에 의한 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치(1000)의 일 예를 나타내는 블록도이다.
도 5는 일 실시 예에 의한 전자 장치의 내부 구성을 나타낸 블록도이다.
도 6은 일 실시 예에 의한 전자 장치의 내부 구성을 나타낸 블록도이다.
도 7은 일 실시 예에 의한 영상 시퀀스에 대한 캡션 정보를 생성하는 방법을 나타낸 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 일 실시 예에 의한 영상 시퀀스의 캡션 정보를 생성하는 일 예를 나타내는 도면이다.
일 실시 예에 의하면, 복수 개의 영상들(111, 112, 113, 114, 115, 116)을 포함하는 영상 시퀀스(110)에 대하여, 캡션 정보(120)가 생성될 수 있다. 일 실시 예에 의한 캡션 정보(120)는, 영상 시퀀스(110)에 포함된 영상들의 장면을 묘사하는 정보를 포함할 수 있다.
예를 들면, 캡션 정보(120)는 영상 시퀀스(110)에 포함된 영상들을 아우르는, 하나의 주제(topic)를 나타내는 정보를 포함할 수 있다.
일 실시 예에 의하면, 사용자가 영상 시퀀스(110)에 포함된 영상들의 대략적인 내용을 판단할 수 있도록, 영상 시퀀스(110)에 대하여 생성된 캡션 정보(120)가 사용자에게 제공될 수 있다. 예를 들면, 일 실시 예에 따라 생성된 캡션 정보(120)가 전자 장치(1000)에 표시될 수 있다.
또한, 일 실시 예에 의한 캡션 정보(120)는, 영상 시퀀스(110)를 분류, 인식하는 등, 영상 시퀀스(110)에 관한 다양한 프로세스를 수행하는데 이용될 수 있다.
일 실시 예에 의한 영상 시퀀스(110)의 캡션 정보(120)는, 영상 시퀀스(110)의 특징에 관한 정보에 기초하여 생성될 수 있다. 영상 시퀀스(110)의 특징에 관한 정보는, 영상 시퀀스(110)에 포함된 영상들의 특징에 기초하여, 생성될 수 있다.
일 실시 예에 의하면 영상 시퀀스(110)의 특징에 관한 정보는, 영상 시퀀스(110)에 포함된 영상들의 특징 정보들을 입력으로 하는 학습 모델에 의해, 획득될 수 있다. 예를 들면, 상술한 학습 모델은, 영상 시퀀스(110)에 포함된 영상들의 특징 정보들로부터 캡션 정보(120)를 생성하는데 적절한 영상 시퀀스(110)의 특징 정보가 획득될 수 있도록, 학습될 수 있다.
또한, 일 실시 예에 의하면, 영상 시퀀스(110)의 특징에 관한 정보는, 상술한 학습 모델을 이용한 방법뿐만 아니라, 영상 시퀀스(110)에 포함된 영상들의 특징 정보에 기초한 다양한 방법을 통해 획득될 수 있다.
일 실시 예에 의한 영상 시퀀스(110)의 캡션 정보(120)는, 영상 시퀀스(110)에 포함된 복수 개의 영상들(111, 112, 113, 114, 115, 116)들 각각의 특징 정보에 기초하여, 생성될 수 있다. 영상의 특징 정보는, 영상의 비주얼적인 특징을 나타내는 정보로서, 예를 들면, 히스토그램 정보, 엣지 정보, 밝기 정보, 색상 분포에 관한 정보, 형상(shape)에 관한 정보 등을 포함할 수 있다. 상술한 예에 한하지 않고, 영상의 특징 정보는, 영상의 비주얼적인 특징을 나타내는 다양한 정보를 포함할 수 있다.
또한, 일 실시 예에 의한 영상의 특징 정보는, 데이터 인식 모델에 영상에 관한 다양한 정보, 예를 들면, 상술한 영상의 비주얼적 특징을 나타내는 다양한 정보를 입력함으로써, 상기 영상이 인식된 결과를 포함할 수 있다. 상기 영상이 인식된 결과는 예를 들면, 영상에서 인식된 객체에 관한 정보, 영상에서 인식된 객체의 위치에 관한 정보, 영상에서 인식된 객체의 움직임에 관한 정보 등을 포함할 수 있다. 예를 들어, 데이터 인식 모델에 입력된 영상이 고양이가 촬영된 영상인 경우, 데이터 인식 모델의 영상의 인식 결과는 "고양이"을 포함할 수 있다. 이에 따라, 상기 영상의 특징 정보는, 영상에 대한 인식 결과인, "고양이"를 포함할 수 있다.
상술한 예에 한하지 않고, 데이터 인식 모델에 의해 영상이 인식된 결과는, 영상의 특징을 나타내는 다양한 정보를 포함할 수 있다.
일 실시 예에 있어서, 영상의 특징 정보를 획득하는데 이용될 수 있는 데이터 인식 모델은, 영상 내의 객체를 분류하고 탐지하는데 이용되는 CNN(convolutional neural network)일 수 있다. 상술한 예에 한하지 않고, 일 실시 예에서는, 영상의 특징 정보를 획득하는데 이용될 수 있는 뉴럴 네트워크를 기반으로 하는 다양한 종류의 데이터 인식 모델이 이용될 수 있다.
따라서, 일 실시 예에 따른 영상 시퀀스(110)에 포함된 영상들의 특징 정보는, 각 영상의 비주얼적 특징을 나타내는 다양한 정보 및 상기 비주얼적 특징을 나타내는 정보가 데이터 인식 모델에 입력됨으로써 각 영상이 인식된 결과에 관한 정보 중 적어도 하나의 정보를 포함할 수 있다.
일 실시 예에 의한 영상 시퀀스(110)는, 시간 순서대로 나열된, 복수 개의 영상 프레임들을 포함할 수 있다. 예를 들면, 하나의 비디오 파일은 장면 또는 주제별로 구분된 복수의 영상 시퀀스를 포함할 수 있고, 각각의 영상 시퀀스는, 복수 개의 영상들을 포함할 수 있다. 또한, 영상 시퀀스(110)에 포함된 복수 개의 영상들은, 정지 영상(still image)일 수 있다.
일 실시 예에 따라, 캡션 정보(110)를 생성하기 위한 복수 개의 영상들(111, 112, 113, 114, 115, 116)은, 미리 결정된 시간 간격에 따라 설정된 각 시점(time point)과 대응되는 정지 영상일 수 있다. 상술한 예에 한하지 않고, 복수 개의 영상들(111, 112, 113, 114, 115, 116)은, 영상 시퀀스(110)에 포함된 복수 개의 정지 영상들 중, 다양한 기준 또는 방법으로 선택된 복수의 정지 영상을 포함할 수 있다.
도 2는 일 실시 예에 따라 영상 시퀀스(210)에 대한 캡션 정보를 생성하는 전자 장치(1000)의 일 예를 나타내는 블록도이다.
일 실시 예에 의한 전자 장치(1000)는 영상 시퀀스(110)에 대한 캡션 정보(120)를 생성할 수 있는 다양한 형태의 장치로 구현될 수 있다. 예를 들어, 본 명세서에서 기술되는 전자 장치(1000)는, 디지털 카메라, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 태블릿 PC, 전자북 단말기, 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어 등이 있을 수 있으나, 이에 한정되는 것은 아니다. 본 명세서에서 기술되는 전자 장치(1000)는 사용자에 의해 착용될 수 있는 장치(wearable device)일 수 있다. 웨어러블 디바이스는 액세서리 형 장치(예컨대, 시계, 반지, 팔목 밴드, 발목 밴드, 목걸이, 안경, 콘택트 렌즈), 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형 장치(예: 전자 의복), 신체 부착형 장치(예컨대, 스킨 패드(skin pad)), 또는 생체 이식형 장치(예: implantable circuit) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시 예에 따라 캡션 정보를 생성하고자 하는 영상 시퀀스(210)는, 영상 1 내지 4(231, 232, 233, 234)를 포함할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 영상 1 내지 4(231, 232, 233, 234)에 기초하여, 영상 시퀀스(210)에 대한 캡션 정보를 생성할 수 있다.
일 실시 예에 의한 영상 1 내지 4(231, 232, 233, 234)는 영상 시퀀스(210)에 포함된 복수의 영상들 중, 캡션 정보를 생성하기 위한 영상을 결정하기 위해, 미리 결정된 기준 또는 방법에 따라서, 선택될 수 있다. 또한, 상술한 예에 한하지 않고, 영상 시퀀스(210)에 포함된 모든 정지 영상 또는 모든 정지 영상 중에서 임의로 선택된 정지 영상들이, 캡션 정보를 생성하기 위한 영상으로 이용될 수 있다.
일 실시 예에 의하면, 도 2에 도시된 것과 같이 4개의 영상만이 이용되는 것에 한하지 않고, 영상 시퀀스(210)에 따라 각각 다른 개수의 영상들이 영상 시퀀스(210)의 캡션 정보를 생성하는데 이용될 수 있다. 예를 들면, 영상 시퀀스(210)의 길이가 길수록, 영상 시퀀스(210)에 포함된 많은 수의 영상들이 영상 시퀀스(210)의 캡션 정보를 생성하는데 이용될 수 있다.
도 2을 참조하면, 전자 장치(1000)는, 일 실시 예에 따라 영상 시퀀스(210)의 캡션 정보를 생성하기 위한 구성으로, 지역적(local) 특징 획득부(220), 비지역적(non-local) 특징 획득부(230), 결합부(240) 및 캡션 생성부(250)를 포함할 수 있다.
일 실시 예에 의하면, 영상 시퀀스(210)에 포함된 복수의 영상으로부터 추출된 각각의 특징 정보가 지역적 특징 획득부(220) 및 비지역적 특징 획득부(230)로 전달됨으로써, 영상 시퀀스(210)의 특징에 관한 제1 특징 정보 및 제2 특징 정보가 각각 획득될 수 있다.
일 실시 예에 따른 지역적 특징 획득부(220) 및 비지역적 특징 획득부(230)로 전달되는 영상들의 특징 정보는, 각 영상의 비주얼적 특징을 나타내는 다양한 정보 및 상기 비주얼적 특징을 나타내는 정보가 데이터 인식 모델에 입력됨으로써 각 영상이 인식된 결과에 관한 정보 중 적어도 하나의 정보를 포함할 수 있다. 상술한 예에 한하지 않고, 영상에 대한 특징 정보는, 각각의 영상으로부터 획득된 다양한 종류의 정보를 포함할 수 있다.
일 실시 예에 의하면, 지역적 특징 획득부(220) 및 비지역적 특징 획득부(230)는 제1 특징 정보 및 제2 특징 정보를 각각 획득할 수 있다. 일 실시 예에 의한 제1 특징 정보 및 제2 특징 정보는, 각각 지역적 특징 획득부(220) 및 비지역적 특징 획득부(230)에서, 각기 다른 방법으로 획득된 영상 시퀀스(210)의 특징을 나타내는 정보이다.
일 실시 예에 의하면, 각각 다른 방법으로 획득된 영상 시퀀스(210)의 특징을 나타내는, 제1 특징 정보 및 제2 특징 정보에 기초하여, 캡션 정보가 생성될 수 있다. 따라서, 일 실시 예에 의하면, 한가지 방법으로만 획득된 영상 시퀀스(210)의 특징 정보에 기초하여 캡션 정보가 생성되는 경우보다, 더 적절한 캡션 정보가 생성될 수 있다.
일 실시 예에 따른 지역적 특징 획득부(220)는, 각각의 영상들의 특징 정보를 영상들의 순서에 따라 순차적으로 처리함으로써, 영상 시퀀스(210)의 특징에 관한 제1 특징 정보를 획득할 수 있다. 일 실시 예에 의하면, 각 영상들의 특징 정보가, 지역적 특징 획득부(220)에서 영상 순서에 따라 순차적으로 처리됨으로써, 영상 시퀀스(210)의 특징을 획득하기 위한 처리가 수행될 수 있다.
일 실시 예에 의한 지역적 특징 획득부(220)는, 도 2에 도시된 바와 같이, 특징 획득부 1 내지 4(221, 222, 223, 224)를 포함할 수 있다. 또한, 지역적 특징 획득부(220)는, 특징 획득부 1 내지 4(221, 222, 223, 224)를 통해, 영상 1 내지 4(231, 232, 233, 234)에 대하여 추출된 영상의 특징 정보에 기초하여, 영상 시퀀스(210)에 대한 제1 특징 정보를 획득할 수 있다.
일 실시 예에 의하면, 영상 1 내지 4(231, 232, 233, 234)로부터 추출된 특징 정보가 각 영상의 순서에 따라 순차적으로 특징 획득부 1 내지 4(221, 222, 223, 224)에 각각 입력되어 처리됨으로써, 영상 시퀀스(210)에 대한 제1 특징 정보가 획득될 수 있다. 따라서, 영상 1부터 영상 4까지 차례대로, 각 영상의 특징 정보가 순차적으로 처리될 수 있으며, 특징 획득부 4(224)에 의해 출력된 결과가, 영상 시퀀스(210)에 대한 제1 특징 정보로서, 결합부(240)에 입력될 수 있다.
일 실시 예에 의한 특징 획득부 1 내지 4(221, 222, 223, 224)는, 순서 또는 시간적 측면을 고려하여, 복수 개의 영상들에 대한 특징 정보를 처리함으로써, 복수 개 영상들을 포함한 영상 시퀀스(210)의 특징 정보를 획득하기 위한 데이터 인식 모델을 이용할 수 있다. 예를 들면, 특징 획득부 1 내지 4(221, 222, 223, 224)에서 이용될 수 있는 데이터 인식 모델은, RNN(recurrent Neural Networks; 순환 신경망), LSTM(Long short term memory) 등일 수 있다. 상기 데이터 인식 모델은, 예를 들면, 각 영상의 특징 정보가 순차적으로 입력됨에 따라서, 영상들의 순서를 고려하여, 영상 시퀀스(210)의 특징 정보를 획득하기 위한 학습 모델일 수 있다. 상술한 예에 한하지 않고, 특징 획득부 1 내지 4(221, 222, 223, 224)에서 이용될 수 있는 데이터 인식 모델은 다양한 종류의 학습 모델일 수 있다.
일 실시 예에 따른, 특징 획득부 1 내지 4(221, 222, 223, 224)를 포함한, 지역적 특징 획득부(220)는, 영상 1부터 영상 4까지의 순서를 고려하여 획득된, 영상 시퀀스(210)에 대한 특징을 나타내는, 제1 특징 정보를 출력할 수 있다. 예를 들면, 제1 특징 정보는, 영상 1 내지 영상 4의 각각의 특징 정보가 순서대로 데이터 인식 모델에 입력되었을 때, 영상 1 내지 영상 4를 포함하는 영상 시퀀스(210)에 대한 특징 정보로 판단된 결과를 포함할 수 있다.
일 실시 예에 의하면, 특징 획득부 1(221)에서, 영상 1에 대한 특징 정보가 데이터 인식 모델(ex. LSTM)에 의해 인식된 결과가 특징 획득부 2(222)의 입력으로 들어갈 수 있다. 특징 획득부 2(222)는, 특징 획득부 1(221)의 결과 및 영상 2에 대한 특징 정보를 입력으로 하여, 데이터 인식 모델을 통해 결과값을 출력할 수 있다. 또한, 특징 획득부 3(223)는, 특징 획득부 2(222)의 결과 및 영상 3에 대한 특징 정보를 입력으로 하여, 데이터 인식 모델을 통해 결과값을 출력할 수 있다. 특징 획득부 4(224)는, 특징 획득부 3(223)의 결과 및 영상 4에 대한 특징 정보를 입력으로 하여, 데이터 인식 모델을 통해 결과값을 출력할 수 있다. 또한, 특징 획득부 4(224)에 의해 출력된 결과값은, 제1 특징 정보로서, 결합부(240)로 전달될 수 있다.
따라서, 일 실시 예에 의하면, 영상 1 내지 영상 4의 특징 정보는 각 영상의 순서에 따라 순차적으로 지역적 특징 획득부(220)에서 처리될 수 있고, 처리 결과, 영상 시퀀스(210)의 특징을 나타내는 제1 특징 정보가 출력될 수 있다.
그러나, 특징 획득부 1 내지 4(221, 222, 223, 224)에서 처리가 순차적으로 수행됨에 따라, 제1 특징 정보가 획득될 수 있으므로, 영상 시퀀스(210)의 앞부분에 위치한 영상 1(231)의 특징 정보는, 제1 특징 정보에 상대적으로 적게 반영될 수 있다. 반면, 가장 마지막으로 처리된 영상 4(224)의 특징 정보는, 제1 특징 정보에 상대적으로 많이 반영될 수 있다.
예를 들어, 영상 시퀀스(210)의 길이가 상당히 길어, 영상 시퀀스(210)의 캡션 정보를 생성하는데 이용되는 영상이 상당히 많은 경우, 지역적 특징 획득부(220)에서 상술한 순차적인 처리가, 캡션 정보를 생성하는데 이용되는 영상의 개수만큼 상당히 많은 횟수로 수행될 수 있다. 영상 시퀀스(210)의 앞부분에 위치한 영상들의 특징 정보는, 처리가 반복적으로 수행됨에 의해서, 제1 특징 정보에 거의 반영되지 않을 수 있다.
따라서, 일 실시 예에 의하면, 제1 특징 정보뿐만 아니라, 영상의 순서가 고려되지 않고 획득된, 제2 특징 정보가 더 이용됨으로써, 영상 시퀀스(210)의 앞부분에 위치한 영상들의 특징 정보들이 적절히 반영된, 영상 시퀀스(210)의 특징 정보가 획득될 수 있다.
일 실시 예에 의한 제2 특징 정보를 획득하기 위한, 비지역적 특징 획득부(230)는 비지역적 특징 추출부(231)와 변환부(232)를 포함할 수 있다. 비지역적 특징 획득부(230)는 상술한 예에 한하지 않고, 변환부(232) 없이 비지역적 특징 추출부(231)만 포함할 수도 있다. 일 실시 예에 의한 비지역적 특징 획득부(230)는 지역적 특징 획득부(220)와는 달리, 영상 1 내지 영상 4의 순서를 고려하지 않고, 각 영상들의 특징 정보에 기초하여, 영상 시퀀스(210)의 특징에 관한 제2 특징 정보를 획득할 수 있다. 일 실시 예에 의하면, 비지역적 특징 추출부(231)는, 영상 1 내지 영상 4의 순서를 고려하지 않고, 각 영상들의 특징 정보들 간의 유사도에 기초하여, 영상 시퀀스(210)에 대한 특징 정보를 추출할 수 있다.
일 실시 예에 의하면, 비지역적 특징 획득부(230)는, 영상 1(231)의 특징 정보와 영상 1(231)을 제외한 다른 영상들과의 특징 정보에 대한 유사도 값들을 획득하고, 획득된 유사도 값들에 대한 가중치 합을 구할 수 있다. 또한, 영상 2(232) 내지 영상 4(134)의 경우도, 영상 1(231)과 동일하게, 다른 영상들과의 특징 정보 간의 유사도 값들을 획득하고, 획득된 유사도 값들에 대한 가중치 합을 구할 수 있다. 일 실시 예에 의하면, 각각의 유사도 값에 적용되는 가중치 값들은, 학습에 의해 최적의 값으로 결정될 수 있다.
따라서, 일 실시 예에 의하면, 영상 1(231) 내지 영상 4(134)에 대하여, 유사도 값의 가중치 합이 각각 획득될 수 있다.
일 실시 예에 의하면, 각 영상에 대하여 획득된 가중치 합들에 기초하여, 각각 대응되는 영상에 대한 특징 정보들이 수정될 수 있다. 따라서, 각 영상에 대한 특징 정보들은, 다른 영상들과의 유사도 값에 따라 수정될 수 있다.
또한, 일 실시 예에 의하면, 각 영상의 특징 정보에 포함된 특징 값이 각 영상에서 나타나는 빈도 수가 높을 수록, 상기 특징 값에 대한 중요도가 높아질 수 있다. 따라서, 일 실시 예에 의하면, 복수 개의 영상들 간의 특징 값들의 빈도 수 및 특징 정보에 대한 유사도에 기초하여, 각 영상에 대한 특징 정보가 수정될 수 있다.
일 실시 예에 의하면, 복수 개의 영상 각각에 대하여 수정된 특징 정보에 기초하여, 제2 특징 정보가 획득될 수 있다. 예를 들면, 제2 특징 정보는, 유사도에 기초하여, 복수 개의 영상 각각에 대하여 수정된 특징 정보들이 결합 연산(concatenation operation)을 통해 서로 결합됨으로써, 획득될 수 있다.
일 예로, 수정된 특징 정보들에 포함된 특징 값들에 대한 대표값(ex. 평균값, 중간값 등)이 결정될 수 있고, 상기 결정된 대표 값을 포함하는 특징 정보가, 제2 특징 정보로서, 획득될 수 있다. 예를 들면, 제1 특징 정보 및 제2 특징 정보에 포함된 특징 값들 중 서로 대응되는 특징 값들에 대하여 대표 값이 결정될 수 있다. 상술한 예에 한하지 않고, 일 실시 예에 의한 제2 특징 정보는 다양한 방법을 통해, 복수 개의 영상 각각에 대하여, 유사도에 따라 수정된 특징 정보에 기초하여, 획득될 수 있다.
또한, 일 실시 예에 의한, 변환부(232)는, 비지역적 특징 추출부(231)에 의해 획득된 제2 특징 정보를, 결합부(240)에 의해 제1 특징 정보와 결합될 수 있는 형태로, 변환시킬 수 있다. 예를 들어, 변환부(232)는, 제1 특징 정보 및 제2 특징 정보에서 서로 대응되는 특징 값들이 병렬적으로 결합될 수 있도록, 제2 특징 정보에 포함된 특징 값들의 순서를 조정하거나, 제2 특징 정보에 새로운 특징 값을 추가할 수 있다. 상술한 예에 한하지 않고, 변환부(232)는, 제1 특징 정보 및 제2 특징 정보가 결합될 수 있도록, 다양한 방법을 통해, 제2 특징 정보를 변환시킬 수 있다.
일 실시 예에 의한, 결합부(240)는, 지역적 특징 획득부(220) 및 비지역적 특징 획득부(230)에서 각각 획득된, 제1 특징 정보 및 제2 특징 정보를 서로 결합하여, 영상 시퀀스(210)에 대한 특징 정보를 최종적으로 획득할 수 있다.
예를 들면, 결합부(240)는 이하 수학식 1에 따라서, 제1 특징 정보 및 제2 특징 정보를 서로 결합할 수 있다.
[수학식 1]
n'=hk+F(n out)
수학식 1에서, hk 와 F(n out)는 각각 제1 특징 정보 및 제2 특징 정보를 의미하고, n'은 결합부(240)에서 최종적으로 획득된 영상 시퀀스(210)에 대한 특징 정보를 나타낸다. 또한, n out 는 비지역적 특징 추출부(231)에 의해 획득된 값으로, 변환부(232)에 의해 n out 가 처리된 결과인 F(n out)가 결합부(240)로 전달될 수 있다. 수학식 1에서, 굵게 표시된 문자는, 벡터를 의미하여, 행렬과 같은 다수개의 값을 가짐을 나타낼 수 있다.
예를 들면, 결합부(240)에 의하여, 제1 특징 정보 및 제2 특징 정보에 포함된 특징 값들 중 서로 대응되는 특징 값들에 대한 대표값(ex. 평균값, 중간값 등)이 결정될 수 있고, 상기 결정된 대표 값을 포함하는 특징 정보가, 영상 시퀀스(210)에 대한 특징 정보로서, 획득될 수 있다. 상술한 예에 한하지 않고, 다양한 방법에 따라, 제1 특징 정보 및 제2 특징 정보에 기초하여, 영상 시퀀스(210)에 대한 특징 정보가 최종적으로 결정될 수 있다.
따라서, 일 실시 예에 의하면, 영상 시퀀스(210)의 길이가 상당히 길어지더라도, 영상 시퀀스(210)의 앞부분에 위치한 영상의 특징 정보도 다른 영상과의 유사도에 따라서 영상 시퀀스(210)의 캡션 정보를 생성하는데 적절히 반영될 수 있다.
일 실시 예에 의한 캡션 생성부(250)는, 결합부(240)에 의해 결정된 영상 시퀀스(210)에 대한 특징 정보에 따라 영상 시퀀스(210)에 대한 캡션 정보를 생성할 수 있다. 일 실시 예에 의한 캡션 생성부(250)는, 소정의 영상에 대한 특징 정보의 입력으로, 상기 영상을 묘사하는 텍스트들을 생성할 수 있는, GRU(gated recurrent unit)을 포함할 수 있다. 상술한 예에 한하지 않고, 캡션 생성부(250)는, 다양한 방법을 통해, 영상 시퀀스(210)에 대한 캡션 정보를 생성할 수 있다.
도 3은 일 실시 예에 따른 비지역적 특징 추출부(231)가 제2 특징 정보를 획득하는 방법의 일 예를 나타낸 도면이다.
상술한 수학식 1에서, n out 은 비지역적 특징 추출부(231)에 의해 획득되는 제2 특징 정보를 의미할 수 있다.
도 3을 참조하면, 비지역적 특징 추출부(231)는, 영상 1 내지 4(231, 232, 233, 234)로부터 각 영상의 특징 정보로서, x0, x1, x2 및 x3를 획득할 수 있다. 또한, i 또는 j는 각 영상을 나타내는 식별 정보를 의미한다.
일 실시 예에 의하면, 각 영상의 특징 정보들 간 유사도가, f(xi, xj)로서 획득될 수 있다. f는 유사도를 획득하기 위한 페어와이즈 함수(pairwise function)로, 다양한 형태로 정의될 수 있다.
예를 들어, 도 3에 도시된 것과 같이, 231-1에서, f(x2, x0), f(x2, x1), f(x2, x2), f(x2, x3)가 영상 3(233)와 영상 1, 2, 4(231, 232, 234) 간의 특징 정보에 대한 유사도로서 각각 획득될 수 있다. 영상 3(233)뿐만 아니라 나머지 영상 1, 2, 4(231, 232, 234)에 대하여도, 다른 영상과의 특징 정보들의 유사도가 동일하게 획득될 수 있다.
각 영상에 대해 획득된 유사도 값에는, 도시된 예와 같이, 영상마다 다르게 결정될 수 있는 가중치 g(x i)가 적용될 수 있다. 따라서, 231-1에 따른 연산이 수행된 결과, 영상 3(233)에 대해 영상들 간의 유사도에 기초하여 연산된 값인, y2가 획득될 수 있다.
일 실시 예에 따라, 231-1과 같이 연산될 수 있는, 영상 1 내지 영상 4(231, 232, 233, 234)에 대한 yi 값은, 이하 수학식 2에 따라서, 각 영상의 특징 정보들 간의 유사도 값에 기초하여,수행될 수 있다.
[수학식 2]
Figure pat00001
수학식 2에서,
Figure pat00002
는 영상들의 특징 정보들 간 유사도를 의미하고,
Figure pat00003
는 영상마다 다르게 적용될 수 있는 가중치 값을 나타낸다. y i는 영상 i에 대한 유사도에 기초하여 획득된 값으로, y i로부터 이하 수학식 5에 따라 유사도에 기초하여 획득된 영상 i에 대한 특징 정보를 나타내는 n i가 획득될 수 있다.
또한, 수학식 2의
Figure pat00004
Figure pat00005
는 이하 수학식 3과 같이 나타낼 수 있다.
[수학식 3]
Figure pat00006
,
Figure pat00007
또한,
Figure pat00008
는, 정규화 요소(normalization factor)로,
Figure pat00009
Figure pat00010
로 설정되는 경우, 수학식 2는 아래 수학식 4와 같이 수정될 수 있다
[수학식 4]
Figure pat00011
도 3의 231-2는 수학식 2 또는 4에 따라 획득된 값인, y i에 대하여, 잔류 연결(Residual connection)을 적용하기 위한 구성으로, 아래 수학식 5와 같이 나타낼 수 있다.
[수학식 5]
Figure pat00012
수학식 3, 4, 5에 포함된 Wg, Wθ, Wφ, Wz 는 각각 학습(trainable)될 수 있는 가중치 행렬을 의미한다. 수학식 5에 따른 동작을 통하여, 각각의 가중치 값들은 더 나은 방법으로 학습될 수 있다.
따라서, 일 실시 예에 의하면, 수학식 5에 따라, 영상 1 내지 영상 4(231, 232, 233, 234)에 대한 특징 정보인 xi 값은, 유사도에 기초하여 획득된 값인 yi 값에 기초하여, ni 값으로 수정될 수 있다.
수학식 5에 의해 획득된 n i 는 이하 수학식 6에 따라서, 상술한 제2 특징 정보인, n out 으로 변환될 수 있다. n out 은 수학식 6 에 따른 방법에 한하지 않고, 다양한 방법을 통해 영상 1 내지 영상 4(231, 232, 233, 234)에 대하여 수정된 특징 정보들이 서로 결합됨으로써, 획득될 수 있다.
[수학식 6]
Figure pat00013
n out 는 변환부(232)에 의해 변환된 F(n out)의 형태로, 영상 시퀀스에 대한 제2 특징 정보를 나타내며, 결합부(240)로 전달되어, 제1 특징 정보와 결합될 수 있다.
도 4는 일 실시 예에 의한 영상 시퀀스(210)에 대한 캡션 정보를 생성하는 전자 장치(1000)의 일 예를 나타내는 블록도이다.
도 4의 비지역적 특징 획득부(430)는, 도 2의 비지역적 특징 획득부(230)와 대응되나, 비지역적 특징 획득부(430)로 입력되는 값이, 도 2와는 달리, 각 영상의 특징 정보가 특징 추출부 1 내지 4(221, 222, 223, 224)에 의해 처리된 값인 점에서 차이가 있다.
일 실시 예에 의하면, 비지역적 특징 획득부(430)는, 제1 특징 정보를 획득하기 위하여, 지역적 특징 획득부(220)에 의해, 영상 1 내지 4(231, 232, 233, 234)의 특징 정보들이 순차적으로 처리될 때 마다 각각의 특징 추출부 1 내지 4(221, 222, 223, 224)로부터 획득되는 정보들 간의 유사도에 기초하여, 제2 특징 정보를 획득할 수 있다.
일 실시 예에 있어서, 지역적 특징 획득부(220)에서는, 영상 시퀀스(210)의 특징 정보를 획득하기 위하여 특징 추출부 1 내지 4(221, 222, 223, 224)에 의하여 각 영상의 특징 정보가 순차적으로 처리될 수 있다.
예를 들어, 특징 추출부 1 (221)은, 영상 1의 특징 정보를 비지역적 특징 획득부(430)로 출력할 수 있다. 또한, 특징 추출부 2(222)은, 영상 1의 특징 정보 및 영상 2의 특징 정보로부터 판단되는, 영상 시퀀스(210)의 특징 정보를 비지역적 특징 획득부(430)로 출력할 수 있다. 또한, 특징 추출부 3(223)은, 특징 추출부 2(222)의 결과 및 영상 3의 특징 정보로부터 판단되는, 영상 시퀀스(210)의 특징 정보를 비지역적 특징 획득부(430)로 출력할 수 있다. 또한, 특징 추출부 4(224)은, 특징 추출부 3(223)의 결과 및 영상 4의 특징 정보로부터 판단되는, 영상 시퀀스(210)의 특징 정보를 비지역적 특징 획득부(430)로 출력할 수 있다.
일 실시 예에 의한 비지역적 특징 획득부(430)의 도 2의 비지역적 특징 획득부(230)의 동작과 동일하게, 특징 추출부 1 내지 4(221, 222, 223, 224)로부터 입력된 특징 정보들 간 유사도에 기초하여, 제2 특징 정보를 획득할 수 있다.
도 5는 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 나타낸 블록도이다.
도 6은 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 나타낸 블록도이다.
도 5를 참조하면, 전자 장치(1000)는, 메모리(1700), 프로세서(1300) 및 출력부(1200)를 포함할 수 있다. 그러나, 도 5에 도시된 구성 요소 모두가 전자 장치(1000)의 필수 구성 요소인 것은 아니다. 도 5에 도시된 구성 요소보다 많은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있고, 도 5에 도시된 구성 요소보다 적은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있다.
예를 들면, 전자 장치(1000)는 도 6에 도시된 바와 같이, 일부 실시예에 따른 전자 장치(1000)는, 메모리(1700), 프로세서(1300) 및 출력부(1200) 이외에 사용자 입력부(1100), 센싱부(1400), 통신부(1500), 및 A/V 입력부(1600)를 더 포함할 수도 있다.
사용자 입력부(1100)는, 사용자가 전자 장치(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
일 실시 예에 의하면, 사용자 입력부(1100)는, 영상 시퀀스에 대한 캡션 정보를 생성하기 위한 사용자의 입력을 수신할 수 있다.
출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.
일 실시 예에 의한 출력부(1200)는, 영상 시퀀스에 대하여 생성된 캡션 정보에 기초한 정보를 출력할 수 있다. 예를 들면, 출력부(1200)는, 일 실시 예에 따라 생성된, 영상 시퀀스의 캡션 정보를 나타내는 텍스트를 출력할 수 있다. 또한, 출력부(1200)는, 일 실시 예에 따라 생성된, 영상 시퀀스의 캡션 정보를 나타내는 텍스트에 기초하여, 다양한 동작이 수행된 결과를 나타내는 정보를 출력할 수 있다.
디스플레이부(1210)는 전자 장치(1000)에서 처리되는 정보를 표시 출력한다. 일 실시 예에 의하면, 디스플레이부(1210)는, 영상 시퀀스에 대하여 캡션 정보가 생성된 결과를 표시할 수 있다. 또한, 디스플레이부(1210)는, 일 실시 예에 따라 생성된, 영상 시퀀스의 캡션 정보를 나타내는 텍스트에 기초하여, 다양한 동작이 수행된 결과를 나타내는 정보를 표시할 수 있다.
한편, 디스플레이부(1210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(1210)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 전자 장치(1000)의 구현 형태에 따라 전자 장치(1000)는 디스플레이부(1210)를 2개 이상 포함할 수도 있다.
음향 출력부(1220)는 통신부(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다.
진동 모터(1230)는 진동 신호를 출력할 수 있다. 또한, 진동 모터(1230)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다.
프로세서(1300)는, 통상적으로 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다. 전자 장치(1000)는 적어도 하나의 프로세서(1300)를 포함할 수 있다.
프로세서(1300)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(1700)로부터 프로세서(1300)에 제공되거나, 통신부(1500)를 통해 수신되어 프로세서(1300)로 제공될 수 있다. 예를 들면 프로세서(1300)는 메모리와 같은 기록 장치에 저장된 프로그램 코드에 따라 명령을 실행하도록 구성될 수 있다.
일 실시 예에 의한 적어도 하나의 프로세서(1300)는 영상 시퀀스에 대한 캡션 정보를 생성하기 위한 동작을 수행할 수 있다. 일 실시 예에 의한 적어도 하나의 프로세서(1300)는 영상 시퀀스에 포함된 복수 개의 영상을 이용하여, 영상 시퀀스의 특징에 관한 제1 특징 정보 및 제2 특징 정보를 획득하고, 제1 특징 정보 및 제2 특징 정보에 기초하여, 영상 시퀀스에 대한 캡션 정보를 생성할 수 있다.
일 실시 예에 의한 제1 특징 정보는, 상기 복수 개의 영상들의 특징 정보들이, 영상 순서에 따라 순차적으로 처리됨에 기초하여, 결정된, 영상 시퀀스의 특징에 관한 정보를 포함할 수 있다.
또한, 일 실시 예에 의한 제2 특징 정보는, 상기 복수 개의 영상들의 특징 정보들 간의 적어도 하나의 유사도에 기초하여, 결정된 영상 시퀀스의 특징에 관한 정보를 포함할 수 있다. 예를 들면, 제2 특징 정보는, 상기 적어도 하나의 유사도 값에 기초하여 수정된 복수 개의 영상 각각에 대한 특징 정보들이 서로 결합됨으로써, 획득될 수 있다.
센싱부(1400)는, 전자 장치(1000)의 상태 또는 전자 장치(1000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(1300)로 전달할 수 있다.
센싱부(1400)는, 지자기 센서(Magnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.
통신부(1500)는, 전자 장치(1000)가 서버(미도시) 또는 외부 장치(미도시)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다.
일 실시 예에 의한 통신부(1500)는 영상 시퀀스에 대한 캡션 정보를 생성하는데 필요한 정보를 외부로부터 수신할 수 있다. 예를 들면, 통신부(1500)는, 캡션 정보를 생성하기 위한 영상 시퀀스를 외부로부터 수신할 수 있다.
또한, 일 실시 예에 의한 통신부(1500)는 적어도 하나의 프로세서(1300)에 의해 생성된 캡션 정보를 외부로 전송할 수 있다.
근거리 통신부(short-range wireless communication unit)(1510)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 전자 장치(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다.
A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 카메라(1610)는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(1300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다. 마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다.
일 실시 예에 의하면, A/V 입력부(1600)에 의해 영상이 촬영됨으로써, 캡션 정보가 생성될 수 있는 영상 시퀀스가 획득될 수 있다.
메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(1000)로 입력되거나 전자 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다.
일 실시 예에 의한 메모리(1700)는 하나 이상의 인스트럭션을 저장할 수 있고, 상술한 전자 장치(1000)의 적어도 하나의 프로세서(1300)는 상기 메모리(1700)에 저장된 상기 하나 이상의 인스트럭션을 실행함으로써, 일 실시 예에 의한 동작을 수행할 수 있다.
또한, 일 실시 예에 의한 메모리(1700)는 일 실시 예에 따라 영상 시퀀스의 캡션 정보를 생성하는데 필요한 정보를 저장할 수 있다. 예를 들면, 메모리(1700)는 캡션 정보가 생성될 수 있는, 적어도 하나의 영상 시퀀스를 저장할 수 있다. 메모리(1700)에 저장된 영상 시퀀스는 A/V 입력부(1600)에 의해 획득된 영상 시퀀스 및 외부로부터 수신된 영상 시퀀스 중 적어도 하나일 수 있다.
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다.
UI 모듈(1710)은, 애플리케이션 별로 전자 장치(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.
터치스크린의 터치 또는 근접 터치를 감지하기 위해 터치스크린의 내부 또는 근처에 다양한 센서가 구비될 수 있다. 터치스크린의 터치를 감지하기 위한 센서의 일례로 촉각 센서가 있다. 촉각 센서는 사람이 느끼는 정도로 또는 그 이상으로 특정 물체의 접촉을 감지하는 센서를 말한다. 촉각 센서는 접촉면의 거칠기, 접촉 물체의 단단함, 접촉 지점의 온도 등의 다양한 정보를 감지할 수 있다.
사용자의 터치 제스처에는 탭, 터치&홀드, 더블 탭, 드래그, 패닝, 플릭, 드래그 앤드 드롭, 스와이프 등이 있을 수 있다.
알림 모듈(1730)은 전자 장치(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다.
도 7은 일 실시 예에 의한 영상 시퀀스에 대한 캡션 정보를 생성하는 방법을 나타낸 순서도이다.
도 7을 참조하면, 단계 710에서 전자 장치(1000)는 영상 시퀀스에 포함된 복수 개의 영상 각각에 대하여 특징 정보를 추출할 수 있다. 일 실시 예에 따른 복수 개의 영상들의 특징 정보는, 각 영상의 비주얼적 특징을 나타내는 다양한 정보 및 상기 비주얼적 특징을 나타내는 정보가 데이터 인식 모델에 입력됨으로써 각 영상이 인식된 결과에 관한 정보 중 적어도 하나의 정보를 포함할 수 있다.
단계 720에서, 전자 장치(1000)는 단계 710에서 추출된 특징 정보들이 영상의 순서에 따라 순차적으로 처리함으로써, 영상 시퀀스의 특징에 관한 제1 특징 정보를 획득할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는, 영상 시퀀스에서의 각 영상의 순서에 따라 순차적으로, 각 영상의 특징 정보를 처리함으로써, 영상 시퀀스에 대한 특징 정보로서, 제1 특징 정보를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는 복수 개의 영상에 대한 특징 정보들로부터 복수 개의 영상을 포함한 영상 시퀀스의 특징 정보를 획득하기 위한 데이터 학습 모델을 이용하여, 제1 특징 정보를 획득할 수 있다.
일 실시 예에 의한 제1 특징 정보는, 각 영상의 순서가 고려됨으로써 획득된 영상 시퀀스에 대한 특징 정보를 포함할 수 있다.
단계 730에서, 전자 장치(1000)는 단계 710에서 추출된 특징 정보들 간의 적어도 하나의 유사도에 기초하여 제2 특징 정보를 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는 복수 개의 영상을 포함한 영상 시퀀스의 특징 정보를 획득하기 위하여, 복수 개의 영상들의 특징 정보들 간의 적어도 하나의 유사도 값을 이용하여, 제2 특징 정보를 획득할 수 있다. 예를 들면, 제2 특징 정보는, 상기 적어도 하나의 유사도 값에 기초하여 수정된 복수 개의 영상 각각에 대한 특징 정보들이 서로 결합됨으로써, 획득될 수 있다.
일 실시 예에 의한 제2 특징 정보는, 제1 특징 정보와는 달리, 각 영상의 순서에 대한 고려 없이 획득된, 영상 시퀀스에 대한 특징 정보를 포함할 수 있다.
단계 740에서, 전자 장치(1000)는 단계 720 및 단계 730에서 획득된 제1 특징 정보 및 제2 특징 정보에 기초하여, 캡션 정보를 생성할 수 있다.
일 실시 예에 의하면, 제2 특징 정보는, 제1 특징 정보와 결합되기 전에, 제1 특징 정보와 결합될 수 있는 형태로 변환될 수 있다.
또한, 일 실시 예에 의하면, 제1 특징 정보 및 제2 특징 정보에 포함된 특징 값들 중 서로 대응되는 특징 값들에 대한 대표값에 기초하여, 제1 특징 정보 및 상기 제2 특징 정보가 서로 결합될 수 있다. 예를 들면, 결합된 정보는, 제1 특징 정보 및 제2 특징 정보에서, 각각 대응되는 특징 값들의 대표값들을 포함할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 제1 특징 정보 및 제2 특징 정보가 결합된 정보를, 최종적인 영상 시퀀스에 대한 특징 정보로 획득할 수 있다. 전자 장치(1000)는 최종적인 영상 시퀀스에 대한 특징 정보에 기초하여, 캡션 정보를 생성할 수 있다.
일 실시 예에 의하면, 길이가 긴 영상 시퀀스의 경우에도, 영상 시퀀스 앞 부분의 영상들에 관한 특징이 적절히 반영된, 캡션 정보를 생성할 수 있다.
일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 또는 프로그램 모듈을 포함하며, 임의의 정보 전달 매체를 포함한다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (15)

  1. 전자 장치에서, 영상 시퀀스에 대한 캡션(caption) 정보를 생성하는 방법에 있어서,
    상기 영상 시퀀스에 포함된 복수 개의 영상들을 획득하는 단계;
    상기 복수 개의 영상 각각에 대하여 특징 정보를 추출하는 단계;
    상기 추출된 특징 정보들을 상기 복수 개의 영상들의 순서에 따라 순차적으로 처리함으로써, 상기 영상 시퀀스의 특징에 관한 제1 특징 정보를 획득하는 단계;
    상기 추출된 특징 정보들 간의 적어도 하나의 유사도에 기초하여 결정된 상기 영상 시퀀스의 특징에 관한 제2 특징 정보를 획득하는 단계; 및
    상기 제1 특징 정보 및 상기 제2 특징 정보에 기초하여, 상기 영상 시퀀스에 대한 캡션 정보를 생성하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 제2 특징 정보를 획득하는 단계는
    상기 적어도 하나의 유사도 값에 기초하여, 상기 복수 개의 영상 각각에 대한 특징 정보를 수정하는 단계; 및
    상기 복수 개의 영상 각각에 대하여 수정된 특징 정보에 기초하여, 상기 제2 특징 정보를 획득하는 단계를 포함하는, 방법.
  3. 제2항에 있어서, 상기 제2 특징 정보는
    상기 복수 개의 영상 각각에 대하여 수정된 특징 정보들이 결합 연산(concatenation operation)을 통해 서로 결합됨으로써, 획득되는, 방법.
  4. 제1항에 있어서, 상기 캡션 정보를 생성하는 단계는
    상기 제1 특징 정보 및 상기 제2 특징 정보를 결합하는 단계; 및
    상기 결합된 정보에 기초하여, 상기 영상 시퀀스에 대한 캡션 정보를 생성하는 단계를 포함하는, 방법.
  5. 제4항에 있어서, 상기 제2 특징 정보는,
    상기 제1 특징 정보와 결합될 수 있는 형태로 변환된 후, 상기 제1 특징 정보와 결합되는, 방법.
  6. 제4항에 있어서,
    상기 제1 특징 정보 및 상기 제2 특징 정보에 포함된 특징 값들 중, 서로 대응되는 특징 값들에 대한 대표값에 기초하여, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합되는, 방법.
  7. 제1항에 있어서, 상기 적어도 하나의 유사도는
    상기 복수 개의 영상의 특징 정보들 대신, 상기 제1 특징 정보를 획득하기 위하여, 상기 복수 개의 영상의 특징 정보들이 순차적으로 처리될 때마다 획득되는 정보들에 기초하여, 획득되는, 방법.
  8. 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치는,
    상기 영상 시퀀스에 포함된 복수 개의 영상들을 저장하는 메모리;
    상기 복수 개의 영상 각각에 대하여 특징 정보를 추출하고, 상기 추출된 특징 정보들을 상기 복수 개의 영상들의 순서에 따라 순차적으로 처리함으로써, 상기 영상 시퀀스의 특징에 관한 제1 특징 정보를 획득하고, 상기 추출된 특징 정보들 간의 적어도 하나의 유사도에 기초하여 결정된 상기 영상 시퀀스의 특징에 관한 제2 특징 정보를 획득하고, 상기 제1 특징 정보 및 상기 제2 특징 정보에 기초하여, 상기 영상 시퀀스에 대한 캡션 정보를 생성하는, 적어도 하나의 프로세서; 및
    상기 생성된 캡션 정보에 기초한 정보를 출력하는 출력부를 포함하는, 전자 장치.
  9. 제8항에 있어서, 상기 적어도 하나의 프로세서는
    상기 적어도 하나의 유사도 값에 기초하여, 상기 복수 개의 영상 각각에 대한 특징 정보를 수정하고, 상기 복수 개의 영상 각각에 대하여 수정된 특징 정보에 기초하여, 상기 제2 특징 정보를 획득하는, 전자 장치.
  10. 제9항에 있어서, 상기 제2 특징 정보는
    상기 복수 개의 영상 각각에 대하여 수정된 특징 정보들이 결합 연산을 통해 서로 결합됨으로써, 획득되는, 전자 장치.
  11. 제8항에 있어서, 상기 적어도 하나의 프로세서는
    상기 제1 특징 정보 및 상기 제2 특징 정보를 결합하고, 상기 결합된 정보에 기초하여, 상기 영상 시퀀스에 대한 캡션 정보를 생성하는, 전자 장치.
  12. 제11항에 있어서, 상기 제2 특징 정보는,
    상기 제1 특징 정보와 결합될 수 있는 형태로 변환된 후, 상기 제1 특징 정보와 결합되는, 전자 장치.
  13. 제11항에 있어서, 상기 제1 특징 정보 및 상기 제2 특징 정보에 각각 포함된, 서로 대응되는 특징 값들에 대한 대표값에 기초하여, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합되는, 전자 장치.
  14. 제8항에 있어서, 상기 적어도 하나의 유사도는
    상기 복수 개의 영상의 특징 정보들 대신, 상기 제1 특징 정보를 획득하기 위하여, 상기 복수 개의 영상의 특징 정보들이 순차적으로 처리될 때마다 획득되는 정보들에 기초하여, 획득되는, 전자 장치.
  15. 영상 시퀀스에 포함된 복수 개의 영상들을 획득하는 동작;
    상기 복수 개의 영상 각각에 대하여 특징 정보를 추출하는 동작;
    상기 추출된 특징 정보들을 상기 복수 개의 영상들의 순서에 따라 순차적으로 처리함으로써, 상기 영상 시퀀스의 특징에 관한 제1 특징 정보를 획득하는 동작;
    상기 추출된 특징 정보들 간의 적어도 하나의 유사도에 기초하여 결정된 상기 영상 시퀀스의 특징에 관한 제2 특징 정보를 획득하는 동작; 및
    상기 제1 특징 정보 및 상기 제2 특징 정보에 기초하여, 상기 영상 시퀀스에 대한 캡션 정보를 생성하는 동작을 수행하도록 하는 프로그램이 저장된 기록매체를 포함하는, 컴퓨터 프로그램 제품.
KR1020190060221A 2019-01-30 2019-05-22 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치 및 그 동작 방법 KR20200094607A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/013609 WO2020159036A1 (ko) 2019-01-30 2019-10-16 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치 및 그 동작 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201962798603P 2019-01-30 2019-01-30
US62/798,603 2019-01-30

Publications (1)

Publication Number Publication Date
KR20200094607A true KR20200094607A (ko) 2020-08-07

Family

ID=72049963

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190060221A KR20200094607A (ko) 2019-01-30 2019-05-22 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR20200094607A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022158886A1 (ko) * 2021-01-21 2022-07-28 삼성전자 주식회사 콘텐트에 관련된 알림 메시지를 제공하는 디바이스 및 방법
US11943184B2 (en) 2021-01-21 2024-03-26 Samsung Electronics Co., Ltd. Device and method for providing notification message related to content

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022158886A1 (ko) * 2021-01-21 2022-07-28 삼성전자 주식회사 콘텐트에 관련된 알림 메시지를 제공하는 디바이스 및 방법
US11943184B2 (en) 2021-01-21 2024-03-26 Samsung Electronics Co., Ltd. Device and method for providing notification message related to content

Similar Documents

Publication Publication Date Title
KR102453169B1 (ko) 디바이스가 이미지를 보정하는 방법 및 그 디바이스
US11470385B2 (en) Method and apparatus for filtering video
US11699213B2 (en) Image-capturing device and method for controlling same
KR102425578B1 (ko) 객체를 인식하는 방법 및 장치
US11042728B2 (en) Electronic apparatus for recognition of a user and operation method thereof
KR102359391B1 (ko) 디바이스가 이미지를 보정하는 방법 및 그 디바이스
CN110249360B (zh) 用于推荐产品的装置和方法
KR102556492B1 (ko) 텍스트와 연관된 이미지 제공 방법 및 이를 위한 전자 장치
KR102491546B1 (ko) 객체를 인식하는 방법 및 장치
US11831948B2 (en) Video playback device and control method thereof
US10326928B2 (en) Image processing apparatus for determining whether section of target area matches section of person area and control method thereof
US10382907B2 (en) Device and method for providing notification message about call request
US20190228294A1 (en) Method and system for processing neural network model using plurality of electronic devices
KR102430567B1 (ko) 텍스트와 연관된 이미지 제공 방법 및 이를 위한 전자 장치
KR102384878B1 (ko) 동영상을 필터링하는 방법 및 장치
KR20200094607A (ko) 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치 및 그 동작 방법
US11954595B2 (en) Electronic device for recognizing object in image, and operation method thereof
KR20200084428A (ko) 동영상을 제작하는 방법 및 그에 따른 장치
KR20210048270A (ko) 복수 객체에 대한 오디오 포커싱 방법 및 장치
WO2020159036A1 (ko) 영상 시퀀스에 대한 캡션 정보를 생성하는 전자 장치 및 그 동작 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal