WO2020235852A1 - 특정 순간에 관한 사진 또는 동영상을 자동으로 촬영하는 디바이스 및 그 동작 방법 - Google Patents

특정 순간에 관한 사진 또는 동영상을 자동으로 촬영하는 디바이스 및 그 동작 방법 Download PDF

Info

Publication number
WO2020235852A1
WO2020235852A1 PCT/KR2020/006295 KR2020006295W WO2020235852A1 WO 2020235852 A1 WO2020235852 A1 WO 2020235852A1 KR 2020006295 W KR2020006295 W KR 2020006295W WO 2020235852 A1 WO2020235852 A1 WO 2020235852A1
Authority
WO
WIPO (PCT)
Prior art keywords
image frame
image
photo
composition
learning
Prior art date
Application number
PCT/KR2020/006295
Other languages
English (en)
French (fr)
Inventor
이건일
정지원
권태혁
김덕호
유병욱
이원우
이재웅
임성훈
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2020235852A1 publication Critical patent/WO2020235852A1/ko
Priority to US17/481,987 priority Critical patent/US11977981B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06T5/92
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/617Upgrading or updating of programs or applications for camera control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/631Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
    • H04N23/632Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters for displaying or modifying preview images prior to image capturing, e.g. variety of image resolutions or capturing parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/741Circuitry for compensating brightness variation in the scene by increasing the dynamic range of the image compared to the dynamic range of the electronic image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

카메라를 통해 연속적으로 촬영된 복수 개의 이미지 프레임으로부터 사용자가 놓치기 싫은 순간에 관한 사진 또는 동영상을 자동으로 생성하고, 생성된 사진 또는 동영상을 저장하는 디바이스 및 그 동작 방법을 제공한다. 본 개시의 일 실시예는 피사체를 기설정된 시간 구간동안 연속적으로 촬영하여 복수의 이미지 프레임을 포함하는 프리뷰 이미지를 획득하는 카메라, 프리뷰 이미지에서 기설정된 주요 객체(object) 또는 상기 주요 객체의 행동(action)이 인식된 적어도 하나의 이미지 프레임을 검출하고, 적어도 하나의 이미지 프레임의 구도의 타입(type)을 인식하고, 인식된 구도의 타입에 따른 객체들의 배치에 기초하여, 적어도 하나의 이미지 프레임으로부터 주요 객체가 포함된 영역을 잘라내고(crop), 잘라낸 영역을 이용하여 사진을 생성하는 프로세서, 및 생성된 사진을 저장하는 저장부를 포함하는 디바이스를 제공한다.

Description

특정 순간에 관한 사진 또는 동영상을 자동으로 촬영하는 디바이스 및 그 동작 방법
본 개시는 카메라를 통해 촬영된 이미지를 처리하여, 특정 순간에 관한 사진 또는 동영상을 자동으로 생성하고, 생성된 사진 또는 동영상을 저장하는 디바이스 및 그 동작 방법에 관한 것이다.
증강 현실(Augmented Reality)은 현실의 이미지나 배경에 3차원 가상 이미지를 오버랩하여 하나의 이미지로 보여주는 기술로서, 증강 현실 기술을 활용한 스마트 글래스(Smart Glass)가 정보 검색, 길 안내, 카메라 촬영과 같이 일상 생활에서 유용하게 사용되고 있다. 특히, 스마트 글래스는 패션 아이템으로도 착용되고, 실외 활동에 주로 사용되고 있다.
최근에는 스마트 글래스, 웨어러블 카메라(Wearable Camera) 등과 같이 1인칭 시점의 일상 및 야외 활동에서 사진 또는 동영상을 촬영할 수 있는 디바이스가 사용되고 있다. 사용자는 디바이스를 착용하고 있는 동안 놓치기 싫은 유의미한 순간에 관하여 사진 또는 동영상을 촬영하고, 이를 SNS를 통해 공유하는 니즈(needs)가 있다. 그러나, 개인 별로 생각의 주관성 및 다양성으로 인하여 의미있고, 놓치기 싫은 순간에 대하여 명확하게 정의하기 어려운 문제점이 있다. 증강 현실 디바이스를 착용하고 있는 경우, 사용자의 걸음 걸이에 따라 지속적인 흔들림 및 낯선 주변을 두리번하는 경우 급격한 회전의 발생으로 인하여 촬영된 사진 또는 동영상이 흐릿하거나(blurry), 흔들리거나(shaky) 또는 정렬되지 않는(unaligned) 문제점이 있다.
또한, 착용형 증강 현실 디바이스의 경우 스마트 폰 등과는 다르게 사용자가 프리뷰 이미지를 확인하고, 피사체의 구도를 설정하고 촬영할 수가 없어 사용자가 원하는 고품질의 사진 또는 동영상을 촬영할 수 없는 문제점이 있다.
본 개시는 디바이스에 부착된 카메라를 통해 연속적으로 촬영된 복수 개의 이미지 프레임으로부터 사용자가 놓치기 싫은 순간에 관한 사진 또는 동영상을 자동으로 생성하고, 생성된 사진 또는 동영상을 저장하는 디바이스 및 그 동작 방법을 제공하는 것을 목적으로 한다.
본 개시의 일 실시예는 카메라를 통해 촬영된 복수 개의 이미지 프레임의 구도 및 심미성을 향상시켜 전문가 수준의 품질을 갖는 사진을 생성하는 디바이스 및 그 동작 방법을 제공하는 것을 목적으로 한다.
본 개시의 다른 실시예는 카메라를 통해 촬영된 복수 개의 이미지 프레임으로부터 주요 객체의 행동이 포함된 동영상을 생성하는 디바이스 및 그 동작 방법을 제공하는 것을 목적으로 한다.
본 개시는, 다음의 자세한 설명과 그에 수반되는 도면들의 결합으로 쉽게 이해될 수 있으며, 참조 번호(reference numerals)들은 구조적 구성요소(structural elements)를 의미한다.
도 1은 본 개시의 디바이스가 카메라를 통해 피사체를 촬영하여 특정 순간에 관한 사진 또는 동영상을 생성하고, 저장하는 실시예를 도시한 개념도이다.
도 2는 본 개시의 일 실시예에 따른 디바이스가 특정 순간에 관한 사진 또는 동영상을 자동으로 촬영하는 방법을 도시한 흐름도이다.
도 3a는 본 개시의 일 실시예에 따른 디바이스가 복수 개의 이미지 프레임으로부터 주요 객체를 인식하는 실시예를 도시한 도면이고, 도 3b는 본 개시의 디바이스가 복수 개의 이미지 프레임으로부터 주요 객체의 행동을 인식하는 예시를 도시한 도면이다.
도 4는 본 개시의 일 실시예에 따른 디바이스가 촬영 시작 시점을 설정하는 방법을 도시한 흐름도이다.
도 5는 본 개시의 일 실시예에 따른 디바이스가 적어도 하나의 이미지 프레임의 구도 및 심미성을 향상시켜 전문가 수준의 사진을 생성하는 예시를 도시한 도면이다.
도 6은 본 개시의 일 실시예에 따른 디바이스가 적어도 하나의 이미지 프레임의 구도 및 심미성을 향상시켜 전문가 수준의 사진을 생성하는 방법을 도시한 흐름도이다.
도 7a는 본 개시의 일 실시예에 따른 디바이스가 복수의 사진에 관한 구도의 타입(type)을 심층 신경망(Deep Neural Network, DNN)을 이용하여 학습(training)하는 방법을 도시한 도면이다.
도 7b는 본 개시의 일 실시예에 따른 디바이스가 심층 신경망을 이용하여 이미지 프레임의 구도의 타입을 인식하는 방법을 도시한 도면이다.
도 8a는 본 개시의 일 실시예에 따른 디바이스가 복수의 사진에 관한 심미성 평가 점수를 심층 신경망(DNN)을 이용하여 학습하는 실시예를 도시한 도면이다.
도 8b는 본 개시의 디바이스가 심층 신경망을 이용하여 이미지 프레임의 심미성 평가 점수를 예측하는 예시를 도시한 도면이다.
도 9는 본 개시의 일 실시예에 따른 디바이스가 심층 신경망을 이용한 학습을 통해 왜곡된 이미지의 심미성을 향상시키는 예시를 도시한 도면이다.
도 10은 본 개시의 일 실시예에 따른 디바이스가 복수의 이미지 프레임에 관한 하이라이트 점수를 예측하여, 숏 클립 동영상(short-clip video)를 생성하는 예시를 도시한 도면이다.
도 11은 본 개시의 일 실시예에 따른 디바이스가 복수의 이미지 프레임에 관한 하이라이트 점수를 예측하여, 숏 클립 동영상(short-clip video)를 생성하는 방법을 도시한 흐름도이다.
도 12는 본 개시의 일 실시예에 따른 디바이스가 생성된 사진 또는 동영상을 저장하는 예시를 도시한 도면이다. 도 13은 본 개시의 일 실시예에 따른 디바이스가 생성된 사진 상에 구도 및 심미성에 관한 사용자 인터페이스(User Interface, UI)를 디스플레이하는 예시를 도시한 도면이다.
도 14a는 본 개시의 일 실시예에 따른 디바이스가 생성된 사진을 디스플레이하는 사용자 인터페이스의 예시를 도시한 도면이다.
도 14b는 본 개시의 일 실시예에 따른 디바이스가 생성된 사진을 디스플레이하는 사용자 인터페이스의 예시를 도시한 도면이다.
도 14c는 본 개시의 일 실시예에 따른 디바이스가 생성된 사진을 디스플레이하는 사용자 인터페이스의 예시를 도시한 도면이다.
도 14d는 본 개시의 일 실시예에 따른 디바이스가 사용자 입력에 의해 선택된 사진을 디스플레이하는 사용자 인터페이스의 예시를 도시한 도면이다.
도 15는 본 개시의 일 실시예에 따른 디바이스의 구성 요소를 도시한 블록도이다.
도 16은 본 개시의 일 실시예에 따른 프로세서의 블록도이다.
도 17은 본 개시의 일 실시예에 따른 데이터 학습부의 블록도이다.
도 18은 본 개시의 일 실시예에 따른 데이터 인식부의 블록도이다.
도 19는 본 개시의 일 실시예에 따른 디바이스 및 서버가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.
도 20은 본 개시의 일 실시예에 따른 디바이스의 구성 요소를 도시한 블록도이다.
상술한 기술적 과제를 해결하기 위하여, 본 개시의 일 실시예는 카메라를 통해 기설정된 시간 구간동안 연속적으로 촬영된 복수의 이미지 프레임을 포함하는 상기 프리뷰(preview) 이미지를 획득하는 단계, 상기 프리뷰 이미지에서 기설정된 주요 객체(object) 또는 상기 주요 객체의 행동(action)이 인식된 적어도 하나의 이미지 프레임을 검출하는 단계, 상기 적어도 하나의 이미지 프레임의 구도의 타입(type)을 인식하는 단계, 상기 인식된 구도의 타입에 따른 객체들의 배치에 기초하여, 상기 적어도 하나의 이미지 프레임으로부터 상기 주요 객체가 포함된 영역을 잘라내는(crop) 단계, 및 상기 잘라낸 영역을 이용하여 사진을 생성하는 단계를 포함하는, 특정 순간에 관한 사진을 촬영하는 방법을 제공한다.
예를 들어, 상기 프리뷰 이미지를 획득하는 단계는 상기 카메라가 피사체 내에서 상기 주요 객체 또는 상기 주요 객체의 행동을 인식하는 시점에 상기 프리뷰 이미지의 촬영이 시작하는 단계, 및 촬영 시작 시점으로부터 상기 기설정된 시간 구간 동안 상기 피사체를 촬영하여 상기 복수의 이미지 프레임을 획득하는 단계를 포함할 수 있다.
예를 들어, 상기 프리뷰 이미지를 획득하는 단계는 사용자 입력에 기초하여 상기 프리뷰 이미지의 촬영 시작 시점을 설정하는 단계, 및 상기 설정된 촬영 시작 시점으로부터 상기 기설정된 시간 구간 동안 촬영된 상기 복수의 이미지 프레임을 획득하는 단계를 포함할 수 있다.
예를 들어, 상기 사진 또는 동영상을 생성하는 단계는 잘라낸 영역만을 포함하는 크롭 이미지 프레임의 밝기, 선명도, 채도, 대비, 및 HDR(High Dynamic Range)를 포함하는 이미지 품질 파라미터 중 적어도 하나를 조절하여 상기 크롭 이미지 프레임의 심미성을 향상시키는 단계, 및 상기 심미성이 향상된 이미지 프레임을 이용하여 상기 사진을 생성하는 단계를 포함할 수 있다.
예를 들어, 상기 적어도 하나의 이미지 프레임의 구도의 타입(type)을 인식하는 단계는 복수의 사진을 입력으로 하고, 구도의 타입에 관한 라벨값을 출력으로 하는 제1 심층 신경망(Deep Neural Network)을 통한 학습(training)을 수행하여 획득된 제1 학습 네트워크 모델을 이용하여, 상기 적어도 하나의 이미지 프레임의 구도의 타입을 인식할 수 있다.
예를 들어, 상기 사진을 생성하는 단계는 크롭 이미지 프레임에 관한 심미성 평가 점수를 예측하는 단계를 더 포함하고, 상기 심미성을 향상시키는 단계는, 상기 예측된 심미성 평가 점수에 기초하여 상기 크롭 이미지 프레임의 이미지 품질 파라미터 중 적어도 하나를 조절할 수 있다.
예를 들어, 상기 심미성 평가 점수를 예측하는 단계는 복수의 사진을 입력으로 하고, 상기 복수의 사진에 관하여 기 평가된 심미성 점수를 정규화한 값을 출력으로 하는 제2 심층 신경망을 통한 학습을 수행하여 획득된 제2 학습 네트워크 모델을 이용하여, 상기 크롭 이미지 프레임의 심미성 평가 점수를 예측할 수 있다.
예를 들어, 상기 심미성을 향상시키는 단계는 원본 사진과 심미성이 향상된 사진 간의 로스(loss)를 나타내는 모델 파라미터를 학습하여 획득된 제3 학습 네트워크 모델을 이용하여, 상기 크롭 이미지 프레임의 이미지 파라미터 중 적어도 하나를 조절할 수 있다.
예를 들어, 상기 방법은 생성된 사진을 디스플레이하는 단계를 더 포함하고, 상기 사진을 디스플레이하는 단계는 사진 상에 구도의 가이드라인, 구도의 타입에 관한 히스토그램, 및 심미성 예측 점수 중 적어도 하나의 사용자 인터페이스(User Interface)를 오버레이(overlay)하여 디스플레이할 수 있다.
상술한 기술적 과제를 해결하기 위하여, 본 개시의 일 실시예는 카메라를 통해 기설정된 시간 구간동안 연속적으로 촬영된 복수의 이미지 프레임을 포함하는 상기 프리뷰(preview) 이미지를 획득하는 단계, 상기 프리뷰 이미지에서 기설정된 주요 객체(object) 또는 상기 주요 객체의 행동(action)이 인식된 적어도 하나의 이미지 프레임을 검출하는 단계, 상기 적어도 하나의 이미지 프레임 내의 상기 주요 객체의 행동을 분석하여, 상기 분석된 주요 객체의 행동이 기설정된 행동 카테고리에 매칭되는 정도를 나타내는 하이라이트 평가 점수를 예측하는 단계, 상기 하이라이트 평가 점수가 기준값 이상인 이미지 프레임의 프레임 번호 또는 이미지 프레임의 시간 구간을 결정하는 단계, 및 상기 결정된 프레임 번호 또는 시간 구간에 해당되는 적어도 하나의 이미지 프레임을 이용하여 동영상을 생성하는 단계를 포함할 수 있다.
상술한 기술적 과제를 해결하기 위하여, 본 개시의 일 실시예는 피사체를 기설정된 시간 구간동안 연속적으로 촬영하여, 복수의 이미지 프레임을 포함하는 프리뷰 이미지를 획득하는 카메라, 하나 이상의 명령어들(instructions)을 포함하는 프로그램을 저장하는 메모리, 상기 메모리에 저장된 프로그램의 하나 이상의 명령어들을 실행하는 프로세서, 및 상기 프리뷰 이미지를 저장하는 저장부를 포함하고, 상기 프로세서는 프리뷰 이미지에서 기설정된 주요 객체(object) 또는 상기 주요 객체의 행동(action)이 인식된 적어도 하나의 이미지 프레임을 검출하고, 상기 적어도 하나의 이미지 프레임의 구도의 타입(type)을 인식하고, 상기 인식된 구도의 타입에 따른 객체들의 배치에 기초하여, 상기 적어도 하나의 이미지 프레임으로부터 상기 주요 객체가 포함된 영역을 잘라내고(crop), 상기 잘라낸 영역을 이용하여 사진을 생성하고, 상기 생성된 사진을 상기 저장부에 저장하는, 디바이스를 제공한다.
예를 들어, 상기 프로세서는 상기 카메라가 상기 피사체 내에서 상기 주요 객체 또는 상기 주요 객체의 행동을 인식하는 시점에 상기 프리뷰 이미지의 촬영이 시작되도록 상기 카메라를 제어하고, 촬영 시작 시점으로부터 상기 기설정된 시간 구간 동안 상기 피사체를 촬영하여 상기 복수의 이미지 프레임을 획득할 수 있다.
예를 들어, 상기 디바이스는 프리뷰 이미지의 촬영 시작 시점을 설정하는 사용자 입력을 수신하는 사용자 입력부를 더 포함하고, 상기 프로세서는 수신된 사용자 입력에 기초하여 촬영 시작 시점을 설정하고, 상기 촬영 시작 시점으로부터 상기 피사체를 상기 기설정된 시간 구간 동안 촬영하여 상기 복수의 이미지 프레임을 획득할 수 있다.
예를 들어, 상기 프로세서는 잘라낸 영역만을 포함하는 크롭 이미지 프레임의 밝기, 선명도, 채도, 대비, 및 HDR(High Dynamic Range)를 포함하는 이미지 품질 파라미터 중 적어도 하나를 조절하여 상기 크롭 이미지 프레임의 심미성을 향상시키고, 상기 심미성이 향상된 이미지 프레임을 이용하여 상기 사진을 생성할 수 있다.
예를 들어, 상기 프로세서는 복수의 사진을 입력으로 하고, 구도의 타입에 관한 라벨값을 출력으로 하는 제1 심층 신경망(Deep Neural Network)을 통한 학습(training)을 수행하여 획득된 제1 학습 네트워크 모델을 이용하여, 상기 적어도 하나의 이미지 프레임의 구도의 타입을 인식할 수 있다.
예를 들어, 상기 프로세서는 크롭 이미지 프레임에 관한 심미성 평가 점수를 예측하고, 상기 예측된 심미성 평가 점수에 기초하여 상기 크롭 이미지 프레임의 이미지 품질 파라미터 중 적어도 하나를 조절할 수 있다.
예를 들어, 상기 프로세서는 복수의 사진을 입력으로 하고, 상기 복수의 사진에 관하여 기 평가된 심미성 점수를 정규화한 값을 출력으로 하는 제2 심층 신경망을 통한 학습을 수행하여 획득된 제2 학습 네트워크 모델을 이용하여, 상기 크롭 이미지 프레임의 심미성 평가 점수를 예측할 수 있다.
예를 들어, 상기 프로세서는 원본 사진과 심미성이 향상된 사진 간의 로스(loss)를 나타내는 모델 파라미터를 학습하여 획득된 제3 학습 네트워크 모델을 이용하여, 상기 크롭 이미지 프레임의 이미지 품질 파라미터 중 적어도 하나를 조절할 수 있다.
예를 들어, 상기 디바이스는 생성된 사진을 디스플레이하는 디스플레이부를 더 포함하고, 상기 프로세서는 사진 상에 구도의 가이드라인, 구도의 타입에 관한 히스토그램, 및 심미성 예측 점수 중 적어도 하나의 사용자 인터페이스(User Interface)를 오버레이(overlay)하여 디스플레이하도록 상기 디스플레이부를 제어할 수 있다.
상술한 기술적 과제를 해결하기 위하여, 본 개시의 일 실시예는 피사체를 기설정된 시간 구간동안 연속적으로 촬영하여, 복수의 이미지 프레임을 포함하는 프리뷰 이미지를 획득하는 카메라, 하나 이상의 명령어들(instructions)을 포함하는 프로그램을 저장하는 메모리, 상기 메모리에 저장된 프로그램의 하나 이상의 명령어들을 실행하는 프로세서, 및 상기 프리뷰 이미지를 저장하는 저장부를 포함하고, 상기 프로세서는 프리뷰 이미지에서 기설정된 주요 객체(object) 또는 상기 주요 객체의 행동(action)이 인식된 적어도 하나의 이미지 프레임을 검출하고, 적어도 하나의 이미지 프레임 내의 상기 주요 객체의 행동이 기설정된 행동 카테고리에 매칭되는 정도를 분석하여, 상기 적어도 하나의 이미지 프레임의 하이라이트 평가 점수를 예측하고, 상기 하이라이트 평가 점수가 기준값 이상인 이미지 프레임의 프레임 번호 또는 이미지 프레임의 시간 구간을 결정하고, 상기 결정된 프레임 번호 또는 시간 구간에 해당되는 적어도 하나의 이미지 프레임을 이용하여 동영상을 생성하는, 디바이스를 제공한다.
상술한 기술적 과제를 해결하기 위하여, 본 개시의 일 실시예는 컴퓨터로 읽을 수 있는 저장 매체를 포함하는 컴퓨터 프로그램을 제공하고, 상기 저장 매체는 카메라를 통해 기설정된 시간 구간동안 연속적으로 촬영된 복수의 이미지 프레임을 포함하는 상기 프리뷰(preview) 이미지를 획득하는 단계, 상기 프리뷰 이미지에서 기설정된 주요 객체(object) 또는 상기 주요 객체의 행동(action)이 검출된 적어도 하나의 이미지 프레임을 검출하는 단계, 상기 적어도 하나의 이미지 프레임의 구도의 타입(type)을 인식하는 단계, 상기 인식된 구도의 타입에 따른 객체들의 배치에 기초하여, 상기 적어도 하나의 이미지 프레임으로부터 상기 주요 객체가 포함된 영역을 잘라내는(crop) 단계; 및 상기 잘라낸 영역을 이용하여 사진을 생성하는 단계를 수행하는 명령어들(instructions)을 포함할 수 있다.
본 명세서의 실시예들에서 사용되는 용어는 본 개시의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "...모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
본 명세서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 시스템"이라는 표현은, 그 시스템이 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
이하에서는 도면을 참조하여 본 개시의 실시예들을 상세하게 설명한다.
도 1은 본 개시의 디바이스(100)가 카메라(110)를 통해 피사체를 촬영하여 특정 순간에 관한 사진 또는 동영상을 생성하고, 저장하는 실시예를 도시한 개념도이다.
도 1을 참조하면, 디바이스(100)는 스마트 글래스(Smart Glass)와 같이 웨어러블 디바이스(wearable device)일 수 있지만, 이에 한정되는 것은 아니다. 디바이스(100)는 예를 들어, 스마트 폰, 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 영상 전화기, 액션 캠(action cam), 웨어러블 캠(wearable cam), 및 로봇(robot) 중 적어도 하나를 포함할 수 있다.
디바이스(100)는 카메라(110)를 포함할 수 있다. 카메라(110)는 피사체를 촬영하는 렌즈(lens), 피사체에 관한 입력 RGB 프리뷰 이미지 데이터를 출력하는 이미지 센서를 포함하는 카메라 모듈로 구성될 수 있다. 카메라(110)는 싱글 카메라 또는 멀티 카메라로 구성될 수 있다.
디바이스(100)가 스마트 글래스인 경우, 카메라(110)는 스마트 글래스의 양안 렌즈의 중심부에 배치될 수 있으나, 이에 한정되는 것은 아니다. 카메라(110)는 스마트 글래스의 양안 렌즈 중 어느 하나의 렌즈의 측부에 배치되거나, 또는 안경 다리 부분에 배치될 수도 있다.
디바이스(100)는 카메라(110)를 통해 기설정된 시간 동안 피사체를 연속적으로 촬영하여, 피사체에 관한 복수의 이미지 프레임을 포함하는 프리뷰 이미지(200)를 획득할 수 있다(단계 ①). 일 실시예에서, 카메라(110)는 사용자의 1인칭 시점에서 바라보는 장면, 즉 사람, 물체 또는 건물과 같은 객체(object), 배경, 자연 풍경 등을 촬영하여 시계열적으로 연속적인 복수 개의 이미지 프레임을 획득할 수 있다. 일 실시예에서, 디바이스(100)는 획득된 복수 개의 이미지 프레임에 관하여 블러(blur) 저감, 노이즈 제거, 손떨림 방지, 또는 흔들림 제거와 같은 영상의 전처리(pre-processing) 작업을 수행할 수 있다.
디바이스(100)는 획득된 복수의 이미지 프레임 중에서 주요 이미지 프레임(201, 203, 205)을 검출할 수 있다(단계 ②). 여기서, '주요 이미지 프레임(201, 203, 205)'은 기설정된 주요 객체(예를 들어, 가족, 애완견 등) 또는 객체의 주요 행동(예를 들어, 점프, 축구, 스마일 등)이 포함된 이미지 프레임을 의미할 수 있다. 일 실시예에서, 디바이스(100)는 주요 객체 또는 객체의 주요 행동에 관하여 사전 정의하고, 프리뷰 이미지(200)에 포함된 복수의 이미지 프레임들 중 사전 정의된 주요 객체 또는 객체의 주요 행동이 인식된 적어도 하나의 주요 이미지 프레임(201, 203, 205)을 검출할 수 있다. 일 실시예에서, 디바이스(100)는 인공 신경망을 통한 학습을 통해 각각의 이미지 프레임 내에서 주요 객체 또는 객체의 주요 행동을 인식할 수 있다.
디바이스(100)는 영상 처리를 통해 검출된 적어도 하나의 주요 이미지 프레임(201, 203, 205)으로부터 특정 순간에 관한 사진(211, 213, 215) 또는 동영상(220)을 자동으로 생성한다(단계 ③). 디바이스(100)는 적어도 하나의 이미지 프레임의 구도 및 심미성을 향상시켜 전문가 수준의 사진(211, 213, 215)을 생성할 수 있다. 일 실시예에서, 디바이스(100)는 주요 객체 또는 객체의 주요 행동이 검출된 적어도 하나의 이미지 프레임의 구도의 타입(type)을 인식하고, 구도의 타입에 따른 객체의 배치에 기초하여 주요 객체가 포함된 영역만을 잘라내는(crop) 영상 처리를 수행할 수 있다. 일 실시예에서, 디바이스(100)는 잘라낸 이미지 프레임의 밝기, 선명도, 채도, 대비, 및 HDR(High Dynamic Range)를 포함하는 이미지 품질 파라미터 중 적어도 하나를 조절하여 이미지 프레임의 심미성을 향상시킬 수 있다.
일 실시예에서, 디바이스(100)는 검출된 적어도 하나의 주요 이미지 프레임(201, 203, 205) 내의 주요 객체의 행동을 인식하고, 인식된 행동이 기설정된 행동의 카테고리에 매칭되는 정도에 기초하여 하이라이트 구간을 판단하고, 하이라이트 구간에 해당되는 이미지 프레임만을 선택하여 숏 클립 동영상(short-clip video)(220)를 생성할 수 있다.
디바이스(100)는 심층 신경망(Deep Neural Network, DNN)을 이용하는 학습(training)을 통해 획득한 학습 네트워크 모델을 이용하여 상기 전문가 수준의 사진(211, 213, 215) 또는 숏 클립 동영상(220)을 생성할 수 있다.
디바이스(100)는 생성된 전문가 수준의 사진(211, 213, 215) 또는 숏 클립 동영상(220)을 메모리에 저장할 수 있다(단계 ④).
디바이스(100)는 피사체에 관한 프리뷰 이미지(200)와 생성된 사진(211, 213, 215)를 디스플레이부(120) 상에 함께 디스플레이할 수 있다. 일 실시예에서, 디바이스(100)는 생성된 숏 클립 동영상을 디스플레이부(120) 상에 디스플레이할 수 있다.
일 실시예에서, 디바이스(100)는 생성된 전문가 수준의 사진(211, 213, 215) 또는 숏 클립 동영상(220)을 SNS를 통해 공유할 수 있는 기능을 제공할 수 있다.
스마트 글래스(Smart glass)와 같은 웨어러블 디바이스의 카메라(110)를 통해 1인칭 시점의 일상 및 야외 활동에서 사진 또는 동영상을 촬영하는 경우, 촬영하고자 하는 특정 순간에 사진 촬영 버튼을 누르거나, 음성 명령 등을 입력하여야 한다. 이 경우, 촬영 시점을 잘못 맞춰서 특정 순간에 관한 사진 촬영을 실패하거나, 품질이 낮은 사진을 촬영할 수 있다. 또한, 웨어러블 디바이스의 경우, 스마트 폰 등과는 다르게 사용자가 프리뷰 이미지를 직접 확인하고, 피사체의 구도를 설정하여 촬영할 수가 없기 때문에, 사용자가 원하는 고품질의 사진 또는 동영상을 촬영할 수 없는 문제점이 있다.
도 1에 도시된 실시예에서, 본 개시의 디바이스(100)는 카메라(110)를 통해 획득한 복수의 이미지 프레임 중 주요 이미지 프레임(201, 203, 205)을 검출하고, 검출된 주요 이미지 프레임(201, 203, 205)에 관하여 인공지능 모델을 이용한 학습을 통해 구도 및 심미성이 향상된 전문가 수준의 사진(211, 213, 215)을 자동으로 생성할 수 있다. 따라서, 사용자는 촬영에 방해받지 않고, 일상 생활 속 상황에 몰입하면서도 놓치기 싫은 유의미한 특정 순간에 관한 고품질의 사진을 제공받을 수 있는바, 본 개시의 디바이스(100)를 통해 사용자 편의성이 향상될 수 있다. 또한, 디바이스(100)는 인공지능 모델을 이용하여 객체의 주요 행동이 인식된 주요 이미지 프레임(201, 203, 205)을 이용하여 숏 클립 동영상(220)을 생성하는바, 간직하고 싶은 순간에 관한 동영상을 사용자에게 제공할 수 있다.
도 2는 본 개시의 일 실시예에 따른 디바이스가 특정 순간에 관한 사진 또는 동영상을 자동으로 촬영하는 방법을 도시한 흐름도이다.
단계 S210에서, 디바이스는 카메라를 통해 기설정된 시간 구간 동안 연속적으로 촬영된 복수의 이미지 프레임을 포함하는 프리뷰 이미지(preview image)를 획득한다. 일 실시예에서, 디바이스는 카메라를 통해 사용자의 1인칭 시점에서 바라보는 장면, 즉 사람, 물체 또는 건물과 같은 객체, 배경, 자연 풍경 등을 촬영하여 시계열적으로 연속적인 복수의 이미지 프레임을 획득할 수 있다. 디바이스는 기설정된 시간 구간 동안, 예를 들어 10분 동안 피사체를 촬영하여, 복수의 이미지 프레임을 획득할 수 있다.
일 실시예에서, 디바이스는 카메라가 피사체 내에서 주요 객체 또는 주요 객체의 행동을 인식하는 시점에 프리뷰 이미지의 촬영을 시작할 수 있다. 다른 실시예에서, 디바이스는 사용자가 촬영 시작 버튼을 누르는 시점에 프리뷰 이미지의 촬영을 시작할 수 있다.
디바이스는 단계 S210에서 획득된 복수의 이미지 프레임에 관하여 블러(blur) 저감, 노이즈 제거, 손떨림 방지, 또는 흔들림 제거와 같은 영상의 전처리(pre-processing) 작업을 수행할 수 있다.
단계 S220에서, 디바이스는 프리뷰 이미지에서 주요 객체(object) 또는 주요 객체의 행동(action)이 인식된 적어도 하나의 이미지 프레임을 검출한다. 일 실시예에서, 디바이스는 복수의 이미지 프레임 내에서 포커스하는 주요 객체(예를 들어, 사람, 애완 동물, 음식, 또는 상품 등), 및 객체의 주요 행동(예를 들어, 미소 짓기, 춤추기, 달리기, 먹기, 키스하기, 운동하기, 바라보기 등)에 관하여 사전 정의하고, 사전 정의된 주요 객체 또는 객체의 주요 행동이 인식된 적어도 하나의 이미지 프레임을 검출할 수 있다.
일 실시예에서, 디바이스는 사전 정의된 주요 객체를 포함하는 복수의 사진들을 입력으로 하고, 주요 객체의 카테고리에 관한 라벨값(label)을 출력으로 하는 심층 신경망을 이용하는 학습(training)을 통해 획득된 학습 네트워크 모델을 이용하여 이미지 프레임 내의 주요 객체를 인식할 수 있다. 일 실시예에서, 디바이스는 수많은 사진 상에 사전 정의된 객체의 주요 행동에 관한 이미지를 입력으로 하고, 행동 카테고리에 관한 라벨값을 출력으로 하는 심층 신경망을 이용하는 학습을 통해 획득된 학습 네트워크 모델을 이용하여 이미지 프레임 내의 객체의 주요 행동을 인식할 수 있다.
단계 S230에서, 디바이스는 적어도 하나의 이미지 프레임의 구도의 타입(type)을 인식한다.
일 실시예에서, 디바이스는 단계 S220에서 검출된 적어도 하나의 이미지 프레임의 구도의 타입(type)을 인식하고, 단계 S230에서 인식된 구도의 타입에 따른 객체들의 배치에 기초하여 적어도 하나의 이미지 프레임으로부터 주요 객체가 포함된 영역을 잘라낼 수 있다(crop). 디바이스는 수많은 사진을 입력으로 하고, 사진의 구도 타입을 출력으로 하는 심층 신경망을 이용하는 학습을 통해 기획득된 학습 네트워크 모델을 이용하여, 적어도 하나의 이미지의 구도의 타입을 인식할 수 있다. 디바이스는 잘라낸 영역만을 포함하는 크롭 이미지 프레임의 밝기, 선명도, 채도, 대비, 및 HDR(High Dynamic Range)을 포함하는 이미지 품질 파라미터 중 적어도 하나를 조절하여 크롭 이미지 프레임의 심미성을 향상시킬 수 있다. 일 실시예에서, 디바이스는 심층 신경망을 이용하는 학습을 통해 기획득된 학습 네트워크 모델을 이용하여 크롭 이미지 프레임의 심미성 평가 점수를 예측하고, 예측된 심미성 평가 점수에 기초하여 이미지 품질 파라미터 중 적어도 하나를 조절할 수 있다. 디바이스는 심미성이 향상된 이미지 프레임을 이용하여 특정 순간에 관한 전문가 수준의 사진을 생성할 수 있다.
디바이스가 심층 신경망을 이용하는 학습을 통해 특정 순간에 관한 사진을 생성하는 구체적인 실시예에 대해서는 도 7 내지 도 9에서 상세하게 설명하기로 한다.
일 실시예에서, 디바이스는 단계 S220에서 검출된 적어도 하나의 이미지 프레임 내의 주요 객체의 행동을 분석하고, 분석된 주요 객체의 행동이 기설정된 행동 카테고리에 매칭되는 정도를 나타내는 하이라이트 평가 점수를 예측하고, 예측된 하이라이트 평가 점수를 기초로 적어도 하나의 이미지 프레임을 선택하여 동영상을 생성할 수도 있다. 일 실시예에서, 디바이스는 주요 객체의 행동이 포함된 수많은 사진을 입력으로 하고, 행동 카테고리에 따른 하이라이트 점수를 출력으로 하는 심층 신경망을 이용하는 학습을 통해 기획득된 학습 네트워크 모델을 이용하여, 적어도 하나의 이미지 프레임에 관한 하이라이트 점수를 예측할 수 있다.
디바이스가 심층 신경망을 이용하는 학습을 통해 숏 클립 동영상을 생성하는 구체적인 실시예에 대해서는 도 10 내지 도 11에서 상세하게 설명하기로 한다.
단계 S250에서, 디바이스는 생성된 사진을 저장한다. 일 실시예에서, 디바이스는 단계 S210에서 획득한 프리뷰 이미지를 원본 형태로 저장하고, 생성된 전문가 수준의 사진을 프리뷰 이미지와 함께 저장할 수 있다. 일 실시예에서, 디바이스는 생성된 적어도 하나의 전문가 수준의 사진을 슬라이드 쇼 형태로 재생할 수도 있다.
일 실시예에서, 디바이스는 단계 S210에서 획득한 프리뷰 이미지를 원본 동영상 형태로 저장하고, 생성된 동영상을 원본 동영상과 함께 저장할 수 있다.
일 실시예에서, 디바이스는 메모리와 같은 저장부 내에 기저장된 사진의 구도 및 심미성을 향상하여 전문가 수준의 사진을 생성할 수 있다. 일 실시예에서, 디바이스는 사용자 입력에 기초하여 선택된 사진 폴더 내에 포함된 각각의 사진에 대하여, 구도 및 심미성을 향상하여 전문가 수준의 사진을 생성하고, 생성된 전문가 수준의 사진을 저장할 수 있다. 일 실시예에서, 디바이스는 사용자 입력에 기초하여 선택된 사진 폴더 내에 포함된 모든 사진에 대하여, 구도 및 및 심미성을 향상하여 전문가 수준의 사진을 생성하고, 생성된 전문가 수준의 사진을 저장할 수 있다.
일 실시예에서, 디바이스는 기설정된 특정 시간 대(예를 들어, 오전 2시부터 4시까지의 시간대)에 주기적으로(예를 들어, 한달에 한번) 기저장된 사진에 대하여, 구도 및 심미성을 향상하여 전문가 수준의 사진을 생성하고, 생성된 전문가 수준의 사진을 저장할 수 있다.
일 실시예에서, 디바이스는 저장부 내에 기저장된 동영상에 대하여 하이라이트 구간을 검출하고, 검출된 하이라이트 구간에 해당되는 적어도 하나의 사진을 이용하여 숏 클립 동영상을 생성하고, 생성된 숏 클립 동영상을 저장할 수 있다.
일 실시예에서, 디바이스는 기설정된 특정 시간 대(예를 들어, 오전 1시부터 2시까지의 시간대)에 주기적으로(예를 들어, 일주일에 한번), 기저장된 동영상에 대하여 하이라이트 숏 클립 동영상을 생성하고, 생성된 숏 클립 동영상을 저장할 수 있다.
도 3a는 본 개시의 일 실시예에 따른 디바이스가 복수의 이미지 프레임으로부터 주요 객체를 인식하는 실시예를 도시한 도면이고, 도 3b는 본 개시의 디바이스가 복수의 이미지 프레임으로부터 주요 객체의 행동을 인식하는 예시를 도시한 도면이다.
도 3a를 참조하면, 디바이스는 카메라가 피사체 내에서 주요 객체를 인식하는 시점에 프리뷰 이미지(300)의 촬영을 시작할 수 있다. 디바이스는 카메라를 통한 촬영으로 획득한 이미지 프레임 내에 기설정된 주요 객체, 예를 들어, 사람, 애완 동물, 음식, 또는 상품 등을 인식할 수 있다. 일 실시예에서, 디바이스는 주요 객체를 카테고리 별로 사전에 정의하고, 이미지 프레임 내에서 사전 정의된 주요 객체가 인식되면 프리뷰 이미지(300)의 촬영을 시작할 수 있다. 도 3a에 도시된 실시예에서, 디바이스는 카메라가 촬영한 제1 이미지 프레임(301) 내에서 기설정된 주요 객체인 사람과 물체(연)를 인식하고, 주요 객체의 관심 영역(Region of Interest, ROI)(310, 320) 정보를 획득할 수 있다. 일 실시예에서, 디바이스는 이미지 프레임 내에서 사람이 인식된 ROI 박스(box)(310)의 이미지 좌표 정보를 획득할 수 있다.
디바이스는 인공 신경망을 통한 학습을 통해 제1 이미지 프레임(301) 내에서 주요 객체를 인식할 수 있다. 일 실시예에서, 디바이스는 주요 객체를 포함하는 수많은 사진들을 입력으로 하고, 주요 객체의 카테고리 정보를 출력으로 하는 인공 신경망을 이용한 학습(training)을 통해 획득된 학습 네트워크 모델을 이용하여 제1 이미지 프레임(301)으로부터 주요 객체를 인식할 수 있다. 디바이스는 컨볼루션 신경망 모델(Convolution Neural Network, CNN) 또는 재귀 신경망 모델(Recurrent Neural Network, RNN)과 같은 공지의 심층 신경망 모델(Deep Neural Network, DNN)을 이용하는 학습을 수행하여 학습 네트워크 모델을 획득하고, 획득된 학습 네트워크 모델을 이용하여 제1 이미지 프레임(301)으로부터 주요 객체를 인식할 수 있다.
디바이스는 제1 이미지 프레임(301)으로부터 주요 객체를 인식하는 시점을 촬영 시작 시점으로 설정하고, 촬영 시작 시점으로부터 기설정된 시간 동안 연속적으로 피사체를 촬영하여 복수의 이미지 프레임을 획득할 수 있다. 예를 들어, 디바이스는 촬영 시작 시점으로부터 10분 동안 복수의 이미지 프레임을 촬영하여, 프리뷰 이미지(300)를 획득할 수 있다. 프리뷰 이미지(300)는 제1 이미지 프레임(301), 제2 이미지 프레임(302), ... , 제N 이미지 프레임을 포함할 수 있다. 제1 이미지 프레임(301)과 제2 이미지 프레임(302) 간의 촬영 시간 차이는 1초에 촬영하는 프레임의 수(frames per second, fps)에 따라 결정될 수 있다.
도 3b를 참조하면, 디바이스는 카메라를 통해 연속적으로 촬영하여 획득된 복수의 이미지 프레임(331 내지 336)을 포함하는 프리뷰 이미지(330)에서 주요 객체의 행동을 인식할 수 있다. 일 실시예에서, 디바이스는 주요 객체의 행동을 카테고리 별로 사전에 정의하고, 복수의 이미지 프레임(331 내지 336) 내에서 사전 정의된 행동을 카테고리 별로 인식할 수 있다.
디바이스는 인공 신경망을 통한 학습을 통해 복수의 이미지 프레임(331 내지 336) 내에서 주요 객체의 행동을 인식할 수 있다. 일 실시예에서, 디바이스는 주요 객체의 행동을 포함하는 수많은 사진들을 입력으로 하고, 주요 객체의 행동 카테고리 정보를 출력으로 하는 인공 신경망을 이용한 학습(training)을 통해 획득된 학습 네트워크 모델을 이용하여, 복수의 이미지 프레임(331 내지 336)으로부터 주요 객체의 행동을 인식할 수 있다. 디바이스는 컨볼루션 신경망 모델(Convolution Neural Network, CNN) 또는 재귀 신경망 모델(Recurrent Neural Network, RNN)과 같은 공지의 심층 신경망 모델(Deep Neural Network, DNN)을 이용하는 학습을 수행하여 학습 네트워크 모델을 획득하고, 획득된 학습 네트워크 모델을 이용하여, 복수의 이미지 프레임(331 내지 336)으로부터 주요 객체의 행동을 인식할 수 있다.
디바이스는 행동이 인식된 프레임의 번호 또는 시간 구간에 관한 정보를 포함하는 행동 구간 정보를 획득할 수 있다. 디바이스는 행동이 인식된 시작 프레임 및 종료 프레임의 프레임 번호를 획득할 수 있다. 디바이스는 행동이 인식된 시작 시간과 종료 시간에 관한 시간 정보를 획득할 수도 있다.
도 3b에 도시된 실시예에서, 디바이스는 프리뷰 이미지(330) 내에서 주요 객체인 사람이 축구를 하는 행동을 인식하고, 행동이 인식된 시작 프레임인 제2 프레임(332)의 번호와 종료 프레임인 제5 프레임(335)의 번호를 획득할 수 있다. 다른 실시예에서, 디바이스는 제2 프레임(332)의 촬영 시점과 제5 프레임(335)의 촬영 시점에 관한 정보를 획득할 수도 있다.
도 4는 본 개시의 일 실시예에 따른 디바이스가 촬영 시작 시점을 설정하는 방법을 도시한 흐름도이다.
단계 S410에서, 디바이스는 프리뷰 이미지의 촬영 시작 시점을 결정하는 사용자 입력을 수신한다. 일 실시예에서, 디바이스는 카메라를 통해 촬영을 하지 않는 상태에서 촬영 시작 버튼을 누르는 사용자 입력을 수신할 수 있다.
단계 S420에서, 디바이스는 사용자 입력에 기초하여 프리뷰 이미지의 촬영을 시작한다.
단계 S430에서, 디바이스는 촬영 시작 시점으로부터 기설정된 시간 구간 동안 촬영된 복수의 이미지 프레임을 획득한다.
도 5는 본 개시의 일 실시예에 따른 디바이스가 적어도 하나의 이미지 프레임의 구도 및 심미성을 향상시켜 전문가 수준의 사진을 생성하는 예시를 도시한 도면이다.
도 5를 참조하면, 디바이스는 카메라를 이용하여 기설정된 시간 구간동안 연속적으로 피사체를 촬영하여 복수의 이미지 프레임(500)을 획득할 수 있다. 디바이스는 공지의 영상 처리 기술을 이용하여, 복수의 이미지 프레임(500)의 블러(blur)를 저감하고, 노이즈(noise)를 제거하고, 손떨림으로 인한 흔들림을 보정하는 전처리(pre-processing) 작업을 수행할 수 있다. 디바이스는 복수의 이미지 프레임(500) 중 제1 이미지 프레임(510)에 포함된 주요 객체를 인식할 수 있다. 일 실시예에서, 디바이스는 제1 이미지 프레임(510) 내에 포함된 주요 객체의 ROI 박스 정보를 획득할 수 있다. 디바이스가 제1 이미지 프레임(510)에 포함된 주요 객체를 인식하는 방법은 도 3a에서 설명한 방법과 동일하므로, 중복되는 설명은 생략한다.
디바이스는 제1 이미지 프레임(510)의 주요 객체의 배치에 따른 구도의 타입(type)을 인식할 수 있다. 사진의 구도(composition)는 이미지 내의 점, 선, 면, 및 형태를 포함하는 기하학적 요소로 구성되는 것으로서, '좋은 구도'는 객체의 기하학적 배치 상태가 조화로운 것을 의미할 수 있다. 그러나, '좋은 구도'라는 것은 개인적이고 주관적인 것으로써 객관적으로 평가할 수 없다. 따라서, 본 개시의 일 실시예에 따른 디바이스는 수많은 경험을 통해 사진 전문가들이 정의한 복수 개의 구도의 타입을 사전 정의하고, 복수의 사진과 사전 정의된 구도의 타입을 각각 입출력으로 하여 심층 신경망을 통한 학습(training)하고, 학습을 통해 획득된 학습 네트워크 모델을 이용하여 이미지 프레임의 구도의 타입을 인식할 수 있다. 도 5에 도시된 실시예에서, 디바이스는 제1 이미지 프레임(510) 내에서 주요 객체가 이미지의 중심에 배치된 중심 구도(center composition)임을 인식할 수 있다.
디바이스는 인식된 구도의 타입에 기초하여 제1 이미지 프레임(510)으로부터 주요 객체가 포함된 제1 영역(520)만을 잘라낼 수 있다(crop). 일 실시예에서, 디바이스는 인식된 구도의 타입에 따른 객체들의 배치에 기초하여 주요 객체가 포함되는 영역인 제1 영역(520)을 결정할 수 있다. 도 5에 도시된 실시예에서, 인식된 구도가 중심 구도이므로, 디바이스는 주요 객체들이 이미지의 중심에 배치되는 영역인 제1 영역(520)을 결정하고, 제1 이미지 프레임(510)에서 제1 영역(520)을 제외한 영역인 제2 영역(522)은 불필요한 영역으로써 제거할 수 있다.
디바이스는 제1 영역(520)만을 포함하는 크롭 이미지 프레임을 생성하고, 크롭 이미지 프레임의 심미성 평가 점수를 예측할 수 있다. 여기서, '심미성(aesthetic)'은 사진을 봤을 때 사람이 느끼는 미적 평가 또는 느낌을 의미하는 것으로써, '심미성이 있다'는 것은 잘 찍힌 사진을 의미할 수 있다. 심미성이 높은 사진은 사진의 빛(light), 구도(composition), 특정 순간(moment), 색 구성(palette), 노출 시간(time), 및 보기 힘든 순간(wonder)의 6가지 요소를 이용하여 독창적으로 피사체를 촬영하여 획득될 수 있다. 그러나, '심미성'은 사람이 사진을 봤을 때 감정적으로 느끼는 것으로써, 심미감은 사람마다 다른 주관적인 것이므로, 객관적 지표로 평가할 수 없다. 따라서, 본 개시의 일 실시예에 따른 디바이스는 수많은 사진을 보고 사람들이 평가한 심미성 평가 점수에 관한 데이터 셋(data set)을 이용하여 심층 신경망을 통해 학습하고, 학습을 통해 획득된 학습 네트워크 모델을 이용하여 이미지 프레임의 심미성 평가 점수를 예측할 수 있다. 도 5에 도시된 실시예에서, 디바이스는 학습 네트워크 모델을 이용하여, 크롭 이미지 프레임의 심미성 평가 점수를 0.85로 예측할 수 있다.
디바이스는 예측된 심미성 평가 점수에 기초하여 크롭 이미지 프레임의 밝기, 선명도, 채도, 대비, HDR(High Dynamic Range)를 포함하는 이미지 품질 파라미터 중 적어도 하나를 조절하여 크롭 이미지 프레임의 심미성을 향상시킬 수 있다. 일 실시예에서, 디바이스는 원본 사진과 심미성이 향상된 사진 간의 로스(loss)를 나타내는 모델 파라미터를 이용하는 학습을 통해 획득한 학습 네트워크 모델을 이용하여 크롭 이미지 프레임의 이미지 품질 파라미터를 조절할 수 있다.
디바이스는 심미성이 향상된 이미지 프레임을 이용하여 전문가 수준의 사진(530)을 생성할 수 있다.
도 5에 도시된 실시예에서, 디바이스는 연속적으로 촬영된 프리뷰 이미지로부터 주요 객체가 인식된 제1 이미지 프레임(510)의 구도의 타입을 인식하고, 구도의 타입에 기초하여 이미지 프레임을 크롭하여 크롭 이미지 프레임을 생성하고, 크롭 이미지 프레임의 심미성 평가 점수를 예측하고, 크롭 이미지 프레임의 심미성을 향상시키는 일련의 과정들을 심층 신경망을 이용한 학습을 통해 기획득된 학습 네트워크 모델을 이용하여 수행함으로써, 기존의 픽셀 기반의 영상 처리 알고리즘에 비하여 실행 속도를 현저하게 상승시킬 수 있다. 또한, 본 개시의 일 실시예에 따른 디바이스는 심층 신경망을 이용한 학습을 통해 획득된 학습 네트워크 모델을 이용하여 제1 이미지 프레임(510)으로부터 구도의 타입을 검출하는바, 검출된 구도의 정확도를 향상시킬 수 있다.
도 6은 본 개시의 일 실시예에 따른 디바이스가 적어도 하나의 이미지 프레임의 구도 및 심미성을 향상시켜 전문가 수준의 사진을 생성하는 방법을 도시한 흐름도이다.
단계 S610에서, 디바이스는 적어도 하나의 이미지 프레임의 구도의 타입(type)을 인식한다. 일 실시예에서, 디바이스는 수많은 사진들을 입력으로 하고, 사진 전문가들이 사전 정의한 복수 개의 구도의 타입에 관한 라벨값(label)을 출력으로 하는 제1 심층 신경망(Deep Neural Network, DNN)을 이용한 학습(training)을 통해 획득된 제1 학습 네트워크 모델을 이용하여, 적어도 하나의 이미지 프레임의 구도의 타입을 인식할 수 있다. 디바이스는 예를 들어, 컨볼루션 신경망 모델(Convolution Neural Network, CNN) 또는 재귀 신경망 모델(Recurrent Neural Network, RNN)와 같은 공지의 심층 신경망 모델(Deep Neural Network, DNN)을 이용하는 학습(training)을 수행하는 인공지능 학습 모듈을 이용하여 학습을 수행하고, 제1 학습 네트워크 모델을 획득할 수 있다. 그러나, 이에 한정되는 것은 아니고, 디바이스는 예를 들어 SVM(Support Vector Machine), 선형 회귀(linear regression), 로지스틱 회귀(logistic regression), 나이브 베이즈 분류(Naive Bayes), decision tree, k-nearest neighbor algorithm 등의 알고리즘을 이용하여 학습을 수행할 수도 있다. 제1 학습 네트워크 모델은 적어도 하나의 이미지 프레임을 획득하기 이전에 미리 획득될 수 있다.
단계 S620에서, 디바이스는 인식된 구도의 타입에 기초하여 적어도 하나의 이미지 프레임으로부터 주요 객체가 포함된 영역을 크롭(crop)할 수 있다. 일 실시예에서, 디바이스는 인식된 구도의 타입에 따른 객체들의 배치에 기초하여 적어도 하나의 이미지 프레임 내에서 주요 객체가 포함되는 영역만을 남겨두고, 나머지 영역들은 제거하는 영상 처리를 수행할 수 있다.
단계 S630에서, 디바이스는 크롭 이미지 프레임의 밝기, 선명도, 채도, 대비, 및 HDR 중 적어도 하나의 이미지 품질 파라미터를 조절하여 크롭 이미지 프레임의 심미성을 향상시킨다. 일 실시예에서, 디바이스는 수많은 사진을 입력으로 하고, 수많은 사진들에 관하여 기 평가된 심미성 점수를 정규화(normalize)한 값을 출력으로 하는 제2 학습 네트워크를 이용한 학습을 통해 획득된 제2 학습 네트워크 모델을 이용하여, 크롭 이미지 프레임의 심미성 평가 점수를 예측할 수 있다. 디바이스는 예를 들어, 컨볼루션 신경망 모델(CNN) 또는 재귀 신경망 모델(RNN)와 같은 공지의 심층 신경망 모델(DNN)을 이용하는 학습(training)을 수행하는 인공지능 학습 모듈을 이용하여 학습을 수행하고, 제2 학습 네트워크 모델을 획득할 수 있다. 그러나, 이에 한정되는 것은 아니고, 디바이스는 예를 들어 SVM(Support Vector Machine), 선형 회귀(linear regression), 로지스틱 회귀(logistic regression), 나이브 베이즈 분류(Naive Bayes), decision tree, k-nearest neighbor algorithm 등의 알고리즘을 이용하여 학습을 수행할 수도 있다. 제2 학습 네트워크 모델은 크롭 이미지 프레임이 생성되기 전에 미리 획득될 수 있다.
일 실시예에서, 디바이스는 원본 사진과 심미성이 향상된 사진 간의 로스(loss)를 나타내는 모델 파라미터를 학습하여 획득된 제3 학습 네트워크 모델을 이용하여, 크롭 이미지 프레임의 이미지 품질 파라미터 중 적어도 하나를 조절할 수 있다. 원본 사진과 심미성이 향상된 사진 간의 로스를 나타내는 모델 파라미터는 크롭 이미지 프레임이 생성되기 전에 학습을 통해 미리 획득될 수 있다.
단계 S620에서 이용되는 제1 학습 네트워크 모델과, 단계 S630에서 이용되는 제2 학습 네트워크 모델, 및 제3 학습 네트워크 모델은 모두 컨볼루션 신경망 모델(CNN) 또는 재귀 신경망 모델(RNN)과 같은 공지의 심층 신경망 모델(DNN)을 이용하는 학습(training)을 통해 획득될 수 있다. 그러나, 제1 내지 제3 학습 네트워크 모델 각각은 서로 다른 모델 파라미터를 학습하는 별개의 독립적인 학습 네트워크일 수 있다.
단계 S640에서, 디바이스는 심미성이 향상된 이미지 프레임을 이용하여 사진을 생성한다. 일 실시예에서, 디바이스는 단계 S620에서 인식된 구도의 타입에 기초하여 이미지 프레임을 크롭(crop)하고, 단계 S630에서 크롭된 이미지 프레임의 심미성을 향상시킴으로써 전문가 수준의 사진을 생성할 수 있다.
도 7a는 본 개시의 일 실시예에 따른 디바이스가 복수의 사진(711-719)에 관한 구도의 타입(type)을 심층 신경망(DNN)(700)을 이용하여 학습(training)하는 방법을 도시한 도면이다.
도 7a를 참조하면, 디바이스는 복수의 사진들(711 내지 719)을 입력으로 하고, 9개의 구도의 타입에 관한 라벨값(label)(721 내지 729)을 출력으로 하는 심층 신경망(700)을 이용하는 학습(training)을 수행하고, 학습 네트워크 모델을 획득할 수 있다. 심층 신경망(700)을 이용한 학습은 디바이스에 의해 수행될 수 있지만, 이에 한정되지 않는다. 일 실시예에서, 심층 신경망(700)을 이용한 학습은 서버에 의해 수행되고, 서버에 의해 획득된 학습 네트워크 모델이 통신 네트워크를 통해 디바이스에 전송될 수 있다.
디바이스는 특정 구도에 따라 촬영된 복수의 사진들(711 내지 719)을 심층 신경망(700)에 입력으로 적용하고, 복수의 사진들 각각에 관한 구도의 타입을 출력으로 하는 학습을 수행할 수 있다. 예를 들어, 제1 사진(711)은 삼등분 구도(Rule of Third)로 촬영된 것으로서, 제1 사진(711)과 삼등분 구도에 관한 제1 라벨값(721)은 제1 입출력 쌍(pair)을 형성하고, 심층 신경망(700)은 제1 입출력 쌍을 이용하여 학습할 수 있다. 또한, 제2 사진(712)은 대칭 구도(Symmetric)으로 촬영된 것으로서, 제2 사진(712)와 대칭 구도에 관한 제2 라벨값(722)은 제2 입출력 쌍을 형성하고, 심층 신경망(700)은 제2 입출력 쌍을 이용하여 학습할 수 있다. 상기와 같은 방법으로, 제3 사진(713)은 삼각 구도(Triangle)에 관한 제3 라벨값(723)과, 제4 사진(714)은 중심 구도(Center)에 관한 제4 라벨값(724)과, 제5 사진(715)은 수평 구도(Horizontal)에 관한 제5 라벨값(725)과, 제6 사진(716)은 수직 구도(Vertical)에 관한 제6 라벨값(726)과, 제7 사진(717)은 커브 구도(Curved)에 관한 제7 라벨값(727)과, 제8 사진(718)은 사선 구도(Diagonal)에 관한 제8 라벨값(728)과, 제9 사진(719)은 패턴 구도(Pattern)에 관한 제9 라벨값(729)과 각각 입출력 쌍을 형성하고, 심층 신경망(700)은 입출력 쌍을 이용하여 학습을 수행할 수 있다.
심층 신경망(700)은 복수의 컨볼루션 연산 레이어(convolution layer)를 포함하는 컨볼루션 신경망 모델(CNN)일 수 있다. 심층 신경망(700)은 예를 들어, 총 17개의 컨볼루션 레이어를 포함하고, 컨볼루션 레이어를 통해 학습된 모델 파라미터 값을 평균값 풀링(average pooling)한 이후, 지그모이드(sigmoid) 함수를 통해 출력하는 컨볼루션 신경망 모델로 구현될 수 있다. 그러나, 이에 한정되는 것은 아니고, 디바이스는 재귀 신경망 모델(Recurrent Neural Network, RNN)과 같은 공지의 심층 신경망 모델을 이용하거나, SVM(Support Vector Machine), 선형 회귀(linear regression), 로지스틱 회귀(logistic regression), 나이브 베이즈 분류(Naive Bayes), decision tree, k-nearest neighbor algorithm 등의 알고리즘을 이용하여 학습할 수도 있다.
도 7a에 도시된 실시예에서, 심층 신경망(700)은 공지의 컨볼루션 신경망 모델인 Mobilenet-v2 NET 기반으로 구현될 수 있다. 도면에는 심층 신경망(700)이 17개의 컨볼루션 레이어를 포함하는 것으로 도시되어 있지만, 이는 구현 방식의 예시일 뿐, 도시된 바와 같이 한정되는 것은 아니다.
일 실시예에서, 디바이스는 약 15,000장의 사진을 이용하여 학습을 수행할 수 있다. 디바이스는 구도의 타입 별로 최소 175장 내지 최대 9,100장의 사진을 입력으로 적용하고, 구도의 타입에 관한 라벨값을 출력으로 적용하여 심층 신경망(700)을 통해 학습을 수행할 수 있다. 일 실시예에서, 심층 신경망(700)에 입력으로 적용되는 복수의 사진들(711 내지 719)은 299×299의 해상도로 압축된 사진일 수 있다.
일 실시예에서, 심층 신경망(700)은 지그모이드(Sigmoid) 출력을 사용하여 정확도를 향상시킬 수 있으나, 이에 한정되는 것은 아니다. 구현 방식에 따라, 심층 신경망(700)은 ReLU 함수, 소프트맥스(Softmax) 또는 하이퍼볼릭 탄젠트(hyperbolic tangent, tanh) 함수를 출력 함수로 사용할 수도 있다.
도 7b는 본 개시의 일 실시예에 따른 디바이스가 심층 신경망(700)을 이용하여 이미지 프레임의 구도의 타입을 인식하는 방법을 도시한 도면이다.
도 7b를 참조하면, 디바이스는 카메라를 통해 촬영되어 획득된 이미지 프레임을 심층 신경망(700)에 입력하여 구도의 타입을 인식할 수 있다. 심층 신경망(700)은 도 7a에서 설명한 학습을 통해 획득된 네트워크 모델 파라미터를 포함할 수 있다. 심층 신경망(700)의 네트워크 모델 파라미터는 이미지 프레임을 촬영하기 전에 미리 학습을 통해 획득된 파라미터일 수 있다.
일 실시예에서, 디바이스는 카메라를 통해 촬영된 복수의 이미지 프레임 중 주요 객체 또는 주요 객체의 행동이 인식된 적어도 하나의 이미지 프레임을 심층 신경망(700)에 입력하여 구도의 타입을 인식할 수 있다. 도 7b에 도시된 실시예에서, 디바이스는 입력 이미지 프레임(730)을 심층 신경망(700)에 입력하여, 출력값(740)을 획득할 수 있다. 입력 이미지 프레임(730)에 관한 출력값(740)은 삼등분 구도와 중심 구도에 관한 히스토그램으로 제공될 수 있다. 삼등분 구도에 관한 라벨값에 더 근접한 값이 출력되었는바, 입력 이미지 프레임(730)은 삼등분 구도로 인식될 수 있다.
도 7a 및 도 7b에 도시된 실시예에서, 디바이스는 심층 신경망(700)을 이용하여 카메라를 통해 촬영된 입력 이미지 프레임의 구도의 타입을 인식함으로써, 기존의 Saliency 기반의 에 관한 주요 객체 검출 방식 및 슈퍼-픽셀(Super-pixel) 기반의 리딩 라인(leading line), 하늘 영역(sky region) 검출을 통해 구도를 인식하는 방식에 비하여 처리 시간을 현저하게 감소시킬 수 있다.
도 8a는 본 개시의 일 실시예에 따른 디바이스가 복수의 사진에 관한 심미성 평가 점수를 심층 신경망(800)을 이용하여 학습하는 실시예를 도시한 도면이다.
도 8a를 참조하면, 디바이스는 복수의 사진들(811 내지 813)을 입력으로 하고, 심미성 평가 점수를 3가지 단계로 나누어 정규화한(normalize) 높은 점수(821), 중간 점수(822), 및 낮은 점수(823)를 출력값으로 하여 심층 신경망(800)을 이용하는 학습(training)을 수행하고, 학습 네트워크 모델을 획득할 수 있다. 심층 신경망(800)을 이용한 학습은 디바이스에 의해 수행될 수 있지만, 이에 한정되지 않는다. 일 실시예에서, 심층 신경망(800)을 이용한 학습은 서버에 의해 수행되고, 서버에 의해 획득된 학습 네트워크 모델이 통신 네트워크를 통해 디바이스에 전송될 수 있다.
디바이스는 복수의 사진들(811 내지 813)과, 복수의 사진들(811 내지 813)에 관하여 기 평가된 심미성 점수의 입출력 쌍을 이용하여 학습을 수행할 수 있다. 여기서, '심미성 평가 점수'는 사진을 감상한 사람이 사진의 빛(light), 구도(composition), 특정 순간(moment), 색 구성(palette), 노출 시간(time), 및 보기 힘든 순간(wonder)의 6가지 평가 요소에 기초하여 심미성을 평가한 점수를 의미하는 것으로서, 0점에서 10점 사이에서 점수가 분포될 수 있다. 예를 들어, 심미성 평가 점수가 6점 이상이면 높은 점수, 심미성 평가 점수가 4점 이하이면 낮은 점수, 심미성 평가 점수가 5점 정도이면 중간 점수로 분류될 수 있다. 일 실시예에서, 디바이스는 심미성 평가 점수를 0 내지 1 사이의 값으로 정규화할 수 있다. 이 경우, 정규화된 심미성 평가 점수가 0.6 이상이면 높은 점수, 0.4 이하이면 낮은 점수, 0.5 이면 중간 점수로 분류될 수 있다.
디바이스는 예를 들어, 제1 사진(811)은 심미성이 높은 사진으로 분류하고, 제1 사진(811)과 높은 점수(821)를 이용하여 제1 입출력 쌍(pair)으로 형성할 수 있다. 마찬가지로, 디바이스는 제2 사진(812)과 중간 점수(822)를 제2 입출력 상으로 형성하고, 제3 사진(813)과 낮은 점수(823)를 제3 입출력 쌍으로 형성할 수 있다. 디바이스는 형성된 제1 내지 제3 입출력 쌍을 심층 신경망(800)에 적용하여 학습을 수행할 수 있다.
심층 신경망(800)은 복수의 컨볼루션 연산 레이어(convolution layer)를 포함하는 컨볼루션 신경망 모델(Convolution Neural Network, CNN)일 수 있다. 심층 신경망(800)은 예를 들어, 총 17개의 컨볼루션 레이어를 포함하고, 컨볼루션 레이어를 통해 학습된 모델 파라미터 값을 평균값 풀링(average pooling)한 이후, 하이퍼볼릭 탄젠트(hyperbolic tangent, tanh) 함수를 통해 출력하는 컨볼루션 신경망 모델로 구현될 수 있다. 도 8a에서는, 심층 신경망(800)이 17개의 컨볼루션 레이어를 포함하는 것으로 도시되어 있지만, 이는 구현 방식의 예시일 뿐, 도시된 바와 같이 한정되는 것은 아니다. 구현 방식에 따라, 심층 신경망(800)은 ReLU 함수, 소프트맥스(Softmax) 또는 지그모이드(Sigmoid) 함수를 출력 함수로 사용할 수도 있다.
그러나 이에 한정되는 것은 아니고, 디바이스는 재귀 신경망 모델(Recurrent Neural Network, RNN)과 같은 공지의 심층 신경망 모델을 이용하거나, SVM(Support Vector Machine), 선형 회귀(linear regression), 로지스틱 회귀(logistic regression), 나이브 베이즈 분류(Naive Bayes), decision tree, k-nearest neighbor algorithm 등의 알고리즘을 이용하여 학습할 수도 있다.
도 8a에 도시된 실시예에서, 심층 신경망(800)은 공지의 컨볼루션 신경망 모델인 Mobilenet-v2 NET 기반으로 구현될 수 있다. 일 실시예에서, 디바이스는 약 25만 장의 사진 각각에 대하여 200명의 평가자가 사진의 심미성에 관하여 평가한 점수에 관한 데이터인 AVA 데이터 셋(Aesthetic Visual Analysis)을 심층 신경망(800)에 적용하여 학습할 수 있다(AVA: A large-scale database for aesthetic visual analysis, 2012 Computer Vision and Pattern Recongnition). 일 실시예에서, AVA 데이터 셋의 심미성 평가 점수는 0 부터 10 사이의 값을 갖지만, 심층 신경망(800)에 출력으로 적용되는 심미성 평가 점수는 AVA 데이터 셋의 심미성 평가 점수를 1/10로 정규화한 0 부터 1 사이의 값을 가질 수 있다. 심미성 평가 점수가 1에 각가울수록 심미적으로 잘 찍힌 사진을 의미할 수 있다.
도 8b는 본 개시의 디바이스가 심층 신경망(800)을 이용하여 이미지 프레임의 심미성 평가 점수를 예측하는 예시를 도시한 도면이다.
도 8b를 참조하면, 디바이스는 이미지 프레임을 구도의 타입에 따라 크롭(crop)하여 생성한 크롭 이미지 프레임(830)을 심층 신경망(800)에 입력하여 심미성 평가 점수(840)를 예측할 수 있다. 여기서, 크롭 이미지 프레임(830)은 도 6의 단계 S620을 거친 이후의 크롭 이미지 프레임을 의미할 수 있다. 심층 신경망(800)은 도 8a에서 설명한 학습을 통해 획득된 네트워크 모델 파라미터를 포함할 수 있다. 심층 신경망(800)의 학습 네트워크 모델 파라미터는 크롭 이미지 프레임을 생성하기 전에 미리 학습을 통해 획득된 파라미터일 수 있다.
도 8a 및 도 8b에 도시된 실시예에서, 디바이스는 심층 신경망(800)을 이용하여 크롭된 이미지 프레임의 심미성 평가 점수를 예측함으로써, 픽셀 기반의 영상 처리 기반에 비해 예측에 걸리는 시간을 단축시킬 수 있다. 또한, 기획득된 심미성 평가 점수에 관한 데이터 셋을 활용한 학습을 통해, 개인적, 주관적 지표인 사진의 심미성에 관한 평가 점수를 객관화 및 수치화하여 판단할 수 있다.
도 9는 본 개시의 일 실시예에 따른 디바이스가 심층 신경망(900)을 이용한 학습을 통해 왜곡된 이미지(910)의 심미성을 향상시키는 예시를 도시한 도면이다.
도 9를 참조하면, 디바이스는 심미성 예측 모델(950)을 이용하여 심미성 향상 이미지(930)와 원본 이미지(940) 간의 로스(loss)를 나타내는 로스 파라미터(960)를 획득하고, 로스 파라미터(960)를 이용하는 학습을 통해 왜곡된 이미지(910)의 왜곡 정도를 예측할 수 있다.
도 9에서 왜곡된 이미지(910)는 밝기, 선명도, 채도, 대비, HDR 등 심미성 평가 요소가 적절하지 않게 왜곡되었거나, 흐릿하거나 흔들린 이미지를 의미할 수 있다. 일 실시예에서, 왜곡된 이미지(910)는 도 8b에 도시된 심층 신경망(800)에 입력되어 심미성 평가 점수가 예측된 이미지로서, 심미성 평가 점수가 0.4 이하로 예측된 이미지일 수 있다.
디바이스는 왜곡 정도 예측 파라미터(920)의 역 왜곡 파라미터(inverse distortion parameter)(922)를 계산하고, 왜곡된 이미지(910)에 역 왜곡 파라미터(922)를 적용하여 왜곡된 이미지(910)의 밝기, 선명도, 채도, 대비, 및 HDR를 포함하는 이미지 품질 파라미터 중 적어도 하나를 조절하여 심미성을 향상시킬 수 있다. 디바이스는 왜곡된 이미지(910)로부터 심미성이 향상된 이미지(930)를 획득할 수 있다.
도 9에 도시된 실시예에서, 심미성 예측 모델(950)을 이용하여 심미성 향상 이미지(930)와 원본 이미지(940) 간의 로스(loss)를 나타내는 로스 파라미터(960)를 획득하는 과정은 심층 신경망(900)을 통한 학습을 위해서만 수행될 수 있다. 일 실시예에서, 획득된 로스 파라미터(960)는 왜곡된 이미지(910)로부터 심미성 향상 이미지(930)를 획득하기 위한 파라미터인 역 왜곡 파라미터(922)를 계산하기 위한 왜곡 정도 예측 파라미터(920)를 학습하는데 이용될 수 있다.
도 10은 본 개시의 일 실시예에 따른 디바이스가 복수의 이미지 프레임에 관한 하이라이트 점수를 예측하여, 숏 클립 동영상(short-clip video)를 생성하는 예시를 도시한 도면이다.
도 10을 참조하면, 디바이스는 카메라를 통해 기설정된 시간 구간 동안 피사체를 연속적으로 촬영하여 복수의 이미지 프레임(F_1 내지 F_6)을 포함하는 동영상 파일(V)을 획득할 수 있다.
디바이스는 복수의 이미지 프레임(F_1 내지 F_6) 내의 주요 객체의 행동을 분석하고, 분석된 주요 객체의 행동이 기설정된 행동 카테고리에 매칭되는 정도를 나타내는 하이라이트 평가 점수를 예측할 수 있다. 일 실시예에서, 디바이스는 사전 정의된 객체의 주요 행동, 예를 들어, 미소 짓기, 춤추기, 달리기, 먹기, 키스하기, 운동하기, 바라보기 등을 포함하는 수많은 이미지들을 입력으로 하고, 행동 카테고리에 관한 라벨값을 출력으로 하는 심층 신경망을 이용하는 학습을 통해 학습 네트워크 모델을 획득하고, 획득한 학습 네트워크 모델을 이용하여 동영상(V) 내의 주요 객체의 행동을 분석할 수 있다. 디바이스는 컨볼루션 신경망 모델(CNN) 또는 재귀 신경망 모델(RNN)과 같은 공지의 심층 신경망 모델을 이용하는 학습(training)을 수행하여, 학습 네트워크 모델을 획득할 수 있다. 그러나, 이에 한정되는 것은 아니고, 디바이스는 예를 들어 SVM(Support Vector Machine), 선형 회귀(linear regression), 로지스틱 회귀(logistic regression), 나이브 베이즈 분류(Naive Bayes), decision tree, k-nearest neighbor algorithm 등의 알고리즘을 이용하여 학습할 수도 있다. 일 실시예에서, 주요 객체의 행동에 관한 학습은 디바이스가 아닌, 서버에 의해 수행될 수도 있다.
디바이스는 하이라이트 평가 점수가 기준값 이상인 이미지 프레임의 프레임 번호 또는 이미지 프레임의 시간 구간을 결정할 수 있다. 도 10에 도시된 실시예에서, 디바이스는 예측된 하이라이트 점수가 1.5 이상인 제2 이미지(F_2), 제4 이미지 프레임(F_4) 및 제5 이미지 프레임(F_5)의 프레임 번호에 관한 정보를 획득할 수 있다.
디바이스는 결정된 프레임 번호 또는 시간 구간에 해당되는 이미지 프레임을 추출하고, 추출된 이미지 프레임을 이용하여 숏 클립 동영상을 생성할 수 있다. 도 10에 도시된 실시예에서, 디바이스는 제2 이미지 프레임(F_2), 제4 이미지 프레임(F_4) 및 제5 이미지 프레임(F_5)을 추출하고, 추출된 제2 이미지 프레임(F_2), 제4 이미지 프레임(F_4) 및 제5 이미지 프레임(F_5)을 이어 붙여서 숏 클립 동영상을 생성할 수 있다.
일 실시예에서, 디바이스는 추출된 이미지 프레임인 제2 이미지 프레임(F_2), 제4 이미지 프레임(F_4) 및 제5 이미지 프레임(F_5)은 느린 속도로 재생되고, 추출되지 않은 이미지 프레임인 제1 이미지 프레임(F_1), 제3 이미지 프레임(F_3), 제6 이미지 프레임(F_6)은 상대적으로 빠른 속도로 재생되도록 구성된 하이라이트 동영상을 생성할 수도 있다.
일 실시예에서, 동영상(V)는 디바이스 내의 저장부에 기 저장되어 있을 수 있다. 디바이스는 저장부 내에 저장된 동영상(V)에 포함된 복수의 이미지 프레임(F_1 내지 F_6)에 대하여 하이라이트 점수를 예측하고, 예측된 하이라이트 점수가 기준값 이상인 제2 이미지 프레임(F_2), 제4 이미지 프레임(F_4) 및 제5 이미지 프레임(F_5)을 이용하여 숏 클립 동영상을 생성할 수 있다. 일 실시예에서, 디바이스는 기설정된 특정 시간 대(예를 들어, 오전 1시부터 2시까지의 시간대)에 주기적으로(예를 들어, 일주일에 한번), 기저장된 동영상(V)에 대하여 숏 클립 동영상을 생성할 수 있다.
도 11은 본 개시의 일 실시예에 따른 디바이스가 복수의 이미지 프레임에 관한 하이라이트 점수를 예측하여, 숏 클립 동영상(short-clip video)를 생성하는 방법을 도시한 흐름도이다.
단계 S1110에서, 디바이스는 적어도 하나의 이미지 프레임 내의 주요 객체의 행동을 분석하여, 기설정된 행동 카테고리에 매칭되는 정도를 나타내는 하이라이트 평가 점수를 예측한다. 일 실시예에서, 디바이스는 심층 신경망을 통한 학습을 수행하여 획득한 학습 네트워크 모델을 이용하여 적어도 하나의 이미지 프레임으로부터 주요 객체의 행동을 인식할 수 있다. 이에 관한 구체적인 방법은 도 10에서 설명한 방법과 동일한바, 중복되는 설명은 생략한다.
단계 S1120에서, 디바이스는 하이라이트 평가 점수가 기준값 이상인 이미지 프레임의 프레임 번호 도는 프레임의 시간 구간을 결정한다.
단계 S1130에서, 디바이스는 결정된 프레임 번호 또는 시간 구간에 해당되는 적어도 하나의 이미지 프레임을 이용하여 숏 클립 동영상(short-clip video)을 생성한다. 일 실시예에서, 디바이스는 결정된 프레임 번호 또는 시간 구간에 해당되는 적어도 하나의 이미지 프레임을 추출하고, 추출된 적어도 하나의 이미지 프레임을 이어 붙여서 숏 클립 동영상을 생성할 수 있다. 일 실시예에서, 디바이스는 추출된 적어도 하나의 이미지 프레임은 느린 속도로 재생되고, 추출되지 않은 나머지 이미지 프레임은 상대적으로 빠른 속도로 재생되도록 구성된 동영상을 생성할 수도 있다.
일 실시예에서, 디바이스는 분할된 구간에 대하여 대표 이미지 프레임, 즉 분할된 구간 내에서 하이라이트 점수가 가장 높은 이미지 프레임들만을 선택적으로 추출하여 동영상을 생성할 수도 있다.
도 12는 본 개시의 일 실시예에 따른 디바이스가 생성된 사진 또는 동영상을 저장하는 예시를 도시한 도면이다.
도 12를 참조하면, 디바이스는 복수의 원본 입력 이미지(1200)와 생성된 복수의 전문가 수준 사진(1210)을 저장부(1030)에 저장할 수 있다. 일 실시예에서, 디바이스의 구성 요소인 프로세서(1022)는 복수의 전문가 수준 사진(1210)을 모아서 GIF 포맷의 파일로 생성하고, 저장부(1030)에 복수의 원본 입력 이미지(1200) 각각의 JPG 파일과 함께 저장할 수 있다. 프로세서(1022)는 복수의 전문가 수준 사진(1210)을 모아서 생성한 GIF 파일을 슬라이드 쇼(slide show) 형태로 재생할 수 있다.
디바이스는 원본 입력 이미지(1200)와 생성된 숏 클립 동영상(1220)을 저장부(1030)에 저장할 수 있다. 일 실시예에서, 프로세서(1022)는 복수의 원본 입력 이미지(1200)를 모아서 MP4 포맷의 동영상으로 생성하고, 숏 클립 동영상(1220)을 AVI, WMV와 같은 동영상 포맷으로 저장할 수 있다.
도 13은 본 개시의 일 실시예에 따른 디바이스(100)가 생성된 사진 상에 구도 및 심미성에 관한 사용자 인터페이스(User Interface, UI)를 디스플레이하는 예시를 도시한 도면이다.
도 13을 참조하면, 디바이스(100)는 스마트 글래스와 같은 웨어러블 디바이스일 수 있다. 디바이스(100)는 카메라를 통해 촬영되고, 구도 및 심미성을 향상하는 영상 처리를 통해 생성된 전문가 수준의 사진(1300)을 디스플레이부(120) 상에 디스플레이할 수 있다.
일 실시예에서, 디스플레이부(120)는 전문가 수준의 사진(1300) 상에 구도의 가이드라인을 점선 형태로 표시하는 제1 UI(1310), 구도의 타입에 관한 히스토그램을 표시하는 제2 UI(1320) 및 심미성 예측 점수를 표시하는 제3 UI(1330)를 오버레이(overlay)하여 디스플레이할 수 있다.
제1 UI(1310)는 구도에 관한 가이드라인에 관한 그래픽 사용자 인터페이스(Graphic User Interface, GUI)로서, 사진(1300) 상의 주요 객체의 점, 선, 면에 관한 배치에 기초하여 가이드라인을 점선 형태로 표시할 수 있다. 디바이스는 사진(1300)의 구도의 타입(type)을 인식하고, 인식된 구도의 타입에 따른 가이드라인을 사진(1300) 상에 디스플레이할 수 있다. 디바이스는 예를 들어, 삼등분 구도(Rule of Third), 대칭 구도(Symmetric), 삼각 구도(Triangle), 중심 구도(Center), 수평 구도(Horizontal), 수직 구도(Vertical), 커브 구도(Curved), 사선 구도(Diagonal), 및 패턴 구도(Pattern) 중 어느 하나의 구도를 인식하고, 인식된 구도에 관한 가이드라인을 사진(1300) 상에 오버레이할 수 있다.
도 13에 도시된 실시예에서, 사진(1300)은 삼각 구도를 갖는 것으로 인식되는바, 삼각 구도에 대한 가이드라인이 사진(1300) 상에 오버레이될 수 있다.
제2 UI(1320)는 구도의 타입에 관한 히스토그램을 표시하는 그래픽 인터페이스일 수 있다. 디바이스(100)는 기 획득된 학습 네트워크 모델을 이용하여 사진(1300)의 구도의 타입을 인식하고, 인식된 구도의 타입에 관한 히스토그램 정보를 생성할 수 있다. 제2 UI(1320)에서 히스토그램의 값이 1.0에 가까운 구도의 타입이 사진(1300)의 구도로 인식될 수 있다. 도 13에 도시된 실시예에서, 제2 UI(1320)의 삼각 구도(Triangle)의 값이 1.0에 가장 가까우므로, 사진(1300)은 삼각 구도로 인식될 수 있다.
제3 UI(1330)는 기 획득된 학습 네트워크 모델을 이용하여 예측한 사진(1300)의 심미성 평가 점수를 나타내는 사용자 인터페이스일 수 있다. 도 13에 도시된 제3 UI(1330)는 심미성 예측 점수를 별의 개수를 통해 나타내고 있으나, 이는 GUI의 일 예시일뿐, 이에 한정되지 않는다. 일 실시예에서, 제3 UI(1330)는 심미성 예측 점수를 숫자, 문자, 기호, 도형, 그래프 등 다양한 형태의 GUI로 표시할 수 있다.
도 13에 도시된 실시예에서, 사용자는 디바이스(100)의 디스플레이부(120)를 통해 전문가 수준의 사진(1300)과 함께, 구도의 가이드라인, 인식된 구도의 타입, 및 심미성 예측 점수를 한눈에 파악할 수 있어, 직관성을 높일 수 있고, 사용자 편의성이 향상될 수 있다.
도 14a는 본 개시의 일 실시예에 따른 디바이스(100)가 생성된 사진을 디스플레이하는 사용자 인터페이스의 예시를 도시한 도면이다.
도 14a를 참조하면, 디바이스(100)는 카메라를 통해 피사체를 촬영하여 획득한 프리뷰 이미지(1400)로부터 적어도 하나의 이미지 프레임을 검출하고, 적어도 하나의 이미지 프레임의 구도 및 심미성을 향상시켜 복수의 사진(1421 내지 1426)을 생성할 수 있다. 프리뷰 이미지(1400)는 기설정된 시간 구간동안 촬영을 통해 획득된 복수의 이미지 프레임을 포함하는 동영상으로 구성될 수 있다.
일 실시예에서, 디바이스(100)는 디스플레이부 상에 프리뷰 이미지(1400)를 표시하고, 프리뷰 이미지(1400)의 하단부에 프리뷰 이미지 프리뷰 이미지(1400)의 플레이(play)를 제어하는 사용자 인터페이스(UI)(1410)를 디스플레이할 수 있다. 사용자 인터페이스(1410)는 프리뷰 이미지(1400)로 구성된 동영상을 플레이하고, 프리뷰 이미지(1400)의 동영상을 정지하고, 프리뷰 이미지(1400)를 불러오는 기능을 수행하는 가상 버튼들을 포함할 수 있다. 사용자 인터페이스(1410)는 GUI로 구현될 수 있다.
도 14b는 본 개시의 일 실시예에 따른 디바이스(100)가 생성된 사진을 디스플레이하는 사용자 인터페이스의 예시를 도시한 도면이다.
도 14b를 참조하면, 디바이스(100)는 프리뷰 이미지(1400)를 플레이하고, 플레이되는 프리뷰 이미지(1400)의 구도를 분석하여, 구도의 타입에 관한 히스토그램 정보를 나타내는 사용자 인터페이스(1430)를 디스플레이할 수 있다. 일 실시예에서, 디바이스(100)는 프리뷰 이미지(1400) 중 플레이되는 이미지 프레임에 관한 구도를 기 획득된 학습 네트워크 모델을 이용하여 분석할 수 있다. 디바이스(100)는 이미지 프레임에 대한 구도 분석 결과에 기초하여 구도의 타입에 따른 히스토그램을 나타내는 사용자 인터페이스(1400)를 디스플레이할 수 있다.
도 14c는 본 개시의 일 실시예에 따른 디바이스(100)가 생성된 사진을 디스플레이하는 사용자 인터페이스의 예시를 도시한 도면이다.
도 14c를 참조하면, 디바이스(100)는 프리뷰 이미지(1400)로부터 생성된 복수의 사진들에 관한 구도를 인식하고, 인식된 구도의 타입을 문자로 표시하는 사용자 인터페이스(1450)를 디스플레이할 수 있다. 도 14c에 도시된 실시예에서, 디바이스(100)는 제1 사진(1440)에 관한 구도의 타입을 수평 대칭 구도로 인식하고, '수평 대칭 구도'라는 구도의 타입을 문자로 나타내는 사용자 인터페이스(1450)를 디스플레이할 수 있다.
일 실시예에서, 복수의 사진들 중 어느 하나의 사진을 선택하는 사용자 입력을 수신하는 경우, 디바이스(100)는 사용자 입력에 의해 선택된 사진의 구도를 인식하고, 인식된 구도의 타입에 따른 가이드라인을 디스플레이할 수 있다. 이에 관해서는 도 14d에서 상세하게 설명한다.
도 14d는 본 개시의 일 실시예에 따른 디바이스(100)가 사용자 입력에 의해 선택된 제1 사진(1440)을 디스플레이하는 사용자 인터페이스의 예시를 도시한 도면이다.
도 14d를 참조하면, 디바이스(100)는 자동 촬영된 복수의 사진들 중 제1 사진(1440)을 선택하는 사용자 입력을 수신하는 경우, 제1 사진(1440)을 확대하여 디스플레이할 수 있다. 디바이스(100)는 제1 사진(1440)의 구도의 타입(type)을 인식할 수 있다. 일 실시예에서, 디바이스(100)는 인식된 구도의 타입에 기초하여 가이드라인을 점선 형태로 표시하는 제1 UI(1462)를 제1 사진(1440) 상에 오버레이(overlay)하여 디스플레이할 수 있다. 제1 UI(1462)는 구도에 관한 가이드라인에 관한 그래픽 사용자 인터페이스(Graphic User Interface, GUI)로서, 제1 사진(1440) 상의 주요 객체의 점, 선, 면에 관한 배치에 기초하여 가이드라인을 점선 형태로 표시할 수 있다.
디바이스는 예를 들어, 삼등분 구도(Rule of Third), 대칭 구도(Symmetric), 삼각 구도(Triangle), 중심 구도(Center), 수평 구도(Horizontal), 수직 구도(Vertical), 커브 구도(Curved), 사선 구도(Diagonal), 및 패턴 구도(Pattern) 중 어느 하나의 구도를 인식하고, 인식된 구도에 관한 가이드라인을 사진(1300) 상에 오버레이할 수 있다. 도 14d에 도시된 실시예에서, 디바이스(100)는 제1 사진(1440)이 수평 구도를 갖는 것으로 인식하고, 수평 구도에 관한 가이드라인인 제1 UI(1462)를 제1 사진(1440) 상에 오버레이하여 디스플레이할 수 있다.
디바이스(100)는 구도의 타입에 관한 히스토그램을 표시하는 그래픽 인터페이스인 제2 UI(1464)를 디스플레이할 수 있다. 디바이스(100)는 기 획득된 학습 네트워크 모델을 이용하여 제1 사진(1440)의 구도의 타입을 인식하고, 인식된 구도의 타입에 관한 히스토그램 정보를 생성할 수 있다. 제2 UI(1464)에서 히스토그램의 값이 1.0에 가까운 구도의 타입이 제1 사진(1440)의 구도로 인식될 수 있다. 도 14d에 도시된 실시예에서, 제2 UI(1464)의 수평 구도의 값이 1.0에 가장 가까우므로, 제1 사진(1440)은 삼각 구도로 인식될 수 있다.
디바이스(100)는 심미성 평가 점수를 나타내는 제3 UI(1466)을 제1 사진(1440) 상에 오버레이하여 디스플레이할 수 있다. 일 실시예에서, 디바이스(100)는 기 획득된 학습 네트워크 모델을 이용하여 제1 사진(1440)의 심미성 평가 점수를 예측하고, 예측한 심미성 평가 점수를 나타내는 사용자 인터페이스인 제3 UI(1464)를 디스플레이할 수 있다. 도 14d에 도시된 제3 UI(1466)는 심미성 예측 점수를 별의 개수를 통해 나타내고 있으나, 이는 GUI의 일 예시일뿐, 이에 한정되지 않는다. 일 실시예에서, 제4 UI(1466)는 심미성 예측 점수를 숫자, 문자, 기호, 도형, 그래프 등 다양한 형태의 GUI로 표시할 수 있다.
도 15는 본 개시의 일 실시예에 따른 디바이스(1000)의 구성 요소를 도시한 블록도이다. 도 15에 도시된 디바이스(1000)는 본 개시의 도 1 내지 도 14에 걸쳐 설명된 디바이스(100)과 동일한 디바이스일 수 있다. 디바이스(1000)는 스마트 글래스(Smart Glass)와 같이 웨어러블 디바이스(wearable device)일 수 있지만, 이에 한정되는 것은 아니다. 디바이스(1000)는 예를 들어, 스마트 폰, 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 영상 전화기, 액션 캠(action cam), 웨어러블 캠(wearable cam), 및 로봇(robot) 중 적어도 하나를 포함할 수 있다.
디바이스(1000)는 카메라(1010), 제어부(1020), 저장부(1050) 및 디스플레이부(1060)를 포함할 수 있다.
카메라(1010)는 피사체를 촬영하는 렌즈(lens), 하나 이상의 이미지 센서(예를 들어, 전면 센서 또는 후면 센서), 이미지 센서, 또는 플래시(예: LED 또는 xenon lamp 등)를 포함할 수 있다. 이미지 센서를 통해 캡쳐된 프리뷰 이미지는 제어부(1020) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다. 일 실시예에서, 카메라(1010)는 피사체를 기설정된 시간 구간동안 연속적으로 촬영하여, 복수의 이미지 프레임을 포함하는 프리뷰 이미지를 획득할 수 있다.
제어부(1020)는 프로세서(1030) 및 메모리(1040)를 포함할 수 있다. 프로세서(1030)는 메모리(1040)에 저장된 프로그램의 하나 이상의 명령어들(instructions)을 실행할 수 있다. 프로세서(1030)는 산술, 로직 및 입출력 연산과 시그널 프로세싱을 수행하는 하드웨어 구성 요소로 구성될 수 있다.
프로세서(1030)는 예를 들어, 중앙 처리 장치(Central Processing Unit), 마이크로 프로세서(microprocessor), 그래픽 프로세서(Graphic Processing Unit), ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), 및 FPGAs(Field Programmable Gate Arrays) 중 적어도 하나의 하드웨어로 구성될 수 있으나, 이에 제한되는 것은 아니다.
이하의 실시예에서, 프로세서(1030)에 의해 수행되는 기능 및/또는 동작들은 메모리(1040)와 같은 기록 장치에 저장된 컴퓨터 프로그램 코드에 따라 수신되는 명령어들을 실행함으로써 구현될 수 있다.
프로세서(1030)는 카메라(1010)에 의해 촬영되어 획득된 프리뷰 이미지에서 기설정된 주요 객체 또는 주요 객체의 행동이 인식된 적어도 하나의 이미지 프레임을 검출하고, 인공지능 모델을 이용한 영상 처리를 통해 검출된 적어도 하나의 이미지 프레임으로부터 특정 순간에 관한 사진 또는 동영상을 자동으로 생성할 수 있다. 프로세서(1030)는 생성된 사진 또는 동영상을 저장부(1050)에 저장할 수 있다.
일 실시예에서, 프로세서(1030)는 프리뷰 이미지 내의 복수의 이미지 프레임에 관하여 블러(blur) 저감, 노이즈 제어, 손떨림 방지 또는 흔들림 제거와 같은 영상의 전처리(pre-processing) 작업을 수행할 수 있다.
일 실시예에서, 프로세서(1030)는 카메라(1010)가 피사체 내에서 주요 객체 또는 주요 객체의 행동을 인식하는 시점에 프리뷰 이미지의 촬영이 시작되도록 카메라(1010)를 제어할 수 있다. 프로세서(1030)는 촬영 시작 시점으로부터 기설정된 시간 구간 동안 피사체를 촬영하여 복수의 이미지 프레임을 획득할 수 있다.
일 실시예에서, 디바이스(1000)는 촬영 버튼 또는 촬영 시작 GUI(Graphic User Interface)와 같이 촬영 시작 시점을 설정하는 사용자 입력을 수신하는 사용자 입력부를 더 포함할 수 있다. 프로세서(1030)는 사용자 입력부를 통해 수신된 사용자 입력, 예를 들어 촬영 버튼을 누르는 입력에 기초하여 프리뷰 이미지의 촬영 시작 시점을 설정하고, 촬영 시작 시점으로부터 피사체를 기설정된 시간 구간 동안 촬영하여 복수의 이미지 프레임을 획득할 수 있다.
일 실시예에서, 프로세서(1030)는 프리뷰 이미지 중 주요 객체 또는 주요 객체의 행동이 검출된 적어도 하나의 이미지 프레임의 구도의 타입(type)을 인식할 수 있다. 프로세서(1030)는 복수의 사진을 입력으로 하고, 구도의 타입에 관한 라벨값을 출력으로 하는 제1 심층 신경망(DNN)을 통한 학습(training)을 수행하여 획득된 제1 학습 네트워크 모델을 이용하여, 적어도 하나의 이미지 프레임의 구도의 타입을 인식할 수 있다. 프로세서(1030)는 예를 들어, 컨볼루션 신경망 모델(CNN) 또는 재귀 신경망 모델(RNN)와 같은 공지의 심층 신경망 모델(DNN)을 이용하는 학습을 수행하는 인공지능 학습 모듈을 포함하고, 인공지능 학습 모듈을 이용하여 복수의 사진에 관한 구도의 타입을 학습하여 제1 학습 네트워크 모델을 획득할 수 있다. 그러나, 이에 한정되는 것은 아니고, 프로세서(1030)는 예를 들어 SVM(Support Vector Machine), 선형 회귀(linear regression), 로지스틱 회귀(logistic regression), 나이브 베이즈 분류(Naive Bayes), decision tree, k-nearest neighbor algorithm 등의 알고리즘을 이용하여 학습을 수행할 수도 있다. 제1 학습 네트워크 모델은 적어도 하나의 이미지 프레임을 획득하기 이전에 미리 획득될 수 있다. 제1 학습 네트워크 모델은 서버에 의해 학습될 수도 있다. 일 실시예에서, 디바이스(1000)는 통신 모듈을 더 포함하고, 디바이스(1000)는 서버에 의해 학습된 제1 학습 네트워크 모델을 통신 모듈을 통해 획득할 수 있다.
일 실시예에서, 프로세서(1030)는 인식된 구도의 타입에 따른 객체들의 배치에 기초하여 적어도 하나의 이미지 프레임으로부터 주요 객체가 포함된 영역을 잘라내어(crop), 크롭 이미지 프레임을 생성할 수 있다.
일 실시예에서, 프로세서(1030)는 크롭 이미지 프레임에 관한 심미성 평가 점수를 예측할 수 있다. 일 실시예에서, 프로세서(1030)는 복수의 사진을 입력으로 하고, 복수의 사진에 관하여 기 평가된 심미성 점수를 정규화한 값을 출력으로 하는 제2 심층 신경망을 통한 학습을 수행하여 획득된 제2 학습 네트워크 모델을 이용하여, 크롭 이미지 프레임의 심미성 평가 점수를 예측할 수 있다. 일 실시예에서, 프로세서(1030)는 예를 들어, 컨볼루션 신경망 모델(CNN) 또는 재귀 신경망 모델(RNN)과 같은 공지의 심층 신경망 모델(DNN)에 약 25만 장의 사진 각각에 대하여 200명의 평가자가 사진의 심미성에 관하여 평가한 점수에 관한 데이터인 AVA 데이터 셋(Aesthetic Visual Analysis)을 입력하여 학습할 수 있다. 제2 학습 네트워크 모델은 서버에 의해 학습될 수도 있다. 일 실시예에서, 디바이스(1000)는 통신 모듈을 더 포함하고, 디바이스(1000)는 서버에 의해 학습된 제2 학습 네트워크 모델을 통신 모듈을 통해 획득할 수 있다.
프로세서(1030)는 제2 학습 네트워크 모델에 크롭 이미지 프레임을 입력하여, 크롭 이미지 프레임의 심미성 평가 점수를 예측할 수 있다.
일 실시예에서, 프로세서(1030)는 심미성 평가 점수가 기준값 보다 낮게 예측된 경우, 크롭 이미지 프레임의 밝기, 선명도, 채도, 대비 및 HDR을 포함하는 이미지 품질 파라미터 중 적어도 하나를 조절하여 심미성이 향상된 전문가 수준의 사진을 생성할 수 있다. 일 실시예에서, 프로세서(1030)는 원본 사진과 심미성이 향상된 사진 간의 로스(loss)를 나타내는 모델 파라미터를 학습하여 획득된 제3 학습 네트워크 모델을 이용하여, 크롭 이미지 프레임의 이미지 품질 파라미터를 조절하고, 심미성이 향상된 전문가 수준의 사진을 생성할 수 있다. 일 실시예에서, 프로세서(1030)는 원본 사진과 심미성이 향상된 사진 간의 로스 파라미터를 획득하고, 제3 심층 신경망을 이용한 학습을 통해 로스 파라미터로부터 크롭 이미지 프레임의 왜곡 정도를 예측할 수 있다. 일 실시예에서, 프로세서(1030)는 왜곡 정도를 나타내는 파라미터의 역(inverse) 왜곡 파라미터를 계산하고, 계산된 역 왜곡 파라미터를 크롭 이미지 프레임에 적용하여 이미지 품질 파라미터가 조절된 전문가 수준의 사진을 생성할 수 있다.
일 실시예에서, 프로세서(1030)는 프리뷰 이미지 내의 적어도 하나의 이미지 프레임으로부터 주요 객체의 행동을 인식하고, 인식된 주요 객체의 행동이 기설정된 행동 카테고리에 매칭되는 정도를 분석하여, 적어도 하나의 이미지 프레임의 하이라이트 평가 점수를 예측할 수 있다. 일 실시예에서, 프로세서(1030)는 사전 정의된 객체의 주요 행동, 예를 들어, 미소 짓기, 춤추기, 달리기, 먹기, 키스하기, 운동하기, 바라보기 등을 포함하는 수많은 이미지들을 입력으로 하고, 행동 카테고리에 관한 라벨값을 출력으로 하는 심층 신경망을 이용하는 학습을 통해 학습 네트워크 모델을 획득하고, 획득한 학습 네트워크 모델을 이용하여 적어도 하나의 이미지 프레임 내의 주요 객체의 행동을 분석할 수 있다. 프로세서(1030)는 컨볼루션 신경망 모델(CNN) 또는 재귀 신경망 모델(RNN)과 같은 공지의 심층 신경망 모델을 이용하는 학습(training)을 수행하여, 학습 네트워크 모델을 획득할 수 있다. 그러나, 이에 한정되는 것은 아니고, 프로세서(1030)는 예를 들어 SVM(Support Vector Machine), 선형 회귀(linear regression), 로지스틱 회귀(logistic regression), 나이브 베이즈 분류(Naive Bayes), decision tree, k-nearest neighbor algorithm 등의 알고리즘을 이용하여 학습할 수도 있다. 일 실시예에서, 주요 객체의 행동에 관한 학습은 프로세서(1030)가 아닌, 서버에 의해 수행될 수도 있다. 일 실시예에서, 디바이스(1000)는 통신 모듈을 더 포함하고, 디바이스(1000)는 서버에 의해 학습된 제2 학습 네트워크 모델을 통신 모듈을 통해 획득할 수 있다.
일 실시예에서, 프로세서(1030)는 예측된 하이라이트 평가 점수가 기준값 이상인 이미지 프레임의 프레임 번호 또는 이미지 프레임의 시간 구간을 결정하고, 결정된 프레임 번호 또는 시간 구간에 해당되는 적어도 하나의 이미지 프레임을 이용하여 숏 클립 동영상을 생성할 수 있다.
메모리(1040)는 하나 이상의 명령어들을 포함하는 프로그램을 저장할 수 있다. 메모리(1040)는 예를 들어, 플래시 메모리 타입(flash memory type), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 하드웨어 장치를 포함할 수 있다.
저장부(1050)는 프로세서(1030)에 의해 생성된 사진 또는 동영상을 저장할 수 있다. 저장부(1050)는 예를 들어, 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 자기 메모리, 자기 디스크, 및 광디스크 중 적어도 하나의 타입의 저장 매체로 구성될 수 있으나, 전술한 예시로 한정되는 것은 아니다.
디스플레이부(1060)는 프로세서(1030)의 제어에 의해, 프리뷰 이미지를 디스플레이하거나, 생성된 사진 또는 동영상을 디스플레이할 수 있다. 디스플레이부(1060)는 프로세서(1030)에 의해 생성된 전문가 수준의 사진 또는 숏 클립 이미지에 관한 썸네일 이미지를 디스플레이할 수 있다.
디스플레이부(1060)는 예를 들어, LCD 디스플레이, PDP 디스플레이, OLED 디스플레이, FED 디스플레이, LED 디스플레이, VFD 디스플레이, DLP(Digital Light Processing) 디스플레이, 평판 디스플레이(Flat Panel Display), 3D 디스플레이, 및 투명 디스플레이 중 적어도 하나를 포함하는 물리적 장치로 구성될 수 있으나, 이에 한정되는 것은 아니다. 일 실시예에서, 디바이스(1000)가 스마트 글래스인 경우, 디스플레이부(1060)는 안경의 렌즈 부분과 통합되어, 증강 현실과 관련된 이미지들을 디스플레이할 수 있다. 일 실시예에서, 디스플레이부(1060)는 터치 인터페이스를 포함하는 터치스크린으로 구성될 수도 있다.
도 16은 본 개시의 일 실시예에 따른 프로세서(1030)의 블록도이다.
도 16을 참조하면, 일 실시예에 따른 프로세서(1030)는 데이터 학습부(1031) 및 데이터 인식부(1032)를 포함할 수 있다.
데이터 학습부(1031)는 이미지 프레임을 분석하기 위한 기준을 학습할 수 있다. 여기서, '이미지 프레임의 분석'은 이미지 프레임으로부터 주요 객체 또는 주요 객체의 행동을 인식하거나, 이미지 프레임의 구도의 타입을 인식하거나, 또는 이미지 프레임의 심미성 평가 점수를 예측하는 것과 같이 본 개시에서 학습을 통하여 인식되거나, 분석되거나, 예측되는 것들에 관한 개념을 포괄할 수 있다. 데이터 학습부(1031)는 이미지 프레임을 분석하기 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 이미지 프레임을 어떻게 분석할지에 관한 기준을 학습할 수 있다. 데이터 학습부(1031)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써, 이미지 프레임의 분석을 위한 기준을 학습할 수 있다.
데이터 인식부(1032)는 데이터에 기초하여 이미지 프레임을 분석할 수 있다. 데이터 인식부(1032)는 학습된 데이터 인식 모델을 이용하여, 소정의 이미지 데이터로부터 주요 객체 또는 주요 객체의 행동을 인식하거나, 구도의 타입을 인식하거나, 심미성 평가 점수를 예측하는 등의 인식 과정을 수행할 수 있다. 데이터 인식부(1032)는 학습에 의한 기 설정된 기준에 따라 소정의 데이터를 획득하고, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델을 이용함으로써, 소정의 데이터에 기초한 이미지 분석을 수행할 수 있다. 또한, 획득된 데이터를 입력 값으로 하여 데이터 인식 모델에 의해 출력된 결과 값은, 데이터 인식 모델을 갱신하는데 이용될 수 있다.
데이터 학습부(1031) 및 데이터 인식부(1032) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1031) 및 데이터 인식부(1032) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 디바이스(1000)에 탑재될 수도 있다.
데이터 학습부(1031) 및 데이터 인식부(1032)는 하나의 디바이스(1000)에 탑재될 수도 있으며, 또는 별개의 디바이스들에 탑재될 수도 있다. 예를 들어, 데이터 학습부(1031) 및 데이터 인식부(1032) 중 하나는 디바이스(1000)에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1031) 및 데이터 인식부(1032)는 유선 또는 무선으로 통하여, 데이터 학습부(1031)가 구축한 학습 네트워크 모델 파라미터를 데이터 인식부(1032)로 제공할 수도 있고, 데이터 인식부(1032)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1031)로 제공될 수도 있다.
한편, 데이터 학습부(1031) 및 데이터 인식부(1032) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1031) 및 데이터 인식부(1032) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 17은 본 개시의 일 실시예에 따른 데이터 학습부(1031)의 블록도이다.
도 17을 참조하면, 일 실시예에 따른 데이터 학습부(1031)는 데이터 획득부(1031-1), 전처리부(1031-2), 학습 데이터 선택부(1031-3), 모델 학습부(1031-4) 및 모델 평가부(1031-5)를 포함할 수 있다.
데이터 획득부(1031-1)는 학습에 필요한 데이터를 획득할 수 있다. 데이터 획득부(1031-1)는 복수의 사진 또는 동영상을 획득할 수 있다. 데이터 획득부(1031-1)는 디바이스(1000)의 카메라(1010) 또는 데이터 학습부(1031)를 포함하는 디바이스(1000)와 통신 가능한 외부의 카메라로부터 사진 또는 동영상을 입력받을 수 있다. 데이터 획득부(1031-1)는 통신 네트워크를 통해 외부 서버로부터 사진 또는 동영상을 수신할 수도 있다.
전처리부(1031-2)는 획득된 데이터가 학습에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1031-2)는 후술할 모델 학습부(1031-4)가 학습을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다. 예를 들어, 전처리부(1031-2)는 구도의 타입(type), 심미성 평가 점수 등을 특정 차원을 갖는 매트리스로 구성된 라벨값(label)으로 가공할 수 있다.
학습 데이터 선택부(1031-3)는 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(1031-4)에 제공될 수 있다. 학습 데이터 선택부(1031-3)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(1031-3)는 후술할 모델 학습부(1031-4)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.
모델 학습부(1031-4)는 학습 데이터에 기초하여 구도의 타입을 인식하거나, 또는 심미성 평가 점수를 예측하는 기준을 학습할 수 있다.
또한, 모델 학습부(1031-4)는 데이터 인식 모델을 학습 데이터로 이용하여 학습시킬 수 있다. 이 경우, 데이터 인식 모델은 미리 구축된 모델일 수 있다.
데이터 인식 모델은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 데이터 인식 모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, CNN(Convolutional Neural Network), DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 데이터 인식 모델로서 사용될 수 있으나, 이에 한정되지 않는다.
다양한 실시예에 따르면, 모델 학습부(1031-4)는 미리 구축된 데이터 인식 모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 인식 모델을 학습할 데이터 인식 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 인식 모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.
또한, 모델 학습부(1031-4)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 인식 모델을 학습시킬 수 있다.
또한, 모델 학습부(1031-4)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 데이터 인식 모델을 학습시킬 수 있다. 또한, 모델 학습부(1031-4)는, 예를 들어, 별다른 지도없이 필요한 데이터의 종류를 스스로 학습하는 비지도 학습(unsupervised learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다. 또한, 모델 학습부(1031-4)는, 예를 들어, 학습에 따른 이미지 프레임의 분석 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다.
또한, 데이터 인식 모델이 학습되면, 모델 학습부(1031-4)는 학습된 데이터 인식 모델을 저장할 수 있다. 이 경우, 모델 학습부(1031-4)는 학습된 데이터 인식 모델을 데이터 인식부(1320)를 포함하는 디바이스(1000)의 메모리(1040)에 저장할 수 있다. 또는, 모델 학습부(1031-4)는 학습된 데이터 인식 모델을 후술할 데이터 인식부(1032)를 포함하는 디바이스(1000)의 메모리(1040)에 저장할 수 있다. 또는, 모델 학습부(1031-4)는 학습된 데이터 인식 모델을 디바이스(1000)와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.
이 경우, 학습된 데이터 인식 모델이 저장되는 메모리는, 예를 들면, 디바이스(1000)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리(1040)는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.
모델 평가부(1031-5)는 데이터 인식 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1031-4)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 인식 모델을 평가하기 위한 기 설정된 데이터일 수 있다.
예를 들어, 모델 평가부(1031-5)는 평가 데이터에 대한 학습된 데이터 인식 모델의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 데이터 인식 모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(1031-5)는 학습된 데이터 인식 모델이 적합하지 않은 것으로 평가할 수 있다.
한편, 학습된 데이터 인식 모델이 복수 개가 존재하는 경우, 모델 평가부(1031-5)는 각각의 학습된 동영상 인식 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 데이터 인식 모델로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(1031-5)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 데이터 인식 모델로서 결정할 수 있다.
한편, 데이터 학습부(1031) 내의 데이터 획득부(1031-1), 전처리부(1031-2), 학습 데이터 선택부(1031-3), 모델 학습부(1031-4) 및 모델 평가부(1031-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 디바이스(1000)에 탑재될 수 있다. 예를 들어, 데이터 획득부(1031-1), 전처리부(1031-2), 학습 데이터 선택부(1031-3), 모델 학습부(1031-4) 및 모델 평가부(1031-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 디바이스(1000)에 탑재될 수도 있다.
또한, 데이터 획득부(1031-1), 전처리부(1031-2), 학습 데이터 선택부(1031-3), 모델 학습부(1031-4) 및 모델 평가부(1031-5)는 하나의 디바이스(1000)에 탑재될 수도 있으며, 또는 별개의 디바이스들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1031-1), 전처리부(1031-2), 학습 데이터 선택부(1031-3), 모델 학습부(1031-4) 및 모델 평가부(1031-5) 중 일부는 디바이스(1000)에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터 획득부(1031-1), 전처리부(1031-2), 학습 데이터 선택부(1031-3), 모델 학습부(1031-4) 및 모델 평가부(1031-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1031-1), 전처리부(1031-2), 학습 데이터 선택부(1031-3), 모델 학습부(1031-4) 및 모델 평가부(1031-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 18은 본 개시의 일 실시예에 따른 데이터 인식부(1032)의 블록도이다.
도 18을 참조하면, 일 실시예에 따른 데이터 인식부(1032)는 데이터 획득부(1032-1), 전처리부(1032-2), 인식 데이터 선택부(1032-3), 인식 결과 제공부(1032-4) 및 모델 갱신부(1032-5)를 포함할 수 있다.
데이터 획득부(1032-1)는 이미지 프레임의 분석에 필요한 데이터를 획득할 수 있으며, 전처리부(1032-2)는 이미지 프레임의 분석을 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1032-2)는 후술할 인식 결과 제공부(1032-4)가 이미지 프레임의 분석을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.
인식 데이터 선택부(1032-3)는 전처리된 데이터 중에서 이미지 프레임의 분석에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1032-4)에게 제공될 수 있다. 인식 데이터 선택부(1032-3)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 인식 데이터 선택부(1032-3)는 후술할 모델 학습부(1310-4)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.
인식 결과 제공부(1032-4)는 선택된 데이터를 데이터 인식 모델에 적용하여 이미지 프레임을 분석할 수 있다. 인식 결과 제공부(1032-4)는 데이터의 인식 목적에 따른 인식 결과를 제공할 수 있다. 인식 결과 제공부(1032-4)는 인식 데이터 선택부(1032-3)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 데이터 인식 모델에 적용할 수 있다. 또한, 인식 결과는 데이터 인식 모델에 의해 결정될 수 있다.
모델 갱신부(1032-5)는 인식 결과 제공부(1032-4)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 데이터 인식 모델이 갱신되도록할 수 있다. 예를 들어, 모델 갱신부(1032-5)는 인식 결과 제공부(1032-4)에 의해 제공되는 인식 결과를 모델 학습부(1310-4)에게 제공함으로써, 모델 학습부(1310-4)가 데이터 인식 모델을 갱신하도록 할 수 있다.
한편, 데이터 인식부(1032) 내의 데이터 획득부(1032-1), 전처리부(1032-2), 인식 데이터 선택부(1032-3), 인식 결과 제공부(1032-4) 및 모델 갱신부(1032-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 디바이스(1000)에 탑재될 수 있다. 예를 들어, 데이터 획득부(1032-1), 전처리부(1032-2), 인식 데이터 선택부(1032-3), 인식 결과 제공부(1032-4) 및 모델 갱신부(1032-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 디바이스에 탑재될 수도 있다.
또한, 데이터 획득부(1032-1), 전처리부(1032-2), 인식 데이터 선택부(1032-3), 인식 결과 제공부(1032-4) 및 모델 갱신부(1032-5)는 하나의 디바이스(1000)에 탑재될 수도 있으며, 또는 별개의 디바이스들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1032-1), 전처리부(1032-2), 인식 데이터 선택부(1032-3), 인식 결과 제공부(1032-4) 및 모델 갱신부(1032-5) 중 일부는 디바이스(1000)에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터 획득부(1032-1), 전처리부(1032-2), 인식 데이터 선택부(1032-3), 인식 결과 제공부(1032-4) 및 모델 갱신부(1032-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1032-1), 전처리부(1032-2), 인식 데이터 선택부(1032-3), 인식 결과 제공부(1032-4) 및 모델 갱신부(1032-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 19는 본 개시의 일 실시예에 따른 디바이스(1000) 및 서버(1100)가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.
도 19를 참조하면, 서버(1100)는 학습을 통해 획득한 학습 네트워크 모델을 디바이스(1000)에 제공할 수 있다.
이 경우, 서버(1100)의 모델 학습부(1134)는 도 16에 도시된 데이터 학습부(1031)의 기능을 수행할 수 있다. 서버(1100)의 모델 학습부(1134)는 소정의 이미지 프레임의 분석을 위하여 어떤 데이터를 이용할 지, 데이터를 이용하여 이미지 프레임의 분석을 어떻게 할 지에 관한 기준을 학습할 수 있다. 모델 학습부(1134)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써, 이미지 분석을 위한 기준을 학습할 수 있다.
또한, 디바이스(1000)의 인식 결과 제공부(1032-4)는 인식 데이터 선택부(1032-3)에 의해 선택된 데이터를 서버(1100)에 의해 생성된 데이터 인식 모델에 적용하여 이미지 프레임을 분석할 수 있다. 예를 들어, 인식 결과 제공부(1032-4)는 인식 데이터 선택부(1032-3)에 의해 선택된 데이터를 서버(1100)에게 전송하고, 서버(1100)가 인식 데이터 선택부(1032-3)에 의해 선택된 데이터를 인식 모델에 적용하여 이미지 프레임을 분석할 것을 요청할 수 있다. 또한, 인식 결과 제공부(1032-4)는 서버(1100)에 의해 분석된 이미지 프레임의 각종 정보를 서버(1100)로부터 수신할 수 있다.
또는, 디바이스(1000)의 인식 결과 제공부(1032-4)는 서버(1100)에 의해 생성된 인식 모델을 서버(1100)로부터 수신하고, 수신된 인식 모델을 이용하여 이미지 프레임을 분석할 수 있다. 이 경우, 디바이스(1000)의 인식 결과 제공부(1032-4)는 인식 데이터 선택부(1032-3)에의해 선택된 데이터를 서버(1100)로부터 수신된 데이터 인식 모델에 적용하여 이미지 프레임을 분석할 수 있다.
도 20은 본 개시의 일 실시예에 따른 디바이스(2000)의 구성 요소를 도시한 블록도이다.
도 20에 도시된 디바이스(2000)는 도 1 내지 도 15에서 설명한 디바이스(100, 1000)와 동일한 구성 요소를 포함할 수 있다. 예를 들어, 도 20에 도시된 구성 요소 중 제어부(2300)는 도 15에 도시된 프로세서(1030)과 동일하고, 카메라(2610)는 도 15에 도시된 카메라(1010)와 동일할 수 있다.
도 20에 도시된 디바이스(2000)는 도 1 내지 도 15에서 설명한 디바이스(100, 1000)의 동작 및 기능들을 모두 수행할 수 있다. 따라서, 이하에서는 지금까지 설명되지 않았던 디바이스(2000)의 구성 요소들에 대하여 설명하기로 한다.
도 20를 참조하면, 디바이스(2000)는 사용자 입력부(2100), 출력부(2200), 제어부(2300), 센싱부(2400), 통신부(2500), A/V 입력부(2600), 및 메모리(2700)를 포함할 수 있다.
사용자 입력부(2100)는, 사용자가 디바이스(2000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(2100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다. 사용자 입력부(2100)는, 사용자에게 제공할 대화 정보를 생성하기 위하여 필요한 사용자 입력을 수신할 수 있다.
출력부(2200)는 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(2200)는 디스플레이부(2210), 음향 출력부(2220), 및 진동 모터(2230)를 포함할 수 있다.
진동 모터(2230)는 진동 신호를 출력할 수 있다. 예를 들어, 진동 모터(2230)는 오디오 데이터 또는 비디오 데이터(예컨대, 호신호 수신음, 메시지 수신음 등)의 출력에 대응하는 진동 신호를 출력할 수 있다.
센싱부(2400)는, 디바이스(2000)의 상태 또는 디바이스(2000) 주변의 상태를 감지하고, 감지된 정보를 제어부(2300)로 전달할 수 있다.
센싱부(2400)는, 지자기 센서(Magnetic sensor)(2410), 가속도 센서(Acceleration sensor)(2420), 온/습도 센서(2430), 적외선 센서(2440), 자이로스코프 센서(2450), 위치 센서(예컨대, GPS)(2460), 기압 센서(2470), 근접 센서(2480), 및 RGB 센서(illuminance sensor)(2490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 각 센서들의 기능은 그 명칭으로부터 당업자가 직관적으로 추론할 수 있으므로, 구체적인 설명은 생략하기로 한다.
통신부(2500)는, 다른 디바이스와의 통신을 수행하기 위한 구성 요소를 포함할 수 있다. 예를 들어, 통신부(2500)는, 근거리 통신부(2510), 이동 통신부(2520), 방송 수신부(2530)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(251)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부(2520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
방송 수신부(2530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 디바이스(2000)가 방송 수신부(2530)를 포함하지 않을 수도 있다.
또한, 통신부(2500)는, 제1 사용자에게 제공할 대화 정보를 생성하기 위하여 필요한 정보를, 제2 대화형 전자 장치(3000), 다른 디바이스 및 서버와 송수신할 수 있다.
A/V(Audio/Video) 입력부(2600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(2610)와 마이크로폰(2620) 등이 포함될 수 있다. 카메라(2610)은 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 제어부(2300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.
카메라(2610)에서 처리된 화상 프레임은 메모리(2700)에 저장되거나 통신부(2500)를 통하여 외부로 전송될 수 있다. 카메라(2610)는 단말기의 구성 태양에 따라 2개 이상이 구비될 수도 있다.
마이크로폰(2620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 예를 들어, 마이크로폰(2620)은 외부 디바이스 또는 화자로부터 음향 신호를 수신할 수 있다. 마이크로폰(2620)는 외부의 음향 신호를 입력 받는 과정에서 발생 되는 잡음(noise)를 제거하기 위한 다양한 잡음 제거 알고리즘을 이용할 수 있다.
메모리(2700)는, 제어부(2300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 디바이스(2000)로 입력되거나 디바이스(2000)로부터 출력되는 데이터를 저장할 수도 있다.
메모리(2700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(2700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(2710), 터치 스크린 모듈(2720), 알림 모듈(2730) 등으로 분류될 수 있다.
UI 모듈(2710)은, 애플리케이션 별로 디바이스(2000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(2720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 제어부(2300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(2720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(2720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.
알림 모듈(2730)은 디바이스(2000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다. 디바이스(2000)에서 발생되는 이벤트의 예로는 호 신호 수신, 메시지 수신, 키 신호 입력, 일정 알림 등이 있다. 알림 모듈(2730)은 디스플레이부(2210)를 통해 비디오 신호 형태로 알림 신호를 출력할 수도 있고, 음향 출력부(2220)를 통해 오디오 신호 형태로 알림 신호를 출력할 수도 있고, 진동 모터(2230)를 통해 진동 신호 형태로 알림 신호를 출력할 수도 있다.
본 개시에서 설명된 디바이스(100, 1000, 2000)는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 개시된 실시예들에서 설명된 디바이스(100, 1000, 2000)는 프로세서, ALU(arithmetic logic unit), ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), 마이크로컴퓨터, 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.
소프트웨어는, 컴퓨터로 읽을 수 있는 저장 매체(computer-readable storage media)에 저장된 명령어를 포함하는 컴퓨터 프로그램으로 구현될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체로는, 예를 들어 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD, Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.
컴퓨터는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 개시된 실시예에 따른 동작이 가능한 장치로서, 개시된 실시예들에 따른 디바이스(100, 1000, 2000)를 포함할 수 있다.
컴퓨터로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 개시된 실시예들에 따른 디바이스(100, 1000, 2000) 또는 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.
컴퓨터 프로그램 제품은 소프트웨어 프로그램, 소프트웨어 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 디바이스(100, 1000, 2000)의 제조사 또는 전자 마켓(예를 들어, 구글 플레이 스토어, 앱 스토어)을 통해 전자적으로 배포되는 소프트웨어 프로그램 형태의 상품(예를 들어, 다운로드 가능한 애플리케이션(downloadable application))을 포함할 수 있다. 전자적 배포를 위하여, 소프트웨어 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사의 서버, 전자 마켓의 서버, 또는 소프트웨어 프로그램을 임시적으로 저장하는 중계 서버의 저장매체가 될 수 있다.
컴퓨터 프로그램 제품은, 서버 및 단말(예로, 초음파 진단 장치)로 구성되는 시스템에서, 서버의 저장매체 또는 단말의 저장매체를 포함할 수 있다. 또는, 서버 또는 단말과 통신 연결되는 제3 장치(예, 스마트폰)가 존재하는 경우, 컴퓨터 프로그램 제품은 제3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 서버로부터 단말 또는 제3 장치로 전송되거나, 제3 장치로부터 단말로 전송되는 소프트웨어 프로그램 자체를 포함할 수 있다.
이 경우, 서버, 단말 및 제3 장치 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수 있다. 또는, 서버, 단말 및 제3 장치 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 분산하여 실시할 수 있다.
예를 들면, 서버(예로, 클라우드 서버 또는 인공 지능 서버 등)가 서버에 저장된 컴퓨터 프로그램 제품을 실행하여, 서버와 통신 연결된 단말이 개시된 실시예들에 따른 방법을 수행하도록 제어할 수 있다.
또 다른 예로, 제3 장치가 컴퓨터 프로그램 제품을 실행하여, 제3 장치와 통신 연결된 단말이 개시된 실시예에 따른 방법을 수행하도록 제어할 수 있다.
제3 장치가 컴퓨터 프로그램 제품을 실행하는 경우, 제3 장치는 서버로부터 컴퓨터 프로그램 제품을 다운로드하고, 다운로드된 컴퓨터 프로그램 제품을 실행할 수 있다. 또는, 제3 장치는 프리로드된 상태로 제공된 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수도 있다.
또한, 이상에서는 본 개시의 실시예에 대하여 도시하고 설명하였지만, 본 개시는 전술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 전자 장치, 구조, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (15)

  1. 특정 순간에 관한 사진을 자동으로 촬영하는 방법에 있어서,
    카메라를 통해 기설정된 시간 구간동안 연속적으로 촬영된 복수의 이미지 프레임을 포함하는 상기 프리뷰(preview) 이미지를 획득하는 단계;
    상기 프리뷰 이미지에서 기설정된 주요 객체(object) 또는 상기 주요 객체의 행동(action)이 인식된 적어도 하나의 이미지 프레임을 검출하는 단계;
    상기 적어도 하나의 이미지 프레임의 구도의 타입(type)을 인식하는 단계;
    상기 인식된 구도의 타입에 따른 객체들의 배치에 기초하여, 상기 적어도 하나의 이미지 프레임으로부터 상기 주요 객체가 포함된 영역을 잘라내는(crop) 단계; 및
    상기 잘라낸 영역을 이용하여 사진을 생성하는 단계;를 포함하는, 방법.
  2. 제1 항에 있어서,
    상기 사진을 생성하는 단계는,
    상기 잘라낸 영역만을 포함하는 크롭 이미지 프레임의 밝기, 선명도, 채도, 대비, 및 HDR(High Dynamic Range)을 포함하는 이미지 품질 파라미터 중 적어도 하나를 조절하여 상기 크롭 이미지 프레임의 심미성을 향상시키는 단계; 및
    상기 심미성이 향상된 이미지 프레임을 이용하여 상기 사진을 생성하는 단계;
    를 포함하는, 방법.
  3. 제1 항에 있어서,
    상기 적어도 하나의 이미지 프레임의 구도의 타입(type)을 인식하는 단계는, 복수의 사진을 입력으로 하고, 구도의 타입에 관한 라벨값을 출력으로 하는 제1 심층 신경망(Deep Neural Network)을 통한 학습(training)을 수행하여 획득된 제1 학습 네트워크 모델을 이용하여, 상기 적어도 하나의 이미지 프레임의 구도의 타입을 인식하는, 방법.
  4. 제2 항에 있어서,
    상기 사진을 생성하는 단계는, 상기 크롭 이미지 프레임에 관한 심미성 평가 점수를 예측하는 단계;
    를 더 포함하고,
    상기 심미성을 향상시키는 단계는, 상기 예측된 심미성 평가 점수에 기초하여 상기 크롭 이미지 프레임의 이미지 품질 파라미터 중 적어도 하나를 조절하는, 방법.
  5. 제4 항에 있어서,
    상기 심미성 평가 점수를 예측하는 단계는, 복수의 사진을 입력으로 하고, 상기 복수의 사진에 관하여 기 평가된 심미성 점수를 정규화한 값을 출력으로 하는 제2 심층 신경망을 통한 학습을 수행하여 획득된 제2 학습 네트워크 모델을 이용하여, 상기 크롭 이미지 프레임의 심미성 평가 점수를 예측하는, 방법.
  6. 제2 항에 있어서,
    상기 심미성을 향상시키는 단계는, 원본 사진과 심미성이 향상된 사진 간의 로스(loss)를 나타내는 모델 파라미터를 학습하여 획득된 제3 학습 네트워크 모델을 이용하여, 상기 크롭 이미지 프레임의 이미지 파라미터 중 적어도 하나를 조절하는, 방법.
  7. 제1 항에 있어서,
    상기 생성된 사진을 디스플레이하는 단계;
    를 더 포함하고,
    상기 사진을 디스플레이하는 단계는, 상기 사진 상에 구도의 가이드라인, 구도의 타입에 관한 히스토그램, 및 심미성 예측 점수 중 적어도 하나의 사용자 인터페이스(User Interface)를 오버레이(overlay)하여 디스플레이하는, 방법.
  8. 특정 순간에 관한 사진을 자동으로 촬영하는 디바이스에 있어서,
    피사체를 기설정된 시간 구간동안 연속적으로 촬영하여, 복수의 이미지 프레임을 포함하는 프리뷰 이미지를 획득하는 카메라;
    하나 이상의 명령어들(instructions)을 포함하는 프로그램을 저장하는 메모리;
    상기 메모리에 저장된 프로그램의 하나 이상의 명령어들을 실행하는 프로세서; 및
    상기 프리뷰 이미지를 저장하는 저장부;
    를 포함하고,
    상기 프로세서는, 상기 프리뷰 이미지에서 기설정된 주요 객체(object) 또는 상기 주요 객체의 행동(action)이 인식된 적어도 하나의 이미지 프레임을 검출하고, 상기 적어도 하나의 이미지 프레임의 구도의 타입(type)을 인식하고, 상기 인식된 구도의 타입에 따른 객체들의 배치에 기초하여, 상기 적어도 하나의 이미지 프레임으로부터 상기 주요 객체가 포함된 영역을 잘라내고(crop), 상기 잘라낸 영역을 이용하여 사진을 생성하고, 상기 생성된 사진을 상기 저장부에 저장하는, 디바이스.
  9. 제8 항에 있어서,
    상기 프로세서는, 상기 잘라낸 영역만을 포함하는 크롭 이미지 프레임의 밝기, 선명도, 채도, 대비, 및 HDR(High Dynamic Range)을 포함하는 이미지 품질 파라미터 중 적어도 하나를 조절하여 상기 크롭 이미지 프레임의 심미성을 향상시키고, 상기 심미성이 향상된 이미지 프레임을 이용하여 상기 사진을 생성하는, 디바이스.
  10. 제8 항에 있어서,
    상기 프로세서는, 복수의 사진을 입력으로 하고, 구도의 타입에 관한 라벨값을 출력으로 하는 제1 심층 신경망(Deep Neural Network)을 통한 학습(training)을 수행하여 획득된 제1 학습 네트워크 모델을 이용하여, 상기 적어도 하나의 이미지 프레임의 구도의 타입을 인식하는, 디바이스.
  11. 제9 항에 있어서,
    상기 프로세서는, 상기 크롭 이미지 프레임에 관한 심미성 평가 점수를 예측하고, 상기 예측된 심미성 평가 점수에 기초하여 상기 크롭 이미지 프레임의 이미지 품질 파라미터 중 적어도 하나를 조절하는, 디바이스.
  12. 제11 항에 있어서,
    상기 프로세서는, 복수의 사진을 입력으로 하고, 상기 복수의 사진에 관하여 기 평가된 심미성 점수를 정규화한 값을 출력으로 하는 제2 심층 신경망을 통한 학습을 수행하여 획득된 제2 학습 네트워크 모델을 이용하여, 상기 크롭 이미지 프레임의 심미성 평가 점수를 예측하는, 디바이스.
  13. 제9 항에 있어서,
    상기 프로세서는, 원본 사진과 심미성이 향상된 사진 간의 로스(loss)를 나타내는 모델 파라미터를 학습하여 획득된 제3 학습 네트워크 모델을 이용하여, 상기 크롭 이미지 프레임의 이미지 품질 파라미터 중 적어도 하나를 조절하는, 디바이스.
  14. 제8 항에 있어서,
    상기 생성된 사진 동영상을 디스플레이하는 디스플레이부;
    를 더 포함하고,
    상기 프로세서는, 상기 사진 상에 구도의 가이드라인, 구도의 타입에 관한 히스토그램, 및 심미성 예측 점수 중 적어도 하나의 사용자 인터페이스(User Interface)를 오버레이(overlay)하여 디스플레이하도록 상기 디스플레이부를 제어하는, 디바이스.
  15. 컴퓨터로 읽을 수 있는 저장 매체에 포함되는 컴퓨터 프로그램에 있어서,
    상기 저장 매체는,
    카메라를 통해 기설정된 시간 구간동안 연속적으로 촬영된 복수의 이미지 프레임을 포함하는 상기 프리뷰(preview) 이미지를 획득하는 단계;
    상기 프리뷰 이미지에서 기설정된 주요 객체(object) 또는 상기 주요 객체의 행동(action)이 인식된 적어도 하나의 이미지 프레임을 검출하는 단계;
    상기 적어도 하나의 이미지 프레임의 구도의 타입(type)을 인식하는 단계;
    상기 인식된 구도의 타입에 따른 객체들의 배치에 기초하여, 상기 적어도 하나의 이미지 프레임으로부터 상기 주요 객체가 포함된 영역을 잘라내는(crop) 단계; 및
    상기 잘라낸 영역을 이용하여 사진을 생성하는 단계;
    를 수행하는 명령어들(instructions)을 포함하는, 컴퓨터 프로그램.
PCT/KR2020/006295 2019-05-17 2020-05-13 특정 순간에 관한 사진 또는 동영상을 자동으로 촬영하는 디바이스 및 그 동작 방법 WO2020235852A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/481,987 US11977981B2 (en) 2019-05-17 2021-09-22 Device for automatically capturing photo or video about specific moment, and operation method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190058310A KR20200132569A (ko) 2019-05-17 2019-05-17 특정 순간에 관한 사진 또는 동영상을 자동으로 촬영하는 디바이스 및 그 동작 방법
KR10-2019-0058310 2019-05-17

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/481,987 Continuation US11977981B2 (en) 2019-05-17 2021-09-22 Device for automatically capturing photo or video about specific moment, and operation method thereof

Publications (1)

Publication Number Publication Date
WO2020235852A1 true WO2020235852A1 (ko) 2020-11-26

Family

ID=73458647

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/006295 WO2020235852A1 (ko) 2019-05-17 2020-05-13 특정 순간에 관한 사진 또는 동영상을 자동으로 촬영하는 디바이스 및 그 동작 방법

Country Status (3)

Country Link
US (1) US11977981B2 (ko)
KR (1) KR20200132569A (ko)
WO (1) WO2020235852A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022149784A1 (en) * 2021-01-06 2022-07-14 Samsung Electronics Co., Ltd. Method and electronic device for detecting candid moment in image frame
KR102470211B1 (ko) * 2021-01-13 2022-11-25 (주)비케이 동적 영상 촬영 방법
CN115119044B (zh) * 2021-03-18 2024-01-05 阿里巴巴新加坡控股有限公司 视频处理方法、设备、系统及计算机存储介质
KR102485099B1 (ko) * 2021-12-21 2023-01-05 주식회사 인피닉 메타 데이터를 이용한 데이터 정제 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN117649419A (zh) * 2022-08-10 2024-03-05 北京小米移动软件有限公司 图像处理方法、装置、设备及存储介质
CN116347009B (zh) * 2023-02-24 2023-12-15 荣耀终端有限公司 视频生成方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150090456A (ko) * 2014-01-29 2015-08-06 강원대학교산학협력단 사진 구도 보정 방법
KR20160119221A (ko) * 2014-02-13 2016-10-12 구글 인코포레이티드 이미징 디바이스에서의 사진 구도 및 포지션 안내
US20180181827A1 (en) * 2016-12-22 2018-06-28 Samsung Electronics Co., Ltd. Apparatus and method for processing image
US20180249083A1 (en) * 2017-02-24 2018-08-30 Lg Electronics Inc. Mobile terminal
KR20190044761A (ko) * 2017-10-23 2019-05-02 연세대학교 산학협력단 이미지 처리 장치 및 방법

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007158868A (ja) 2005-12-07 2007-06-21 Sony Corp 画像処理装置および方法
JP4687451B2 (ja) * 2005-12-27 2011-05-25 カシオ計算機株式会社 撮像装置、及びスルー画像表示方法
US8615112B2 (en) * 2007-03-30 2013-12-24 Casio Computer Co., Ltd. Image pickup apparatus equipped with face-recognition function
KR101436326B1 (ko) 2008-07-31 2014-09-01 삼성전자주식회사 디지털 촬영장치, 그 제어방법 및 제어방법을 실행시키기위한 프로그램을 저장한 기록매체
JP2010045518A (ja) 2008-08-11 2010-02-25 Olympus Corp 画像処理装置
KR101539043B1 (ko) * 2008-10-31 2015-07-24 삼성전자주식회사 인물 구도 제안 영상 촬영 장치 및 방법
JP2011044064A (ja) * 2009-08-24 2011-03-03 Nikon Corp 画像処理装置、および画像処理プログラム
KR101795601B1 (ko) * 2011-08-11 2017-11-08 삼성전자주식회사 영상 처리 장치, 영상 처리 방법, 및 컴퓨터 판독가능 저장매체
US8660342B2 (en) * 2012-01-24 2014-02-25 Telefonica, S.A. Method to assess aesthetic quality of photographs
US9124800B2 (en) 2012-02-13 2015-09-01 Htc Corporation Auto burst image capture method applied to a mobile device, method for tracking an object applied to a mobile device, and related mobile device
KR102045957B1 (ko) * 2013-01-18 2019-11-18 삼성전자 주식회사 휴대단말의 촬영 방법 및 장치
JP6076168B2 (ja) * 2013-03-27 2017-02-08 オリンパス株式会社 撮像装置、構図アシスト装置、構図アシスト方法、及び構図アシストプログラム
US9675428B2 (en) 2013-07-12 2017-06-13 Carestream Health, Inc. Video-based auto-capture for dental surface imaging apparatus
US10019823B2 (en) * 2013-10-24 2018-07-10 Adobe Systems Incorporated Combined composition and change-based models for image cropping
US9357127B2 (en) 2014-03-18 2016-05-31 Google Technology Holdings LLC System for auto-HDR capture decision making
WO2015178520A1 (ko) * 2014-05-22 2015-11-26 엘지전자 주식회사 이동 단말기 및 그 제어방법
KR20160024143A (ko) * 2014-08-25 2016-03-04 삼성전자주식회사 영상 처리 방법 및 전자 장치
US10477162B2 (en) 2014-09-11 2019-11-12 Cooler Iot Llc Systems and methods for integrated auto-triggering image capture of enclosure interiors
JP6074395B2 (ja) * 2014-09-12 2017-02-01 富士フイルム株式会社 コンテンツ管理システム、管理コンテンツ生成方法、管理コンテンツ再生方法、プログラムおよび記録媒体
US9712751B2 (en) * 2015-01-22 2017-07-18 Apple Inc. Camera field of view effects based on device orientation and scene content
US10038836B2 (en) 2015-03-17 2018-07-31 Mediatek Inc. Automatic image capture during preview and image recommendation
KR102399049B1 (ko) 2015-07-15 2022-05-18 삼성전자주식회사 전자 장치 및 전자 장치의 이미지 처리 방법
JP6669019B2 (ja) * 2016-09-08 2020-03-18 株式会社Jvcケンウッド 車両用表示制御装置、車両用表示システム、車両用表示制御方法およびプログラム
KR101898888B1 (ko) 2016-12-05 2018-09-14 조선대학교 산학협력단 디지털 영상 촬영 장치의 자동 구도 인식 및 최적구도 가이드를 제공하는 방법 및 그 장치
US20180182215A1 (en) 2016-12-23 2018-06-28 Getac Technology Corporation Method for Auto-enabling an Information-Capturing Device and Intelligent Mobile Surveillance System
US10977509B2 (en) 2017-03-27 2021-04-13 Samsung Electronics Co., Ltd. Image processing method and apparatus for object detection
CN108664840A (zh) 2017-03-27 2018-10-16 北京三星通信技术研究有限公司 图像识别方法及装置
US10546197B2 (en) * 2017-09-26 2020-01-28 Ambient AI, Inc. Systems and methods for intelligent and interpretive analysis of video image data using machine learning
US10516830B2 (en) 2017-10-11 2019-12-24 Adobe Inc. Guided image composition on mobile devices
US10497122B2 (en) * 2017-10-11 2019-12-03 Adobe Inc. Image crop suggestion and evaluation using deep-learning
CN109697441B (zh) * 2017-10-23 2021-02-12 杭州海康威视数字技术股份有限公司 一种目标检测方法、装置及计算机设备
US10452920B2 (en) * 2017-10-31 2019-10-22 Google Llc Systems and methods for generating a summary storyboard from a plurality of image frames
US10944907B2 (en) * 2017-12-13 2021-03-09 Qualcomm Incorporated Generating an image using automatic mode settings while in manual mode
CN110012210B (zh) * 2018-01-05 2020-09-22 Oppo广东移动通信有限公司 拍照方法、装置、存储介质及电子设备
US10628708B2 (en) * 2018-05-18 2020-04-21 Adobe Inc. Utilizing a deep neural network-based model to identify visually similar digital images based on user-selected visual attributes
KR102558166B1 (ko) * 2018-08-08 2023-07-24 삼성전자주식회사 복수의 객체들을 포함하는 이미지를 보정하는 전자 장치 및 그 제어 방법
CN109523503A (zh) * 2018-09-11 2019-03-26 北京三快在线科技有限公司 一种图像裁剪的方法和装置
JP7230396B2 (ja) * 2018-09-25 2023-03-01 富士フイルムビジネスイノベーション株式会社 画像処理プログラムおよび画像処理装置、並びにプログラム
CN112585940B (zh) * 2018-10-08 2023-04-04 谷歌有限责任公司 为基于人工智能的图像捕获设备提供反馈的系统和方法
US10699150B2 (en) * 2018-10-23 2020-06-30 Polarr, Inc. Machine guided photo and video composition
US10666858B2 (en) * 2018-10-30 2020-05-26 Sony Corporation Deep-learning-based system to assist camera autofocus
CN109767397B (zh) * 2019-01-09 2022-07-12 三星电子(中国)研发中心 一种基于人工智能的图像优化方法和系统
KR101993001B1 (ko) 2019-01-16 2019-06-25 영남대학교 산학협력단 영상 하이라이트 제작 장치 및 방법
CN109977793B (zh) * 2019-03-04 2022-03-04 东南大学 基于变尺度多特征融合卷积网络的路侧图像行人分割方法
US10872258B2 (en) * 2019-03-15 2020-12-22 Huawei Technologies Co., Ltd. Adaptive image cropping for face recognition
US11947890B2 (en) * 2019-05-10 2024-04-02 Sandisk Technologies Llc Implementation of deep neural networks for testing and quality control in the production of memory devices
EP3756340A4 (en) 2019-05-14 2020-12-30 SZ DJI Technology Co., Ltd. PHOTOGRAPHY PROCESS AND APPARATUS
US11138776B2 (en) * 2019-05-17 2021-10-05 Adobe Inc. Adaptive image armatures with interactive composition guidance
KR102201858B1 (ko) * 2019-08-26 2021-01-12 엘지전자 주식회사 인공지능 기반 영상 편집 방법 및 지능형 디바이스
US10939044B1 (en) * 2019-08-27 2021-03-02 Adobe Inc. Automatically setting zoom level for image capture

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150090456A (ko) * 2014-01-29 2015-08-06 강원대학교산학협력단 사진 구도 보정 방법
KR20160119221A (ko) * 2014-02-13 2016-10-12 구글 인코포레이티드 이미징 디바이스에서의 사진 구도 및 포지션 안내
US20180181827A1 (en) * 2016-12-22 2018-06-28 Samsung Electronics Co., Ltd. Apparatus and method for processing image
US20180249083A1 (en) * 2017-02-24 2018-08-30 Lg Electronics Inc. Mobile terminal
KR20190044761A (ko) * 2017-10-23 2019-05-02 연세대학교 산학협력단 이미지 처리 장치 및 방법

Also Published As

Publication number Publication date
US11977981B2 (en) 2024-05-07
KR20200132569A (ko) 2020-11-25
US20220038621A1 (en) 2022-02-03

Similar Documents

Publication Publication Date Title
WO2020235852A1 (ko) 특정 순간에 관한 사진 또는 동영상을 자동으로 촬영하는 디바이스 및 그 동작 방법
WO2019107724A1 (en) Method and system for providing recommendation information related to photography
WO2020105948A1 (en) Image processing apparatus and control method thereof
WO2018088794A2 (ko) 디바이스가 이미지를 보정하는 방법 및 그 디바이스
WO2020159232A1 (en) Method, apparatus, electronic device and computer readable storage medium for image searching
WO2019132518A1 (en) Image acquisition device and method of controlling the same
WO2021167394A1 (en) Video processing method, apparatus, electronic device, and readable storage medium
WO2018117428A1 (en) Method and apparatus for filtering video
WO2016117836A1 (en) Apparatus and method for editing content
WO2021251689A1 (en) Electronic device and controlling method of electronic device
WO2020085694A1 (ko) 이미지 획득 장치 및 그의 제어 방법
WO2018084577A1 (en) Data recognition model construction apparatus and method for constructing data recognition model thereof, and data recognition apparatus and method for recognizing data thereof
WO2018117662A1 (en) Apparatus and method for processing image
WO2017043857A1 (ko) 어플리케이션 제공 방법 및 이를 위한 전자 기기
WO2019143095A1 (ko) 복수의 카메라를 이용하여 영상 데이터를 생성하는 방법 및 서버
EP3532990A1 (en) Data recognition model construction apparatus and method for constructing data recognition model thereof, and data recognition apparatus and method for recognizing data thereof
WO2021261836A1 (en) Image detection apparatus and operation method thereof
WO2017090833A1 (en) Photographing device and method of controlling the same
WO2019240562A1 (en) Electronic device and operating method thereof for outputting response to user input, by using application
WO2021025509A1 (en) Apparatus and method for displaying graphic elements according to object
WO2022191542A1 (ko) 홈 트레이닝 서비스 제공 방법 및 그를 수행하는 디스플레이 장치
WO2020091268A1 (en) Electronic apparatus and method for controlling thereof
WO2021230485A1 (ko) 영상을 제공하는 방법 및 장치
EP3545685A1 (en) Method and apparatus for filtering video
WO2022139262A1 (ko) 관심 객체를 이용하여 비디오를 편집하는 전자 장치 및 그 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20810236

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20810236

Country of ref document: EP

Kind code of ref document: A1