KR20220107683A - 전자 장치 및 이의 제어 방법 - Google Patents

전자 장치 및 이의 제어 방법 Download PDF

Info

Publication number
KR20220107683A
KR20220107683A KR1020210010600A KR20210010600A KR20220107683A KR 20220107683 A KR20220107683 A KR 20220107683A KR 1020210010600 A KR1020210010600 A KR 1020210010600A KR 20210010600 A KR20210010600 A KR 20210010600A KR 20220107683 A KR20220107683 A KR 20220107683A
Authority
KR
South Korea
Prior art keywords
information
image
lens
electronic device
screen
Prior art date
Application number
KR1020210010600A
Other languages
English (en)
Inventor
오성우
윤영교
황진영
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020210010600A priority Critical patent/KR20220107683A/ko
Priority to PCT/KR2021/018405 priority patent/WO2022164008A1/ko
Priority to EP21923415.0A priority patent/EP4262190A1/en
Publication of KR20220107683A publication Critical patent/KR20220107683A/ko
Priority to US18/216,295 priority patent/US20230345111A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • H04N23/951Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
    • H04N5/23232
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/10Image enhancement or restoration by non-spatial domain filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/45Cameras or camera modules comprising electronic image sensors; Control thereof for generating image signals from two or more image sensors being of different type or operating in different modes, e.g. with a CMOS sensor for moving images in combination with a charge-coupled device [CCD] for still images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/631Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
    • H04N23/632Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters for displaying or modifying preview images prior to image capturing, e.g. variety of image resolutions or capturing parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • H04N5/232935
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

본 개시는 전자 장치 및 이의 제어 방법이 제공된다. 전자 장치는 제1 렌즈 및 제1 렌즈와 상이한 화각의 영상을 획득할 수 있는 제2 렌즈를 포함하는 카메라, 디스플레이, 메모리, 및 제1 렌즈를 이용하여 획득된 제1 영상을 디스플레이에 라이브 뷰로 제공하고, 제1 영상을 라이브 뷰로 제공하는 동안 제2 렌즈를 이용하여 제2 영상을 획득하며, 적어도 하나의 신경망 모델을 이용하여 제2 영상에 대한 정보 및 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 획득하고, 제2 영상에 대한 정보 및 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 바탕으로 제2 영상의 화면 유형을 식별하며, 제2 영상의 화면 유형에 대응되는 필터 셋을 식별하고, 식별된 필터 셋을 바탕으로 라이브 뷰로 제공되는 제1 영상을 보정한다.

Description

전자 장치 및 이의 제어 방법{Electronic device and Method for controlling th electronic device thereof}
본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로, 더욱 상세하게는 현재 촬영되는 영상의 화면 유형을 식별하여 화면 유형에 대응되는 필터 셋을 이용하여 화면을 보정하는 전자 장치 및 이의 제어 방법에 관한 것이다.
근래에는 카메라 뿐만 아니라 스마트 폰과 같은 전자 장치를 통해 사진을 촬영하고 있다. 전자 장치는 단순히 사진 촬영 기능 뿐만이 아니라 사진의 퀄리티를 높이기 위해 다양한 필터를 제공하기도 한다. 예를 들어, 전자 장치는 영상을 분석하여 화면의 유형에 대응되는 최적의 필터 셋을 제안하는 기술을 제공하고 있다. 즉, 현재 촬영된 화면의 유형이 "식당"인 경우, 전자 장치는 식당에 대응되는 필터 셋을 이용하여 촬영된 영상을 보정하며, 현재 촬영된 화면의 유형이 "인물"인 경우, 전자 장치는 인물에 대응되는 필터 셋을 이용하여 촬영된 영상을 보정할 수 있다.
그러나, 종래의 전자 장치는 영상 보정을 위한 필터 셋을 판단할 때, 화면의 전체적인 구성을 이해하지 못하는 경우가 많아 사용자가 원치 않는 유형에 대응되는 필터 셋을 제공하기도 한다.
또한, 종래의 전자 장치는 단일 오브젝트를 대상으로 화면의 유형을 판단하기 때문에 촬영된 영상 내에 수많은 오브젝트가 포함된 경우, 화면의 유형을 판단하기 애매한 경우가 많다. 이에 따라, 오인식을 방지하기 위하여, 전자 장치는 필터 셋을 제공하지 않는 "No detect"로 판단하는 경우가 많다.
뿐만 아니라, 영상 촬영시 획득된 화면의 영역이 좁은 경우, 제한된 화각으로 인해 화면의 유형을 판단하기 어려운 문제점이 발생할 수 있다.
따라서, 영상에 포함된 화면의 유형을 정확히 판단하여 화면의 유형에 대응되는 필터 셋을 제공하기 위한 방안의 모색이 요청된다.
본 개시는 상술한 문제점을 해결하기 위한 것으로, 본 개시의 목적은 복수의 렌즈를 이용하여 촬영된 영상 내의 오브젝트들의 관계를 바탕으로 더욱 정확하게 화면의 유형을 판단하고 판단된 화면의 유형에 대응되는 필터 셋을 바탕으로 촬영된 영상을 보정할 수 있는 전자 장치 및 이의 제어 방법에 관한 것이다.
본 개시의 일 실시예에 따른, 전자 장치는, 제1 렌즈 및 상기 제1 렌즈와 상이한 화각의 영상을 획득할 수 있는 제2 렌즈를 포함하는 카메라; 디스플레이; 메모리; 및 상기 제1 렌즈를 이용하여 획득된 제1 영상을 상기 디스플레이에 라이브 뷰로 제공하고, 상기 제1 영상을 라이브 뷰로 제공하는 동안 상기 제2 렌즈를 이용하여 제2 영상을 획득하며, 적어도 하나의 신경망 모델을 이용하여 상기 제2 영상에 대한 정보 및 상기 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 획득하고, 상기 제2 영상에 대한 정보 및 상기 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 바탕으로 상기 제2 영상의 화면 유형을 식별하며, 상기 제2 영상의 화면 유형에 대응되는 필터 셋을 식별하고, 상기 식별된 필터 셋을 바탕으로 상기 라이브 뷰로 제공되는 상기 제1 영상을 보정할 수 있다.
또한, 상기 제2 영상에 대한 정보는, 상기 제2 영상에 대응되는 뎁스 맵 정보 및 상기 제2 영상에 대응되는 Saliency 정보를 포함하며, 상기 프로세서는, 제1 신경망 모델에 상기 제2 영상을 입력하여 상기 뎁스 맵 정보를 획득하고, 제2 신경망 모델에 상기 제2 영상을 입력하여 상기 saliency 정보를 획득할 수 있다.
그리고, 상기 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보는, 상기 적어도 하나의 오브젝트의 유형 정보, 상기 적어도 하나의 오브젝트의 3차원 위치 정보, 상기 적어도 하나의 오브젝트가 위치하는 영역에 대한 정보 및 상기 적어도 하나의 오브젝트의 자세 정보를 포함하며, 상기 프로세서는, 제3 신경망 모델에 상기 제2 영상을 입력하여 상기 제2 영상 내에 포함된 상기 적어도 하나의 오브젝트와 배경을 분할한 분할 정보(segmentaion information) 및 상기 적어도 하나의 오브젝트의 유형 정보를 획득하고, 상기 분할 정보 및 상기 뎁스 맵 정보를 바탕으로 상기 적어도 하나의 오브젝트의 3차원 위치 정보 및 상기 적어도 하나의 오브젝트가 위치하는 영역에 대한 정보를 획득하고, 제4 신경망 모델에 상기 분할 정보에 포함된 적어도 하나의 오브젝트에 대한 정보를 입력하여 상기 적어도 하나의 오브젝트의 자세 정보를 획득할 수 있다.
또한, 상기 프로세서는, 제5 신경망 모델에 상기 오브젝트의 3차원 위치 정보 및 상기 오브젝트가 위치하는 영역에 대한 정보를 입력하여 상기 적어도 하나의 오브젝트 사이의 관계 정보를 획득할 수 있다.
그리고, 상기 프로세서는, 제6 신경망 모델에 상기 관계 정보, 상기 적어도 하나의 오브젝트의 자세 정보, 상기 제2 영상에 대한 포커스 정보 및 상기 saliency 정보를 입력하여 보정된 saliency 정보에 대응되는 열지도 정보를 획득할 수 있다.
또한, 상기 프로세서는, 상기 제2 영상, 상기 열지도 정보 및 상기 적어도 하나의 오브젝트의 유형 정보를 바탕으로 상기 제2 영상의 화면 유형을 식별할 수 있다.
그리고, 상기 메모리는, 복수의 화면 유형에 대응되는 복수의 필터 셋을 포함하며, 상기 프로세서는, 상기 복수의 필터 셋 중 상기 제2 영상의 화면 유형에 대응되는 필터 셋을 식별할 수 있다.
또한, 상기 프로세서는, 상기 보정된 제1 영상을 포함하는 라이브 뷰 상에 상기 화면 유형에 대한 정보를 함께 제공하도록 상기 디스플레이를 제어할 수 있다.
그리고, 상기 제2 렌즈는 상기 제1 렌즈보다 넓은 화각의 영상을 획득할 수 있다.
한편, 본 개시의 일 실시예에 따른, 제1 렌즈 및 상기 제1 렌즈와 상이한 화각의 영상을 획득할 수 있는 제2 렌즈를 포함하는 카메라를 포함하는 전자 장치의 제어 방법은, 상기 제1 렌즈를 이용하여 획득된 제1 영상을 라이브 뷰로 제공하는 단계; 상기 제1 영상을 라이브 뷰로 제공하는 동안 상기 제2 렌즈를 이용하여 제2 영상을 획득하는 단계; 적어도 하나의 신경망 모델을 이용하여 상기 제2 영상에 대한 정보 및 상기 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 획득하는 단계; 상기 제2 영상에 대한 정보 및 상기 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 바탕으로 상기 제2 영상의 화면 유형을 식별하는 단계; 상기 제2 영상의 화면 유형에 대응되는 필터 셋을 식별하는 단계; 및 상기 식별된 필터 셋을 바탕으로 상기 라이브 뷰로 제공되는 상기 제1 영상을 보정하는 단계;를 포함할 수 있다.
그리고, 상기 제2 영상에 대한 정보는, 상기 제2 영상에 대응되는 뎁스 맵 정보 및 상기 제2 영상에 대응되는 Saliency 정보를 포함하며, 상기 적어도 하나의 오브젝트에 대한 정보를 획득하는 단계는, 제1 신경망 모델에 상기 제2 영상을 입력하여 상기 뎁스 맵 정보를 획득하고, 제2 신경망 모델에 상기 제2 영상을 입력하여 상기 saliency 정보를 획득할 수 있다.
또한, 상기 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보는, 상기 적어도 하나의 오브젝트의 유형 정보, 상기 적어도 하나의 오브젝트의 3차원 위치 정보, 상기 적어도 하나의 오브젝트가 위치하는 영역에 대한 정보 및 상기 적어도 하나의 오브젝트의 자세 정보를 포함하며, 상기 적어도 하나의 오브젝트에 대한 정보를 획득하는 단계는, 제3 신경망 모델에 상기 제2 영상을 입력하여 상기 제2 영상 내에 포함된 상기 적어도 하나의 오브젝트와 배경을 분할한 분할 정보(segmentation information) 및 상기 적어도 하나의 오브젝트의 유형 정보를 획득하고, 상기 분할 정보 및 상기 뎁스 맵 정보를 바탕으로 상기 적어도 하나의 오브젝트의 3차원 위치 정보 및 상기 적어도 하나의 오브젝트가 위치하는 영역에 대한 정보를 획득하고, 제4 신경망 모델에 상기 분할 정보에 포함된 적어도 하나의 오브젝트에 대한 정보를 입력하여 상기 적어도 하나의 오브젝트의 자세 정보를 획득할 수 있다.
그리고, 상기 제2 영상의 화면 유형을 식별하는 단계는, 제5 신경망 모델에 상기 오브젝트의 3차원 위치 정보 및 상기 오브젝트가 위치하는 영역에 대한 정보를 입력하여 상기 적어도 하나의 오브젝트 사이의 관계 정보를 획득할 수 있다.
또한, 상기 제2 영상의 화면 유형을 식별하는 단계는, 제6 신경망 모델에 상기 관계 정보, 상기 적어도 하나의 오브젝트의 자세 정보, 상기 제2 영상에 대한 포커스 정보 및 상기 saliency 정보를 입력하여 보정된 saliency 정보에 대응되는 열지도 정보를 획득할 수 있다.
그리고, 상기 제2 영상의 화면 유형을 식별하는 단계는, 상기 제2 영상, 상기 열지도 정보 및 상기 적어도 하나의 오브젝트의 유형 정보를 바탕으로 상기 제2 영상의 화면 유형을 식별할 수 있다.
또한, 상기 전자 장치는, 복수의 화면 유형에 대응되는 복수의 필터 셋을 저장하며, 상기 필터 셋을 식별하는 단계는, 상기 복수의 필터 셋 중 상기 제2 영상의 화면 유형에 대응되는 필터 셋을 식별할 수 있다.
그리고, 상기 보정된 제1 영상을 포함하는 라이브 뷰 상에 상기 화면 유형에 대한 정보를 함께 제공하는 단계;를 포함할 수 있다.
또한, 상기 제2 렌즈는 상기 제1 렌즈보다 넓은 화각의 영상을 획득할 수 있다.
상술한 바와 같은 본 개시의 다양한 실시예에 따라, 전자 장치는 현재 촬영된 영상의 화면 유형을 더욱 정확하게 파악함으로써, 전자 장치는 현재 촬영된 영상 상에 정확한 화면 필터 효과를 제공할 수 있게 된다.
도 1은 본 개시의 일 실시예에 따른, 전자 장치의 구성을 나타내는 블록도,
도 2는 본 개시의 일 실시예에 따른, 전자 장치의 카메라에 대해 간략하게 설명하기 위한 도면,
도 3은 본 개시의 일 실시예에 따른, 화면 요소 검출 모듈에 포함된 구성의 동작을 설명하기 위한 도면,
도 4a는 본 개시의 일 실시예에 따른, 화면 분석 모듈에 포함된 구성의 동작을 설명하기 위한 도면,
도 4b는 본 개시의 일 실시예에 따른, 보정된 saliency 정보에 대응되는 열지도 영상을 설명하기 위한 도면,
도 4c는 본 개시의 일 실시예에 따른, 화면 구성 요소 데이터베이스를 설명하기 위한 도면,
도 5a 내지 도 5e는 본 개시의 다양한 실시예에 따른, 전자 장치에 의해 식별된 화면의 유형을 설명하기 위한 도면,
도 6은 본 개시의 일 실시예에 따른, 전자 장치에 저장된 필터 셋 DB를 설명하기 위한 도면,
도 7a 및 도 7b는 본 개시의 다양한 실시예에 따른, 화면의 유형에 대응되도록 라이브 뷰를 보정하는 방법을 설명하기 위한 도면,
도 8은 본 개시의 다른 실시예에 따른, 영상에 포함된 복수의 영역 각각에 상이한 필터 셋을 적용하는 실시예를 설명하기 위한 도면,
도 9는 본 개시의 일 실시예에 따른, 전자 장치의 제어 방법을 설명하기 위한 흐름도,
도 10은 본 개시의 일 실시예에 따른, 전자 장치의 구성을 설명하기 위한 블록도, 및
도 11은 본 개시의 다른 실시예에 따른, 전자 장치가 서버와 연동하여 영상을 보정하는 실시예를 설명하기 위한 시퀀스 도이다.
본 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 본 개시의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다.
덧붙여, 하기 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 개시의 기술적 사상의 범위가 하기 실시 예에 한정되는 것은 아니다. 오히려, 이들 실시 예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 개시의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.
본 개시에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.
반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다.
대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
실시 예에 있어서 '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 '모듈' 혹은 복수의 '부'는 특정한 하드웨어로 구현될 필요가 있는 '모듈' 혹은 '부'를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
한편, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명의 기술적 사상은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되지 않는다.
한편, 본 개시의 다양한 실시 예에 따른 전자 장치는 예를 들면, 스마트 폰, 태블릿 PC, 데스크탑 PC, 랩탑 PC 또는 웨어러블 장치 중 적어도 하나를 포함할 수 있다. 웨어러블 장치는 액세서리형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형(예: 전자 의복), 신체 부착형(예: 스킨 패드 또는 문신), 또는 생체 이식형 회로 중 적어도 하나를 포함할 수 있다.
어떤 실시 예들에서, 전자 장치는 예를 들면, 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스, 홈 오토매이션 컨트롤 패널, 보안 컨트롤 패널, 미디어 박스(예: 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(예: XboxTM, PlayStationTM), 전자 사전, 전자 키, 캠코더, 또는 전자 액자 중 적어도 하나를 포함할 수 있다.
이하에서는 첨부한 도면을 참고하여 본 개시에 따른 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
이하에서는 도면을 참조하여 본 개시에 대해 더욱 상세히 설명하기로 한다. 도 1은 본 개시의 일 실시예에 따른, 전자 장치의 구성을 나타내는 블록도이다. 전자 장치(100)는 메모리(110), 카메라(120), 디스플레이(130) 및 프로세서(140)를 포함한다. 이때, 전자 장치(100)는 스마트 폰으로 구현될 수 있다. 다만, 본 개시에 따른 전자 장치(100)가 특정 유형의 장치에 국한되는 것은 아니며, 태블릿 PC 및 디지털 카메라 등과 같이 다양한 종류의 전자 장치(100)로 구현될 수도 있다.
메모리(110)는 현재 촬영되는 영상의 화면 유형에 따라 영상을 보정하기 위한 모듈이 각종 동작을 수행하기 위해 필요한 데이터를 저장할 수 있다. 영상을 보정하기 위한 모듈은 영상 전처리 모듈(142), 화면 요소 검출 모듈(143), 화면 분석 모듈(144), 영상 보정 모듈(145) 및 라이브 뷰 제공 모듈(141)을 포함할 수 있다. 또한, 메모리(110)는 영상에 포함된 화면 요소를 검출하고, 검출된 요소를 바탕으로 화면 유형을 판단하기 위하여 복수의 신경망 모델을 저장할 수 있다.
한편, 메모리(110)는 전력 공급이 중단되더라도 저장된 정보를 유지할 수 있는 비휘발성 메모리 및 저장된 정보를 유지하기 위해서는 지속적인 전력 공급이 필요한 휘발성 메모리를 포함할 수 있다. 영상의 화면 유형에 따라 영상을 보정하기 위한 모듈이 각종 동작을 수행하기 위한 데이터는 비휘발성 메모리에 저장될 수 있다. 그리고, 영상에 포함된 화면 요소를 검출하고, 검출된 요소를 바탕으로 화면 유형을 판단하기 위하여 복수의 신경망 모델 역시 비휘발성 메모리에 저장될 수 있다. 또한, 메모리(110)는 복수의 화면 유형에 대응되는 복수의 필터 셋을 저장할 수 있다.
또한, 메모리(110)는 카메라(120)에 포함된 복수의 렌즈 각각을 통해 획득되는 복수의 이미지 프레임을 일시적으로 저장하는 적어도 하나의 버퍼를 포함할 수 있다.
카메라(120)는 서로 상이한 복수의 렌즈(예를 들어, 제1 렌즈(121), 제2 렌즈(122)를 포함할 수 있다. 여기서, 복수의 렌즈가 서로 상이하다는 것은 복수의 렌즈 각각의 화각(Field of View, FOV)이 서로 상이한 경우 및 복수의 렌즈 각각이 배치된 위치가 상이한 경우 등을 포함할 수 있다. 예를 들어, 도 2에 도시된 바와 같이, 전자 장치(100)의 카메라(110)는 전자 장치(100)의 후면에 배치된 망원 렌즈(telephoto lens)(10), 광각 렌즈(wide angle lens)(20) 및 초광각 렌즈(Ultra wide angle lens)(30)를 포함할 수 있으며, 3D 뎁스 렌즈(three dimensional depth lens)(40)를 포함할 수도 있다. 뿐만 아니라, 전자 장치(100)의 후면에 배치된 망원 렌즈(10), 광각 렌즈(20) 및 초광각 렌즈(30) 등과 함께, 전자 장치(100)의 전면에 배치된 망원 렌즈(미도시)를 더 포함할 수도 있다. 즉, 본 개시에 따른 렌즈의 개수와 그 유형에 특별한 제한이 있는 것은 아니다. 이때, 망원 렌즈(10)는 초망원 렌즈보다 넓은 화각을 가지며, 표준 렌즈는 망원 렌즈(10)보다 넓은 화각을 가지고, 광각 렌즈(20)는 표준 렌즈보다 넓은 화각을 가지며, 초광각 렌즈(30)는 광각 렌즈(20)보다도 넓은 화각을 가진다. 예를 들어, 초망원 렌즈는 화각이 3도 내지 6도이고, 망원 렌즈(10)는 화각이 8도 내지 28도이며, 표준 렌즈는 화각이 47도이고, 광각 렌즈(20)는 화각이 63도 내지 84도이며, 초광각 렌즈(30)는 94도 내지 114도일 수 있다.
그리고, 렌즈의 화각이 넓을수록 렌즈를 통해 획득되는 이미지 프레임은 상대적으로 넓은 범위의 장면을 포함할 수 있는 반면, 상대적으로 이미지 프레임에 포함된 오브젝트의 크기가 작아지고 원근감의 과장이 발생할 수 있다. 한편, 렌즈의 화각이 좁을수록 렌즈를 통해 획득되는 이미지 프레임은 오브젝트의 크기를 확대하여 포함할 수 있는 반면, 상대적으로 좁은 범위의 장면만을 포함할 수 있다.
다만, 이하에서 설명의 편의를 위해 필요한 한도 내에서는, 전자 장치(100)의 카메라(110)가 두 개의 렌즈인 제1 렌즈(121)(예로, 광각 렌즈) 및 제2 렌즈(122)(예로, 초광각 렌즈)를 포함하는 경우를 중심으로 설명한다.
또한, 카메라(120)는 복수의 렌즈 이외에 복수의 렌즈를 통해 획득된 신호를 처리하기 위한 ISP(Image signal processor)를 더 포함할 수 있다.
디스플레이(130)는 카메라(120)(특히, 제1 렌즈(121))를 통해 촬영된 영상의 라이브 뷰를 디스플레이할 수 있다. 또한, 디스플레이(130)는 보정된 제1 영상을 포함하는 라이브 뷰 상에 화면 유형에 대한 정보를 함께 제공할 수 있다.
한편, 디스플레이(130)는 LCD(Liquid Crystal Display Panel), OLED(Organic Light Emitting Diodes) 등으로 구현될 수 있으며, 또한 디스플레이(130)는 경우에 따라 플렉서블 디스플레이, 투명 디스플레이 등으로 구현되는 것도 가능하다. 다만, 본 개시에 따른 디스플레이(130)가 특정한 종류에 한정되는 것은 아니다.
프로세서(140)는 메모리(110)와 전기적으로 연결되어 전자 장치(100)의 전반적인 기능 및 동작을 제어할 수 있다.
프로세서(140)는 카메라 어플리케이션이 실행되거나 화면의 유형에 따라 영상을 보정하기 위한 사용자 명령이 입력되면, 비휘발성 메모리에 저장되어 있는 화면 유형에 따라 영상을 보정하기 위한 모듈이 각종 동작을 수행하기 위한 데이터를 휘발성 메모리로 로딩(loading)할 수 있다. 그리고, 프로세서(140)는 화면 요소를 검출하고, 검출된 화면 요소에 따라 화면 유형을 판단하기 위한 복수의 신경망 모델을 휘발성 메모리로 로딩할 수 있다. 프로세서(140)는 휘발성 메모리로 로딩된 데이터에 기초하여 각종 모듈 및 신경망 모델을 통해 각종 동작을 수행할 수 있다. 여기서, 로딩이란 프로세서(140)가 엑세스할 수 있도록 비휘발성 메모리에 저장된 데이터를 휘발성 메모리에 불러들여 저장하는 동작을 의미한다.
특히, 제1 사용자 명령에 의해 카메라 어플리케이션이 실행되면, 프로세서(140)는 카메라(120)를 통해 적어도 하나의 영상을 획득할 수 있다.
특히, 프로세서(140)는 카메라(120)에 포함된 제1 렌즈(121)를 통해 제1 영상을 획득할 수 있다. 그리고, 프로세서(140)는 라이브 뷰 제공 모듈(141)을 통해 제1 렌즈(121)를 통해 획득된 제1 영상을 라이브 뷰 영상으로 제공할 수 있다. 이때, 라이브 뷰 영상이라 함은 카메라(120)에 포함된 센서에 들어온 상을 프로세싱하여 바로 디스플레이(130)에 출력하는 영상으로서, 사용자는 라이브 뷰 영상을 이용하여 화면의 구도나 포커스, 노출 등을 조정할 수 있다.
제1 렌즈(121)에 의해 획득된 제1 영상을 라이브 뷰 영상으로 제공하는 동안 프로세서(140)는 카메라(120)에 포함된 제2 렌즈(122)를 통해 제2 영상을 획득할 수 있다. 이때, 제2 렌즈(122)는 제1 렌즈(121)보다 넓은 화각의 영상을 획득할 수 있는 렌즈로서, 예로, 제1 렌즈(121)는 광각 렌즈(20)로 구현될 수 있으며, 제2 렌즈(122)는 초광각 렌즈(30)로 구현될 수 있다.
프로세서(140)는 영상 전처리 모듈(142)을 이용하여 제2 렌즈를 통해 획득된 제2 영상에 대한 전처리를 수행할 수 있다. 이때, 영상 전처리 모듈(142)은 제2 영상을 리사이즈할 수 있으며, 제2 영상의 밝기, 대조도(contrast)를 정규화하는 작업을 수행할 수 있다.
프로세서(140)는 화면 요소 검출 모듈(143)을 이용하여 전처리된 제2 영상에 포함된 화면 요소를 검출할 수 있다. 구체적으로, 화면 요소 검출 모듈(143)은 적어도 하나의 신경망 모델을 이용하여 제2 영상에 대한 정보 및 제2 영상 속에 포함된 적어도 하나의 오브젝트에 대한 정보를 획득할 수 있다. 이때, 제2 영상에 대한 정보는, 제2 영상에 대응되는 뎁스 맵 정보 및 제2 영상에 대응되는 saliency 정보, 제2 영상의 포커스 정보를 포함할 수 있다. 또한, 제2 영상 속에 포함된 적어도 하나의 오브젝트에 대한 정보는 적어도 하나의 오브젝트의 유형 정보, 적어도 하나의 오브젝트의 3차원 위치 정보, 적어도 하나의 오브젝트가 위치하는 영역에 대한 정보 및 적어도 하나의 오브젝트의 자세 정보를 포함할 수 있다.
화면 요소 검출 모듈(143)이 적어도 하나의 모듈 및 신경망 모델을 이용하여 영상에 대한 정보 및 오브젝트에 대한 정보를 획득하는 방법에 대해서는 도 3을 참조하여 설명하기로 한다. 화면 요소 검출 모듈(143)은 도 3에 도시된 바와 같이, 화면 요소 분할 모듈(320), 뎁스 정보 획득 모듈(330), saliency 정보 획득 모듈(340) 및 오브젝트 자세 획득 모듈(350)을 포함할 수 있다.
화면 요소 분할 모듈(320)은 화면 요소를 분할하도록 학습된 신경망 모델을 이용하여 제2 렌즈를 통해 획득된 제2 영상에 포함된 요소들을 분할한 분할 정보를 획득할 수 있다. 이때, 제2 영상에 포함된 요소들은 제2 영상에 포함된 적어도 하나의 오브젝트 요소 및 배경 요소를 포함할 수 있다. 특히, 화면 요소 분할 모듈(320)은 Panoptic segmentation을 통해 화면 요소를 분할할 수 있다. Panoptic segmentation은 semantic segmentation을 통해 배경 요소에 대한 정보(예를 들어, 배경의 영역 정보, 배경의 유형 정보 등)를 획득할 수 있으며, instance segmentation을 통해 적어도 하나의 오브젝트 요소 각각에 대한 정보(예를 들어, 적어도 하나의 오브젝트의 위치 정보, 적어도 하나의 오브젝트의 영역 정보, 적어도 하나의 오브젝트의 유형 정보 등)를 획득할 수 있다.
뎁스 정보 획득 모듈(330)은 영상의 뎁스 정보를 획득하도록 학습된 신경망 모델에 제2 영상을 입력하여 제2 영상에 대응되는 뎁스 정보를 획득할 수 있다. 이때, 뎁스 정보는 제2 영상에 포함된 요소들의 깊이 정보를 나타내며, 그레이 스케일로 표현될 수 있다.
saliency 정보 획득 모듈(340)은 영상에 대응되는 saliency 정보를 획득하도록 학습된 신경망 모델에 제2 영상을 입력하여 제2 영상에 대응되는 saliency 정보를 획득할 수 있다. 이때, saliency 정보라 함은 영상 내에 포함된 픽셀의 주변에 대비한두드러짐 정도를 나타내는 정보를 의미한다. 이때, 전자 장치(100)는 획득된 saliency 정보를 바탕으로 도 4b에 도시된 바와 같은 영상의 열지도 정보를 획득할 수 있다.
또한, 오브젝트 자세 획득 모듈(350)은 오브젝트의 자세 정보를 획득하도록 학습된 신경망 모델에 분할 정보에 포함된 적어도 하나의 오브젝트에 대한 정보를 입력하여 제2 영상 속에 포함된 적어도 하나의 오브젝트의 자세 정보를 획득할 수 있다. 이때, 적어도 하나의 오브젝트의 자세 정보는 오브젝트들의 자세 정보뿐만 아니라 오브젝트들의 시선 정보 등을 포함할 수 있다.
그 밖에, 화면 요소 검출 모듈(142)은 화면 요소 분할 정보(특히, 오브젝트의 영역 정보, 오브젝트의 위치 정보 등) 및 뎁스 맵 정보를 바탕으로 적어도 하나의 오브젝트의 3차원 위치 정보 및 상기 적어도 하나의 오브젝트가 위치하는 영역에 대한 정보를 획득할 수 있다.
상술한 바와 같은 방법으로, 화면 요소 검출 모듈(142)은 제2 영상에 대한 정보 /오브젝트에 대한 정보(360)를 획득할 수 있다. 구체적으로, 화면 요소 검출 모듈(142)은 영상에 대한 정보로서 제2 영상에 대응되는 saliency 정보, 제2 영상의 포커스 정보를 획득할 수 있으며, 오브젝트에 대한 정보로서 오브젝트의 유형 정보, 오브젝트의 자세 정보, 오브젝트의 3차원 위치 정보 및 오브젝트가 위치하는 영역에 대한 정보를 획득할 수 있다.
다시 도 1에 대해 설명하면, 프로세서(140)는 화면 분석 모듈(144)을 이용하여 화면 유형에 대한 정보를 획득할 수 있다. 구체적으로, 화면 분석 모듈(144)은 화면 요소 검출 모듈(143)을 통해 획득된 영상에 대한 정보 및 오브젝트에 대한 정보를 바탕으로 화면을 분석하여 화면 유형에 대한 정보를 획득할 수 있다.
화면 분석 모듈(144)이 적어도 하나의 모듈 및 신경망 모델을 이용하여 화면 유형에 대한 정보를 획득하는 방법에 대해서는 도 4a 내지 도 4c을 참조하여 설명하기로 한다.화면 분석 모듈(144)은 오브젝트 관계 분석 모듈(410), 열지도 획득 모듈(420) 및 화면 분류 모듈(430)을 포함할 수 있다. 이때, 화면 분석 모듈(144)은 화면 구성 요소 DB(440)를 더 포함할 수 있으나, 이는 일 실시예에 불과할 뿐, 화면 구성 요소 DB(440)는 전자 장치(100) 내부의 다른 구성(예로, 메모리(110)), 전자 장치(100)의 외부에 존재할 수 있다.
오브젝트 관계 분석 모듈(410)은 오브젝트들 간의 관계에 대한 정보를 획득하도록 학습된 신경망 모델에 오브젝트에 대한 정보를 입력하여 제2 영상에 포함된 오브젝트들 간의 관계에 대한 정보를 획득할 수 있다. 이때, 오브젝트들 간의 관계라 함은 객체들간의 포함 관계, 동일 클래스로 분류된 오브젝트들 간의 분포도 등에 대한 정보를 획득할 수 있다.
열지도 획득 모듈(420)은 saliency 정보를 보정하도록 학습된 신경망 모델에 오브젝트들 간의 관계에 대한 정보, 적어도 하나 오브젝트의 자세 정보, 제2 영상에 대한 포커스 정보 및 saliency 정보 를 입력하여 saliency 정보를 보정할 수 있다. 즉, 열지도 획득 모듈(420)은 오브젝트 관계 분석 모듈(410)에서 출력된 오브젝트들 간의 관계 정보 및 오브젝트들의 자세 정보, 포커스 정보 등을 바탕으로 오브젝트들의 중요도를 판단할 수 있으며, 오브젝트들의 중요도를 바탕으로 saliency 정보를 보정할 수 있다. 즉, 중요도가 높다고 판단된 오브젝트들의 saliency 값이 높아지며, 중요도가 낮다고 판단된 오브젝트들의 saliency 값이 낮아지도록 saliency 정보가 보정될 수 있다. 예를 들어, 열지도 획득 모듈(420)은 saliency 정보 획득 모듈(340)에 의해 획득된 saliency 정보를 바탕으로 도 4b의 좌측에 도시된 바와 같이,열지도(460)를 획득할 수 있다. 그러나, 열지도 획득 모듈(420)은 오브젝트들 간의 관계에 대한 정보, 적어도 하나 오브젝트의 자세 정보, 제2 영상에 대한 포커스 정보를 바탕으로 saliency 정보를 보정하고, 보정된 saliency 정보를 바탕으로, 도 4b의 우측에 도시된 바와 같은, 열지도(470)를 획득할 수 있다. 즉, 음식물이 중앙 영역에 배치되고, 사람들의 자세나 시선이 카메라를 향하지 않았으며, 영상의 포커스가 음식물에 존재하는 점 등을 고려하였을 때, 사람 오브젝트보다 음식물 오브젝트가 중요 오브젝트로 판단되어, 도 4b의 좌측에 도시된 바와 같은 열지도(460)가 도 4b에 우측에 도시된 바와 같은 열지도(470)로 보정될 수 있다.
화면 분류 모듈(430)은 제2 영상, 보정된 열지도 정보 및 적어도 하나의 오브젝트의 유형 정보를 바탕으로 제2 영상의 화면 유형에 대한 정보(450)를 획득할 수 있다. 특히, 화면 분류 모듈(430)은 화면 구성 요소 DB(440)를 이용하여 제2 영상의 화면 유형을 식별할 수 있다. 이때, 화면 구성 요소 DB(440)는 대규모 영상 데이터 셋에서 추출한 화면 구성 요소들 간의 일반적인 관계를 저장하는 데이터베이스로서, 도 4c에 도시된 바와 같이, 상하위 계층적인 구조로 이루어질 수 있다. 도 4c에 도시된 각 요소들 안에 도시된 숫자는 해당 요소안에 상위 클래스가 존재할 확률을 나타내는 숫자일 수 있다.
예를 들어, 화면 분류 모듈(430)은 도 4b의 우측에 도시된 보정된 열지도 정보(470) 및 오브젝트의 유형 정보를 바탕으로 열값이 높은 오브젝트인 음식물 오브젝트를 중요한 오브젝트로 판단하고, 중요한 오브젝트라고 판단된 음식물 오브젝트에 대한 정보 및 화면 구성 요소 DB(440)를 바탕으로 현재 화면의 유형이 음식점(Restaurant)임을 판단할 수 있다.
이하에서는 도 5a 내지 도 5e를 참조하여 화면 분류 모듈(430)이 화면의 유형을 판단하는 다양한 실시예에 대해 설명하기로 한다.
도 5a는 모니터 안에 코끼리 사진이 존재하는 영상이다. 기존 객체 검출 기반 기술은 화면 중앙 영역에 존재하는 코끼리로 인해 화면 유형을 동물(animal)로 분류하였으나, 본 개시의 실시예에 의한 전자 장치(100)는 코끼리와 모니터와의 관계를 판단하고, 책상 등이 존재하는 것으로 판단하여 화면 유형을 실내(indoor) 또는 사무실(office)로 분류할 수 있다.
도 5b는 복수의 사람을 포함하는 풍경에 대한 영상이다. 기존 객체 검출 기반 기술은 화면 내에 배치된 사람으로 인해 화면 유형을 인물(portrait)로 분류할 수 있으나, 본 개시의 실시예에 의한 전자 장치(100)는 사람들의 자세 정보(즉, 시선 정보)를 판단하고, 사람들과 풍경과의 관계를 판단하고, 풍경이 중앙 영역에 위치하는 것으로 판단하여 화면 유형을 풍경(scenery)으로 분류할 수 있다.
도 5c는 복수의 사람을 포함하는 식당에 대한 영상이다. 기존 객체 검출 기반 기술은 화면 내에 배치된 사람으로 인해 화면 유형을 인물(portrait)로 분류하였으나, 본 개시의 실시예에 의한 전자 장치(100)는 사람들의 자세 정보를 판단하고, 사람들과 음식물, 집기류의 관계를 판단하고, 음식물과 집기류가 중앙 영역에 위치하는 것으로 판단하여 화면 유형을 식당(restaurant)으로 분류할 수 있다.
도 5d는 햄버거를 만드는 영상이다. 기존 객체 검출 기반 기술은 화면 내에 배치된 빵과 햄버거로 인해 화면 유형을 식당(restaurant)으로 분류하였으나, 본 개시의 실시예에 의한 전자 장치(100)는 사람들과 음식물 관계를 파악하고, 배경 영역을 판단하여 화면 유형을 음식(food)으로 분류할 수 있다.
도 5e는 사람들을 포함하는 영상이다. 기존 객체 검출 기반 기술은 화면 내에 배치된 음식물로 인해 화면 유형을 식당(restaurant)으로 분류하였으나, 본 개시의 실시예에 의한 전자 장치(100)는 사람들의 자세 정보 및 시선 정보, 사람들과 음식물 관계를 판단하여 화면 유형을 인물(portrait)로 분류할 수 있다.
도 5a 내지 도 5e에 도시된 바와 같이, 기존에는 단순히 영상 내에 존재하는 대표 오브젝트를 통해 화면 유형을 분류하였으나, 본 개시의 일 실시예와 같이, 오브젝트들과의 관계를 파악하여 화면 유형을 분류함으로써 더욱 정확하게 화면 유형을 분류할 수 있다.
다시 도 1에 대해 설명하면, 프로세서(140)는 영상 보정 모듈(145)을 통해 라이브 뷰로 제공되는 제1 영상을 보정할 수 있다. 구체적으로, 영상 보정 모듈(145)은 화면 분석 모듈(144)을 통해 획득된 화면 유형에 대한 정보를 바탕으로 제1 영상을 보정하기 위한 필터 셋을 식별하고, 식별된 필터 셋을 이용하여 라이브 뷰로 제공되는 제1 영상을 보정할 수 있다.
일 실시예로, 영상 보정 모듈(145)은 메모리(110)에 저장된 복수의 필터 셋 중 화면 분석 모듈(144)을 통해 획득된 화면 유형에 대응되는 필터 셋을 획득할 수 있다. 구체적으로, 메모리(110)는 도 6에 도시된 바와 같이, 화면 유형 각각에 대응되는 복수의 화질 요소(예를 들어, 채도, 밝기, 화이트밸런스(WB), 감마보정 등)를 보정할 수 있는 필터 셋을 저장할 수 있다. 그리고, 영상 보정 모듈(145)은 메모리(110)에 저장된 복수의 필터 셋 중 화면 분석 모듈(144)을 통해 획득된 화면 유형에 대응되는 필터 셋을 획득할 수 있다. 그리고, 영상 보정 모듈(145)은 획득된 필터 셋을 바탕으로 라이브 뷰로 제공되는 제1 영상을 보정할 수 있다.
또 다른 실시예로, 영상 보정 모듈(145)은 외부 장치(또는 외부 서버)로부터 필터 셋 정보를 획득할 수 있다. 구체적으로, 영상 보정 모듈(145)은 화면 분석 모듈(144)을 통해 획득된 화면 유형에 정보를 외부 장치로 전송하고, 외부 장치로부터 화면 유형에 대응되는 필터 셋 정보를 획득할 수 있다. 그리고, 영상 보정 모듈(145)은 획득된 필터 셋을 바탕으로 라이브 뷰로 제공되는 제1 영상을 보정할 수 있다.
한편, 프로세서(140)는 보정된 제1 영상을 라이브 뷰로 제공하는 동안 제2 영상의 화면 유형에 대한 정보를 라이브 뷰에 함께 제공하도록 디스플레이(130)를 제어할 수 있다. 예로, 프로세서(140)는 보정된 제1 영상과 함께 "Restaurant 모드"라는 정보를 라이브 뷰 화면 상에 제공하도록 디스플레이(130)를 제어할 수 있다.
도 7a 는 본 개시의 일 실시예에 따른, 화면의 유형에 대응되도록 라이브 뷰를 보정하는 방법을 설명하기 위한 도면이다.
도 7a에 도시된 바와 같이, 제1 렌즈(121)(사용자에 의해 선택된 렌즈로서, 광각 렌즈)는 외부를 통해 수신된 빛을 이용하여 raw 데이터를 획득하고, 획득된 raw 데이터를 ISP(123)로 출력할 수 있다. ISP(123)는 획득된 raw 데이터를 프로세싱하여 제1 영상을 획득할 수 있으며, 전자 장치(100)는 획득된 제1 영상을 라이브 뷰 화면으로 제공할 수 있다(710).
제1 렌즈(121)를 통해 획득된 제1 영상이 라이브 뷰 화면으로 제공되는 동안 제2 렌즈(1220)(초광각 렌즈) 역시 외부를 통해 수신된 빛을 이용하여 raw 데이터를 획득하고, 획득된 raw 데이터를 ISP(123)로 출력할 수 있다. ISP(123)는 획득된 raw 데이터를 프로세싱하여 제2 영상을 획득할 수 있다.
전자 장치(100)는 도 1 및 도 3에서 설명한 바와 같이, 적어도 하나의 신경망 모델을 이용하여 화면 요소를 검출할 수 있다(720). 이때, 전자 장치(100)는 화면 요소에 대한 정보로서 영상에 대한 정보 및 오브젝트에 대한 정보를 출력할 수 있다.
전자 장치(100)는 도 1 및 도 4a 내지 도 5e에서 설명한 바와 같이,영상에 대한 정보 및 오브젝트에 대한 정보를 바탕으로 화면을 분석할 수 있다(730). 이때, 전자 장치(100)는 영상에 대한 정보 및 오브젝트에 대한 정보를 바탕으로 오브젝트들과의 관계를 판단하여 화면 유형에 대한 정보를 획득할 수 있다.
그리고, 전자 장치(100)는 필터셋 DB(750)에 저장된 복수의 필터셋 중 화면 유형에 대응되는 필터 셋을 선택할 수 있다(740). 그리고, 전자 장치(100)는 선택된 필터 셋을 이용하여 라이브 뷰 화면으로 제공되는 제1 영상을 보정하여 제1 영상을 출력하고 저장할 수 있다(760). 즉, 전자 장치(100)는 라이브 뷰 화면으로 제공되는 제1 영상을 실시간으로 보정할 수 있으며, 촬영 명령이 입력되면, 촬영 명령이 입력된 시점에 촬영된 제1 영상에 필터 셋을 적용하여 보정된 제1 영상을 메모리(110)(특히, 메모리(110)내의 갤러리 폴더)에 저장할 수 있다.
도 7b 는 본 개시의 다른 실시예에 따른, 화면의 유형에 대응되도록 라이브 뷰를 보정하는 방법을 설명하기 위한 도면이다.
도 7b는 도 7a와 상이하게 제1 렌즈(122)를 통해 획득된 raw 데이터를 ISP(123)에 입력하지 않고, 바로 raw 데이터를 이용하여 화면 요소를 검출할 수 있다(720). 즉, 도 7b에 도시된 바와 같이, raw 데이터를 이용하여 바로 화면 요소를 검출함으로써, ISP(123)의 프로세싱에 필요한 소비 전력을 줄이고 발열 역시 감소시킬 수 있게 된다.
상술한 실시예에서는 화면 전체에 대한 화면 유형을 판단하여 화면 유형에 대응되는 필터셋을 통해 화면을 보정하는 것으로 설명하였으나, 이는 일 실시예에 불과할 뿐, 화면을 복수의 영역으로 구분하여 구분된 복수의 영역 각각에 대응되는 복수의 필터셋을 이용하여 화면을 보정할 수 있다. 예를 들어, 도 8에 도시된 바와 같이, 전자 장치(100)는 영상을 분할(segmentation)하여 제1 영역(810), 제2 영역(820), 제3 영역(830)으로 구분할 수 있다. 그리고, 전자 장치(100)는 구분된 제1 영역(810)에 대응되는 인물 오브젝트를 보정하기 위한 제1 필터 셋, 구분된 제2 영역(820)에 대응되는 배경을 보정하기 위한 제2 필터 셋, 구분된 제3 영역(830)에 대응되는 음식물 오브젝트를 보정하기 위한 제3 필터 셋을 식별할 수 있다. 그리고, 전자 장치(100)는 제1 필터 셋을 이용하여 제1 영역(810)을 보정하고, 제2 필터 셋을 이용하여 제1 영역(820)을 보정하고, 제3 필터 셋을 이용하여 제3 영역(830)을 보정할 수 있다.
도 9는 본 개시의 일 실시예에 따른, 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
전자 장치(100)는 제1 렌즈를 이용하여 획득된 제1 영상을 라이브 뷰로 제공할 수 있다(S910). 이때, 제1 렌즈는 사용자에 의해 선택된 렌즈로서, 예로, 광각 렌즈일 수 있다.
전자 장치(100)는 제1 영상을 라이브 뷰로 제공하는 동안 제2 렌즈를 이용하여 제2 영상을 획득할 수 있다(S920). 이때, 제2 렌즈는 제1 렌즈보다 넓은 화각의 영상을 획득할 수 있는 렌즈로서, 예로, 초광각 렌즈일 수 있다.
전자 장치(100)는 적어도 하나의 신경망 모델을 이용하여 제2 영상에 대한 정보 및 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 획득할 수 있다(S930). 이때, 제2 영상에 대한 정보는 제2 영상에 대응되는 뎁스 맵 정보 제2 영상에 대응되는 Saliency 정보, 제2 영상의 포커스 정보 등을 포함하며, 특히, 전자 장치(100)는 제1 신경망 모델에 제2 영상을 입력하여 뎁스 맵 정보를 획득하고, 제2 신경망 모델에 제2 영상을 입력하여 saliency 정보를 획득할 수 있다. 또한, 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보는 적어도 하나의 오브젝트의 유형 정보, 적어도 하나의 오브젝트의 3차원 위치 정보, 적어도 하나의 오브젝트가 위치하는 영역에 대한 정보 및 적어도 하나의 오브젝트의 자세 정보를 포함할 수 있다. 특히, 전자 장치(100)는 제3 신경망 모델에 제2 영상을 입력하여 제2 영상 내에 포함된 적어도 하나의 오브젝트와 배경을 분할한 분할 정보(segmentation information) 및 적어도 하나의 오브젝트의 유형 정보를 획득할 수 있다. 그리고, 전자 장치(100)는 분할 정보 및 뎁스 맵 정보를 바탕으로 적어도 하나의 오브젝트의 3차원 위치 정보 및 적어도 하나의 오브젝트가 위치하는 영역에 대한 정보를 획득할 수 있다. 또한, 전자 장치(100)는 제4 신경망 모델에 분할 정보에 포함된 적어도 하나의 오브젝트에 대한 정보를 입력하여 적어도 하나의 오브젝트의 자세 정보를 획득할 수 있다.
전자 장치(100)는 제2 영상에 대한 정보 및 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 바탕으로 제2 영상의 화면 유형을 식별할 수 있다(S940). 구체적으로, 전자 장치(100)는 제5 신경망 모델에 오브젝트의 3차원 위치 정보 및 오브젝트가 위치하는 영역에 대한 정보를 입력하여 적어도 하나의 오브젝트 사이의 관계 정보를 획득할 수 있다. 그리고, 전자 장치(100)는 제6 신경망 모델에 관계 정보, 적어도 하나의 오브젝트의 자세 정보, 제2 영상에 대한 포커스 정보 및 saliency 정보를 입력하여 보정된 saliency 정보를 획득하고, 획득된 saliency 정보를 바탕으로 열지도 정보를 획득할 수 있다. 그리고, 전자 장치(100)는 제2 영상, 열지도 정보 및 적어도 하나의 오브젝트의 유형 정보를 바탕으로 제2 영상의 화면 유형을 식별할 수 있다.
전자 장치(100)는 제2 영상의 화면 유형에 대응되는 필터 셋을 식별할 수 있다(S950). 구체적으로, 전자 장치(100)는 전자 장치(100)내에 저장된 복수의 필터 셋 중 화면 유형에 대응되는 필터 셋을 식별할 수 있다.
전자 장치(100)는 식별된 필터 셋을 바탕으로 제1 영상을 보정하여 라이브 뷰로 제공할 수 있다(S960). 이때, 전자 장치(100)는 보정된 제1 영상을 라이브 뷰로 제공하는 동안 화면 유형에 대한 정보를 라이브 뷰 상에 함께 제공할 수 있다.
도 10은 본 개시의 일 실시예에 따른, 전자 장치의 구성을 설명하기 위한 블록도이다. 도 10에 도시된 바와 같이, 본 개시에 따른 전자 장치(1000)는 디스플레이(1010), 스피커(1020), 카메라(1030), 메모리(1040), 통신 인터페이스(1050), 입력 인터페이스(1060), 센서(1070) 및 프로세서(1080)를 포함할 수 있다. 그러나, 이와 같은 구성은 예시적인 것으로서, 본 개시를 실시함에 있어 이와 같은 구성에 더하여 새로운 구성이 추가되거나 일부 구성이 생략될 수 있음을 물론이다. 한편, 디스플레이(1010), 카메라(1030), 메모리(1040) 및 프로세서(1080)는 도 1에서 설명한 디스플레이(130), 카메라(120), 메모리(110) 및 프로세서(140)와 동일한 구성이므로, 중복되는 설명은 생략한다.
스피커(1020)는 음성 메시지를 출력할 수 있다. 특히, 스피커(1020)는 화면 유형에 대한 정보를 포함하는 안내 메시지를 음성 메시지 형태로 제공할 수 있다. 이때, 스피커(1020)는 전자 장치(1000) 내부에 포함될 수 있으나, 이는 일 실시예에 불과할 뿐, 전자 장치(1000)와 전기적으로 연결되어 외부에 위치할 수 있다.
통신 인터페이스(1050)는 회로를 포함하며, 외부 장치와의 통신을 수행할 수 있다. 구체적으로, 프로세서(1080)는 통신 인터페이스(1050)를 통해 연결된 외부 장치로부터 각종 데이터 또는 정보를 수신할 수 있으며, 외부 장치로 각종 데이터 또는 정보를 전송할 수도 있다.
통신 인터페이스(1050)는 WiFi 모듈, Bluetooth 모듈, 무선 통신 모듈, 및 NFC 모듈 중 적어도 하나를 포함할 수 있다. 구체적으로, WiFi 모듈과 Bluetooth 모듈 각각은 WiFi 방식, Bluetooth 방식으로 통신을 수행할 수 있다. WiFi 모듈이나 Bluetooth 모듈을 이용하는 경우에는 SSID 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다.
또한, 무선 통신 모듈은 IEEE, Zigbee, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), 5G(5th Generation) 등과 같은 다양한 통신 규격에 따라 통신을 수행할 수 있다. 그리고, NFC 모듈은 135kHz, 13.56MHz, 433MHz, 860~960MHz, 2.45GHz 등과 같은 다양한 RF-ID 주파수 대역들 중에서 13.56MHz 대역을 사용하는 NFC(Near Field Communication) 방식으로 통신을 수행할 수 있다.
특히, 본 개시에 따른 다양한 실시 예에 있어서, 통신 인터페이스(1050)는 신경망 모델(144)에 관련된 데이터 등과 같은 다양한 종류의 정보를 외부 장치로부터 수신할 수 있다. 또한, 통신 인터페이스(1050)는 화면 유형에 대한 정보를 외부 장치로 전송할 수 있으며, 화면 유형에 대응되는 필터 셋에 대한 정보를 외부 장치로부터 수신할 수 있다.
입력 인터페이스(1060)는 회로를 포함하며, 프로세서(1080)는 입력 인터페이스(1060)를 통해 전자 장치(1000)의 동작을 제어하기 위한 사용자 명령을 수신할 수 있다. 구체적으로, 입력 인터페이스(1060)는 터치 스크린으로서 디스플레이(1010)에 포함된 형태로 구현될 수 있으나, 이는 일 실시예에 불과한 뿐, 버튼, 마이크 및 리모컨 신호 수신부(미도시) 등과 같은 구성으로 이루어 질 수 있다.
특히, 본 개시에 따른 다양한 실시 예에 있어서, 입력 인터페이스(1060)는 카메라 어플리케이션을 실행하기 위한 사용자 명령, 영상을 촬영하기 위한 사용자 명령, 현재 화면 유형에 대응되는 필터셋으로 라이브 뷰 화면을 보정하기 위한 사용자 명령 등과 같은 다양한 사용자 명령을 입력받을 수 있다.
센서(1070)는 전자 장치(1000)와 관련된 다양한 정보를 획득할 수 있다. 특히, 센서(1070)는 전자 장치(1000)의 위치 정보를 획득할 수 있는 GPS를 포함할 수 있으며, 전자 장치(1000)를 사용하는 사용자의 생체 정보를 획득하기 위한 생체 센서(예로, 심박수 센서, PPG 센서 등), 전자 장치(1000)의 움직임을 감지하기 위한 움직임 센서 등과 같은 다양한 센서를 포함할 수 있다.
프로세서(1080)는 메모리(1040)에 저장된 적어도 하나의 인스트럭션에 따라 전자 장치(1000)를 제어할 수 있다. 특히, 프로세서(1080)는 제1 렌즈(121)를 이용하여 획득된 제1 영상을 디스플레이(1010)에 라이브 뷰로 제공하고, 제1 영상을 라이브 뷰로 제공하는 동안 제2 렌즈(122)를 이용하여 제2 영상을 획득하며, 적어도 하나의 신경망 모델을 이용하여 제2 영상에 대한 정보 및 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 획득하고, 제2 영상에 대한 정보 및 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 바탕으로 제2 영상의 화면 유형을 식별하며, 제2 영상의 화면 유형에 대응되는 필터 셋을 식별하고, 식별된 필터 셋을 바탕으로 라이브 뷰로 제공되는 제1 영상을 보정할 수 있다.
한편, 상술한 실시예에서는 전자 장치(100)가 복수의 렌즈를 이용하여 촬영된 영상 내의 오브젝트들의 관계를 바탕으로 화면의 유형을 판단하고 판단된 화면의 유형에 대응되는 필터 셋을 바탕으로 촬영된 영상을 보정하는 것으로 설명하였으나, 이는 일 실시예에 불과할 뿐, 외부 서버와 연동하여 현재 촬영되는 영상을 보정할 수 있다. 이에 대해서는 도 11을 참조하여 상세히 설명하기로 한다.
우선, 전자 장치(100)는 제1 렌즈를 이용하여 획득된 제1 영상을 라이브 뷰로 제공할 수 있다(S1110).
, 전자 장치(100)는 제1 영상을 라이브 뷰로 제공하는 동안 제2 렌즈를 이용하여 제2 영상을 획득할 수 있다(S1120). 이때, 제2 렌즈는 제1 렌즈보다 넓은 화각의 영상을 획득할 수 있는 렌즈일 수 있다.
전자 장치(100)는 획득된 제2 영상을 서버(1100)로 전송할 수 있다(S1130). 이때, 제2 영상은 도 7a에서 설명한 바와 같이, ISP(123)를 통해 처리된 영상일 수 있으나, 이는 일 실시예에 불과할 뿐, 도 7b에서 설명한 바와 같이, raw 데이터일 수 있다.
서버(1100)는 적어도 하나의 신경망 모델을 이용하여 제2 영상에 대한 정보 및 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 획득할 수 있다(S1140).
서버(1100)는 제2 영상에 대한 정보 및 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 바탕으로 제2 영상의 화면 유형을 식별할 수 있다(S1150).
서버(1100)는 제2 영상의 화면 유형에 대응되는 필터 셋을 식별할 수 있다(S1160). 구체적으로, 서버(1100)는 서버(1100)내에 저장된 복수의 필터 셋 중 제2 화면의 화면 유형에 대응되는 필터 셋을 식별할 수 있다.
서버(1100)는 식별된 필터 셋을 전자 장치(100)로 전송할 수 있다(S1170).
전자 장치(100)는 서버(1100)로부터 전송된 필터 셋을 바탕으로 제1 영상을 보정하여 라이브 뷰로 제공할 수 있다(S1180). 이때, 전자 장치(100)는 보정된 제1 영상을 라이브 뷰로 제공하는 동안 화면 유형에 대한 정보를 라이브 뷰 상에 함께 제공할 수 있으며, 촬영 명령이 입력된 시점에 촬영된 보정된 제1 영상을 저장할 수 있다.
또 다른 실시예로, 전자 장치(100)는 서버(1100)로 제1 영상 및 제2 영상을 모두 전송하고, 서버(1100)는 제2 영상을 바탕으로 필터 셋 정보를 식별하고, 식별된 필터 셋 정보를 바탕으로 제1 영상을 보정할 수 있다. 그리고, 서버(1100)는 보정된 제1 영상을 전자 장치(100)로 전송할 수 있으며, 전자 장치(100)는 서버(1100)로부터 수신한 보정된 제1 영상을 바로 제공할 수 있다.
한편, 이상에서 상술한 바와 같은 신경망 모델에 관련된 기능은 메모리 및 프로세서를 통해 수행될 수 있다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP 등과 같은 범용 프로세서, GPU. VPU 등과 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공 지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 비휘발성 메모리 및 휘발성 메모리에 저장된 기 정의된 동작 규칙 또는 인공 지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 기 정의된 동작 규칙 또는 인공 지능 모델은 학습을 통해 만들어진 것을 특징으로 한다.
여기서, 학습을 통해 만들어진다는 것은, 다수의 학습 데이터들에 학습 알고리즘을 적용함으로써, 원하는 특성의 기 정의된 동작 규칙 또는 인공 지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공 지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버/시스템을 통해 이루어 질 수도 있다.
인공 지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 각 레이어는 복수의 가중치(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치의 연산을 통해 레이어의 연산을 수행한다. 신경망의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network), GAN(Generative Adversarial Networks) 및 심층 Q-네트워크 (Deep Q-Networks)이 있으며, 본 개시에서의 신경망은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
학습 알고리즘은, 다수의 학습 데이터들을 이용하여 소정의 대상 기기(예컨대, 로봇)을 훈련시켜 소정의 대상 기기 스스로 결정을 내리거나 예측을 할 수 있도록 하는 방법이다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으며, 본 개시에서의 학습 알고리즘은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
이상에서 상술한 바와 같은 본 개시의 다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다.
다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
한편, 본 개시에서 사용된 용어 "부" 또는 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. "부" 또는 "모듈"은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.
본 개시의 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치(예: 전자 장치(100))를 포함할 수 있다.
상기 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.
100: 전자 장치 110: 메모리
120: 카메라 130: 디스플레이
140: 프로세서

Claims (18)

  1. 전자 장치에 있어서,
    제1 렌즈 및 상기 제1 렌즈와 상이한 화각의 영상을 획득할 수 있는 제2 렌즈를 포함하는 카메라;
    디스플레이;
    메모리; 및
    상기 제1 렌즈를 이용하여 획득된 제1 영상을 상기 디스플레이에 라이브 뷰로 제공하고,
    상기 제1 영상을 라이브 뷰로 제공하는 동안 상기 제2 렌즈를 이용하여 제2 영상을 획득하며,
    적어도 하나의 신경망 모델을 이용하여 상기 제2 영상에 대한 정보 및 상기 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 획득하고,
    상기 제2 영상에 대한 정보 및 상기 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 바탕으로 상기 제2 영상의 화면 유형을 식별하며,
    상기 제2 영상의 화면 유형에 대응되는 필터 셋을 식별하고,
    상기 식별된 필터 셋을 바탕으로 상기 라이브 뷰로 제공되는 상기 제1 영상을 보정하는 전자 장치.
  2. 제1항에 있어서,
    상기 제2 영상에 대한 정보는,
    상기 제2 영상에 대응되는 뎁스 맵 정보 및 상기 제2 영상에 대응되는 saliency 정보를 포함하며,
    상기 프로세서는,
    제1 신경망 모델에 상기 제2 영상을 입력하여 상기 뎁스 맵 정보를 획득하고, 제2 신경망 모델에 상기 제2 영상을 입력하여 상기 saliency 정보를 획득하는 전자 장치.
  3. 제2항에 있어서,
    상기 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보는,
    상기 적어도 하나의 오브젝트의 유형 정보, 상기 적어도 하나의 오브젝트의 3차원 위치 정보, 상기 적어도 하나의 오브젝트가 위치하는 영역에 대한 정보 및 상기 적어도 하나의 오브젝트의 자세 정보를 포함하며,
    상기 프로세서는,
    제3 신경망 모델에 상기 제2 영상을 입력하여 상기 제2 영상 내에 포함된 상기 적어도 하나의 오브젝트와 배경을 분할한 분할 정보(segmentation information) 및 상기 적어도 하나의 오브젝트의 유형 정보를 획득하고,
    상기 분할 정보 및 상기 뎁스 맵 정보를 바탕으로 상기 적어도 하나의 오브젝트의 3차원 위치 정보 및 상기 적어도 하나의 오브젝트가 위치하는 영역에 대한 정보를 획득하고,
    제4 신경망 모델에 상기 분할 정보에 포함된 적어도 하나의 오브젝트에 대한 정보를 입력하여 상기 적어도 하나의 오브젝트의 자세 정보를 획득하는 전자 장치.
  4. 제3항에 있어서,
    상기 프로세서는,
    제5 신경망 모델에 상기 오브젝트의 3차원 위치 정보 및 상기 오브젝트가 위치하는 영역에 대한 정보를 입력하여 상기 적어도 하나의 오브젝트 사이의 관계 정보를 획득하는 전자 장치.
  5. 제4항에 있어서,
    상기 프로세서는,
    제6 신경망 모델에 상기 관계 정보, 상기 적어도 하나의 오브젝트의 자세 정보, 상기 제2 영상에 대한 포커스 정보 및 상기 saliency 정보를 입력하여 보정된 saliency 정보에 대응되는 열지도 정보를 획득하는 전자 장치.
  6. 제5항에 있어서,
    상기 프로세서는,
    상기 제2 영상, 상기 획득된 열지도 정보 및 상기 적어도 하나의 오브젝트의 유형 정보를 바탕으로 상기 제2 영상의 화면 유형을 식별하는 전자 장치.
  7. 제1항에 있어서,
    상기 메모리는,
    복수의 화면 유형에 대응되는 복수의 필터 셋을 포함하며,
    상기 프로세서는,
    상기 복수의 필터 셋 중 상기 제2 영상의 화면 유형에 대응되는 필터 셋을 식별하는 전자 장치.
  8. 제1항에 있어서,
    상기 프로세서는,
    상기 보정된 제1 영상을 포함하는 라이브 뷰 상에 상기 화면 유형에 대한 정보를 함께 제공하도록 상기 디스플레이를 제어하는 전자 장치.
  9. 제1항에 있어서,
    상기 제2 렌즈는 상기 제1 렌즈보다 넓은 화각의 영상을 획득할 수 있는 전자 장치.
  10. 제1 렌즈 및 상기 제1 렌즈와 상이한 화각의 영상을 획득할 수 있는 제2 렌즈를 포함하는 카메라를 포함하는 전자 장치의 제어 방법에 있어서,
    상기 제1 렌즈를 이용하여 획득된 제1 영상을 라이브 뷰로 제공하는 단계;
    상기 제1 영상을 라이브 뷰로 제공하는 동안 상기 제2 렌즈를 이용하여 제2 영상을 획득하는 단계;
    적어도 하나의 신경망 모델을 이용하여 상기 제2 영상에 대한 정보 및 상기 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 획득하는 단계;
    상기 제2 영상에 대한 정보 및 상기 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보를 바탕으로 상기 제2 영상의 화면 유형을 식별하는 단계;
    상기 제2 영상의 화면 유형에 대응되는 필터 셋을 식별하는 단계; 및
    상기 식별된 필터 셋을 바탕으로 상기 라이브 뷰로 제공되는 상기 제1 영상을 보정하는 단계;를 포함하는 제어 방법.
  11. 제10항에 있어서,
    상기 제2 영상에 대한 정보는,
    상기 제2 영상에 대응되는 뎁스 맵 정보 및 상기 제2 영상에 대응되는 saliency 정보를 포함하며,
    상기 적어도 하나의 오브젝트에 대한 정보를 획득하는 단계는,
    제1 신경망 모델에 상기 제2 영상을 입력하여 상기 뎁스 맵 정보를 획득하고, 제2 신경망 모델에 상기 제2 영상을 입력하여 상기 saliency 정보를 획득하는 제어 방법.
  12. 제11항에 있어서,
    상기 제2 영상에 포함된 적어도 하나의 오브젝트에 대한 정보는,
    상기 적어도 하나의 오브젝트의 유형 정보, 상기 적어도 하나의 오브젝트의 3차원 위치 정보, 상기 적어도 하나의 오브젝트가 위치하는 영역에 대한 정보 및 상기 적어도 하나의 오브젝트의 자세 정보를 포함하며,
    상기 적어도 하나의 오브젝트에 대한 정보를 획득하는 단계는,
    제3 신경망 모델에 상기 제2 영상을 입력하여 상기 제2 영상 내에 포함된 상기 적어도 하나의 오브젝트와 배경을 분할한 분할 정보(segmentation information) 및 상기 적어도 하나의 오브젝트의 유형 정보를 획득하고,
    상기 분할 정보 및 상기 뎁스 맵 정보를 바탕으로 상기 적어도 하나의 오브젝트의 3차원 위치 정보 및 상기 적어도 하나의 오브젝트가 위치하는 영역에 대한 정보를 획득하고,
    제4 신경망 모델에 상기 분할 정보에 포함된 적어도 하나의 오브젝트에 대한 정보를 입력하여 상기 적어도 하나의 오브젝트의 자세 정보를 획득하는 제어 방법.
  13. 제12항에 있어서,
    상기 제2 영상의 화면 유형을 식별하는 단계는,
    제5 신경망 모델에 상기 오브젝트의 3차원 위치 정보 및 상기 오브젝트가 위치하는 영역에 대한 정보를 입력하여 상기 적어도 하나의 오브젝트 사이 관계 정보를 획득하는 제어 방법.
  14. 제13항에 있어서,
    상기 제2 영상의 화면 유형을 식별하는 단계는,
    제6 신경망 모델에 상기 관계 정보, 상기 적어도 하나의 오브젝트의 자세 정보, 상기 제2 영상에 대한 포커스 정보 및 상기 saliency 정보를 입력하여 보정된 saliency 정보에 대응되는 열지도 정보를 획득하는 제어 방법.
  15. 제15항에 있어서,
    상기 제2 영상의 화면 유형을 식별하는 단계는,
    상기 제2 영상, 상기 획득된 열지도 정보 및 상기 적어도 하나의 오브젝트의 유형 정보를 바탕으로 상기 제2 영상의 화면 유형을 식별하는 제어 방법.
  16. 제10항에 있어서,
    상기 전자 장치는,
    복수의 화면 유형에 대응되는 복수의 필터 셋을 저장하며,
    상기 필터 셋을 식별하는 단계는,
    상기 복수의 필터 셋 중 상기 제2 영상의 화면 유형에 대응되는 필터 셋을 식별하는 제어 방법.
  17. 제10항에 있어서,
    상기 보정된 제1 영상을 포함하는 라이브 뷰 상에 상기 화면 유형에 대한 정보를 함께 제공하는 단계;를 포함하는 제어 방법.
  18. 제10항에 있어서,
    상기 제2 렌즈는 상기 제1 렌즈보다 넓은 화각의 영상을 획득할 수 있는 제어 방법.
KR1020210010600A 2021-01-26 2021-01-26 전자 장치 및 이의 제어 방법 KR20220107683A (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020210010600A KR20220107683A (ko) 2021-01-26 2021-01-26 전자 장치 및 이의 제어 방법
PCT/KR2021/018405 WO2022164008A1 (ko) 2021-01-26 2021-12-07 전자 장치 및 이의 제어 방법
EP21923415.0A EP4262190A1 (en) 2021-01-26 2021-12-07 Electronic apparatus and control method thereof
US18/216,295 US20230345111A1 (en) 2021-01-26 2023-06-29 Electronic apparatus and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210010600A KR20220107683A (ko) 2021-01-26 2021-01-26 전자 장치 및 이의 제어 방법

Publications (1)

Publication Number Publication Date
KR20220107683A true KR20220107683A (ko) 2022-08-02

Family

ID=82654786

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210010600A KR20220107683A (ko) 2021-01-26 2021-01-26 전자 장치 및 이의 제어 방법

Country Status (4)

Country Link
US (1) US20230345111A1 (ko)
EP (1) EP4262190A1 (ko)
KR (1) KR20220107683A (ko)
WO (1) WO2022164008A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101510105B1 (ko) * 2008-10-01 2015-04-08 삼성전자주식회사 디지털 영상 촬영 장치
US10147459B2 (en) * 2016-09-22 2018-12-04 Apple Inc. Artistic style transfer for videos
KR102359391B1 (ko) * 2016-11-08 2022-02-04 삼성전자주식회사 디바이스가 이미지를 보정하는 방법 및 그 디바이스
US11126257B2 (en) * 2018-04-17 2021-09-21 Toyota Research Institute, Inc. System and method for detecting human gaze and gesture in unconstrained environments
JP6825041B2 (ja) * 2019-06-11 2021-02-03 株式会社 日立産業制御ソリューションズ 姿勢分析プログラム、および、姿勢分析装置

Also Published As

Publication number Publication date
US20230345111A1 (en) 2023-10-26
EP4262190A1 (en) 2023-10-18
WO2022164008A1 (ko) 2022-08-04

Similar Documents

Publication Publication Date Title
US11831980B2 (en) Electronic device and controlling method of electronic device
US10827126B2 (en) Electronic device for providing property information of external light source for interest object
US11386699B2 (en) Image processing method, apparatus, storage medium, and electronic device
US20200160056A1 (en) Image processing apparatus and control method thereof
WO2018188453A1 (zh) 人脸区域的确定方法、存储介质、计算机设备
US8213690B2 (en) Image processing apparatus including similarity calculating unit, image pickup apparatus, and processing method for the apparatuses
US11527105B2 (en) System and method for scalable cloud-robotics based face recognition and face analysis
KR102459221B1 (ko) 전자 장치, 이의 영상 처리 방법 및 컴퓨터 판독가능 기록 매체
US11977981B2 (en) Device for automatically capturing photo or video about specific moment, and operation method thereof
US11526704B2 (en) Method and system of neural network object recognition for image processing
US20230030267A1 (en) Method and apparatus for selecting face image, device, and storage medium
CN108234882B (zh) 一种图像虚化方法及移动终端
KR20170047167A (ko) 전자 장치가 동영상의 얼굴의 인상을 변형하는 방법 및 그 전자 장치
US10846560B2 (en) GPU optimized and online single gaussian based skin likelihood estimation
US20200272808A1 (en) Method and system for face detection
CN114981836A (zh) 电子设备和电子设备的控制方法
KR20220107683A (ko) 전자 장치 및 이의 제어 방법
US20230283879A1 (en) Electronic device and method for controlling the electronic device
WO2022227916A1 (zh) 图像处理方法、图像处理器、电子设备及存储介质
CN110210306B (zh) 一种人脸跟踪方法和相机
KR20230071633A (ko) 영상에서 인지적 노이즈를 제거하는 영상 처리 방법 및 장치
KR20210153497A (ko) 전자 장치 및 전자 장치의 제어 방법
KR20210095527A (ko) 전자 장치 및 전자 장치의 제어 방법
KR20240068636A (ko) 전자 디바이스들을 위한 관심 영역 캡처
KR20230106297A (ko) 전자 장치 및 그 제어 방법

Legal Events

Date Code Title Description
A201 Request for examination