KR20220080731A - 영상 처리 장치 및 방법 - Google Patents

영상 처리 장치 및 방법 Download PDF

Info

Publication number
KR20220080731A
KR20220080731A KR1020220068524A KR20220068524A KR20220080731A KR 20220080731 A KR20220080731 A KR 20220080731A KR 1020220068524 A KR1020220068524 A KR 1020220068524A KR 20220068524 A KR20220068524 A KR 20220068524A KR 20220080731 A KR20220080731 A KR 20220080731A
Authority
KR
South Korea
Prior art keywords
region
interest
image
image processing
recognition model
Prior art date
Application number
KR1020220068524A
Other languages
English (en)
Other versions
KR102458358B1 (ko
Inventor
김예훈
윤소정
장준익
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20220080731A publication Critical patent/KR20220080731A/ko
Application granted granted Critical
Publication of KR102458358B1 publication Critical patent/KR102458358B1/ko

Links

Images

Classifications

    • H04N5/23218
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • H04N23/635Region indicators; Field of view indicators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • H04N5/23212
    • H04N5/23216
    • H04N5/23219
    • H04N5/23296

Abstract

복수의 데이터 인식 모델들 중에서 소정의 조건에 부합하는 데이터 인식 모델이 학습한 관심 정보에 기초하여, 관심영역을 추정하여 초점을 맞추는 영상 처리 장치 및 영상 처리 방법을 개시한다.
이 경우, 영상 처리 장치는 규칙 기반 또는 인공 지능 알고리즘을 이용하여 관심 영역을 추정할 수 있다. 인공 지능 알고리즘을 이용하여 관심 영역을 추정하는 경우, 영상 처리 장치는 기계 학습, 신경망 또는 딥러닝 알고리즘을 이용하여 관심 영역을 추정할 수 있다.

Description

영상 처리 장치 및 방법{Apparatus and method for processing image}
영상 처리 장치 및 영상 처리 방법에 관한 것이다.
또한 본 개시는 딥러닝 등의 기계 학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 인공 지능(Artificial Intelligence, AI) 시스템 및 그 응용 기술에 관련된 것이다.
영상을 처리함에 있어 자동으로 초점을 맞추어 주는 것은 영상에 대한 사용자의 만족감을 증대시킬수 있는 작업으로서, 일반적으로 영상 내에서 사용자의 시선이 집중될 수 있는 영역을 관심영역으로 보아, 이와 같은 관심영역에 초점을 맞추는 영상 처리 방식이 있다.
또한, 최근 영상 처리 분야에도 인공지능 시스템이 도입되고 있다.
인공지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공 지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다.
기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하며 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
복수의 데이터 인식 모델들 중에서 소정의 조건에 부합하는 데이터 인식 모델이 학습한 관심 정보에 기초하여, 관심영역을 추정하여 초점을 맞추는 영상 처리 장치 및 영상 처리 방법을 제공하는 것이다.
제 1 측면에 따른 영상 처리 장치는, 적어도 하나의 피사체를 포함하는 라이브 뷰 영상을 획득하는 촬영부; 컴퓨터 실행가능 명령어(computer executable instruction)를 저장하는 메모리; 상기 컴퓨터 실행가능 명령어를 실행함으로써, 데이터 인식 모델들 중에서 소정의 조건에 대응되는 데이터 인식 모델에 기초하여, 상기 데이터 인식 모델이 학습한 관심 정보에 해당하는지 판단하는 기준에 따라, 상기 획득된 라이브 뷰 영상에서 사용자의 관심영역을 추정하고, 상기 추정된 관심영역에 초점을 맞추는 적어도 하나의 프로세서; 및 상기 추정된 관심영역에 초점을 맞춘 상기 라이브 뷰 영상을 디스플레이하는 입출력부;를 포함한다.
제 2 측면에 따른 영상 처리 방법은, 적어도 하나의 피사체를 포함하는 라이브 뷰 영상을 획득하는 단계; 데이터 인식 모델들 중에서 소정의 조건에 대응되는 데이터 인식 모델에 기초하여, 상기 데이터 인식 모델이 학습한 관심 정보에 해당하는지 판단하는 기준에 따라, 상기 획득된 라이브 뷰 영상에서 사용자의 관심영역을 추정하는 단계; 상기 추정된 관심영역에 초점을 맞추는 단계; 및 상기 추정된 관심영역에 초점을 맞춘 상기 라이브 뷰 영상을 디스플레이하는 단계;를 포함한다.
제 3 측면에 따라, 상기 영상 처리 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체이다.
도 1a는 일 실시예에 따른 영상 처리 장치를 설명하기 위한 블록도이다.
도 1b는 다양한 실시예에 따른 영상 처리 장치의 구성을 도시한 도면이다.
도 2는 일 실시예에 따른 촬영부의 블록도이다.
도 3은 일 실시예에 따른 제어부의 동작을 설명하기 위한 도면이다.
도 4a 및 도 4b 일 실시예에 따른 영상 처리 장치에서 돌출 영역을 사용자의 관심영역으로 추정하여 초점을 맞춘 예를 설명하기 위한 도면이다.
도 5a 및 도 5b는 일 실시예에 따른 영상 처리 장치에서 개인 맞춤화된 관심 정보에 대응되는 영역을 사용자의 관심영역으로 추정하여 초점을 맞춘 예를 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 제어부의 블록도이다.
도 7은 일 실시예에 따른 데이터 학습부의 블록도이다.
도 8은 일 실시예에 따른 데이터 인식부의 블록도이다.
도 9는 다른 일 실시예에 따른 영상 처리 장치를 설명하기 위한 블록도이다.
도 10은 일부 실시예에 따른 영상 처리 장치 및 서버가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.
도 11은 또 다른 일 실시예에 따른 영상 처리 장치를 설명하기 위한 블록도이다.
도 12는 일 실시예에 따른 영상 처리 방법을 나타내는 흐름도이다.
도 13은 일 실시예에 따른 영상 처리 장치가 제 1 프로세서 및 제 2 프로세서를 포함하는 경우에 관심 영역을 추정하는 상황을 설명하기 위한 흐름도이다.
도 14는 일 실시예에 따른 영상 처리 장치가 제 1 프로세서, 제 2 프로세서, 및 제 3 프로세서를 포함하는 경우에 관심 영역을 추정하는 상황을 설명하기 위한 흐름도이다.
도 15는 일 실시예에 따른 전자 장치가 제 1 프로세서, 제 2 프로세서, 및 제 3 프로세서를 포함하는 경우에 관심 영역을 추정하는 다른 상황을 설명하기 위한 흐름도이다.
도 16은 일 실시예에 따른 영상 처리 장치가 서버를 이용하여 관심 영역을 추정하는 상황을 설명하기 위한 흐름도이다.
이하 첨부된 도면을 참조하면서 오로지 예시를 위한 실시예를 상세히 설명하기로 한다. 하기 실시예는 기술적 내용을 구체화하기 위한 것일 뿐 권리 범위를 제한하거나 한정하는 것이 아님은 물론이다. 상세한 설명 및 실시예로부터 해당 기술분야의 전문가가 용이하게 유추할 수 있는 것은 권리범위에 속하는 것으로 해석된다.
한편, 본 명세서에서 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐 아니라, '그 중간에 다른 구성을 사이에 두고 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성이 다른 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들 더 포함할 수도 있다는 것을 의미한다.
또한, 본 명세서에서 사용되는 '제 1' 또는 '제 2' 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용할 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다.
본 명세서에서 "영상 처리 장치"란 촬영 기능을 구비한 전자 장치를 총칭하는 용어를 의미한다. 예를 들어, 카메라 모듈을 구비하고 있는 스마트폰이나 디지털 카메라와 같은 디바이스가 영상 처리 장치에 해당 될 수 있다.
본 실시예들은 영상 처리 장치 및 영상 처리 방법에 관한 것으로서 이하의 실시예들이 속하는 기술 분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서는 자세한 설명을 생략한다.
도 1a는 일 실시예에 따른 영상 처리 장치(1000)를 설명하기 위한 블록도이다. 본 실시예와 관련된 기술분야에서 통상의 지식을 가진 자라면 도 1에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 알 수 있다.
도 1a에 도시된 바와 같이, 일 실시예에 따른 영상 처리 장치(1000)는 메모리(1100), 제어부(1200), 입출력부(1300), 촬영부(1610)을 포함할 수 있다.
촬영부(1610)는 적어도 하나의 피사체를 포함하는 영상을 획득할 수 있다. 예를 들어, 촬영부(1610)는 적어도 하나의 피사체를 포함하는 라이브 뷰 영상을 획득할 수 있고, 실제 촬영이 수행될 때 영상 처리 장치(1000)에 저장될 촬영 영상을 획득할 수 있다. 촬영부(1610)는 사용자의 촬영 명령에 대한 응답으로, 추정된 관심영역에 초점을 맞추어 영상을 촬영할 수 있다. 촬영부(1610)에 관한 상세한 설명은 도 2에서 상세히 설명한다.
메모리(1100)는 제어부(1200)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 영상 처리 장치(1000)로 입력되거나 영상 처리 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다. 메모리(1100)는 컴퓨터 실행가능 명령어(computer executable instruction)를 저장할 수 있다.
제어부(1200)는, 통상적으로 영상 처리 장치(1000)의 전반적인 동작을 제어한다. 제어부(1200)는 적어도 하나의 프로세서를 구비할 수 있다. 제어부(1200)는 그 기능 및 역할에 따라, 복수의 프로세서들을 포함하거나, 통합된 형태의 하나의 프로세서를 포함할 수 있다.
제어부(1200)를 구성하는 적어도 하나의 프로세서는 메모리(1100)에 저장된 컴퓨터 실행가능 명령어를 실행함으로써, 데이터 인식 모델들 중에서 소정의 조건에 대응되는 데이터 인식 모델에 기초하여, 데이터 인식 모델이 학습한 관심 정보에 해당하는지 판단하는 기준에 따라, 획득된 라이브 뷰 영상에서 사용자의 관심영역을 추정하고, 추정된 관심영역에 초점을 맞출 수 있다. 제어부(1200)에 관한 상세한 설명은 도 3 내지 도 8에서 상세히 설명한다.
입출력부(1300)는 추정된 관심영역에 초점을 맞춘 라이브 뷰 영상을 디스플레이할 수 있다. 입출력부(1300)는 관심영역에 초점을 맞추는 작업이 실시간으로 반영된 라이브 뷰 영상을 디스플레이할 수 있다.
도 1b는 다양한 실시예에 따른 영상 처리 장치(1000)의 구성을 도시한 도면이다.
도 1b를 참조하면, 영상 처리 장치(1000)는 제 1 프로세서(1200a) 및 제 2 프로세서(1200b)를 가지고 있는 제어부(1200)를 포함할 수 있다.
제 1 프로세서(1200a)는 영상 처리 장치(1000)에 설치된 적어도 하나의 어플리케이션의 실행을 제어하고, 영상 처리 장치(1000)에 획득되는 이미지(예: 라이브 뷰 이미지, 촬영된 이미지 등)에 대한 그래픽 처리를 수행할 수 있다. 제 1 프로세서(1200a)는 CPU(central processing unit), GPU(graphic processing unit), 통신칩 및 센서 등의 기능이 통합된 SoC(system on chip) 형태로 구현될 수 있다. 또한, 제 1 프로세서(1200a)는 본 명세서 내에서 AP(application processor)로 설명될 수도 있다.
제 2 프로세서(1200b)는 데이터 인식 모델을 이용하여 이미지의 관심 영역을 추정할 수 있다.
한편, 제 2 프로세서(1200b)는 데이터 인식 모델을 이용한 관심 영역 추정의 기능을 수행하는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수 있다. 다양한 실시예에 따르면, 시각적 이해를 요소기술로 하는 데이터 인식 모델의 경우, 인공 지능(AI: artificial intelligence)을 위한 전용 하드웨어 칩은 GPU를 포함할 수 있다.
또한, 영상 처리 장치(1000)는 제 2 프로세서(1200b)와 동일한 기능을 수행하는 제 3 프로세서, 제 4 프로세서 등을 더 포함할 수도 있다. 이 경우, 각각의 프로세서들은 서로 다른 데이터 인식 모델을 이용하여 관심 영역 추정 기능을 수행할 수도 있다.
본 개시의 다양한 실시예에 따르면, 제 1 프로세서(1200a)가 수행하는 기능은 메모리(1100)에 저장되어 다양한 기능을 수행하는 어플리케이션들을 위하여 수행될 수 있고, 제 2 프로세서(1200b)가 수행하는 기능은 영상 처리 장치(1000)의 OS를 위하여 수행될 수 있다.
예를 들어, 카메라 어플리케이션은 라이브 뷰 영상을 생성하고, 소정의 조건에 대응하는 데이터 인식 모델을 결정할 수 있다. 카메라 어플리케이션은 OS 및/또는 영상 처리 장치(1000)의 외부에 위치하는 서버에 대하여 결정된 데이터 인식 모델 및 관심 영역 추정 요청과 관련된 정보를 전송할 수 있다.
OS 및/또는 외부의 서버는 각각 포함된 데이터 인식 모델을 이용하여 관심 영역을 추정할 수 있다. 이때, OS 및/또는 외부의 서버가 추정된 관심 영역에 초점을 맞출 수 있으나. 이에 한정되는 것은 아니다.
도 2는 일 실시예에 따른 촬영부의 블록도이다. 본 실시예와 관련된 기술분야에서 통상의 지식을 가진 자라면 도 2에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 알 수 있다.
촬영부(1610)는 입사광으로부터 전기적인 신호의 영상을 생성하는 구성요소로서, 렌즈(1611), 렌즈 구동부(1612), 조리개(1613), 조리개 구동부(1614), 촬상 소자(1615), 및 촬상 소자 제어부(1616)를 포함한다.
렌즈(1611)는 복수 군, 복수 매의 렌즈들을 구비할 수 있다. 렌즈(1611)는 렌즈 구동부(1612)에 의해 그 위치가 조절된다. 렌즈 구동부(1612)는 제어부(1200)에서 제공된 제어 신호에 따라 렌즈(1611)의 위치를 조절한다.
조리개(1613)는 조리개 구동부(1614)에 의해 그 개폐 정도가 조절되며, 촬상 소자(1615)로 입사되는 광량을 조절한다.
렌즈(1611) 및 조리개(1613)를 통과한 광학 신호는 촬상 소자(1615)의 수광면에 이르러 피사체의 상을 결상한다. 상기 촬상 소자(1615)는 광학 신호를 전기 신호로 변환하는 CCD(Charge Coupled Device) 이미지센서 또는 CIS(Complementary Metal Oxide Semiconductor Image Sensor)일 수 있다. 이와 같은 촬상 소자(1615)는 촬상 소자 제어부(1616)에 의해 감도 등이 조절될 수 있다. 촬상 소자 제어부(1616)는 실시간으로 입력되는 영상 신호에 의해 자동으로 생성되는 제어 신호 또는 사용자의 조작에 의해 수동으로 입력되는 제어 신호에 따라 촬상 소자(1615)를 제어할 수 있다.
촬상 소자(1615)의 노광 시간은 셔터(미도시)로 조절된다. 셔터(미도시)는 가리개를 이동시켜 빛의 입사를 조절하는 기계식 셔터와, 촬상 소자(1615)에 전기 신호를 공급하여 노광을 제어하는 전자식 셔터가 있다.
아날로그 신호 처리부(미도시)는 촬상 소자(1615)로부터 공급된 아날로그 신호에 대하여, 노이즈 저감 처리, 게인 조정, 파형 정형화, 아날로그-디지털 변환 처리 등을 수행할 수 있다. 아날로그 신호 처리부(미도시)로부터 출력된 영상 신호는 제어부(1200)에 입력될 수 있다. 제어부(1200)에 입력된 영상 신호는 디지털 신호 처리를 통해 라이브 뷰 영상이 될 수 있다.
도 3은 일 실시예에 따른 제어부의 동작을 설명하기 위한 도면이다.
제어부(1200)를 구성하는 적어도 하나의 프로세서는 촬영부(1610)로부터 입력된 영상 신호에 기초하여 라이브 뷰 영상을 획득할 수 있다. 제어부(1200)를 구성하는 적어도 하나의 프로세서는 복수 개의 데이터 인식 모델들 중에서 소정의 조건에 대응되는 데이터 인식 모델에 기초하여, 데이터 인식 모델이 학습한 관심 정보에 해당하는지 판단하는 기준에 따라, 획득된 라이브 뷰 영상에서 사용자의 관심 영역을 추정하고, 추정된 관심영역에 초점을 맞출 수 있다.
예를 들어, 제어부(1200)를 구성하는 적어도 하나의 프로세서는 제 1 조건을 만족할 때, 제 1 데이터 인식 모델이 학습한 돌출(saliency) 영역에 해당하는지 판단하는 기준에 따라, 돌출 영역을 사용자의 관심영역으로 추정할 수 있다. 돌출 영역은 영상에서 부각되거나 특징이 있는 곳이라고 일반적으로 인식되는 영역을 말하며, 피사체가 영상에서 차지하는 면적 또는 영상의 색상 분포에 관한 소정의 기준에 의해 결정될 수 있다. 제 1 데이터 인식 모델은 돌출 영역에 해당하는지 판단하는 기준에 대하여 학습할 수 있다. 제 1 데이터 인식 모델은 촬영부(1200)에서 획득된 라이브 뷰 영상에서 돌출 영역을 결정할 때, 학습한 돌출 영역에 해당하는지 판단하는 기준을 이용할 수 있다.
도 4a 및 도 4b 일 실시예에 따른 영상 처리 장치(1000)에서 돌출 영역을 사용자의 관심영역으로 추정하여 초점을 맞춘 예를 설명하기 위한 도면이다.
도 4a를 보면, 같은 품종의 단일 색의 꽃밭을 지나가는 사람의 형태 또는 면적이 배경인 꽃밭 영역과 비교하여 다른 점이 두드러지고, 노란색인 꽃들과는 다른 색상의 옷을 입었기 때문에 부각되므로, 영상 처리 장치(1000)는 영상에서 사람에 대응되는 영역을 돌출 영역에 해당된다고 판단하고, 영상 내에서 사람에 대응되는 영역을 관심영역으로 추정하여 초점을 맞출 수 있다.
도 4b를 보면, 길게 이어진 도로와 숲 사이에 역시 길게 이어진 펜스가 있는 영상에서, 홀로 세워진 빨간 색의 공중 전화 박스에 대응되는 영역을 영상 처리 장치(1000)는 돌출 영역에 해당된다고 판단하고, 영상 내에서 공중 전화 박스에 대응되는 영역을 관심영역으로 추정하여 초점을 맞출 수 있다.
제어부(1200)를 구성하는 적어도 하나의 프로세서는 제 2 조건을 만족할 때, 제 2 데이터 인식 모델이 학습한 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준에 따라, 개인 맞춤화된 관심 정보에 대응되는 영역을 사용자의 관심 영역으로 추정할 수 있다. 개인 맞춤화된 관심 정보는 영상 처리 장치(1000)에 저장된 사용자의 영상들에 관한 소정의 통계에 의해 결정될 수 있다. 제 2 데이터 인식 모델은 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준에 대하여 학습할 수 있다. 제 2 데이터 인식 모델은 촬영부(1200)에서 획득된 라이브 뷰 영상에서 개인 맞춤화된 관심 정보에 대응되는 영역을 결정할 때, 학습한 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준을 이용할 수 있다.
도 5a 및 도 5b는 일 실시예에 따른 영상 처리 장치(1000)에서 개인 맞춤화된 관심 정보에 대응되는 영역을 사용자의 관심영역으로 추정하여 초점을 맞춘 예를 설명하기 위한 도면이다.
도 5a를 보면, 사람과 자동차가 포함된 영상에서, 영상 처리 장치(1000)는 개인 맞춤화된 관심 정보가 자동차인 경우, 영상 내에서 자동차에 대응되는 영역을 관심영역으로 추정하여 초점을 맞출 수 있다. 즉, 사람과 자동차가 포함된 영상에서, 사람에게 초점을 맞추는 것이 일반적일 수 있으나, 개인 맞춤화된 관심 정보가 자동차라고 결정되어 있는 경우, 자동차에 대응되는 영역을 사용자의 관심영역으로 추정하여 초점을 맞출 수 있다.
도 5b를 보면, 여러 명의 아기가 포함된 영상에서, 영상 처리 장치(1000)는 개인 맞춤화된 관심 정보가 사용자 자신의 아기인 경우, 영상 내에서 사용자 자신의 아기에 대응되는 영역을 관심영역으로 추정하여 초점을 맞출 수 있다. 즉, 여러 명의 아기가 포함된 영상에서, 모든 아기에게 또는 제일 가까운 위치의 아기에게 초점을 맞추는 것이 일반적일 수 있으나, 개인 맞춤화된 관심 정보가 사용자 자신의 아기라고 결정되어 있는 경우, 사용자 자신의 아기에 대응되는 영역을 사용자의 관심영역으로 추정하여 초점을 맞출 수 있다.
한편, 제 2 조건은 영상 처리 장치(1000)에 저장된 영상들의 개수가 소정의 개수보다 많고, 개인 맞춤화된 관심 정보에 대한 신뢰도가 소정의 조건을 만족하는 경우이고, 제 1 조건은 제 2 조건을 만족하지 않는 경우인 것을 의미한다. 영상 처리 장치(1000)에 저장된 영상들의 개수가 소정의 개수보다 많지 않거나, 개인 맞춤화된 관심 정보에 대한 신뢰도가 소정의 조건을 만족하지 않는 경우, 제 2 조건을 만족하지 않는 것으로 보며, 개인 맞춤화된 관심 정보의 정확도가 떨어지므로, 제 1 데이터 인식 모델을 이용하여 관심 영역을 추정한다.
제어부(1200)를 구성하는 적어도 하나의 프로세서는 관심 정보의 우선순위에 기초하여, 우선순위가 높은 관심 정보에 대응되는 영역을 사용자의 관심 영역으로 추정할 수 있다.
제어부(1200)를 구성하는 적어도 하나의 프로세서는 복수 개의 관심영역이 추정된 경우, 복수 개의 관심영역 모두에 대해 초점을 맞추는 다중 초점을 수행할 수 있다. 또한, 제어부(1200)를 구성하는 적어도 하나의 프로세서는 복수 개의 관심영역이 추정된 경우, 복수 개의 관심영역 중 사용자가 선택한 관심영역에 대해 초점을 맞출 수도 있다.
제어부(1200)를 구성하는 적어도 하나의 프로세서는 추정된 관심 영역에 초점을 맞추기 위한 제어 신호를 촬영부(1610)에 전송할 수 있다.
도 6은 일 실시예에 따른 제어부(1200)의 블록도이다.
도 6을 참조하면, 일부 실시예에 따른 제어부(1200)는 데이터 학습부(1210) 및 데이터 인식부(1220)를 포함할 수 있다.
데이터 학습부(1210)는 데이터 인식 모델(예: 도 3의 제 1 데이터 인식 모델, 제 2 데이터 인식 모델)이 영상 내에서 사용자의 관심영역을 추정하기 위해, 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하는 판단 기준을 갖도록 학습할 수 있다. 데이터 학습부(1210)는 관심 정보에 해당하는지 판단하기 위하여 어떤 데이터를 이용할지, 데이터를 이용하여 관심 정보에 해당하는지 여부를 어떻게 판단할 지에 관한 판단 기준을 데이터 인식 모델이 갖도록 학습할 수 있다. 데이터 학습부(1210)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 데이터 인식 모델에 적용함으로써, 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하는 판단 기준을 학습할 수 있다.
데이터 인식부(1220)는 다양한 종류의 데이터에 기초하여 영상 내의 어느 영역이 관심 정보에 해당하는지 판단할 수 있다. 데이터 인식부(1220)는 데이터 인식 모델들 중에서 소정의 조건에 대응되어 학습된 데이터 인식 모델을 이용하여, 영상 내의 어느 영역이 관심 정보에 해당하는지 판단할 수 있다. 데이터 인식부(1220)는 데이터 인식 모델별로 학습에 의해 획득한 기준에 따라, 적어도 하나의 피사체를 포함하는 라이브 뷰 영상을 입력 값으로 하여 데이터 인식 모델을 적용함으로써, 영상 내의 어느 영역이 관심 정보에 해당하는지 판단할 수 있다. 한편, 데이터 인식 모델을 적용하여 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하여 사용자의 관심 영역을 추정한 결과와 추정 결과에 대한 사용자의 응답은 데이터 인식 모델을 갱신하는데 이용될 수 있다.
데이터 학습부(1210) 및 데이터 인식부(1220) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 영상 처리 장치에 탑재될 수 있다. 예를 들어, 데이터 학습부(1210) 및 데이터 인식부(1220) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 영상 처리 장치에 탑재될 수도 있다.
이 경우, 데이터 학습부(1210) 및 데이터 인식부(1220)는 하나의 영상 처리 장치에 탑재될 수도 있으며, 또는 별개의 영상 처리 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 학습부(1210) 및 데이터 인식부(1220) 중 하나는 영상 처리 장치에 포함되고, 나머지 하나는 서버에 포함될 수 있다. 또한, 데이터 학습부(1210) 및 데이터 인식부(1220)는 유선 또는 무선으로 통하여, 데이터 학습부(1210)가 구축한 모델 정보를 데이터 인식부(1220)로 제공할 수도 있고, 데이터 인식부(1220)로 입력된 데이터가 추가 학습 데이터로서 데이터 학습부(1210)로 제공될 수도 있다.
한편, 데이터 학습부(1210) 및 데이터 인식부(1220) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 학습부(1210) 및 데이터 인식부(1220) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 7은 일 실시예에 따른 데이터 학습부(1210)의 블록도이다.
도 7을 참조하면, 일부 실시예에 따른 데이터 학습부(1210)는 데이터 획득부(1210-1), 전처리부(1210-2), 학습 데이터 선택부(1210-3), 모델 학습부(1210-4) 및 모델 평가부(1210-5)를 포함할 수 있다.
데이터 획득부(1210-1)는 데이터 인식 모델(예: 도 3의 제 1 데이터 인식 모델, 제 2 데이터 인식 모델)이 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하는 판단 기준을 갖도록 학습하기 위하여 필요한 데이터를 획득할 수 있다. 데이터 획득부(1210-1)는 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하기 위한 학습을 위하여 필요한 데이터를 획득할 수 있다.
예를 들어, 데이터 획득부(1210-1)는 영상 데이터 예를 들어, 이미지, 동영상 등을 획득할 수 있다. 데이터 획득부(1210-1)는 영상 처리 장치(1000)에서 직접 입력된 데이터나 선택된 데이터 등을 획득할 수 있다. 또한, 데이터 획득부(1210-1)는 영상 처리 장치(1000)에서 다양한 센서들을 이용하여 감지되는 다양한 센싱 정보들을 획득할 수 있다. 또한, 데이터 획득부(1210-1)는 영상 처리 장치(1000)와 통신하는 서버(2000)와 같은 외부 장치로부터 수신된 데이터를 획득할 수 있다.
데이터 획득부(1210-1)는 사용자로부터 입력받은 데이터, 영상 처리 장치(1000)에서 촬영되었거나 기 저장된 데이터, 또는 서버와 같은 외부 장치로부터 수신된 데이터 등을 획득할 수 있으나, 이에 제한되지 않는다.
전처리부(1210-2)는 데이터 인식 모델이 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하기 위한 학습에 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1210-2)는 후술할 모델 학습부(1210-4)가 상황 판단을 위한 학습을 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.
예를 들어, 전처리부(1210-2)는 데이터 획득부(1210-1)에서 획득한 이미지, 동영상 등의 데이터에 대해, 의미 있는 데이터를 선별할 수 있도록 노이즈를 제거하거나, 소정의 형태로 가공할 수 있다.
학습 데이터 선택부(1210-3)는 데이터 인식 모델이 전처리된 데이터 중에서 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하기 위한 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 모델 학습부(1210-4)에 제공될 수 있다. 학습 데이터 선택부(1210-3)는 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하기 위한 기 설정된 판단 기준에 따라, 전처리된 데이터 중에서 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하기 위한 학습에 필요한 데이터를 선택할 수 있다. 또한, 학습 데이터 선택부(1210-3)는 후술할 모델 학습부(1210-4)에 의한 학습에 의해 기 설정된 선별 기준에 따라 데이터를 선택할 수도 있다.
학습 데이터 선택부(1210-3)는 이미지, 동영상 등의 각각의 데이터 형태마다, 데이터 선택을 위한 선별 기준을 가질 수 있으며, 이와 같은 선별 기준을 이용하여 학습에 필요한 데이터를 선택할 수 있다.
학습 데이터 선택부(1210-3)는 데이터 인식 모델이 영상 내의 어느 영역이 관심 정보에 해당하는지 학습하기 위한 학습에 필요한 데이터를 선택할 수 있다.
모델 학습부(1210-4)는 데이터 인식 모델이 학습 데이터에 기초하여 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하는 판단 기준을 갖도록 학습할 수 있다. 또한, 모델 학습부(1210-4)는 데이터 인식 모델이 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하기 위하여 어떤 학습 데이터를 이용해야 하는지에 대한 선별 기준을 학습할 수도 있다.
모델 학습부(1210-4)는 데이터 인식 모델이 영상 내의 어느 영역이 관심 정보에 해당하는지를 어떻게 판단할지 학습할 수 있다. 예를 들어, 모델 학습부(1210-4)는 제 1 데이터 인식 모델이 영상 내의 어느 영역이 돌출 영역에 해당하는지를 어떻게 판단할지 학습할 수 있다. 또한, 모델 학습부(1210-4)는 제 2 데이터 인식 모델이 영상 내의 어느 영역이 개인 맞춤화된 관심 정보에 해당하는지를 어떻게 판단할지 학습할 수 있다.
또한, 모델 학습부(1210-4)는 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하는데 이용되는 데이터 인식 모델을 학습 데이터를 이용하여 학습시킬 수 있다. 이 경우, 데이터 인식 모델은 미리 구축된 모델일 수 있다. 예를 들어, 데이터 인식 모델은 기본 학습 데이터(예를 들어, 샘플 텍스트 등)을 입력 받아 미리 구축된 모델일 수 있다.
모델 학습부(1210-4)는, 예를 들어, 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 데이터 인식 모델을 학습시킬 수 있다. 또한, 모델 학습부(1210-4)는, 예를 들어, 별다른 지도없이 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하기 위해 필요한 데이터의 종류를 스스로 학습함으로써, 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하기 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다. 또는, 모델 학습부(1210-4)는, 예를 들어, 학습에 따른 영상 내의 어느 영역이 관심 정보에 해당하는지 판단한 결과가 올바른지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 인식 모델을 학습시킬 수 있다.
일 실시예에 따르면, 모델 학습부(1210-4)는 제 1 데이터 인식 모델이 영상, 및 영상에 포함된 색 또는 형태 중 적어도 하나가 주변과 차이나는 영역의 좌표 정보 등을 포함하는 학습 데이터를 이용하여 관심 영역을 추정하는 판단 기준을 갖도록 학습할 수 있다.
예를 들면, 모델 학습부(1210-4)는 도 4a와 같은 영상과 영상 내에 포함된 사람의 형태가 위치한 영역의 좌표 정보를 포함하는 학습 데이터를 이용하는 지도 학습 방법을 이용하여 학습을 진행할 수 있다.
이로 인해, 모델 학습부(1210-4)에 의해 학습된 제 1 데이터 인식 모델은 영상 촬영 장치(1000)가 생성한 라이브 뷰 영상에 포함된 객체를 인식하고, 인식된 객체들 중에서 주변 영역과 색상 및/또는 형태가 상이한 객체가 위치한 영역을 관심 영역으로 추정할 수 있다.
또한, 일 실시예에 따르면, 모델 학습부(1210-4)는 제 2 데이터 인식 모델이 사용자가 영상 촬영 장치(1000)를 이용하여 촬영한 영상을 이용하여 관심 영역을 추정하는 판단 기준을 갖도록 학습할 수 있다.
예를 들면, 모델 학습부(1210-4)는, 비지도 학습 방법을 이용하여, 도 5a와 같은 사용자가 촬영한 영상을 입력받아 관심 영역을 추정하는 판단기준을 갖도록 학습할 수 있다.
구체적으로, 모델 학습부(1210-4)는 사용자가 촬영한 영상에서 객체를 인식할 수 있다. 예를 들면, 모델 학습부(1210-4)는 갤러리 어플리케이션에 저장된 사용자 촬영 다수의 영상들에 대하여 각각 객체를 인식할 수 있다. 모델 학습부(1210-4)는 인식된 객체의 형태에 따라서 유사한 형태의 객체들을 그룹별로 구분할 수 있다. 또는, 모델 학습부(1210-4)는 인식된 객체들의 빈도수에 따라서 생성된 그룹의 순위를 선정할 수 있다. 따라서, 모델 학습부(1210-4)는 영상 촬영 장치(1000)의 사용자가 주로 촬영하고 많이 촬영하는 객체를 이용하여 학습할 수 있다.
이로 인해, 모델 학습부(1210-4)에 의해 학습된 제 2 데이터 인식 모델은 영상 촬영 장치(1000)가 생성한 라이브 뷰 영상에 포함된 객체 중 영상 촬영 장치(1000)의 사용자 선호도가 높은 객체가 위치한 영역을 관심 영역으로 추정할 수 있다. 즉, 제 2 데이터 인식 모델은 영상 촬영 장치(1000)를 사용하는 사용자의 선호도에 맞추어진 관심 영역을 추정할 수 있다.
다양한 실시예에 따르면, 영상 처리 장치(1000)는 제 2 데이터 인식 모델 중에서 사용자의 선호도가 높은 일부 객체만을 추정할 수 있도록 학습된 제 4 데이터 인식 모델을 생성할 수 있다. 예를 들어, 모델 학습부(1210-4)는 사용자가 촬영한 영상을 학습한 결과, A 그룹, B 그룹, C 그룹, D 그룹을 생성할 수 있다. 이 때, 영상 처리 장치(1000)는 사용자가 촬영한 영상에서 검출된 객체 중 빈도수가 가장 높은 A 그룹에 속한 객체만을 검출할 수 있는 제 4 데이터 인식 모델을 생성할 수 있다. 이 경우, 영상 처리 장치(1000)는 주어진 상황에 따라 제 2 데이터 인식 모델과 제 4 데이터 인식 모델을 선택적으로 또는 순차적으로 사용할 수 있다.
데이터 인식 모델은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 구축될 수 있다. 데이터 인식 모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 데이터 인식 모델로서 사용될 수 있으나, 이에 한정되지 않는다.
다양한 실시예에 따르면, 모델 학습부(1210-4)는 미리 구축된 데이터 인식 모델이 복수 개가 존재하는 경우, 입력된 학습 데이터와 기본 학습 데이터의 관련성이 큰 데이터 인식 모델을 학습할 데이터 인식 모델로 결정할 수 있다. 이 경우, 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 인식 모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 기본 학습 데이터는 학습 데이터가 생성된 지역, 학습 데이터가 생성된 시간, 학습 데이터의 크기, 학습 데이터의 장르, 학습 데이터의 생성자, 학습 데이터 내의 오브젝트의 종류 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.
또한, 모델 학습부(1210-4)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 인식 모델을 학습시킬 수 있다.
또한, 데이터 인식 모델이 학습되면, 모델 학습부(1210-4)는 학습된 데이터 인식 모델을 저장할 수 있다. 이 경우, 모델 학습부(1210-4)는 학습된 데이터 인식 모델을 데이터 인식부(1220)를 포함하는 영상 처리 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1210-4)는 학습된 데이터 인식 모델을 후술할 데이터 인식부(1220)를 포함하는 영상 처리 장치의 메모리에 저장할 수 있다. 또는, 모델 학습부(1210-4)는 학습된 데이터 인식 모델을 영상 처리 장치와 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.
이 경우, 학습된 데이터 인식 모델이 저장되는 메모리는, 예를 들면, 영상 처리 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.
모델 평가부(1210-5)는 데이터 인식 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 인식 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(1210-4)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 데이터 인식 모델을 평가하기 위한 기 설정된 데이터일 수 있다.
예를 들어, 모델 평가부(1210-5)는 평가 데이터에 대한 학습된 데이터 인식 모델의 인식 결과 중에서, 인식 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 데이터 인식 모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 인식 결과를 출력하는 경우, 모델 평가부(1210-5)는 학습된 데이터 인식 모델이 적합하지 않은 것으로 평가할 수 있다.
한편, 학습된 데이터 인식 모델이 복수 개가 존재하는 경우, 모델 평가부(1210-5)는 각각의 학습된 데이터 인식 모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 데이터 인식 모델로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부(1210-5)는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 데이터 인식 모델로서 결정할 수 있다.
다양한 실시예에 따르면, 데이터 학습부(1210)는 데이터 획득부(1210-1), 및 모델 학습부(1210-4)를 포함하고, 전처리부(1210-2). 학습 데이터 선택부(1210-3), 및 모델 평가부(1210-5)는 선별적으로 포함할 수도 있다.
한편, 데이터 학습부(1210) 내의 데이터 획득부(1210-1), 전처리부(1210-2), 학습 데이터 선택부(1210-3), 모델 학습부(1210-4) 및 모델 평가부(1210-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 영상 처리 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1210-1), 전처리부(1210-2), 학습 데이터 선택부(1210-3), 모델 학습부(1210-4) 및 모델 평가부(1210-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 영상 처리 장치에 탑재될 수도 있다.
또한, 데이터 획득부(1210-1), 전처리부(1210-2), 학습 데이터 선택부(1210-3), 모델 학습부(1210-4) 및 모델 평가부(1210-5)는 하나의 영상 처리 장치에 탑재될 수도 있으며, 또는 별개의 영상 처리 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1210-1), 전처리부(1210-2), 학습 데이터 선택부(1210-3), 모델 학습부(1210-4) 및 모델 평가부(1210-5) 중 일부는 영상 처리 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터 획득부(1210-1), 전처리부(1210-2), 학습 데이터 선택부(1210-3), 모델 학습부(1210-4) 및 모델 평가부(1210-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1210-1), 전처리부(1210-2), 학습 데이터 선택부(1210-3), 모델 학습부(1210-4) 및 모델 평가부(1210-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 8은 일 실시예에 따른 데이터 인식부(1220)의 블록도이다.
도 8을 참조하면, 일부 실시예에 따른 데이터 인식부(1220)는 데이터 획득부(1220-1), 전처리부(1220-2), 인식 데이터 선택부(1220-3), 인식 결과 제공부(1220-4) 및 모델 갱신부(1220-5)를 포함할 수 있다.
데이터 인식부(1220)는 복수 개의 학습된 데이터 인식 모델들 중에서 소정의 조건에 대응되는 데이터 인식 모델을 이용하여, 데이터 인식 모델이 학습한 관심 정보에 해당하는지 판단하는 판단 기준에 따라, 영상 내의 어느 영역이 관심 정보에 해당하는지 판단할 수 있다.
데이터 획득부(1220-1)는 데이터 인식 모델이 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하기 위해 필요한 다양한 종류의 데이터를 획득할 수 있다. 예를 들어, 데이터 획득부(1220-1)는 이미지, 동영상 등과 같은 영상 데이터를 획득할 수 있다. 예를 들어, 데이터 획득부(1220-1)는 영상 처리 장치(1000)에서 직접 입력된 데이터나 선택된 데이터 등을 획득하거나, 영상 처리 장치(1000)에서 다양한 센서들을 이용하여 감지되는 다양한 센싱 정보들을 획득할 수 있다. 또한, 데이터 획득부(1220-1)는 영상 처리 장치(1000)와 통신하는 서버(2000)와 같은 외부 장치로부터 수신된 데이터를 획득할 수 있다.
전처리부(1220-2)는 데이터 인식 모델이 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하기 위해 획득된 데이터가 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(1220-2)는 후술할 인식 결과 제공부(1220-4)가 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하기 위하여 획득된 데이터를 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.
예를 들어, 전처리부(1220-2)는 데이터 획득부(1220-1)에서 획득한 이미지, 동영상 등의 영상 데이터에 대해, 의미 있는 데이터를 선별할 수 있도록 노이즈를 제거하거나, 소정의 형태로 가공할 수 있다.
인식 데이터 선택부(1220-3)는 전처리된 데이터 중에서 데이터 인식 모델이 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하는데 필요한 데이터를 선택할 수 있다. 선택된 데이터는 인식 결과 제공부(1220-4)에게 제공될 수 있다. 인식 데이터 선택부(1220-3)는 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하기 위한 기 설정된 판단 기준에 따라, 전처리된 데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 인식 데이터 선택부(1220-3)는 후술할 모델 학습부(1210-4)에 의한 학습에 의해 기 설정된 선별 기준에 따라 데이터를 선택할 수도 있다.
인식 결과 제공부(1220-4)는 선택된 데이터를 데이터 인식 모델에 적용하여 영상 내의 어느 영역이 관심 정보에 해당하는지 판단할 수 있다. 인식 결과 제공부(1220-4)는 데이터의 인식 목적에 따라 영상 내의 관심 정보에 대응되는 영역을 제공할 수 있다. 인식 결과 제공부(1220-4)는 인식 데이터 선택부(1220-3)에 의해 선택된 데이터를 입력 값으로 이용함으로써, 선택된 데이터를 데이터 인식 모델에 적용할 수 있다. 또한, 인식 결과는 데이터 인식 모델에 의해 결정될 수 있다. 인식 결과 제공부(1220-4)는 복수 개의 데이터 인식 모델들 중에서 소정의 조건에 대응되는 데이터 인식 모델에 기초하여 영상 내의 어느 영역이 관심 정보에 해당하는지 판단할 수 있다.
인식 결과 제공부(1220-4)는 제 1 조건을 만족할 때, 제 1 데이터 인식 모델이 학습한 돌출(saliency) 영역에 해당하는지 판단하는 기준에 따라, 돌출 영역을 사용자의 관심영역으로 추정할 수 있다. 제 1 데이터 인식 모델은 촬영부(1200)에서 획득된 라이브 뷰 영상에서 돌출 영역을 결정할 때, 학습한 돌출 영역에 해당하는지 판단하는 기준을 이용할 수 있다.
예를 들어, 인식 결과 제공부(1220-4)는, 영상 처리 장치(1000)가 제 1 조건을 만족할 때, 제 1 데이터 인식 모델을 이용하여 도 4b와 같은 입력 영상에서 전화 부스를 검출하고, 전화 부스가 있는 영역을 관심 영역으로서 추정할 수 있다.
인식 결과 제공부(1220-4)는 제 2 조건을 만족할 때, 제 2 데이터 인식 모델이 학습한 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준에 따라, 개인 맞춤화된 관심 정보에 대응되는 영역을 사용자의 관심 영역으로 추정할 수 있다. 제 2 데이터 인식 모델은 촬영부(1200)에서 획득된 라이브 뷰 영상에서 개인 맞춤화된 관심 정보에 대응되는 영역을 결정할 때, 학습한 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준을 이용할 수 있다.
예를 들어, 인식 결과 제공부(1220-4)는, 영상 처리 장치(1000)가 제 2 조건을 만족할 때, 제 2 데이터 인식 모델을 이용하여 도 5b와 같은 입력 영상에서 아이의 얼굴을 검출하고, 아이의 얼굴이 있는 영역을 관심 영역으로 추정할 수 있다.
또한, 모델 학습부(예: 도 7의 모델 학습부(1210-4)가 사용자가 촬영한 영상을 학습한 결과 자동차와 유사한 형상이 포함된 영상이 가장 높인 빈도수인 경우, 인식 결과 제공부(1220-4)는 제 4 데이터 인식 모델을 이용하여 도 5a와 같은 입력 영상에서 자동차와 유사한 형상을 검출하고, 자동차와 유사한 형상이 있는 영역을 관심 영역으로 추정할 수 있다.
즉, 사용자가 영상 처리 장치(1000)을 구매한 초기에 제 2 조건을 만족하지 못하는 경우, 영상 처리 장치(1000)는 제 1 데이터 인식 모델을 이용하여 관심 영역을 추정할 수 있다. 그리고, 영상 처리 장치(1000)로 촬영된 영상의 수가 증가하여 제 2 조건을 만족하는 경우, 영상 처리 장치(1000)는 제 2 데이터 인식 모델 및/또는 제 4 데이터 인식 모델을 이용하여 관심 영역을 추정할 수 있다.
모델 갱신부(1220-5)는 인식 결과 제공부(1220-4)에 의해 제공되는 인식 결과에 대한 평가에 기초하여, 데이터 인식 모델이 갱신되도록할 수 있다. 예를 들어, 모델 갱신부(1220-5)는 인식 결과 제공부(1220-4)에 의해 제공되는 영상 내의 어느 영역이 관심 정보에 해당하는지 판단한 결과를 모델 학습부(1210-4)에게 제공함으로써, 모델 학습부(1210-4)가 데이터 인식 모델을 갱신하도록 할 수 있다.
다양한 실시예에 따르면, 데이터 인식부(1220)는 데이터 획득부(1220-1), 및 인식결과 제공부(1220-4)를 포함하고, 전처리부(1230-2), 인식 데이터 선택부(1220-3), 및 모델 갱신부(1220-5)는 선별적으로 포함할 수도 있다.
한편, 데이터 인식부(1220) 내의 데이터 획득부(1220-1), 전처리부(1220-2), 인식 데이터 선택부(1220-3), 인식 결과 제공부(1220-4) 및 모델 갱신부(1220-5) 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 영상 처리 장치에 탑재될 수 있다. 예를 들어, 데이터 획득부(1220-1), 전처리부(1220-2), 인식 데이터 선택부(1220-3), 인식 결과 제공부(1220-4) 및 모델 갱신부(1220-5) 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 영상 처리 장치에 탑재될 수도 있다.
또한, 데이터 획득부(1220-1), 전처리부(1220-2), 인식 데이터 선택부(1220-3), 인식 결과 제공부(1220-4) 및 모델 갱신부(1220-5)는 하나의 영상 처리 장치에 탑재될 수도 있으며, 또는 별개의 영상 처리 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터 획득부(1220-1), 전처리부(1220-2), 인식 데이터 선택부(1220-3), 인식 결과 제공부(1220-4) 및 모델 갱신부(1220-5) 중 일부는 영상 처리 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터 획득부(1220-1), 전처리부(1220-2), 인식 데이터 선택부(1220-3), 인식 결과 제공부(1220-4) 및 모델 갱신부(1220-5) 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터 획득부(1220-1), 전처리부(1220-2), 인식 데이터 선택부(1220-3), 인식 결과 제공부(1220-4) 및 모델 갱신부(1220-5) 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 9는 다른 일 실시예에 따른 영상 처리 장치를 설명하기 위한 블록도이다. 본 실시예와 관련된 기술분야에서 통상의 지식을 가진 자라면 도 9에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음을 알 수 있다. 도 1에서 설명된 구성요소들에 대해서는 중복되는 설명을 생략한다.
외부 서버(2000)는 사용자가 촬영한 영상들을 소정의 기준에 따라 분류하고, 분류된 영상들로 제 3 데이터 인식 모델을 학습시켜, 개인 맞춤화된 관심 정보에 해당하는지 판단하는 판단 기준을 획득할 수 있다.
일 실시예에 따르면, 제 3 데이터 인식 모델은 제 2 데이터 인식 모델과 유사한 방식으로 학습되어 사용자에 맞추어진 관심 정보를 판단하는 판단 기준을 획득할 수 있다.
영상 처리 장치(1000)는 외부 서버(2000)에 저장된 사용자의 영상들을 이용하여, 제 3 데이터 인식 모델이 학습한 개인 맞춤화된 관심 정보에 해당하는지 판단하는 판단 기준을 외부 서버(2000)로부터 수신하는 통신부(1500)를 더 포함할 수 있다.
제어부(1200)를 구성하는 적어도 하나의 프로세서는 영상 처리 장치(1000)에 마련된 데이터 인식 모델이 외부 서버(2000)로부터 수신한 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준에 따라, 개인 맞춤화된 관심 정보에 대응되는 영역을 라이브 뷰 영상에서 사용자의 관심영역으로 추정할 수 있다.
한편, 영상 처리 장치(1000)는 영상 처리 장치(1000)에서 획득한 라이브 뷰 영상을 통신부(1500)를 통해 서버(2000)로 전송할 수 있다. 서버(2000)는 제 3 데이터 인식 모델이 학습한 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준에 따라, 영상 처리 장치(1000)로부터 전송된 라이브 뷰 영상에서 개인 맞춤화된 관심 정보에 대응되는 영역을 사용자의 관심 영역으로 추정하고, 추정된 관심 영역에 대한 정보를 영상 처리 장치(1000)로 전송해 줄 수도 있다.
도 10은 일부 실시예에 따른 영상 처리 장치(1000) 및 서버(2000)가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.
도 10을 참조하면, 서버(2000)는 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하기 위한 기준을 학습할 수 있으며, 영상 처리 장치(1000)는 서버(2000)에서 학습된 데이터 인식 모델을 이용하여, 영상 내의 어느 영역이 관심 정보에 해당하는지 판단할 수 있다.
이 경우, 서버(2000)의 데이터 학습부(2210)는 도 7에 도시된 데이터 학습부(1210)의 기능을 수행할 수 있다. 서버(2000)의 데이터 학습부(2210)는 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하기 위하여 어떤 데이터를 이용할지, 데이터를 이용하여 영상 내의 어느 영역이 관심 정보에 해당하는지 어떻게 판단할지에 관한 판단 기준을 학습할 수 있다. 서버(2000)의 데이터 학습부(2210)는 학습에 이용될 데이터를 획득하고, 획득된 데이터를 후술할 데이터 인식 모델에 적용함으로써, 영상 내의 어느 영역이 관심 정보에 해당하는지 판단하기 위한 판단 기준을 학습할 수 있다.
또한, 영상 처리 장치(1000)의 인식 결과 제공부(1220-4)는 인식 데이터 선택부(1220-3)에 의해 선택된 데이터를 서버(2000)에 의해 생성된 데이터 인식 모델에 적용하여 영상 내의 어느 영역이 관심 정보에 해당하는지 판단할 수 있다. 예를 들어, 인식 결과 제공부(1220-4)는 인식 데이터 선택부(1220-3)에 의해 선택된 데이터를 서버(2000)에게 전송하고, 서버(2000)가 인식 데이터 선택부(1220-3)에 의해 선택된 데이터를 데이터 인식 모델에 적용하여 영상 내의 어느 영역이 관심 정보에 해당하는지 판단할 것을 요청할 수 있다. 또한, 인식 결과 제공부(1220-4)는 서버(2000)에 의해 판단된 영상 내의 관심 정보에 대응되는 영역을 서버(2000)로부터 수신할 수 있다.
예를 들어, 영상 처리 장치(1000)는 영상 처리 장치(1000)에서 획득된 라이브 뷰 영상을 서버(2000)로 전송할 수 있다. 서버(2000)는 영상 처리 장치(1000)로부터 수신된 라이브 뷰 영상을 서버(2000)에 저장된 데이터 인식 모델에 적용시킴으로써, 영상 내의 어느 영역이 관심 정보에 해당하는지 판단할 수 있다. 서버(2000)는 서버(2000)에 저장된 사용자의 영상들을 더 반영하여, 영상 내의 어느 영역이 관심 정보에 해당하는지 판단할 수 있다. 서버(2000)에서 판단된 영상 내의 관심 정보에 대응되는 영역을은 영상 처리 장치(1000)로 전송될 수 있다.
또는, 영상 처리 장치(1000)의 인식 결과 제공부(1320-4)는 서버(2000)에 의해 생성된 데이터 인식 모델을 서버(2000)로부터 수신하고, 수신된 데이터 인식 모델을 이용하여 영상 내의 어느 영역이 관심 정보에 해당하는지 판단할 수 있다. 이 경우, 영상 처리 장치(1000)의 인식 결과 제공부(1220-4)는 인식 데이터 선택부(1220-3)에 의해 선택된 데이터를 서버(2000)로부터 수신된 데이터 인식 모델에 적용하여 영상 내의 어느 영역이 관심 정보에 해당하는지 판단할 수 있다.
예를 들어, 영상 처리 장치(1000)는 영상 처리 장치(1000)에서 획득된 라이브 뷰 영상을 서버(2000)로부터 수신된 데이터 인식 모델에 적용시킴으로써, 영상 내의 어느 영역이 관심 정보에 해당하는지 판단할 수 있다. 서버(2000)는 서버(2000)에 저장된 사용자의 영상들을 영상 처리 장치(1000)로 전송하여, 영상 처리 장치(1000)가 영상 내의 어느 영역이 관심 정보에 해당하는지 판단할 때 더 이용하도록 할 수 있다.
도 11은 다른 일 실시예에 따른 영상 처리 장치(1000)를 설명하기 위한 블록도이다.
도 11에 도시된 바와 같이, 다른 일 실시예에 따른 영상 처리 장치(1000)는 메모리(1100), 제어부(1200), 입출력부(1300), 센싱부(1400), 통신부(1500) 및 A/V 입력부(1600)를 포함할 수 있다.
메모리(1100)는 제어부(1200)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 영상 처리 장치(1000)로 입력되거나 영상 처리 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다. 메모리(1100)는 컴퓨터 실행가능 명령어(computer executable instruction)를 저장할 수 있다.
메모리(1100)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(1100)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈, 터치 스크린 모듈, 알림 모듈 등으로 분류될 수 있다.
UI 모듈은, 애플리케이션 별로 영상 처리 장치(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 제어부(1200)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈은 별도의 하드웨어로도 구성될 수도 있다. 사용자의 터치 제스처에는 탭, 터치&홀드, 더블 탭, 드래그, 패닝, 플릭, 드래그 앤드 드롭, 스와이프 등이 있을 수 있다. 알림 모듈은 영상 처리 장치(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다. 영상 처리 장치(1000)에서 발생되는 이벤트의 예로는 메시지 수신, 키 신호 입력, 콘텐츠 입력, 콘텐츠 전송, 소정의 조건에 해당되는 콘텐츠 검출 등이 있다. 알림 모듈은 디스플레이부(1322)를 통해 비디오 신호 형태로 알림 신호를 출력할 수도 있고, 음향 출력부(1324)를 통해 오디오 신호 형태로 알림 신호를 출력할 수도 있고, 진동 모터(1326)를 통해 진동 신호 형태로 알림 신호를 출력할 수도 있다.
제어부(1200)는, 통상적으로 영상 처리 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 제어부(1200)는, 메모리(1100)에 저장된 프로그램들을 실행함으로써, 입출력부(1300), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다.
구체적으로, 제어부(1200)는 적어도 하나의 프로세서를 구비할 수 있다. 제어부(1200)는 그 기능 및 역할에 따라, 복수의 프로세서들을 포함하거나, 통합된 형태의 하나의 프로세서를 포함할 수 있다.
제어부(1200)를 구성하는 적어도 하나의 프로세서는 메모리(1100)에 저장된 컴퓨터 실행가능 명령어를 실행함으로써, 데이터 인식 모델들 중에서 소정의 조건에 대응되는 데이터 인식 모델에 기초하여, 데이터 인식 모델이 학습한 관심 정보에 해당하는지 판단하는 기준에 따라, 획득된 라이브 뷰 영상에서 사용자의 관심영역을 추정하고, 추정된 관심영역에 초점을 맞출 수 있다.
제어부(1200)를 구성하는 적어도 하나의 프로세서는 제 1 조건을 만족할 때, 제 1 데이터 인식 모델이 학습한 돌출(saliency) 영역에 해당하는지 판단하는 기준에 따라, 돌출 영역을 사용자의 관심영역으로 추정하고, 제 2 조건을 만족할 때, 제 2 데이터 인식 모델이 학습한 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준에 따라, 개인 맞춤화된 관심 정보에 대응되는 영역을 사용자의 관심 영역으로 추정할 수 있다.
학습된 데이터 인식 모델은 영상 처리 장치(1000) 외부의 서버에 저장되어 있을 수 있으며, 영상 처리 장치(1000)의 요청에 따라 서버로부터 수신될 수 있다.
입출력부(1300)는 사용자 입력부(1310)와 출력부(1320)을 포함할 수 있다. 입출력부(1300)는 사용자 입력부(1310)와 출력부(1320)가 분리된 형태이거나, 터치스크린과 같이 통합된 하나의 형태일 수 있다.
입출력부(1300)는 추정된 관심영역에 초점을 맞춘 라이브 뷰 영상을 디스플레이할 수 있다.
사용자 입력부(1310)는, 사용자가 영상 처리 장치(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미할 수 있다. 사용자 입력부(1310)는 사용자로부터 축약어를 입력받을 수 있고, 사용자로부터 축약어에 대응되는 문장을 선택받을 수 있다.
사용자 입력부(1310)는 키 패드(key pad)(1312), 터치 패널(1314)(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 팬인식 패널(1316) 등이 될 수 있다. 뿐만 아니라, 사용자 입력부(1310)는 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
출력부(1320)는 영상 처리 장치(1000)에서 애플리케이션이 실행된 결과를 출력할 수 있다. 출력부(1320)는 영상 처리 장치(1000)의 동작 결과를 출력할 수 있고, 사용자 입력이 있는 경우, 사용자의 입력에 따라 변경된 결과를 출력할 수 있다.
출력부(1320)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1320)는 디스플레이부(1322), 음향 출력부(1324), 및 진동 모터(1326)를 포함할 수 있다.
디스플레이부(1322)는 영상 처리 장치(1000)에서 처리되는 정보를 디스플레이한다. 예를 들어, 디스플레이부(1322)는, 카메라 애플리케이션의 실행 화면을 디스플레이하거나, 사용자의 조작을 입력받기 위한 사용자 인터페이스를 디스플레이할 수 있다.
한편, 디스플레이부(1322)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1322)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(1322)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 영상 처리 장치(1000)의 구현 형태에 따라 영상 처리 장치(1000)는 디스플레이부(1322)를 2개 이상 포함할 수도 있다. 이때, 2개 이상의 디스플레이부(1322)는 힌지(hinge)를 이용하여 마주보게 배치될 수 있다.
음향 출력부(1324)는 통신부(1500)로부터 수신되거나 메모리(1100)에 저장된 오디오 데이터를 출력한다. 또한, 음향 출력부(1324)는 영상 처리 장치(1000)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음, 알림음)과 관련된 음향 신호를 출력한다. 이러한 음향 출력부(1324)에는 스피커(speaker), 버저(Buzzer) 등이 포함될 수 있다.
진동 모터(1326)는 진동 신호를 출력할 수 있다. 예를 들어, 진동 모터(1326)는 오디오 데이터 또는 비디오 데이터(예컨대, 호신호 수신음, 메시지 수신음 등)의 출력에 대응하는 진동 신호를 출력할 수 있다. 또한, 진동 모터(1326)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다.
센싱부(1400)는, 영상 처리 장치(1000)의 상태 또는 영상 처리 장치(1000) 주변의 상태를 감지하고, 감지된 정보를 제어부(1200)로 전달할 수 있다.
센싱부(1400)는, 지자기 센서(Magnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 각 센서들의 기능은 그 명칭으로부터 당업자가 직관적으로 추론할 수 있으므로, 구체적인 설명은 생략하기로 한다.
통신부(1500)는, 영상 처리 장치(1000)와 다른 장치 또는 서버 간의 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(151)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 영상 처리 장치(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다.
또한, 통신부(1500)는, 콘텐츠를 송수신 또는 업로드하기 위하여 다른 장치, 서버, 주변 기기 등과 통신을 수행할 수 있다.
A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 촬영부(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 촬영부(1610)은 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 제어부(1200) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.
촬영부(1610)에서 처리된 화상 프레임은 메모리(1100)에 저장되거나 통신부(1500)를 통하여 외부로 전송될 수 있다. 촬영부(1610)는 단말기의 구성 태양에 따라 2개 이상이 구비될 수도 있다.
마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 예를 들어, 마이크로폰(1620)은 외부 디바이스 또는 화자로부터 음향 신호를 수신할 수 있다. 마이크로폰(1620)는 외부의 음향 신호를 입력 받는 과정에서 발생 되는 잡음(noise)를 제거하기 위한 다양한 잡음 제거 알고리즘을 이용할 수 있다.
도 12는 일 실시예에 따른 영상 처리 방법을 나타내는 흐름도이다.
1210 단계에서, 영상 처리 장치(1000)는 적어도 하나의 피사체를 포함하는 라이브 뷰 영상을 획득한다.
1220 단계에서, 영상 처리 장치(1000)는 데이터 인식 모델들 중에서 소정의 조건에 대응되는 데이터 인식 모델에 기초하여, 데이터 인식 모델이 학습한 관심 정보에 해당하는지 판단하는 기준에 따라, 획득된 라이브 뷰 영상에서 사용자의 관심영역을 추정한다.
영상 처리 장치(1000)는 제 1 조건을 만족할 때, 제 1 데이터 인식 모델이 학습한 돌출(saliency) 영역에 해당하는지 판단하는 기준에 따라, 돌출 영역을 사용자의 관심영역으로 추정하고, 제 2 조건을 만족할 때, 제 2 데이터 인식 모델이 학습한 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준에 따라, 개인 맞춤화된 관심 정보에 대응되는 영역을 사용자의 관심 영역으로 추정할 수 있다. 돌출 영역은 피사체가 영상에서 차지하는 면적 또는 영상의 색상 분포에 관한 소정의 기준에 의해 결정되고, 개인 맞춤화된 관심 정보는 영상 처리 방법이 수행되는 영상 처리 장치(1000)에 저장된 사용자의 영상들에 관한 소정의 통계에 의해 결정될 수 있다. 이때, 제 2 조건은 영상 처리 방법이 수행되는 영상 처리 장치(1000)에 저장된 영상들의 개수가 소정의 개수보다 많고, 개인 맞춤화된 관심 정보에 대한 신뢰도가 소정의 조건을 만족하는 경우이고, 제 1 조건은 제 2 조건을 만족하지 않는 경우인 것을 의미한다.
한편, 영상 처리 장치(1000)는 사용자의 영상들을 소정의 기준에 따라 분류하고, 분류된 영상들로 제 3 데이터 인식 모델을 학습시켜, 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준을 획득하는 외부 서버(2000)와 통신을 수행할 수 있다. 영상 처리 장치(1000)는 외부 서버(2000)에 저장된 사용자의 영상들을 이용하여, 제 3 데이터 인식 모델이 학습한 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준을 외부 서버(2000)로부터 수신할 수 있다. 영상 처리 장치(1000)에 마련된 데이터 인식 모델이 수신한 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준에 따라, 개인 맞춤화된 관심 정보에 대응되는 영역을 사용자의 관심영역으로 추정할 수 있다.
영상 처리 장치(1000)는 관심 정보의 우선순위에 기초하여, 우선순위가 높은 관심 정보에 대응되는 영역을 사용자의 관심 영역으로 추정할 수 있다. 영상 처리 장치(1000)는 복수 개의 관심영역이 추정된 경우, 복수 개의 관심영역 모두에 대해 초점을 맞추는 다중 초점을 수행할 수 있다. 영상 처리 장치(1000)는 복수 개의 관심영역이 추정된 경우, 복수 개의 관심영역 중 사용자가 선택한 관심영역에 대해 초점을 맞출 수 있다.
1230 단계에서, 영상 처리 장치(1000)는 추정된 관심영역에 초점을 맞춘다.
1240 단계에서, 영상 처리 장치(1000)는 추정된 관심영역에 초점을 맞춘 라이브 뷰 영상을 디스플레이한다. 영상 처리 장치(1000)는 사용자의 촬영 명령에 대한 응답으로, 추정된 관심영역에 초점을 맞추어 영상을 촬영할 수 있다.
도 13은 일 실시예에 따른 영상 처리 장치가 제 1 프로세서 및 제 2 프로세서를 포함하는 경우에 관심 영역을 추정하는 상황을 설명하기 위한 흐름도이다.
제 1 프로세서(1200a)는 영상 처리 장치(1000)에 설치된 적어도 하나의 어플리케이션의 실행을 제어하고, 영상 처리 장치(1000)에 획득되는 이미지(예: 라이브 뷰 이미지, 촬영된 이미지 등)에 대한 그래픽 처리를 수행할 수 있다. 제 1 프로세서(1200a)는 CPU(central processing unit), GPU(graphic processing unit), 통신칩 및 센서 등의 기능이 통합된 SoC(system on chip) 형태로 구현될 수 있다. 또한, 제 1 프로세서(1200a)는 본 명세서 내에서 AP(application processor)로 설명될 수도 있다.
제 2 프로세서(1200b)는 데이터 인식 모델을 이용하여 이미지의 관심 영역을 추정할 수 있다.
한편, 제 2 프로세서(1200b)는 데이터 인식 모델을 이용한 관심 영역 추정의 기능을 수행하는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수 있다. 다양한 실시예에 따르면, 시각적 이해를 요소기술로 하는 데이터 인식 모델의 경우, 인공 지능(AI: artificial intelligence)을 위한 전용 하드웨어 칩은 GPU를 포함할 수 있다.
일 실시예에 따르면, 영상 처리 장치(1000)는 제 1 프로세서(1200a) 및 제 2 프로세서(1200b)를 포함할 수 있다.
S1310 단계에서, 제 1 프로세서(1200a)는 라이브 뷰 영상을 획득할 수 있다. 라이브 뷰 영상은, 예를 들면, 적어도 하나의 피사체를 포함할 수 있다.
S1320 단계에서, 제 1 프로세서(1200a)는 소정의 조건에 대응하는 데이터 인식 모델을 결정할 수 있다.
예를 들면, 제 1 프로세서(1200a)는 영상 처리 장치(1000)가 도 3 에서 상술한 제 2 조건을 만족하는 경우, 제 2 데이터 인식 모델 또는 제 4 데이터 인식 모델을 이용하는 것을 결정할 수 있다. 일 실시예에 따르면, 제 1 프로세서(1200a)는 영상 처리 장치(1000)의 제조사가 설정한 기본값 또는 사용자의 선택에 따라서 제 2 데이터 인식 모델 또는 제 4 데이터 인식 모델 중 하나를 선택할 수 있다.
또한, 제 1 프로세서(1200a)는 영상 처리 장치(1000)가 제 2 조건을 만족하지 못하는 경우, 제 1 조건을 만족하는 것으로 결정하고, 제 1 데이터 인식 모델을 이용하는 것을 결정할 수 있다.
S1330 단계에서, 제 1 프로세서(1200a)는 결정된 데이터 인식 모델을 이용하여 관심 영역을 추정할 것을 제 2 프로세서(1200b)에 대하여 요청할 수 있다.
S1340 단계에서, 제 2 프로세서(1200b)는 결정된 데이터 인식 모델을 이용하여 관심 영역을 추정할 수 있다.
예를 들어, 제 2 프로세서(1200b)는 제 1 데이터 인식 모델이 결정된 경우, 제 1 데이터 인식 모델이 학습한 돌출(saliency) 영역에 해당하는지 판단하는 기준에 따라, 돌출 영역을 사용자의 관심영역으로 추정할 수 있다. 제 2 프로세서(1200b)는 제 2 데이터 인식 모델이 결정된 경우, 제 2 데이터 인식 모델이 학습한 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준에 따라, 개인 맞춤화된 관심 정보에 대응되는 영역을 사용자의 관심 영역으로 추정할 수 있다.
제 2 프로세서(1200b)는 제 4 데이터 인식 모델이 결정된 경우, 제 4 데이터 인식 모델을 이용하여 개인 맞춤화된 괌심 정보에 대응하는 영역을 사용자의 관심 영역으로 추정할 수 있다.
S1350 단계에서, 제 2 프로세서(1200b)는 추정된 관심 영역을 제 1 프로세서(1200a)로 전송할 수 있다.
S1360 단계에서, 제 1 프로세서(1200a)는 추정된 관심 영역에 초점을 맞출 수 있다.
S1370 단계에서, 제 1 프로세서(1200a)는 추정된 관심 영역에 초점을 맞춘 라이브 뷰 영상을 디스플레이 할 수 있다.
도 14는 일 실시예에 따른 영상 처리 장치가 제 1 프로세서, 제 2 프로세서, 및 제 3 프로세서를 포함하는 경우에 관심 영역을 추정하는 상황을 설명하기 위한 흐름도이다.
일 실시예에 따르면, 영상 처리 장치(1000)는 제 1 프로세서(1200a), 제 2 프로세서(1200b), 및 제 3 프로세서(1200c)를 포함할 수 있다. 예를 들면, 제 2 프로세서(1200b)는 제 1 데이터 인식 모델을 이용하여 관심 영역을 추정할 수 있다. 제 3 프로세서(1200c)는 제 2 데이터 인식 모델 또는 제 4 데이터 인식 모델을 이용하여 관심 영역을 추정할 수 있다.
S1410 단계에서 제 1 프로세서(1200a)는 라이브 뷰 영상을 획득할 수 있다. 라이브 뷰 영상은, 예를 들면, 적어도 하나의 피사체를 포함할 수 있다.
S1420 단계에서, 제 1 프로세서(1200a)는 소정의 조건에 대응하는 데이터 인식 모델을 결정할 수 있다.
예를 들면, 제 1 프로세서(1200a)는 영상 처리 장치(1000)가 도 3 에서 상술한 제 2 조건을 만족하는 경우, 제 2 데이터 인식 모델 또는 제 4 데이터 인식 모델을 이용하는 것을 결정할 수 있다.
일 실시예에 따르면, 제 1 프로세서(1200a)는 사용자의 관심 영역 검출의 속도를 높이기 위해 제 4 데이터 인식 모델을 제 2 조건에 대응하는 기본 데이터 인식 모델로 설정할 수 있다. 그러나 이에 한정되지는 않는다. 예를 들면, 제 1 프로세서(1200a)는 영상 처리 장치(1000)의 제조사가 설정한 기본값 또는 사용자의 선택에 따라서 제 2 데이터 인식 모델 또는 제 4 데이터 인식 모델 중 하나를 선택할 수 있다.
또한, 제 1 프로세서(1200a)는 영상 처리 장치(1000)가 제 2 조건을 만족하지 못하는 경우, 제 1 조건을 만족하는 것으로 결정하고, 제 1 데이터 인식 모델을 이용하는 것을 결정할 수 있다.
S1430 단계를 참조하면, 제 1 데이터 인식 모델이 결정된 경우에, 제 1 프로세서(1200a)는 관심 영역을 추정할 것을 제 2 프로세서(1200b)에게 요청할 수 있다. 또한, 제 2 데이터 인식 모델 또는 제 4 데이터 인식 모델이 결정된 경우에, 제 1 프로세서(1200a)는 관심 영역을 추정할 것을 제 3 프로세서(1200c)에게 요청할 수 있다.
S1440 단계에서, 제 3 프로세서(1200c)는 제 4 데이터 인식 모델을 이용하여 관심 영역을 추정할 수 있다.
S1450 단계에서, 제 3 프로세서(1200c)는 제 4 데이터 인식 모델을 이용하여 관심 영역의 추정이 완료되었는지 확인할 수 있다.
S1470 단계에서, 제 3 프로세서(1200c)는 제 4 데이터 인식 모델을 이용하여 관심 영역이 추정된 것이 확인되면, 추정된 관심 영역을 제 1 프로세서(1200a)로 전송할 수 있다.
S1460 단계에서 제 2 프로세서(1200b)는 제 1 데이터 인식 모델을 이용하여 관심 영역을 추정할 수 있다. 또한, S1450 단계에서 제 3 프로세서(1200c)가 제 4 데이터 인식 모델을 이용하여 관심 영역을 추정하는 것에 실패한 것이 확인되면, 제 2 프로세서(1200b)는 제 1 데이터 인식 모델을 이용하여 관심 영역을 추정할 수 있다.
S1475 단계에서, 제 2 프로세서(1200b)는 제 1 데이터 인식 모델을 이용하여 추정된 관심 영역을 제 1 프로세서(1200a)로 전송할 수 있다.
S1480 단계에서, 제 1 프로세서(1200a)는 추정된 관심 영역에 초점을 맞출 수 있다.
S1490 단계에서, 제 1 프로세서(1200a)는 추정된 관심 영역에 초점을 맞춘 라이브 뷰 영상을 디스플레이 할 수 있다.
도 15는 일 실시예에 따른 전자 장치가 제 1 프로세서, 제 2 프로세서, 및 제 3 프로세서를 포함하는 경우에 관심 영역을 추정하는 다른 상황을 설명하기 위한 흐름도이다.
S1510 단계에서 제 1 프로세서(1200a)는 라이브 뷰 영상을 획득할 수 있다. 라이브 뷰 영상은, 예를 들면, 적어도 하나의 피사체를 포함할 수 있다.
S1520 단계에서, 제 1 프로세서(1200a)는 소정의 조건에 대응하는 데이터 인식 모델을 결정할 수 있다.
예를 들면, 제 1 프로세서(1200a)는 영상 처리 장치(1000)가 도 3 에서 상술한 제 2 조건을 만족하는 경우, 제 2 데이터 인식 모델 또는 제 4 데이터 인식 모델을 이용하는 것을 결정할 수 있다.
일 실시예에 따르면, 제 1 프로세서(1200a)는 사용자의 관심 영역 검출의 속도를 높이기 위해 제 4 데이터 인식 모델을 제 2 조건에 대응하는 기본 데이터 인식 모델로 설정할 수 있다. 그러나 이에 한정되지는 않는다. 예를 들면, 제 1 프로세서(1200a)는 영상 처리 장치(1000)의 제조사가 설정한 기본값 또는 사용자의 선택에 따라서 제 2 데이터 인식 모델 또는 제 4 데이터 인식 모델 중 하나를 선택할 수 있다.
또한, 제 1 프로세서(1200a)는 영상 처리 장치(1000)가 제 2 조건을 만족하지 못하는 경우, 제 1 조건을 만족하는 것으로 결정하고, 제 1 데이터 인식 모델을 이용하는 것을 결정할 수 있다.
S1530 단계를 참조하면, 제 1 데이터 인식 모델이 결정된 경우에, 제 1 프로세서(1200a)는 관심 영역을 추정할 것을 제 2 프로세서(1200b)에게 요청할 수 있다. 또한, 제 2 데이터 인식 모델 또는 제 4 데이터 인식 모델이 결정된 경우에, 제 1 프로세서(1200a)는 관심 영역을 추정할 것을 제 3 프로세서(1200c)에게 요청할 수 있다.
S1540 단계에서, 제 2 프로세서(1200b)는 제 1 데이터 인식 모델을 이용하여 관심 영역을 추정할 수 있다.
S1560 단계에서, 제 2 프로세서(1200b)는 추정된 관심 영역을 제 1 프로세서(1200a)로 전송할 수 있다.
S1550 단계에서, 제 3 프로세서(1200c)는 제 4 데이터 인식 모델을 이용하여 관심 영역을 추정할 수 있다.
S1570 단계에서, 제 3 프로세서(1200c)는 제 4 데이터 인식 모델을 이용하여 관심 영역의 추정이 완료되었는지 확인할 수 있다.
S1565 단계에서. 제 3 프로세서(1200c)는 제 4 데이터 인식 모델을 이용하여 관심 영역이 추정된 것이 확인되면, 추정된 관심 영역을 제 1 프로세서(1200a)로 전송할 수 있다.
S1580 단계를 참조하면, 제 3 프로세서(1200c)는 제 4 데이터 인식 모델을 이용하여 관심 영역의 초정이 실패한 것이 확인되면, 제 2 데이터 인식 모델을 이용하여 관심 영역을 추정할 수 있다.
예를 들어, 제 4 데이터 인식 모델은 자동차와 유사한 형상을 관심 영역으로 추정할 수 있는데, 라이브 뷰 영상에서 검출한 객체에 자동차와 유사한 형상이 없는 경우에, 제 3 프로세서(1200c)는 제 2 데이터 인식 모델을 적용하여 사용자에게 맞춤화된 다른 객체를 관심 영역으로 추정할 수 있다.
S1590 단계에서, 제 2 프로세서(1200b)는 제 1 데이터 인식 모델을 이용하여 추정된 관심 영역을 제 1 프로세서(1200a)로 전송할 수 있다.
S1593 단계에서, 제 1 프로세서(1200a)는 추정된 관심 영역에 초점을 맞출 수 있다.
S1595 단계에서, 제 1 프로세서(1200a)는 추정된 관심 영역에 초점을 맞춘 라이브 뷰 영상을 디스플레이 할 수 있다.
도 16은 일 실시예에 따른 영상 처리 장치가 서버를 이용하여 관심 영역을 추정하는 상황을 설명하기 위한 흐름도이다.
이 경우, 영상 처리 장치(1000) 및 서버(2000) 간에 데이터를 송/수신하기 위한 인터페이스가 정의될 수 있다.
예를 들면, 데이터 인식 모델에 적용할 학습 데이터를 인자 값(또는, 매개 값 또는 전달 값)으로 갖는 API((application program interface)가 정의될 수 있다. API는 어느 하나의 프로토콜(예로, 영상 처리 장치(1000)에서 정의된 프로토콜)에서 다른 프로토콜(예를 들면, 서버(2000)에서 정의된 프로토콜)의 어떤 처리를 위해 호출할 수 있는 서브 루틴 또는 함수의 집합으로 정의될 수 있다. 즉, API를 통하여 어느 하나의 프로토콜에서 다른 프로토콜의 동작이 수행될 수 있는 환경이 제공될 수 있다.
일 실시예에 따르면, 서버(2000)는 제 3 데이터 인식 모델을 포함할 수 있다.
S1610 단계에서, 영상 처리 장치(1000)는 라이브 뷰 영상을 획득할 수 있다. 라이브 뷰 영상은, 예를 들면, 적어도 하나의 피사체를 포함할 수 있다.
S1620 단계에서, 영상 처리 장치(1000)는 소정의 조건에 대응하는 데이터 인식 모델을 결정할 수 있다.
예를 들면, 영상 처리 장치(1000)는 도 3 에서 상술한 제 2 조건을 만족하는 경우, 제 2 데이터 인식 모델 또는 제 4 데이터 인식 모델을 이용하는 것을 결정할 수 있다. 또한, 영상 처리 장치(1000)는 제 2 조건을 만족하지 못하는 경우, 제 1 조건을 만족하는 것으로 결정하고, 제 1 데이터 인식 모델을 이용하는 것을 결정할 수 있다.
S1630 단계를 참조하면, 영상 처리 장치(1000)는 데이터 인식 모델을 이용하여 관심 영역이 추정되었는지 확인할 수 있다.
S1640 단계를 참조하면, 영상 처리 장치(1000)에 포함된 데이터 인식 모델을 이용하여 관심 영역이 추정된 경우, 영상 처리 장치(1000)는 추정된 관심 영역에 초점을 맞출 수 있다.
S1650 단계를 참조하면, 영상 처리 장치(1000)에 포함된 데이터 인식 모델을 이용하여 관심 영역이 추정되지 않은 경우, 영상 처리 장치(1000)는 서버(2000)에 관심 영역 추정을 요청할 수 있다.
S1660 단계에서, 서버(2000)는 제 3 데이터 인식 모델을 이용하여 관심 영역을 추정할 수 있다.
S1670 단계에서, 서버(2000)는 추정된 관심 영역을 영상 처리 장치(1000)로 전송할 수 있다.
S1680 단계에서, 영상 처리 장치(1000)는 추정된 관심 영역에 초점을 맞출 수 있다.
S1690 단계에서, 영상 처리 장치(1000)는 추정된 관심 영역에 초점을 맞춘 라이브 뷰 영상을 디스플레이 할 수 있다.
한편, 상술한 영상 처리 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 저장매체를 이용하여 이와 같은 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 이와 같은 컴퓨터로 읽을 수 있는 저장매체는 read-only memory (ROM), random-access memory (RAM), flash memory, CD-ROMs, CD-Rs, CD+Rs, CD-RWs, CD+RWs, DVD-ROMs, DVD-Rs, DVD+Rs, DVD-RWs, DVD+RWs, DVD-RAMs, BD-ROMs, BD-Rs, BD-R LTHs, BD-REs, 마그네틱 테이프, 플로피 디스크, 광자기 데이터 저장 장치, 광학 데이터 저장 장치, 하드 디스크, 솔리드-스테이트 디스크(SSD), 그리고 명령어 또는 소프트웨어, 관련 데이터, 데이터 파일, 및 데이터 구조들을 저장할 수 있고, 프로세서나 컴퓨터가 명령어를 실행할 수 있도록 프로세서나 컴퓨터에 명령어 또는 소프트웨어, 관련 데이터, 데이터 파일, 및 데이터 구조들을 제공할 수 있는 어떠한 장치라도 될 수 있다.
또한, 개시된 실시예들은 컴퓨터로 읽을 수 있는 저장 매체(computer-readable storage media)에 저장된 명령어를 포함하는 S/W 프로그램으로 구현될 수 있다.
컴퓨터는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 개시된 실시예에 따른 동작이 가능한 장치로서, 개시된 실시예들에 따른 영상 처리 장치를 포함할 수 있다.
컴퓨터로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '기 비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 개시된 실시예들에 따른 제어 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.
컴퓨터 프로그램 제품은 S/W 프로그램, S/W 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 영상 처리 장치의 제조사 또는 전자 마켓(예, 구글 플레이 스토어, 앱 스토어)을 통해 전자적으로 배포되는 S/W 프로그램 형태의 상품(예, 다운로더블 앱)을 포함할 수 있다. 전자적 배포를 위하여, S/W 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사의 서버, 전자 마켓의 서버, 또는 SW 프로그램을 임시적으로 저장하는 중계 서버의 저장매체가 될 수 있다.
컴퓨터 프로그램 제품은, 서버 및 영상 처리 장치로 구성되는 시스템에서, 서버의 저장매체 또는 영상 처리 장치의 저장매체를 포함할 수 있다. 또는, 서버 또는 영상 처리 장치와 통신 연결되는 제 3 장치(예, 스마트폰)가 존재하는 경우, 컴퓨터 프로그램 제품은 제 3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 서버로부터 영상 처리 장치 또는 제 3 장치로 전송되거나, 제 3 장치로부터 영상 처리 장치로 전송되는 S/W 프로그램 자체를 포함할 수 있다.
이 경우, 서버, 영상 처리 장치 및 제 3 장치 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수 있다. 또는, 서버, 영상 처리 장치 및 제 3 장치 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 분산하여 실시할 수 있다.
예를 들면, 서버(예로, 클라우드 서버 또는 인공 지능 서버 등)가 서버에 저장된 컴퓨터 프로그램 제품을 실행하여, 서버와 통신 연결된 영상 처리 장치가 개시된 실시예들에 따른 방법을 수행하도록 제어할 수 있다.
또 다른 예로, 제 3 장치가 컴퓨터 프로그램 제품을 실행하여, 제 3 장치와 통신 연결된 영상 처리 장치가 개시된 실시예에 따른 방법을 수행하도록 제어할 수 있다. 제 3 장치가 컴퓨터 프로그램 제품을 실행하는 경우, 제 3 장치는 서버로부터 컴퓨터 프로그램 제품을 다운로드하고, 다운로드 된 컴퓨터 프로그램 제품을 실행할 수 있다. 또는, 제 3 장치는 프리로드 된 상태로 제공된 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수도 있다.
이제까지 실시예들을 중심으로 살펴보았다. 개시된 실시예들이 속하는 기술 분야에서 통상의 지식을 가진 자는 개시된 실시예들이 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 발명의 범위는 전술한 실시예들의 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 발명의 범위에 포함된 것으로 해석되어야 할 것이다.

Claims (15)

  1. 적어도 하나의 피사체를 포함하는 영상을 획득하는 촬영부;
    컴퓨터 실행가능 명령어(computer executable instruction)를 저장하는 메모리; 및
    상기 컴퓨터 실행가능 명령어를 실행함으로써, 적어도 하나의 데이터 인식 모델에 기초하여, 상기 획득된 영상에서 돌출 영역을 포함하는 관심영역을 추정하는 적어도 하나의 프로세서;
    를 포함하며,
    상기 적어도 하나의 프로세서는,
    제 1 조건을 만족할 때, 객체에 관련된 정보에 기반해서 관심영역을 추정하도록 학습된 제 1 데이터 인식 모델에 상기 획득된 영상을 적용하여, 상기 획득된 영상에서 제 1 영역을 상기 관심영역으로 추정하고, 제 2 조건을 만족할 때, 관심 정보에 기반해서 관심영역을 추정하도록 학습된 제 2 데이터 인식 모델에 상기 획득된 영상을 적용하여, 상기 획득된 영상에서 제 2 영역을 상기 관심영역으로 추정하되,
    상기 제 1 데이터 인식 모델이 상기 관심영역으로 추정한 상기 제 1 영역은, 상기 제 2 데이터 인식 모델이 상기 관심영역으로 추정한 상기 제 2 영역과 상이한, 영상 처리 장치.
  2. 제 1 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 추정된 관심영역에 대한 정보를 제공하는, 영상 처리 장치.
  3. 제 1 항에 있어서,
    상기 돌출 영역은 피사체가 영상에서 차지하는 면적 또는 영상의 색상 분포에 관한 소정의 기준에 의해 결정되고, 상기 관심 정보는 상기 영상 처리 장치에 저장된 사용자의 영상들에 관한 소정의 통계에 의해 결정되는, 영상 처리 장치.
  4. 제 1 항에 있어서,
    상기 제 2 조건은 상기 영상 처리 장치에 저장된 영상들의 개수가 소정의 개수보다 많고, 상기 관심 정보에 대한 신뢰도가 소정의 조건을 만족하는 경우이고, 상기 제 1 조건은 상기 제 2 조건을 만족하지 않는 경우인 것인, 영상 처리 장치.
  5. 제 1 항에 있어서,
    외부 서버에 저장된 사용자의 영상들을 이용하여, 제 3 데이터 인식 모델이 학습한 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준을 상기 외부 서버로부터 수신하는 통신부를 더 포함하고,
    상기 적어도 하나의 프로세서는,
    상기 영상 처리 장치에 마련된 데이터 인식 모델이 수신한 상기 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준에 따라, 상기 개인 맞춤화된 관심 정보에 대응되는 영역을 상기 관심영역으로 추정하는, 영상 처리 장치.
  6. 제 5 항에 있어서,
    상기 외부 서버는 상기 사용자의 영상들을 소정의 기준에 따라 분류하고, 상기 분류된 영상들로 상기 제 3 데이터 인식 모델을 학습시켜, 상기 개인 맞춤화된 관심 정보에 해당하는지 판단하는 기준을 획득하는, 영상 처리 장치.
  7. 제 1 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 관심 정보의 우선순위에 기초하여, 우선순위가 상위에 있는 관심 정보에 대응되는 영역을 관심영역으로 추정하는, 영상 처리 장치.
  8. 제 1 항에 있어서,
    상기 적어도 하나의 프로세서는,
    복수 개의 관심영역이 추정된 경우, 상기 복수 개의 관심영역 모두에 대해 초점을 맞추는 다중 초점을 수행하는, 영상 처리 장치.
  9. 제 1 항에 있어서,
    상기 적어도 하나의 프로세서는,
    복수 개의 관심영역이 추정된 경우, 상기 복수 개의 관심영역 중 사용자가 선택한 관심영역에 대해 초점을 맞추는, 영상 처리 장치.
  10. 제 1 항에 있어서,
    상기 촬영부는 사용자의 촬영 명령에 대한 응답으로, 상기 추정된 관심영역에 초점을 맞추어 영상을 촬영하는, 영상 처리 장치.
  11. 적어도 하나의 피사체를 포함하는 영상을 획득하는 단계; 및
    적어도 하나의 데이터 인식 모델에 기초하여, 상기 획득된 영상에서 돌출 영역을 포함하는 관심영역을 추정하는 단계;
    를 포함하며,
    상기 관심영역을 추정하는 단계는,
    제 1 조건을 만족할 때, 객체에 관련된 정보에 기반해서 관심영역을 추정하도록 학습된 제 1 데이터 인식 모델에 상기 획득된 영상을 적용하여, 상기 획득된 영상에서 제 1 영역을 상기 관심영역으로 추정하고, 제 2 조건을 만족할 때, 관심 정보에 기반해서 관심영역을 추정하도록 학습된 제 2 데이터 인식 모델에 상기 획득된 영상을 적용하여, 상기 획득된 영상에서 제 2 영역을 상기 관심영역으로 추정하는 단계를 포함하고,
    상기 제 1 데이터 인식 모델이 상기 관심영역으로 추정한 상기 제 1 영역은, 상기 제 2 데이터 인식 모델이 상기 관심영역으로 추정한 상기 제 2 영역과 상이한,
    영상 처리 방법.
  12. 제 11 항에 있어서, 상기 영상 처리 방법은,
    상기 추정된 관심영역에 대한 정보를 제공하는 단계를 더 포함하는, 영상 처리 방법.
  13. 제 11 항에 있어서,
    상기 돌출 영역은 피사체가 영상에서 차지하는 면적 또는 영상의 색상 분포에 관한 소정의 기준에 의해 결정되고, 상기 관심 정보는 상기 영상 처리 방법이 수행되는 영상 처리 장치에 저장된 사용자의 영상들에 관한 소정의 통계에 의해 결정되는, 영상 처리 방법.
  14. 제 11 항에 있어서,
    상기 제 2 조건은 상기 영상 처리 방법이 수행되는 영상 처리 장치에 저장된 영상들의 개수가 소정의 개수보다 많고, 상기 관심 정보에 대한 신뢰도가 소정의 조건을 만족하는 경우이고, 상기 제 1 조건은 상기 제 2 조건을 만족하지 않는 경우인 것인, 영상 처리 방법.
  15. 적어도 하나의 피사체를 포함하는 영상을 획득하는 단계; 및
    적어도 하나의 데이터 인식 모델에 기초하여, 상기 획득된 영상에서 돌출 영역을 포함하는 관심영역을 추정하는 단계를 포함하며,
    상기 관심영역을 추정하는 단계는,
    제 1 조건을 만족할 때, 객체에 관련된 정보에 기반해서 관심영역을 추정하도록 학습된 제 1 데이터 인식 모델에 상기 획득된 영상을 적용하여, 상기 획득된 영상에서 제 1 영역을 상기 관심영역으로 추정하고, 제 2 조건을 만족할 때, 관심 정보에 기반해서 관심영역을 추정하도록 학습된 제 2 데이터 인식 모델에 상기 획득된 영상을 적용하여, 상기 획득된 영상에서 제 2 영역을 상기 관심영역으로 추정하는 단계를 포함하고,
    상기 제 1 데이터 인식 모델이 상기 관심영역으로 추정한 상기 제 1 영역은, 상기 제 2 데이터 인식 모델이 상기 관심영역으로 추정한 상기 제 2 영역과 상이한, 영상 처리 방법을 수행하도록 하는 프로그램이 저장된 컴퓨터로 읽을 수 있는 기록 매체.
KR1020220068524A 2016-12-22 2022-06-03 영상 처리 장치 및 방법 KR102458358B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20160176837 2016-12-22
KR1020160176837 2016-12-22
KR1020170135869A KR102407815B1 (ko) 2016-12-22 2017-10-19 영상 처리 장치 및 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020170135869A Division KR102407815B1 (ko) 2016-12-22 2017-10-19 영상 처리 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220080731A true KR20220080731A (ko) 2022-06-14
KR102458358B1 KR102458358B1 (ko) 2022-10-25

Family

ID=62913924

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020170135869A KR102407815B1 (ko) 2016-12-22 2017-10-19 영상 처리 장치 및 방법
KR1020220068524A KR102458358B1 (ko) 2016-12-22 2022-06-03 영상 처리 장치 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020170135869A KR102407815B1 (ko) 2016-12-22 2017-10-19 영상 처리 장치 및 방법

Country Status (3)

Country Link
JP (2) JP2020507228A (ko)
KR (2) KR102407815B1 (ko)
CN (2) CN110063053B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102497227B1 (ko) * 2022-11-11 2023-02-08 (주)아이브리지닷컴 심리스 동영상 스트리밍 재생 장치 및 그 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102434535B1 (ko) * 2019-10-18 2022-08-22 주식회사 메이아이 인터랙션 검출 방법 및 그 장치
CN113744126A (zh) * 2021-08-06 2021-12-03 Oppo广东移动通信有限公司 图像处理方法及装置、计算机可读介质和电子设备
KR102637113B1 (ko) * 2021-12-21 2024-02-19 주식회사 닷 지능형 배리어프리 키오스크 및 그 제어방법
CN115527100B (zh) * 2022-10-09 2023-05-23 广州佳禾科技股份有限公司 用于关联数据库的标识分析系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150059466A (ko) * 2013-11-22 2015-06-01 삼성전자주식회사 전자장치에서 이미지 내의 특정 객체를 인식하기 위한 방법 및 장치
US20160284095A1 (en) * 2015-03-27 2016-09-29 Edmond Chalom Machine learning of real-time image capture parameters
KR101663752B1 (ko) * 2011-07-19 2016-10-07 엑시스 에이비 화상 조정 파라미터를 결정하기 위한 방법 및 카메라

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1780651A1 (en) * 2005-10-25 2007-05-02 Bracco Imaging, S.P.A. Method and system for automatic processing and evaluation of images, particularly diagnostic images
US7728904B2 (en) * 2005-11-08 2010-06-01 Qualcomm Incorporated Skin color prioritized automatic focus control via sensor-dependent skin color detection
EP2139225B1 (en) * 2007-04-23 2015-07-29 Sharp Kabushiki Kaisha Image picking-up device, computer readable recording medium including recorded program for control of the device, and control method
JP2009055432A (ja) * 2007-08-28 2009-03-12 Sony Corp 撮影装置、撮影方法、およびプログラム
JP4844657B2 (ja) * 2009-07-31 2011-12-28 カシオ計算機株式会社 画像処理装置及び方法
CN102509072B (zh) * 2011-10-17 2013-08-28 上海大学 基于区域间差异的图像中显著对象的检测方法
US9235766B2 (en) * 2011-10-20 2016-01-12 International Business Machines Corporation Optimizing the detection of objects in images
CN103810503B (zh) * 2013-12-26 2017-02-01 西北工业大学 一种基于深度学习的自然图像中显著区域的检测方法
CN105488044A (zh) * 2014-09-16 2016-04-13 华为技术有限公司 数据处理的方法和设备
CN105184271A (zh) * 2015-09-18 2015-12-23 苏州派瑞雷尔智能科技有限公司 一种基于深度学习的车辆自动检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101663752B1 (ko) * 2011-07-19 2016-10-07 엑시스 에이비 화상 조정 파라미터를 결정하기 위한 방법 및 카메라
KR20150059466A (ko) * 2013-11-22 2015-06-01 삼성전자주식회사 전자장치에서 이미지 내의 특정 객체를 인식하기 위한 방법 및 장치
US20160284095A1 (en) * 2015-03-27 2016-09-29 Edmond Chalom Machine learning of real-time image capture parameters

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102497227B1 (ko) * 2022-11-11 2023-02-08 (주)아이브리지닷컴 심리스 동영상 스트리밍 재생 장치 및 그 방법

Also Published As

Publication number Publication date
CN110063053B (zh) 2021-05-04
JP2020507228A (ja) 2020-03-05
KR102458358B1 (ko) 2022-10-25
CN113114943A (zh) 2021-07-13
KR20180073432A (ko) 2018-07-02
JP2023036778A (ja) 2023-03-14
KR102407815B1 (ko) 2022-06-13
CN113114943B (zh) 2023-08-04
CN110063053A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
EP3340609B1 (en) Apparatus and method for processing image
KR102453169B1 (ko) 디바이스가 이미지를 보정하는 방법 및 그 디바이스
KR102458358B1 (ko) 영상 처리 장치 및 방법
KR102359391B1 (ko) 디바이스가 이미지를 보정하는 방법 및 그 디바이스
CN111465960A (zh) 图像获取装置及控制图像获取装置的方法
US11592825B2 (en) Electronic device and operation method therefor
US11436744B2 (en) Method for estimating lane information, and electronic device
KR102420567B1 (ko) 음성 인식 장치 및 방법
US20240037712A1 (en) Image acquisition device and method of controlling the same
KR102426435B1 (ko) 사용자 입력에 기반한 문장을 제공하는 장치 및 방법
KR102304701B1 (ko) 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치
US11931906B2 (en) Mobile robot device and method for providing service to user
KR102360181B1 (ko) 차량의 동작을 제어하는 전자 장치 및 방법
KR102396794B1 (ko) 전자 장치 및 이의 제어 방법
KR102384878B1 (ko) 동영상을 필터링하는 방법 및 장치
KR20200084428A (ko) 동영상을 제작하는 방법 및 그에 따른 장치

Legal Events

Date Code Title Description
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant