KR20230057867A - 실시간 사람 감지 및 추적 시스템을 위한 전자 장치 및 그 제어 방법 - Google Patents

실시간 사람 감지 및 추적 시스템을 위한 전자 장치 및 그 제어 방법 Download PDF

Info

Publication number
KR20230057867A
KR20230057867A KR1020210142133A KR20210142133A KR20230057867A KR 20230057867 A KR20230057867 A KR 20230057867A KR 1020210142133 A KR1020210142133 A KR 1020210142133A KR 20210142133 A KR20210142133 A KR 20210142133A KR 20230057867 A KR20230057867 A KR 20230057867A
Authority
KR
South Korea
Prior art keywords
region
sensor
distance
area
interest
Prior art date
Application number
KR1020210142133A
Other languages
English (en)
Inventor
임유선
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020210142133A priority Critical patent/KR20230057867A/ko
Priority to PCT/KR2022/012226 priority patent/WO2023068511A1/ko
Priority to EP22883739.9A priority patent/EP4358025A1/en
Priority to CN202280070462.3A priority patent/CN118119970A/zh
Priority to US18/075,875 priority patent/US20230131404A1/en
Publication of KR20230057867A publication Critical patent/KR20230057867A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Optics & Photonics (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

전자 장치가 개시된다. 전자 장치는 컬러(color) 이미지를 획득하는 제1 센서, 뎁스(depth) 이미지를 획득하는 제2 센서, 신경망 모델을 저장하는 메모리 및 제1 센서로부터 제1 컬러 이미지가 수신되면, 제1 컬러 이미지를 신경망 모델에 입력하여 제1 관심 영역을 획득하고, 제1 관심 영역에 포함된 오브젝트 및 전자 장치 간 거리가 임계 거리 미만인지 여부를 식별하는 프로세서를 포함한다.

Description

실시간 사람 감지 및 추적 시스템을 위한 전자 장치 및 그 제어 방법 { ELECTRONIC APPARATUS FOR REAL-TIME HUMAN DETECTION AND TRACKING SYSTEM AND CONTROLLING METHOD THEREOF }
본 발명은 전자 장치 및 그 제어 방법에 관한 것으로, 보다 상세하게는 센서를 구비하는 전자 장치 및 그 제어 방법에 관한 것이다.
최근 전자 기술의 발전에 따라 다양한 유형의 전자 장치가 개발 및 보급되고 있는 실정이다.
특히, CCTV와 같은 고정된 영상 인식 시스템은, 사람과 시스템이 일정 거리 이상 이격되어 있으므로, 사람을 용이하게 인식할 수 있다.
이에 반해, 로봇과 같이 이동이 가능한 영상 인식 시스템은 사람과 시스템 간의 거리가 매우 근접한 상황이 빈번하게 발생할 수 있으며, 이러한 상황에서 시스템은 사람을 용이하게 인식할 수 없다.
예를 들어, 사람이 시스템에 구비된 카메라를 거의 가릴 정도로 근접한 경우에는, 시스템이 획득한 이미지가 사람을 식별할 수 있는 특징점을 포함하지 않으므로 시스템은 사람을 인식하지 못하며, 사람에 대한 추적(tracking)을 실패할 확률이 크다.
시스템이 사람에 대한 추적을 실패하면, 시스템의 주행 경로 조정, 주행 멈춤 등 다양한 상황에서의 적절한 대응이 불가하다는 문제가 있다. 따라서, 다양한 상황에서도 사람을 적절히 인식하고 추적하는 장치 및 방법에 대한 요구가 있어왔다.
본 개시는 상술한 필요성에 따른 것으로, 본 발명의 목적은 오브젝트를 트랙킹하는 전자 장치 및 그 제어 방법을 제공함에 있다.
본 개시의 상술한 목적을 달성하기 위한 일 실시 예에 따르면 전자 장치는, 컬러(color) 이미지를 획득하는 제1 센서, 뎁스(depth) 이미지를 획득하는 제2 센서, 신경망 모델을 저장하는 메모리 및 상기 제1 센서로부터 제1 컬러 이미지가 수신되면, 상기 제1 컬러 이미지를 상기 신경망 모델에 입력하여 제1 관심 영역을 획득하고, 상기 제1 관심 영역에 포함된 오브젝트 및 상기 전자 장치 간 거리가 임계 거리 미만인지 여부를 식별하는 프로세서를 포함하며, 상기 프로세서는, 상기 식별된 거리가 상기 임계 거리 미만이면, 상기 제1 컬러 이미지에 대응되는 제1 뎁스 이미지에 포함된 복수의 픽셀 중 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제1 영역을 식별하고, 상기 제1 관심 영역 및 상기 제1 영역 간 인터섹션(intersection) 정보를 획득하고, 상기 획득된 인터섹션(intersection) 정보가 임계 값 이상이면, 상기 제1 영역이 상기 오브젝트를 포함하는 것으로 식별한다.
여기서, 상기 프로세서는, 상기 제2 센서로부터 수신된 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하고, 상기 제1 영역 및 상기 제2 영역 간 인터섹션 정보를 획득하고, 상기 획득된 인터섹션 정보가 상기 임계 값 이상이면, 상기 제2 영역이 상기 오브젝트를 포함하는 것으로 식별하고, 상기 제1 영역 및 상기 제2 영역에 기초하여 상기 오브젝트의 위치를 트랙킹할 수 있다.
또한, 상기 프로세서는, 상기 획득된 인터섹션 정보가 상기 임계 값 이상이면, 상기 제1 관심 영역 및 상기 제1 영역이 병합된 제1 병합 영역을 획득하고, 상기 제2 센서로부터 수신된 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하고, 상기 제1 병합 영역 및 상기 제2 영역 간 인터섹션 정보를 획득하고, 상기 획득된 인터섹션 정보가 상기 임계 값 이상이면, 상기 제2 영역이 상기 오브젝트를 포함하는 것으로 식별하고, 상기 제1 병합 영역 및 상기 제2 영역에 기초하여 상기 오브젝트의 위치를 트랙킹할 수 있다.
여기서, 상기 프로세서는, 상기 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들의 비율이 임계 비율 이상이면, 상기 제2 뎁스 이미지에 포함된 복수의 픽셀 중 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 상기 제2 영역을 식별할 수 있다.
또한, 상기 프로세서는, 상기 제1 센서로부터 수신된 제2 컬러 이미지를 상기 신경망 모델에 입력하고, 상기 신경망 모델의 출력에 기초하여 상기 제2 컬러 이미지에서 관심 영역이 식별되지 않는 경우, 상기 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 상기 제2 영역을 식별할 수 있다.
또한, 상기 프로세서는, 상기 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들의 비율이 임계 비율 미만이면, 상기 제2 컬러 이미지를 상기 신경망 모델에 입력하여 상기 오브젝트를 포함하는 제2 관심 영역을 획득하고, 상기 제2 관심 영역에 포함된 오브젝트 및 상기 전자 장치 간 거리가 임계 거리 미만인지 여부를 식별하고, 상기 식별된 거리가 상기 임계 거리 미만이면, 상기 제2 뎁스 이미지에 포함된 복수의 픽셀 중 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하고, 상기 제2 관심 영역 및 상기 제2 영역 간 인터섹션 정보를 획득하고, 상기 획득된 인터섹션 정보가 임계 값 이상이면, 상기 제2 영역이 상기 오브젝트를 포함하는 것으로 식별할 수 있다.
여기서, 상기 프로세서는, 상기 식별된 거리가 상기 임계 거리 이상이면, 상기 제1 관심 영역, 상기 제1 영역 및 상기 제2 관심 영역에 기초하여 상기 오브젝트의 위치를 트랙킹할 수 있다.
또한, 상기 프로세서는, 상기 식별된 거리가 상기 임계 거리 이상이면, 상기 제1 관심 영역에 기초하여 상기 오브젝트의 위치를 식별할 수 있다.
또한, 상기 제1 센서는, 카메라 또는 RGB 컬러 센서 중 적어도 하나를 포함하고, 상기 제2 센서는, Stereo vision 센서, ToF 센서 또는 라이다 센서(LiDAR) 중 적어도 하나를 포함할 수 있다.
본 개시의 상술한 목적을 달성하기 위한 일 실시 예에 따른 전자 장치의 제어 방법은, 제1 센서로부터 제1 컬러 이미지가 수신되면, 상기 제1 컬러 이미지를 신경망 모델에 입력하여 제1 관심 영역을 획득하는 단계 및 상기 제1 관심 영역에 포함된 오브젝트 및 상기 전자 장치 간 거리가 임계 거리 미만인지 여부를 식별하는 단계를 포함하며, 상기 식별하는 단계는, 상기 식별된 거리가 상기 임계 거리 미만이면, 상기 제1 컬러 이미지에 대응되는 제1 뎁스 이미지에 포함된 복수의 픽셀 중 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제1 영역을 식별하는 단계, 상기 제1 관심 영역 및 상기 제1 영역 간 인터섹션(intersection) 정보를 획득하는 단계 및 상기 획득된 인터섹션 정보가 임계 값 이상이면, 상기 제1 영역이 상기 오브젝트를 포함하는 것으로 식별하는 단계를 포함한다.
여기서, 상기 제2 센서로부터 수신된 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하는 단계, 상기 제1 영역 및 상기 제2 영역 간 인터섹션 정보를 획득하는 단계, 상기 획득된 인터섹션 정보가 상기 임계 값 이상이면, 상기 제2 영역이 상기 오브젝트를 포함하는 것으로 식별하는 단계 및 상기 제1 영역 및 상기 제2 영역에 기초하여 상기 오브젝트의 위치를 트랙킹(tracking)하는 단계를 더 포함할 수 있다.
또한, 제어 방법은, 상기 획득된 인터섹션 정보가 상기 임계 값 이상이면, 상기 제1 관심 영역 및 상기 제1 영역이 병합된 제1 병합 영역을 획득하는 단계, 상기 제2 센서로부터 수신된 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하는 단계, 상기 제1 병합 영역 및 상기 제2 영역 간 인터섹션 정보를 획득하는 단계, 상기 획득된 인터섹션 정보가 상기 임계 값 이상이면, 상기 제2 영역이 상기 오브젝트를 포함하는 것으로 식별하는 단계 및 상기 제1 병합 영역 및 상기 제2 영역에 기초하여 상기 오브젝트의 위치를 트랙킹하는 단계를 포함할 수 있다.
여기서, 상기 제2 영역을 식별하는 단계는, 상기 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들의 비율이 임계 비율 이상이면, 상기 제2 뎁스 이미지에 포함된 복수의 픽셀 중 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 상기 제2 영역을 식별하는 단계를 포함할 수 있다.
또한, 제어 방법은, 상기 제1 센서로부터 수신된 제2 컬러 이미지를 상기 신경망 모델에 입력하는 단계를 더 포함하고, 상기 제2 영역을 식별하는 단계는, 상기 신경망 모델의 출력에 기초하여 상기 제2 컬러 이미지에서 관심 영역이 식별되지 않는 경우, 상기 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 상기 제2 영역을 식별하는 단계를 포함할 수 있다.
또한, 상기 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들의 비율이 임계 비율 미만이면, 상기 제2 컬러 이미지를 상기 신경망 모델에 입력하여 상기 오브젝트를 포함하는 제2 관심 영역을 획득하는 단계 및 상기 제2 관심 영역에 포함된 오브젝트 및 상기 전자 장치 간 거리가 임계 거리 미만인지 여부를 식별하는 단계를 더 포함하고, 상기 제2 영역을 식별하는 단계는, 상기 식별된 거리가 상기 임계 거리 미만이면, 상기 제2 뎁스 이미지에 포함된 복수의 픽셀 중 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하는 단계를 포함하고, 상기 제2 관심 영역 및 상기 제2 영역 간 인터섹션 정보를 획득하는 단계 및 상기 획득된 인터섹션 정보가 임계 값 이상이면, 상기 제2 영역이 상기 오브젝트를 포함하는 것으로 식별하는 단계를 포함할 수 있다.
여기서, 상기 트랙킹하는 단계는, 상기 식별된 거리가 상기 임계 거리 이상이면, 상기 제1 관심 영역, 상기 제1 영역 및 상기 제2 관심 영역에 기초하여 상기 오브젝트의 위치를 트랙킹하는 단계를 포함할 수 있다.
또한, 제어 방법은, 상기 식별된 거리가 상기 임계 거리 이상이면, 상기 제1 관심 영역에 기초하여 상기 오브젝트의 위치를 식별하는 단계를 더 포함할 수 있다.
또한, 상기 제1 센서는, 카메라 또는 RGB 컬러 센서 중 적어도 하나를 포함하고, 상기 제2 센서는, Stereo vision 센서, ToF 센서 또는 라이다 센서(LiDAR) 중 적어도 하나를 포함할 수 있다.
본 개시의 다양한 실시 예들에 따르면, 오브젝트를 트랙킹할 수 있다.
특히, 오브젝트가 전자 장치와 적절히 이격되어 있는 경우, 근접한 경우, 매우 근접한 경우 등 다양한 상황에서도 오브젝트를 식별하고 트랙킹할 수 있다.
도 1은 본 개시의 일 실시 예에 따른 오브젝트를 식별하는 전자 장치를 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.
도 3은 본 개시의 일 실시 예에 따른 제1 센서 및 제2 센서의 동작을 설명하기 위한 블록도이다.
도 4는 본 개시의 일 실시 예에 따른 컬러 이미지를 이용하여 오브젝트를 식별 및 추적하는 방법을 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시 예에 따른 컬러 이미지를 이용하여 오브젝트를 식별하는 방법을 설명하기 위한 도면이다.
도 6은 본 개시의 일 실시 예에 따른 컬러 이미지 및 뎁스 이미지를 이용하여 오브젝트를 식별하는 방법을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시 예에 따라 뎁스 이미지를 이용하여 오브젝트를 식별하는 방법을 설명하기 위한 도면이다.
도 8은 본 개시의 일 실시 예에 따른 병합 영역을 설명하기 위한 도면이다.
도 9는 본 개시의 일 실시 예에 따라 전자 장치와 오브젝트 간 거리를 설명하기 위한 도면이다.
도 10은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다. 
본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 개시의 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시 예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 본 개시의 일 실시 예에 따른 오브젝트를 식별하는 전자 장치를 설명하기 위한 도면이다.
본 개시의 일 실시 예에 따른 전자 장치는 사용자 단말 장치, 디스플레이 장치, 셋톱 박스(set-top box), 태블릿 PC(tablet personal computer), 스마트 폰(smart phone), 전자책 리더기(e-book reader), 데스크탑 PC (desktop PC), 랩탑 PC(laptop PC), 워크스테이션(workstation), 서버, PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 키오스크(Kiosk) 등과 같은 다양한 형태의 디바이스로 구현될 수 있다. 다만, 이는 일 실시 예이며, 전자 장치(100)는 엑세서리 형(예: 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘텍트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체 형(예: 전자 의복) 중 적어도 하나의 형태에 해당하는 웨어러블 장치, 구동부를 포함하는 로봇(robot), 프로젝터(projector), 서버 등 다양한 유형의 전자 장치로 구현될 수도 있다.
본 개시의 일 실시 예에 따른 전자 장치는 로봇으로 구현될 수 있다. 여기서, 로봇은 스스로 일 기능을 수행하는 능력을 가진 다양한 형태의 기계를 의미할 수 있다. 일 예로, 로봇은 단순 반복 기능 외에 센서, 카메라 등을 기반으로 실시간으로 주변 환경을 감지하고, 정보를 수집하여 자율적으로 동작하는 스마트 기계를 의미할 수도 있다.
일 실시 예에 따른 로봇은 액추에이터(actuator) 또는 모터를 포함하는 구동부를 구비할 수 있다. 예를 들어, 로봇은 구동부를 이용하여 로봇 관절(articulated)의 움직임을 제어할 수 있다. 여기서, 구동부는 휠, 브레이크 등을 포함할 수 있고, 로봇은 구동부를 이용하여 특정 공간 내를 스스로 이동가능한 이동 로봇으로 구현될 수 있다. 또한, 로봇 관절은 인간의 팔이나 손의 기능을 대신하기 위한 로봇의 일 구성 요소를 의미할 수 있다.
로봇은 분야 또는 수행 가능한 기능에 따라서 산업용, 의료용, 가정용, 군사용 및 탐사용 등으로 구분될 수 있다. 일 실시 예에 따라 산업용 로봇은 공장의 제품 제조 과정에서 이용되는 로봇, 매장 또는 식당 등에서 손님 응대, 주문 접수 및 서빙 등을 수행하는 로봇 등으로 세분화될 수도 있다. 다만, 이는 일 예에 불과할 뿐, 로봇은 활용 분야, 기능 및 사용 목적에 따라 다양하게 분류될 수 있고, 상술한 예에 한정되지 않음은 물론이다.
이하에서는 설명의 편의를 위해 전자 장치를 로봇으로 상정하여 설명하도록 한다.
도 1을 참조하면, 전자 장치는 센서를 구비하며, 센서를 이용하여 전자 장치의 주변(예를 들어, 전면, 후면 또는 측면 중 적어도 하나)에 위치하는 오브젝트를 감지할 수 있다. 예를 들어, 센서는 카메라로 구현되며, 카메라는 특정 시점에서의 정지 영상을 촬영할 수도 있고, 연속적으로 정지 영상을 촬영할 수도 있다. 전자 장치는 센서를 통해 획득된 영상에 기초하여 전자 장치의 주변에 위치하는 또는, 전자 장치에 인접한 오브젝트를 식별할 수 있다. 여기서, 오브젝트는, 사람, 장애물 등을 포함하며, 장애물은 전자 장치의 주행 방향에 위치하여 전자 장치의 주행에 방해가 되거나, 전자 장치의 주행 간 구동 정지, 파손 또는 고장을 유발할 수 있는 각종 사물이나 상황을 의미할 수 있다. 예를 들어, 전자 장치가 댁 내 특정 공간을 주행한다면, 장애물은 가구, 전자 기기, 벽면, 계단, 문턱, 사람, 또는 반려동물(pet) 등을 포함할 수 있다.
특히, 도 1을 참조하면, 전자 장치(100)는 일정 시간 간격으로 센서에 의해 획득된 이미지들에 기초하여 오브젝트를 식별 및 추적(트랙킹(tracking))할 수 있다.
도 1을 참조하면, T 시점, T+1 시점에서 획득된 이미지들은 전자 장치가 오브젝트(예를 들어, 사람)을 식별하기에 용이하나, T+2 시점, T+3 시점에서 획득된 이미지들은 전자 장치가 오브젝트를 식별하기에 용이하지 않을 수 있다.
예를 들어, T+2 시점, T+3 시점에서는 사람과 전자 장치 간의 거리가 매우 근접하므로, T+2 시점, T+3 시점에서 획득된 이미지들은 전자 장치가 사람을 식별할 수 있는 영역을 포함하지 않거나, 매우 낮은 정확도(또는, 신뢰도)로 사람을 식별하는 문제가 있다. 이 경우, 전자 장치는 오브젝트(예를 들어, 사람)을 트랙킹하는데 실패하고, 이에 따라, 전자 장치가 주행 경로를 수정하지 못하거나, 전자 장치와 충돌이 발생할 확률이 증가하는 등 다양한 문제가 발생할 여지가 있다.
이하에서는, 전자 장치와 오브젝트 간의 거리가 매우 근접함에 따라, 센서를 통해 획득된 이미지가 해당 오브젝트를 식별하기 위한 영역을 포함하지 않는 경우에도 오브젝트를 용이하게 식별하는 다양한 실시 예에 대해 설명하도록 한다.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.
도 2를 참조하면, 본 개시의 일 실시 예에 따른 전자 장치(100)는 제1 센서(110), 제2 센서(120), 메모리(130) 및 프로세서(140)를 포함한다.
일 실시 예에 따른 제1 센서(110)는 컬러(color) 이미지를 획득할 수 있다.
일 예로, 제1 센서(110)는 카메라 또는 RGB 컬러 센서 중 적어도 하나를 포함할 수 있다. 여기서, 카메라는 정지 영상 또는 동영상을 촬상하기 위한 구성이다. 카메라는 특정 시점에서의 정지 영상을 촬영할 수 있으나, 연속적으로 정지 영상을 촬영할 수도 있다.
일 예로, 전자 장치(100)는 제1 센서(110)의 일 구현 예인 카메라를 통해 전자 장치(100)의 전방 컬러 이미지를 획득하고, 획득한 컬러 이미지에 기초하여 전자 장치(100)의 전방에 위치하는 오브젝트를 식별할 수 있다.
일 실시 예에 따른 제2 센서(120)는 뎁스(depth) 이미지를 획득할 수 있다.
일 예로, 제2 센서(120)는 ToF(time-of-flight) 센서, 라이다(Lidar) 센서, 레이더(Radar) 센서 중 적어도 하나를 포함할 수 있다.
예를 들어, 제2 센서(120)는 초음파 센서, 적외선 센서 등으로 구현될 수 있다. 일 실시 예에 따라 제2 센서(120)가 초음파 센서로 구현되는 경우, 전자 장치(100)는 초음파 센서가 초음파 펄스를 방사하도록 제어할 수 있다. 이어서, 초음파 펄스가 물체에 반사되어 오는 반사파가 수신되면, 전자 장치(100)는 그 사이의 경과 시간을 계측하여 오브젝트와 전자 장치(100) 간의 거리를 측정할 수 있다. 이 밖에, 초음파 센서는 초음파 근접각 센서(ultrasonic proximity sensor)를 포함하여 다양한 방식으로 구현될 수도 있음은 물론이다. 적외선 센서는 오브젝트가 가지고 있는 적외광 정보를 감지하는 소자이다. 전자 장치(100)는 적외선 센서를 통해 획득한 적외광 정보에 기초하여 오브젝트를 식별하거나, 오브젝트와 전자 장치(100) 간의 거리를 측정할 수 있다.
한편, 일 실시 예에 따라 전자 장치(100)는 컬러 이미지를 획득하는 제1 센서(110) 및 뎁스 이미지를 획득하는 제2 센서(120)를 서로 다른 구성 요소로 구비할 수도 있고, 하나의 구성 요소로 구비할 수도 있음은 물론이다. 예를 들어, 전자 장치는 컬러 이미지와 뎁스 이미지를 모두 획득할 수 있는 RGB-D(Depth) 카메라를 구비하며, RGB-D 카메라를 통해 컬러 이미지 및 뎁스 이미지를 획득할 수도 있다.
메모리(130)는 전자 장치(100)의 기능과 관련된 다양한 정보를 가변적으로 저장하기 위한 구성이다. 예를 들어, 메모리(130)는 하드 디스크, SSD(Solid state drive), 플래시 메모리(ex. NOR 또는 NAND형 플래시 메모리 등) 등의 비휘발성 메모리로 구현될 수 있다.
메모리(130)에는, 하나 이상의 인공지능 모델이 저장될 수 있다. 구체적으로, 본 개시에 따른 메모리(130)에는, 이미지에서 관심 영역을 식별하도록 학습된 신경망 모델이 저장될 수 있다. 또한, 메모리(130)에 저장된 신경망 모델은 관심 영역에서 오브젝트를 식별하도록 학습된 모델일 수 있다. 여기서, 신경망 모델은 컬러 이미지를 이용하여 학습된 모델이며, 복수의 샘플 컬러 이미지를 이용하여 오브젝트를 포함하는 관심 영역을 식별하도록 학습된 모델일 수 있다.
일 실시 예에 따른 신경망 모델은 인공지능 알고리즘 기반으로 복수의 이미지에 기초하여 학습된 판단 모델로서, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 학습된 판단 모델은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있으며 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고받는 뉴런의 시냅틱(synaptic) 활동을 모의하도록 각각 연결 관계를 형성할 수 있다. 또한 학습된 판단 모델은, 일 예로, 기계 학습(Machine Learning) 모델, 신경망 모델, 또는 신경망 모델에서 발전한 딥 러닝(Deep Learning) 모델을 포함할 수 있다. 딥 러닝 모델에서 복수의 네트워크 노드들은 서로 다른 깊이(또는, 레이어)에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고받을 수 있다.
일 예로, 신경망 모델은 영상에 기초하여 학습된 CNN(Convolution Neural Network, 컨벌루션 신경망) 모델일 수 있다. CNN은 음성처리, 이미지 처리 등을 위해 고안된 특수한 연결구조를 가진 다층신경망이다. 한편, 신경망 모델은 CNN에 한정되지 않음은 물론이다. 예를 들어, 신경망 모델은 RNN(Recurrent Neural Network), LSTM(Long Short Term Memory Network), GRU(Gated Recurrent Units) 또는 GAN(Generative Adversarial Networks) 중 적어도 하나의 DNN(Deep Neural Network) 모델로 구현될 수 있다.
일 실시 예에 따른 프로세서(140)는 전자 장치(100)의 전반적인 동작을 제어한다.
일 실시 예에 따라 프로세서(140)는 디지털 영상 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), AI(Artificial Intelligence) 프로세서, T-CON(Timing controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(140)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.
특히, 프로세서(140)는 제1 센서(110)를 통해 수신된 컬러 이미지 및 제2 센서(120)를 통해 수신된 뎁스 이미지 중 적어도 하나에 기초하여 전자 장치(100)에 인접한 오브젝트의 위치를 식별할 수 있고, 오브젝트의 위치 변화를 트랙킹(tracking)할 수 있다.
이에 대한 구체적인 설명은 도 3을 참조하여 하도록 한다.
도 3은 본 개시의 일 실시 예에 따른 제1 센서 및 제2 센서의 동작을 설명하기 위한 블록도이다.
도 3을 참조하면, 전자 장치(100)에 구비된 제1 센서(110)는 컬러 이미지 예를 들어, RGB 이미지를 획득할 수 있다. 또한, 제2 센서(120)는 뎁스 이미지 예를 들어, 저 해상도의 뎁스 이미지를 획득할 수 있다.
상술한 바와 같이, 전자 장치(100)는 제1 센서(110), 제2 센서(120) 각각을 포함할 수도 있고, 하나의 센서(예를 들어, RGB-D 센서)를 구비하고, 이를 이용하여 컬러 이미지 및 뎁스 이미지 각각을 획득할 수도 있음은 물론이다.
우선, 프로세서(140)는 제1 센서(110)로부터 수신된 제1 컬러 이미지를 신경망 모델에 입력하여 제1 관심 영역을 획득할 수 있다. 여기서, 신경망 모델은 복수의 샘플 데이터들에 기초하여 이미지 내에서 오브젝트를 포함하는 것으로 추정되는 영역인 관심 영역(ROI, Region Of Interest) 또는, 후보 영역을 식별하도록 학습된 모델일 수 있다. 여기서, 오브젝트는 전자 장치(100)에 인접한 사람(Human), 또는 동물(예를 들어, 반려 동물(pet)) 등을 포함할 수 있다.
다만, 이는 일 예시이며, 오브젝트는 신경망 모델의 목적, 학습에 이용된 복수의 샘플 이미지 등에 따라 다양하게 변경될 수 있음은 물론이다.
일 실시 예에 따른 신경망 모델은 이미지에서 오브젝트를 포함하는 것으로 추정되는 영역, 움직임이 발생하는 영역, 색상 또는 조도의 변화가 발생한 영역 등을 관심 영역으로 식별하도록 학습된 모델일 수 있다. 예를 들어, 신경망 모델은 하나의 이미지에 기초하여 해당 이미지 내에서 오브젝트를 포함하는 것으로 추정되는 영역을 관심 영역으로 식별할 수도 있고, 시간 순서 상 선행하는 제1 컬러 이미지와 후행하는 제2 컬러 이미지를 비교하여 픽셀 값이 변화한 영역을 식별하고, 식별된 영역을 오브젝트를 포함하는 것으로 추정되는 관심 영역으로 식별할 수도 있음은 물론이다. 다만, 상술한 예시는 일 실시 예에 불과하며, 신경망 모델은 다양한 학습 방법을 통해 이미지 내에서 오브젝트를 포함하는 것으로 추정되는 일 영역을 관심 영역으로 식별하도록 학습될 수 있음은 물론이다.
본 개시의 일 실시 예에 따라 프로세서(140)는 제2 센서(120)로부터 제1 뎁스 이미지가 수신되면, 제1 뎁스 이미지에 포함된 복수의 픽셀 중 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제1 영역을 식별할 수 있다.
예를 들어, 제2 센서(120)가 획득하는 뎁스 이미지는, 제2 센서(120)와 제2 센서(120)의 전방에 위치하는 오브젝트 간의 거리 정보를 포함할 수 있다.
예를 들어, 제2 센서(120)가 ToF 센서로 구현되면, ToF 센서는 ToF 센서에 구비된 발광부에서 조사된 광이 전자 장치(100)에 인접하게 위치하는 오브젝트에 의해 반사되어 수광부에 수신되기까지의 시간을 측정하여 오브젝트까지의 거리를 측정할 수 있다. 여기서, 발광부는 일 예로, 특정 주파수의 신호로 변조된 적외선을 조사하는 IR 광원으로 구현될 수 있고, 수광부는 일 예로, 오브젝트에 의해 반사되는 광을 수신하는 이미지 센서로 구현될 수 있다. 다만, 이는 일 예시이며, 발광부는 초음파 또는 레이저 등의 광을 조사할 수 있는 다양한 광원으로 구현될 수 있고, 수광부는 RGB 센서 등 광을 수신할 수 있는 다양한 수광 센서로 구현될 수 있다.
다른 예로, 제2 센서(120)는 스테레오 비전(stereo vision) 카메라로 구현되고, 스테레오 비전 카메라를 통해 오브젝트가 서로 다르게 찍히는 양안시차 특성을 이용하여 오브젝트까지의 거리 정보 즉, 뎁스(Depth) 정보를 획득할 수 있다.
일 실시 예에 따라 제2 센서(120)가 획득하는 뎁스 이미지를 구성하는 복수의 픽셀 각각은 대응되는 오브젝트까지의 거리를 수치로 표현한 뎁스 정보(또는, 거리 정보)를 포함할 수 있다. 예를 들어, 복수의 픽셀 중 제1 픽셀은, 제1 픽셀에 대응되는(예를 들어, 전방에 위치하는) 오브젝트(예를 들어, 사람)까지의 거리를 수치로 표현한 뎁스 정보를 포함할 수 있고, 제2 픽셀은, 제2 픽셀에 대응되는(예를 들어, 전방에 위치하는) 오브젝트(예를 들어, 벽면)까지의 거리를 수치로 표현한 뎁스 정보를 포함할 수 있다. 여기서, 뎁스 정보의 단위는 cm가 될 수 있으나, 이는 일 예시에 불과하며, 거리를 표현할 수 있는 다양한 형태의 단위가 사용될 수 있음은 물론이다.
예를 들어, 뎁스 정보는 0 내지 1의 값으로 표현될 수 있으며, 0은 제2 센서(120)가 센싱 가능한 거리 범위 중 최소 거리에 대응되며, 1은 제2 센서(120)가 센싱 가능한 거리 범위 중 최대 거리에 대응될 수 있다.
일 실시 예에 따라, 프로세서(140)는 제1 컬러 이미지에 대응되는 제1 뎁스 이미지에 포함된 복수의 픽셀 중 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제1 영역을 식별할 수 있다. 여기서, 제1 컬러 이미지에 대응되는 제1 뎁스 이미지는, 제1 컬러 이미지와 동일 시점에 획득한 뎁스 이미지를 의미할 수 있다.
또한, 임계 거리(예를 들어, 1m 등)는, 사용자, 또는 전자 장치(100)의 제조사에 의해 설정된 전자 장치(100)와 근접한 것으로 판단될 수 있는 임의의 거리를 의미할 수 있다.
본 개시의 일 실시 예에 따른 프로세서(140)는 제1 센서(110)를 통해 획득한 컬러 이미지와 제2 센서(120)를 통해 획득한 뎁스 이미지 중 적어도 하나를 이용하여 전자 장치(100)의 전방에 위치하는 오브젝트와의 거리를 식별할 수 있다.
여기서, 전자 장치(100)는 특정 공간 내를 스스로 이동가능한 이동 로봇 또는 자율 주행 차량 등으로 구현될 수 있고, 전자 장치(100)는 전방에 장애물이 있다고 판단되면, 전자 장치(100)의 이동 경로를 조정할 수 있다.
예를 들어, 전자 장치(100)는 전방에 특정 오브젝트, 예를 들어, 사람이 있다고 판단되면, 이동 중지하거나, 좌우 또는 후진 방향으로 이동하여 사람을 회피하여 주행할 수도 있다. 다른 예로, 전자 장치(100)는 전방에 사람이 있다고 판단되면, 전자 장치(100)와 상호 작용(interaction)이 가능함을 알리는 비디오 또는 오디오 알람(alarm)을 제공할 수도 있다.
이하에서는, 다양한 실시 예를 들어, 전자 장치(100)가 오브젝트와의 거리를 식별하는 방법, 오브젝트의 위치 변화를 트랙킹하는 방법을 설명하도록 한다.
도 4 및 도 5는 본 개시의 일 실시 예에 따른 컬러 이미지를 이용하여 오브젝트를 식별 및 추적하는 방법을 설명하기 위한 도면이다.
우선, 도 4는 본 개시의 일 실시 예에 따라 프로세서(140)가 컬러 이미지로부터 관심 영역을 식별하는 방법을 설명하기 위한 도면이다.
도 4를 참조하면, 프로세서(140)는 제1 센서(110)로부터 수신된 컬러 이미지를 신경망 모델에 입력하여 관심 영역을 획득할 수 있다. 예를 들어, 관심 영역은 사람을 포함하는 영역이며, 도 4에서 박스(Box)로 표시하였다.
<T 시점>
T 시점에서 제1 센서(110)로부터 T 시점에 대응되는 컬러 이미지가 수신되면, 프로세서(140)는 컬러 이미지를 신경망 모델에 입력하여 관심 영역을 획득할 수 있다.
<T+1 시점>
이어서, T+1 시점에서 T+1 시점에 대응되는 컬러 이미지가 수신되면, 프로세서(140)는 컬러 이미지를 신경망 모델에 입력하여 관심 영역을 획득할 수 있다.
여기서, 프로세서(140)는 T 시점에서 획득된 관심 영역과 T+1 시점에서 획득된 관심 영역을 비교하여 동일한 오브젝트를 포함하는 관심 영역을 식별하고, T 시점에서 T+1 시점으로 변화함에 따른 해당 오브젝트의 움직임을 추적(Tracking)할 수 있다.
<T+2 시점>
이어서, T+2 시점에서 T+2 시점에 대응되는 컬러 이미지가 수신되면, 프로세서(140)는 컬러 이미지를 신경망 모델에 입력하여 관심 영역을 획득할 수 있다.
여기서, 프로세서(140)는 T+1 시점에서 획득된 관심 영역과 T+2 시점에서 획득된 관심 영역을 비교하여 동일한 오브젝트를 포함하는 관심 영역을 식별하고, T+1 시점에서 T+2 시점으로 변화함에 따른 해당 오브젝트의 움직임을 추적(Tracking)할 수 있다.
일 실시 예에 따라 프로세서(140)는 각 시점의 관심 영역의 유사도를 비교하고, 비교 결과에 기초하여 관심 영역들이 동일한 오브젝트를 포함하는지 여부를 식별할 수 있다. 다른 예로, 프로세서(140)는 각 시점의 관심 영역을 신경망 모델에 입력하고, 신경망 모델의 출력 결과에 기초하여 관심 영역들이 동일한 오브젝트를 포함하는지 여부를 식별할 수도 있다.
한편, 도 4에 도시된 컬러 이미지에 따르면, 전자 장치(100)와 오브젝트 간의 거리가 임계 거리 이상 즉, 전자 장치(100)와 오브젝트가 충분히 이격되어 있으므로, 프로세서(140)는 제1 센서(110)로부터 수신된 컬러 이미지에 기초하여 오브젝트를 포함하는 관심 영역을 매우 높은 정확도(또는, 신뢰도)로 식별할 수 있다.
도 5는 본 개시의 일 실시 예에 따른 컬러 이미지를 이용하여 오브젝트를 식별하는 방법을 설명하기 위한 도면이다.
도 5를 참조하면, 프로세서(140)는 관심 영역을 신경망 모델에 입력하고, 신경망 모델로부터 관심 영역에 포함된 오브젝트를 식별할 수 있다. 예를 들어, 컬러 이미지는 총 3개의 관심 영역을 포함하고, 복수의 관심 영역 각각을 신경망 모델에 입력하여 컬러 이미지에 포함된 오브젝트들을 식별할 수 있다.
상술한 바와 같이, 전자 장치(100)와 오브젝트 간의 거리가 임계 거리 이상이면, 전자 장치(100)는 컬러 이미지로부터 오브젝트를 용이하게(즉, 높은 정확도로) 식별할 수 있다.
다만, 시간이 경과함에 따라(예를 들어, T+1 시점에서 T+2 시점으로 경과) 오브젝트가 이동하거나, 전자 장치(100)가 이동하면, 특정 시점에서 전자 장치(100)와 오브젝트 간의 거리가 임계 거리 미만일 수 있으며, 전자 장치(100)는 특정 시점에 획득된 컬러 이미지로부터 오브젝트를 용이하게 식별할 수 없다는 문제점이 있다.
이하에서는, 컬러 이미지와 뎁스 이미지를 이용하여 전자 장치(100)와 오브젝트 간의 거리가 임계 거리 미만일 때에도, 전자 장치(100)가 오브젝트를 용이하게 식별하는 다양한 실시 예에 대해 설명하도록 한다.
도 6은 본 개시의 일 실시 예에 따른 컬러 이미지 및 뎁스 이미지를 이용하여 오브젝트를 식별하는 방법을 설명하기 위한 도면이다.
도 6을 참조하면, 본 개시의 일 실시 예에 따른 프로세서(140)는 컬러 이미지 또는, 뎁스 이미지 중 적어도 하나를 이용하여 전자 장치(100)의 전방에 위치하는 오브젝트를 식별할 수 있고, 오브젝트의 위치 변화를 트랙킹할 수 있다.
우선, 프로세서(140)는 제1 컬러 이미지를 신경망 모델에 입력하여 제1 관심 영역을 획득하며, 제1 관심 영역에 포함된 오브젝트(예를 들어, 사람) 및 전자 장치(100) 간 거리가 임계 거리 미만인지 여부를 식별할 수 있다.
일 실시 예에 따른 프로세서(140)는 오브젝트 및 전자 장치(100) 간 거리가 임계 거리 미만이면, 제1 컬러 이미지에 대응되는 제1 뎁스 이미지에 포함된 복수의 픽셀 중 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제1 영역을 식별할 수 있다.
여기서, 제1 컬러 이미지는 제1 시점에 제1 센서(110)에 의해 획득된 컬러 이미지이며, 제1 뎁스 이미지는 제1 시점에 제2 센서(120)에 의해 획득된 뎁스 이미지일 수 있다.
이어서, 프로세서(140)는 제1 컬러 이미지로부터 획득된 제1 관심 영역 및 제1 뎁스 이미지로부터 획득된 제1 영역 간 인터섹션(intersection) 정보를 획득할 수 있다. 프로세서(140)는 획득된 인터섹션 정보가 임계 값 이상이면, 제1 영역이 오브젝트를 포함하는 것으로 식별할 수 있다.
여기서, 인터섹션 정보는, 두 영역(예를 들어, 컬러 이미지로부터 획득된 관심 영역 및 뎁스 이미지로부터 획득된 영역) 간 교차 영역의 넓이를 두 영역의 합 영역의 넓이로 나눈 값을 의미할 수 있다. 예를 들어, 두 영역의 동일하면, 두 영역 간 교차 영역의 넓이를 두 영역의 합 영역의 넓이로 나눈 값이 1일 수 있다. 다른 예로, 두 영역이 완전히 상이하면, 두 영역 간 교차 영역의 넓이를 두 영역의 합 영역의 넓이로 나눈 값이 0일 수 있다. 따라서, 인터섹션 정보는 0 내지 1의 값을 가지며, 인터섹션 정보의 값이 클수록 두 영역(예를 들어, 컬러 이미지로부터 획득된 관심 영역 및 뎁스 이미지로부터 획득된 영역)이 유사함을 의미하며, 인터섹션 정보의 값이 작을수록 두 영역이 유사하지 않음을 의미할 수 있다. 인터섹션 정보는 유사도 정보로 불릴 수도 있으나 이하에서는 설명의 편의를 위해 인터섹션 정보로 통칭하도록 한다.
한편, 두 영역(예를 들어, 컬러 이미지로부터 획득된 관심 영역 및 뎁스 이미지로부터 획득된 영역)이 유사한지 또는 유사하지 않은지 판단하는 방법, 알고리즘은 상술한 바와 같이 Intersection over Union(IoU) 알고리즘에 한정되지 않으며, 다양한 방법, 알고리즘을 이용하여 두 영역이 유사한지 여부를 판단할 수 있음은 물론이다.
일 실시 예에 따라, 신경망 모델을 이용하여 획득된 제1 관심 영역은 오브젝트를 포함하며, 제1 관심 영역과 제1 영역의 인터섹션 정보가 임계 값 이상이면, 프로세서(140)는 제1 영역도 오브젝트를 포함하는 것으로 식별할 수 있다.
한편, 상술한 실시 예에 따르면, 신경망 모델이 제1 컬러 이미지로부터 오브젝트를 포함하는 제1 관심 영역을 식별하였으며, 프로세서(140)는 제1 관심 영역에 포함된 오브젝트와의 거리가 임계 거리 미만인 것으로 식별하였다. 이 경우를 설명의 편의를 위해 오브젝트(예를 들어, 사람)가 전자 장치(100)와 근거리에 위치하는 것으로 상정하도록 한다. 다른 예에 따르면, 오브젝트는 전자 장치(100)와 원거리(이하에서는, 일반 거리)에 위치할 수도 있으며, 매우 근접한 거리(이하에서는, 초 근거리)에 위치할 수도 있다.
일 실시 예에 따른 프로세서(140)는 오브젝트와 전자 장치(100) 간 거리가 일반 거리에 대응되는지, 또는, 초 근거리에 대응되는지 판단할 수 있다. 또한, 프로세서(140)는 오브젝트와 전자 장치(100) 간 거리가 초 근거리에 대응되는 경우에도, 오브젝트를 원활하게 식별할 수 있고, 오브젝트의 위치 변화를 트랙킹할 수 있다. 이에 대한 구체적인 설명은, 도 7을 참조하여 하도록 한다.
도 7은 본 개시의 일 실시 예에 따라 뎁스 이미지를 이용하여 오브젝트를 식별하는 방법을 설명하기 위한 도면이다.
<전자 장치와 오브젝트 간 이격 거리가 일반 거리에 대응>
도 7을 참조하면, T 시점에서 제1 센서(110)를 통해 제1 컬러 이미지가 수신되면, 프로세서(140)는 제1 컬러 이미지를 신경망 모델에 입력하여 오브젝트를 포함하는 제1 관심 영역을 획득할 수 있다.
이어서, 프로세서(140)는 오브젝트 및 전자 장치(100) 간 거리가 임계 거리 미만인지 여부를 식별할 수 있다.
일 실시 예에 따라, 식별된 거리가 임계 거리 이상이면, 프로세서(140)는 제1 관심 영역에 기초하여 오브젝트의 위치를 식별할 수 있다.
상술한 바와 같이, 전자 장치(100)와 오브젝트가 일정 거리 이상(예를 들어, 임계 거리 이상) 떨어져 있는 경우, 프로세서(140)는 신경망 모델을 이용하여 오브젝트를 포함하는 제1 관심 영역을 획득할 수 있고, 제1 관심 영역에 기초하여 오브젝트의 위치를 식별할 수 있다.
즉, T 시점에서 프로세서(140)는 제1 뎁스 이미지를 이용하지 않고서도 오브젝트의 위치를 식별할 수 있다. 일 실시 예에 따른 프로세서(140)는 제1 관심 영역을 제1 병합 영역으로 획득할 수 있다.
<전자 장치와 오브젝트 간 이격 거리가 근거리에 대응>
도 7을 참조하면, T+1 시점에서는 제1 센서(110)를 통해 제2 컬러 이미지가 수신되면, 프로세서(140)는 제2 컬러 이미지를 신경망 모델에 입력하여 오브젝트를 포함하는 제2 관심 영역을 획득할 수 있다.
이어서, 프로세서(140)는 오브젝트 및 전자 장치(100) 간 거리가 임계 거리 미만인지 여부를 식별할 수 있다.
일 실시 예에 따라, 식별된 거리가 임계 거리 미만이면, 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에 포함된 복수의 픽셀 중 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별할 수 있다.
이어서, 프로세서(140)는 제2 관심 영역과 제2 영역 간 인터섹션 정보를 획득하며, 획득된 인터섹션 정보가 임계 값 이상이면, 제2 영역이 오브젝트를 포함하는 것으로 식별할 수 있다.
일 실시 예에 따른 프로세서(140)는 제2 관심 영역과 제2 영역 간 인터섹션 정보가 임계 값 이상이면, 제2 관심 영역과 제2 영역이 병합된 제2 병합 영역을 획득할 수 있다. 여기서, 병합 영역은 두 영역의 합 영역을 의미할 수 있다.
여기서, 임계 값은, 인터섹션 정보가 0 내지 1의 값을 가지면, 0.7 등의 값을 가질 수 있으며, 이는 일 예시에 불과할 뿐, 사용자, 제조사의 설정 또는 유사도 알고리즘에 따라 다양하게 변경될 수 있음은 물론이다.
이어서, 프로세서(140)는 T 시점에서 획득한 제1 병합 영역과 T+1 시점에서 획득한 제2 병합 영역 간 인터섹션 정보가 임계 값 이상이면, 제2 병합 영역이 제1 병합 영역에 포함된 오브젝트를 포함하는 것으로 식별할 수 있다.
이어서, 프로세서(140)는 제1 병합 영역에서 식별된 오브젝트의 위치와 제2 병합 영역에서 식별된 오브젝트의 위치에 기초하여 T 시점에서 T+1 시점의 경과에 따른 오브젝트의 위치 변화를 트랙킹할 수 있다.
다른 예로, 프로세서(140)는 제2 관심 영역과 제2 영역 간 인터섹션 정보가 임계 값 미만이면, 제2 영역이 제2 관심 영역에 포함된 오브젝트를 포함하지 않는 것으로 식별할 수 있다.
상술한 바와 같이, 전자 장치(100)와 오브젝트가 일정 거리 미만(예를 들어, 임계 거리 미만) 떨어져 있는 경우, 프로세서(140)는 신경망 모델로부터 획득된 컬러 이미지 상의 관심 영역 및 뎁스 이미지 상의 영역에 기초하여 오브젝트의 위치를 식별할 수 있다.
<전자 장치와 오브젝트 간 이격 거리가 초 근거리에 대응>
도 7을 참조하면, T+2 시점에서는 제1 센서(110)를 통해 제3 컬러 이미지가 수신되면, 프로세서(140)는 제3 컬러 이미지를 신경망 모델에 입력할 수 있다.
여기서, 프로세서(140)는 신경망 모델의 출력에 기초하여 제3 컬러 이미지에서 관심 영역이 식별되지 않는 경우, 제3 컬러 이미지에 대응되는 제3 뎁스 이미지에서 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제3 영역을 식별할 수 있다. 일 실시 예에 따른 프로세서(140)는 T+2 시점에서 제3 컬러 이미지로부터 제3 관심 영역을 획득하지 못하였으며, 제3 뎁스 이미지로부터 제3 영역만을 획득하였으므로, 제3 영역을 제3 병합 영역으로 획득할 수 있다.
이어서, 프로세서(140)는 T+1 시점에서 획득한 제2 병합 영역과 T+2 시점에서 획득한 제3 병합 영역 간 인터섹션 정보가 임계 값 이상이면, 제3 병합 영역이 제2 병합 영역에 포함된 오브젝트를 포함하는 것으로 식별할 수 있다.
이어서, 프로세서(140)는 제2 병합 영역에서 식별된 오브젝트의 위치와 제3 병합 영역에서 식별된 오브젝트의 위치에 기초하여 T+1 시점에서 T+2 시점의 경과에 따른 오브젝트의 위치 변화를 트랙킹할 수 있다.
도 7을 참조하면, T+2 시점에서 오브젝트가 전자 장치(100)에 매우 근접하였으므로, 제1 센서(110)로부터 수신된 제3 컬러 이미지가 오브젝트를 식별할 수 있는 특징점(예를 들어, 사람의 얼굴, 팔, 다리 등)을 포함하지 않을 수 있다. 따라서, 프로세서(140)는 신경망 모델이 제3 컬러 이미지에서 관심 영역이 식별하지 못하면, 제3 컬러 이미지에 대응되는 제3 뎁스 이미지에 기초하여 제3 영역을 획득하고, 제3 영역을 제3 병합 영역으로 하여 T+1 시점에서 획득한 제2 병합 영역과 T+2 시점에서 획득한 제3 병합 영역 간 인터섹션 정보가 임계 값 이상인지 여부를 식별할 수 있다.
한편, 일 실시 예에 따른 프로세서(140)는 신경망 모델이 컬러 이미지로부터 관심 영역을 식별하는지 여부에 관계없이, 뎁스 이미지에서 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 영역을 식별할 수 있다.
일 예로, 프로세서(140)는 T+2 시점에서, 제3 뎁스 이미지에 포함된 복수의 픽셀 중 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들의 비율이 임계 비율 이상이면, 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제3 영역을 식별할 수 있다.
예를 들어, 프로세서(140)는 제3 뎁스 이미지에 포함된 복수의 픽셀 중 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들의 비율이 40% 이상이면, 오브젝트가 전자 장치에 매우 근접한 것으로 판단할 수 있으며, 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제3 영역을 식별할 수 있다. 여기서, 40%는 일 예시에 불과하며 이에 한정되지 않음은 물론이다.
이어서, 프로세서(140)는 제3 영역을 제3 병합 영역으로 하여, T+1 시점에서 획득한 제2 병합 영역과 T+2 시점에서 획득한 제3 병합 영역 간 인터섹션 정보가 임계 값 이상이면, 제2 병합 영역에서 식별된 오브젝트의 위치와 제3 병합 영역에서 식별된 오브젝트의 위치에 기초하여 T+1 시점에서 T+2 시점의 경과에 따른 오브젝트의 위치 변화를 트랙킹할 수 있다.
한편, 프로세서(140)는 T+1 시점에서 획득한 제2 병합 영역과 T+2 시점에서 획득한 제3 병합 영역 간 인터섹션 정보가 임계 값 이상이면, 제3 병합 영역은, 제2 병합 영역에 포함된 오브젝트를 포함하지 않는 것으로 식별할 수 있다.
도 8은 본 개시의 일 실시 예에 따른 병합 영역을 설명하기 위한 도면이다.
<T 시점>
T 시점에서 제1 센서(110)를 통해 제1 컬러 이미지가 수신되면, 프로세서(140)는 제1 컬러 이미지를 신경망 모델에 입력하여 오브젝트를 포함하는 제1 관심 영역을 획득할 수 있다. 이어서, 프로세서(140)는 오브젝트 및 전자 장치(100) 간 거리가 임계 거리 미만인지 여부를 식별할 수 있다.
한편, 전자 장치(100)와 오브젝트가 일정 거리 이상(예를 들어, 임계 거리 이상) 떨어져 있는 경우, 프로세서(140)는 신경망 모델을 이용하여 오브젝트를 포함하는 제1 관심 영역을 획득할 수 있고, 제1 관심 영역에 기초하여 오브젝트의 위치를 식별할 수 있다.
프로세서(140)는 제1 컬러 이미지에 대응되는 제1 뎁스 이미지를 이용하지 않고서도 오브젝트의 위치를 식별하며, 제1 컬러 이미지로부터 식별된 제1 관심 영역을 제1 병합 영역으로 획득할 수 있다.
<T+1 시점>
T+1 시점에서 제1 센서(110)를 통해 제2 컬러 이미지가 수신되면, 프로세서(140)는 제2 컬러 이미지를 신경망 모델에 입력하여 오브젝트를 포함하는 제2 관심 영역을 획득할 수 있다. 이어서, 프로세서(140)는 오브젝트 및 전자 장치(100) 간 거리가 임계 거리 미만인지 여부를 식별할 수 있다.
일 실시 예에 따라, 식별된 거리가 임계 거리 미만이면, 프로세서(140)는 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에 기초하여 제2 영역을 식별할 수 있다.
이어서, 프로세서(140)는 제2 관심 영역과 제2 영역 간 인터섹션 정보를 획득하며, 획득된 인터섹션 정보가 임계 값 이상이면, 제2 영역이 오브젝트를 포함하는 것으로 식별할 수 있다.
이어서, 프로세서(140)는 제2 관심 영역과 제2 영역 간 인터섹션 정보가 임계 값 이상이면, 제2 관심 영역과 제2 영역이 병합된 제2 병합 영역을 획득할 수 있다. 여기서, 병합 영역은 두 영역의 합 영역을 의미할 수 있다.
일 실시 예에 따라 인터섹션 정보를 획득하는 알고리즘은 IoU(Intersection over Union) 값, feature vector의 거리 값, depth 값 중 적어도 하나를 획득하는 알고리즘일 수 있다.
예를 들어, 다른 시점(예를 들어, T 시점, T+1 시점) 각각에서 획득된 제1 병합 영역을 Box A로 지칭하고 제2 병합 영역을 Box B로 지칭하고, Box A와 Box B를 매칭(matching)하는데 요구되는 Cost를 CAB로 지칭하면, 인터섹션 정보는 CAB로 나타낼 수 있다. 또한, 프로세서(140)는 하기의 알고리즘에 기초하여 CAB를 획득할 수 있다.
[수학식 1]
CAB = C(UAB, FA, FB, DA, DB)
여기서, UAB는 Box A와 Box B의 IoU(Intersection over Union) 값, FA, FB 각각은, Feature vector 값, DA, DB 각각은, 전자 장치(100)로부터의 상대적인 거리 값을 의미한다.
인터섹션 정보를 획득하는 알고리즘은 상술한 예시에 한정되지 않으며, 종래의 IoU 값을 획득하는 알고리즘, 딥 러닝 등을 이용할 수도 있음은 물론이다.
예를 들어, 상술한 알고리즘과 유사한 알고리즘을 이용하여 동일 시점(예를 들어, T+1 시점)에서 획득된 관심 영역과 영역 간의 인터섹션 정보를 획득할 수도 있음은 물론이다. 예를 들어, 제2 관심 영역을 Box A로 지칭하고, 제2 영역 Box B로 지칭하고, Box A와 Box B를 매칭(matching)하는데 요구되는 Cost를 CAB로 지칭하면, 인터섹션 정보는 CAB로 나타낼 수 있다.
도 9는 본 개시의 일 실시 예에 따라 전자 장치와 오브젝트 간 거리를 설명하기 위한 도면이다.
도 9는 T 시점부터 T+4 시점까지 오브젝트 또는 전자 장치(100)가 이동함에 따라 오브젝트와 전자 장치(100) 간의 거리가 변경되고, 각 시점에서 전자 장치(100)가 오브젝트를 식별 및 트랙킹하는 방법을 설명하기 위한 도면이다.
<T 시점 및 T+1 시점>
일 예로, 프로세서(140)는 제1 센서(110)로부터 수신된 컬러 이미지를 신경망 모델에 입력하여 관심 영역을 획득할 수 있다. 이어서, 프로세서(140)는 관심 영역에 포함된 오브젝트를 식별하며, 오브젝트와 전자 장치(100) 간의 거리를 식별할 수 있다.
일 실시 예에 따라 프로세서(140)는 식별된 거리가 임계 거리 이상이면, 관심 영역을 병합 영역으로 식별할 수 있다.
<T+2 시점 및 T+3 시점>
일 예로, 프로세서(140)는 제1 센서(110)로부터 수신된 컬러 이미지를 신경망 모델에 입력하여 관심 영역을 획득할 수 있다. 이어서, 프로세서(140)는 관심 영역에 포함된 오브젝트를 식별하며, 오브젝트와 전자 장치(100) 간의 거리를 식별할 수 있다.
일 실시 예에 따라 프로세서(140)는 식별된 거리가 임계 거리 미만이면, 컬러 이미지에 대응되는 뎁스 이미지에 포함된 복수의 픽셀 중 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 영역을 식별할 수 있다.
이어서, 프로세서(140)는 컬러 이미지로부터 획득된 관심 영역 및 뎁스 이미지로부터 획득된 영역 간의 인터섹션 정보를 획득하고, 인터섹션 정보가 임계 값 이상이면, 관심 영역과 영역을 병합하여 병합 영역을 획득할 수 있다.
<T+4 시점>
일 예로, 프로세서(140)는 제1 센서(110)로부터 수신된 컬러 이미지를 신경망 모델에 입력하였으나 신경망 모델이 오브젝트를 포함하는 관심 영역을 식별하지 못하면, 컬러 이미지에 대응되는 뎁스 이미지에 포함된 복수의 픽셀 중 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 영역을 식별할 수 있다.
이어서, 프로세서(140)는 영역을 병합 영역으로 획득할 수 있다.
한편, 프로세서(140)는 복수의 시점 각각의 병합 영역 간의 인터섹션 정보를 획득할 수 있다.
예를 들어, T+1 시점에서 획득된 병합 영역과 T 시점에서 획득된 병합 영역 간의 인터섹션 정보가 임계 값 이상이면, 프로세서(140)는 각 병합 영역은 동일한 오브젝트를 포함하는 것으로 식별할 수 있다.
다른 예로, T+3 시점에서 획득된 병합 영역과 T+4 시점에서 획득된 병합 영역 간의 인터섹션 정보가 임계 값 이상이면, 프로세서(140)는 각 병합 영역은 동일한 오브젝트를 포함하는 것으로 식별할 수 있다.
상술한 방법을 통해, 프로세서(140)는 T 시점 내지 T+4 시점 각각에서 컬러 이미지 또는 뎁스 이미지 중 적어도 하나를 적절히 이용하여 동일한 오브젝트를 트랙킹할 수 있다.
도 2로 돌아와서, 제1 센서(110), 제2 센서(120) 각각은 RGB 카메라, 3D 카메라 등으로 구현될 수 있다. 3D 카메라는, TOF(Time Of Flight) 센서 및 적외선 라이트를 포함하는 TOF 카메라로 구현될 수 있다. 3D 카메라는 IR 스테레오 센서를 포함할 수 있다. 제1 센서(110), 제2 센서(120) 각각은 CCD(Carge-Coupled Device), CMOS(Complementary Metal-Oxide Semiconductor) 등의 센서를 포함할 수 있으나, 이에 한정되는 것은 아니다. 제1 센서(110), 제2 센서(120) 각각이 CCD를 포함하는 경우, CCD는 RGB(Red/Green/Blue) CCD, IR(Infrared) CCD 등으로 구현될 수 있다.
메모리(130)는 ROM, RAM(ex. DRAM(dynamic RAM), SDRAM(synchronous DRAM), DDR SDRAM(Double data rate SDRAM)) 등을 포함할 수 있으며, 하나의 칩 내에 프로세서(140)와 함께 구현될 수도 있다.
본 개시에 따른 인공지능과 관련된 기능은 프로세서(140)와 메모리(130)를 통해 동작된다. 프로세서(140)는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리(130)에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
도 10은 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
본 개시의 상술한 목적을 달성하기 위한 일 실시 예에 따른 전자 장치의 제어 방법은, 우선, 제1 센서로부터 제1 컬러 이미지가 수신되면, 제1 컬러 이미지를 신경망 모델에 입력하여 제1 관심 영역을 획득한다(S1010).
이어서, 제1 관심 영역에 포함된 오브젝트 및 전자 장치 간 거리가 임계 거리 미만인지 여부를 식별한다(S1020).
여기서, 식별하는 S1020 단계는, 식별된 거리가 임계 거리 미만이면, 제1 컬러 이미지에 대응되는 제1 뎁스 이미지에 포함된 복수의 픽셀 중 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제1 영역을 식별하는 단계, 제1 관심 영역 및 제1 영역 간 인터섹션(intersection) 정보를 획득하는 단계, 및 획득된 인터섹션 정보가 임계 값 이상이면, 제1 영역이 오브젝트를 포함하는 것으로 식별하는 단계를 포함한다.
본 개시의 일 실시 예에 따른 제어 방법은, 제2 센서로부터 수신된 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에서 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하는 단계, 제1 영역 및 제2 영역 간 인터섹션 정보를 획득하는 단계, 획득된 인터섹션 정보가 임계 값 이상이면, 제2 영역이 오브젝트를 포함하는 것으로 식별하는 단계 및 제1 영역 및 제2 영역에 기초하여 오브젝트의 위치를 트랙킹(tracking)하는 단계를 더 포함할 수 있다.
또한, 일 실시 예에 따른 제어 방법은, 획득된 인터섹션 정보가 임계 값 이상이면, 제1 관심 영역 및 제1 영역이 병합된 제1 병합 영역을 획득하는 단계, 제2 센서로부터 수신된 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에서 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하는 단계, 제1 병합 영역 및 제2 영역 간 인터섹션 정보를 획득하는 단계, 획득된 인터섹션 정보가 임계 값 이상이면, 제2 영역이 오브젝트를 포함하는 것으로 식별하는 단계 및 제1 병합 영역 및 제2 영역에 기초하여 오브젝트의 위치를 트랙킹하는 단계를 포함할 수 있다.
여기서, 제2 영역을 식별하는 단계는, 제2 뎁스 이미지에서 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들의 비율이 임계 비율 이상이면, 제2 뎁스 이미지에 포함된 복수의 픽셀 중 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하는 단계를 포함할 수 있다.
일 실시 예에 따른 제어 방법은, 제1 센서로부터 수신된 제2 컬러 이미지를 신경망 모델에 입력하는 단계를 더 포함하고, 제2 영역을 식별하는 단계는, 신경망 모델의 출력에 기초하여 제2 컬러 이미지에서 관심 영역이 식별되지 않는 경우, 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에서 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하는 단계를 포함할 수 있다.
일 실시 예에 따른 제어 방법은, 제2 뎁스 이미지에서 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들의 비율이 임계 비율 미만이면, 제2 컬러 이미지를 신경망 모델에 입력하여 오브젝트를 포함하는 제2 관심 영역을 획득하는 단계 및 제2 관심 영역에 포함된 오브젝트 및 전자 장치 간 거리가 임계 거리 미만인지 여부를 식별하는 단계를 더 포함하고, 제2 영역을 식별하는 단계는, 식별된 거리가 임계 거리 미만이면, 제2 뎁스 이미지에 포함된 복수의 픽셀 중 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하는 단계를 포함하고, 제2 관심 영역 및 제2 영역 간 인터섹션 정보를 획득하는 단계 및 획득된 인터섹션 정보가 임계 값 이상이면, 제2 영역이 오브젝트를 포함하는 것으로 식별하는 단계를 포함할 수 있다.
여기서, 트랙킹하는 단계는, 식별된 거리가 임계 거리 이상이면, 제1 관심 영역, 제1 영역 및 제2 관심 영역에 기초하여 오브젝트의 위치를 트랙킹하는 단계를 포함할 수 있다.
일 실시 예에 따른 제어 방법은, 식별된 거리가 임계 거리 이상이면, 제1 관심 영역에 기초하여 오브젝트의 위치를 식별하는 단계를 더 포함할 수 있다.
본 개시의 일 실시 예에 따른 제1 센서는, 카메라 또는 RGB 컬러 센서 중 적어도 하나를 포함하고, 제2 센서는, ToF 센서 또는 라이다 센서(LiDAR) 중 적어도 하나를 포함할 수 있다.
한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시 예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치(100)의 프로세싱 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치(100)에서의 처리 동작을 특정 기기가 수행하도록 한다.
비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100: 전자 장치 110: 제1 센서
120: 제2 센서 130: 메모리
140: 프로세서

Claims (18)

  1. 전자 장치에 있어서,
    컬러(color) 이미지를 획득하는 제1 센서;
    뎁스(depth) 이미지를 획득하는 제2 센서;
    신경망 모델을 저장하는 메모리; 및
    상기 제1 센서로부터 제1 컬러 이미지가 수신되면, 상기 제1 컬러 이미지를 상기 신경망 모델에 입력하여 제1 관심 영역을 획득하고,
    상기 제1 관심 영역에 포함된 오브젝트 및 상기 전자 장치 간 거리가 임계 거리 미만인지 여부를 식별하는 프로세서;를 포함하며,
    상기 프로세서는,
    상기 식별된 거리가 상기 임계 거리 미만이면, 상기 제1 컬러 이미지에 대응되는 제1 뎁스 이미지에 포함된 복수의 픽셀 중 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제1 영역을 식별하고,
    상기 제1 관심 영역 및 상기 제1 영역 간 인터섹션(intersection) 정보를 획득하고,
    상기 획득된 인터섹션(intersection) 정보가 임계 값 이상이면, 상기 제1 영역이 상기 오브젝트를 포함하는 것으로 식별하는, 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    상기 제2 센서로부터 수신된 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하고,
    상기 제1 영역 및 상기 제2 영역 간 인터섹션 정보를 획득하고,
    상기 획득된 인터섹션 정보가 상기 임계 값 이상이면, 상기 제2 영역이 상기 오브젝트를 포함하는 것으로 식별하고,
    상기 제1 영역 및 상기 제2 영역에 기초하여 상기 오브젝트의 위치를 트랙킹하는, 전자 장치.
  3. 제1항에 있어서,
    상기 프로세서는,
    상기 획득된 인터섹션 정보가 상기 임계 값 이상이면, 상기 제1 관심 영역 및 상기 제1 영역이 병합된 제1 병합 영역을 획득하고,
    상기 제2 센서로부터 수신된 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하고,
    상기 제1 병합 영역 및 상기 제2 영역 간 인터섹션 정보를 획득하고,
    상기 획득된 인터섹션 정보가 상기 임계 값 이상이면, 상기 제2 영역이 상기 오브젝트를 포함하는 것으로 식별하고,
    상기 제1 병합 영역 및 상기 제2 영역에 기초하여 상기 오브젝트의 위치를 트랙킹하는, 전자 장치.
  4. 제3항에 있어서,
    상기 프로세서는,
    상기 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들의 비율이 임계 비율 이상이면, 상기 제2 뎁스 이미지에 포함된 복수의 픽셀 중 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 상기 제2 영역을 식별하는, 전자 장치.
  5. 제2항에 있어서,
    상기 프로세서는,
    상기 제1 센서로부터 수신된 제2 컬러 이미지를 상기 신경망 모델에 입력하고,
    상기 신경망 모델의 출력에 기초하여 상기 제2 컬러 이미지에서 관심 영역이 식별되지 않는 경우, 상기 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 상기 제2 영역을 식별하는, 전자 장치.
  6. 제2항에 있어서,
    상기 프로세서는,
    상기 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들의 비율이 임계 비율 미만이면, 상기 제2 컬러 이미지를 상기 신경망 모델에 입력하여 상기 오브젝트를 포함하는 제2 관심 영역을 획득하고,
    상기 제2 관심 영역에 포함된 오브젝트 및 상기 전자 장치 간 거리가 임계 거리 미만인지 여부를 식별하고,
    상기 식별된 거리가 상기 임계 거리 미만이면, 상기 제2 뎁스 이미지에 포함된 복수의 픽셀 중 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하고,
    상기 제2 관심 영역 및 상기 제2 영역 간 인터섹션 정보를 획득하고,
    상기 획득된 인터섹션 정보가 임계 값 이상이면, 상기 제2 영역이 상기 오브젝트를 포함하는 것으로 식별하는, 전자 장치.
  7. 제6항에 있어서,
    상기 프로세서는,
    상기 식별된 거리가 상기 임계 거리 이상이면, 상기 제1 관심 영역, 상기 제1 영역 및 상기 제2 관심 영역에 기초하여 상기 오브젝트의 위치를 트랙킹하는, 전자 장치.
  8. 제1항에 있어서,
    상기 프로세서는,
    상기 식별된 거리가 상기 임계 거리 이상이면, 상기 제1 관심 영역에 기초하여 상기 오브젝트의 위치를 식별하는, 전자 장치.
  9. 제1항에 있어서,
    상기 제1 센서는,
    카메라 또는 RGB 컬러 센서 중 적어도 하나를 포함하고,
    상기 제2 센서는,
    Stereo vision 센서, ToF 센서 또는 라이다 센서(LiDAR) 중 적어도 하나를 포함하는, 전자 장치.
  10. 전자 장치의 제어 방법에 있어서,
    제1 센서로부터 제1 컬러 이미지가 수신되면, 상기 제1 컬러 이미지를 신경망 모델에 입력하여 제1 관심 영역을 획득하는 단계; 및
    상기 제1 관심 영역에 포함된 오브젝트 및 상기 전자 장치 간 거리가 임계 거리 미만인지 여부를 식별하는 단계;를 포함하며,
    상기 식별하는 단계는,
    상기 식별된 거리가 상기 임계 거리 미만이면, 상기 제1 컬러 이미지에 대응되는 제1 뎁스 이미지에 포함된 복수의 픽셀 중 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제1 영역을 식별하는 단계;
    상기 제1 관심 영역 및 상기 제1 영역 간 인터섹션(intersection) 정보를 획득하는 단계; 및
    상기 획득된 인터섹션 정보가 임계 값 이상이면, 상기 제1 영역이 상기 오브젝트를 포함하는 것으로 식별하는 단계;를 포함하는, 제어 방법.
  11. 제10항에 있어서,
    상기 제2 센서로부터 수신된 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하는 단계;
    상기 제1 영역 및 상기 제2 영역 간 인터섹션 정보를 획득하는 단계;
    상기 획득된 인터섹션 정보가 상기 임계 값 이상이면, 상기 제2 영역이 상기 오브젝트를 포함하는 것으로 식별하는 단계; 및
    상기 제1 영역 및 상기 제2 영역에 기초하여 상기 오브젝트의 위치를 트랙킹(tracking)하는 단계;를 더 포함하는, 제어 방법.
  12. 제10항에 있어서,
    상기 획득된 인터섹션 정보가 상기 임계 값 이상이면, 상기 제1 관심 영역 및 상기 제1 영역이 병합된 제1 병합 영역을 획득하는 단계;
    상기 제2 센서로부터 수신된 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하는 단계;
    상기 제1 병합 영역 및 상기 제2 영역 간 인터섹션 정보를 획득하는 단계;
    상기 획득된 인터섹션 정보가 상기 임계 값 이상이면, 상기 제2 영역이 상기 오브젝트를 포함하는 것으로 식별하는 단계; 및
    상기 제1 병합 영역 및 상기 제2 영역에 기초하여 상기 오브젝트의 위치를 트랙킹하는 단계;를 포함하는, 제어 방법.
  13. 제12항에 있어서,
    상기 제2 영역을 식별하는 단계는,
    상기 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들의 비율이 임계 비율 이상이면, 상기 제2 뎁스 이미지에 포함된 복수의 픽셀 중 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 상기 제2 영역을 식별하는 단계;를 포함하는, 제어 방법.
  14. 제11항에 있어서,
    상기 제1 센서로부터 수신된 제2 컬러 이미지를 상기 신경망 모델에 입력하는 단계;를 더 포함하고,
    상기 제2 영역을 식별하는 단계는,
    상기 신경망 모델의 출력에 기초하여 상기 제2 컬러 이미지에서 관심 영역이 식별되지 않는 경우, 상기 제2 컬러 이미지에 대응되는 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 상기 제2 영역을 식별하는 단계;를 포함하는, 제어 방법.
  15. 제11항에 있어서,
    상기 제2 뎁스 이미지에서 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들의 비율이 임계 비율 미만이면, 상기 제2 컬러 이미지를 상기 신경망 모델에 입력하여 상기 오브젝트를 포함하는 제2 관심 영역을 획득하는 단계; 및
    상기 제2 관심 영역에 포함된 오브젝트 및 상기 전자 장치 간 거리가 임계 거리 미만인지 여부를 식별하는 단계;를 더 포함하고,
    상기 제2 영역을 식별하는 단계는,
    상기 식별된 거리가 상기 임계 거리 미만이면, 상기 제2 뎁스 이미지에 포함된 복수의 픽셀 중 상기 임계 거리 미만의 뎁스 정보를 포함하는 픽셀들을 포함하는 제2 영역을 식별하는 단계;를 포함하고,
    상기 제2 관심 영역 및 상기 제2 영역 간 인터섹션 정보를 획득하는 단계; 및
    상기 획득된 인터섹션 정보가 임계 값 이상이면, 상기 제2 영역이 상기 오브젝트를 포함하는 것으로 식별하는 단계;를 포함하는, 제어 방법.
  16. 제15항에 있어서,
    상기 트랙킹하는 단계는,
    상기 식별된 거리가 상기 임계 거리 이상이면, 상기 제1 관심 영역, 상기 제1 영역 및 상기 제2 관심 영역에 기초하여 상기 오브젝트의 위치를 트랙킹하는 단계;를 포함하는, 제어 방법.
  17. 제10항에 있어서,
    상기 식별된 거리가 상기 임계 거리 이상이면, 상기 제1 관심 영역에 기초하여 상기 오브젝트의 위치를 식별하는 단계;를 더 포함하는, 제어 방법.
  18. 제11항에 있어서,
    상기 제1 센서는,
    카메라 또는 RGB 컬러 센서 중 적어도 하나를 포함하고,
    상기 제2 센서는,
    Stereo vision 센서, ToF 센서 또는 라이다 센서(LiDAR) 중 적어도 하나를 포함하는, 제어 방법.
KR1020210142133A 2021-10-22 2021-10-22 실시간 사람 감지 및 추적 시스템을 위한 전자 장치 및 그 제어 방법 KR20230057867A (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020210142133A KR20230057867A (ko) 2021-10-22 2021-10-22 실시간 사람 감지 및 추적 시스템을 위한 전자 장치 및 그 제어 방법
PCT/KR2022/012226 WO2023068511A1 (ko) 2021-10-22 2022-08-17 실시간 사람 감지 및 추적 시스템을 위한 전자 장치 및 그 제어 방법
EP22883739.9A EP4358025A1 (en) 2021-10-22 2022-08-17 Electronic apparatus for real-time human detection and tracking system, and control method therefor
CN202280070462.3A CN118119970A (zh) 2021-10-22 2022-08-17 用于实时人体检测和追踪系统的电子设备及其控制方法
US18/075,875 US20230131404A1 (en) 2021-10-22 2022-12-06 Electronic apparatus for real-time human detection and tracking system and controlling method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210142133A KR20230057867A (ko) 2021-10-22 2021-10-22 실시간 사람 감지 및 추적 시스템을 위한 전자 장치 및 그 제어 방법

Publications (1)

Publication Number Publication Date
KR20230057867A true KR20230057867A (ko) 2023-05-02

Family

ID=86059336

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210142133A KR20230057867A (ko) 2021-10-22 2021-10-22 실시간 사람 감지 및 추적 시스템을 위한 전자 장치 및 그 제어 방법

Country Status (2)

Country Link
KR (1) KR20230057867A (ko)
WO (1) WO2023068511A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9020189B2 (en) * 2012-12-07 2015-04-28 The Nielsen Company (Us), Llc Methods and apparatus to monitor environments
KR20160078082A (ko) * 2014-12-24 2016-07-04 해성옵틱스(주) 스테레오 카메라를 이용한 손 영역 검출 장치 및 방법
JP2020500385A (ja) * 2016-10-20 2020-01-09 ロボ−チーム ホーム リミテッド 人間追跡ロボット
KR101916573B1 (ko) * 2017-03-24 2018-11-07 가톨릭대학교 산학협력단 다중 객체 추적 방법
KR20210061839A (ko) * 2019-11-20 2021-05-28 삼성전자주식회사 전자 장치 및 그 제어 방법

Also Published As

Publication number Publication date
WO2023068511A1 (ko) 2023-04-27

Similar Documents

Publication Publication Date Title
US11741736B2 (en) Determining associations between objects and persons using machine learning models
US10657409B2 (en) Methods and apparatus for tracking objects using saliency
JP7110359B2 (ja) ビデオチューブを使用した行動認識方法
US9380224B2 (en) Depth sensing using an infrared camera
US9177245B2 (en) Spiking network apparatus and method with bimodal spike-timing dependent plasticity
Tsironi et al. Gesture Recognition with a Convolutional Long Short-Term Memory Recurrent Neural Network.
WO2018089158A1 (en) Natural language object tracking
AU2019280047A1 (en) Correspondence neural networks: a joint appearance and motion representation for video
JP2005078376A (ja) 対象物検出装置、対象物方法、及びロボット装置
KR20210061146A (ko) 전자 장치 및 그 제어 방법
KR20210061839A (ko) 전자 장치 및 그 제어 방법
Hwang et al. Human–robot collaboration using sequential-recurrent-convolution-network-based dynamic face emotion and wireless speech command recognitions
KR20190106918A (ko) 인공지능 무빙 에이전트
US20230000304A1 (en) Robot device and control method therefor
Layton et al. Competitive dynamics in MSTd: A mechanism for robust heading perception based on optic flow
US20210114215A1 (en) Robot and method for controlling the same
Finžgar et al. Machine-vision-based human-oriented mobile robots: A review.
US11650597B2 (en) Electronic apparatus for identifying object through warped image and control method thereof
KR20230057867A (ko) 실시간 사람 감지 및 추적 시스템을 위한 전자 장치 및 그 제어 방법
US20230131404A1 (en) Electronic apparatus for real-time human detection and tracking system and controlling method thereof
Koharwal et al. Navigation system for blind-Third eye
US20230244835A1 (en) 6d object pose estimation with 2d and 3d pointwise features
Wang et al. A short survey on deep learning for skeleton-based action recognition
US20240273742A1 (en) Depth completion using image and sparse depth inputs
KR20210069984A (ko) 전자 장치 및 그 제어 방법