KR20210112364A

KR20210112364A - 컬러 이미지 프레임들의 시퀀스에서의 다수의 신경망 기반 객체 분할

Info

Publication number: KR20210112364A
Application number: KR1020217024980A
Authority: KR
Inventors: 히로유키 다케다; 모하마드 가라비-알칸사리
Original assignee: 소니그룹주식회사
Priority date: 2019-02-21
Filing date: 2020-02-19
Publication date: 2021-09-14
Also published as: US10839517B2; WO2020170167A1; CN113424223B; EP3912130A1; JP7289435B2; JP2022525845A; CN113424223A; US20200273176A1

Abstract

컬러 이미지 프레임들에서의 객체 분할을 위한 이미지 처리 장치 및 방법이 제공된다. 이미지 처리 장치는, 제1 신경망 모델에 기초하여, 컬러 이미지 프레임들의 시퀀스의 제1 컬러 이미지 프레임 및 다가오는 컬러 이미지 프레임 각각에서 관심 객체에 대한 제1 전경 마스크 및 제2 전경 마스크를 생성한다. 이미지 처리 장치는 제1 전경 마스크와 제2 전경 마스크의 보간에 기초하여 제3 전경 마스크를 결정하고, 제2 신경망 모델의 이용에 의해, 제3 전경 마스크를 제4 전경 마스크로 업데이트한다. 이미지 처리 장치는 제1 전경 마스크, 제2 전경 마스크, 및 제4 전경 마스크를 각각 이용하여 적어도 제1 컬러 이미지 프레임, 다가오는 컬러 이미지 프레임, 및 중간 컬러 이미지 프레임으로부터 관심 객체를 분할한다.

Description

컬러 이미지 프레임들의 시퀀스에서의 다수의 신경망 기반 객체 분할

관련 출원들에 대한 상호 참조/참조에 의한 포함

없음.

분야

본 개시의 다양한 실시예들은 학습 기반 이미지 처리(learning-based image processing), 컴퓨터 비전(computer vision) 및 카메라 기술들에 관한 것이다. 보다 구체적으로, 본 개시의 다양한 실시예들은 다수의 신경망들에 기초한 컬러 이미지 프레임들의 시퀀스에서의 객체 분할(object segmentation)를 위한 이미지 처리 장치 및 방법에 관한 것이다.

이미지 처리, 컴퓨터 비전 및 카메라 기술들의 분야에서의 개발들은 다양한 이미지 처리 시스템들 및 기술들, 예컨대, 객체 분할에서의 진보들로 이어졌다. 종래의 객체 분할 장치는 상이한 객체 분할 기술들에 기초하여, 장면의 이미지로부터 (사람 신체 또는 사람 얼굴과 같은) 관심 객체(object-of-interest)를 분할할 수 있다. 그러한 객체 분할 기술들의 예들은 압축 기반(compression-based), 컬러 기반(color-based), 심도 기반(depth-based), 히스토그램 기반(histogram-based), 시맨틱 분할 기반(semantic segmentation-based), 또는 장면 파싱 기반(scene parsing-based) 객체 분할 기술을 포함할 수 있다.

현재, 종래의 컬러 기반 분할 접근법 중 하나에서, 관심 객체는 캡처된 이미지로부터의 미리 결정된 정적 배경 이미지의 제거에 기초하여 캡처된 이미지로부터 분할될 수 있다. 그러나, 미리 결정된 정적 배경 이미지를 생성하기 위해, 종래의 객체 분할 장치는 관심 객체가 장면에 존재하지 않을 때 장면의 이미지들의 시퀀스를 먼저 캡처할 필요가 있을 수 있는데, 이는 바람직하지 않을 수 있다. 장면의 미리 결정된 정적 배경 이미지는 캡처된 이미지들의 시퀀스로부터 생성될 수 있다. 종래의 배경 이미지 제거 접근법은 정적 카메라로 장면으로부터 이미지들의 시퀀스를 캡처하도록 추가로 요구할 수 있다. 카메라 위치에서의 임의의 약간의 움직임(movement) 또는 어긋남(disturbance)은 정적 배경 이미지의 재추정(re-estimation)을 요구할 수 있다.

다른 종래의 심도 기반 접근법에서, 종래의 객체 분할 장치는 심도 센서(depth sensor)에 의해 캡처될 수 있는 심도 이미지를 이용함으로써 관심 객체를 분할할 수 있다. 심도 센서가 무효(invalid) 심도 값들을 포함하는 잡음 있는 심도 이미지를 캡처하는 경우들에서, 종래의 객체 분할 장치는 캡처된 이미지로부터 관심 객체를 잘못되고 부정확하게 분할할 수 있다. 다른 종래의 시맨틱 분할 또는 장면 파싱 기반 객체 분할 기술들은 전형적으로 2개의 카테고리들에 속한다. 제1 카테고리는 컬러 이미지들만을 이용하고, 비교적 정확하지만, 객체들을 처리 및 분할하기에 너무 느리다. 이것은 결국 그러한 종래의 시맨틱 분할 또는 장면 파싱 기반 객체 분할 기술들이 실제 이용되는 것을 실행 불가능하게 할 수 있고, 제2 카테고리는 비교적 더 빠르지만 부정확하다.

종래의 및 전통적인 접근법들의 추가적인 제한들 및 단점들은, 도면들을 참조하여 본 출원의 나머지 부분에 개시된 바와 같이, 본 개시의 일부 양태들과 설명된 시스템들의 비교를 통해, 본 기술분야의 통상의 기술자에게 명백해질 것이다.

다수의 신경망들에 기초한 컬러 이미지 프레임들의 시퀀스에서의 객체 분할을 위한 이미지 처리 장치 및 방법은, 청구항들에서 보다 완전히 개시되는 바와 같이, 실질적으로 도면들 중 적어도 하나에 도시되고/되거나, 그것과 관련하여 설명된 바와 같이 제공된다.

본 개시의 이들 및 다른 특징들 및 이점들은, 그 전체에 걸쳐 유사한 참조 번호들이 유사한 부분들을 지칭하는 첨부 도면들과 함께, 본 개시의 다음의 상세한 설명을 검토함으로써 이해될 수 있다.

도 1은 본 개시의 실시예에 따른, 다수의 신경망들에 기초한 컬러 이미지 프레임들의 시퀀스에서의 객체 분할을 위한 이미지 처리 장치를 위한 네트워크 환경을 도시하는 블록도이다.
도 2는 본 개시의 실시예에 따른, 다수의 신경망들에 기초한 컬러 이미지 프레임들의 시퀀스에서의 객체 분할을 위한 예시적인 이미지 처리 장치를 도시하는 블록도이다.
도 3a는 본 개시의 실시예에 따른, 2개의 컨볼루션 신경망(convolutional neural network)(CNN)들에 기초한 컬러 이미지 프레임들의 시퀀스로부터의 객체 분할을 위한 예시적인 처리 파이프라인을 도시한다.
도 3b는 본 개시의 실시예에 따른, 도 3a의 제2 CNN에 대한 예시적인 트레이닝 데이터세트 준비(training dataset preparation)를 도시한다.
도 3c는 본 개시의 실시예에 따른, 2개의 전경 마스크들의 예시적인 선형 보간(linear interpolation)을 도시한다.
도 3d는 본 개시의 실시예에 따른, 중간 이미지 프레임에 대한 전경 마스크를 생성하기 위한, 도 3a의 제2 CNN에 대한 예시적인 입력을 도시한다.
도 4는 본 개시의 실시예에 따른, 다수의 신경망들에 기초한 컬러 이미지 프레임들의 시퀀스에서의 객체 분할을 위한 예시적인 방법을 도시하는 흐름도이다.

다수의 신경망들에 기초한 컬러 이미지 프레임들의 시퀀스에서의 객체 분할을 위한 이미지 처리 장치 및 방법에서 다양한 구현들이 발견될 수 있다. 본 개시의 예시적인 양태들은 컬러 이미지 프레임들의 시퀀스로부터, 사람 객체와 같은 관심 객체를 분할하기 위해, 제1 신경망 모델 및 제2 신경망 모델과 같은 다수의 신경망 모델들을 이용하도록 구성될 수 있는 이미지 처리 장치를 포함할 수 있다. 제1 신경망 모델은 컨볼루션 신경망(CNN)과 같은 미리 트레이닝된(pre-trained) 모델일 수 있다. 전형적으로, CNN과 같은 신경망에 대한 트레이닝 데이터세트의 준비는, 정확한 출력들이 통상적으로 트레이닝 데이터세트에 대해 수동으로 생성되기 때문에 번거롭다. 따라서, 일단 제1 신경망 모델이 이용가능하면, 제2 신경망 모델에 대한 트레이닝 데이터세트는, 제2 신경망 모델에 대한 그라운드 트루스(ground truth)라고도 지칭되는 진정한(true) 전경 마스크들을 수동으로 생성할 필요없이 제1 신경망 모델의 입력-출력 이미지 쌍 및 상이한 비디오들에 기초하여 생성될 수 있다.

종래의 접근법들과 대조적으로, 개시된 이미지 처리 장치는 컬러 이미지 프레임들의 시퀀스로부터 실시간으로 또는 거의 실시간으로 변형하는(deforming) 또는 이동하는(moving) 객체일 수 있는 관심 객체를 정밀하게 분할한다. 컬러 이미지 프레임들의 시퀀스로부터의 관심 객체의 분할에 이용되는 2개의 상이한 신경망 모델들은 최소 분할 에러(minimum segmentation error)를 보장하고, 객체 분할을 위한 종래의 접근법들과 비교하여 컬러 이미지 프레임들의 시퀀스로부터 관심 객체를 분할하기 위한 프레임당 처리 속도를 개선할 수 있다.

도 1은 본 개시의 실시예에 따른, 다수의 신경망들에 기초한 컬러 이미지 프레임들의 시퀀스에서의 객체 분할을 위한 이미지 처리 장치를 위한 네트워크 환경을 도시하는 블록도이다. 도 1을 참조하면, 네트워크 환경(100)이 도시되어 있다. 네트워크 환경(100)은 이미지 처리 장치(102) 및 서버(104)를 포함할 수 있다. 이미지 처리 장치(102)는 이미지 센서(102A)와 같은 하나 이상의 센서를 포함할 수 있다. 이미지 처리 장치(102)는 통신 네트워크(106)를 통해 서버(104)에 통신가능하게 결합될 수 있다. 사람 객체(108A), 무생물 객체(108B)(예를 들어, 가구 물품), 및 생물 객체(108C)(예를 들어, 동물)와 같은 복수의 객체들을 포함하는 장면(108)이 추가로 도시되어 있다. 이미지 센서(102A)는 이미지 처리 장치(102)의 시야(field-of-view)로부터 장면(108)의 컬러 이미지 프레임들의 시퀀스(110)를 캡처하도록 구성될 수 있다. 이미지 처리 장치(102)는 제1 신경망 모델(112A) 및 제2 신경망 모델(112B)을 더 포함할 수 있다.

이미지 처리 장치(102)는 이미지 센서(102A)로부터 컬러 이미지 프레임들의 시퀀스(110)를 수신하도록 구성될 수 있는 적절한 로직, 회로, 인터페이스들 및/또는 코드를 포함할 수 있다. 이미지 처리 장치(102)는 컬러 이미지 프레임들의 시퀀스(110)로부터 사람 객체(108A)와 같은 관심 객체를 분할하도록 추가로 구성될 수 있다. 이미지 처리 장치(102)의 기능들은 고속 컴퓨팅 디바이스, 또는 카메라와 같은 휴대용 디바이스들, 및/또는 서버(104)와 같은 비휴대용 디바이스들에서 구현될 수 있다. 이미지 처리 장치(102)의 예들은, 제한적인 것은 아니지만, 디지털 카메라, 디지털 캠코더, 카메라 폰, 스마트 폰, 가상 현실 디바이스, 게임 콘솔, 모바일 디바이스, 또는 하드웨어 비디오 플레이어를 포함할 수 있다. 이미지 처리 장치(102)의 다른 예들은, 제한적인 것은 아니지만, 텔레비전, 홈 엔터테인먼트 시스템, 증강 현실 디바이스, 및 스마트 웨어러블(스마트 글래스 등)을 포함할 수 있다.

이미지 센서(102A)는 장면(108)의 컬러 이미지 프레임들의 시퀀스(110)를 캡처하도록 구성될 수 있는 적절한 로직, 회로, 인터페이스들 및/또는 코드를 포함할 수 있다. 컬러 이미지 프레임들의 시퀀스(110)는 적색, 녹색 및 청색(RGB) 컬러 모델, HSB(Hue, Saturation and Brightness) 컬러 모델, CYMK(Cyan Yellow Magenta and black) 컬러 모델, 또는 LAB 컬러 모델(L은 휘도(Luminance)를 나타내고, A 및 B는 색상 성분들(chromatic components)임)과 같은 적어도 하나의 컬러 모델에서 캡처될 수 있다. 이미지 센서(102A)는 장면(108) 및/또는 장면(108)에서의 특정 관심 객체를 포커싱할 수 있는 포커싱 렌즈(focusing lens)들과 같은 적절한 광학 기기들(optical instruments)을 가질 수 있다. 이미지 센서(102A)의 구현의 예들은, 제한적인 것은 아니지만, 반도체 CCD(charged coupled device) 기반 이미지 센서, CMOS(Complementary metal-oxide-semiconductor) 기반 이미지 센서, 글로벌 셔터(global shutter)를 갖는 백라이트(backlit) CMOS 센서, SOI(silicon-on-insulator) 기반 단일-칩 이미지 센서, N-타입 금속 산화물 반도체 기반 이미지 센서, 평판 검출기(flat panel detector) 또는 다른 이미지 센서들을 포함할 수 있다. 일부 실시예들에서, 이미지 센서(102A)에 더하여 심도 센서는 장면(108)의 컬러 이미지 프레임들의 시퀀스(110)에 대응하는 심도 이미지들의 시퀀스를 캡처하는데 이용될 수 있다. 일부 실시예들에서, 이미지 센서(102A)는 이미지 처리 장치(102) 내에 통합될 수 있다. 일부 실시예들에서, 이미지 센서(102A)는 이미지 처리 장치(102) 내에 통합되지 않을 수 있다. 그러한 경우들에서, 이미지 센서(102A)는 다양한 유선 및 무선 통신 프로토콜들을 통해 이미지 처리 장치(102)와 통신가능하게 결합될 수 있다.

서버(104)는, 제1 신경망 모델(112A) 및/또는 제2 신경망 모델(112B)과 같은 신경망 모델에 대한 트레이닝 데이터를 저장하도록 구성될 수 있는 적절한 로직, 회로, 및 인터페이스들을 포함할 수 있다. 서버(104)의 예들은, 제한적인 것은 아니지만, 데이터베이스 서버, 파일 서버, 웹 서버, 클라우드 서버, 애플리케이션 서버, 메인프레임 서버, 또는 다른 타입들의 서버를 포함할 수 있다.

통신 네트워크(106)는 이미지 처리 장치(102) 및 서버(104)가 서로 통신할 수 있는 통신 매체를 포함할 수 있다. 통신 네트워크(106)의 예들은, 제한적인 것은 아니지만, 인터넷, 클라우드 네트워크, Wi-Fi(Wireless Fidelity) 네트워크, PAN(Personal Area Network), LAN(Local Area Network), 또는 MAN(Metropolitan Area Network)을 포함할 수 있다. 네트워크 환경(100)에서의 다양한 디바이스들은 다양한 유선 및 무선 통신 프로토콜에 따라 통신 네트워크(106)에 접속하도록 구성될 수 있다. 그러한 유선 및 무선 통신 프로토콜들의 예들은, 제한적인 것은 아니지만, TCP/IP(Transmission Control Protocol and Internet Protocol), UDP(User Datagram Protocol), HTTP(Hypertext Transfer Protocol), FTP(File Transfer Protocol), Zig Bee, EDGE, IEEE 802.11, Li-Fi(light fidelity), 802.16, IEEE 802.11s, IEEE 802.11g, 멀티-홉 통신(multi-hop communication), 무선 액세스 포인트(AP), 디바이스간 통신(device to device communication), 셀룰러 통신 프로토콜들, 및 블루투스(BT) 통신 프로토콜들 중 적어도 하나를 포함할 수 있다.

제1 신경망 모델(112A) 및 제2 신경망 모델(112B)은 이미지 처리 장치(102)에 제공될 수 있다. 실시예에 따르면, 제1 신경망 모델(112A)은 제1 컨볼루션 신경망(CNN)일 수 있고, 제2 신경망 모델(112B)은 제1 CNN과는 상이할 수 있는 제2 CNN일 수 있다. 제1 신경망 모델(112A) 및 제2 신경망 모델(112B)의 다른 예들은 기계 학습 모델(machine learning model), 심층 학습 모델(deep learning model), 예컨대, RNN(recurrent neural network), CNN, 또는 LSTM(Long Short Term Memory)기반 RNN, CTC(Connectionist Temporal Classification)기반 RNN, 또는 GAN(Generative Adversarial Network)을 포함할 수 있다. 일부 실시예들에서, 제1 신경망 모델(112A) 또는 제2 신경망 모델(112B) 중 적어도 하나는 이미지 처리 장치(102)에서의 특수 신경망 회로로서 구현될 수 있다. 일부 실시예들에서, 제1 신경망 모델(112A) 또는 제2 신경망 모델(112B)은 이미지 처리 장치(102)에 신경 스키마(neural schema) 또는 인공 지능(artificial intelligence)(AI) 기반 애플리케이션(들)으로서 저장될 수 있다.

실시예에 따르면, 제1 신경망 모델(112A)은 미리 트레이닝된 모델일 수 있다. 제1 신경망 모델(112A)은 이미지 처리 장치(102)에서의 배치 전에 이미지 쌍들의 세트로 트레이닝될 수 있다. 이미지 쌍들의 세트의 각각의 이미지 쌍은 컬러 이미지 프레임 및 전경 마스크 이미지를 포함할 수 있다. 각각의 이미지 쌍은 적어도 분할될 관심 객체를 포함할 수 있다. 일 예에서, 서버(104)는 제1 신경망 모델(112A)을 저장하도록 구성될 수 있다. 서버(104)는 테스트 장면의 테스트 비디오를 이용하여 이미지 쌍들의 세트로 제1 신경망 모델(112A)을 트레이닝하도록 구성될 수 있다.

제1 신경망 모델(112A)은, 입력 계층, 하나 이상의 은닉 계층, 및 출력 계층과 같은 다수의 계층으로 배열된 복수의 상호접속된 처리 유닛들을 갖는 신경 스키마를 포함할 수 있다. 계층에서의 각각의 처리 유닛은 가중치들(weights)이라고도 알려진 상이한 접속 강도들 또는 파라미터들로 상호접속될 수 있다.

제1 신경망 모델(112A)의 트레이닝 동안, 이미지 쌍들의 세트의 입력 컬러 이미지는 입력 계층을 통해 제1 신경망 모델(112A)을 통과할 수 있다. 일부 경우들에서, 관심 객체의 특성들을 정의하는 하나 이상의 특징이 또한 입력 계층에 제공될 수 있다. 초기 전경 마스크 이미지의 출력은 출력 계층에 의해 생성될 수 있다. 전경 마스크 이미지의 부정확한 출력이 제1 신경망 모델(112A)에 의한 트레이닝의 초기 단계들에서 생성되는 경우, 정확한 전경 마스크 이미지가 제1 신경망 모델(112A)에 제공될 수 있다. 그 다음, (진정한 전경 마스크 이미지라고도 알려진) 정확한 전경 마스크가 제1 신경망 모델(112A)의 이전 출력과 비교될 수 있다. 정확한 전경 마스크와 제1 신경망 모델(112A)의 이전 출력의 비교의 결과로서의 차이는 제1 신경망 모델(112A)에 다시 전달될 수 있다. 가중치들은 그에 따라 다음에 조정될 수 있다. 따라서, CNN에 대한 트레이닝 데이터세트의 준비는 통상적으로 번거롭다.

일부 경우들에서, 진정한 전경 마스크 이미지들과 같은 진정한 출력들은 통상적으로 수동으로 생성된다. 그러나, 테스트 비디오의 상이한 컬러 이미지 프레임들(예를 들어, RGB 입력 프레임들)의 이용에 의해 트레이닝이 진행됨에 따라, 제1 신경망 모델(112A)은 트레이닝되는 관심 객체에 대한 전경 마스크 이미지의 정확한 출력을 학습하고 생성할 수 있게 될 수 있다. 예를 들어, 관심 객체가 사람 형상 객체인 경우, 일단 트레이닝된 제1 신경망 모델(112A)은 테스트 비디오 또는 사람 형상 객체를 갖는 새로운 비디오의 임의의 입력 컬러 이미지 프레임에 대한 정확한 전경 마스크 이미지를 예측하고 출력할 수 있다. 복수의 상호접속된 처리 유닛들에서의 처리 유닛들의 수는 제1 CNN과 같은 신경망의 계산 복잡도를 정의할 수 있을 뿐만 아니라, 신경망의 출력에 관련된 정확도를 유지하는데 기여할 수 있다. 처리 유닛들의 수가 많을수록, 계산 복잡도가 높아질 것이다. 제1 신경망 모델(112A)(예를 들어, 제1 CNN)은 제2 신경망 모델(112B)에 비해 계산적으로 무거운(computationally-heavy) CNN일 수 있다. 제1 신경망 모델(112A)의 트레이닝은 1회 활동(one-time activity)일 수 있다. 일단 트레이닝된 제1 신경망 모델(112A)은, 객체 분할 목적들을 위해, 이미지 처리 장치(102)와 같은 다양한 전자 디바이스들에서 이용 및/또는 배치될 수 있다.

동작시, 이미지 센서(102A)는 장면(108)의 컬러 이미지 프레임들의 시퀀스(110)를 캡처하도록 구성될 수 있다. 일부 실시예들에서, 이미지 처리 장치(102)는 서버(104)로부터 제1 신경망 모델(112A) 및 제2 신경망 모델(112B)을 수신하도록 구성될 수 있다. 일부 실시예들에서, 제1 신경망 모델(112A) 및 제2 신경망 모델(112B)은 이미지 처리 장치(102)에 미리 설치 및/또는 미리 구성될 수 있다.

이미지 처리 장치(102)는, 제1 신경망 모델(112A)에 기초하여, 컬러 이미지 프레임들의 시퀀스(110)의 제1 컬러 이미지 프레임(110A)에서 사람 객체(108A)와 같은 관심 객체에 대한 제1 전경 마스크를 생성하도록 추가로 구성될 수 있다. 이미지 처리 장치(102)는 제1 신경망 모델(112A)을 이용하여 컬러 이미지 프레임들의 시퀀스(110)로부터의 임의의 입력 컬러 이미지 프레임으로부터 관심 객체의 제1 전경 마스크와 같은 전경 마스크를 추정하도록 구성될 수 있다. 제1 전경 마스크와 같은 전경 마스크 추정은 임의의 입력 컬러 이미지의 하나 이상의 선행(preceding) 컬러 이미지 프레임 또는 후속(succeeding) 컬러 이미지 프레임으로부터의 이미지 정보와 독립적일 수 있다. 달리 말하면, 제1 신경망 모델(112A)(예를 들어, 미리 트레이닝된 모델인 제1 CNN)은 관심 객체에 대한 제1 전경 마스크와 같은 상이한 전경 마스크들을 생성하기 위해 임의의 기준 프레임들을 요구하지 않을 수 있다.

이미지 처리 장치(102)는, 제1 신경망 모델(112A)에 기초하여, 컬러 이미지 프레임들의 시퀀스(110)의 제1 컬러 이미지 프레임(110A)에 인접하지 않은 다가오는(upcoming) 컬러 이미지 프레임에서, 사람 객체(108A)와 같은 관심 객체에 대한 제2 전경 마스크를 생성하도록 추가로 구성될 수 있다. 예를 들어, 제1 컬러 이미지 프레임(110A)에 인접하지 않은 다가오는 컬러 이미지 프레임은 컬러 이미지 프레임들의 시퀀스(110)의 제3 컬러 이미지 프레임(110C)일 수 있다.

이미지 처리 장치(102)는 제1 전경 마스크와 제2 전경 마스크의 보간에 기초하여 제3 전경 마스크를 결정하도록 추가로 구성될 수 있다. 예시적인 실시예에 따르면, 보간은 제1 전경 마스크와 제2 전경 마스크의 선형 보간일 수 있다. 대안적인 실시예에 따르면, 보간은 제1 전경 마스크 및 제2 전경 마스크의 비선형 보간일 수 있다. 제3 전경 마스크를 결정하기 위해 이미지 처리 장치(102)에 의해 구현될 수 있는 상이한 보간 기술들이 존재할 수 있다. 선형 보간 기술들의 예들은, 제한적인 것은 아니지만, 평균화 기반 보간(averaging-based interpolation), 이중선형 보간(bilinear interpolation), 선형 스플라인 보간(linear spline interpolation), 및 다른 선형 다항식 보간들(linear polynomial interpolations)을 포함할 수 있다. 비선형 보간 기술들의 예들은, 제한적인 것은 아니지만, 코사인 보간 및 다른 비선형 다항식 보간들을 포함할 수 있다.

선형 보간에서, 제1 전경 마스크 및 제2 전경 마스크와 같은 2개의 마스크 프레임들의 평균은 제3 전경 마스크일 수 있는 개략적(rough) 전경 마스크로서 취해질 수 있다. 실시예에 따르면, 이미지 처리 장치(102)는 관심 객체의 객체 경계가 제1 전경 마스크의 제1 객체 경계 및 제2 전경 마스크의 제2 객체 경계로부터 근사화 및 정규화되어 제3 전경 마스크를 생성하는 근사화 동작(approximation operation)을 적용하도록 추가로 구성될 수 있다.

실시예에 따르면, 이미지 처리 장치(102)는 제2 신경망 모델(112B)을 이용함으로써, 제3 전경 마스크를, 제3 전경 마스크의 정제된 전경 마스크를 나타내는 제4 전경 마스크로 업데이트하도록 추가로 구성될 수 있다. 제2 신경망 모델(112B)은 적어도 사이클 시간 파라미터(cycle time parameter)에서 제1 신경망 모델(112A)과 상이할 수 있다. 사이클 시간 파라미터는 입력 컬러 이미지 프레임이 제1 신경망 모델(112A) 또는 제2 신경망 모델(112B)과 같은 신경망 모델을 통과할 때 컬러 이미지 프레임들의 시퀀스(110)의 입력 컬러 이미지 프레임에 대한 출력 전경 마스크를 생성하기 위한 총 시간을 나타낸다. 제2 신경망 모델(112B)은 제1 신경망 모델(112A)에 비해 더 적은 사이클 시간을 가질 수 있고, 더 빠를 수 있다. 따라서, 제2 신경망 모델(112B)은 또한, 제1 신경망 모델(112A)(예를 들어, 제1 CNN)과 같은 계산적으로 무거운 CNN 만큼 정확한 마스크들로서 출력할 수 있는 계산적으로 가벼운(computationally-light) CNN이라 지칭될 수 있다.

이미지 처리 장치(102)는 제2 신경망 모델(112B)의 이용에 의해 생성된 정제된 전경 마스크와 제1 신경망 모델(112A)(예를 들어, 제1 계산적으로 무거운 CNN)에 의해 생성된 전경 마스크 사이의 차이가 최소화되도록, 제1 신경망 모델(112A)의 입력-출력 이미지 쌍에 기초하여 제2 신경망 모델(112B)을 트레이닝하도록 추가로 구성될 수 있다. 제4 전경 마스크는 (제2 컬러 이미지 프레임(110B)과 같은) 중간 컬러 이미지 프레임 및 결정된 제3 전경 마스크에 기초하여 생성될 수 있다. (제2 컬러 이미지 프레임(110B)과 같은) 중간 컬러 이미지 프레임은 제1 컬러 이미지 프레임(110A)과 (제3 컬러 이미지 프레임(110C)과 같은) 다가오는 컬러 이미지 프레임 사이에 놓일 수 있다.

이미지 처리 장치(102)는 적어도 제1 전경 마스크의 이용에 의해 제1 컬러 이미지 프레임(110A)으로부터 그리고 제2 전경 마스크의 이용에 의해 (제3 컬러 이미지 프레임(110C)과 같은) 다가오는 컬러 이미지 프레임으로부터 관심 객체를 분할하도록 추가로 구성될 수 있다. 이미지 처리 장치(102)는 제4 전경 마스크의 이용에 의해 (제2 컬러 이미지 프레임(110B)과 같은) 중간 컬러 이미지 프레임으로부터 관심 객체를 분할하도록 추가로 구성될 수 있다. 따라서, 비연속적인 프레임들의 제1 세트의 각각의 프레임(예를 들어, 제1 컬러 이미지 프레임(110A), 제3 컬러 이미지 프레임(110C), 및 컬러 이미지 프레임들의 시퀀스(110)의 모든 다른 인접하지 않은 이미지 프레임들)에 대응하는 상이한 출력 전경 마스크들이 제1 신경망 모델(112A)에 기초하여 생성될 수 있다.

이미지 처리 장치(102)는 비연속적인 프레임들의 제1 세트의 각각의 프레임에 대응하는 상이한 출력 전경 마스크들의 이용에 의해 컬러 이미지 프레임들의 시퀀스(110)의 비연속적인 프레임들의 제1 세트로부터, 사람 객체(108A)와 같은 관심 객체를 분할하도록 추가로 구성될 수 있다. 유사하게, 비연속적인 프레임들의 제2 세트의 각각의 프레임(예를 들어, 제2 컬러 이미지 프레임(110B), 및 서로 인접하지 않은 컬러 이미지 프레임들의 시퀀스(110)의 모든 다른 중간 이미지 프레임)에 대응하는 상이한 출력 전경 마스크들이 제2 신경망 모델(112B)에 기초하여 생성될 수 있다. 이미지 처리 장치(102)는 비연속적인 프레임들의 제2 세트의 각각의 프레임에 대응하는 상이한 출력 전경 마스크들의 이용에 의해 컬러 이미지 프레임들의 시퀀스(110)의 비연속적인 프레임들의 제2 세트로부터, 사람 객체(108A)와 같은 관심 객체를 분할하도록 추가로 구성될 수 있다.

도 2는 본 개시의 실시예에 따른, 다수의 신경망들에 기초한 컬러 이미지 프레임들의 시퀀스에서의 객체 분할을 위한 예시적인 이미지 처리 장치를 도시하는 블록도이다. 도 2는 도 1로부터의 요소들과 관련하여 설명된다. 도 2를 참조하면, 이미지 처리 장치(102)의 블록도(200)가 도시되어 있다. 이미지 처리 장치(102)는 제어 회로(202)를 포함할 수 있다. 제어 회로(202)는 객체 분할 회로(204)와 같은 하나 이상의 특수 처리 유닛을 포함할 수 있다. 이미지 처리 장치(102)는 메모리(206), 네트워크 인터페이스(208), 및 I/O 디바이스(210)와 같은 하나 이상의 입력/출력(I/O) 디바이스를 더 포함할 수 있다. 이미지 처리 장치(102) 이미지 센서(102A)를 더 포함할 수 있다. 메모리(206)는 제1 신경망 모델(112A) 및 제2 신경망 모델(112B)을 저장하도록 구성될 수 있다. 일부 실시예들에서, 제1 신경망 모델(112A) 및 제2 신경망 모델(112B)은 이미지 처리 장치(102)에서의 AI 가속기 회로들(accelerator circuits)과 함께 구현될 수 있다.

제어 회로(202)는 컬러 이미지 프레임들의 시퀀스(110) 각각으로부터 관심 객체를 분할하도록 구성될 수 있는 적절한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다. 제어 회로(202)는 객체 분할 회로(204), 메모리(206), 네트워크 인터페이스(208), I/O 디바이스(210), 및 제1 신경망 모델(112A) 및 제2 신경망 모델(112B)과 같은 신경망 모델들에 통신가능하게 결합될 수 있다. 일부 실시예들에서, 제어 회로(202)는 본 기술분야에 알려진 다수의 프로세서 기술들에 기초하여 구현될 수 있다. 제어 회로(202)의 구현들의 예들은 GPU(Graphics Processing Unit), RISC(Reduced Instruction Set Computing) 프로세서, ASIC(Application-Specific Integrated Circuit) 프로세서, CISC(Complex Instruction Set Computing) 프로세서, 마이크로컨트롤러, CPU(central processing unit), 및/또는 다른 제어 회로들일 수 있다.

객체 분할 회로(204)는, 제1 신경망 모델(112A) 및 제2 신경망 모델(112B)과 같은 상이한 신경망 모델들의 이용에 의해 컬러 이미지 프레임들의 시퀀스(110)로부터 관심 객체를 분할하도록 구성될 수 있는 적절한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다. 객체 분할 회로(204)의 구현들의 예들은 코프로세서, GPU(Graphics Processing Unit), CPU(central processing unit), RISC(Reduced Instruction Set Computing) 프로세서, ASIC(Application-Specific Integrated Circuit) 프로세서, CISC(Complex Instruction Set Computing) 프로세서, 마이크로컨트롤러, 및/또는 다른 제어 회로들일 수 있다.

메모리(206)는 제어 회로(202) 및 객체 분할 회로(204)에 의해 실행가능한 명령어들을 저장하도록 구성될 수 있는 적절한 로직, 회로, 및/또는 인터페이스들을 포함할 수 있다. 메모리(206)는 이미지 센서(102A)로부터 수신된 컬러 이미지 프레임들의 시퀀스(110)를 저장하도록 구성될 수 있다. 메모리(206)는 제1 신경망 모델(112A) 및 제2 신경망 모델(112B)을 포함할 수 있다. 메모리(206)의 구현의 예들은, 제한적인 것은 아니지만, RAM(Random Access Memory), ROM(Read Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), HDD(Hard Disk Drive), SSD(Solid-State Drive), CPU 캐시, 및/또는 SD(Secure Digital) 카드를 포함할 수 있다.

네트워크 인터페이스(208)는, 컴퓨터, 스마트폰, 또는 서버(104)와 같은 복수의 전자 디바이스와 접속 및 통신하도록 구성될 수 있는 적절한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다. 네트워크 인터페이스(208)는 무선 통신을 지원하기 위한 알려진 기술들을 구현하도록 구성될 수 있다. 네트워크 인터페이스(208)는, 제한적인 것은 아니지만, 안테나, 무선 주파수(radio frequency)(RF) 송수신기, 하나 이상의 증폭기, 튜너(tuner), 하나 이상의 발진기, 디지털 신호 프로세서, CODEC(coder-decoder) 칩셋, 가입자 식별 모듈(subscriber identity module)(SIM) 카드, 및/또는 로컬 버퍼를 포함할 수 있다. 네트워크 인터페이스(208)는 인터넷, 인트라넷, 및/또는 셀룰러 전화 네트워크, WLAN(wireless local area network), 개인 영역 네트워크(personal area network) 및/또는 MAN(metropolitan area network)과 같은 무선 네트워크와 같은 네트워크들과 오프라인 및 온라인 무선 통신을 통해 통신하도록 구성될 수 있다. 무선 통신은 GSM(Global System for Mobile Communications), EDGE(Enhanced Data GSM Environment), W-CDMA(wideband code division multiple access), CDMA(code division multiple access), LTE, TDMA(time division multiple access), 블루투스, Wi-Fi(Wireless Fidelity)(예컨대, IEEE 802.11, IEEE 802.11b, IEEE 802.11g, IEEE 802.11n, 및/또는 임의의 다른 IEEE 802.11 프로토콜), VoIP(voice over Internet Protocol), Wi-MAX, IoT(Internet-of-Things) 기술, MTC(Machine-Type-Communication) 기술, 이메일, 인스턴트 메시징(instant messaging), 및/또는 SMS(Short Message Service)를 위한 프로토콜과 같은, 복수의 통신 표준들, 프로토콜들 및 기술들 중 임의의 것을 이용할 수 있다.

I/O 디바이스(210)는 하나 이상의 사용자로부터 입력을 수신하도록 구성될 수 있는 적절한 로직, 회로, 인터페이스들, 및/또는 코드를 포함할 수 있다. I/O 디바이스(210)는 하나 이상의 사용자에게 출력을 제공하도록 추가로 구성될 수 있다. I/O 디바이스(210)는 제어 회로(202)와 통신하도록 구성될 수 있는 다양한 입력 및 출력 디바이스들을 포함할 수 있다. 입력 디바이스들의 예들은, 제한적인 것은 아니지만, 터치 스크린, 물리적 입력 버튼들, 조이스틱, 마이크로폰, (이미지 센서(102A)와 같은) 이미지 캡처 디바이스, 및/또는 도킹 스테이션을 포함할 수 있다. 출력 디바이스들의 예들은, 제한적인 것은 아니지만, 내장 디스플레이 스크린, 터치 스크린 디스플레이, 및/또는 스피커를 포함할 수 있다. 제어 회로(202)의 동작은, 예를 들어, 도 3a, 도 3b, 도 3c 및 도 3d에서 상세히 설명될 수 있다.

도 3a는 본 개시의 실시예에 따른, 2개의 컨볼루션 신경망(CNN)들에 기초한 컬러 이미지 프레임들의 시퀀스로부터의 객체 분할을 위한 예시적인 처리 파이프라인을 도시한다. 도 3a를 참조하면, 처리 파이프라인(300)이 도시되어 있다. 처리 파이프라인(300)에서, 본 명세서에서 설명되는 동작들의 세트가 도시된다.

동작시, 이미지 센서(102A)는 하나 이상의 객체를 포함할 수 있는 컬러 이미지 프레임들의 시퀀스(302)를 캡처하도록 구성될 수 있다. 대안적으로, 제어 회로(202)는 메모리(206)에 저장된 컬러 이미지 프레임들의 시퀀스(302)를 검색하도록 구성될 수 있다. 컬러 이미지 프레임들의 시퀀스(302)는 제1 RGB 프레임(302A), 제2 RGB 프레임(302B), 및 제3 RGB 프레임(302C)을 포함할 수 있다. 메모리(206)는 제1 CNN(304A) 및 제2 CNN(304B)을 저장하도록 추가로 구성될 수 있다. 제1 CNN(304A) 및 제2 CNN(304B)은 제1 신경망 모델(112A) 및 제2 신경망 모델(112B)에 각각 대응할 수 있다. 유사하게, 제1 RGB 프레임, 제2 RGB 프레임, 및 제3 RGB 프레임은 컬러 이미지 프레임들의 시퀀스(110)의 제1 컬러 이미지 프레임(110A), 제2 컬러 이미지 프레임(110B), 및 제3 컬러 이미지 프레임(110C)에 각각 대응할 수 있다.

제어 회로(202)는, 컬러 이미지 프레임들의 시퀀스(302)의 (제1 RGB 프레임(302A)과 같은) 제1 컬러 이미지 프레임에서, 사람 객체(308)와 같은 관심 객체에 대한 제1 전경 마스크(306A)를 생성하도록 구성될 수 있다. 제1 RGB 프레임(302A)은 제1 전경 마스크(306A)를 생성하기 위해 트레이닝된 CNN일 수 있는 제1 CNN(304A)을 통과할 수 있다. 제어 회로(202)는 제1 신경망 모델(112A)에 기초하여, (제3 RGB 프레임(302C)과 같은) 다가오는 컬러 이미지 프레임에서, 사람 객체(308)와 같은 관심 객체에 대한 제2 전경 마스크(306B)를 생성하도록 추가로 구성될 수 있다. (제3 RGB 프레임(302C)과 같은) 다가오는 컬러 이미지 프레임은 컬러 이미지 프레임들의 시퀀스(302)의 (제1 RGB 프레임(302A)과 같은) 제1 컬러 이미지 프레임에 인접하지 않을 수 있다.

제어 회로(202)는 제1 전경 마스크(306A)와 제2 전경 마스크(306B)의 선형 보간(310)에 기초하여 제3 전경 마스크(306C)를 결정하도록 추가로 구성될 수 있다. 제어 회로(202)는 선형 보간(310)을 이용하여 제1 전경 마스크(306A) 및 제2 전경 마스크(306B)와 같은 2개의 마스크 프레임들의 평균을 계산하도록 추가로 구성될 수 있다. 계산된 평균은 제3 전경 마스크(306C)일 수 있는 개략적 전경 마스크에 대응할 수 있다.

실시예에서, 제2 CNN(304B)은 개략적 전경 마스크, 즉, 제3 전경 마스크(306C)의 정제를 위해 미리 트레이닝될 수 있다. 대안적인 실시예에서, 제2 CNN(304B)은 개략적 전경 마스크, 즉, 제3 전경 마스크(306C)의 정제를 위해 특정 트레이닝 데이터에 대해 트레이닝될 필요가 있을 수 있다. 따라서, 제어 회로(202)는 특정 트레이닝 데이터, 즉, 제3 전경 마스크(306C)(즉, 개략적 전경 마스크)와 연결된 컬러 이미지 프레임들의 시퀀스(302)의 (제2 RGB 프레임(302B)과 같은) 중간 RGB 프레임을 포함할 수 있는 연결된 이미지 프레임을 생성하도록 구성될 수 있다. 연접된 이미지 프레임은 4-채널 RGB-M 이미지일 수 있으며, 여기서 RGB는 중간 "RGB" 프레임의 RGB 컬러 채널들에 대응할 수 있고, "M"은 제3 전경 마스크(306C)의 마스크 또는 이진 컬러들(즉, 흑색 및 백색)에 대응할 수 있다. 또한, 제어 회로(202)는 (도 3b에서 논의된 바와 같이) 제1 CNN(304A)을 제2 RGB 프레임(302B)에 직접 적용함으로써 중간 테스트 마스크를 생성하도록 구성될 수 있다.

제어 회로(202)는 중간 테스트 마스크 및 제2 CNN(304B)의 부분적으로 또는 트레이닝되지 않은 버전의 출력에 기초하여 제2 CNN(304B)을 트레이닝하도록 추가로 구성될 수 있다. 중간 테스트 마스크는 제2 CNN(304B)의 최적 가중치 파라미터들의 추정을 위한 그라운드 트루스 마스크 또는 정확한 기준 마스크로서 작용할 수 있다. 트레이닝 단계에서, 제2 CNN(304B)의 모든 출력으로, 제2 CNN(304B)의 추정된 전경 마스크와 중간 테스트 마스크의 차이들에 기초하여 제2 CNN(304B)에 대해 트레이닝 에러가 최소화될 수 있다. 일단 트레이닝 에러가 최소화되면, 제2 CNN(304B)은 제2 CNN(304B)의 정확도가 제1 CNN(304A)의 정확도와 거의 동일하도록 제4 전경 마스크(306D)를 출력하도록 구성될 수 있고, 출력의 생성을 위한 사이클 시간은 제1 CNN(304A)에 비해 더 적다. 제4 전경 마스크(306D)는 제2 RGB 프레임(302B)과 같은 중간 RGB 프레임에 대한, 사람 객체(308)와 같은 관심 객체에 대한 정확한 마스크일 수 있다. 제2 CNN(304B)에 대한 트레이닝 데이터 세트의 준비의 세부사항들은, 예를 들어, 도 3b, 도 3c, 및 도 3d에서 상세하게 설명된다.

제어 회로(202)는 제2 CNN(304B)을 이용하여 제3 전경 마스크(306C)의 정제된 전경 마스크를 나타내는 제4 전경 마스크(306D)를 생성하도록 추가로 구성될 수 있다. 제2 CNN(304B)은 제1 CNN(304A)과 같은 계산적으로 무거운 CNN 만큼 정확한 마스크들을 출력할 수 있는 계산적으로 가벼운 CNN일 수 있다. 제2 CNN(304B)의 필적하는 정확도는 제2 CNN(304B)의 트레이닝 단계에서 달성될 수 있다. 계산적으로 가벼운 CNN은 제2 CNN(304B)이 제1 CNN(304A)에 비해 더 적은 사이클 시간을 가질 수 있고, 더 빠를 수 있다는 것을 나타낼 수 있다. 제4 전경 마스크(306D)는 (제2 RGB 프레임(302B)과 같은) 중간 컬러 이미지 프레임 및 결정된 제3 전경 마스크(306C)의 제2 CNN(304B)으로의 입력에 기초하여 생성될 수 있다.

제2 CNN(304B)이 RGB-M 입력으로서 제2 RGB 프레임(302B)과 연결된 제3 전경 마스크(306C)를 포함하는 4-채널 이미지 데이터를 취함에 따라, 제4 채널이 제3 전경 마스크(306C)(즉, 개략적 전경 마스크)의 형태의 이진 이미지 표현에 대응할 수 있기 때문에 사이클 시간은 더 적다.

도 3b는 본 개시의 실시예에 따른, 도 3a의 제2 CNN에 대한 예시적인 트레이닝 데이터세트 준비를 도시한다. 도 3b를 참조하면, 컬러 이미지 프레임들의 시퀀스(302)의 RGB 프레임들(302A, 302B 및 302C)과 같은 프레임들의 세트, 제1 CNN(304A), 및 RGB 프레임들(302A, 302B 및 302C)과 같은 프레임들의 세트의 각각의 프레임에 대응하는 상이한 출력 전경 마스크들이 도시되어 있다.

실시예에 따르면, 제1 CNN(304A) 및 제1 CNN(304A)으로부터의 (RGB 프레임들(302A, 302B 및 302C)과 같은) 프레임들의 세트의 각각의 프레임에 대응하는 상이한 출력 전경 마스크들이 이용가능하면, 제2 CNN(304B)에 대한 트레이닝 데이터세트가 생성될 수 있다. 제어 회로(202)는 제1 CNN(304A)의 복수의 입력-출력 이미지 쌍에 기초하여 제1 CNN(304A)을 트레이닝하도록 구성될 수 있다. 제1 CNN(304A)의 복수의 입력-출력 이미지 쌍은 제1 RGB 프레임(302A), 제2 RGB 프레임(302B) 및 제3 RGB 프레임(302C), 및 제1 전경 마스크(306A), 전경 마스크(306E) 및 제3 전경 마스크(306C)와 같은 대응하는 출력 전경 마스크들을 포함할 수 있다. 전경 마스크(306E)는 제2 CNN(304B), 즉, 계산적으로 가벼운 CNN의 트레이닝을 위한 중간 테스트 마스크 또는 그라운드 트루스 마스크에 대응할 수 있다. 유사하게, 제어 회로(202)는 제1 CNN(304A)으로 컬러 이미지 프레임들의 시퀀스(302)의 적어도 일부 프레임들(즉, 프레임들의 세트) 또는 모든 입력 RGB 프레임들을 처리하고, 컬러 이미지 프레임들의 시퀀스(302)의 각각의 입력 RGB 프레임에 대한 전경 마스크를 생성하도록 구성될 수 있다.

컬러 이미지 프레임들의 시퀀스(302)의 각각의 입력 RGB 프레임에 대한 상이한 입력 RGB 프레임들 및 대응하는 전경 마스크를 포함하는 제1 CNN(304A)의 복수의 입력-출력 이미지 쌍은 제2 CNN(304B)에 대한 트레이닝 데이터세트로서 이용될 수 있다. 제1 CNN(304A)의 복수의 입력-출력 이미지 쌍에 기초하여, 진정한 전경 마스크들(제2 CNN(304B)에 대한 그라운드 트루스라고도 지칭됨)을 수동으로 생성할 필요가 회피될 수 있기 때문에, 제2 CNN(304B)의 트레이닝이 효율적일 수 있다.

도 3c는 본 개시의 실시예에 따른, 2개의 전경 마스크들의 예시적인 선형 보간을 도시한다. 도 3c를 참조하면, 제1 CNN(304A)에 의해 생성되는 제1 전경 마스크(306A)와 제2 전경 마스크(306B)의 선형 보간(310)이 도시되어 있다.

제어 회로(202)는, 사람 객체(308)와 같은 관심 객체의 객체 경계가 제1 전경 마스크(306A)의 제1 객체 경계(312A) 및 제2 전경 마스크(306B)의 제2 객체 경계(312B)로부터 근사화 및 정규화되어 제3 전경 마스크(306C)를 생성하는 근사화 동작을 적용하도록 구성될 수 있다. 선형 보간(310)에서, 제1 전경 마스크(306A) 및 제2 전경 마스크(306B)와 같은 2개의 마스크 프레임들의 평균은 제3 전경 마스크(306C)일 수 있는 개략적 전경 마스크로서 취해질 수 있다. 제1 전경 마스크(306A)와 제2 전경 마스크(306B) 사이의 공통 영역이 점선 영역으로서 도시되어 있다. 공통이 아닌 제1 전경 마스크(306A) 및 제2 전경 마스크(306B)의 영역은 평균화되거나 근사화될 수 있다.

도 3d는 본 개시의 실시예에 따른, 중간 이미지 프레임에 대한 전경 마스크를 생성하기 위한, 도 3a의 제2 CNN에 대한 예시적인 입력을 도시한다. 도 3d를 참조하면, 제1 RGB 프레임(302A)과 제3 RGB 프레임(302C) 사이에 제2 RGB 프레임(302B)(즉, 중간 프레임)에 대한 제3 전경 마스크(306C)(즉, 개략적 전경 마스크)가 도시되어 있다. 또한, 연결된 프레임(314)은 제3 전경 마스크(306C)의 업데이트인 제4 전경 마스크(306D)와 함께 도시된다.

제3 전경 마스크(306C)를 제4 전경 마스크(306D)로 업데이트하기 위해, 제어 회로(202)는 (t번째와 t+2번째 프레임 사이의 t+1번째 프레임과 같은) 제2 RGB 프레임(302B)과 제3 전경 마스크(306C)(즉, 개략적 전경 마스크)의 연결(316)에 의해 연결된 프레임(314)을 생성하도록 구성될 수 있다. 연결된 프레임(314)은 4-채널 이미지(즉, RGB 채널들 및 마스크)일 수 있다.

제어 회로(202)는 연결된 프레임(314)을 제2 CNN(304B)에 대한 입력으로서 이용하여 제2 CNN(304B)을 트레이닝하도록 추가로 구성될 수 있다. 제2 CNN(304B)은 제2 CNN(304B)에 대한 트레이닝 에러에 기초하여 대응하는 반복에서 조정될 수 있는 가중치들의 세트에 대한 반복들의 세트의 각각의 반복에서 전경 마스크를 출력할 수 있다. 제2 CNN(304B)은 각각의 반복에서 제2 CNN(304B)으로부터의 출력 전경 마스크와 전경 마스크(306E)(즉, 제1 CNN(304A)에 의해 생성된 중간 테스트 마스크 또는 그라운드 트루스 마스크) 사이의 차이가 최소화되도록 트레이닝될 수 있다. 전경 마스크(306E)(즉, 중간 테스트 마스크)는 제2 CNN(304B)의 최적 가중치 파라미터들의 추정을 위한 그라운드 트루스 마스크 또는 정확한 기준 마스크로서 작용할 수 있다. 각각의 반복에서 제2 CNN(304B)으로부터의 출력 전경 마스크와 전경 마스크(306E) 사이의 차이의 최소화는 제2 CNN(304B)(즉, 계산적으로 가벼운 CNN)에 대한 트레이닝 에러의 최소화에 대응할 수 있다.

일단 트레이닝 에러가 최소화되면, 제어 회로(202)는 제2 CNN(304B)을 이용하여 제3 전경 마스크(306C)를 제4 전경 마스크(306D)로 업데이트하도록 구성될 수 있다. 제4 전경 마스크(306D)는 제3 전경 마스크(306C)의 정제된 전경 마스크를 나타낼 수 있다. 제3 전경 마스크(306C)는 제3 전경 마스크(306C) 및 중간 컬러 이미지 프레임(즉, 제1 RGB 프레임(302A)과 제3 RGB 프레임(302C) 사이에 놓일 수 있는 제2 RGB 프레임(302B))에 기초하여 제4 전경 마스크(306D)로 업데이트될 수 있다. 보다 구체적으로는, 제2 CNN(304B)은 제2 CNN(304B)의 정확도가 제1 CNN(304A)의 정확도와 거의 동일하도록 제4 전경 마스크(306D)를 출력할 수 있고, 제4 전경 마스크(306D)의 생성을 위한 사이클 시간은 제1 CNN(304A)에 비해 더 적다. 제4 전경 마스크(306D)는 제2 RGB 프레임(302B)에 대한, 사람 객체(308)와 같은 관심 객체에 대한 정확한 마스크일 수 있다.

객체 분할 회로(204)는 적어도 제1 전경 마스크(306A)를 이용하는 것에 의해 제1 RGB 프레임(302A)으로부터, 제2 전경 마스크(306B)를 이용하는 것에 의해 제3 RGB 프레임(302C)으로부터, 및 제4 전경 마스크(306D)를 이용하는 것에 의해 제2 RGB 프레임(302B)으로부터, (사람 객체(308)와 같은) 관심 객체를 분할하도록 추가로 구성될 수 있다.

도 4는 본 개시의 실시예에 따른, 다수의 신경망들에 기초한 컬러 이미지 프레임들의 시퀀스에서의 객체 분할을 위한 예시적인 방법을 도시하는 흐름도이다. 도 4를 참조하면, 흐름도(400)가 도시되어 있다. 예시적인 방법의 동작들은 이미지 처리 장치(102)에서 실행될 수 있다. 동작들은 402에서 시작하여 404로 진행할 수 있다.

404에서, 컬러 이미지 프레임들의 시퀀스(110)가 캡처될 수 있다. 제어 회로(202)는 컬러 이미지 프레임들의 시퀀스(110)를 캡처하기 위해 이미지 센서(102A)를 제어하도록 구성될 수 있다.

406에서, 제1 신경망 모델(112A)에 기초하여, 컬러 이미지 프레임들의 시퀀스(110)의 제1 컬러 이미지 프레임(110A)에서 관심 객체에 대한 제1 전경 마스크가 생성될 수 있다. 제어 회로(202)는, 제1 신경망 모델(112A)에 기초하여, 컬러 이미지 프레임들의 시퀀스(110)의 제1 컬러 이미지 프레임(110A)에서 관심 객체에 대한 제1 전경 마스크를 생성하도록 구성될 수 있다.

408에서, 제1 신경망 모델(112A)에 기초하여, 컬러 이미지 프레임들의 시퀀스(110)의 제1 컬러 이미지 프레임(110A)에 인접하지 않은 다가오는 컬러 이미지 프레임에서 관심 객체에 대한 제2 전경 마스크가 생성될 수 있다. 제어 회로(202)는, 제1 신경망 모델(112A)에 기초하여, 컬러 이미지 프레임들의 시퀀스(110)의 제1 컬러 이미지 프레임(110A)에 인접하지 않은 다가오는 컬러 이미지 프레임에서 관심 객체에 대한 제2 전경 마스크를 생성하도록 구성될 수 있다.

410에서, 제3 전경 마스크는 제1 전경 마스크와 제2 전경 마스크의 보간에 기초하여 결정될 수 있다. 제어 회로(202)는 제1 전경 마스크와 제2 전경 마스크의 보간에 기초하여 제3 전경 마스크를 결정하도록 구성될 수 있다. 보간은 제1 전경 마스크와 제2 전경 마스크의 평균이 제3 전경 마스크(개략적 전경 마스크)를 산출할 수 있는 선형 보간일 수 있다.

412에서, 제3 전경 마스크는, 제2 신경망 모델(112B)을 이용하여, 결정된 제3 전경 마스크 및 제1 컬러 이미지 프레임(110A)과 다가오는 컬러 이미지 프레임 사이에 놓인 중간 컬러 이미지 프레임에 기초하여, 제3 전경 마스크의 정제된 전경 마스크를 나타낼 수 있는 제4 전경 마스크로 업데이트될 수 있다. 제어 회로(202)는, 제2 신경망 모델(112B)을 이용하여, 제3 전경 마스크를 제3 전경 마스크의 정제된 전경 마스크를 나타낼 수 있는 제4 전경 마스크로 업데이트하도록 구성될 수 있다. 제3 전경 마스크는 결정된 제3 전경 마스크 및 제1 컬러 이미지 프레임(110A)과 다가오는 컬러 이미지 프레임 사이에 놓인 중간 컬러 이미지 프레임에 기초하여 업데이트될 수 있다.

414에서, 관심 객체는 적어도 제1 전경 마스크를 이용하는 것에 의해 제1 컬러 이미지 프레임(110A)으로부터, 제2 전경 마스크를 이용하는 것에 의해 다가오는 컬러 이미지 프레임으로부터, 및 제4 전경 마스크를 이용하는 것에 의해 중간 컬러 이미지 프레임으로부터 분할될 수 있다. 제어 회로(202)는 적어도 제1 전경 마스크를 이용하는 것에 의해 제1 컬러 이미지 프레임(110A)으로부터, 제2 전경 마스크를 이용하는 것에 의해 다가오는 컬러 이미지 프레임으로부터, 및 제4 전경 마스크를 이용하는 것에 의해 중간 컬러 이미지 프레임으로부터 관심 객체를 분할하도록 구성될 수 있다. 제어가 종료된다.

본 개시의 다양한 실시예들은 다수의 신경망들에 기초한 컬러 이미지 프레임들의 시퀀스에서의 객체 분할을 위한 이미지 처리 장치를 동작시키도록 머신 및/또는 컴퓨터에 의해 실행가능한 명령어들이 저장되어 있는 비일시적 컴퓨터 판독가능 매체 및/또는 저장 매체를 제공할 수 있다. 명령어들은 머신 및/또는 컴퓨터로 하여금, 컬러 이미지 프레임들의 시퀀스의 캡처를 포함하는 동작들을 수행하게 할 수 있다. 동작들은 제1 신경망 모델 및 제2 신경망 모델의 저장을 더 포함한다. 동작들은 제1 신경망 모델에 기초한, 컬러 이미지 프레임들의 시퀀스의 제1 컬러 이미지 프레임에서 관심 객체에 대한 제1 전경 마스크의 생성을 더 포함한다. 동작들은 제1 신경망 모델에 기초한, 컬러 이미지 프레임들의 시퀀스의 제1 컬러 이미지 프레임에 인접하지 않은 다가오는 컬러 이미지 프레임에서 관심 객체에 대한 제2 전경 마스크의 생성을 더 포함한다. 동작들은 제1 전경 마스크와 제2 전경 마스크의 보간에 기초한 제3 전경 마스크의 결정을 더 포함한다. 동작들은 제2 신경망 모델의 이용에 의한, 제3 전경 마스크의, 제3 전경 마스크의 정제된 전경 마스크를 나타내는 제4 전경 마스크로의 업데이트를 더 포함한다. 제3 전경 마스크는 결정된 제3 전경 마스크 및 제1 컬러 이미지 프레임과 다가오는 컬러 이미지 프레임 사이에 놓인 중간 컬러 이미지 프레임에 기초하여 업데이트된다. 동작들은 적어도 제1 전경 마스크의 이용에 의한 적어도 제1 컬러 이미지 프레임으로부터의, 제2 전경 마스크의 이용에 의한 다가오는 컬러 이미지 프레임으로부터의, 및 제4 전경 마스크의 이용에 의한 중간 컬러 이미지 프레임으로부터의, 관심 객체의 분할을 더 포함한다.

본 개시의 특정 실시예들은 다수의 신경망들에 기초한 컬러 이미지 프레임들의 시퀀스에서의 객체 분할을 위한 이미지 처리 장치 및 방법에서 발견될 수 있다. 본 개시의 다양한 실시예들은 메모리(206)(도 2), 이미지 센서(102A) 및 제어 회로(202)(도 2)를 포함할 수 있는 이미지 처리 장치(102)(도 1)를 제공할 수 있다. 이미지 센서(102A)는 컬러 이미지 프레임들의 시퀀스(110)를 캡처하도록 구성될 수 있다. 메모리(206)는 제1 신경망 모델(112A) 및 제2 신경망 모델(112B)을 저장하도록 구성될 수 있다. 제어 회로(202)는, 제1 신경망 모델(112A)에 기초하여, 컬러 이미지 프레임들의 시퀀스(110)의 제1 컬러 이미지 프레임(110A)에서 관심 객체에 대한 제1 전경 마스크를 생성하도록 구성될 수 있다. 제어 회로(202)는, 제1 신경망 모델(112A)에 기초하여, 컬러 이미지 프레임들의 시퀀스(110)의 제1 컬러 이미지 프레임(110A)에 인접하지 않은 다가오는 컬러 이미지 프레임에서 관심 객체에 대한 제2 전경 마스크를 생성하도록 추가로 구성될 수 있다. 제어 회로(202)는 제1 전경 마스크와 제2 전경 마스크의 보간에 기초하여 제3 전경 마스크를 결정하도록 추가로 구성될 수 있다. 제어 회로(202)는 제2 신경망 모델(112B)을 이용하여, 제3 전경 마스크를, 제3 전경 마스크의 정제된 전경 마스크를 나타내는 제4 전경 마스크로 업데이트하도록 추가로 구성될 수 있다. 제3 전경 마스크는 결정된 제3 전경 마스크 및 제1 컬러 이미지 프레임(110A)과 다가오는 컬러 이미지 프레임 사이에 놓인 중간 컬러 이미지 프레임에 기초하여 업데이트될 수 있다. 제어 회로(202)는 적어도 제1 전경 마스크를 이용하는 것에 의해 제1 컬러 이미지 프레임(110A)으로부터, 제2 전경 마스크를 이용하는 것에 의해 다가오는 컬러 이미지 프레임으로부터, 및 제4 전경 마스크를 이용하는 것에 의해 중간 컬러 이미지 프레임으로부터, 관심 객체를 분할하도록 추가로 구성될 수 있다.

실시예에 따르면, 제1 신경망 모델(112A)은 이미지 쌍들의 세트로 트레이닝되는 미리 트레이닝된 모델일 수 있다. 이미지 쌍들의 세트의 각각의 이미지 쌍은 컬러 이미지 프레임 및 전경 마스크 이미지를 포함할 수 있다. 각각의 이미지 쌍은 적어도 분할될 관심 객체를 포함할 수 있다.

실시예에 따르면, 제어 회로(202)는, 제1 신경망 모델(112A)을 이용하여, 임의의 입력 컬러 이미지의 하나 이상의 선행하는 컬러 이미지 프레임 또는 후속하는 컬러 이미지 프레임으로부터의 이미지 정보와는 독립적인 컬러 이미지 프레임들의 시퀀스(110)로부터의 임의의 입력 컬러 이미지 프레임으로부터 관심 객체의 전경 마스크를 추정하도록 구성될 수 있다.

실시예에 따르면, 제1 신경망 모델(112A)은 제1 컨볼루션 신경망일 수 있고, 제2 신경망 모델(112B)은 제1 컨볼루션 신경망과는 상이한 제2 컨볼루션 신경망일 수 있다. 제1 신경망 모델(112A)은 적어도 사이클 시간 파라미터에서 제2 신경망 모델(112B)과 상이할 수 있다. 사이클 시간 파라미터는 입력 컬러 이미지 프레임이 신경망 모델을 통과할 때 컬러 이미지 프레임들의 시퀀스(110)의 입력 컬러 이미지 프레임에 대한 출력 전경 마스크를 생성하기 위한 총 시간을 나타낼 수 있다. 제2 신경망 모델(112B)은 제1 신경망 모델(112A)에 비해 더 적은 사이클 시간을 갖고, 더 빠르다. 실시예에 따르면, 제어 회로(202)는 제1 신경망 모델(112A)의 입력-출력 이미지 쌍에 기초하여 제2 신경망 모델(112B)을 트레이닝하도록 구성될 수 있다.

실시예에 따르면, 제어 회로(202)는, 제1 신경망 모델(112A)에 기초하여, 제1 컬러 이미지 프레임(110A)을 전경 영역 및 배경 영역으로 분류하도록 구성될 수 있다. 전경 영역은 이진 이미지인 생성된 제1 전경 마스크에 맵핑될 수 있다.

실시예에 따르면, 제어 회로(202)는, 제1 신경망 모델(112A)에 기초하여, 다가오는 컬러 이미지 프레임을 전경 영역 및 배경 영역으로 분류하도록 추가로 구성될 수 있다. 전경 영역은 이진 이미지인 생성된 제2 전경 마스크에 맵핑될 수 있다.

실시예에 따르면, 보간은 제1 전경 마스크와 제2 전경 마스크의 선형 보간일 수 있다. 제1 전경 마스크와 제2 전경 마스크의 선형 보간에서, 제어 회로(202)는 관심 객체의 객체 경계가 제1 전경 마스크의 제1 객체 경계 및 제2 전경 마스크의 제2 객체 경계로부터 근사화 및 정규화되어 이진 이미지인 제3 전경 마스크를 생성하는 근사화 동작을 적용하도록 구성될 수 있다.

실시예에 따르면, 제어 회로(202)는, 제1 신경망 모델(112A)에 기초하여 생성된 비연속적인 프레임들의 제1 세트의 각각의 프레임에 대응하는 상이한 출력 전경 마스크들의 이용에 의해 컬러 이미지 프레임들의 시퀀스(110)의 비연속적인 프레임들의 제1 세트로부터 관심 객체를 분할하도록 구성될 수 있다. 상이한 출력 전경 마스크들은 적어도 제1 전경 마스크 및 제2 전경 마스크를 포함할 수 있다.

실시예에 따르면, 제어 회로(202)는 제2 신경망 모델(112B)에 기초하여 생성된 비연속적인 프레임들의 제2 세트의 각각의 프레임에 대응하는 상이한 출력 전경 마스크들의 이용에 의해 시퀀스 관심 객체의 비연속적인 프레임들의 제2 세트로부터 관심 객체를 분할하도록 추가로 구성될 수 있다. 상이한 출력 전경 마스크들은 적어도 제4 전경 마스크를 포함할 수 있다.

본 개시는 하드웨어, 또는 하드웨어와 소프트웨어의 조합으로 실현될 수 있다. 본 개시는 적어도 하나의 컴퓨터 시스템에서 집중화된 방식으로, 또는 상이한 요소들이 수개의 상호접속된 컴퓨터 시스템들을 통해 확산될 수 있는 분산된 방식으로 실현될 수 있다. 본 명세서에 설명된 방법들을 수행하도록 적응된 컴퓨터 시스템 또는 다른 장치가 적합할 수 있다. 하드웨어와 소프트웨어의 조합은 컴퓨터 프로그램을 갖는 범용 컴퓨터 시스템일 수 있고, 컴퓨터 프로그램은 로딩되어 실행될 때, 본 명세서에서 설명된 방법들을 수행하도록 컴퓨터 시스템을 제어할 수 있다. 본 개시는 다른 기능들을 또한 수행하는 집적 회로의 일부를 포함하는 하드웨어로 실현될 수 있다.

본 개시는 또한 컴퓨터 프로그램 제품에 내장될 수 있고, 컴퓨터 프로그램 제품은 본 명세서에 설명된 방법들의 구현을 가능하게 하는 모든 특징들을 포함하며, 컴퓨터 시스템에 로딩될 때, 이러한 방법들을 수행할 수 있다. 본 맥락에서, 컴퓨터 프로그램은 정보 처리 능력을 갖는 시스템으로 하여금 특정 기능을, 직접 수행하게 하거나, 또는 a) 다른 언어, 코드 또는 표기로의 변환; b) 상이한 자료 형태로의 재생성 중 어느 하나 또는 둘다의 이후에 수행하게 하도록 의도된 명령어들의 세트의 임의의 언어, 코드 또는 표기로의 임의의 표현을 의미한다.

본 개시는 특정 실시예들을 참조하여 설명되었지만, 본 기술분야의 통상의 기술자라면 본 개시의 범위를 벗어나지 않고서 다양한 변경들이 이루어질 수 있고, 균등물들로 치환될 수 있다는 것을 이해할 것이다. 또한, 본 개시의 범위를 벗어나지 않고서 특정 상황 또는 자료를 본 개시의 교시에 적응시키기 위해 많은 변형들이 이루어질 수 있다. 따라서, 본 개시는 개시된 특정 실시예로 한정되지 않으며, 본 개시는 첨부된 청구항들의 범위 내에 속하는 모든 실시예들을 포함하는 것으로 의도된다.

Claims

이미지 처리 장치로서,
컬러 이미지 프레임들의 시퀀스를 캡처하도록 구성된 이미지 센서;
제1 신경망 모델 및 제2 신경망 모델을 저장하도록 구성된 메모리; 및
제어 회로
를 포함하고, 상기 제어 회로는,
상기 제1 신경망 모델에 기초하여, 상기 컬러 이미지 프레임들의 시퀀스의 제1 컬러 이미지 프레임에서 관심 객체에 대한 제1 전경 마스크를 생성하고;
상기 제1 신경망 모델에 기초하여, 상기 컬러 이미지 프레임들의 시퀀스의 상기 제1 컬러 이미지 프레임에 인접하지 않은 다가오는 컬러 이미지 프레임에서 상기 관심 객체에 대한 제2 전경 마스크를 생성하고;
상기 제1 전경 마스크와 상기 제2 전경 마스크의 보간에 기초하여 제3 전경 마스크를 결정하고;
상기 제2 신경망 모델의 이용에 의해, 상기 결정된 제3 전경 마스크 및 상기 제1 컬러 이미지 프레임과 상기 다가오는 컬러 이미지 프레임 사이에 놓인 중간 컬러 이미지 프레임에 기초하여, 상기 제3 전경 마스크를 상기 제3 전경 마스크의 정제된 전경 마스크를 나타내는 제4 전경 마스크로 업데이트하고;
적어도 상기 제1 전경 마스크의 이용에 의해 상기 제1 컬러 이미지 프레임으로부터, 상기 제2 전경 마스크의 이용에 의해 상기 다가오는 컬러 이미지 프레임으로부터, 및 상기 제4 전경 마스크의 이용에 의해 상기 중간 컬러 이미지 프레임으로부터, 상기 관심 객체를 분할하도록
구성되는, 이미지 처리 장치.
제1항에 있어서,
상기 제1 신경망 모델은 이미지 쌍들의 세트로 트레이닝되는 미리 트레이닝된 모델이고, 상기 이미지 쌍들의 세트의 각각의 이미지 쌍은 컬러 이미지 프레임 및 전경 마스크 이미지를 포함하고, 각각의 이미지 쌍은 적어도 분할될 상기 관심 객체를 포함하는, 이미지 처리 장치.
제1항에 있어서,
상기 제어 회로는 상기 제1 신경망 모델을 이용하여, 임의의 입력 컬러 이미지의 하나 이상의 선행하는 컬러 이미지 프레임 또는 후속하는 컬러 이미지 프레임으로부터의 이미지 정보와 독립적인 상기 컬러 이미지 프레임들의 시퀀스로부터의 임의의 입력 컬러 이미지 프레임으로부터 상기 관심 객체의 전경 마스크를 추정하도록 구성되는, 이미지 처리 장치.
제1항에 있어서,
상기 제1 신경망 모델은 제1 컨볼루션 신경망이고, 상기 제2 신경망 모델은 상기 제1 컨볼루션 신경망과는 상이한 제2 컨볼루션 신경망인, 이미지 처리 장치.
제1항에 있어서,
상기 제1 신경망 모델은 적어도 사이클 시간 파라미터에서 상기 제2 신경망 모델과 상이하고,
상기 사이클 시간 파라미터는 상기 입력 컬러 이미지 프레임이 신경망 모델을 통과할 때 상기 컬러 이미지 프레임들의 시퀀스의 입력 컬러 이미지 프레임에 대한 출력 전경 마스크를 생성하기 위한 총 시간을 나타내고,
상기 제2 신경망 모델은 상기 제1 신경망 모델에 비해 더 적은 사이클 시간을 갖고 더 빠른, 이미지 처리 장치.
제5항에 있어서,
상기 제어 회로는 상기 제1 신경망 모델의 입력-출력 이미지 쌍에 기초하여 상기 제2 신경망 모델을 트레이닝하도록 구성되는, 이미지 처리 장치.
제1항에 있어서,
상기 제어 회로는, 상기 제1 신경망 모델에 기초하여, 상기 제1 컬러 이미지 프레임을 전경 영역 및 배경 영역으로 분류하도록 추가로 구성되고, 상기 전경 영역은 이진 이미지인 상기 생성된 제1 전경 마스크에 맵핑되는, 이미지 처리 장치.
제1항에 있어서,
상기 제어 회로는, 상기 제1 신경망 모델에 기초하여, 상기 다가오는 컬러 이미지 프레임을 전경 영역 및 배경 영역으로 분류하도록 추가로 구성되고, 상기 전경 영역은 이진 이미지인 상기 생성된 제2 전경 마스크에 맵핑되는, 이미지 처리 장치.
제1항에 있어서,
상기 보간은 상기 제1 전경 마스크와 상기 제2 전경 마스크의 선형 보간일 수 있는, 이미지 처리 장치.
제9항에 있어서,
상기 제1 전경 마스크와 상기 제2 전경 마스크의 상기 선형 보간에서, 상기 제어 회로는 상기 관심 객체의 객체 경계가 상기 제1 전경 마스크의 제1 객체 경계 및 상기 제2 전경 마스크의 제2 객체 경계로부터 근사화 및 정규화되는 근사화 동작을 적용하여, 이진 이미지인 상기 제3 전경 마스크를 생성하도록 구성되는, 이미지 처리 장치.
제1항에 있어서,
상기 제어 회로는 상기 제1 신경망 모델에 기초하여 생성된 비연속적인 프레임들의 제1 세트의 각각의 프레임에 대응하는 상이한 출력 전경 마스크들의 이용에 의해 상기 컬러 이미지 프레임들의 시퀀스의 비연속적인 프레임들의 제1 세트로부터 상기 관심 객체를 분할하도록 추가로 구성되고, 상기 상이한 출력 전경 마스크들은 적어도 상기 제1 전경 마스크 및 상기 제2 전경 마스크를 포함하는, 이미지 처리 장치.
제11항에 있어서,
상기 제어 회로는 상기 제2 신경망 모델에 기초하여 생성된 비연속적인 프레임들의 제2 세트의 각각의 프레임에 대응하는 상이한 출력 전경 마스크들의 이용에 의해 상기 시퀀스 상기 관심 객체의 비연속적인 프레임들의 제2 세트로부터 상기 관심 객체를 분할하도록 추가로 구성되고, 상기 상이한 출력 전경 마스크들은 적어도 상기 제4 전경 마스크를 포함하는, 이미지 처리 장치.
방법으로서,
이미지 센서와, 제1 신경망 모델 및 제2 신경망 모델을 저장하는 메모리와, 제어 회로를 포함하는 이미지 처리 장치에서,
상기 이미지 센서에 의해, 컬러 이미지 프레임들의 시퀀스를 캡처하는 단계;
상기 제어 회로에 의해, 상기 제1 신경망 모델에 기초하여 상기 컬러 이미지 프레임들의 시퀀스의 제1 컬러 이미지 프레임에서 관심 객체에 대한 제1 전경 마스크를 생성하는 단계;
상기 제어 회로에 의해, 상기 제1 신경망 모델에 기초하여 상기 컬러 이미지 프레임들의 시퀀스의 상기 제1 컬러 이미지 프레임에 인접하지 않은 다가오는 컬러 이미지 프레임에서 상기 관심 객체에 대한 제2 전경 마스크를 생성하는 단계;
상기 제어 회로에 의해, 상기 제1 전경 마스크와 상기 제2 전경 마스크의 보간에 기초하여 제3 전경 마스크를 결정하는 단계;
상기 제어 회로에 의해, 상기 보간에 기초하여 생성된 상기 제3 전경 마스크 및 상기 제1 컬러 이미지 프레임과 상기 다가오는 컬러 이미지 프레임 사이에 놓인 중간 컬러 이미지 프레임에 기초하여, 상기 제1 신경망 모델과 상이한 상기 제2 신경망 모델의 이용에 의해, 상기 제3 전경 마스크를 상기 제3 전경 마스크의 정제된 전경 마스크를 나타내는 제4 전경 마스크로 업데이트하는 단계; 및
상기 제어 회로에 의해, 적어도 상기 제1 전경 마스크의 이용에 의해 상기 제1 컬러 이미지 프레임으로부터, 상기 제2 전경 마스크의 이용에 의해 상기 다가오는 컬러 이미지 프레임으로부터, 및 상기 제4 전경 마스크의 이용에 의해 상기 중간 컬러 이미지 프레임으로부터, 상기 관심 객체를 분할하는 단계
를 포함하는, 방법.
제13항에 있어서,
상기 제1 신경망 모델은 이미지 쌍들의 세트로 트레이닝되는 미리 트레이닝된 모델이고, 상기 이미지 쌍들의 세트의 각각의 이미지 쌍은 컬러 이미지 프레임 및 전경 마스크 이미지를 포함하고, 각각의 이미지 쌍은 적어도 분할될 상기 관심 객체를 포함하는, 방법.
제13항에 있어서,
상기 제어 회로에 의해, 상기 제1 신경망 모델에 기초하여, 임의의 입력 컬러 이미지의 하나 이상의 선행하는 컬러 이미지 프레임 또는 후속하는 컬러 이미지 프레임으로부터의 이미지 정보와 독립적인 상기 컬러 이미지 프레임들의 시퀀스로부터의 임의의 입력 컬러 이미지 프레임으로부터 상기 관심 객체의 전경 마스크를 추정하는 단계를 더 포함하는, 방법.
제13항에 있어서,
상기 제1 신경망 모델은 제1 컨볼루션 신경망이고, 상기 제2 신경망 모델은 상기 제1 컨볼루션 신경망과는 상이한 제2 컨볼루션 신경망인, 방법.
제13항에 있어서,
상기 제1 신경망 모델은 적어도 사이클 시간 파라미터에서 상기 제2 신경망 모델과 상이하고,
상기 사이클 시간 파라미터는 상기 입력 컬러 이미지 프레임이 신경망 모델을 통과할 때 상기 컬러 이미지 프레임들의 시퀀스의 입력 컬러 이미지 프레임에 대한 출력 전경 마스크를 생성하기 위한 총 시간을 나타내고,
상기 제2 신경망 모델은 상기 제1 신경망 모델에 비해 더 적은 사이클 시간을 갖고 더 빠른, 방법.
제13항에 있어서,
상기 제어 회로에 의해, 상기 제1 신경망 모델의 입력-출력 이미지 쌍에 기초하여 상기 제2 신경망 모델을 트레이닝하는 단계를 더 포함하는, 방법.
제13항에 있어서,
상기 제어 회로에 의해, 상기 제1 신경망 모델의 이용에 의해 상기 제1 컬러 이미지 프레임을 전경 영역 및 배경 영역으로 분류하는 단계를 더 포함하고, 상기 전경 영역은 이진 이미지인 상기 생성된 제1 전경 마스크에 맵핑되는, 방법.
제13항에 있어서,
상기 보간은 상기 제1 전경 마스크와 상기 제2 전경 마스크의 선형 보간일 수 있는, 방법.