KR20210092720A

KR20210092720A - 기계 학습 보조된 자기 개선형 객체 식별 시스템 및 방법

Info

Publication number: KR20210092720A
Application number: KR1020217011282A
Authority: KR
Inventors: 나라심하차리 날라나 차크라바티; 구오화 민; 에드워드 엘. 힐; 브렛 빌브리
Original assignee: 포지션 이미징 인코포레이티드
Priority date: 2018-09-21
Filing date: 2019-09-19
Publication date: 2021-07-26
Also published as: US20200097724A1; EP3853772A1; JP2022500783A; CA3111595A1; CN113424197A; US20220309783A1; US11961279B2; MX2021003341A; EP3853772A4; WO2020061276A1; US11361536B2

Abstract

객체를 식별하고 추적하기 위한 시스템 및 방법은 객체들을 보유하기 위해 지정된 영역을 방문하는 사람의 아이덴티티를 등록하는 것, 객체들을 보유하기 위해 지정된 영역의 이미지를 캡처하는 것, 지정된 영역에 보유된 그러한 객체들과 같은 이미지들 내의 객체들을 검출하고 인식하도록 트레이닝된 심층 신경 네트워크에 이미지의 버전을 제출하는 것, 이미지의 버전에서 객체를 검출하는 것, 등록된 사람의 아이덴티티를 검출된 객체와 연관시키는 것, 심층 신경 네트워크가 검출된 객체를 인식할 수 없는 경우 이미지의 버전을 사용하여 심층 신경 네트워크를 리트레이닝시키는 것, 및 검출된 객체가 객체들을 보유하기 위해 지정된 영역에 있는 동안 검출된 객체의 위치를 추적하는 것을 포함한다.

Description

기계 학습 보조된 자기 개선형 객체 식별 시스템 및 방법

관련 출원에 대한 상호 참조

본 출원은 2018년 9월 21일자로 출원되고, 발명의 명칭이 "Machine-Learning-Assisted Self-Improving Object-identification System and Method"인 공동 계류 중인 미국 가출원 제62/734,491호에 대한 우선권 및 그의 이익을 주장하며, 이들 가출원 전체는 모든 목적들을 위해 본 명세서에 참조에 의해 원용된다.

기술분야

본 발명은 대체적으로 객체들을 식별하기 위한 기계 학습 시스템들 및 방법들에 관한 것이다.

다양한 소비재 상품들 및 소매업들은 구매 및 체크아웃 프로세스를 자동화함으로써 고객들의 쇼핑 경험을 개선하려고 시도하고 있다. 그러한 자동화는 고객이 선반으로부터 어떤 아이템들을 가져왔는지를 식별할 수 있는 시스템들을 배치하는 것을 수반한다. 일부 시스템들은 그러한 아이템들을 식별하기 위해 비디오 모니터링 및 이미지 프로세싱 기법들을 채용한다. 그러나, 캡처된 이미지들에서의 아이템의 적절한 검출 및 식별은 다양한 인자들, 예를 들어 조명 조건들, 음영들, 차단된 시야들, 및 선반 상의 아이템의 위치 및 포지션에 의해 영향을 받을 수 있다. 일관성 없는 결과들은 그러한 시스템들을 무효하게 만든다.

하기에 언급된 모든 예들 및 특징들은 임의의 기술적으로 가능한 방식으로 조합될 수 있다.

일 태양에서, 본 발명은 객체들을 보유하기 위해 지정된 영역 내에 배치된 객체들의 이미지들을 캡처하도록 구성된 이미지 센서, 지정된 영역에 보유된 그러한 객체들과 같은 이미지들 내의 객체들을 검출하고 인식하도록 트레이닝된 심층 신경 네트워크(deep neural network, DNN), 및 이미지 센서에 의해 캡처된 이미지들을 수신하기 위해 이미지 센서와 그리고 심층 신경 네트워크와 통신하는 제어기를 포함하는 객체 식별 시스템에 관한 것이다. 제어기는 객체를 보유하기 위해 지정된 영역을 방문하는 사람의 아이덴티티를 등록하도록, 이미지를 심층 신경 네트워크에 제출하도록, 심층 신경 네트워크로 제출된 이미지에서 검출된 객체와 등록된 사람의 아이덴티티를 연관시키도록, 심층 신경 네트워크가 제출된 이미지에서 검출된 객체를 인식할 수 없는 경우 제출된 이미지를 사용하여 심층 신경 네트워크를 리트레이닝시키도록, 그리고 검출된 객체가 객체들을 보유하기 위해 지정된 영역에 있는 동안 검출된 객체의 위치를 추적하도록 구성된 하나 이상의 프로세서를 포함한다.

제어기는 심층 신경 네트워크가 제출된 이미지에서 검출된 객체를 인식할 수 없다는 것에 응답하여 검출된 객체에 대한 라벨링 정보를 획득하도록, 라벨링 정보를 심층 신경 네트워크에 제출된 이미지의 버전과 연관시키도록, 그리고 심층 신경 네트워크를 리트레이닝시키는 데 사용되는 이미지 데이터베이스에 이미지의 버전 및 연관된 라벨링 정보를 저장하도록 추가로 구성될 수 있다. 인간 입력 획득 모듈은 심층 신경 네트워크가 제출된 이미지에서 이미지 내의 검출된 객체를 인식할 수 없을 때 제어기로부터의 요청에 응답하여 사용자로부터 라벨링 정보를 획득하도록 구성될 수 있다.

제어기는 심층 신경 네트워크가 검출된 객체를 인식할 수 없는 경우 변화가 나타나는 이미지 내의 영역을 찾도록, 변화 영역에 포커싱하는 이미지의 버전을 생성하도록, 그리고 이미지의 버전을 심층 신경 네트워크에 제출하여 심층 신경 네트워크가 이미지의 제2 버전에서 검출된 객체를 인식할 수 있는지 여부를 결정하도록 추가로 구성될 수 있다. 제어기는 심층 신경 네트워크가 이미지의 제출된 버전에서 검출된 객체를 인식하는지 여부에 관계없이 검출된 객체에 대한 라벨링 정보를 획득하도록, 획득된 라벨링 정보를 심층 신경 네트워크에 제출된 이미지의 버전과 연관시키도록, 그리고 이미지의 버전 및 연관된 라벨링 정보를 심층 신경 네트워크를 리트레이닝시키는 데 사용되는 이미지 데이터베이스에 저장하도록 추가로 구성될 수 있다. 또한, 제어기는 심층 신경 네트워크가 이미지의 제출된 버전에서 검출된 객체를 인식할 때 심층 신경 네트워크로부터 라벨링 정보를 획득하도록 추가로 구성될 수 있다.

심층 신경 네트워크는 제1 심층 신경 네트워크일 수 있고, 시스템은 제1 심층 신경 네트워크와 병렬적으로 동작하도록 구성된 제2 심층 신경 네트워크를 추가로 포함할 수 있다. 제1 및 제2 심층 신경 네트워크들 각각은 이미지로부터 획득된 이미지 데이터에 기초하여 출력을 생성하고, 제1 심층 신경 네트워크에 의해 획득된 이미지 데이터는 제2 심층 신경 네트워크에 의해 획득된 이미지 데이터와 상이하다.

객체 식별 시스템은 이미지 센서의 시야(field of view)와 실질적으로 매칭하는 시야를 갖는 깊이 센서를 추가로 포함할 수 있다. 깊이 센서는 그의 시야 내에서 이미지들의 깊이 픽셀들 값을 획득하고, 이미지가 트레이닝 또는 객체 인식 동안 심층 신경 네트워크에 제출될 때 깊이 픽셀 값 및 R(적색), G(녹색), 및 B(청색)로 이루어진 군으로부터 취해진 3개 미만의 픽셀 값들이 이미지 데이터로서 심층 신경 네트워크에 제출된다.

심층 신경 네트워크는 원격 서버 시스템 상에 존재할 수 있고, 제어기는 서버 시스템 상의 심층 신경 네트워크와 통신하기 위한 네트워크 인터페이스를 추가로 포함할 수 있다.

다른 태양에서, 본 발명은 객체를 식별하고 추적하는 방법에 관한 것이다. 본 방법은 객체들을 보유하기 위해 지정된 영역을 방문하는 사람의 아이덴티티를 등록하는 단계, 객체들을 보유하기 위해 지정된 영역의 이미지를 캡처하는 단계, 지정된 영역에 보유된 그러한 객체들과 같은 이미지들 내의 객체들을 검출하고 인식하도록 트레이닝된 심층 신경 네트워크에 이미지의 버전을 제출하는 단계, 이미지의 버전에서 객체를 검출하는 단계, 등록된 사람의 아이덴티티를 검출된 객체와 연관시키는 단계, 심층 신경 네트워크가 검출된 객체를 인식할 수 없는 경우 이미지의 버전을 사용하여 심층 신경 네트워크를 리트레이닝시키는 단계, 및 검출된 객체가 객체들을 보유하기 위해 지정된 영역에 있는 동안 검출된 객체의 위치를 추적하는 단계를 포함한다.

본 방법은, 심층 신경 네트워크가 이미지의 버전에서 검출된 객체를 인식할 수 없다는 것에 응답하여 이미지의 버전에서 검출된 객체에 대한 라벨링 정보를 획득하는 단계, 라벨링 정보를 이미지의 버전과 연관시키는 단계, 및 심층 신경 네트워크를 리트레이닝시키는 데 사용되는 이미지 데이터베이스에 캡처된 이미지의 버전 및 연관된 라벨링 정보를 저장하는 단계를 추가로 포함할 수 있다. 심층 신경 네트워크가 이미지의 버전에서 검출된 객체를 인식할 수 없다는 것에 응답하여 이미지의 버전에서 검출된 객체에 대한 라벨링 정보를 획득하는 단계는 사용자가 공급한 입력으로부터 라벨링 정보를 획득하는 단계를 포함한다.

본 방법은, 심층 신경 네트워크가 이미지의 제1 버전에서 검출된 객체를 인식할 수 없을 때 변화가 나타나는 이미지의 버전 내의 영역을 찾는 단계, 발견된 변화 영역에 포커싱하는 이미지의 제2 버전을 생성하는 단계, 및 이미지의 제2 버전을 심층 신경 네트워크에 제출하여 심층 신경 네트워크가 이미지의 제2 버전에서 검출된 객체를 인식할 수 있는지 여부를 결정하는 단계를 추가로 포함할 수 있다.

본 방법은, 심층 신경 네트워크가 이미지의 제2 버전에서 검출된 객체를 인식하는지 여부에 관계없이 이미지의 제1 버전에서 검출된 객체에 대한 라벨링 정보를 획득하는 단계, 라벨링 정보를 이미지의 제1 버전과 연관시키는 단계, 및 심층 신경 네트워크를 리트레이닝시키는 데 사용되는 이미지 데이터베이스에 캡처된 이미지의 제1 버전 및 연관된 라벨링 정보를 저장하는 단계를 추가로 포함할 수 있다. 이미지의 버전에서 검출된 객체에 대한 라벨링 정보를 획득하는 단계는 심층 신경 네트워크가 이미지의 버전에서 검출된 객체를 인식할 때 심층 신경 네트워크로부터 라벨링 정보를 획득하는 단계를 포함할 수 있다.

이미지의 버전을 심층 신경 네트워크에 제출하는 단계는 깊이 픽셀 값 및 R(적색), G(녹색), 및 B(청색)로 이루어진 군으로부터 취해진 3개 미만의 픽셀 값들을 이미지 데이터로서 심층 신경 네트워크에 제출하는 단계를 포함할 수 있다.

본 방법은, 이미지의 버전으로부터 획득된 이미지 데이터를 제1 심층 신경 네트워크 및 제2 심층 신경 네트워크에 병렬적으로 제출하는 단계를 추가로 포함할 수 있고, 제1 심층 신경 네트워크에 제출된 이미지 데이터는 제2 심층 신경 네트워크에 제출된 이미지 데이터와 상이하다.

다른 태양에서, 본 발명은 이미지를 그의 시야 내에서 캡처하도록 구성된 이미지 센서 및 이미지 센서의 시야와 실질적으로 매칭하는 시야를 갖는 깊이 센서를 포함하는 센서 모듈에 관한 것이다. 깊이 센서는 깊이 센서에 의해 캡처된 이미지에 대한 추정된 깊이 값들을 획득하도록 구성된다. 센서 모듈은 이미지 센서에 의해 캡처된 이미지와 연관된 이미지 데이터 및 깊이 센서에 의해 캡처된 이미지와 연관된 추정된 깊이 값들을 수신하기 위해 이미지 센서 및 깊이 센서와 통신하는 제어기를 추가로 포함한다. 제어기는 객체를 보유하기 위해 지정된 영역을 방문하는 사람의 아이덴티티를 등록하도록, 이미지 센서에 의해 캡처된 이미지와 연관된 이미지 데이터 및 깊이 센서에 의해 캡처된 이미지와 연관된 추정된 깊이 값들을 지정된 영역에 보유된 그러한 객체들과 같은 이미지들 내의 객체들을 검출하고 인식하기 위해 트레이닝된 심층 신경 네트워크에 제출하도록, 등록된 사람의 아이덴티티를 심층 신경 네트워크에 제출된 추정된 깊이 값들 및 이미지 데이터에서 검출된 객체와 연관시키도록, 그리고 심층 신경 네트워크가 검출된 객체를 인식할 수 없는 경우 심층 신경 네트워크의 후속의 리트레이닝에서의 사용을 위해 이미지 센서 및 깊이 센서에 의해 캡처된 이미지들의 버전을 저장하도록 구성된 하나 이상의 프로세서를 포함한다.

제어기는 네트워크를 통해 심층 신경 네트워크와 통신하기 위한 클라우드 인터페이스를 추가로 포함할 수 있다.

센서 모듈은 심층 신경 네트워크가 제출된 이미지 데이터 및 추정된 깊이 값들에 기초하여 검출된 객체를 인식할 수 없을 때 제어기로부터의 요청에 응답하여 사용자로부터 라벨링 정보를 획득하도록 구성된 인간 입력 획득 모듈을 추가로 포함할 수 있다.

본 발명의 상기 및 추가의 이점들은 첨부 도면들과 관련하여 하기의 설명을 참조함으로써 더 잘 이해될 수 있으며, 여기서 유사한 도면 부호들은 다양한 도면들에서 유사한 구조적 요소들 및 특징부들을 나타낸다. 도면들은 반드시 축척대로 도시된 것은 아니며, 대신에 본 발명의 원리들을 예시할 때 강조된다.
도 1은 제어기, 및 객체들을 보유하기 위해 지정되는 지지 표면의 시야를 갖는 이미지 센서를 포함하는 기계 학습 보조형 객체 식별 시스템의 일 실시예를 도시한다.
도 2는 도 1의 제어기의 일 실시예의 블록도이다.
도 3은 로컬 기계 학습 모듈과 통신하는 인공 지능 모듈을 포함하는 기계 학습 보조형 객체 식별 시스템의 일 실시예의 기능 블록도이다.
도 4는 원격 기계 학습 모듈과 통신하는 인공 지능 모듈을 포함하는 기계 학습 보조형 객체 식별 시스템의 일 실시예의 기능 블록도이다.
도 5는 원격 기계 학습 모듈과 통신하는 인공 지능 모듈을 포함하는 기계 학습 보조형 객체 식별 시스템의 다른 실시예의 기능 블록도이다.
도 6은 심층 신경 네트워크 또는 DNN을 포함하는 객체 추적 모듈의 일 실시예의 블록도이다.
도 7은 컴퓨터 비전 모듈의 일 실시예의 블록도이다.
도 8은 기계 학습 보조형 객체 식별을 위한 프로세스의 일 실시예의 흐름도이다.
도 9는 캡처된 이미지에서 객체를 식별하기 위한 프로세스 및 선택적 다중 패스 인증 프로세스의 일 실시예의 흐름도이다.
도 10은 초기에 DNN이 객체를 식별하지 않는 이미지들로 DNN을 리트레이닝(retraining)시키기 위한 프로세스의 일 실시예의 흐름도이다.

본 명세서에 기술된 객체 식별 시스템들 및 방법들은 컴퓨터 비전, 기계 학습, 및 심층 신경 네트워크(DNN)를 조합하여, 사람 및 객체들의 정확한 식별 및 추적을 가능하게 한다. 초기에, DNN은 블랭크 슬레이트(blank slate)일 수 있고 인간의 도움 없이 객체 식별이 불가능할 수 있거나, 그것은 사전결정된 이미지들의 세트로 트레이닝되어 그것에 기준(baseline)을 제공할 수 있다. 기준 객체 식별 능력들을 DNN에 제공하기 위해, 인간은 DNN을 사전결정된 이미지들의 트레이닝 세트로 트레이닝시켜야 한다. 그의 초기 트레이닝 후에, DNN의 객체들을 식별하는 능력은 후속 트레이닝들 때문에 계속적으로 개선된다. 이들 후속 트레이닝들은 DNN이 초기에 객체를 식별할 수 없었던 이미지들에 기초한다. 이미지들 내의 객체들을 식별하는 인간이 공급한 정보 때문에 또는 변화가 검출되었던 이미지들 내의 영역에 DNN의 검출 노력들을 포커싱하는 다중 인증 프로세스 때문에, 이들 이미지들 내의 객체들은 식별가능하게 되어 있고, 따라서 DNN을 리트레이닝시키는 데 유용하게 된다.

도 1은 적어도 하나의 센서 모듈(102)을 갖는 기계 학습 보조형 객체 식별 시스템(100)의 일 실시예를 도시한다. 각각의 센서 모듈(102)은, 하나 이상의 컬러(예컨대, RGB) 이미지 센서(106)와, 그리고 선택적으로, 가상선으로 도시된 바와 같은, 하나 이상의 깊이 센서(108) 및 광원(110)과 통신하는 제어기(104), 및 선택적으로, 무선 라디오 주파수(RF) 송수신기(도시되지 않음)를 포함한다. 제어기(104)는 추후에 더 상세히 기술되는 바와 같이, 객체 인식에 사용하기 위한 심층 신경 네트워크(DNN)(112) 및 이미지들에서의 변화들을 검출하기 위한 컴퓨터 비전 모듈(114)을 구현한다.

일 실시예에서, 각각의 센서 모듈(102)은 객체 보유 영역을 방문하는 사람들을 등록하고, 이미지들을 캡처하고, 이미지 프로세싱을 하고, 객체들을 검출하고, 기계 학습 보조된 자기 개선형 객체 인식을 하고, 객체 추적을 하고, 그렇게 구성될 때 광 안내를 제공할 수 있는 자급식(self-contained) 전자 유닛이다. 다른 실시예들에서, 이들 기능 중 하나 이상은 원격으로(즉, 센서 모듈에서가 아님) 일어나는데; 예를 들어, 객체 검출, 기계 학습 보조된 자기 개선형 객체 인식 및 객체 추적의 기능들은 센서 모듈이 네트워크를 통해 통신하는 원격 컴퓨팅 사이트에서 발생할 수 있다.

센서 모듈(102)은 객체 보유 영역 내의 지지 표면(116) 근처의 고정된 포지션에 배치될 수 있거나, 또는 그것은 이동 디바이스 내에 구현된 이동형일 수 있다. 고정된 배치의 예로서, 센서 모듈들(102)은 회사 사이트의 모든 코너들이 커버되도록 감시 구성에서 천장들로부터 내려질 수 있다. 이들 센서 모듈들은, 예를 들어 2018년 6월 14일자로 공개된 미국 특허 공개 제2018-0164112-A1호에 기재되어 있는 바와 같이, 작고 방해가 되지 않으며, 회사 여기저기에서 개인들의 식별들 및 경로들을 추적할 수 있는데, 이 출원의 전체가 본 명세서에 참고로 포함되어 있다.

센서 모듈의 이동형 실시예들은, 스마트폰, 태블릿 컴퓨터, 웨어러블 컴퓨팅 디바이스, 또는 하나 이상의 프로세서, RGB 카메라, 무선 통신 능력, 선택적 깊이 센서, 선택적 광원, 및 본 명세서에 설명된 이미지 프로세싱, 객체 검출, 추적, 및 인식, 자기 개선 기계 학습, 및 선택적 광 안내 기능을 수행하기 위한 소프트웨어를 갖고 구성된 임의의 다른 휴대용 컴퓨팅 디바이스를 포함하지만, 이로 한정되지는 않는다. 소프트웨어는 이동 디바이스 상에 저장될 수 있는 다운로드된 애플리케이션(앱)으로 구현될 수 있다. 휴대용인 경우, 사람 또는 기계는, 실제로, 이동 디바이스의 카메라(들)에 의해 캡처된 객체들을 인식할 수 있는 객체 식별 디바이스를 휴대할 수 있다. 예를 들어, 그러한 디바이스를 갖는 사람은 소프트웨어를 실행시키고, 다양한 객체들을 보유하는 테이블(즉, 지지 표면)에 접근하고, 디바이스(즉, 그의 카메라(들))가 각각의 객체를 향하게 하고, 객체의 이미지를 캡처하고, 객체의 유형(아이덴티티)을 말할 수 있다. 객체의 아이덴티티를 획득하기 위해, 이동 디바이스는 DNN을 호스트하는 원격 서버와 통신하여, 이미지를 원격 서버로 전송하고 객체의 아이덴티티를 수신할 수 있다.

본 명세서에서 광학 센서로도 지칭될 수 있는 각각의 이미지 센서(106)는 컬러 정보를 제공하고; 각각의 깊이 센서(108)는 캡처된 이미지의 각각의 픽셀에 대한 추정된 깊이를 제공한다. 이미지 센서(106) 및 깊이 센서(108)는, 예를 들어 마이크로소프트의 Kinect™과 같은 단일 카메라에 구현될 수 있거나, 또는 별개의 카메라들에 구현될 수 있다. 이미지 및 선택적 깊이 센서들은 지지 표면(116)을 향하도록 배치된다. 지지 표면의 예들은 데스크톱들, 테이블들, 선반들, 및 바닥 공간을 포함하지만 이로 한정되지는 않는다. 대체적으로, 지지 표면은 객체 보유 영역 내에 또는 그 영역에 배치된다. 객체 보유 영역은, 예를 들어, 각각 보안된 액세스를 갖거나 갖지 않는 슈퍼마켓, 창고, 인벤토리(inventory), 방, 벽장, 복도, 찬장, 사물함(locker)일 수 있다. 식별된 그리고 추적된 객체들의 예들은 패키지, 소포, 박스, 장비, 도구, 식료품, 병, 단지(jar), 및 캔을 포함하지만 이로 한정되지는 않는다. (사람이 또한, 식별되고 추적될 수 있다). 각각의 이미지 센서(106)는 지지 표면(116)에 의해 점유되는 영역의 일부 또는 전부를 커버하는 시야(FOV)를 갖고; 선택적인 깊이 센서의 시야는 적어도 이미지 센서의 시야와 매칭된다. 각각의 별개의 센서는 지지 표면(116) 상에 배치된 객체들의 그리고 영역의 그 자신의 관점을 갖는다.

제어기(104)는, 관심 객체 또는 영역에 따라, 지지 표면(116) 상에 위치된 객체들 또는 지지 표면의 소정 영역들에 대한 광 안내를 제공하기 위해 광원(110)을 제어하도록 구성될 수 있다. 광원(110)의 예들은 레이저들, 프로젝터들, LED들, 백열 전구들, 플래시라이트들 및 조명들을 포함하지만 이로 한정되지는 않는다. 광원(110)은 지지 표면(116) 상에 또는 그로부터 멀리 배치되고 지지 표면(116)을 향할 수 있다.

예를 들어, 지지 표면 상의 객체들의 시각적 레이아웃, 표면 상의 객체들 또는 영역들에 대한 시각적 안내, 및 객체 보유 영역으로 들어가거나 떠나는 사람들에 의한 사용을 위한 사용자 인터페이스를 제공하기 위해 디스플레이(118)가 객체 식별 시스템(100)에 포함될 수 있다. 디스플레이(118)는 보유 영역의 경계에 또는 보유 영역 내에 편리하게 위치될 수 있다. 디스플레이(118)는 입력/출력 디바이스들, 예를 들어 물리적 또는 가상 키보드, 키패드, 바코드 스캐너, 마이크로폰, 카메라를 갖고 구성된 전자 디바이스(예컨대, 컴퓨터, 스마트폰, 이동 디바이스)의 부분일 수 있고, 객체 보유 영역으로 들어가는 사람들의 아이덴티티들을 등록하고/하거나 객체 라벨들을 스캐닝하는 데 사용될 수 있다.

제어기(104)는 또한, 네트워크 접속을 통해 하나 이상의 서버(120)(즉, 서버 시스템)와 통신할 수 있다. 이러한 서버(들)(120)는 "클라우드 서비스"와 같은 제3자 서비스를 수행할 수 있거나, 또는 회사에서 국부적으로 또는 현장에서 구현될 수 있다. 본 명세서에 사용되는 바와 같이, "클라우드"는, 센서 모듈에서 또는 로컬 컴퓨터에서 대신에, 인터넷과 같은 원격 네트워크 상에서 실행되는 소프트웨어 및 서비스들을 지칭한다. 클라우드는 공용이거나, 사설형이거나, 또는 이들의 조합일 수 있다. 본 명세서에 기술된 원리들에 적합한 클라우드 서비스들의 예는 미국 워싱턴주 레드몬드 소재의 Microsoft®에 의해 제공되는 Azure™ 클라우드 서비스들이다. 서버(들)(120)는 센서 모듈(102)에 의해 요구되는 클라우드 서비스들을 제공하는 가상 기계를 실행시킬 수 있다.

객체 식별 시스템(100)의 동작 동안, 사람들은 객체 보유 영역에 도착하여, 객체를 보관하는 것, 객체를 제거하는 것, 객체를 보유 영역 내의 다른 지점으로 이동시키는 것, 또는 객체 보증 검사(object warranting inspection)를 사람들에게 경보하는 것을 포함하는, 적어도 4개의 객체 취급 활동들 중 임의의 하나 이상의 활동을 수행한다. 대체적으로, 객체 식별 시스템은 보유 영역에 도착하는(즉, 객체 식별 시스템과 상호작용하는) 사람의 아이덴티티들을 등록하고, 각각의 등록된 사람을 그 사람이 취급하고 있는 하나 이상의 객체와 연관시킨다. 이미지 프로세싱 기법들을 사용하여, 객체 식별 시스템은 보유 영역의 실시간 이미지 데이터를 연속적으로 모니터링하고 획득한다. 실시간 이미지 데이터로부터, 객체 식별 시스템은, 각각의 그러한 객체가 지지 표면(116) 상에 배치되거나, 지지 표면의 다른 영역으로 이동되거나, 또는 지지 표면으로부터 제거되는 때를 검출한다. 보유 영역에서 지지 표면 상에 배치된 객체들을 검출하고 추적하기 위한 기법들은 2016년 4월 5일자로 출원되고, 발명의 명칭이 "Package Tracking Systems and Methods"인 미국 특허 출원 제15/091,180호에서 찾을 수 있으며, 이러한 특허 출원의 전체는 본 명세서에 참고로 포함된다. 또한, 객체 식별 시스템은 부패하기 쉬운 아이템을 식별하고 그의 만료 통지를 직원에게 전송할 수 있다. 또는, 객체 식별 시스템은 선반 상의 손상된 상품들을 인식하고 그에 따라 직원에게 통지할 수 있다. 통지들에 응답하여, 직원은 이어서 해당 아이템을 검사하여 그의 만료일이 지난 경우 제거할 수 있거나 또는 손상된 패키징의 정도를 확인할 수 있다.

객체 식별 시스템은 추가로, 지지 표면 상의 각각의 객체를 인식하거나 또는 취급 활동에 관여한다. 객체 인식은 검출된 그리고 추적된 객체의 유형(예컨대, 소정 캐리어로부터의 패키지, 피클 단지, 현미경)을 식별하는 역할을 한다. 그러한 객체 인식은 주어진 객체의 인식을 초기에 식별하기 위해, 또는 확인하거나, 보정하거나, 미세 조정하기 위해 인간 상호작용을 수반할 수 있다. 객체 식별 시스템은 그의 객체 인식 능력들을 개선시키기 위해 기계 학습 기법들을 채용한다. 주어진 객체의 인식은 객체가 보유 영역에 있는 동안 객체의 추적을 용이하게 하여, 객체의 존재 또는 이동을 확인하는 역할을 할 수 있다.

때로는, 센서 모듈(102)은 객체 인식이 임계치 미만으로 떨어지는, 즉 객체 식별 시스템이 이미지 내의 객체를 인식할 수 없는 이미지를 캡처할 것이다. (적어도 초기에) 객체를 인식할 수 없음에도 불구하고, 객체 식별 시스템은 객체의 시각적 특성에 기초하여, 객체, 즉, 그의 초기 배치 및 보유 영역 내에서의 임의의 후속 위치를 여전히 추적할 수 있다. 식별가능하지 않은 이미지는 DNN(112)의 추후 리트레이닝을 목적으로 보유되어, DNN이 그 객체가 후속으로 프로세싱된 이미지들에 존재할 때 이전에 인식가능하지 않은 객체를 인식할 수 있게 되도록 할 것이다. 객체 식별 시스템과의 인간 상호작용은, 음성 인식, 제스처 인식, 또는 키보드 입력을 통해, 식별가능하지 않은 이미지에서 객체를 구체적으로 식별할 수 있어, 이미지에 적절한 라벨을 부여한다. 제스처 인식의 일례는 사람이 3개의 손가락을 들어 객체를 유형 번호 3으로 식별하는 것이며, 여기서 객체 식별 시스템은 특정 객체와 3개의 손가락 제스처의 연관성(예컨대, 3개의 손가락은 현미경에 대응함)을 저장하였다. 이전에 식별가능하지 않았던 이미지 내의 객체가 인식된 후에, 인간 입력의 도움으로, 이미지 및 연관된 적절한 라벨이 이미지 데이터베이스(122)에 저장된다. 객체 식별 시스템(100)은 이들 저장된 이미지들 및 라벨들을 사용하여 심층 신경 네트워크(112)를 리트레이닝시킨다. 이제 인간이 제공한 정보에 의해 식별가능하게 된, 이전에 식별가능하지 않았던 이미지들로 심층 신경 네트워크를 리트레이닝시킴으로써, 신경 네트워크(112)는 점점 "더 스마트하게(smarter)" 성장한다. 시간이 지남에 따라, 신경 네트워크가 추후에 캡처된 이미지들에서 객체들을 인식하는 확률은 100%에 접근한다.

이미지 데이터베이스(122)는 센서 모듈(102)에 근접한 중앙 컴퓨터(126)를 통해 액세스되는 로컬 저장소(124)에 유지될 수 있다. 이러한 실시예에서, 중앙 컴퓨터(126)는 모든 배치된 센서 모듈(102)에 이미지 데이터베이스(122)에 대한 액세스를 제공한다. 도 1에 가상선으로 도시된 다른 실시예에서, 이미지 데이터베이스(122)는 원격 저장소(128)에, 예를 들어 "클라우드"에 저장되고, 각각의 센서 모듈(102)이 서버(들)(120)를 통해 이들과 통신한다. 이들 초기에 식별가능하지 않았던 이미지들에 더하여, 이미지 데이터베이스(122)는 또한 이미지들의 초기 트레이닝 세트를 보유한다.

도 2는 도 1의 제어기(104)의 일 실시예를 도시한다. 제어기(104)는 하나 이상의 프로세서(200)를 포함하며, 이의 예는 이미지 프로세서, 중앙 처리 유닛, 그래픽 프로세싱 유닛, 표준 또는 맞춤형 설계 각각을 포함하지만 이로 한정되지는 않는다. 하나 이상의 프로세서(200)는 메모리(202)와 통신한다. 다수의 프로세서(200)의 경우에, 그러한 프로세서는 상이한 사이트에 위치될 수 있다(예컨대 하나의 프로세서는 국부적으로(즉, 센서 모듈에) 배치되고 다른 것은 원격으로(예컨대, "클라우드" 내에) 배치됨). 유사하게, 메모리(202)는 국부적으로, 원격으로, 또는 이들의 조합으로 배치될 수 있다.

하나 이상의 프로세서(200)는 비디오 인터페이스(204), 선택적 광원 인터페이스(206), 선택적 오디오 인터페이스(208), 네트워크 인터페이스(210), 및 I/O 컴포넌트(예컨대, 디스플레이(118))의 인터페이스(212)와 통신한다. 비디오 인터페이스(204)에 의해, 제어기(104)는, 존재하는 경우, 센서 모듈(102) 내의 각각의 이미지 센서(106) 및 깊이 센서(108)와 통신하고; 광원 인터페이스(206)에 의해, 제어기(104)는 광원(110)의 활성화를 제어하고, 광원의 유형에 따라, 방출된 광 빔이 가리키는 방향을 제어하고; 오디오 인터페이스(208)에 의해, 제어기(104)는 사운드를 캡처하거나 재생시키는 오디오 디바이스들과 통신한다.

운영 체제 및 입력/출력 루틴들과 같은 종래의 소프트웨어에 더하여, 메모리(202)는 심층 신경 네트워크(DNN)(112)를 구현하도록, 그리고 사람들 등록(214), 이미지들 내의 객체 검출(216), 보유 영역 내의 객체 추적(218), 이미지들 내의 객체 인식(220), 신경 네트워크 트레이닝(222), 이미지 사전프로세싱(224), 이미지들에서의 변화 추적(226), 및 선택적으로, 광 안내(228)를 수행하도록 하나 이상의 프로세서(200)를 구성하기 위한 프로그램 코드를 저장한다. 하나 이상의 프로세서들(200) 및 메모리(202)는 단일의 또는 다수의 집적 회로(IC) 디바이스들 상에서 함께 또는 개별적으로 구현될 수 있다. 또한, 메모리(202)에 저장된 프로그램 코드는 상이한 사이트에 존재할 수 있다. 예를 들어, DNN(112)을 구현하기 위한 프로그램 코드는 원격 위치에(예컨대, 클라우드 상에) 존재할 수 있는 반면, 사용자 인식을 위한 프로그램 코드는 국부적으로(즉, 센서 모듈 상에) 존재하고 실행할 수 있다.

간략한 개요에서, 사람들 등록(214)을 위한 프로그램 코드는 객체 식별 시스템(100)을 사용하는 개인의 아이덴티티 및 활동을 기록하고, 그러한 개인들을 그들이 영향을 주는 객체들과 연관시키며; 객체 검출(216)을 위한 프로그램 코드는 이미지 프로세싱 기법들을 사용하여 이미지들 내의 객체들의 존재를 검출하고; 객체 추적(218)을 위한 프로그램 코드는 보유 영역 내에서 검출된 객체들의 위치들을 추적하고, 객체 인식(220)을 위한 프로그램 코드는 DNN(112)을 채용하여 이미지들 내의 객체들을 인식하고(즉, 식별하거나 분류함); 신경 네트워크 트레이닝(222)을 위한 프로그램 코드는 DNN(112)을 트레이닝시켜 특정 유형들의 객체들을 인식할 수 있게 되고; 이미지 사전프로세싱(224)을 위한 프로그램 코드는 이미지 편집 기법들을 캡처된 이미지들에 적용하여 그러한 이미지들에서의 객체 검출 및 인식 노력들을 개선시키고; 변화 추적(226)을 위한 프로그램 코드는 이미지들에서의 변화들을 검출하고 이미지들을 라벨링하는 데 도움을 주고; 선택적으로, 광 안내(228)를 위한 프로그램 코드는 광원(110)을 사용하여 객체 보유 영역 내의 위치 및/또는 객체로 인간을 안내한다. 이후에 더 상세히 기술되는 바와 같이, 제어기(104)의 다양한 요소들 또는 기능은 원격으로 존재할 수 있는데; 즉, 일부 실시예들에서, 제어기(104)의 일부 요소들 또는 기능은 센서 모듈(102)(도 1)의 부분이 아니라, 원격으로(예컨대, "클라우드" 내에) 존재한다.

도 3은 기계 학습 모듈(302)과 통신하는 인공 지능(artificial-intelligence, AI) 모듈(300)을 포함한 객체 식별 시스템(100)의 일 실시예의 기능 블록도를 도시한다. AI 모듈(300)은 이미지 획득 모듈(304), 이미지 사전프로세싱 모듈(306), 객체 추적 모듈(308), 인간 입력 획득 모듈(310), 및 추적용 품질 측정 모듈(quality measurement module, QMM)(312)을 포함한다. 기계 학습 모듈(302)은 로컬 저장소(124)(이는, 도 1과 관련하여 기술된 이미지 데이터베이스(122)를 유지함) 및 심층 신경 네트워크(DNN) 트레이너(314)를 포함한다.

AI 모듈(300)의 이미지 획득 모듈(304)은 이미지 센서(106) 및 선택적 깊이 센서(108)로부터 이미지들을 획득하도록 구성된다. 캡처된 이미지들은 이미지 사전프로세싱 모듈(306)로 패스되고, 이미지 사전프로세싱 모듈(306)은 이미지들을 객체 추적 모듈(308)로 포워딩한다. 이미지 사전프로세싱 모듈(306)은 각각의 이미지를 컴퓨터 비전 모듈(114)로 전송하고(라인 316), 그 이미지의 사본을 DNN(112)으로 전송한다(라인 318)(대안적으로, 컴퓨터 비전 모듈(114)은 이미지의 사본을 수신함).

대체적으로, 객체 추적 모듈(308)은 이미지들 내의 객체들을 검출하고, 그러한 객체들을 추적하고, 도 1의 DNN(112)을 사용하여 객체 인식을 수행하도록 구성된다. 객체 추적 모듈(308)에 의해 생성된 결과들(라인 320)은 추적 QMM(312)으로 패스되며, 이는 임계치들(또는 다른 기준들)을 사용하여 객체가 이미지에서 인식되었는지 여부를 확립한다. 결과들은 2개의 유형의 정보, 즉 1) DNN이 객체를 발견한 것으로 간주하는 이미지 내의 영역(또는 이미지에 따라서는, 다수의 객체들에 대한 영역들); 및 2) 각각의 유형의 객체가 그 영역 또는 영역들 내에 있는 것으로 간주되는 확률들의 목록을 포함한다.

객체 추적 모듈(308)로부터 수신된 정보에 기초하여, QMM(312)은 DNN(112)이 이미지 내의 객체(또는 객체들)를 식별하는 데 성공했는지 여부를 결정한다. 성공적인 경우, QMM(312)은 성공 신호를 보낸다(라인 322). 제어기(104)는, 패키지 추적 애플리케이션과 같은, 객체들의 식별을 결정하고자 하는 최종 사용자 애플리케이션에 따라, 이러한 성공 신호를 수신하고 그에 따라 신호에 응답할 수 있다.

객체가 이미지 내에서 식별가능하지 않은 경우, QMM(312)은 컴퓨터 비전 모듈(114)에 통지한다(라인 324). 컴퓨터 비전 모듈(114)은 선택적으로 이미지를 DNN(112)으로 전송하고(라인 326); 이러한 이미지는 원래 이미지로부터 도출되고, 변화가 검출되었던 원래의 이미지 내의 영역에 포커싱된다. DNN(112)은 이러한 포커싱된 이미지(라인 326) 내의 객체를 식별하려고 시도할 수 있는데, 즉, DNN(112)은 제2 패스를 수행한다. DNN이 제2 패스 동안 성공적이지 않은 경우, QMM(312)은 인간 입력 획득 모듈(310)로 요청을 전송하여(라인 327), 원래의 이미지에서 식별가능하지 않은 객체에 대한 라벨링 정보를 찾는다. DNN(112)이 이러한 포커싱된 이미지에서 객체를 인식하는 것의 성공 또는 실패에 관계없이, 컴퓨터 비전 모듈(114)은 객체가 초기에 인식되지 않았던 원래의 이미지를 로컬 저장소(124)로 전송한다(라인 328). 저장되고 있는 이미지는 인간 입력 획득 모듈(310)로부터의 인간이 제공한 라벨과(라인 332), 또는 DNN(112)에 의해 생성되어 QMM(312)으로 전송되고(라인 320) 이어서 QMM(312)에 의해 포워딩된 라벨(라인 334)과 합쳐지고/연관된다(박스 330). DNN 트레이너(314)는 로컬 저장소(124) 내의 이들 이미지들 및 그들의 연관된 ID 정보(즉, 라벨들)를 사용하여 DNN(112)을 리트레이닝시킨다(라인 336).

각각의 센서 모듈(102)(도 1)은 AI 모듈(300)의 기능을 국부적으로 제공하도록 구성될 수 있고, 중앙 컴퓨터(126)(도 1)는 기계 학습 모듈(302)의 기능을 제공하도록 구성된다. 각각의 센서 모듈(102)(도 1)은 중앙 컴퓨터(126)와 통신하며, 이는 이미지 데이터베이스(122) 내의 이미지들에 기초하여 DNN 트레이닝을 제공한다. 따라서, 상이한 센서 모듈들이 동등한 이미지 인식 능력들을 개발할 것이다.

도 4는 기계 학습 모듈(402)과 통신하는 인공 지능(AI) 모듈(400)을 갖는 객체 식별 시스템(100)의 다른 실시예의 기능 블록도를 도시한다. 대체적으로, 도 4의 객체 식별 시스템은 기계 학습 모듈(402)이 원격으로, 즉 클라우드 내에 있는 네트워크 상에 또는 인터넷 상에 존재한다는 점에서 도 3의 것과 상이하다. 또한, 이러한 실시예에서, 원격 기계 학습 모듈(402)은 DNN(112)을 포함한다. 따라서, DNN 계산들은, 예를 들어 제3자 클라우드 서비스들에 의해 수행되는 원격 서버(예컨대, 도 1의 서버(120)) 상에서 발생한다.

구체적으로, AI 모듈(400)은 이미지 획득 모듈(304)(도 3), 이미지 사전프로세싱 모듈(306)(도 3), 객체 추적 모듈(404), 인간 입력 획득 모듈(310)(도 3), 및 추적 QMM(312)을 포함한다. 객체 추적 모듈(404)은 컴퓨터 비전 모듈(114) 및 클라우드 인터페이스 모듈(406)을 포함한다. 원격 기계 학습 모듈(402)은 클라우드(즉, 원격) 저장소(128) 내에 이미지 데이터베이스(122)(도 1)를 유지하고, DNN(112), 및 DNN(112)을 트레이닝 및 리트레이닝시키는 데(라인 336) 사용되는 DNN 트레이너(314)를 포함한다.

컴퓨터 비전 모듈(114), 이미지 획득 모듈(304), 이미지 사전프로세싱 모듈(306), 객체 추적 모듈(404), 인간 입력 획득 모듈(310), 추적 QMM(312), 클라우드(즉, 원격) 저장소(128), DNN 트레이너(314), 및 DNN(112)은 도 3의 그들의 상응하는 모듈들처럼 동작한다. 차이는, AI 모듈(400)이 그의 클라우드 인터페이스 모듈(406)을 사용하여 이미지 획득 모듈(304)로부터 수신된 이미지들을 네트워크를 통해 원격 기계 학습 모듈(402)로 전송하여, 그의 객체 검출, 추적, 및 인식 알고리즘들에서 DNN(112)에 의해 사용되게 한다는 것이다. 이미지 획득 모듈(304) 및 컴퓨터 비전 모듈(114)에 대해, 클라우드 인터페이스 모듈 (406)은, 사실상, 마치 그것이 DNN이었던 것처럼 이들 2개의 모듈(304, 114)로부터 입력을 수신하고 그러한 입력을 원격으로 존재하는 DNN(112)으로 포워딩하는(라인 408) "가상 DNN"이다. 따라서, 원격 서버(120) 상의 프로세서(들)는 DNN 계산들을 수행한다. 또한, 기계 학습 모듈(402)은 DNN(112)에 의해 생성된 결과들을 AI 모듈(400)의 클라우드 인터페이스 모듈(406)로 복귀시키도록(라인 320) 구성된다. 클라우드 인터페이스 모듈(406)은 이들 결과들을 QMM(312)으로 포워딩하며(라인 410), 이는 결과들로부터 DNN(112)이 이미지에서 객체를 인식하였는지 여부를 결정한다.

QMM(312)이, DNN(112)이 이미지에서 객체(또는 객체들)를 식별하는 데 성공했다고 결정하면, QMM(312)은 성공 신호를 보낸다(라인 322). 객체가 이미지 내에서 식별가능하지 않은 경우, QMM(312)은 컴퓨터 비전 모듈(114)에 통지한다(라인 324). 컴퓨터 비전 모듈(114)은 선택적으로, 이미지를 원격 DNN(112)으로의 송신을 위해, 클라우드 인터페이스(414)로 전송한다(라인 326). 이러한 이미지는 원래의 이미지로부터 도출되고, 컴퓨터 비전 모듈(114)이 변화를 검출했던 원래의 이미지 내의 영역에 포커싱된다. DNN(112)은 이러한 포커싱된 이미지에서 객체를 식별하려고 시도할 수 있다. DNN이 시도를 하지만 제2 패스 동안 성공적이지 않은 경우, QMM(312)은 인간 입력 획득 모듈(310)로 요청을 전송하여(도시되지 않음), 원래의 이미지에서 식별가능하지 않은 객체에 대한 라벨링 정보를 찾는다.

DNN의 제2 시도 동안 DNN(112)이 이러한 포커싱된 이미지에서 객체를 인식하는 것의 성공 또는 실패에 관계없이, 컴퓨터 비전 모듈(114)은 원래의 이미지(또는 원래의 이미지의 편집된 버전)를 클라우드 저장소(128)로 포워딩한다(라인 328). 저장될 이미지는, (DNN 실패의 경우에) 인간 입력 획득 모듈(310)에 의해 획득된 인간이 제공한 라벨과(라인 332), 또는 (DNN 성공의 경우에) 성공적인 제2 패스 상에서 DNN(112)에 의해 생성되고 QMM(312)에 의해 포워딩된 라벨과(라인 320) 합쳐지거나 연관된다(박스 330). DNN 트레이너(314)는 원격 저장소(128) 내의 이들 이미지들 및 그들의 연관된 ID 정보(즉, 라벨링 정보)를 사용하여 DNN(112)을 리트레이닝시킨다.

각각의 센서 모듈(102)(도 1)은 AI 모듈(400)의 기능을 국부적으로 제공하도록 구성될 수 있고, 서버 시스템(120)(도 1)은 기계 학습 모듈(402)의 기능을 제공하도록 구성된다. 이러한 실시예에서, 원격 기계 학습 모듈(402)과 통신하는 모든 센서 모듈들(102)은 DNN(112) 및 이미지 데이터베이스(122)를 공유하고, DNN(112)의 향후 리트레이닝을 위한 이미지들에 기여한다. 대체적으로, 동일한 이미지 데이터베이스(122) 및 DNN(112)에 액세스함으로써, 모든 센서 모듈들은 동등한 이미지 인식 능력들을 개발할 것이다.

도 5는 기계 학습 모듈(502)과 통신하는 인공 지능(AI) 모듈(500)을 갖는 객체 식별 시스템(100)의 다른 실시예의 기능 블록도를 도시한다. 각각의 센서 모듈(102)(도 1)은 AI 모듈(500)의 기능을 국부적으로 제공하도록 구성될 수 있고, 서버 시스템(120)(도 1)은 기계 학습 모듈(502)의 기능을 제공하도록 구성된다. 대체적으로, 도 5의 객체 식별 시스템은 도 4의 AI 모듈(400)의 소정 기능이 원격으로 발생한다는 점에서 도 4의 것과 상이하다. 구체적으로, 이미지 사전프로세싱 모듈(306), 객체 추적 모듈(308), 및 QMM(312)은 DNN(112), 원격 저장소(128), 및 DNN 트레이너(314)를 또한 포함하는 원격 기계 학습 모듈(502)의 부분이다. AI 모듈(500)은 클라우드 인터페이스(504), 이미지 획득 모듈(304), 및 인간 입력 획득 모듈(310)을 포함한다. 클라우드 인터페이스(504)는 이미지 획득 모듈(304)과 통신하여 그로부터 수신된 입력 이미지들을 원격 이미지 사전프로세싱 모듈(306)로 포워딩한다(라인 450). 클라우드 인터페이스(504)는 또한, DNN(112)이 입력 이미지 내의 하나 이상의 객체를 인식할 수 있을 때 원격 QMM(312)으로부터의 결과들과 함께 성공적인 결과 표시자를 수신하고(라인 322); 클라우드 인터페이스(504)는 객체 식별 시스템(100)의 애플리케이션에 의한 사용을 위해 결과를 출력한다.

객체가 이미지 내에서 식별가능하지 않은 경우, QMM(312)은 컴퓨터 비전 모듈(114)에 신호를 보낸다(라인 324). "DNN 실패" 신호에 응답하여, 컴퓨터 비전 모듈(114)은, 컴퓨터 비전 모듈(114)이 변화를 검출한 원래의 이미지 내의 영역에 포커싱되어 있는, 원래의 이미지(또는 그의 편집된 버전)로부터 도출된 이미지를, 이러한 포커싱된 이미지에서 객체를 식별하고자 하는 시도를 위해 DNN(112)으로 전송할 수 있어(라인 326), 사실상, 인증에서 제2 패스를 수행한다. DNN(112)은 이러한 제2 시도의 결과들을 QMM(312)으로 전송한다(라인 320).

제2 시도 동안 DNN(112)이 포커싱된 이미지 내의 객체를 인식하는 것의 성공 또는 실패에 관계없이, 원격 컴퓨터 비전 모듈(114)은 DNN(112)이 초기에 객체를 인식할 수 없었던 원래의 이미지(또는 그의 편집된 버전)를 클라우드 저장소(128)로 포워딩한다(라인 328).

객체가 이러한 포커싱된 이미지 내에서 식별가능하지 않은 경우, QMM(312)은 AI 모듈(500)에 신호를 보내어(라인 327), AI 모듈(500)에게 인간 입력을 요청하도록 말한다. 인간 입력 획득 모듈(310)이 인간 입력을 수신할 때, 클라우드 인터페이스(504)는 인간 입력 라벨을 클라우드 저장소(128)로 전송한다(라인 332). 저장되기 전에, 인간 입력 라벨(라인 332)은 원격 컴퓨터 비전 모듈(114)로부터 오는 이미지와 조합되거나 연관된다(박스 330).

객체가 포커싱된 이미지 내에서 식별가능한 경우, QMM(312)은 컴퓨터 비전 모듈(114)에 의해 클라우드 저장소(128)로 전송된 이미지와 조합되거나 연관되는(박스 330), DNN(112)에 의해 생성된 라벨을 전송한다(라인 334). 전술된 바와 같이, DNN 트레이너(314)는 이들 이미지들 및 원격 저장소(128)에 유지된 이미지 데이터베이스(122) 내의 그들의 연관 라벨들을 사용하여, DNN(112)을 리트레이닝시킨다(라인 336).

도 6은 도 3 및 도 5에 기술된 객체 식별 시스템들의 실시예들과 관련하여 사용하기 위한, 이미지 사전프로세싱 모듈(또는 이미지 사전프로세서(image preprocessor))(306) 및 컴퓨터 비전 모듈(114)을 포함하는 객체 추적 모듈(600)의 일 실시예를 도시한다. 객체 추적 모듈(600)은 DNN(112)을 포함한다. 도 4에서와 같이, DNN(112)이 객체 추적 모듈에 대해 원격인 실시예에서, 객체 추적 모듈(600)은 가상 DNN으로서 동작하고 실제 DNN과 통신하는 클라우드 인터페이스 모듈(406)(도 4)을 갖는다.

일 실시예에서, DNN(112)은 입력 층(602), 출력 층(604), 및 다수의 은닉 층들(도시되지 않음)을 갖는 심층 학습 아키텍처, 예를 들어 심층 콘볼루션 신경 네트워크를 갖는다. 은닉 층들은 하나 이상의 콘볼루션 층, 하나 이상의 완전 접속된 층, 및 하나 이상의 최대 풀링(pooling) 층을 포함할 수 있다. 각각의 콘볼루션 및 완전 접속된 층은 그의 선행 층으로부터 입력들을 수신하고, 그 층에 대한 현재의 파라미터 값들에 기초하여 이들 입력들에 변환을 적용한다. 심층 학습 신경 네트워크를 구현할 예시적인 아키텍처는 웹사이트 pjreddie.com에서 이용가능한 Darknet Open source Deep Neural Net framework 및 웹사이트 caffe.berkeleyvision.org에서 이용가능한 Caffe framework를 포함하지만 이로 한정되지는 않는다.

DNN(112)은 2개의 프로세스, 즉 객체 검출/인식 및 트레이닝에 관여된다. 객체 검출 및 인식의 목적을 위해, 이미지들(606)은 이미지 획득 모듈로부터 DNN(112)에 대한 입력(608)으로서 제공된다. 이미지들(606)은 컬러 이미지들(예컨대, RGB), 및 선택적으로 깊이 이미지들을 포함한다. 주어진 순간에 실시간으로 캡처된 컬러 및 깊이 이미지들은 쌍으로서 링크된다. 그러한 이미지들은 이미지 사전프로세서(306)를 통과할 수 있고, 이는 프로세싱된 이미지들에 기초하여 이미지 데이터(608)를 생성한다. 이미지 사전프로세서(306)는 이미지(606)가 DNN으로 패스되기 전에 이미지를 수정할 수 있거나 수정하지 않을 수 있다. 일 실시예에서, 이미지 사전프로세서(306)는 그러한 이미지를 조명 변화들에 강건하게(즉, 불변하게) 만듦으로써 이미지들 내의 객체들을 검출하는 DNN의 능력을 향상시키기 위해 결정된 하나 이상의 이미지 편집 기법을 적용하도록 구성된다. RGB의 경우, 하나의 사전프로세싱 알고리즘은 일련의 단계들을 사용하여 조명 변동, 국부적 음영 및 하이라이트들의 효과들에 대응한다. 알고리즘에서의 단계들은 감마 보정, 가우스 필터링의 차이, 마스킹 및 콘트라스트 등화를 포함한다. 깊이 데이터는 노이즈가 있을 수 있고, 깊이 데이터가 캡처되는 환경들에 따라 누락 데이터를 가질 수 있다. 주변 광 및 고반사성 표면들은 노이즈 및 누락 데이터의 주요 인자들이다. 이러한 사전필터링은 이들 아티팩트들이 보정된다는 것을 그리고 데이터가 잘 보존된다는 것을 보장한다. 사전프로세싱 단계들은 주변 광 필터링, 에지 보존 스무딩(edge-preserving smoothing), 가우시안 블러링(Gaussian blurring), 및 시변(time-variant) 블러링을 포함한다. 깊이 이미지들 및 RGB 이미지들 둘 모두가 이미지 사전프로세서(306)로 패스될 때, 이미지 사전프로세서는 RGB 데이터를 깊이 데이터와 블렌딩하여 이미지 데이터(608)를 생성하는 블렌딩 변환(blending transformation) 프로세스를 수행한다. 블렌딩 변환 프로세스들의 예들은 연접(concatenation)에 의한 블렌딩 또는 인터리빙에 의한 블렌딩을 포함하지만 이로 한정되지 않으며, 이들 둘 모두는 하기에 더 상세하게 기술되어 있다.

이미지 데이터(608)는 DNN(112)의 입력 층(602)으로 패스된다. (도 6에 도시되지 않았으나, 인간 상호작용에 의해 획득된 임의의 라벨 정보는 또한, 트레이닝, 객체 인식, 또는 둘 모두를 위해 입력 층(602)으로 패스된다). 이미지 사전프로세서(306) 및 컴퓨터 비전 모듈(114) 둘 모두는 DNN(112)에 이미지 데이터(608)를 제공하도록 구성된다. 이미지 데이터(608)는 컬러 이미지들로부터 획득된 RGB(적색, 녹색, 청색) 각각에 대한, 그리고 선택적으로 깊이 이미지들로부터 취해진 D(Depth)에 대한 픽셀 값들을 포함한다. 도 6은 연접에 의한 블렌딩을 예시하며, 여기서 각각의 컬러 및 픽셀 값은 그 자신의 채널을 갖고, RGB 이미지는 채널들을 연접함으로써 깊이 이미지와 블렌딩된다. D 값들이 제출되는 이들 실시예들에서, 모든 컬러 값들(R, G, 또는 B)보다 적은 컬러 값이 제출될 수 있다. 예를 들어, R+D, G+D, B+D, R+G+D, R+B+D, G+B+D는 모든 3개의 컬러(RGB) 값보다 적은 값이 D 값과 함께 입력으로서 제출되는 경우들이고, 각각의 제출된 값은 그 자신의 채널을 갖는다.

대안적으로, 인터리빙에 의한 블렌딩은 RGB 이미지를 깊이 이미지와 블렌딩할 수 있다. 이러한 블렌딩 기법에서, RGB 및 깊이 이미지들을 연접하고 채널들을 얻는 대신에, 두 이미지들 모두의 채널들은 원래의 구조를 유지하는 방식으로 블렌딩되는데, 즉 생성되는 이미지 내의 채널들의 수는 원래의 RGB 이미지 내의 채널들의 수로부터 블렌딩 후에 증가하지 않는다. 하나의 그러한 예는 다음과 같다:

8 비트 3-채널 RGB 이미지, 즉, R 채널이 8개의 비트들을 갖고, G 채널이 8개의 비트들을 갖고, B 채널이 8개의 비트들을 갖는 것을 고려한다. 또한, 깊이 이미지가 16 비트 데이터의 단일 채널인 것; 즉, D 채널이 16개의 비트들을 갖는 것을 고려한다.

다수의 치수들(즉, 채널들)로부터의 데이터를 조합하고 데이터를 더 적은 치수들(즉, 채널들)로 패킹(packing)하는 한 가지 방법은 모턴 수 인터리빙(Morton Number Interleaving)이다.

예를 들어, [255, 125, 0]의 컬러 픽셀 값 [R, G, B]는 [11111111, 01111101, 00000000]의 8 비트 이진 표현을 가지며, 여기서 3개의 8 비트 값은 각각 3개의 8 비트 R, G, 및 B 채널을 나타낸다.

16 비트 깊이 값에 대해, 3개의 8 비트 값이 도출된다. D1로 지칭되는 처음 8 비트 값은 16 비트 값의 8 비트 값으로의 변환을 수반한다. 이러한 변환은 16 비트 깊이 값의 십진 등가치(decimal equivalent)를 정규화하고 정규화된 값을 8 비트 수의 최대 값(즉, 255)과 곱함으로써 행해진다. 예를 들어, [1465]의 십진 값을 갖는 원래의 16 비트 깊이 값 [D]를 고려한다. 십진 값 [1465]를 정규화하는 것은 이러한 십진 값을 16개의 비트들로 나타낼 수 있는 최대 십진 값, 즉 [65025]로 나누는 것을 수반한다. 따라서, D1에 대한 곱해진, 정규화된 십진 값 = (1465/65025) * 255 = 6(반올림됨)이다. D1의 8 비트 이진 표현은 [00000110]이다.

원래의 16 비트 깊이 값 [D]를 D2 및 D3으로 불리는 2개의 8 비트 바이트로 분할함으로써 다음 2개의 바이트가 획득된다. 예를 들어, [1465]의 이전에 언급된 16 비트 깊이 값 [D]는 [0000010110111001]의 이진 표현을 갖는다. 8 비트 D2 바이트는 [00000101]인 16 비트 깊이 값 [D]의 제1 바이트에 대응하고, 8 비트 D3 바이트는 [10111001]인 16 비트 깊이 값 [D]의 제2 바이트에 대응한다. 따라서, [D2, D3]=[00000101, 10111001]이다.

원래의 깊이 값 [D]로부터 도출된 3개의 바이트[D1, D2, D3]는 [00000110, 00000101, 10111001]이다. 앞서 언급된 바와 같이, 3-채널, 8 비트 RGB 값은 [11111111, 01111101, 00000000]이다.

모턴 차수 인터리빙(Morton order interleaving)은, [RD1, GD2, BD3]과 같이 깊이 값들을 RGB 값들에 덧붙임으로써 깊이 값 바이트[D1, D2, D3]의 3개의 채널 및 RGB 값[R, G, B] 바이트의 3개의 채널로부터 16 비트, 3-채널 이미지를 생성한다. 이전의 예와 관련하여, 모턴 차수 인터리빙은 [1111111100000110, 0111110100000101, 0000000010111001]의 3개의 16 비트 채널을 생성한다. 이 기법은 대응하는 이미지(606)(즉, RGB 이미지 및 그의 연관된 깊이 이미지)의 각각의 픽셀에 대해 실행된다. 결과는 깊이 및 컬러 정보 둘 모두를 갖는 3-채널 이미지이다. 모턴 차수 인터리빙은 주어진 픽셀에 대한 컬러 데이터와 깊이 데이터를 인터리빙하기 위한 기법의 단지 일례이며; 다른 인터리빙 기법들이 본 명세서에 기술된 원리들로부터 벗어남이 없이 채용될 수 있다는 것이 이해되어야 한다.

연접 기법에 의한 블렌딩에서와 같이, 모든 컬러 값 R, G, 또는 B보다 적은 컬러 값이 깊이 값과 인터리빙될 수 있다. 예를 들어, R+D, G+D, B+D, R+G+D, R+B+D, G+B+D는 모든 3개의 컬러(RGB) 값보다 적은 컬러 값이 D 값과 함께 입력으로서 제출되는 경우이다. 이들 경우에서, 컬러 및 깊이의 각각의 인터리브(interleave)에 대한 별개의 채널이 있다. 3개의 RGB 채널보다 적은 채널이 사용될 때, D1, D2, D3 깊이 채널 중 임의의 것이 인터리빙을 담당할 수 있다. 예를 들어, R+D, G+D, 및 B+D와 같은 조합들은 각각 단지 하나의 채널을 필요로 하고; R+G+D, R+B+D, G+B+D와 같은 조합들은 각각 2개의 채널을 갖는다. 단지 하나의 RGB 채널이 사용되는 경우, D1이 바람직한 선택인데, 이는 D1 깊이 채널이 전체 깊이 정보를 포함하기 때문이다. 2개의 컬러 채널이 사용되면, 2개의 깊이 채널, 예를 들어, D2 및 D3(D2 및 D3은 함께 전체 깊이 정보를 가짐)이 인터리빙에 사용된다. 예시하기 위해, 다시 [255, 125, 0]의 컬러 픽셀 값 [R, G, B] 및 [1465]의 원래 깊이 값을 사용하면, R+G+D의 조합은 다음의 16 비트 2 채널 [RD2, GD3] 입력 데이터: [1111111100000110, 0111110100000101]]를 생성하고, 여기서 D2 및 D3은 선택된 깊이 채널이다. 대체적으로, 객체 검출을 달성하는 능력은 더 적은 것 보다는 더 많은 정보가 이용가능한 것으로부터 이익을 얻고; 따라서, 이용가능한 컬러 및 잠재적으로 깊이 데이터의 전부를 보유하는 연접에 의한 블렌딩은 인터리빙에 의한 블렌딩보다 더 좋은 검출 결과들을 생성할 수 있으며, 이는 채널들의 수를 감소시키고 모든 컬러보다 적은 컬러 및 깊이를 사용할 수 있다. 인터리빙에 의한 블렌딩이 연접에 의한 블렌딩보다 더 유리할 수 있는 경우는 그것이 트레이닝 속도가 될 때이다.

출력 층(604)은 QMM으로 패스되는 출력(320)을 생성하고, 이는 클라우드 인터페이스(406)(도 4)를 경유할 수 있다. 출력(320)은 분석 하의 이미지(image-under-analysis)에서 검출된 객체에 대한 라벨, 이미지에서 객체가 위치되는 곳의 표시, 및 정확한 인식의 확률(즉, 신뢰 레벨)을 나타내는 값을 포함할 수 있다.

DNN(112)은 또한, 리트레이닝에 사용되는 파라미터 값 업데이트들을 수신할 목적으로 DNN 트레이너와 통신한다.

일 실시예에서, DNN(112)은 병렬적으로 동작하는 2개의 심층 신경 네트워크(도시되지 않음)로 이루어진다. 하나의 신경 네트워크는 R, G 및 B 픽셀 값들을 수신하는 반면, 다른 신경 네트워크는 R, G, B 및 D 값들을 수신한다. 각각의 신경 네트워크는 제출된 이미지 데이터(608)에 기초하여 공급된 이미지에서 하나 이상의 객체를 인식하려고 시도한다. 각각은 출력을 생성한다. 2개의 출력은 서로의 결정을 확인하고/하거나 증강시키기 위해 비교되고/되거나 조합될 수 있다. 예를 들어, RGB 신경 네트워크가 이미지의 특정 영역에서 하나의 패키지를 검출한 결과를 생성하고 RGBD 신경 네트워크가 동일한 특정 영역에서 2개의 패키지를 검출한 결과를 생성하는 것을 고려한다. 2개의 신경 네트워크(및 로직 회로)의 확률의 비교는, 차이를 해결하고 그 결과를 하나의 패키지나 2개의 패키지로 마무리 짓는 것을 분명히 할 것이다.

컴퓨터 비전 모듈(114)은, DNN(112)이 이미지 내의 객체를 성공적으로 인식하지 못하는 경우에 "DNN 실패" 신호를 수신하기 위해 QMM과 통신한다. 그러한 신호를 수신 시에, 컴퓨터 비전 모듈(114)은, DNN이 객체를 식별할 수 없는 원래의 이미지에 대응하는 이미지를 출력한다(라인 328). 이러한 이미지는 (예컨대, DNN의 객체 식별이 실패할 때 AI 모듈로부터의 프롬프트에 응답하여) 인간에 의해 공급되는 라벨링 정보(332)와 연관될 수 있다. 라벨링 정보 및 이미지의 이러한 조합(610)은 저장소로 패스되며, 여기서 그것은 이미지 데이터베이스(122)의 부분이 된다. 대안적으로, 조합(610)은, DNN이 제2 패스 동안 객체를 성공적으로 식별할 때 (DNN(112)에 의해 생성된) QMM(312)으로부터 오는 이미지 및 라벨링 정보(라인 334)를 포함한다.

도 7은 컴퓨터 비전 모듈(114)의 일 실시예를 도시한다. 대체적으로, 이미지 획득 모듈은 DNN(112)이 입력으로서 필요로 하는 것보다 더 높은 해상도를 갖는 이미지를 캡처할 수 있다. 예를 들어, 이미지 획득 모듈은 3840×2160 픽셀인 이미지(606-1)를 획득할 수 있는 반면, DNN(112)은 (예컨대, 요구되는 계산 속도에 기초할 때) 416×416 픽셀의 이미지를 요구한다. 따라서, 이미지 사전프로세싱 모듈(306)은 원래의 이미지(606-1)를 다운샘플링하여, DNN(112)의 입력 해상도와 매칭하는 크기조정된 이미지(606-2)를 생성한다. DNN(112)은 크기조정된 이미지(606-2) 내의 객체 또는 객체들을 검출하려고 시도하고, 그 결과를 QMM(312)으로 전송한다. QMM은 그 결과로부터 DNN(112)이 이미지에서 하나 이상의 객체를 성공적으로 검출했는지 여부를 결정한다.

또한, 이미지 사전프로세싱 모듈(306)은 원래의 이미지(606-1) 및 크기조정된 이미지(606-2)를 컴퓨터 비전 모듈(114)로 전송한다. 컴퓨터 비전 모듈(114)은 변화-위치추정 모듈(702)과 통신하는 변화 추적 모듈(700)을 포함한다. 일 실시예에서, 컴퓨터 비전 모듈(114)은 DNN(112)이 이미지(606-2) 내의 객체를 검출하는 데 실패할 때 다중패스 인증 프로세스를 수행한다. 성공하지 못한 객체 검출의 경우에, QMM은 변화 추적 모듈(700)에 신호를 보내는데, 변화 추적 모듈은 이에 응답하여 (이전에 캡처된 이미지에 대해) 변화가 나타나는 원래의 이미지(606-1) 내의 영역(704)을 식별하기 위해 변화 추적 프로그램 코드(226)(도 2)를 실행시킨다.

변화-위치추정 모듈(702)은 이러한 정보를 사용하여, 검출된 변화를 갖는 원래의 이미지 내의 영역(704) 상에 포커싱되는 이미지(606-3)를 생성한다. 포커싱된 이미지(606-3)는 DNN(112)의 입력 해상도와 매칭되는 해상도를 갖는다. 이러한 해상도를 이루기 위해, 변화-위치추정 모듈(702)은 변화의 영역(704)의 크기를 감소시키거나 확대해야 할 수 있다. 포커싱된 이미지(606-3)는 DNN(112)으로 패스되고, 이는 이러한 이미지에서 객체를 검출하려고 시도한다. 컴퓨터 비전 모듈(114)은 크기조정된 이미지(606-2)를 (로컬 또는 원격의) 저장소로 전송하고, 포커스 영역(704)의 경계들이 크기조정된 이미지(606-2)로 병진함에 따라 그러한 경계들을 마킹한다. 경계 정보는 크기조정된 이미지(606-2) 내의 관련 영역의 로우(row), 컬럼(column), 높이 및 폭을 포함한다.

저장소 내에서, 크기조정된 이미지(606-2)는 (DNN이 포커싱된 이미지(606-3) 내의 객체를 인식하지 못할 때) 인간 입력에 의해 제공되는 라벨 명칭과 연관되거나 또는 (DNN이 포커싱된 이미지(606-3) 내의 객체를 성공적으로 인식할 때) DNN(112)에 의해 생성된 라벨과 연관된다. 크기조정된 이미지(606-2), 마킹된 경계들, 및 라벨 정보는 DNN(112)의 후속 리트레이닝에서 함께 사용된다.

도 8은 본 명세서에 기술된 원리들에 따른, 객체 추적을 위한 프로세스(800)의 일 실시예를 도시한다. 사람은 객체를 보유하기 위해 지정된 영역으로 들어간다(단계 802). 그러한 영역은, 예를 들어 패키지들을 저장하기 위한 방 또는 시리얼 박스들 또는 마요네즈 단지들을 보유하는 선반일 수 있다.

객체 식별 시스템(100)은 사람의 식별을 등록한다(단계 804). 등록은 자동으로, 즉 사람의 의도적인 개입 없이 발생할 수 있다. 예를 들어, 센서 모듈(102)은, 예를 들어 키 포브(key fob) 또는 스마트폰과 같은, 사람에 의해 휴대되는 디바이스와 무선으로 통신할 수 있다. 대안적으로, 제어기(104)는 안면 인식을 수행할 수 있다. 사람의 식별을 획득하기 위한 기법들의 다른 예들로서, 사람은, 스캐닝을 위한 명칭 태그를 제공하는 것, PIN 코드 또는 패스워드를 입력하는 것, 생체인식 정보(예컨대, 지문 또는 망막 스캔)를 제출하는 것, 음성 인식을 허용하도록 말하는 것과 같이, 그 또는 그녀 자신을 의도적으로 식별할 수 있다. 다른 실시예에서, 객체 식별 시스템(100)은 골격 추적(즉, 개인의 골격 구조)을 사용하여 개인을 식별하고, 골격 구조를 등록한다. 사람을 등록하는 것에 더하여, 객체 식별 시스템(100)은 보유 영역에서 사람의 도착 시간을 기록할 수 있다.

단계 806에서, 객체 식별 시스템(100)은 사람을 보유 영역 내의 하나 이상의 객체와 연관시킨다. 연관은, 사용자에 의해 수행되고 시스템에 의해 관찰되는 활동에 기초하여 직접적으로, 사용자 입력으로부터, 또는 간접적으로 발생할 수 있다. 직접적인 연관의 예로서, 시스템은 사람에게 객체를 보관하거나 제거하는 것과 같은, 방문 목적에 관한 정보, 및 목적이 수반하는 각각의 객체의 아이덴티티를 제공할 것을 명시적으로 요청할 수 있다. 사람은 임의의 수의 입력 기법들, 예를 들어 보관될 패키지 상의 라벨을 스캐닝하는 것을 통해 이러한 정보를 제공할 수 있다. 대안적으로, 사람은 객체의 명칭을 타이핑함으로써 또는 음성 인식 및 스피치-텍스트 변환 기법들을 사용하는 시스템에 말함으로써 객체가 무엇인지를 식별할 수 있다. 각각의 영향받은 객체에 관한 정보를 수신한 후에, 시스템은 그 객체를 등록된 사람의 아이덴티티와 연관시킨다.

간접적인 연관의 예로서, 객체 식별 시스템(100)은 보유 영역에서 사람에 의해 수행되는 활동을 검출할 수 있다. 예를 들어, 이미지 프로세싱을 통해, 시스템은 객체가 선반 상에 배치되었거나 선반으로부터 제거되었다는 것을 검출할 수 있고, 이어서 새롭게 배치된 객체 또는 제거된 객체를 등록된 사람의 아이덴티티와 연관시킬 수 있다.

단계 808에서, 객체 식별 시스템(100)은 객체가 무엇인지를 인식하려고 시도한다. 인식은, 예를 들어 사용자가 "item is a microscope"라는 것을 입력할 때 사용자에 의해 시스템에 직접 공급되는 정보로부터 비롯될 수 있는데; 이전의 결정으로부터, 예를 들어, 시스템은 이미 알려진 아이덴티티를 갖는 객체의 제거를 검출하거나; 또는 객체 인식으로부터, 예를 들어, 시스템은 새롭게 검출된 객체의 이미지 상에서 그의 객체 인식 알고리즘을 실행시킨다. 일 실시예에서, 시스템은 인간 상호작용을 자동으로 요청하는데, 즉 객체가 보관되고 있는지, 이동되고 있는지, 또는 제거되고 있는지를 식별하도록 인간에게 요청한다. 그러한 요청은 시스템이 그 자신의 객체 인식을 시도하기 전에, 그 동안에, 또는 그 후에 발생할 수 있다.

인간 상호작용을 요청하는 결정은 캡처된 이미지로부터의 객체 인식에서 그의 시도에 있어서 제어기(104)에 의해 도출된 임계값에 기초할 수 있다. 예를 들어, 단계(810)에서 임계값이 제1(예컨대, 상위) 임계치를 초과하면, 시스템은 객체가 높은 정도의 신뢰도로 인식되었다고 간주하고 인간 상호작용을 생략할 수 있으며; 임계값이 제1 임계치 미만이지만 제2(예컨대, 하위) 임계치를 초과하면, 시스템은 객체가 인식되고 있지만 중간 정도의 신뢰도를 갖는 것으로 간주하고; 임계값이 제2 임계치 미만으로 떨어지면, 시스템은 그것이 이미지 내의 어떠한 객체도 인식하지 않았다고 결론짓는다. 시스템은, 결정된 임계값이 상위 임계치 미만이지만 하위 임계치 초과인 경우 사람이 시스템의 식별을 확인하거나 보정할 것을 요청할 수 있고(단계 812), 결정된 임계값이 하위 임계치 미만인 경우 사람이 식별을 제공할 것을 요청할 수 있다(단계 814). 본 명세서에 기술된 원리들로부터 벗어남이 없이 2개 미만 또는 초과의 임계치들이 사용될 수 있다. 또한, 시스템은 임계값이 상위 임계치를 초과하더라도 확인을 요청할 수 있거나, 또는 정밀하지 않은, 부정확한, 또는 성공적이지 못한 객체 인식의 경우에 객체의 아이덴티티를 요청할 수 있다.

보유 영역 내의 사람의 활동은 지지 표면 상의 객체들의 레이아웃을 변경할 수 있다. 새로운 객체가 배치되었거나, 객체가 제거되었거나, 객체가 다른 위치로 이동되었거나, 또는 이들의 임의의 조합이 있다. 객체들의 새로운 배열은 하나 이상의 센서 모듈의 이미지 및 깊이 센서와 관련하여 상이한 관점 및 변화된 각도 불규칙성을 생성한다. 기계 학습은 컬러 및 깊이 둘 모두를 통해 객체가 어떻게 보이는지를 학습할 뿐만 아니라, 그것은 이제 그들이 영역 내의 상이한 위치에 배치됨에 따라 각각의 객체 상에서 다양한 관점을 학습할 수 있다. 이러한 기계 학습은 이미지 센서에 의해 보여지는 객체들의 동적 관점들을 보상하고, 식별된 객체가 관찰 영역 내의 상이한 영역에 그리고 선반 내의 상이한 각도, 깊이로 배치된 경우에 동일한 객체일 수 있는 방법을 학습한다. 따라서, 이미지 센서들에 의해 이제 캡처된 이미지들은 기계 학습 기법들을 통해 객체 인식을 개선시킬 기회를 제공한다. 시스템은, 신경 네트워크가 (적어도 초기에) 객체를 식별할 수 없었고 다중패스 인증 동안 신경 네트워크에 의해 또는 사용자에 의해 제공되는 객체에 관한 라벨링 정보를 필요로 했던 이들 새롭게 캡처된 이미지들로 신경 네트워크를 리트레이닝시킨다. 시스템은 또한, 사람이 보유 영역을 떠날 때 사람의 출발 시간을 기록하고, 이어서 사람의 도착 시간 및 출발 시간을 객체와 연관시킬 수 있다.

객체 식별 시스템(100)의 일 실시예의 동작의 예들로서 다음의 예시들을 고려한다. Alice는 몇 개의 선반들을 갖는 방에 들어간다. 그녀는 현미경 및 스마트폰을 휴대하고 있다. 스마트폰은 Bluetooth®를 실행 중이다. 제어기(104)는 스마트폰에 접속하고 스마트폰과 통신하여 사람의 아이덴티티를 Alice로서 확립한다. 또한, 제어기는 Alice의 방으로의 진입 시간을 예를 들어, 2019년 4월 16일 목요일 1:42 p.m.으로서 확립한다. Alice는 선반들 중 하나의 선반 상에 현미경을 배치한다. 이미지 센서에 의해 캡처된 이미지들의 이미지 프로세싱을 통해, 제어기는 현미경의 객체 및 위치를 검출한다. 또한, 제어기는 기계 학습을 채용하여 객체를 현미경으로 인식할 수 있다. 제어기는 Alice에게 그의 결정, 제어기가 객체를 정확하게 인식했는지 또는 아닌지 여부를 확인하도록 요청할 수 있다. 제어기가 배치된 객체를 인식할 수 없었으면, 제어기는 Alice에게 객체를 식별하도록 요청할 수 있고, 이는 객체 식별 시스템의 구성에 따라 그녀가 전자적으로 또는 구두로 입력할 수 있다. 대안적으로, 시스템은 그 자신의 객체 인식과 관계없이 객체의 아이덴티티를 Alice에 질문하도록 구성될 수 있다. 시스템은 이어서, 서버 상에서 국부적으로 또는 원격으로, 즉시 또는 이후에, 그의 신경 네트워크를 현미경의 캡처된 이미지들로 그리고 존재하는 경우, Alice에 의해 제공되는 정보로 트레이닝시킬 수 있다. 이어서, Alice는 방을 떠나고, 제어기는 출발 시간을 2019년 4월 16일 목요일 1:48 p.m.으로서 기록한다.

Bob이 방으로 들어가고, PIN 코드를 사용하여 그의 식별을 제어기에 제출한다. 제어기는 Bob 및 그의 진입 시간을, 예를 들어 2019년 4월 16일 목요일 2:54 p.m.으로서 등록한다. 제어기는 Bob을 식별하고, 그의 과거의 실행 패턴으로부터, 그의 규칙적인 현미경 사용을 인식한다. 제어기는, 디스플레이 스크린 상에 디스플레이된 메시지에 의해 또는 청각적으로, Bob이 현미경을 찾고 있는지를 질문한다. Bob이 긍정으로 답변하는 경우, 제어기는 광원을 조명하고 현미경이 존재하는 선반들 상의 위치로 광 빔을 향하게 한다. Bob은 선반으로부터 현미경을 제거하고, 이를 갖고 방을 떠난다. 시스템은 Bob의 출발 시간을 2019년 4월 16일 목요일 2:56 p.m.으로서 기록하고, Bob이 현미경을 가지고 갔음을 기록한다. Alice와 현미경의 도착을, Bob과 현미경의 제거를, 그러한 동작들의 시간들을, 그 사이의 현미경의 존재를, 비디오 기록들에 의해 확인된 모든 것들을 연결시킴으로써, 시스템은 그에 따라서 현미경의 관리 연속성(chain of custody)을 확립하였다. 이러한 관리 연속성 원리는, 증거를 다루기 위한 프로세스들과 같은 다른 노력 분야들로 확장될 수 있다. 본 맥락에서, 관리 연속성은 보유 영역 내로 들어가고, 그 영역 내에서 이동하고, 그 영역 밖으로 나오는 물리적 객체들의 위치들 및 관리(소유)의 시퀀스의 연대순 기록을 의미한다. 객체 식별 시스템은, 누가 소정 증거물들을 증거 보관실로 가져왔는지, 보관실로부터 증거물을 가져갔는지, 그리고 이미지 센서의 시선 내의 다른 섹션으로 이동되더라도, 그 사이의 보관실 내의 증거물의 정확한 위치들을 알고 있다.

도 9는 이미지들 내의 객체들을 인식하기 위한 프로세스(900)의 일 실시예를 도시한다. 단계 902에서, 이미지 획득 모듈(304)은 캡처된 이미지를 수신한다. 선택적으로, 이미지 사전프로세싱 모듈(305)은 이미지를 DNN(112)으로 전송하기(단계 906) 전에 그의 해상도를 낮추는 것을 포함하여, 이미지를 편집한다(단계 904). DNN은 수신된 이미지에서 객체를 검출 및 식별하려고 시도한다(단계 908).

QMM(312)이, DNN이 이미지 내의 하나 이상의 객체를 성공적으로 식별하였다고 결정하면(단계 910), 객체 식별 시스템(100)은, 예를 들어 객체 추적 목적을 위해 각각의 식별된 객체에 관한 정보를 사용한다(단계 912). 객체 정보의 특정 사용은 객체 식별 시스템이 사용되고 있는 애플리케이션에 의존한다.

대신에, QMM이, DNN이 이미지 내의 객체를 식별하고자 하는 시도에서 성공적이지 않은 것으로 결정하는 경우(단계 910), AI 모듈은 객체를 식별하도록 인간에게 요청한다(단계 914). 인간이 요청된 정보를 공급한 후에, (단계 904에서 생성된) 선택적으로 사전프로세싱된 이미지는, DNN을 리트레이닝시키는 데 있어서의 추후의 사용을 위해, 인간이 제공한 라벨링 정보와 함께 이미지 데이터베이스(122)에 저장된다(단계 916).

도 9에 가상선으로 도시된 일 실시예에서, AI 모듈은 도 7과 관련하여 설명된 멀티패스 인증 프로세스를 수행한다(단계 918). 단계 920에서, DNN이 제2 패스에서 객체를 식별할 수 없으면, AI 모듈은 객체를 식별하도록 인간에게 요청하고(단계 914), 선택적으로 사전프로세싱된 이미지는 인간이 제공한 라벨링 정보와 함께 이미지 데이터베이스(122)에 저장된다(단계 916). 대안적으로, 단계 920에서, DNN이 제2 시도에서 이미지 내의 객체를 성공적으로 식별했다면, 선택적으로 사전프로세싱된 이미지는 DNN을 리트레이닝시키는 데 있어서의 추후의 사용을 위해 DNN이 제공한 라벨링 정보와 함께 저장된다(단계 916). 따라서, DNN이 제2 패스에서 객체를 식별할 수 있는 경우, 이미지는 DNN에 의해 생성된 식별 라벨과 함께 저장되고; DNN이 제2 시도에서 객체를 식별할 수 없는 경우, 이미지는 인간이 공급한 라벨 정보와 함께 저장된다.

도 10은 DNN이 초기에 객체를 식별하지 않는 이미지로 DNN을 리트레이닝시키기 위한 프로세스(1000)의 일 실시예를 도시한다. 주기적으로, 객체 식별 시스템(100)은 DNN이 이미지 데이터베이스에 저장된 이미지들로 리트레이닝되어야 한다고 결정한다. 그러한 리트레이닝은 스케줄(예컨대, 매일 밤, 매주, 등)에 기초할 수 있다.

DNN(112)(도 1)을 리트레이닝시키기 위해, DNN 트레이너(314)(예컨대, 도 3)는 이미지 데이터베이스(122) 내의 이미지들을 검색한다(단계 1002). 그러한 이미지들은 로컬 저장소(124) 또는 원격 저장소(128)에 저장된다. 이미지 데이터베이스(122)는 이미지들의 초기 트레이닝 세트 및 DNN(112)이 초기에 객체를 식별할 수 없었던 각각의 이미지를 포함한다.

이미지 데이터베이스 내의 이미지들에 기초하여, DNN 트레이너(314)는 새로운 신경 네트워크 가중치 파일을 생성하는 신경 네트워크 트레이닝(222)(도 2)을 위한 프로그램 코드를 실행시킨다(단계 1004). 새로운 가중치 파일은 DNN(112)의 "뉴런들" 각각에 대한 가중(즉, 파라미터) 값을 포함한다. DNN을 업데이트하기 위해, 즉 DNN을 리트레이닝시키기 위해, DNN 트레이너는 이러한 새로운 가중치 파일을 DNN으로 전송하여, 후속적으로 수신된 이미지들에서의 객체 검출 및 인식을 위해 DNN에 의해 그의 뉴런 구조에 적용되게 한다.

대체적으로, DNN 트레이너는 DNN에 대한 현재 가중치 파일의 사본을 유지한다. DNN의 리트레이닝은 전체적으로 또는 부분적으로 발생할 수 있다. 전체적으로 리트레이닝될 때, 전체 DNN은 스크래치로부터 트레이닝되는데, 즉, 현재의 가중치 파일은 소거되고 새롭게 생성된 가중치 파일로 대체된다. 그것은 마치 DNN이 다시 블랭크 슬레이트였고 초기에 트레이닝되었던 것과 같다. 이러한 리트레이닝은 이미지들의 초기 트레이닝 세트, 및 초기에 식별되지 않기 위해 이미지 데이터베이스에 추가된 각각의 추가 이미지를 사용한다.

부분적으로 리트레이닝될 때, 리트레이닝은 DNN의 소정 층들에 포커싱할 수 있다. 예를 들어, 10개의 은닉 층들을 갖는 DNN을 고려한다; 리트레이닝은 제7, 제8 및 제9 은닉 층들에서만 수행될 수 있으며, 동작 원리는 완전한 DNN 트레이닝을 수행하는 것을 회피하는 것이고, 이는 포커싱된 리트레이닝이 충분할 수 있을 때 시간 소모적일 수 있다. 이러한 예에서, 제7, 제8 및 제9 은닉 층들의 뉴런들과 연관되는 현재 가중치 파일에서의 이들 파라미터 값들만이 변경된다. DNN 트레이너에 의해 생성되고 DNN으로 전송되는 새로운 가중치 파일은 제7, 제8 및 제9 은닉 층들의 뉴런들에 대한 새로운 파라미터 값들 및 DNN의 나머지에 대한 오래된 파라미터 값들의 혼합물이다.

동작 중인 기계 학습의 일례로서, Alice가 선반에 현미경을 두는 것을 고려한다. Alice를 등록할 때, 객체 식별 시스템(100)이 객체를 인식하지 않는 경우, 시스템은 Alice가 배치된 객체를 식별하도록 요청하고; 그녀는 객체가 현미경이라고 응답할 수 있다. 객체 식별 시스템(100)은 선반 상의 객체의 하나 이상의 이미지를 추가로 캡처하고, 각각의 캡처된 이미지를 Alice에 의해 제공된 정보(즉, 객체는 현미경임)와 연관시킨다. DNN 트레이너는 각각의 캡처된 이미지 및 Alice에 의해 제공된 정보를 사용하여 신경 네트워크(112)를 트레이닝시킨다. 이러한 트레이닝은 현미경들을 식별하기 위한 시스템의 초기 트레이닝일 수 있거나, 시스템의 현재 능력에 누적될 수 있다. 어느 경우든, 트레이닝 후에, 객체 식별 시스템은 현미경들을 식별하는 데 더욱 적합하다.

객체들을 검출하고, 추적하고, 인식하는 것에 관하여 기술되었지만, 본 명세서에 기술된 기계 학습 기법들은 캡처된 이미지들에서 사람의 얼굴, 골격 구조, 신체 포지션, 및 이동을 검출하고, 추적하고 인식하는 것으로 확장된다. 객체 인식을 개선시키기 위해 심층 신경 네트워크들을 트레이닝시키는 데 객체들의 이미지들이 사용되는 것과 유사한 방식으로, 사용자 등록의 목적으로 안면 인식을 개선시키기 위해 그러한 네트워크들을 트레이닝시키는 데 얼굴 이미지들이 사용될 수 있고, 개별적 사람들 및 객체들을 식별하고 추적하는 목적들로 개선시키기 위해 그러한 네트워크들을 트레이닝시키는 데 손, 팔, 및 다리와 같은 골격 특징부들의 이미지들이 사용될 수 있다.

당업자에 의해 이해되는 바와 같이, 본 명세서에 기술된 시스템들의 태양들은 시스템, 방법, 및 컴퓨터 프로그램 제품으로서 구현될 수 있다. 따라서, 본 명세서에 기술된 시스템들의 태양들은 전적으로 하드웨어로, 전적으로 소프트웨어로(펌웨어, 프로그램 코드, 상주 소프트웨어, 마이크로코드를 포함하지만 이에 제한되지는 않음), 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 모든 그러한 실시예들은 대체적으로 본 명세서에서 회로, 모듈, 또는 시스템으로 지칭될 수 있다. 또한, 본 명세서에 기술된 시스템들의 태양들은 컴퓨터 판독가능 프로그램 코드가 그 상에 구현되어 있는 하나 이상의 판독가능 매체에서 구현된 컴퓨터 프로그램 제품의 형태일 수 있다.

하나 이상의 컴퓨터 판독가능 매체(들)의 임의의 조합이 이용될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터 판독가능 신호 매체 또는 컴퓨터 판독가능 저장 매체일 수 있다. 컴퓨터 판독가능 매체는 비일시적 컴퓨터 판독가능 저장 매체일 수 있으며, 그의 예들은 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치, 또는 디바이스, 또는 이들의 임의의 적합한 조합을 포함하지만 이로 한정되지는 않는다.

본 명세서에 사용되는 바와 같이, 컴퓨터 판독가능 저장 매체는 명령 실행 시스템, 장치, 디바이스, 컴퓨터, 컴퓨팅 시스템, 컴퓨터 시스템, 또는 명령들, 커맨드들, 또는 데이터를 입력하고, 프로세싱하고, 출력하는 임의의 프로그래밍가능 기계 또는 디바이스에 의해 또는 이와 관련하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 임의의 유형의 매체일 수 있다. 컴퓨터 판독가능 저장 매체의 특정 예들의 비-배타적인 목록은 하나 이상의 와이어를 갖는 전기적 접속, 휴대용 컴퓨터 디스켓, 플로피 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), USB 플래시 드라이브, 비휘발성 RAM(NVRAM 또는 NOVRAM), 소거가능 프로그래밍가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 플래시 메모리 카드, 전기적 소거가능 프로그래밍가능 판독 전용 메모리(EEPROM), 광섬유, 휴대용 콤팩트 디스크 판독 전용 메모리(CD-ROM), DVD-ROM, 광학 저장 디바이스, 자기 저장 디바이스, 또는 이들의 임의의 적합한 조합을 포함한다.

컴퓨터 판독가능 신호 매체는, 예를 들어 기저대역에서 또는 반송파의 일부로서 그 안에서 구현되는 컴퓨터 판독가능 프로그램 코드를 갖는 전파된 데이터 신호를 포함할 수 있다. 그러한 전파된 신호는 전자기, 광학, 또는 이들의 임의의 적합한 조합을 포함하지만 이로 한정되지 않는 다양한 형태들 중 임의의 것을 취할 수 있다. 컴퓨터 판독가능 신호 매체는, 컴퓨터 판독가능 저장 매체가 아니고 명령어 실행 시스템, 장치, 또는 디바이스에 의해 또는 그와 관련하여 사용하기 위한 프로그램을 전달하고, 전파하고, 또는 전송할 수 있는 임의의 컴퓨터 판독가능 매체일 수 있다. 본 명세서에 사용되는 바와 같이, 컴퓨터 판독가능 저장 매체는 컴퓨터 판독가능 전파 신호 매체 또는 전파된 신호가 아니다.

프로그램 코드는, 예를 들어 소스 코드, 오브젝트 코드, 해석 코드, 실행가능 코드, 또는 이들의 조합들로서 컴퓨터 판독가능 저장 매체 상에 또는 그 내에 저장된 컴퓨터 판독가능 명령어들로서 구현될 수 있다. 임의의 표준 또는 독점적인, 프로그래밍 또는 해석적 언어가 컴퓨터 실행가능 명령어들을 생성하는 데 사용될 수 있다. 그러한 언어들의 예들은 Python, C, C++, Pascal, JAVA, BASIC, Smalltalk, Visual Basic, 및 Visual C++를 포함한다.

컴퓨터 판독가능 매체 상에 구현된 프로그램 코드의 송신은 무선, 유선, 광섬유 케이블, 무선 주파수(RF), 또는 이들의 임의의 적합한 조합을 포함하지만 이로 한정되지 않는 임의의 적절한 매체를 사용하여 발생할 수 있다.

프로그램 코드는 전적으로 사용자의 디바이스 상에서, 부분적으로 사용자의 디바이스 상에서, 독립형 소프트웨어 패키지로서, 부분적으로 사용자의 디바이스 상에서 그리고 부분적으로 원격 컴퓨터 상에서 또는 전적으로 원격 컴퓨터 또는 서버 상에서 실행할 수 있다. 로컬 영역 네트워크(LAN) 또는 광역 네트워크(WAN)를 포함하는 임의의 유형의 네트워크를 통해 임의의 그러한 원격 컴퓨터가 사용자의 디바이스에 접속될 수 있거나, 또는 (예를 들어, ISP(Internet Service Provider)를 사용하는 인터넷을 통해) 외부 컴퓨터에 대한 접속이 이루어질 수 있다.

또한, 본 명세서에 기술된 방법들은 특수 목적 컴퓨터, 프로그래밍된 마이크로프로세서 또는 마이크로제어기 및 주변 집적 회로 요소(들), ASIC 또는 다른 집적 회로, 디지털 신호 프로세서, 이산 요소 회로와 같은 하드 와이어(hard-wired) 전자 또는 로직 회로, PLD, PLA, FPGA, PAL 등과 같은 프로그래밍가능 로직 디바이스 상에서 구현될 수 있다. 대체적으로, 상태 기계 - 이는 이어서 본 명세서에 제안된 방법들을 구현할 수 있음 - 를 구현할 수 있는 임의의 디바이스가 본 명세서에 기술된 원리들을 구현하는 데 사용될 수 있다.

또한, 개시된 방법들은 다양한 컴퓨터 또는 워크스테이션 플랫폼들 상에서 사용될 수 있는 휴대용 소스 코드를 제공하는 객체 또는 객체-지향형 소프트웨어 개발 환경들을 사용하여 소프트웨어에서 용이하게 구현될 수 있다. 대안적으로, 개시된 시스템은 표준 로직 회로들 또는 VLSI 설계를 사용하여 하드웨어에서 부분적으로 또는 완전히 구현될 수 있다. 본 명세서에 기술된 원리들에 따라 시스템들을 구현하는 데 소프트웨어 또는 하드웨어가 사용되는지의 여부는 시스템의 속도 및/또는 효율 요건들, 특정 기능, 및 이용되고 있는 특정 소프트웨어 또는 하드웨어 시스템들 또는 마이크로프로세서 또는 마이크로컴퓨터 시스템들에 의존한다. 그러나, 본 명세서에 예시된 방법들은, 본 명세서에 제공된 기능적 설명으로부터 그리고 컴퓨터 및 이미지 프로세싱 기술분야들의 일반적인 기본 지식을 갖고서 적용가능한 기술분야의 당업자에 의해 임의의 알려져 있는 또는 추후에 개발되는 시스템들 또는 구조들, 디바이스들 및/또는 소프트웨어를 사용하여 하드웨어 및/또는 소프트웨어에서 용이하게 구현될 수 있다.

또한, 개시된 방법들은 프로그래밍된 범용 컴퓨터, 특수 목적 컴퓨터, 마이크로프로세서 등에서 실행되는 소프트웨어에서 용이하게 구현될 수 있다. 이러한 경우들에서, 본 명세서에 기술된 원리들의 시스템들 및 방법들은 JAVA® 또는 CGI 스크립트와 같은 개인용 컴퓨터 상에 내장된 프로그램으로서, 서버 또는 그래픽 워크스테이션 상에 존재하는 리소스로서, 플러그인(plug-in) 등으로서 구현될 수 있다. 시스템은 또한, 시스템 및 방법을 소프트웨어 및/또는 하드웨어 시스템에 물리적으로 통합시킴으로써 구현될 수 있다.

전술한 원리들이 다수의 실시예들과 관련하여 기술되었지만, 많은 대안들, 수정들, 및 변형들이 적용가능한 기술 분야에서 당업자에게 명백하거나 명백할 것임이 분명하다. "하나의 실시예" 또는 "일 실시예" 또는 "다른 실시예"에 대한 언급들은 실시예와 관련하여 기술된 특정내용, 특징부, 구조 또는 특성이 본 명세서에 기술된 적어도 하나의 실시예에 포함된다는 것을 의미한다. 명세서 내의 특정 실시예에 대한 언급은 반드시 모두 동일한 실시예를 지칭하는 것은 아니다. 하나의 예시적인 실시예와 관련하여 예시되거나 기술된 특징부들은 다른 실시예들의 특징부들과 조합될 수 있다. 따라서, 본 명세서에 기술된 원리들의 사상 및 범주 내에 있는 모든 그러한 대안들, 수정들, 등가물들, 및 변형들을 포괄하도록 의도된다.

Claims

객체 식별 시스템으로서,
객체들을 보유하기 위해 지정된 영역 내에 배치된 객체들의 이미지들을 캡처하도록 구성된 이미지 센서;
상기 지정된 영역에 보유된 그러한 객체들과 같은 이미지들 내의 객체들을 검출하고 인식하도록 트레이닝된 심층 신경 네트워크(deep neural network); 및
상기 이미지 센서들에 의해 캡처된 이미지들을 수신하기 위해 상기 이미지 센서와 그리고 상기 심층 신경 네트워크와 통신하는 제어기를 포함하고, 상기 제어기는 객체를 보유하기 위해 지정된 상기 영역을 방문하는 사람의 아이덴티티를 등록하도록, 이미지를 상기 심층 신경 네트워크에 제출하도록, 상기 심층 신경 네트워크로 제출된 상기 이미지에서 검출된 객체와 상기 등록된 사람의 아이덴티티를 연관시키도록, 상기 심층 신경 네트워크가 상기 제출된 이미지에서 검출된 객체를 인식할 수 없는 경우 상기 제출된 이미지를 사용하여 상기 심층 신경 네트워크를 리트레이닝시키도록, 그리고 상기 검출된 객체가 객체들을 보유하기 위해 지정된 상기 영역에 있는 동안 상기 검출된 객체의 위치를 추적하도록 구성된 하나 이상의 프로세서를 포함하는, 객체 식별 시스템.
제1항에 있어서, 상기 제어기는 상기 심층 신경 네트워크가 상기 제출된 이미지에서 상기 검출된 객체를 인식할 수 없다는 것에 응답하여 상기 검출된 객체에 대한 라벨링 정보를 획득하도록, 상기 라벨링 정보를 상기 심층 신경 네트워크에 제출된 상기 이미지의 버전과 연관시키도록, 그리고 상기 심층 신경 네트워크를 리트레이닝시키는 데 사용되는 이미지 데이터베이스에 상기 이미지의 버전 및 연관된 라벨링 정보를 저장하도록 추가로 구성되는, 객체 식별 시스템.
제2항에 있어서, 상기 심층 신경 네트워크가 상기 제출된 이미지에서 상기 이미지 내의 검출된 객체를 인식할 수 없을 때 상기 제어기로부터의 요청에 응답하여 사용자로부터 상기 라벨링 정보를 획득하도록 구성된 인간 입력 획득 모듈을 추가로 포함하는, 객체 식별 시스템.
제1항에 있어서, 상기 제어기는 상기 심층 신경 네트워크가 상기 검출된 객체를 인식할 수 없는 경우 변화가 나타나는 상기 이미지 내의 영역을 찾도록, 상기 변화 영역에 포커싱하는 상기 이미지의 버전을 생성하도록, 그리고 상기 이미지의 버전을 상기 심층 신경 네트워크에 제출하여 상기 심층 신경 네트워크가 상기 이미지의 제2 버전에서 상기 검출된 객체를 인식할 수 있는지 여부를 결정하도록 추가로 구성되는, 객체 식별 시스템.
제4항에 있어서, 상기 제어기는 상기 심층 신경 네트워크가 상기 이미지의 제출된 버전에서 상기 검출된 객체를 인식하는지 여부에 관계없이 상기 검출된 객체에 대한 라벨링 정보를 획득하도록, 상기 획득된 라벨링 정보를 상기 심층 신경 네트워크에 제출된 상기 이미지의 버전과 연관시키도록, 그리고 상기 이미지의 버전 및 연관된 라벨링 정보를 상기 심층 신경 네트워크를 리트레이닝시키는 데 사용되는 이미지 데이터베이스에 저장하도록 추가로 구성되는, 객체 식별 시스템.
제5항에 있어서, 상기 제어기는 상기 심층 신경 네트워크가 상기 이미지의 제출된 버전에서 상기 검출된 객체를 인식할 때 상기 심층 신경 네트워크로부터 상기 라벨링 정보를 획득하도록 추가로 구성되는, 객체 식별 시스템.
제1항에 있어서, 상기 심층 신경 네트워크는 제1 심층 신경 네트워크이고, 상기 제1 심층 신경 네트워크와 병렬적으로 동작하도록 구성된 제2 심층 신경 네트워크를 추가로 포함하고, 상기 제1 및 제2 심층 신경 네트워크들 각각은 상기 이미지로부터 획득된 이미지 데이터에 기초하여 출력을 생성하고, 상기 제1 심층 신경 네트워크에 의해 획득된 상기 이미지 데이터는 상기 제2 심층 신경 네트워크에 의해 획득된 상기 이미지 데이터와 상이한, 객체 식별 시스템.
제1항에 있어서, 상기 이미지 센서의 시야와 실질적으로 매칭하는 시야를 갖는 깊이 센서를 추가로 포함하고, 상기 깊이 센서는 그의 시야 내에서 이미지의 깊이 픽셀 값을 획득하고, 상기 이미지가 트레이닝 또는 객체 인식 동안 상기 심층 신경 네트워크에 제출될 때 깊이 픽셀 값 및 R(적색), G(녹색), 및 B(청색)로 이루어진 군으로부터 취해진 3개 미만의 픽셀 값들이 이미지 데이터로서 상기 심층 신경 네트워크에 제출되는, 객체 식별 시스템.
제1항에 있어서, 상기 심층 신경 네트워크는 원격 서버 시스템 상에 존재하고, 상기 제어기는 상기 서버 시스템 상의 상기 심층 신경 네트워크와 통신하기 위한 네트워크 인터페이스를 추가로 포함하는, 객체 식별 시스템.
객체들을 식별하고 추적하는 방법으로서,
객체들을 보유하기 위해 지정된 영역을 방문하는 사람의 아이덴티티를 등록하는 단계;
객체들을 보유하기 위해 지정된 상기 영역의 이미지를 캡처하는 단계;
상기 지정된 영역에 보유된 그러한 객체들과 같은 이미지들 내의 객체들을 검출하고 인식하도록 트레이닝된 심층 신경 네트워크에 상기 이미지의 버전을 제출하는 단계;
상기 이미지의 버전에서 객체를 검출하는 단계;
상기 등록된 사람의 아이덴티티를 상기 검출된 객체와 연관시키는 단계;
상기 심층 신경 네트워크가 상기 검출된 객체를 인식할 수 없는 경우 상기 이미지의 버전을 사용하여 상기 심층 신경 네트워크를 리트레이닝시키는 단계; 및
상기 검출된 객체가 객체들을 보유하기 위해 지정된 상기 영역에 있는 동안 상기 검출된 객체의 위치를 추적하는 단계를 포함하는, 방법.
제10항에 있어서,
상기 심층 신경 네트워크가 상기 이미지의 버전에서 상기 검출된 객체를 인식할 수 없다는 것에 응답하여 상기 이미지의 버전에서 검출된 상기 객체에 대한 라벨링 정보를 획득하는 단계;
상기 라벨링 정보를 상기 이미지의 버전과 연관시키는 단계; 및
상기 캡처된 이미지의 버전 및 연관된 라벨링 정보를 상기 심층 신경 네트워크를 리트레이닝시키는 데 사용되는 이미지 데이터베이스에 저장하는 단계를 추가로 포함하는, 방법.
제11항에 있어서, 상기 심층 신경 네트워크가 상기 이미지의 버전에서 상기 검출된 객체를 인식할 수 없다는 것에 응답하여 상기 이미지의 버전에서 검출된 상기 객체에 대한 라벨링 정보를 획득하는 단계는 사용자가 공급한 입력으로부터 상기 라벨링 정보를 획득하는 단계를 포함하는, 방법.
제10항에 있어서, 상기 이미지의 버전은 상기 이미지의 제1 버전이고, 상기 방법은,
상기 심층 신경 네트워크가 상기 이미지의 제1 버전에서 검출된 상기 객체를 인식할 수 없을 때 변화가 나타나는 상기 이미지의 상기 제1 버전 내의 영역을 찾는 단계;
발견된 변화 영역에 포커싱하는 상기 이미지의 제2 버전을 생성하는 단계; 및
상기 이미지의 제2 버전을 상기 심층 신경 네트워크에 제출하여 상기 심층 신경 네트워크가 상기 이미지의 제2 버전에서 상기 검출된 객체를 인식할 수 있는지 여부를 결정하는 단계를 추가로 포함하는, 방법.
제13항에 있어서,
상기 심층 신경 네트워크가 상기 이미지의 제2 버전에서 상기 검출된 객체를 인식하는지 여부에 관계없이 상기 이미지의 제1 버전에서 검출된 상기 객체에 대한 라벨링 정보를 획득하는 단계;
상기 라벨링 정보를 상기 이미지의 제1 버전과 연관시키는 단계; 및
상기 캡처된 이미지의 제1 버전 및 연관된 라벨링 정보를 상기 심층 신경 네트워크를 리트레이닝시키는 데 사용되는 이미지 데이터베이스에 저장하는 단계를 추가로 포함하는, 방법.
제14항에 있어서, 상기 이미지의 버전에서 검출된 상기 객체에 대한 라벨링 정보를 획득하는 단계는 상기 심층 신경 네트워크가 상기 이미지의 버전에서 상기 검출된 객체를 인식할 때 상기 심층 신경 네트워크로부터 상기 라벨링 정보를 획득하는 단계를 포함하는, 방법.
제10항에 있어서, 상기 심층 신경 네트워크는 제1 심층 신경 네트워크이고, 상기 방법은, 상기 이미지의 버전으로부터 획득된 이미지 데이터를 상기 제1 심층 신경 네트워크 및 제2 심층 신경 네트워크에 병렬적으로 제출하는 단계를 추가로 포함하고, 상기 제1 심층 신경 네트워크에 제출된 상기 이미지 데이터는 상기 제2 심층 신경 네트워크에 제출된 상기 이미지 데이터와 상이한, 방법.
제10항에 있어서, 상기 이미지의 버전을 상기 심층 신경 네트워크에 제출하는 단계는 깊이 픽셀 값 및 R(적색), G(녹색) 및 B(청색)로 이루어진 군으로부터 취해진 3개 미만의 픽셀 값들을 이미지 데이터로서 상기 심층 신경 네트워크에 제출하는 단계를 포함하는, 방법.
센서 모듈로서,
이미지를 그의 시야 내에서 캡처하도록 구성된 이미지 센서;
상기 이미지 센서의 시야와 실질적으로 매칭하는 시야를 갖는 깊이 센서로서, 상기 깊이 센서에 의해 캡처된 이미지에 대한 추정된 깊이 값들을 획득하도록 구성된, 상기 깊이 센서; 및
상기 이미지 센서에 의해 캡처된 상기 이미지와 연관된 이미지 데이터 및 상기 깊이 센서에 의해 캡처된 상기 이미지와 연관된 추정된 깊이 값들을 수신하기 위해 상기 이미지 센서 및 깊이 센서와 통신하는 제어기를 포함하고, 상기 제어기는 객체들을 보유하기 위해 지정된 영역을 방문하는 사람의 아이덴티티를 등록하도록, 상기 이미지 센서에 의해 캡처된 상기 이미지와 연관된 상기 이미지 데이터 및 상기 깊이 센서에 의해 캡처된 상기 이미지와 연관된 상기 추정된 깊이 값들을 상기 지정된 영역에 보유된 그러한 객체들과 같은 이미지들 내의 객체들을 검출하고 인식하기 위해 트레이닝된 심층 신경 네트워크에 제출하도록, 상기 등록된 사람의 아이덴티티를 상기 심층 신경 네트워크에 제출된 추정된 깊이 값들 및 상기 이미지 데이터에서 검출된 객체와 연관시키도록, 그리고 상기 심층 신경 네트워크가 상기 검출된 객체를 인식할 수 없는 경우 상기 심층 신경 네트워크의 후속의 리트레이닝에서의 사용을 위해 상기 이미지 센서 및 상기 깊이 센서에 의해 캡처된 상기 이미지들의 버전을 저장하도록 구성된 하나 이상의 프로세서를 포함하는, 센서 모듈.
제18항에 있어서, 상기 제어기는 네트워크를 통해 상기 심층 신경 네트워크와 통신하기 위한 클라우드 인터페이스를 추가로 포함하는, 센서 모듈.
제18항에 있어서, 상기 심층 신경 네트워크가 상기 제출된 이미지 데이터 및 추정된 깊이 값들에 기초하여 상기 검출된 객체를 인식할 수 없을 때 상기 제어기로부터의 요청에 응답하여 사용자로부터 상기 라벨링 정보를 획득하도록 구성된 인간 입력 획득 모듈을 추가로 포함하는, 센서 모듈.