KR20230007425A

KR20230007425A - 신경망 지원 카메라 이미지 또는 비디오 처리 파이프라인

Info

Publication number: KR20230007425A
Application number: KR1020227041148A
Authority: KR
Inventors: 케빈 고든; 콜린 다모어; 마틴 험프리스
Original assignee: 스펙트럼 옵틱스 아이엔씨.
Priority date: 2020-04-24
Filing date: 2021-04-22
Publication date: 2023-01-12
Also published as: US20210337098A1; EP4139880A4; EP4139880A1; US11889175B2; CN115699073A; WO2021214712A1

Abstract

스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인은 이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나에 대한 신경망 기반 결과를 처리하고 제공하도록 배열된 제 1 신경망을 포함한다. 제 2 신경망은 신경망 결과를 수신하고 이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나를 더 제공하도록 배열되고, 제 1 및 제 2 신경망 중 적어도 하나는 스틸 또는 비디오 카메라에 의해 지원되는 로컬 프로세서에서 데이터를 생성한다.

Description

신경망 지원 카메라 이미지 또는 비디오 처리 파이프라인

관련 출원

본 출원은 2020년 4월 24일에 출원되고 발명의 명칭이 "신경망 지원 카메라 이미지 또는 비디오 처리 파이프라인"인 미국 가출원 일련 번호 제 63/015,235호를 우선권으로 주장하며, 그 개시 내용은 인용에 의해 전체가 본원에 포함된다.

기술분야

본 개시는 이미지 또는 비디오 처리 파이프라인을 개선하기 위해 다중 신경망을 사용하여 이미지를 개선하기 위한 시스템에 관한 것이다. 특히, 선택된 이미지 처리 단계에서 로컬 신경망 이미지 처리를 사용하는 방법 및 시스템이 설명된다.

디지털 카메라에는 일반적으로 이미지 센서에서 수신한 신호를 사용 가능한 이미지로 변환하는 디지털 이미지 처리 파이프라인이 필요하다. 처리에는 신호 증폭, 바이어(Bayer) 마스크 또는 기타 필터 수정, 디모자이킹(demosaicing), 색상 공간 변환, 및 흑백 레벨 조정이 포함될 수 있다. 고급 처리 단계에는 HDR 채우기(in-filling), 초해상도, 채도, 생동감 또는 기타 색상 조정, 및 색조 또는 IR 제거가 포함될 수 있다. 다양한 특수 알고리즘을 사용하여, 탑재된 카메라에서 보정하거나 나중에 RAW 이미지를 후처리할 수 있다. 그러나, 이러한 알고리즘 중 상당수는 독점적이거나 수정하기 어렵거나 최상의 결과를 얻으려면 상당한 양의 숙련된 사용자 작업이 필요하다. 이미지 처리를 개선하고 사용자 작업을 줄이며 업데이트 및 개선을 허용할 수 있는 방법 및 시스템이 필요하다.

본 개시내용의 비제한적이고 비-배타적인 실시예는 이하의 도면을 참조하여 설명되며, 여기서 유사한 참조 번호는 달리 명시되지 않는 한 다양한 도면 전체에 걸쳐 유사한 부분을 지칭한다.
도 1a는 신경망 지원 이미지 또는 비디오 처리 파이프라인을 도시하고,
도 1b는 신경망 지원 이미지 또는 비디오 처리 시스템을 보여주고,
도 1c는 신경망 지원 소프트웨어 시스템을 나타내는 다른 실시예이고,
도 1d 내지 도 1g는 신경망 지원 이미지 처리의 예를 도시하고,
도 2는 제어, 영상화(imaging), 및 디스플레이 서브-시스템을 갖는 시스템을 예시하고,
도 3은 RGB 이미지의 신경망 처리의 일 예를 나타내고,
도 4는 완전 컨볼루션 신경망의 실시예를 도시하고,
도 5는 신경망 훈련 절차의 일 실시예를 도시한다.

다음 실시예에서 이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리중 적어도 하나에 대한 신경망 기반 결과를 처리하고 제공하도록 배열된 제 1 신경망을 포함하는 스틸(still) 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인이 설명된다. 제 2 신경망은 제 1 신경망 결과를 수신하고 이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나를 더 제공하도록 배열되고, 여기서 제 1 및 제 2 신경망 중 적어도 하나는 스틸 또는 비디오 카메라에 의해 지원되는 로컬 프로세서에서 데이터를 생성한다. 다른 실시예에서, 이미지 캡처 장치 동작을 제어하는 프로세서 및 이미지 캡처 장치에 의해 지원되는 신경 프로세서를 포함하는 이미지 캡처 장치가 설명된다. 신경 프로세서는 신경망 데이터를 수신하기 위해 프로세서에 연결될 수 있고, 신경 프로세서는 신경망 데이터를 사용하여 센서 처리, 글로벌 후처리 및 로컬 후처리를 포함하는 군으로부터 선택된 적어도 2개의 개별 신경망 처리 절차를 제공할 수 있다.

도 1a는 신경망 지원 이미지 또는 비디오 처리 파이프라인 시스템 및 방법(100A)의 일 실시예를 도시한다. 이 파이프라인(100A)은 이미지 처리 파이프라인의 여러 지점에서 신경망을 사용할 수 있다. 예를 들어, 이미지 캡처(단계 110A) 전에 발생하는 신경망 기반 이미지 전처리는 ISO, 초점, 노출, 해상도, 이미지 캡처 순간(예: 눈을 떴을 때) 또는 기타 이미지 또는 비디오 설정 중 하나 또는 그 초과를 선택하기 위해 신경망을 사용하는 것을 포함할 수 있다. 신경망을 사용하여 단순히 합리적인 이미지 또는 비디오 설정을 선택하는 것 외에도, 이러한 아날로그 및 사전-이미지(pre-image) 캡처 요소를 자동으로 조정하거나 나중에 신경망 처리의 효율성을 향상시키는 요소를 선호하도록 조정할 수 있다. 예를 들어 플래시 또는 기타 장면 조명의 강도, 지속 시간을 늘리거나 방향을 바꿀 수 있다. 광학 경로에서 필터를 제거하거나 조리개를 더 넓게 열거나 셔터 속도를 낮출 수 있다. 이미지 센서 효율성 또는 증폭은 ISO 선택으로 조정할 수 있으며, 모두 (예를 들어) 개선된 신경망 색상 조정 또는 HDR 처리를 향한 뷰(view)를 갖는다.

이미지 캡처 후, 신경망 기반 센서 처리(단계 112A)는 맞춤형 디모자이크, 톤 맵(tone map), 디헤이징(dehazing), 픽셀 실패 보상, 또는 먼지 제거를 제공하는 데 사용될 수 있다. 다른 신경망 기반 처리에는 바이어(Bayer) 컬러 필터 어레이 보정, 색상 공간 변환, 흑백 레벨 조정 또는 기타 센서 관련 처리가 포함될 수 있다.

신경망 기반 글로벌 후처리(단계 114A)는 해상도 또는 색상 조정은 물론 스택형 초점 또는 HDR 처리를 포함할 수 있다. 다른 글로벌 후처리 기능에는 HDR 채우기, 보케(bokeh) 조정, 초해상도, 생동감, 채도, 또는 색상 향상, 및 색조 또는 IR 제거가 포함될 수 있다.

신경망 기반 로컬 후처리(단계 116A)는 적목(red-eye) 제거, 흠집(blemish) 제거, 다크 서클 제거, 푸른 하늘 강조, 녹색 잎 강조, 또는 이미지의 로컬 부분, 섹션, 객체(object), 또는 영역의 기타 처리를 포함할 수 있다. 특정 로컬 영역의 식별은 예를 들어 얼굴 또는 눈 탐지기를 포함하여 다른 신경망 지원 기능의 사용을 포함할 수 있다.

신경망 기반 포트폴리오 후처리(단계 118A)는 식별, 분류, 또는 발행(publication)과 관련된 이미지 또는 비디오 처리 단계를 포함할 수 있다. 예를 들어, 신경망을 사용하여 사람을 식별하고 메타데이터 태깅(metadata tagging)을 위한 해당 정보를 제공하기 위해 사용될 수 있다. 다른 예로는 애완 동물 사진, 풍경 또는 초상화와 같은 범주로 분류하기 위해 신경망의 사용을 포함할 수 있다.

도 1b는 프로세서, 신경 프로세서, 및 메모리를 갖는 모듈(들)(132B) 중 적어도 하나 또는 그 초과를 포함하는 시스템상에서 구현될 수 있는 신경망 지원 이미지 또는 비디오 처리 시스템(120B)을 예시한다. 일 실시예에서, 하드웨어 레벨 신경 제어 모듈(122B)(설정 및 센서를 포함함)은 프로세싱, 메모리 액세스, 데이터 전송, 및 다른 저레벨 컴퓨팅 활동을 지원하기 위해 사용될 수 있다. 시스템 레벨 신경 제어 모듈(124B)은 하드웨어 모듈(122B)과 상호작용하고 유용하거나 필요한 해상도, 조명, 또는 색상 조정을 결정하는 것을 포함하는 예비적 또는 요구되는 저레벨 자동 사진 표시 도구를 제공한다. 이미지 또는 비디오는 사용자 기본 설정, 이력 사용자 설정, 또는 제3자 정보 또는 기본 설정에 기초한 다른 신경망 처리 설정을 포함할 수 있는 시스템 레벨 신경 제어 모듈(126B)을 사용하여 처리될 수 있다. 시스템 레벨 신경 제어 모듈(128B)은 또한 로컬, 원격 또는 분산 신경망 처리가 필요한지 여부를 결정하기 위한 설정뿐만 아니라 제3자 정보 및 기본 설정을 포함할 수 있다. 일부 실시예에서, 분산된 신경 제어 모듈(130B)은 협력 데이터 교환을 위해 사용될 수 있다. 예를 들어 소셜 네트워크 커뮤니티가, 선호하는 인물 이미지의 스타일을 변경함에 따라(예: 하드 포커스 스타일에서 소프트 포커스로) 인물 모드 신경망 처리도 조정될 수 있다. 이 정보는 네트워크 잠재 벡터, 제공된 훈련 세트, 또는 모드 관련 설정 권장 사항을 사용하여 다양한 개시된 모듈 중 하나로 전송될 수 있다.

도 1c는 신경망 지원 소프트웨어 및 하드웨어 시스템(120C)을 도시하는 다른 실시예이다. 도시된 바와 같이, 조명, 장면, 및 캡처 매체를 포함한 환경에 대한 정보는 예를 들어 외부 조명 시스템의 제어에 의해 또는 카메라 플래시 시스템 상에서 감지되고 잠재적으로 변경된다. 광학 및 전자 하위 시스템을 포함하는 영상화 시스템은 신경 처리 시스템 및 소프트웨어 애플리케이션 레이어와 상호 작용할 수 있다. 일부 실시예에서, 원격, 로컬 또는 협력 신경 처리 시스템은 설정 및 신경망 처리 조건과 관련된 정보를 제공하는 데 사용될 수 있다.

도 1d는 신경망 지원 이미지 처리(140D)의 일례를 도시한다. 신경망은 노출 설정 결정(142D), RGB 또는 바이어 필터 처리(144D), 색상 채도 조정(146D), 적목 감소(148D), 또는 소유자 셀피(selfie)와 같은 사진 범주 식별 또는 메타데이터 태깅 및 인터넷 중재 배포 지원 제공(150D)을 포함하는 하나 또는 그 초과의 처리 단계에서 이미지 캡처 설정을 수정하거나 제어하는 데 사용될 수 있다.

도 1e는 신경망 지원 이미지 처리(140E)의 다른 예를 도시한다. 신경망은 노이즈 제거(142E), 색상 채도 조정(144E), 눈부심 제거(146E), 적목 감소(148E) 및 아이 컬러 필터(150E)를 포함하는 하나 또는 그 초과의 처리 단계에서 이미지 캡처 설정을 수정하거나 제어하는 데 사용될 수 있다.

도 1f는 신경망 지원 이미지 처리(140F)의 다른 예를 도시한다. 신경망은 다중 이미지의 캡처(142F), 다중 이미지로부터의 이미지 선택(144F), 높은 동적 범위(High Dynamic Range, HDR) 처리(146F), 밝은 점 제거(148F), 및 자동 분류 및 메타데이터 태깅(150F)을 포함하는 하나 또는 그 초과의 처리 단계에서 이미지 캡처 설정을 수정하거나 제어하는 데 사용될 수 있다.

도 1g는 신경망 지원 이미지 처리(140G)의 다른 예를 도시한다. 신경망은 비디오 및 오디오 설정 선택(142G), 전자 프레임 안정화(144G), 객체 센터링(146G), 모션 보상(148G), 및 비디오 압축(150G)을 포함하는 하나 또는 그 초과의 처리 단계에서 이미지 캡처 설정을 수정하거나 제어하는 데 사용될 수 있다.

광범위한 스틸 또는 비디오 카메라는 신경망 지원 이미지 또는 비디오 처리 파이프라인 시스템 및 방법을 사용하여 이점을 얻을 수 있다. 카메라 유형에는 스틸 또는 비디오 기능이 있는 기존 DSLR, 스마트폰, 태블릿 카메라 또는 노트북 카메라, 전용 비디오 카메라, 웹캠 또는 보안 카메라가 포함될 수 있지만 이에 국한되지 않는다. 일부 실시예에서, 적외선 카메라, 열 영상기, 밀리미터파 영상화 시스템, x-선 또는 기타 방사선 영상기와 같은 특수 카메라가 사용될 수 있다. 실시예는 또한 적외선, 자외선, 또는 초분광 이미지 처리를 허용하는 다른 파장을 검출할 수 있는 센서를 가진 카메라를 포함할 수 있다.

카메라는 독립형, 휴대용, 또는 고정 시스템일 수 있다. 일반적으로, 카메라에는 프로세서, 메모리, 이미지 센서, 통신 인터페이스, 카메라 광학 및 액추에이터 시스템, 메모리 스토리지가 포함된다. 프로세서는 카메라 광학 및 센서 시스템 작동, 사용 가능한 통신 인터페이스와 같은 카메라의 전체 작동을 제어한다. 카메라 광학 및 센서 시스템은 이미지 센서에서 캡처한 이미지에 대한 노출 제어와 같은 카메라의 작동을 제어한다. 카메라 광학 및 센서 시스템은 고정 렌즈 시스템 또는 조정 가능한 렌즈 시스템(예: 줌 및 자동 초점 기능)을 포함할 수 있다. 카메라는 탈착식 메모리 카드, 유선 USB 또는 무선 데이터 전송 시스템과 같은 메모리 저장 시스템을 지원할 수 있다.

일부 실시예에서, 신경망 처리는 이미지 데이터를 전용 신경망 처리 시스템, 노트북, PC, 서버 또는 클라우드를 포함하는 원격 계산 리소스로 전송한 후에 발생할 수 있다. 다른 실시예에서, 신경망 처리는 최적화된 소프트웨어, 신경 처리 칩, 또는 전용 FPGA 시스템을 사용하여 카메라 내에서 발생할 수 있다.

일부 실시예에서, 신경망 처리의 결과는 객체 인식, 패턴 인식, 얼굴 식별, 이미지 안정화, 로봇 또는 차량 주행 거리 측정 및 위치 지정, 또는 추적 또는 타겟팅 애플리케이션을 위해 개발된 것을 포함하는 다른 기계 학습 또는 신경망 시스템에 대한 입력으로 사용될 수 있다. 유리하게는, 이러한 신경망 처리 이미지 정규화(normalizing)는 예를 들어 노이즈가 많은 환경에서 컴퓨터 비전 알고리즘 실패를 줄일 수 있어 이러한 알고리즘이 특성 신뢰도(feature confidence)의 노이즈 관련 감소로 인해 일반적으로 실패하는 환경에서 작동할 수 있게 한다. 일반적으로 여기에는 저조도 환경, 안개가 자욱하거나 먼지가 많거나 흐릿한 환경 또는 빛 번쩍임이나 눈부심이 있는 환경이 포함될 수 있지만 이에 국한되지 않는다. 실제로, 이미지 센서 노이즈는 신경망 처리에 의해 제거되므로 나중에 학습하는 알고리즘의 성능 저하가 줄어든다.

특정 실시예에서, 다수의 이미지 센서는 설명된 신경망 처리와 조합하여 집합적으로 작동하여 더 넓은 작동 및 검출 엔벨로프(envelopes)를 가능하게 할 수 있으며, 예를 들어 상이한 광 감도를 갖는 센서가 함께 작동하여 높은 동적 범위 이미지를 제공할 수 있다. 다른 실시예에서, 별개의 신경망 처리 노드를 갖는 광학 또는 알고리즘 영상화 시스템의 체인이 함께 결합될 수 있다. 또 다른 실시예에서, 신경망 시스템의 훈련은 특정 영상기와 연관된 내장된(embedded) 구성요소로서 동작하는 전체로서 영상화 시스템으로부터 분리될 수 있다.

도 2는 일반적으로 신경망 및 이미지 처리 알고리즘의 사용 및 훈련을 위한 하드웨어 지원을 설명한다. 일부 실시예에서, 신경망은 일반적인 아날로그 및 디지털 이미지 처리에 적합할 수 있다. 각각의 제어 신호를 영상화 시스템(204) 및 디스플레이 시스템(206)에 송신할 수 있는 제어 및 저장 모듈(202)이 제공된다. 디스플레이 시스템(206)으로부터 프로파일링 데이터를 수신하는 동안, 영상화 시스템(204)은 처리된 이미지 데이터를 제어 및 저장 모듈(202)에 공급할 수 있다. 감독(supervised) 또는 반 감독 방식으로 신경망을 훈련하려면, 고품질 훈련 데이터가 필요하다. 이러한 데이터를 얻기 위해, 시스템(200)은 자동화된 영상화 시스템 프로파일링을 제공한다. 제어 및 저장 모듈(202)은 디스플레이 시스템(206)으로 전송될 보정 및 원시 프로파일링 데이터를 포함한다. 보정 데이터는 해상도, 초점, 또는 동적 범위를 평가하기 위한 타겟을 포함할 수 있지만 이에 국한되지 않는다. 원시 프로파일링 데이터에는 고품질 영상화 시스템(기준 시스템)에서 캡처한 자연 및 인공 장면과 절차적으로 생성된 장면(수학적 파생)이 포함될 수 있지만 이에 국한되지 않는다.

디스플레이 시스템(206)의 일 예는 고품질 전자 디스플레이이다. 디스플레이는 그 밝기가 조정되도록 할 수 있거나 또는 중립 밀도 필터와 같은 물리적 필터링 요소를 통해 확대될 수 있다. 대안적인 디스플레이 시스템은 전면 또는 후면 조명 광원과 함께 사용되는 고품질 표본 인화 필름 또는 필터링 요소를 포함할 수 있다. 어쨌든 디스플레이 시스템의 목적은 다양한 이미지 또는 이미지 시퀀스를 생성하여 영상화 시스템으로 전송하는 것이다.

프로파일링되는 영상화 시스템은 제어 및 저장 컴퓨터에 의해 프로그래밍 방식으로 제어될 수 있고 디스플레이 시스템의 출력을 영상화할 수 있도록 프로파일링 시스템에 통합된다. 조리개, 노출 시간, 및 아날로그 게인과 같은 카메라 매개변수는 다양하며 표시된 단일 이미지가 다중 노출된다. 결과적인 노출은 제어 및 저장 컴퓨터로 전송되고 훈련 목적으로 보관된다.

전체 시스템은 프로파일링 도중에 광자 "노이즈 플로어(noise floor)"가 알려지도록 제어된 조명 환경에 배치된다.

전체 시스템은 제한적인 해상도 요소가 영상화 시스템이 되도록 설정된다. 이는 영상화 시스템 센서 픽셀 피치, 디스플레이 시스템 픽셀 치수, 영상화 시스템 초점 거리, 영상화 시스템 작동 f-넘버, 센서 픽셀 수(수평 및 수직), 디스플레이 시스템 픽셀 수(수직 및 수평)를 포함하되 이에 국한되지 않는 매개변수를 고려하는 수학적 모델을 통해 달성된다. 실제로 특정 센서, 센서 제조업체 또는 유형 또는 센서의 등급(class)을 프로파일링하여 개별 센서 또는 센서 모델에 정확하게 맞춤화된 고품질 훈련 데이터를 생성할 수 있다.

다양한 유형의 신경망이 도 1a 내지 도 1g 및 도 2와 관련하여 개시된 시스템과 함께 사용될 수 있으며, 완전 컨볼루션(fully convolution), 반복(recurrent), 생성적 적대(generative adversarial) 또는 심층 컨볼루션(deep convolutional) 네트워크를 포함한다. 컨볼루션 신경망은 여기에 설명된 것과 같은 이미지 처리 애플리케이션에 특히 유용하다. 도 3에 대해 알 수 있는 바와 같이. 도 1a 내지 도 1g 및 도 2와 관련하여 논의된 바와 같은 신경 기반 센서 처리를 수행하는 컨볼루션 신경망(300)이 단일 노출 부족 RGB 이미지(310)를 입력으로 수신할 수 있다. RAW 형식이 선호되지만, 압축된 JPG 이미지는 약간의 품질 손실과 함께 사용할 수 있다. 이미지는 기존의 픽셀 연산으로 전처리될 수 있거나, 바람직하게는 최소한의 수정으로, 훈련된 컨볼루션 신경망(300)에 공급될 수 있다. 처리는 하나 또는 그 초과의 컨볼루션 레이어(312), 풀링 레이어(pooling layer; 314), 완전 연결 레이어(316)를 통해 진행될 수 있고 개선된 이미지의 RGB 출력(318)과 함께 종료한다. 작동 시, 하나 또는 그 초과의 컨볼루션 레이어가 RGB 입력에 컨볼루션 연산을 적용하여 결과를 다음 레이어(들)로 전달한다. 컨볼루션 후, 로컬 또는 글로벌 풀링 레이어는 출력을 다음 레이어의 단일 또는 소수의 노드로 결합할 수 있다. 반복된 컨볼루션 또는 컨볼루션/풀링 쌍이 가능하다. 신경 기반 센서 처리가 완료된 후, RGB 출력은 추가적인 신경망 기반 수정을 통해 글로벌 후처리를 위해 신경망으로 전달될 수 있다.

특정 유틸리티의 하나의 신경망 실시예는 완전 컨볼루션 신경망이다. 완전 컨볼루션 신경망은 일반적으로 네트워크의 끝에서 발견되는 완전-연결 레이어가 없는 컨볼루션 레이어로 구성된다. 유리하게는, 완전 컨볼루션 신경망은 이미지 크기와는 독립적이며, 어떤 크기의 이미지도 훈련 또는 밝은 점 이미지 수정을 위한 입력으로 허용된다. 완전 컨볼루션 네트워크(400)의 일 예가 도 4와 관련하여 예시된다. 데이터는 2개의 3x3 컨볼루션(패딩되지 않은 컨볼루션)의 반복적인 애플리케이션을 포함하는 수축 경로에서 처리될 수 있으며, 이들 각각은 정류된 선형 유닛(ReLU) 및 다운 샘플링을 위한 스트라이드(stride) 2와 함께 2x2 최대 풀링 연산이 후속된다. 각각의 다운 샘플링 단계에서, 특성 채널 수가 두 배로 늘어난다. 확장 경로의 모든 단계는 특성 맵의 업 샘플링에 이은 특성 채널 수를 절반으로 줄이는 2x2 컨볼루션(업 컨볼루션)으로 구성되며 축소 경로에서 해당하는 잘린(cropped) 특성 맵과 연결을 제공하며 각각 ReLU에 의해 후속되는 두 개의 3x3 컨볼루션을 포함한다. 탄성 맵 자르기는 모든 컨볼루션에서 경계 픽셀 손실을 보상한다. 최종 레이어에서 1xl 컨볼루션은 각각의 64개 구성 요소 특성 벡터를 원하는 등급의 수에 매핑하는 데 사용된다. 기술된 네트워크는 23개의 컨볼루션 레이어를 갖지만, 다른 실시예에서는 더 많거나 더 적은 컨볼루션 레이어가 사용될 수 있다. 훈련에는 확률적 구배 하강(stochastic gradient descent) 기법을 사용하여 해당 분할 맵으로 입력 이미지를 처리하는 것이 포함될 수 있다.

도 5는 한 세트의 입력에 대한 바람직한 출력을 생성하도록 매개변수가 조작될 수 있는 신경망 훈련 시스템(500)의 일 실시예를 예시한다. 네트워크 매개변수를 조작하는 한 가지 방법은 "감독 훈련(supervised training)"이다. 감독 훈련에서, 조작자는 소스/타겟 쌍(510 및 502)을 네트워크에 제공하고, 목적 함수와 결합될 때, 일부 방식(예: 역전파)에 따라 네트워크 시스템(500)의 일부 또는 모든 매개변수를 수정할 수 있다.

도 5의 설명된 실시예에서. 프로파일링 시스템, 수학적 모델, 및 공개적으로 이용 가능한 데이터 세트와 같은 다양한 소스로부터의 고품질 훈련 데이터(소스(510) 및 타겟(502) 쌍)가 네트워크 시스템(500)에 대한 입력을 위해 준비된다. 이 방법은 데이터 패키징(504)(타겟(502)으로부터) 및 데이터 패키징(512)(소스(510)으로부터)을 포함한다. 다음 단계는 람다 처리(506)(타겟(502) 및 데이터 패키징(504)으로부터) 및 람다 처리(514)(소스(510) 및 데이터 패키징(512)으로부터)를 포함한다. 유리하게는, 람다 처리는 사용 가능한 컨텍스트(context)를 람다라고 하는 선형 함수로 변환하고 이러한 선형 함수를 각각의 입력에 적용함으로써 장거리 픽셀 대 픽셀 상호작용 람다 레이어의 캡처를 허용한다. 람다 레이어는, 이미지와 같은 구조화된 대규모 입력에 적용 가능하면서 콘텐트(content)와 위치 기반 상호 작용을 모두 모델링할 수 있다. 람다 처리를 포함한 신경망 아키텍처는 ImageNet 분류, COCO 객체 감지 및 인스턴트 세그멘테이션(instant segmentation)에서 컨볼루션 신경망 처리를 훨씬 능가하는 동시에 계산적으로 더 효율적일 수 있다.

일부 실시예에서 데이터 패키징은 하나 또는 다수의 훈련 데이터 샘플(들)을 취하고, 결정된 방식에 따라 이를 정규화하고, 텐서(tensor)에서 네트워크에 대한 입력을 위해 데이터를 배열한다. 훈련 데이터 샘플은 시퀀스 또는 시간 데이터를 포함할 수 있다.

일부 실시예에서 전처리 람다를 통해 조작자는 신경망 또는 목적 함수에 대한 입력 이전에 소스 입력 또는 타겟 데이터를 수정할 수 있다. 이는 데이터를 보강하거나, 일부 방식(scheme)에 따라 텐서를 거부하거나, 텐서에 합성 노이즈를 추가하거나, 정렬 목적을 위해 데이터에 뒤틀림 및 변형을 수행하거나, 이미지 데이터에서 데이터 라벨로 변환하는 것일 수 있다.

훈련되고 있는 네트워크(516)는 적어도 하나의 입력 및 출력을 갖지만, 실제로는 각각 자신의 목적 함수를 갖는 다중 출력이 시너지 효과로 인해 유용할 수 있다는 것이 발견되었다. 예를 들어, 텐서에서 객체들을 분류하는 것이 목적인 "분류기 헤드(classifier head)" 출력을 통해 성능을 향상시킬 수 있다. 일 실시예에서, 타겟 출력 데이터(508), 소스 출력 데이터(518), 및 목적 함수(520)는 최소화될 네트워크의 손실을 함께 정의할 수 있으며, 그 값은 추가적인 훈련 또는 데이터 세트 처리에 의해 향상될 수 있다.

이해되는 바와 같이, 여기에 설명된 카메라 시스템 및 방법은 국부적으로 또는, 서버, 데스크탑 컴퓨터, 노트북, 태블릿 또는 스마트폰과 같은 장치와의 상호작용을 위해 유선 또는 무선 연결 서브-시스템으로의 연결을 통해 작동할 수 있다. 데이터 및 제어 신호는 무선 네트워크, 개인 영역 네트워크, 셀룰러 네트워크, 인터넷 또는 클라우드 매개 데이터 소스를 비롯한 다양한 외부 데이터 소스 간에 수신, 생성 또는 전송될 수 있다. 또한 로컬 데이터 소스(예: 하드 드라이브, 솔리드 스테이트 드라이브, 플래시 메모리 또는 SRAM 또는 DRAM과 같은 동적 메모리를 포함한 기타 적절한 메모리)는 사용자 지정 기본 설정 또는 프로토콜의 로컬 데이터 저장을 허용할 수 있다. 하나의 특정 실시예에서, 다수의 통신 시스템이 제공될 수 있다. 예를 들어 다이렉트 Wi-Fi 연결(802.1lb/g/n) 뿐만 아니라 별도의 4G 셀룰러 연결을 사용할 수 있다.

원격 서버 실시예로의 연결은 클라우드 컴퓨팅 환경에서도 구현될 수 있다. 클라우드 컴퓨팅은 가상화를 통해 신속하게 공급되고 최소한의 관리 노력이나 서비스 제공업체의 상호 작용으로 출시될 수 있는 구성 가능한 컴퓨팅 리소스(예: 네트워크, 서버, 스토리지, 애플리케이션, 및 서비스)의 공유 풀에 대한 유비쿼터스의 편리한 주문형 네트워크 액세스를 가능하게 하는 모델로 정의될 수 있고 그에 따라 확장된다. 클라우드 모델은 다양한 특성(예: 주문형 셀프 서비스, 광범위한 네트워크 액세스, 리소스 풀링, 빠른 탄력성, 측정된 서비스 등), 서비스 모델(예: 서비스로서의 소프트웨어("SaaS"), 서비스로서의 플랫폼("PaaS"), 서비스로서의 인프라("IaaS") 및 배포 모델(예: 사설(private) 클라우드, 커뮤니티 클라우드, 퍼블릭 클라우드, 하이브리드 클라우드 등)로 구성될 수 있다.

본 발명의 많은 수정 및 다른 실시예는 전술한 설명 및 관련 도면에 제시된 교시를 이용하는 당업자의 마음에 떠오를 것이다. 따라서, 본 발명은 개시된 특정 실시예로 제한되지 않으며, 수정 및 실시예는 첨부된 청구범위의 범위 내에 포함되도록 의도되는 것으로 이해된다. 본 발명의 다른 실시예는 여기에 구체적으로 개시되지 않은 요소/단계의 부재하에 실시될 수 있음이 또한 이해된다.

Claims

스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인 시스템으로서,
이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나에 대한 신경망 기반 결과를 처리하고 제공하도록 배열된, 제 1 신경망; 및
상기 제 1 신경망 결과를 수신하고 이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나를 더 제공하도록 배열된, 제 2 신경망;
을 포함하며,
상기 제 1 및 제 2 신경망 중 적어도 하나는 스틸 또는 비디오 카메라에 의해 지원되는 로컬 프로세서에서 데이터를 생성하는, 시스템.
제 1 항에 있어서,
상기 데이터는 스틸 이미지인, 시스템.
제 1 항에 있어서,
상기 데이터는 HDR 이미지인, 시스템.
제 1 항에 있어서,
상기 데이터는 비디오 이미지인, 시스템.
스틸 또는 비디오 카메라를 포함하는 이미지 처리 파이프라인 시스템으로서,
이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나에 대한 신경망 기반 결과를 처리하고 제공하도록 배열된 제 1 신경망을 사용하는 것; 및
상기 제 1 신경망 결과를 수신하고 이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나를 더 제공하기 위해 제 2 신경망을 배열하는 것;
을 포함하며,
상기 제 1 및 제 2 신경망 중 적어도 하나는 스틸 또는 비디오 카메라에 의해 지원되는 로컬 프로세서에서 데이터를 생성하는, 시스템.
제 5 항에 있어서,
상기 데이터는 스틸 이미지인, 방법.
제 5 항에 있어서,
상기 데이터는 HDR 이미지인, 방법.
제 5 항에 있어서,
상기 데이터는 비디오 이미지인, 방법.
이미지 처리 파이프라인 방법으로서,
스틸 또는 비디오 카메라에 대한 이미지 캡처 설정을 제공하기 위해 제 1 신경망을 사용하여 데이터를 처리하는 단계;
상기 제 1 신경망에 의해 제공되는 이미지 캡처 설정을 사용하여 캡처된 이미지에 대한 센서 처리를 제공하기 위해 제 2 신경망을 사용하는 단계;
상기 제 2 신경망에 의해 제공되는 센서 처리된 이미지에 대한 센서 글로벌 후처리를 제공하기 위해 제 3 신경망을 사용하는 단계;
상기 제 3 신경망에 의해 제공되는 전역적으로(globally) 후처리된 이미지에 대한 로컬 후처리를 제공하기 위해 제 4 신경망을 사용하는 단계; 및
상기 제 4 신경망에 의해 제공되는 국부적으로(locally) 후처리된 이미지에 대한 포트폴리오 후처리를 제공하기 위해 제 5 신경망을 사용하는 단계;
를 포함하는, 방법.
제 9 항에 있어서,
상기 데이터는 스틸 이미지인, 방법.
제 9 항에 있어서,
상기 데이터는 HDR 이미지인, 방법.
제 9 항에 있어서,
상기 데이터는 비디오 이미지인, 방법.
이미지 캡처 장치로서,
이미지 캡처 장치 동작을 제어하는 적어도 하나의 프로세서; 및
이미지 캡처 장치에 의해 지원되고 신경망 데이터를 수신하기 위해 프로세서에 연결된 적어도 하나의 신경 프로세서로서, 상기 신경 프로세서는 센서 처리, 글로벌 후처리, 및 로컬 후처리를 포함하는 군으로부터 선택된 적어도 두 개의 개별 신경망 처리 절차를 제공하기 위해 신경망 데이터를 사용하는 적어도 하나의 신경 프로세서를 포함하는, 이미지 캡처 장치.
제 13 항에 있어서,
상기 적어도 하나의 신경 프로세서(들)는
이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나에 대한 신경망 기반 결과를 처리하고 제공하도록 배열된 제 1 신경망; 및
제 1 신경망 결과를 수신하고 이미지 캡처 설정, 센서 처리, 글로벌 후처리, 로컬 후처리, 및 포트폴리오 후처리 중 적어도 하나를 더 제공하도록 구성된, 제 2 신경망;
을 지원하고,
상기 제 1 및 제 2 신경망 중 적어도 하나는 상기 이미지 캡처 장치에 의해 지원되는 로컬 프로세서에서 데이터를 생성하는, 이미지 캡처 장치.
제 14 항에 있어서,
상기 데이터는 스틸 이미지인, 시스템.
제 14 항에 있어서,
상기 데이터는 HDR 이미지인, 시스템.
제 14 항에 있어서,
상기 데이터는 비디오 이미지인, 시스템.