KR20180054709A

KR20180054709A - 무선 네트워크에서의 크라우드 소싱된 사진의 관리

Info

Publication number: KR20180054709A
Application number: KR1020187010530A
Authority: KR
Inventors: 솜뎁 마줌다르; 레건 블라이스 토월; 엠 앤서니 루이스
Original assignee: 퀄컴 인코포레이티드
Priority date: 2015-09-17
Filing date: 2016-08-02
Publication date: 2018-05-24
Also published as: JP2018531543A; US20170085774A1; CN108028890A; US9906704B2; WO2017048386A1; EP3350984A1

Abstract

지능형 카메라 네트워크는 무선 네트워크 상에서 이미지들을 협력적으로 포착한다. 네트워크는 트리거에 기초하여 이미지들을 자동으로 캡처한다. 트리거는 다른 이미지 캡처 디바이스들로부터의 메시지들을 포함할 수도 있다. 제 1 이미지 캡처 디바이스는 적어도 하나의 다른 이미지 캡처 디바이스로부터의 메시지에 기초하여 이미지를 포착하도록 트리거링된다.

Description

무선 네트워크에서의 크라우드 소싱된 사진의 관리

본 개시물의 어떤 양태들은 일반적으로 머신 러닝 (machine learning) 에 관한 것으로, 더 상세하게는, 협력적 사진촬영 (cooperative photography) 메커니즘을 통해 이미지들을 자동으로 캡처하는 것을 포함하는, 무선 네트워크 상에서 멀티미디어를 관리하는 시스템들 및 방법들에 관한 것이다.

인공 뉴런들 (예컨대, 뉴런 모델들) 의 상호접속된 그룹을 포함할 수도 있는 인공 신경 네트워크는 연산 디바이스이거나, 연산 디바이스에 의해 수행되어야 할 방법을 표현한다.

컨볼루션 신경 네트워크 (convolutional neural network) 들은 피드-포워드 인공 신경 네트워크의 타입이다. 컨볼루션 신경 네트워크들은, 수용 필드 (receptive field) 를 각각 가지며 입력 공간을 집합적으로 타일링 (tiling) 하는 뉴런들의 집합들을 포함할 수도 있다. 컨볼루션 신경 네트워크 (CNN) 들은 많은 애플리케이션들을 가진다. 특히, CNN 들은 패턴 인식 및 분류의 영역에서 폭넓게 이용되었다.

딥 신뢰 (deep belief) 네트워크들 및 딥 컨볼루션 네트워크들과 같은 딥 러닝 (deep learning) 아키텍처들은, 뉴런들의 제 1 계층의 출력이 뉴런들의 제 2 계층에 대한 입력이 되고, 뉴런들의 제 2 계층의 출력이 뉴런들의 제 3 계층에 대한 입력이 되는 등과 같은 계층화된 신경 네트워크들 아키텍처들이다. 딥 신경 네트워크들은 특징들의 계층구조를 인식하도록 훈련될 수도 있고, 따라서, 그것들은 객체 인식 애플리케이션들에서 점점 더 이용되었다. 컨볼루션 신경 네트워크들과 같이, 이 딥 러닝 아키텍처들에서의 연산은 하나 이상의 연산 체인 (computational chain) 들로 구성될 수도 있는 프로세싱 노드들의 집단 상에서 분산될 수도 있다. 이 멀티-계층화된 아키텍처들은 한 번에 하나의 계층에서 훈련될 수도 있고, 역 전파 (back propagation) 를 이용하여 미세-튜닝될 수도 있다.

다른 모델들은 또한, 객체 인식을 위하여 이용가능하다. 예를 들어, 서포트 벡터 머신 (SVM) 들은 분류를 위하여 적용될 수 있는 러닝 도구들이다. 서포트 벡터 머신들은 데이터를 범주화하는 분리 초평면 (separating hyperplane) (예컨대, 판단 경계) 을 포함한다. 초평면은 감독된 러닝에 의해 정의된다. 희망하는 초평면은 훈련 데이터의 마진을 증가시킨다. 다시 말해서, 초평면은 훈련 예들까지의 가장 큰 최소 거리를 가져야 한다.

이 해결책들은 다수의 분류 벤치마크들에 대한 우수한 결과들을 달성하지만, 그 연산 복잡도는 엄청나게 높을 수 있다. 추가적으로, 모델들의 훈련은 도전적일 수도 있다.

하나의 양태에서는, 협력적 사진촬영의 방법이 개시된다. 방법은 적어도 하나의 다른 이미지 캡처 디바이스로부터의 메시지에 적어도 부분적으로 기초하여 이미지를 포착하기 위하여 제 1 이미지 캡처 디바이스를 트리거링하는 단계를 포함한다.

또 다른 양태는 적어도 하나의 다른 이미지 캡처 디바이스로부터의 메시지에 적어도 부분적으로 기초하여 이미지를 포착하기 위하여 제 1 이미지 캡처 디바이스를 트리거링하기 위한 수단을 포함하는 협력적 사진촬영을 위한 장치를 개시한다. 장치는 또한, 이미지를 포착하기 위한 수단을 포함한다.

또 다른 양태는 메모리, 및 메모리에 결합된 적어도 하나의 프로세서를 가지는 무선 통신을 개시한다. 프로세서 (들) 는 적어도 하나의 다른 이미지 캡처 디바이스로부터의 메시지에 적어도 부분적으로 기초하여 이미지를 포착하기 위하여 제 1 이미지 캡처 디바이스를 트리거링하도록 구성된다.

또 다른 양태는 협력적 사진촬영을 위한 비-일시적 컴퓨터-판독가능 저장 매체를 개시한다. 컴퓨터-판독가능 매체는 그 상에서 레코딩된 비-일시적 프로그램 코드를 가지고, 상기 프로그램 코드는, 프로세서 (들) 에 의해 실행될 경우, 프로세서 (들) 로 하여금, 적어도 하나의 다른 이미지 캡처 디바이스로부터의 메시지에 적어도 부분적으로 기초하여 이미지를 포착하기 위하여 제 1 이미지 캡처 디바이스를 트리거링하는 동작을 수행하게 한다.

개시물의 추가적인 특징들 및 장점들이 이하에서 설명될 것이다. 이 개시물은 본 개시물의 동일한 목적들을 수행하기 위한 다른 구조들을 수행하거나 설계하기 위한 기초로서 용이하게 사용될 수도 있다는 것이 당해 분야의 당업자들에 의해 인식되어야 한다. 또한, 이러한 등가적인 구성들은 첨부된 청구항들에서 기재된 바와 같은 개시물의 교시사항들로부터 이탈하지 않는다는 것이 당해 분야의 당업자들에 의해 실현되어야 한다. 그 편성 및 동작 방법의 양자에 대하여, 개시물의 특성인 것으로 믿어지는 신규한 특징들은 추가의 목적들 및 장점들과 함께, 동반된 도면들과 관련하여 고려될 때에 다음의 설명으로부터 더 양호하게 이해될 것이다. 그러나, 도면들의 각각은 본 개시물의 제한들의 정의로서 의도된 것이 아니라, 오직 예시 및 설명의 목적들을 위하여 제공된다는 것이 명백히 이해되어야 한다.

본 개시물의 특징들, 본질, 및 장점들은 유사한 참조 부호들이 이에 대응하여 전반에 걸쳐 식별하는 도면들과 함께 취해질 때에 이하에서 기재된 상세한 설명으로부터 더 분명해질 것이다.
도 1 은 본 개시물의 어떤 양태들에 따라, 범용 프로세서를 포함하는 시스템-온-칩 (SOC) 을 이용하여 신경 네트워크를 설계하는 일 예의 구현예를 예시한다.
도 2 는 본 개시물의 양태들에 따라 시스템의 일 예의 구현예를 예시한다.
도 3a 는 본 개시물의 양태들에 따라 신경 네트워크를 예시하는 도면이다.
도 3b 는 본 개시물의 양태들에 따라 예시적인 딥 컨볼루션 네트워크 (DCN) 를 예시하는 블록도이다.
도 4 는 본 개시물의 양태들에 따라 인공 지능 (AI) 기능들을 모듈화할 수도 있는 예시적인 소프트웨어 아키텍처를 예시하는 블록도이다.
도 5 는 본 개시물의 양태들에 따라 스마트폰 상에서의 AI 애플리케이션의 실행-시간 (run-time) 동작을 예시하는 블록도이다.
도 6a 는 본 개시물의 양태들에 따라 스마트폰 상에서 멀티미디어를 관리하기 위한 AI 애플리케이션의 실행-시간 동작을 예시하는 블록도이다.
도 6b 는 본 개시물의 양태들에 따라 협력적 사진촬영을 위한 동작을 예시하는 블록도이다.
도 7a 내지 도 7b 는 본 개시물의 양태들에 따라 이미지들을 순위화 (rank) 하기 위한 DCN 의 훈련을 예시하는 블록도들이다.
도 7c 는 본 개시물의 양태들에 따라 이미지들을 순위화하는 훈련된 DCN 을 예시하는 블록도이다.
도 8 은 본 개시물의 양태들에 따라 멀티미디어를 관리하기 위한 방법을 예시한다.

이하에서 기재된 상세한 설명은 첨부된 도면들과 관련하여, 다양한 구성들의 설명으로서 의도되고, 본원에서 설명된 개념들이 실시될 수도 있는 유일한 구성들을 표현하도록 의도된 것이 아니다. 상세한 설명은 다양한 개념들의 철저한 이해를 제공하는 목적을 위한 특정 세부사항들을 포함한다. 그러나, 이 개념들은 이 특정 세부사항들 없이 실시될 수도 있다는 것이 당해 분야의 당업자들에게 명백할 것이다. 일부 사례들에서는, 이러한 개념들을 모호하게 하는 것을 회피하기 위하여, 잘 알려진 구조들 및 컴포넌트들이 블록도 형태로 도시되어 있다.

교시사항들에 기초하여, 당해 분야의 당업자는 개시물의 범위가, 개시물의 임의의 다른 양태에 관계 없이 이와 조합하여 구현되든지 간에, 개시물의 임의의 양태를 커버하도록 의도된다는 것을 인식해야 한다. 예를 들어, 기재된 임의의 수의 양태들을 이용하여 장치가 구현될 수도 있거나 방법이 실시될 수도 있다. 게다가, 개시물의 범위는 기재된 개시물의 다양한 양태들에 추가하여, 또는 이 다양한 양태들 이외에, 다른 구조, 기능성, 또는 구조 및 기능성을 이용하여 실시된 이러한 장치 또는 방법을 커버하도록 의도된다. 개시된 개시물의 임의의 양태는 청구항의 하나 이상의 구성요소들에 의해 구체화될 수도 있다는 것이 이해되어야 한다.

단어 "예시적" 은 "예, 사례, 또는 예시로서 작용함" 을 의미하기 위하여 본원에서 이용된다. "예시적" 으로서 본원에서 설명된 임의의 양태는 다른 양태들에 비해 바람직하거나 유익한 것으로 반드시 해석되어야 하는 것은 아니다.

특정한 양태들이 본원에서 설명되지만, 이 양태들의 많은 변형들 및 치환들은 개시물의 범위 내에 속한다. 바람직한 양태들의 일부 이득들 및 장점들이 언급되지만, 개시물의 범위는 특정한 이득들, 용도들, 또는 목적들에 제한되도록 의도된 것이 아니다. 오히려, 개시물의 양태들은 상이한 기술들, 시스템 구성들, 네트워크들, 및 프로토콜들에 폭넓게 적용가능하도록 의도되며, 이들의 일부는 바람직한 양태들의 도면들 및 다음의 설명에서 예로서 예시되어 있다. 상세한 설명 및 도면들은 제한하는 것이 아니라 개시물의 단지 예시이고, 개시물의 범위는 첨부된 청구항들 및 그 등가물들에 의해 정의된다.

본 개시물의 양태들은 협력적 사진촬영을 위한 시스템들 및 방법들, 그리고 특히, 사진들을 자동으로 캡처하기 위한 트리거들에 관한 것이다. 추가적으로, 임의적인 양태들은 (가입 기반 네트워크를 포함하는) 무선 네트워크 상에서 캡처된 픽처 및 이미지 파일들을 관리하는 것에 관한 것이다. 포착된 이미지들/사진들은 일반적인 순위화들, 사용자 정의된 순위화 기준들, 및 다른 기준들에 기초하여 네트워크 상에서 순위화된다. 높은 순위화의 사진들은 사용자 디바이스들 (예컨대, 이동 디바이스들) 로 분배되고, 이차적 순위화가 각각의 사용자의 디바이스에서 발생한다. 이차적 순위화는 사용자 기준들에 의해 결정된다.

도 1 은 본 개시물의 어떤 양태들에 따라 범용 프로세서 (CPU) 또는 멀티-코어 범용 프로세서들 (CPU 들) (102) 을 포함할 수도 있는 시스템-온-칩 (SOC) (100) 을 이용하는 전술된 협력적 사진촬영 시스템 및/또는 멀티미디어 관리 시스템의 일 예의 구현예 (100) 를 예시한다. 변수들 (예컨대, 신경 신호들 및 시냅틱 가중치 (synaptic weight) 들), 연산 디바이스 (예컨대, 가중치들을 갖는 신경 네트워크) 와 연관된 시스템 파라미터들, 지연들, 주파수 빈 (frequency bin) 정보, 및 태스크 정보는 신경 프로세싱 유닛 (neural processing unit; NPU) (108) 와 연관된 메모리 블록에서, CPU (102) 와 연관된 메모리 블록에서, 그래픽 프로세싱 유닛 (GPU) (104) 과 연관된 메모리 블록에서, 디지털 신호 프로세서 (DSP) (106) 와 연관된 메모리 블록에서, 전용 메모리 블록 (118) 에서 저장될 수도 있거나, 다수의 블록들에 걸쳐 분산될 수도 있다. 범용 프로세서 (102) 에서 실행된 명령들은 CPU (102) 와 연관된 프로그램 메모리로부터 로딩될 수도 있거나, 전용 메모리 블록 (118) 으로부터 로딩될 수도 있다.

SOC (100) 는 또한, GPU (104), DSP (106), 4 세대 롱텀 에볼루션 (4G LTE) 접속성, 비허가 Wi-Fi 접속성, USB 접속성, 블루투스 접속성 등을 포함할 수도 있는 접속성 블록 (110), 및 예를 들어, 제스처들을 검출할 수도 있고 인식할 수도 있는 멀티미디어 프로세서 (112) 와 같은, 특정 기능들에 맞추어진 추가적인 프로세싱 블록들을 포함할 수도 있다. 하나의 구현예에서, NPU 는 CPU, DSP, 및/또는 GPU 에서 구현된다. SOC (100) 는 또한, 센서 프로세서 (114), 이미지 신호 프로세서 (ISP) 들, 및/또는 글로벌 위치확인 시스템을 포함할 수도 있는 내비게이션 (120) 을 포함할 수도 있다.

SOC 는 ARM 명령 세트에 기초할 수도 있다. 본 개시물의 양태에서, 범용 프로세서 (102) 내로 로딩된 명령들은 무선 네트워크에서 다수의 사용자들로부터 수집된 사진들을 순위화하기 위한 코드를 포함할 수도 있다. 명령들은 또한, 사용자 선호도들 및 순위화의 제 2 세트에 기초하여 사진들을 사용자들에게 분배하기 위한 코드를 포함할 수도 있다. 추가적으로, 범용 프로세서 (102) 는 적어도 하나의 다른 이미지 캡처 디바이스 (예컨대, 또 다른 카메라) 로부터의 메시지에 기초하여 이미지를 포착하기 위하여 이미지 캡처 디바이스를 트리거링하기 위한 코드를 포함할 수도 있다.

도 2 는 본 개시물의 어떤 양태들에 따라 시스템 (200) 의 일 예의 구현예를 예시한다. 도 2 에서 예시된 바와 같이, 시스템 (200) 은 본원에서 설명된 방법들의 다양한 동작들을 수행할 수도 있는 다수의 로컬 프로세싱 유닛들 (202) 을 가질 수도 있다. 각각의 로컬 프로세싱 유닛 (202) 은 로컬 상태 메모리 (204), 및 신경 네트워크의 파라미터들을 저장할 수도 있는 로컬 파라미터 메모리 (206) 를 포함할 수도 있다. 게다가, 로컬 프로세싱 유닛 (202) 은 로컬 모델 프로그램을 저장하기 위한 로컬 (뉴런) 모델 프로그램 (LMP) 메모리 (208), 로컬 러닝 프로그램을 저장하기 위한 로컬 러닝 프로그램 (LLP) 메모리 (210), 및 로컬 접속 메모리 (212) 를 가질 수도 있다. 또한, 도 2 에서 예시된 바와 같이, 각각의 로컬 프로세싱 유닛 (202) 은 로컬 프로세싱 유닛의 로컬 메모리들을 위한 구성들을 제공하기 위한 구성 프로세서 유닛 (214) 과 인터페이싱할 수도 있고, 로컬 프로세싱 유닛들 (202) 사이의 라우팅을 제공하는 라우팅 접속 프로세싱 유닛 (216) 과 인터페이싱할 수도 있다.

딥 러닝 아키텍처들은 각각의 계층에서의 추상화의 연속적으로 더 높은 레벨들에서 입력들을 표현하는 것을 러닝함으로써 객체 인식 태스크를 수행할 수도 있고, 이것에 의해, 입력 데이터의 유용한 특징 표현을 구축할 수도 있다. 이러한 방법으로, 딥 러닝은 전통적인 머신 러닝의 주요한 병목 현상을 해결한다. 딥 러닝의 출현 이전에, 객체 인식 문제에 대한 머신 러닝 접근법은 아마도 피상적 분류기 (shallow classifier) 와 조합하여, 인간 설계된 특징들에 과도하게 의존하였을 수도 있다. 피상적 분류기는 입력이 어느 클래스에 속하는지를 예측하기 위하여, 특징 벡터 컴포넌트들의 가중화된 합계가 임계치와 비교될 수도 있는 예를 들어, 2-클래스 선형 분류기일 수도 있다. 인간 설계된 특징들은 도메인 전문지식을 갖는 공학자들에 의해 특정 문제 도메인에 맞추어진 템플릿 (template) 들 또는 커널 (kernel) 들일 수도 있다. 대조적으로, 딥 러닝 아키텍처들은, 인간 공학자가 설계할 수도 있지만, 훈련을 통하는 것과 유사한 특징들을 표현하는 것을 러닝할 수도 있다. 또한, 딥 네트워크는 인간이 고려하지 않았을 수도 있는 새로운 타입들의 특징들을 표현하고 인식하는 것을 러닝할 수도 있다.

딥 러닝 아키텍처는 특징들의 계층구조를 러닝할 수도 있다. 예를 들어, 시각적 데이터가 제시될 경우, 제 1 계층은 입력 스트림에서 에지 (edge) 들과 같은 간단한 특징들을 인식하는 것을 러닝할 수도 있다. 청각적 데이터가 제시될 경우, 제 1 계층은 특정 주파수들에서의 스펙트럼 파워 (spectral power) 를 인식하는 것을 러닝할 수도 있다. 제 1 계층의 출력을 입력으로서 취하는 제 2 계층은 시각적 데이터를 위한 간단한 형상들 또는 청각적 데이터를 위한 사운드들의 조합들과 같은 특징들의 조합들을 인식하는 것을 러닝할 수도 있다. 더 높은 계층들은 시각적 데이터에서의 복잡한 형상들 또는 청각적 데이터에서의 단어들을 표현하는 것을 러닝할 수도 있다. 더욱 더 높은 계층들은 공통의 시각적 객체들 또는 발화된 어구 (spoken phrase) 들을 인식하는 것을 러닝할 수도 있다.

딥 러닝 아키텍처들은 자연 계층적 구조를 가지는 문제들에 적용될 때에 특히 양호하게 수행할 수도 있다. 예를 들어, 동력식 차량들의 분류는 휠들, 윈드실드들, 및 다른 특징들을 인식하기 위한 최초의 러닝으로부터 이익을 얻을 수도 있다. 이 특징들은 자동차들, 트럭들, 및 비행기들을 인식하기 위하여 상이한 방법들로 더 높은 계층들에서 조합될 수도 있다.

신경 네트워크들은 다양한 접속성 패턴들로 설계될 수도 있다. 피드-포워드 네트워크들에서, 정보는 더 낮은 것으로부터 더 높은 계층들로 전달되고, 소정의 계층에서의 각각의 뉴런은 더 높은 계층들에서의 뉴런들로 통신한다. 계층적 표현은 위에서 설명된 바와 같이, 피드-포워드 네트워크의 연속적인 계층들에서 구축될 수도 있다. 신경 네트워크들은 또한, 재귀적 또는 피드백 (또한 탑-다운 (top-down) 으로 칭해짐) 접속들을 가질 수도 있다. 재귀적 접속에서, 소정의 계층에서의 뉴런으로부터의 출력은 동일한 계층에서의 또 다른 뉴런으로 통신된다. 재귀적 아키텍처는 정시에 펼쳐지는 패턴들을 인식함에 있어서 도움이 될 수도 있다. 소정의 계층에서의 뉴런으로부터 더 낮은 계층에서의 뉴런으로의 접속은 피드백 (또는 탑-다운) 접속으로 칭해진다. 많은 피드백 접속들을 갖는 네트워크는 하이 레벨 (high level) 개념의 인식이 입력의 로우-레벨 특징들을 구별함에 있어서 보조할 수도 있을 때에 도움이 될 수도 있다.

도 3a 를 참조하면, 신경 네트워크의 계층들 사이의 접속들은 완전히-접속 (302) 될 수도 있거나, 국소적으로 접속 (304) 될 수도 있다. 완전히 접속된 네트워크 (302) 에서, 소정의 계층에서의 뉴런은 그 출력을 다음 계층에서의 매 뉴런으로 통신할 수도 있다. 대안적으로, 국소적으로 접속된 네트워크 (304) 에서, 소정의 계층에서의 뉴런은 다음 계층에서의 제한된 수의 뉴런들에 접속될 수도 있다. 컨볼루션 네트워크 (306) 는 국소적으로 접속될 수도 있고, 또한, 소정의 계층에서의 각각의 뉴런과 연관된 접속 강도들이 공유 (예컨대, 308) 되는 특수한 경우이다. 더 일반적으로, 네트워크의 국소적으로 접속된 계층은 계층에서의 각각의 뉴런이 동일하거나 유사한 접속성 패턴을 가지도록, 그러나, 상이한 값들을 가질 수도 있는 접속들 강도들 (예컨대, 310, 312, 314, 및 316) 로 구성될 수도 있다. 소정의 영역에서의 더 높은 계층 뉴런들이 네트워크에 대한 총 입력의 한정된 부분의 성질들에 대한 훈련을 통해 튜닝되는 입력들을 수신할 수도 있으므로, 국소적으로 접속된 접속성 패턴은 더 높은 계층에서의 공간적으로 별개의 수용 필드들을 야기시킬 수도 있다.

국소적으로 접속된 신경 네트워크들은 입력들의 공간적 로케이션이 의미 있는 문제들에 양호하게 적합할 수도 있다. 예를 들어, 자동차-장착된 카메라로부터 시각적 특징들을 인식하도록 설계된 네트워크 (300) 는 이미지의 하부 대 상부 부분과의 그 연관성에 따라 상이한 성질들을 갖는 높은 계층 뉴런들을 개발할 수도 있다. 이미지의 하부 부분과 연관된 뉴런들은 예를 들어, 차선 표기들을 인식하는 것을 러닝할 수도 있는 반면, 이미지의 하부 부분과 연관된 뉴런들은 신호등들, 교통 표지들 등을 인식하는 것을 러닝할 수도 있다.

딥 컨볼루션 네트워크 (DCN) 는 감독된 러닝으로 훈련될 수도 있다. 훈련하는 동안, DCN 은 속도 제한 표지의 크롭핑된 이미지와 같은 이미지 (326) 를 제시받을 수도 있고, 그 다음으로, "순방향 전달 (forward pass)" 은 출력 (328) 을 생성하기 위하여 연산될 수도 있다. 출력 (328) 은 "표지", "60", 및 "100" 과 같은 특징들에 대응하는 값들의 벡터일 수도 있다. 네트워크 설계자는 DCN 이 출력 특징 벡터에서의 뉴런들의 일부에 대한 높은 점수, 예를 들어, 훈련되었던 네트워크 (300) 에 대한 출력 (328) 에서 도시된 바와 같은 "표지" 및 "60" 에 대응하는 것들을 출력하는 것을 원할 수도 있다. 훈련하기 전에, DCN 에 의해 생성된 출력은 올바르지 않을 가능성이 있고, 따라서, 에러가 실제적인 출력과 타겟 출력 사이에서 계산될 수도 있다. 그 다음으로, DCN 의 가중치들은 DCN 의 출력 점수들이 타겟과 더 근접하게 정렬되도록 조절될 수도 있다.

가중치들을 적당하게 조절하기 위하여, 러닝 알고리즘은 가중치들에 대한 그래디언트 벡터 (gradient vector) 를 연산할 수도 있다. 그래디언트는 가중치가 사소하게 조절되었을 경우에 에러가 증가시키거나 감소시킬 양을 표시할 수도 있다. 상부 계층에서, 그래디언트는 마지막에서 두 번째 계층에서의 활성화된 뉴런 및 출력 계층에서의 뉴런을 접속하는 가중치의 값에 직접적으로 대응할 수도 있다. 더 낮은 계층들에서, 그래디언트는 가중치들의 값과, 더 높은 계층들의 연산된 에러 그래디언트들에 종속될 수도 있다. 그 다음으로, 가중치들은 에러를 감소시키도록 조절될 수도 있다. 가중치들을 조절하는 이 방식은 그것이 신경 네트워크를 통한 "역방향 전달" 을 포함하므로 "역 전파" 로서 지칭될 수도 있다.

실제적으로, 가중치들의 에러 그래디언트는 작은 수의 예들에 대하여 계산될 수도 있어서, 계산된 그래디언트는 진정한 에러 그래디언트를 근사화한다. 이 근사화 방법은 확률론적 그래디언트 하강 (stochastic gradient descent) 으로서 지칭될 수도 있다. 확률론적 그래디언트 하강은 전체 시스템의 달성가능한 에러 레이트가 감소하는 것이 정지하였을 때까지, 또는 에러 레이트가 타겟 레벨에 도달하였을 때까지 반복될 수도 있다.

러닝한 후에, DCN 은 새로운 이미지들 (326) 을 제시받을 수도 있고, 네트워크를 통한 순방향 전달은 DCN 의 추론 또는 예측으로 고려될 수도 있는 출력 (328) 을 산출할 수도 있다.

딥 신뢰 네트워크 (DBN) 들은 은닉된 노드들의 다수의 계층들을 포함하는 확률적 모델들이다. DBN 들은 훈련 데이터 세트들의 계층적 표현을 추출하기 위하여 이용될 수도 있다. DBN 은 제한된 볼쯔만 머신 (Restricted Boltzmann Machine; RBM) 들의 계층들을 적층함으로써 획득될 수도 있다. RBM 은 입력들의 세트에 대한 확률 분포를 러닝할 수 있는 인공 신경 네트워크의 타입이다. RBM 들은 각각의 입력이 범주화되어야 하는 클래스에 대한 정보의 부재 시에 확률 분포를 러닝할 수 있으므로, RBM 들은 비감독된 러닝에서 종종 이용된다. 하이브리드의 비감독된 및 감독된 패러다임을 이용하면, DBN 의 하부 RBM 들은 비감독된 방식으로 훈련될 수도 있고 특징 추출기들로서 작용할 수도 있고, 상부 RBM 은 (이전의 계층 및 타겟 클래스들로부터의 입력들의 공동 분포 상에서) 감독된 방식으로 훈련될 수도 있고 분류기로서 작용할 수도 있다.

딥 컨볼루션 네트워크 (DCN) 들은 추가적인 풀링 (pooling) 및 정규화 (normalization) 계층들로 구성된 컨볼루션 네트워크들의 네트워크들이다. DCN 들은 많은 태스크들에 대한 최신 기술의 성능을 달성하였다. DCN 들은 입력 및 출력 타겟들의 양자가 다수의 견본 (exemplar) 들에 대하여 알려져 있고 그래디언트 하강 방법들의 이용에 의해 네트워크의 가중치들을 수정하기 위하여 이용되는 감독된 러닝을 이용하여 훈련될 수 있다.

DCN 들은 피드-포워드 네트워크들일 수도 있다. 게다가, 위에서 설명된 바와 같이, DCN 의 제 1 계층에서의 뉴런으로부터 다음의 더 높은 계층에서의 뉴런들의 그룹으로의 접속들은 제 1 계층에서의 뉴런들에 걸쳐 공유된다. DCN 들의 피드-포워드 및 공유된 접속들은 고속 프로세싱을 위하여 활용될 수도 있다. DCN 의 연산 부담은 재귀적 또는 피드백 접속들을 포함하는 유사한 크기의 신경 네트워크의 그것보다 예를 들어, 훨씬 더 작을 수도 있다.

컨볼루션 네트워크의 각각의 계층의 프로세싱은 공간적으로 불변인 템플릿 또는 기저부 투영으로 고려될 수도 있다. 입력이 컬러 이미지의 적색, 녹색, 및 청색 채널들과 같은 다수의 채널들로 먼저 분해될 경우, 그 입력에 대해 훈련된 컨볼루션 네트워크는 이미지의 축들에 따른 2 개의 공간적 차원들 및 컬러 정보를 캡처하는 제 3 차원을 갖는 3 차원으로 고려될 수도 있다. 컨볼루션 접속들의 출력들은 후속 계층 (318, 320, 및 322) 에서 특징 맵을 형성하는 것으로 고려될 수도 있고, 특징 맵 (예컨대, 320) 의 각각의 엘리먼트는 이전의 계층 (예컨대, 318) 에서의 뉴런들의 범위로부터, 그리고 다수의 채널들의 각각으로부터 입력을 수신한다. 특징 맵에서의 값들은 교정 (rectification) 과 같은 비-선형성, max(0,x) 으로 추가로 프로세싱될 수도 있다. 인접한 뉴런들로부터의 값들은 추가로 풀링될 수도 있고 (324), 이것은 다운 샘플링에 대응하고, 추가적인 로컬 불변성 및 차원성 감소를 제공할 수도 있다. 백색화 (whitening) 에 대응하는 정규화는 또한, 특징 맵에서의 뉴런들 사이의 측방향 억제 (lateral inhibition) 를 통해 적용될 수도 있다.

딥 러닝 아키텍처들의 성능은 더 많은 라벨링된 데이터 포인트들이 이용가능해질 때, 또는 연산력이 증가할 때에 증가할 수도 있다. 최신 딥 신경 네트워크들은 단지 15 년 전에 전형적인 연구자에 의해 이용가능하였던 것보다 더 큰 수천 배인 컴퓨팅 자원들로 일상적으로 훈련된다. 새로운 아키텍처들 및 훈련 패러다임들은 딥 러닝의 성능을 추가로 상승시킬 수도 있다. 교정된 선형 유닛들은 소실 그래디언트 (vanishing gradient) 들로서 알려진 훈련 쟁점을 감소시킬 수도 있다. 새로운 훈련 기법들은 오버-피팅 (over-fitting) 을 감소시킬 수도 있고, 이에 따라, 더 큰 모델들이 더 양호한 일반화를 달성하는 것을 가능하게 할 수도 있다. 캡슐화 (encapsulation) 기법들은 소정의 수용 필드에서 데이터를 추상화 (abstract) 할 수도 있고, 전체적인 성능을 추가로 상승시킬 수도 있다.

도 3b 는 예시적인 딥 컨볼루션 네트워크 (350) 를 예시하는 블록도이다. 딥 컨볼루션 네트워크 (350) 는 접속성 및 가중치 공유에 기초한 다수의 상이한 타입들의 계층들을 포함할 수도 있다. 도 3b 에서 도시된 바와 같이, 예시적인 딥 컨볼루션 네트워크 (350) 는 다수의 컨볼루션 블록들 (예컨대, C1 및 C2) 을 포함한다. 컨볼루션 블록들의 각각은 컨볼루션 계층, 정규화 계층 (LNorm), 및 풀링 계층으로 구성될 수도 있다. 컨볼루션 계층들은 특징 맵을 생성하기 위하여 입력 데이터에 적용될 수도 있는 하나 이상의 컨볼루션 필터들을 포함할 수도 있다. 오직 2 개의 컨볼루션 블록들이 도시되어 있지만, 본 개시물은 그렇게 제한하지 않고, 그 대신에, 임의의 수의 컨볼루션 블록들이 설계 선호도에 따라 딥 컨볼루션 네트워크 (350) 내에 포함될 수도 있다. 정규화 계층은 컨볼루션 필터들의 출력을 정규화하기 위하여 이용될 수도 있다. 예를 들어, 정규화 계층은 백색화 또는 측방향 억제를 제공할 수도 있다. 풀링 계층은 불변성 및 차원성 감소를 위하여 공간에 대한 다운 샘플링 어그리게이션 (down sampling aggregation) 을 제공할 수도 있다.

딥 컨볼루션 네트워크의 예를 들어, 병렬 필터 뱅크들은 높은 성능 및 낮은 전력 소비를 달성하기 위하여, 임의적으로 ARM 명령 세트에 기초하여, SOC (100) 의 CPU (102) 또는 GPU (104) 상에 로딩될 수도 있다. 대안적인 실시형태들에서, 병렬 필터 뱅크들은 SOC (100) 의 DSP (106) 또는 ISP (116) 상에 로딩될 수도 있다. 게다가, DCN 은 센서들 (114) 및 내비게이션 (120) 에 전용된 프로세싱 블록들과 같은, SOC 상에 존재할 수도 있는 다른 프로세싱 블록들을 액세스할 수도 있다.

딥 컨볼루션 네트워크 (350) 는 또한, 하나 이상의 완전히 접속된 계층들 (예컨대, FC1 및 FC2) 을 포함할 수도 있다. 딥 컨볼루션 네트워크 (350) 는 로지스틱 회귀 (logistic regression; LR) 계층을 더 포함할 수도 있다. 딥 컨볼루션 네트워크 (350) 의 각각의 계층 사이에는, 업데이트되어야 하는 가중치들 (도시되지 않음) 이 있다. 각각의 계층의 출력은 제 1 컨볼루션 블록 (C1) 에서 공급된 입력 데이터 (예컨대, 이미지들, 오디오, 비디오, 센서 데이터, 및/또는 다른 입력 데이터) 로부터의 계층적 특징 표현들을 러닝하기 위하여 딥 컨볼루션 네트워크 (350) 에서의 연속 계층의 입력으로서 작용할 수도 있다.

도 4 는 인공 지능 (AI) 기능들을 모듈화할 수도 있는 예시적인 소프트웨어 아키텍처 (400) 를 예시하는 블록도이다. 아키텍처를 이용하면, SOC (420) 의 다양한 프로세싱 블록들 (예를 들어, CPU (422), DSP (424), GPU (426), 및/또는 NPU (428)) 로 하여금, 애플리케이션 (402) 의 실행-시간 동작 동안의 연산들을 지원하는 것을 수행하게 할 수도 있는 애플리케이션들 (402) 이 설계될 수도 있다.

AI 애플리케이션 (402) 은 디바이스가 현재 동작하는 로케이션을 표시하는 장면의 검출 및 인식을 예를 들어, 제공할 수도 있는 사용자 공간 (404) 에서 정의된 함수들을 호출하도록 구성될 수도 있다. AI 애플리케이션 (402) 은 인식된 장면이 사무실, 강당, 식당, 또는 호수와 같은 실외 설정인지 여부에 따라, 마이크로폰 및 카메라를 상이하게 예를 들어, 구성할 수도 있다. AI 애플리케이션 (402) 은 현재의 장면의 추정치를 제공하기 위하여 SceneDetect 애플리케이션 프로그래밍 인터페이스 (API) (406) 에서 정의된 라이브러리와 연관된 컴파일링된 프로그램 코드에 대한 요청을 행할 수도 있다. 이 요청은 예를 들어, 비디오 및 위치결정 데이터에 기초하여 장면 추정치들을 제공하도록 구성된 딥 신경 네트워크의 출력에 궁극적으로 의존할 수도 있다.

실행시간 프레임워크의 컴파일링된 코드일 수도 있는 실행-시간 엔진 (408) 은 AI 애플리케이션 (402) 에 의해 추가로 액세스가능할 수도 있다. AI 애플리케이션 (402) 은 실행-시간 엔진으로 하여금, 예를 들어, 특정한 시간 간격에서의, 또는 애플리케이션의 사용자 인터페이스에 의해 검출된 이벤트에 의해 트리거링된 장면 추정치를 요청하게 할 수도 있다. 장면을 추정하게 될 때, 실행-시간 엔진은 결국, 신호를, SOC (420) 상에서 작동되는 리눅스 커널 (Linux Kernel) (412) 과 같은 오퍼레이팅 시스템 (410) 으로 전송할 수도 있다. 오퍼레이팅 시스템 (410) 은 결국, 연산이 CPU (422), DSP (424), GPU (426), NPU (428), 또는 그 일부 조합 상에서 수행되게 할 수도 있다. CPU (422) 는 오퍼레이팅 시스템에 의해 직접적으로 액세스될 수도 있고, 다른 프로세싱 블록들은 DSP (424), GPU (426), 또는 NPU (428) 를 위한 구동기 (414 내지 418) 와 같은 구동기를 통해 액세스될 수도 있다. 예시적인 예에서, 딥 신경 네트워크는 CPU (422) 및 GPU (426) 와 같은, 프로세싱 블록들의 조합 상에서 작동되도록 구성될 수도 있거나, 존재할 경우, NPU (428) 상에서 작동될 수도 있다.

도 5 는 스마트폰 (502) 상에서의 AI 애플리케이션의 실행-시간 동작 (500) 을 예시하는 블록도이다. AI 애플리케이션은 이미지 (506) 의 포맷을 변환하고 그 다음으로, 이미지 (508) 를 크롭핑하고, 및/또는 크기조절 (resize) 하도록 (예를 들어, JAVA 프로그래밍 언어를 이용하여) 구성될 수도 있는 프리-프로세스 (pre-process) 모듈 (504) 을 포함할 수도 있다. 그 다음으로, 프리-프로세싱된 이미지는 시각적 입력에 기초하여 장면들을 검출하고 분류하도록 (예를 들어, C 프로그래밍 언어를 이용하여) 구성될 수도 있는 SceneDetect 백엔드 엔진 (Backend Engine) (512) 을 포함하는 분류 애플리케이션 (510) 으로 통신될 수도 있다. SceneDetect 백엔드 엔진 (512) 은 스케일링 (516) 및 크롭핑 (518) 에 의해 이미지를 추가로 프리-프로세싱 (514) 하도록 구성될 수도 있다. 예를 들어, 이미지는 결과적인 이미지가 224 픽셀들 x 224 픽셀들이 되도록 스케일링될 수도 있고 크롭핑될 수도 있다. 이 차원들은 신경 네트워크의 입력 차원들로 맵핑할 수도 있다. 신경 네트워크는 SOC (100) 의 다양한 프로세싱 블록들로 하여금, 딥 신경 네트워크로 이미지 픽셀들을 추가로 프로세싱하게 하기 위하여 딥 신경 네트워크 블록 (520) 에 의해 구성될 수도 있다. 그 다음으로, 딥 신경 네트워크의 결과들은 분류 애플리케이션 (510) 에서 임계화 (522) 될 수도 있고 지수 평탄화 블록 (524) 을 통과하게 될 수도 있다. 그 다음으로, 평탄화된 결과들은 스마트폰 (502) 의 설정들 및/또는 디스플레이의 변경을 야기시킬 수도 있다.

크라우드 소싱된 사진촬영의 관리

본 개시물의 양태들은 이미지들을 협력적으로 포착하는 지능형 카메라 네트워크에 관한 것이다. 특히, 네트워크는 다른 이미지 캡처 디바이스들로부터의 메시지들을 포함할 수도 있는 트리거에 기초하여 이미지들을 자동으로 캡처하도록 구성된다. 추가적으로, 네트워크는 "베스트 (best)" 이미지들을 촬영하도록 구성된다. 네트워크는 임의적으로, 동일한 이벤트로부터 촬영된 크라우드-소싱된 픽처들을 분배할 수도 있다. 하나의 양태는 다수의 사람들/디바이스들이 픽처들을 촬영하고 있는 이벤트의 "베스트" 이미지들을 크라우드 소싱하는 것을 포함한다. 예를 들어, 축구 이벤트와 같은, 많은 상이한 사람들과의 이벤트에서, 본 개시물의 양태들은 특정한 사용자에 대한 베스트 사진들을 사용자들에게 제공한다. 예를 들어, 축구 선수가 골을 득점하고 있을 경우, 축구 경기장의 한 쪽의 팬은 경기장의 반대 쪽의 팬보다 더 양호한 뷰 포인트를 가질 수도 있고 더 양호한 사진을 캡처할 수도 있다. 본 개시물의 양태들은 팬들이 골을 득점하는 선수의 더 양호한 사진의 복사본을 획득하는 것을 가능하게 한다.

도 6a 는 멀티미디어 관리 시스템 (600) 의 일 예의 동작을 예시하는 블록도이다. 블록 (602) 에서, 사용자는 사진 공유 스트림 또는 서비스에 가입하거나 참여한다. 스트림 또는 서비스는 무료일 수도 있거나, 요금 기반일 수도 있다. 예를 들어, 다운로딩된 각각의 사진에 대한 요금이 있을 수도 있다. 일부 경우들에는, 어떤 사람들, 예컨대, 전문가들에 의해 촬영된 사진들에 대하여 할증이 청구될 수 있다. 하나의 양태에서는, 가입 공유 서비스가 사용된다. 서비스는 사용자 디바이스 (예컨대, 스마트폰) 상의 소프트웨어 애플리케이션과 연관될 수도 있다. 블록 (604) 에서는, 사진들이 포착된다. 하나의 양태에서, 사진들은 자동으로 포착된다. 시스템 (600) 은 사용자 디바이스가 이미지가 "흥미 있을" 때에 사진들의 자동 캡처를 개시할 수도 있는 자동 캡처 능력을 포함할 수도 있다. 흥미 있음은 활동, 피크 활동, (골들과 같은) 중요한 객체들에 근접한 모션 등의 많은 것을 지칭할 수도 있다. 흥미로움의 척도는 디바이스 자체 상에서의 연산들에 기초할 수도 있다. 대안적으로, 흥미로움의 척도는 오프 디바이스 계산 (off device calculation) 들에 기초할 수도 있다.

또 다른 양태에서, 디바이스는 사진 캡처를 자동으로 개시하도록 구성될 수도 있다. 많은 상이한 인자들은 이미지들의 자동 포착을 트리거링할 수도 있다. 하나의 예에서, 메타데이터는 포착을 트리거링할 수도 있다. 예를 들어, 메타데이터는 이벤트에서의 점수가 방금 변경되었는지 여부를 표시할 수도 있다. 추가적으로, 메타데이터는 그 후에 픽처들을 자동으로 촬영하기 위하여 디바이스를 트리거링할 수도 있는 이벤트에 링크된 트위트들과 연관될 수도 있다. 디바이스는 스마트폰 및 카메라를 포함할 수도 있지만, 이것으로 제한되지는 않는다. 하나의 예에서, 카메라는 메타데이터 스트림들에 대한 액세스를 가지고, 관심 있는 무언가가 메타데이터에서 표시될 때에 픽처들을 자동으로 촬영하도록 구성된다.

하나의 양태에서, 협력적 사진촬영 시스템은 이미지들의 자동 캡처를 위하여 사용된다. 도 6b 는 이미지들 및 사진들의 포착에서의 이용을 위한 협력적 사진촬영 시스템 (640) 의 예를 예시한다. 이미지 캡처 디바이스 (642) 는 메시지 큐레이터 (message curator) (644) 및 카메라 트리거 (646) 를 포함한다. 이미지 캡처 디바이스들의 예들은 카메라들, 인터넷 프로토콜 (IP) 카메라들, 비디오 카메라들, 스마트폰들 등을 포함할 수도 있지만, 이것으로 제한되지는 않는다. 이미지 캡처 디바이스 (642) 는 다른 이미지 캡처 디바이스들 (648a 내지 648d) 과 통신한다. 예를 들어, 이미지 캡처 디바이스 (642) 는 통신들을 메시지 큐레이터 (644) 를 통해 다른 이미지 캡처 디바이스들 (648a 내지 648d) 로 전송할 수도 있고 이를 수신할 수도 있다. 이미지 캡처 디바이스들 (648a 내지 648d) 은 동일한 타입의 이미지 캡처 디바이스일 수도 있거나, 상이한 타입들의 이미지 캡처 디바이스들일 수도 있다. 추가적으로, 이미지 캡처 디바이스들 (642) 은 이미지 캡처 디바이스들 (648a 내지 648d) 과 동일할 수도 있거나 상이할 수도 있다.

하나의 양태에서, 메시지 큐레이터 (644) 는 이미지 캡처 디바이스들 (648a 내지 648d) 중의 하나로부터, 이미지 (650) 를 포착하기 위하여 카메라 트리거 (646) 를 촉발시키는 메시지를 수신한다. 메시지는 미리 정의된 트리거링 인자의 검출 또는 예측에 기초하여 유도될 수도 있다. 트리거링 인자들은 특정된 모션 시퀀스, 장면 내의 엔티티/객체의 아이덴티티 (identity), 로케이션 데이터, 거동 패턴들, 구도 (composition), 및 시간적 데이터를 포함할 수도 있다. 딥 신경 네트워크는 미리 정의된 트리거링 인자의 발생을 예측하기 위하여 사용될 수도 있다.

하나의 양태에서, 수신된 메시지는 관련된 또는 특정된 모션 시퀀스를 검출하는 것에 기초한다. 예를 들어, 스포츠 이벤트 동안에는, 골키퍼가 대단한 방어를 행할 때와 같이, 경기에서의 강렬한 순간들을 캡처하는 것이 바람직하다. 골키퍼가 방어를 행하는 것을 검출할 시에, 이미지 캡처 디바이스 (642) 는 골키퍼의 방어의 이미지를 자동으로 캡처하도록 트리거링된다.

또 다른 예에서, 메시지는 관련된 특정된 모션 시퀀스를 예측하는 것에 기초한다. 예를 들어, 스포츠 이벤트 동안, 이미지 캡처 디바이스 (642) 는 다른 이미지 캡처 디바이스들 (648a 내지 648d) 로부터, 선수들의 이동을 상세하게 설명하는 특정된 모션 시퀀스 정보를 포함할 수도 있는 입력을 수신한다. 수신된 입력 및 모션 시퀀스 정보의 분석에 기초하여, 선수가 골을 언제 슈팅할 수도 있는지가 예측될 수도 있다. 골을 위한 슛을 예측할 시에, 이미지 캡처 디바이스 (642) 는 슛을 행하는 선수의 사진을 캡처하기 위하여 자신을 준비하도록 트리거링된다.

이미지의 포착을 트리거링하도록 구성된 메시지는 또한, 장면 내의 엔티티 및/또는 객체의 아이덴티티의 검출 또는 예측에 기초할 수도 있다. 특히, 메시지는 장면에서의 특정 객체들, 인간들, 동물들, 또는 애완동물들에 기초할 수도 있다. 예를 들어, 협력적 사진촬영 시스템 (640) 은 동물 거동을 캡처하기 위하여 야생 실외 서식지에서 사용될 수도 있다. 본 개시물의 양태들에 따르면, 이미지들은 특정 동물들에 대해 캡처될 수도 있다. 특히, 픽처는 백색 표범에 대해 촬영될 수도 있고, 여기서, 시스템 (640) 이 다른 동물들의 이미지들이 아니라, 백색 표범의 이미지들을 오직 캡처하도록, 협력적 사진촬영 시스템 (640) 은 백색 표범을 다른 동물들과 구별할 수 있다. 특정 동물 (예컨대, 백색 표범) 의 검출 시에, 이미지 캡처 디바이스 (642) 는 이미지 (650) 를 포착하도록 트리거링된다. 추가적으로, 다른 양태에서, 다른 이미지 캡처 디바이스들은 사진을 촬영할 것을 언제 준비할 것인지를 경보를 받을 수도 있다. 예를 들어, 디바이스 (648a) 가 관심 있는 동물 (예컨대, 백색 표범) 을 검출할 때, 그것은 관심 있는 접근하는 동물을 다른 디바이스들 (642, 및 648b 내지 648d) 에 경보를 발송하는 메시지 큐레이터 (644) 에 경보를 발송한다 (예컨대, 메시지를 그것으로 전송함). 디바이스들 (642, 및 648b 내지 648d) 은 백색 표범의 이미지를 캡처하는 것을 준비한다. 또 다른 양태에서, 최상의 각도를 가지는 디바이스 (642, 또는 648a 내지 648d) 는 백색 표범의 이미지를 캡처하도록 트리거링된다.

이미지 포착을 트리거링하도록 구성된 메시지는 거동 및/또는 감정 패턴들에 기초할 수도 있다. 예를 들어, 스포츠 이벤트들 동안에는, 팀이 챔피언전 경기를 승리할 때와 같은, 감정적으로 충만된 순간들의 사진들을 촬영하는 것이 바람직하다. 감정적으로 충만된 순간은 경기 점수와 같은 메타데이터, 및 또한, 경기의 시작 이후로 경과한 시간의 길이의 조합에 기초하여 예측될 수도 있다. 축구의 예에서, 일단 90 분이 다가오고 승리 팀이 축하 모드로 막 들어가려고 하면, 이미지 캡처 디바이스 (642) 는 이미지들을 캡처하는 것을 준비하기 시작할 수 있다.

또 다른 예에서, 이미지 캡처 디바이스들 (648a 내지 648d) 은 소셜 네트워크의 일부일 수도 있다. 많은 디바이스들이 픽처들을 촬영하고 있을 때, 그것은 흥미 있는 것이 발생하고 있다는 표시일 수도 있다. 그 다음으로, 많은 디바이스들이 픽처들을 촬영하는 것에 관련된 거동 패턴은 이미지 캡처를 트리거링하기 위한 메시지의 전송을 촉발시킬 수도 있다.

이미지 포착을 트리거링하도록 구성된 메시지는 구도에 기초할 수도 있다. 예를 들어, 일몰 앞의 가족의 픽처에 대하여, 장면은 해가 지기 시작할 때에 신속하게 변경될 수도 있다. 사진을 촬영하기 위한 최상의 순간은 조명 조건들과 함께, 태양과의 완벽한 실루엣을 고려할 수도 있다. 일단 최상의 구도가 이용가능할 경우, 이미지 캡처 디바이스 (642) 는 장면을 자동으로 캡처하도록 트리거링될 수도 있다. 또한, 일자의 시간, 지리적 로케이션들 등과 같은 메타데이터 정보는 일몰 픽처를 촬영하기 위한 최상의 시간을 예측하기 위하여 사용될 수도 있다. 메시지 큐레이터 (644) 는 예측된 최상의 시간의 메시지를 수신할 수도 있고, 최상의 시간에서 일몰 메시지를 캡처하는 것을 준비하기 위하여 이미지 캡처 디바이스 (642) 를 트리거링할 수도 있다.

또 다른 양태에서, 메시지는 카메라 설정들, 방향 명령들, 및 캡처되어야 할 장면의 설명 중의 적어도 하나를 포함할 수도 있다. 특히, 이미지 포착을 트리거링하기 위한 메시지는 플래시 (flash), 노출, 개구부 (aperture) 등과 같은, 그러나 이것으로 제한되지는 않는, 카메라 엘리먼트들에 대한 카메라 설정들 또는 제어 커맨드들을 포함할 수도 있다. 예를 들어, 제 1 카메라는 제 1 카메라가 촬영하고 있는 사진에 대한 플래시를 트리거링할 것을 또 다른 카메라에 요청할 수 있다. 카메라들의 그룹은 조명 조건들을 협력적으로 결정할 수 있다.

추가적으로, 메시지는 타이밍 및 로케이션 정보를 포함할 수도 있다. 예를 들어, 메시지는 현재의 로케이션 및/또는 시간에서 픽처를 촬영하기 위한 커맨드들을 포함할 수도 있다. 임의적으로, 메시지는 미래의 장소 및/또는 시간에서 픽처를 촬영하기 위한 커맨드들을 포함할 수도 있다. 또 다른 양태에서, 메시지는 캡처되어야 할 장면 (예컨대, 비디오 또는 사진) 의 설명을 포함한다. 하나의 양태에서는, 포함된 설명에 기초하여, 이미지 캡처 디바이스 (642) 는 사진을 포착하지 않는 것으로 결정할 수도 있다. 예를 들어, 로케이션 정보가 이미지를 포착하는 것을 비현실적인 것으로 할 경우, 디바이스 (642) 는 사진을 촬영하지 않는 것으로 결정할 수도 있다.

메시지는 방향 명령들 및/또는 방향 정보를 포함할 수도 있다. 예를 들어, 네트워크 (640) 에서의 카메라들의 일부는 폴-장착형 카메라 (pole-mounted camera) 들을 포함할 수도 있다. 스포츠 이벤트 동안, 폴 장착형 카메라들은 최상의 순간을 캡처하도록 구성된다. 카메라들은 골 순간이 다가오고 있고 있다는 것과, 사진을 캡처하기 위하여 최상의 각도에서 자신을 설정함으로써 카메라가 준비해야 한다는 것을, 네트워크에서의 또 다른 카메라에 의해 통지받을 수도 있다. 메시지 큐레이터 (644) 는 당면한 골의 이미지들을 캡처하기 위한 디바이스를 준비하기 위하여 각도 및 로케이션에 관한 커맨드들을 갖는 메시지를 전송한다. 또한, 상이한 카메라들로부터의 다수의 이미지들은 3D 이미지를 생성하기 위하여 합성될 수도 있다.

또 다른 양태에서, 협력적 사진촬영 시스템 (640) 은 관심 있는 객체 및 이미지들을 캡처하기 위한 정확한 로케이션을 검출하도록 구성된다. 시스템 (640) 은 또한, 이미지들을 캡처하기 위한 최상의 카메라 및 최상의 로케이션을 사용하도록 구성된다. 이미지들이 자동으로 캡처된 후에, 딥 신경 네트워크는 어느 이미지들이 베스트인지를 결정하기 위하여 사용될 수도 있다. 딥 신경 네트워크는 이미지들을 희망하는 (예컨대, 이용가능한/베스트) 이미지들의 서브세트로 소팅 (sorting) 할 수도 있다.

도 6a 를 다시 참조하면, 사진들이 사용자들 (예컨대, 무선 네트워크에서의 다수의 사용자들) 로부터 포착된 후에, 사진들은 블록 (606) 에서 순위화될 수 있다. 순위화는 특징 벡터들 및 분류된 라벨들에 기초할 수도 있다. 특징 벡터들 및 분류된 라벨들은 사진들의 픽셀들, 메타데이터, 및/또는 사용자 선호도들로부터 유도될 수도 있다. 메타데이터는 이벤트에 대한 외부 데이터, 이미지 태그, 이미지 라벨, 및/또는 이벤트에 대한 인터넷 트래픽 (예컨대, 특정한 해시태그를 갖는 트위트들의 수) 을 포함할 수도 있지만, 이것으로 제한되지는 않는다.

또한, 순위화들은 일반적인 순위화들 및 사용자 정의된 순위화 기준들에 기초할 수도 있다. 예를 들어, 사진들은 이미지의 품질뿐만 아니라, 이미지의 내용과 같은 이미지 자체들에 기초하여 순위화될 수도 있다. 순위화 프로세스는 또한, 시간 주기 내에 촬영된 픽처들의 수에 기초할 수도 있다. 예를 들어, 많은 다른 사진들이 촬영되었을 때와 동일한 시간에 촬영되었던 사진들은 흥미 있는 이벤트를 표시할 수도 있고, 이 사진들은 증가된 중요도로 순위화될 수도 있다. 사진 순위화는 또한, 외부 인자들에 의해 영향받을 수도 있다. 예를 들어, 점수가 스포츠 이벤트에서 변경되기 바로 전에 촬영된 모든 사진들이 흥미 있을 수도 있고 더 높게 순위화될 수도 있다. 경기 정보의 온라인 스트리밍 (또는 심지어 라디오 방송들) 은 득점이 변경되었을 때의 시간을 결정하기 위하여 사용될 수도 있다. 추가적으로, 순위화는 (특징 벡터에 의해 정의된) 스포츠 이벤트에서의 응원과 같은 주변 에어리어에서의 데시벨 레벨에 기초할 수도 있다.

사진들이 순위화된 후에, 높은 순위화된 사진들은 순위화들 및 사용자 선호도들에 기초하여 블록 (608) 에서 사용자 디바이스로 분배된다. 제 2 순위화는 사용자의 선호도들에 기초하여 사용자의 디바이스에서 발생할 수도 있다. 예를 들어, 100 개의 사진들이 사용자의 디바이스로 푸시될 경우, 사용자는 이 사진들을 거절할 수 있거나 이 사진들을 좋아할 수 있다. 이 정보는 사용자의 디바이스 상에서 수신된 사진들을 사용자의 개인적 선호도로 더 양호하게 개인화하기 위하여 사진 순위화 알고리즘으로 피드백된다. 시간의 주기 후에, 관리 시스템 (600) 은 사용자의 개인적 선호도들을 러닝한다. 그 다음으로, 사용자는 블록 (610) 에서, 전체적인 품질의 측면에서, 그리고 또한, 사용자의 자신의 개인적 선호도들의 측면에서, 이벤트의 베스트 사진들을 수신한다.

또 다른 양태는 이미지들의 바람직성 (desirability) 을 순위화하기 위하여 딥 컨볼루션 네트워크 (DCN) 과 같은 신경 네트워크를 훈련시키는 것에 관한 것이다. 라벨링된 이미지들 및 메타데이터는 DCN 을 훈련시키기 위하여 사용될 수도 있다. 훈련 라벨들은 정규화된 바람직성 점수를 포함할 수도 있다. 추가적으로, 일차적 분류기는 각각의 이미지의 바람직성의 정규화된 순위화를 러닝하기 위하여 DCN 으로부터 직접적으로 입력을 수신할 수도 있다. 도 7a 내지 도 7b 는 이미지들을 순위화하기 위하여 DCN 을 훈련시키기 위한 일 예의 프로세스들을 예시한다.

도 7a 는 이미지들의 바람직성의 정규화된 순위화를 러닝하기 위하여 DCN 을 훈련시키기 위한 프로세스 (700) 를 예시한다. 이 순위화는 사용자 특정 순위화는 반대로, 일반적인 지침이다. 특히, DCN 은 예를 들어, "굿 (good)" 및 "배드 (bad)" 사진들을 이해하기 위하여 훈련될 수도 있다. 사진 (702) 이 포착되고, 프리-프로세싱 유닛 (704) 으로 공급된다. 그 다음으로, 프로세싱된 이미지는 DCN (706) 으로 공급된다. 추가적으로, 태그 (708) 는 DCN (706) 으로 전송된다. 태그 (708) 는 이미지가 "굿" 또는 "배드" 인지 여부에 관한 일반적인 태그이다. 하나의 양태에서, 일반적인 태그 (708) 는 사람들의 일반적인 집단으로부터 발신된다. 임의적으로, 비-시각적 입력 (705) 이 또한, DCN (706) 으로 공급될 수도 있다. 비-시각적 입력 (705) 의 예들은 사진이 촬영되었던 시간에서의 특정 해시태그를 갖는 트위트들의 수, 경기 점수, 그것이 사진을 촬영하였던 시간에서 디바이스에 의해 측정된 데시벨 레벨 등을 포함할 수도 있지만, 이것으로 제한되지는 않는다.

도 7b 는 사용자 특정 "굿" 및 "배드" 사진들을 이해하기 위하여 DCN 을 훈련시키기 위한 일 예의 프로세스 (710) 를 예시한다. 이 경우, 이차적 분류기는 사용자 특정적이고, 사용자 피드백에 기초하여 훈련된다. 사진 (712) 이 촬영되고, 프리-프로세싱 유닛 (714) 에서 프리-프로세싱을 거친다. 그 다음으로, 이미지는 DCN (716) 으로 전송된다. 사용자 (711) 는 이미지를 굿 또는 배드로서 태그할 수 있고, 태그 (718) 를 DCN (716) 으로 공급할 수 있다. 이차적 분류기는 각각의 사용자에 대하여 존재할 수도 있고, 사용자 피드백에 기초하여 훈련된다. 그 다음으로, 순위화들은 사용자 피드백에 기초하여 조절될 수도 있다. 특히, 태그 (718) 는 사용자 특정적이다. 예를 들어, 모든 사람들은 사진이 굿이라고 생각할 수도 있지만, 사용자 (711) 가 사진이 배드라고 믿고 있을 경우, 사용자 (711) 는 사진 (712) 에 대한 사용자 특정 태그 (예컨대, "배드") 를 입력할 것이다. 예를 들어, 많은 사진들 (예컨대, 100 개) 의 집합에서, 사용자는 "배드" 픽처들을 식별한다. DCN 은 "배드" 특징들을 러닝하고, 사용자는 보강 성능을 태그한다. 배드 특징들은 배드 조명, 히스토그램, 왜곡된 라인들, 프레임에서의 부분적인 얼굴들/신체들, 모션 블러 (motion blur), 너무 많은 동일한 이미지들 등을 포함할 수도 있지만, 이것으로 제한되지는 않는다. 추가적으로, 일부 양태들에서, 2 진 보상/처벌 모델은 DCN 특징들과 함께 사용될 수도 있다.

또 다른 양태에서, 정규화는 좋아요, 뷰들, 공유들, 히트들, 또는 다른 사용자 피드백 척도의 총 수에 기초한다. 또한, 특수한 신분을 갖는 사용자들 (예컨대, 팀 코치) 은 정규화된 바람직성 점수 스펙트럼의 높은 단부에서 가중화된 피드백을 제공할 수 있다. 추가적으로, 사용자 피드백은 터치-기반 입력을 통해 제공된 굿/배드 (예컨대, 좋아요 또는 좋아하지 않음) 의 형태, 및/또는 디바이스로 행해진 제스처의 형태일 수도 있다.

도 7c 는 베스트 사진을 최종 사용자에게 전달하기 위하여 훈련된 DCN 을 사용하는 일 예의 프로세스 (720) 를 예시한다. 특히, DCN (726) 이 훈련된 후에, 사진 (722) 은 프리-프로세싱 유닛 (724) 으로 전송된다. 그 다음으로, 이미지는 분류 및 순위화를 위하여 DCN (726) 으로 전송된다. 특히, 훈련된 DCN (726) 은 분류 (728) (예컨대, 굿/배드) 및 이미지 순위화 (729) 를 출력한다. 베스트 사진들 (예컨대, 가장 높은 순위화의 굿 사진들) 은 사용자 (721) 에게 전송된다.

다양한 방법들이 사용자 디바이스에서 수신된 사진들을 제한하도록 구현될 수도 있다. 모든 베스트 사진들을 수락하는 것이 아니라, 사용자는 사용자 디바이스로 푸시된 사진들의 수를 제한하기 위하여 다양한 설정들 및 필터들을 개시할 수도 있다. 이 필터들/설정들은 어떤 기준들 및/또는 사용자 설정들에 기초할 수도 있다. 예를 들어, 사용자는 10 개의 사진들을 수락하기를 오직 원할 수도 있다. 사용자는 사용자 디바이스로 푸시된 사진들의 수를 제한하기 위하여 설정을 구성할 수도 있다. 추가적으로, 사용자는 어떤 사람들의 사진들을 수락하는 것을 오직 원할 수도 있다. 예를 들어, 사용자는 그의 아이의 이미지들을 수신하는 것을 오직 원할 수도 있다. 이 타입의 설정은 다운로드를 위하여 제안된 사진들에 대한 얼굴 인식으로 구현될 수도 있고 수행될 수도 있다. 추가적으로, 사용자는 수신된 사진들을 오직 사람들의 그룹으로 제한할 수도 있다. 또한, 또 다른 양태에서, 수신된 사진들은 맥락에 의해 제한될 수도 있다. 예를 들어, 사용자는 공중의 볼을 갖는 사진들을 오직 수신할 것으로 판정할 수도 있다. 분류기는 특정한 맥락 (예컨대, 야구 선수가 공중으로 볼을 던지는 것) 의 DCN 사진들을 공급함으로써 훈련될 수도 있다.

또 다른 양태에서, 사진들이 이미 다운로딩된 것들보다 더 높은 점수를 가지지 않으면, 사용자는 사진들을 거절할 수 있다. 이것은 사용자 디바이스에서의 메모리 관리를 허용한다. 추가적으로, 사용자는 피드백을 순위화 메커니즘에 제공할 수 있다. 예를 들어, 더 전체적인 좋아요를 갖는 사진들은 높게 순위화될 가능성이 더 많다.

하나의 구성에서, 머신 러닝 모델은 무선 네트워크 내에서의 협력적 사진촬영을 위하여 구성된다. 머신 러닝 모델은 트리거링하기 위한 수단을 포함한다. 하나의 양태에서, 트리거링 수단은 범용 프로세서 (102), 범용 프로세서 (102) 와 연관된 프로그램 메모리, 메모리 블록 (118), 로컬 프로세싱 유닛들 (202), 및/또는 인용된 기능들을 수행하도록 구성된 라우팅 접속 프로세싱 유닛들 (216) 일 수도 있다. 또 다른 구성에서, 머신 러닝 모델은 이미지를 포착하기 위한 수단을 포함한다. 또 다른 구성에서, 상기 언급된 수단은 상기 언급된 수단에 의해 인용된 기능들을 수행하도록 구성된 임의의 모듈 또는 임의의 장치일 수도 있다.

본 개시물의 어떤 양태들에 따르면, 각각의 로컬 프로세싱 유닛 (202) 은 네트워크의 희망하는 하나 이상의 기능적 특징들에 기초하여 머신 러닝 네트워크의 파라미터들을 결정하고, 결정된 파라미터들이 추가로 적응되고, 튜닝되고, 업데이트될 때, 희망하는 기능적 특징들을 향해 하나 이상의 기능적 특징들을 개발하도록 구성될 수도 있다.

도 8 은 협력적 사진촬영을 위한 방법 (800) 을 예시한다. 블록 (802) 에서, 제 1 이미지 캡처 디바이스는 제 2 이미지 캡처 디바이스로부터의 메시지에 기초하여 이미지를 포착하도록 트리거링된다. 블록 (804) 에서, 제 1 이미지 캡처 디바이스는 이미지를 포착한다.

위에서 설명된 방법들의 다양한 동작들은 대응하는 기능들을 수행할 수 있는 임의의 적당한 수단에 의해 수행될 수도 있다. 수단은 회로, 애플리케이션 특정 집적 회로 (ASIC), 또는 프로세서를 포함하지만, 이것으로 제한되지는 않는 다양한 하드웨어 및/또는 소프트웨어 컴포넌트 (들) 및/또는 모듈 (들) 을 포함할 수도 있다. 일반적으로, 도면들에서 예시된 동작들이 있을 경우, 그 동작들은 유사한 번호부여를 갖는 대응하는 대응부 수단-플러스-기능 컴포넌트들을 가질 수도 있다.

본원에서 이용된 바와 같이, 용어 "결정" 은 폭넓게 다양한 액션 (action) 들을 망라한다. 예를 들어, "결정" 은 계산, 컴퓨팅, 프로세싱, 유도, 조사, 룩업 (look up) (예컨대, 테이블, 데이터베이스 또는 또 다른 데이터 구조에서의 룩업), 확인 등을 포함할 수도 있다. 추가적으로, "결정" 은 수신 (예컨대, 정보를 수신하는 것), 액세스 (예컨대, 메모리에서 데이터를 액세스하는 것) 등을 포함할 수 있다. 또한, "결정" 은 해결, 선택, 선정, 확립 등을 포함할 수도 있다.

본원에서 이용된 바와 같이, 항목들의 리스트 중의 "적어도 하나" 를 지칭하는 어구는 단일 부재들을 포함하는 그러한 항목들의 임의의 조합을 지칭한다. 예로서, "a, b, 또는 c 중의 적어도 하나" 는 a, b, c, a-b, a-c, b-c, 및 a-b-c 를 커버하도록 의도된다.

본 개시물과 관련하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 및 회로들은 범용 프로세서, 디지털 신호 프로세서 (DSP), 애플리케이션 특정 집적 회로 (ASIC), 필드 프로그래밍가능한 게이트 어레이 신호 (FPGA) 또는 다른 프로그래밍가능한 로직 디바이스 (PLD), 별개의 게이트 또는 트랜지스터 로직, 별개의 하드웨어 컴포넌트들, 또는 본원에서 설명된 기능들을 수행하도록 설계된 그 임의의 조합으로 구현되거나 수행될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로, 프로세서는 임의의 상업적으로 입수가능한 프로세서, 제어기, 마이크로제어기 또는 상태 머신일 수도 있다. 프로세서는 또한, 컴퓨팅 디바이스들의 조합, 예컨대, DSP 및 마이크로프로세서, 복수의 마이크로프로세서들, DSP 코어와 함께 하나 이상의 마이크로프로세서들, 또는 임의의 다른 이러한 구성의 조합으로서 구현될 수도 있다.

본 개시물과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로, 프로세서에 의해 실행된 소프트웨어 모듈로, 또는 이 둘의 조합으로 직접 구체화될 수도 있다. 소프트웨어 모듈은 당해 분야에서 알려져 있는 저장 매체의 임의의 형태로 상주할 수도 있다. 이용될 수도 있는 저장 매체들의 일부 예들은 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 플래시 메모리, 소거가능 프로그래밍가능 판독-전용 메모리 (EPROM), 전기적 소거가능 프로그래밍가능 판독-전용 메모리 (EEPROM), 레지스터들, 분리가능한 디스크, CD-ROM 등을 포함한다. 소프트웨어 모듈은 단일 명령 또는 다수의 명령들을 포함할 수도 있고, 몇몇 상이한 코드 세그먼트들 상에서, 상이한 프로그램 사이에서, 그리고 다수의 저장 매체들엘 걸쳐 분산될 수도 있다. 저장 매체는 프로세서가 저장 매체로부터 정보를 판독할 수 있고 정보를 저장 매체에 기록할 수 있도록 프로세서에 결합될 수도 있다. 대안적으로, 저장 매체는 프로세서에 일체적일 수도 있다.

본원에서 개시된 방법들은 설명된 방법을 달성하기 위한 하나 이상의 단계들 또는 액션들을 포함한다. 방법 단계들 및/또는 액션들은 청구항들의 범위로부터 이탈하지 않으면서 서로 상호 교환될 수도 있다. 다시 말해서, 단계들 또는 액션들의 특정 순서가 특정되지 않으면, 특정 단계들 및/또는 액션들의 순서 및/또는 이용은 청구항들의 범위로부터 이탈하지 않으면서 수정될 수도 있다.

설명된 기능들은 하드웨어, 소프트웨어, 펌웨어, 또는 그 임의의 조합으로 구현될 수도 있다. 하드웨어로 구현될 경우, 일 예의 하드웨어 구성은 디바이스에서의 프로세싱 시스템을 포함할 수도 있다. 프로세싱 시스템은 버스 아키텍처로 구현될 수도 있다. 버스는 프로세싱 시스템의 특정 애플리케이션 및 전체적인 설계 제약들에 따라 임의의 수의 상호접속하는 버스들 및 브릿지들을 포함할 수도 있다. 버스는 프로세서, 머신-판독가능 매체들, 및 버스 인터페이스를 포함하는 다양한 회로들을 함께 연결할 수도 있다. 버스 인터페이스는 그 중에서도, 네트워크 어댑터를 버스를 통해 프로세싱 시스템에 접속하기 위하여 이용될 수도 있다. 네트워크 어댑터는 신호 프로세싱 기능들을 구현하기 위하여 이용될 수도 있다. 어떤 양태들에 대하여, 사용자 인터페이스 (예컨대, 키패드, 디스플레이, 마우스, 조이스틱 등) 는 또한 버스에 접속될 수도 있다. 버스는 또한, 당해 분야에서 잘 알려져 있고, 그러므로, 더 이상 설명되지 않을 타이밍 소스들, 주변기기들, 전압 레귤레이터들, 및 전력 관리 회로들 등등과 같은 다양한 다른 회로들을 연결할 수도 있다.

프로세서는 버스를 관리하는 것과, 머신-판독가능 매체들 상에서 저장된 소프트웨어의 실행을 포함하는 일반적인 프로세싱을 담당할 수도 있다. 프로세서는 하나 이상의 범용 및/또는 특수-목적 프로세서들로 구현될 수도 있다. 예들은 마이크로프로세서들, 마이크로제어기들, DSP 프로세서들, 및 소프트웨어를 실행할 수 있는 다른 회로부를 포함한다. 소프트웨어는 소프트웨어, 펌웨어, 미들웨어, 마이크로코드, 하드웨어 설명 언어, 또는 그 외의 것으로서 지칭되든지 간에, 명령들, 데이터, 또는 그 임의의 조합을 의미하도록 폭넓게 해석될 것이다. 머신-판독가능 매체들은 예로서, 랜덤 액세스 메모리 (RAM), 플래시 메모리, 판독 전용 메모리 (ROM), 프로그래밍가능 판독-전용 메모리 (PROM), 소거가능 프로그래밍가능 판독-전용 메모리 (EPROM), 전기적 소거가능 프로그래밍가능 판독-전용 메모리 (EEPROM), 레지스터들, 자기 디스크들, 광학 디스크들, 하드 드라이브들, 또는 임의의 다른 적당한 저장 매체, 또는 그 임의의 조합을 포함할 수도 있다. 머신-판독가능 매체들은 컴퓨터-프로그램 제품에서 구체화될 수도 있다. 컴퓨터-프로그램 제품은 패키징 재료들을 포함할 수도 있다.

하드웨어 구현예에서, 머신-판독가능 매체들은 프로세서로부터 분리된 프로세싱 시스템의 일부일 수도 있다. 그러나, 당해 분야의 당업자들이 용이하게 인식하는 바와 같이, 머신-판독가능 매체들 또는 그 임의의 부분은 프로세싱 시스템의 외부에 있을 수도 있다. 예로서, 머신-판독가능 매체들은 송신 라인, 데이터에 의해 변조된 반송파, 및/또는 디바이스로부터 분리된 컴퓨터 제품을 포함할 수도 있고, 그 전부는 버스 인터페이스를 통해 프로세서에 의해 액세스될 수도 있다. 대안적으로 또는 추가적으로, 머신-판독가능 매체들 또는 그 임의의 부분은 캐시 및/또는 일반적인 레지스터 파일들에서 그러한 바와 같이, 프로세서 내로 통합될 수도 있다. 논의된 다양한 컴포넌트들은 로컬 컴포넌트와 같이, 특정 로케이션을 가지는 것으로서 설명될 수도 있지만, 그것들은 또한, 분산된 컴퓨팅 시스템의 일부로서 구성되는 어떤 컴포넌트들과 같이, 다양한 방법들로 구성될 수도 있다.

프로세싱 시스템은 외부 버스 아키텍처를 통해 다른 지원 회로부와 함께 모두 연결된, 프로세서 기능성을 제공하는 하나 이상의 마이크로프로세서들 및 머신-판독가능 매체들의 적어도 부분을 제공하는 외부 메모리를 갖는 범용 프로세싱 시스템으로서 구성될 수도 있다. 대안적으로, 프로세싱 시스템은 뉴런 모델들 본원에서 설명된 신경 시스템들의 모델들을 구현하기 위한 하나 이상의 뉴로모픽 프로세서 (neuromorphic processor) 들을 포함할 수도 있다. 또 다른 대안으로서, 프로세싱 시스템은 프로세서, 버스 인터페이스, 사용자 인터페이스, 지원 회로부, 및 단일 칩 내로 통합된 머신-판독가능 매체들의 적어도 부분을 갖는 애플리케이션 특정 집적 회로 (ASIC), 또는 하나 이상의 필드 프로그래밍가능 게이트 어레이 (FPGA) 들, 프로그래밍가능 로직 디바이스 (PLD) 들, 제어기들, 상태 머신들, 게이팅된 로직, 별개의 하드웨어 컴포넌트들, 또는 임의의 다른 적당한 회로부, 또는 이 개시물의 전반에 걸쳐 설명된 다양한 기능성을 수행할 수 있는 회로들의 임의의 조합으로 구현될 수도 있다. 당해 분야의 당업자들은 특정한 애플리케이션 및 전체적인 시스템에 부과된 전체적인 설계 제약들에 따라 프로세싱 시스템을 위한 설명된 기능성을 어떻게 최상으로 구현할 것인지를 인식할 것이다.

머신-판독가능 매체들은 다수의 소프트웨어 모듈들을 포함할 수도 있다. 소프트웨어 모듈들은, 프로세서에 의해 실행될 때, 프로세싱 시스템으로 하여금, 다양한 기능들을 수행하게 하는 명령들을 포함한다. 소프트웨어 모듈들은 송신 모듈 및 수신 모듈을 포함할 수도 있다. 각각의 소프트웨어 모듈은 단일 저장 디바이스에서 상주할 수도 있거나, 다수의 저장 디바이스들에 걸쳐 분산될 수도 있다. 예로서, 소프트웨어 모듈은 트리거링 이벤트가 발생할 때에 하드 드라이브로부터 RAM 으로 로딩될 수도 있다. 소프트웨어 모듈의 실행 동안, 프로세서는 액세스 속력을 증가시키기 위하여 명령들의 일부를 캐시로 로딩할 수도 있다. 그 다음으로, 하나 이상의 캐시 라인들은 프로세서에 의한 실행을 위하여 일반적인 레지스터 파일로 로딩될 수도 있다. 이하의 소프트웨어 모듈의 기능성을 지칭할 때, 이러한 기능성은 그 소프트웨어 모듈로부터의 명령들을 실행할 때에 프로세서에 의해 구현된다는 것이 이해될 것이다. 또한, 본 개시물의 양태들은 프로세서, 컴퓨터, 머신, 또는 이러한 양태들을 구현하는 다른 시스템에 대한 개선들로 귀착된다는 것이 인식되어야 한다.

소프트웨어로 구현될 경우, 기능들은 하나 이상의 명령들 또는 코드로서, 컴퓨터-판독가능 매체 상에 저장되거나, 컴퓨터-판독가능 매체 상에서 송신될 수도 있다. 컴퓨터-판독가능 매체들은, 하나의 장소로부터 또 다른 장소까지의 컴퓨터 프로그램의 전송을 가능하게 하는 임의의 매체를 포함하는 컴퓨터 저장 매체들 및 통신 매체들의 양자를 포함한다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수도 있다. 제한이 아닌 예로서, 이러한 컴퓨터-판독가능 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장, 자기 디스크 저장, 또는 다른 자기 저장 디바이스들, 또는 명령들 또는 데이터 구조들의 형태로 희망하는 프로그램 코드를 반송 또는 저장하기 위해 이용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 추가적으로, 임의의 접속은 컴퓨터-판독가능 매체로 적절하게 칭해진다. 예를 들어, 동축 케이블, 광섬유 케이블, 트위스트 페어 (twisted pair), 디지털 가입자 회선 (DSL), 또는 적외선 (IR), 라디오(radio), 및 마이크로파 (microwave) 와 같은 무선 기술들을 이용하여, 소프트웨어가 웹사이트, 서버, 또는 다른 원격 소스로부터 송신될 경우, 동축 케이블, 광섬유 케이블, 트위스트 페어, DSL, 또는 적외선, 라디오, 및 마이크로파와 같은 무선 기술들은 매체의 정의 내에 포함된다. 본원에서 이용된 바와 같은 디스크 (disk) 및 디스크 (disc) 는 컴팩트 디스크 (CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크 및 BLu-ray® 디스크를 포함하고, 여기서, 디스크 (disk) 들은 통상 데이터를 자기적으로 재생하는 반면, 디스크 (disc) 들은 데이터를 레이저들로 광학적으로 재생한다. 이에 따라, 일부 양태들에서, 컴퓨터 판독가능 매체들은 비-일시적인 컴퓨터-판독가능 매체들 (예컨대, 유형의 (tangible) 매체들) 을 포함할 수도 있다. 게다가, 다른 양태들에 대하여, 컴퓨터-판독가능 매체들은 일시적 컴퓨터-판독가능 매체들 (예컨대, 신호) 을 포함할 수도 있다. 상기의 조합들은 또한, 컴퓨터-판독가능 매체들의 범위 내에 포함되어야 한다.

이에 따라, 어떤 양태들은 본원에서 제시된 동작들을 수행하기 위한 컴퓨터 프로그램 제품을 포함할 수도 있다. 예를 들어, 이러한 컴퓨터 프로그램 제품은 명령들을 그 위에 저장한 (및/또는 인코딩한) 컴퓨터-판독가능 매체를 포함할 수도 있고, 명령들은 본원에서 설명된 동작들을 수행하기 위하여 하나 이상의 프로세서들에 의해 실행가능할 수도 있다. 어떤 양태들에 대하여, 컴퓨터 프로그램 제품은 패키징 재료를 포함할 수도 있다.

또한, 본원에서 설명된 방법들 및 기법들을 수행하기 위한 모듈들 및/또는 다른 적절한 수단은 적용가능한 바와 같은 사용자 단말 및/또는 기지국에 의해 다운로딩될 수 있고 및/또는 이와 다르게 획득될 수 있다는 것이 인식되어야 한다. 예를 들어, 이러한 디바이스는 본원에서 설명된 방법들을 수행하기 위한 수단의 전달을 용이하게 하기 위하여 서버에 결합될 수 있다. 대안적으로, 본원에서 설명된 다양한 방법들은 저장 수단 (예를 들어, RAM, ROM, 물리적 저장 매체 예컨대, 컴팩트 디스크 (CD) 또는 플로피 디스크, 등) 을 통해 제공될 수 있어서, 사용자 단말 및/또는 기지국은 저장 수단을 디바이스에 결합 또는 제공 시에 다양한 방법들을 획득할 수 있다. 게다가, 본원에서 설명된 방법들 및 기법들을 디바이스에 제공하기 위한 임의의 다른 적당한 기법이 사용될 수 있다.

청구항들은 위에서 예시된 정확한 구성 및 컴폰너트들에 제한되지 않는다는 것이 이해되어야 한다. 다양한 수정들, 변경들 및 변동들은 청구항들의 범위로부터 이탈하지 않으면서, 위에서 설명된 방법들 및 장치의 배열, 동작 및 세부사항들에서 행해질 수도 있다.

Claims

협력적 사진촬영의 방법으로서,
적어도 하나의 다른 이미지 캡처 디바이스로부터의 메시지에 적어도 부분적으로 기초하여 이미지를 포착하기 위하여 제 1 이미지 캡처 디바이스를 트리거링하는 단계를 포함하는, 협력적 사진촬영의 방법.
제 1 항에 있어서,
상기 메시지는 특정된 모션 시퀀스, 장면 내의 엔티티의 아이덴티티, 로케이션 데이터, 거동 패턴들, 구도 (composition), 및/또는 시간적 데이터에 적어도 부분적으로 기초하여 유도되는, 협력적 사진촬영의 방법.
제 1 항에 있어서,
상기 메시지는 특정된 모션 시퀀스, 장면 내의 엔티티의 아이덴티티, 로케이션 데이터, 거동 패턴들, 구도, 및/또는 시간적 데이터의 예측에 적어도 부분적으로 기초하여 유도되는, 협력적 사진촬영의 방법.
제 1 항에 있어서,
상기 메시지는 카메라 설정들, 방향 명령들, 및 캡처되어야 할 장면의 설명 중의 적어도 하나를 포함하는, 협력적 사진촬영의 방법.
제 1 항에 있어서,
상기 제 1 이미지 캡처 디바이스는 상기 메시지를 파싱 (parsing) 하는 모듈을 포함하는, 협력적 사진촬영의 방법.
제 1 항에 있어서,
상기 트리거링은 추가로, 딥 신경 네트워크 (deep neural network) 의 출력에 적어도 부분적으로 기초하는, 협력적 사진촬영의 방법.
협력적 사진촬영을 위한 장치로서,
적어도 하나의 다른 이미지 캡처 디바이스로부터의 메시지에 적어도 부분적으로 기초하여 이미지를 포착하기 위하여 제 1 이미지 캡처 디바이스를 트리거링하기 위한 수단; 및
상기 이미지를 포착하기 위한 수단을 포함하는, 협력적 사진촬영을 위한 장치.
제 7 항에 있어서,
상기 메시지는 특정된 모션 시퀀스, 장면 내의 엔티티의 아이덴티티, 로케이션 데이터, 거동 패턴들, 구도, 및/또는 시간적 데이터에 적어도 부분적으로 기초하여 유도되는, 협력적 사진촬영을 위한 장치.
제 7 항에 있어서,
상기 메시지는 특정된 모션 시퀀스, 장면 내의 엔티티의 아이덴티티, 로케이션 데이터, 거동 패턴들, 구도, 및/또는 시간적 데이터의 예측에 적어도 부분적으로 기초하여 유도되는, 협력적 사진촬영을 위한 장치.
제 7 항에 있어서,
상기 메시지는 카메라 설정들, 방향 명령들, 및 캡처되어야 할 장면의 설명 중의 적어도 하나를 포함하는, 협력적 사진촬영을 위한 장치.
제 7 항에 있어서,
상기 제 1 이미지 캡처 디바이스는 상기 메시지를 파싱하는 모듈을 포함하는, 협력적 사진촬영을 위한 장치.
제 7 항에 있어서,
상기 트리거링하기 위한 수단은 추가로, 딥 신경 네트워크의 출력에 적어도 부분적으로 기초하는, 협력적 사진촬영을 위한 장치.
협력적 사진촬영을 위한 장치로서,
메모리; 및
상기 메모리에 결합된 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
적어도 하나의 다른 이미지 캡처 디바이스로부터의 메시지에 적어도 부분적으로 기초하여 이미지를 포착하기 위하여 제 1 이미지 캡처 디바이스를 트리거링하도록 구성되는, 협력적 사진촬영을 위한 장치.
제 13 항에 있어서,
상기 메시지는 특정된 모션 시퀀스, 장면 내의 엔티티의 아이덴티티, 로케이션 데이터, 거동 패턴들, 구도, 및/또는 시간적 데이터에 적어도 부분적으로 기초하여 유도되는, 협력적 사진촬영을 위한 장치.
제 13 항에 있어서,
상기 메시지는 특정된 모션 시퀀스, 장면 내의 엔티티의 아이덴티티, 로케이션 데이터, 거동 패턴들, 구도, 및/또는 시간적 데이터의 예측에 적어도 부분적으로 기초하여 유도되는, 협력적 사진촬영을 위한 장치.
제 13 항에 있어서,
상기 메시지는 카메라 설정들, 방향 명령들, 및 캡처되어야 할 장면의 설명 중의 적어도 하나를 포함하는, 협력적 사진촬영을 위한 장치.
제 13 항에 있어서,
상기 제 1 이미지 캡처 디바이스는 상기 메시지를 파싱하는 모듈을 포함하는, 협력적 사진촬영을 위한 장치.
제 13 항에 있어서,
상기 적어도 하나의 프로세서는 딥 신경 네트워크의 출력에 적어도 부분적으로 기초하여 트리거링하도록 추가로 구성되는, 협력적 사진촬영을 위한 장치.
비-일시적 프로그램 코드가 저장된, 협력적 사진촬영을 위한 비-일시적 컴퓨터-판독가능 저장 매체로서,
상기 프로그램 코드는,
적어도 하나의 다른 이미지 캡처 디바이스로부터의 메시지에 적어도 부분적으로 기초하여 이미지를 포착하기 위하여 제 1 이미지 캡처 디바이스를 트리거링하기 위한 프로그램 코드를 포함하는, 비-일시적 컴퓨터-판독가능 저장 매체.
제 19 항에 있어서,
상기 메시지는 특정된 모션 시퀀스, 장면 내의 엔티티의 아이덴티티, 로케이션 데이터, 거동 패턴들, 구도, 및/또는 시간적 데이터에 적어도 부분적으로 기초하여 유도되는, 비-일시적 컴퓨터-판독가능 저장 매체.
제 19 항에 있어서,
상기 메시지는 특정된 모션 시퀀스, 장면 내의 엔티티의 아이덴티티, 로케이션 데이터, 거동 패턴들, 구도, 및/또는 시간적 데이터의 예측에 적어도 부분적으로 기초하여 유도되는, 비-일시적 컴퓨터-판독가능 저장 매체.
제 19 항에 있어서,
상기 메시지는 카메라 설정들, 방향 명령들, 및 캡처되어야 할 장면의 설명 중의 적어도 하나를 포함하는, 비-일시적 컴퓨터-판독가능 저장 매체.
제 19 항에 있어서,
상기 제 1 이미지 캡처 디바이스는 상기 메시지를 파싱하는 모듈을 포함하는, 비-일시적 컴퓨터-판독가능 저장 매체.
제 19 항에 있어서,
상기 프로그램 코드는 딥 신경 네트워크의 출력에 적어도 부분적으로 기초하여 트리거링하도록 추가로 구성되는, 비-일시적 컴퓨터-판독가능 저장 매체.