KR20230093076A

KR20230093076A - 효율적인 병렬 광학 흐름 알고리즘 및 gpu 구현

Info

Publication number: KR20230093076A
Application number: KR1020237020243A
Authority: KR
Inventors: 샤 탄마이 아닐쿠마르; 사무엘 에드워드 하레; 궈후이 왕
Original assignee: 스냅 인코포레이티드
Priority date: 2018-04-24
Filing date: 2019-04-23
Publication date: 2023-06-26
Also published as: CN112041887A; KR102655540B1; KR102545642B1; US11030721B2; EP3785225A1; US20190325561A1; US11783448B2; WO2019209833A1; KR20210002578A; US20210279842A1; EP3785225B1

Abstract

컴퓨팅 디바이스의 그래픽 처리 유닛(GPU)에 대한 더 높은 해상도를 포함하는 이미지 피라미드의 적어도 하나의 미리 결정된 레벨에 대응하는 이미지 데이터의 전송을 개시하고, 컴퓨팅 디바이스의 중앙 처리 유닛(CPU)에 의해, 이미지 피라미드의 적어도 하나의 미리 결정된 조대한 레벨의 광학 흐름을 계산하고, 컴퓨팅 디바이스의 CPU에 의해, 이미지 피라미드의 적어도 하나의 미리 결정된 조대한 레벨의 계산된 광학 흐름을 GPU에 전송하고, 컴퓨팅 디바이스의 GPU에 의해, 더 높은 해상도를 포함하는 이미지 피라미드의 적어도 하나의 미리 결정된 레벨의 광학 흐름을 계산하고, 컴퓨팅 디바이스의 GPU에 의해, 이미지 데이터의 광학 흐름을 출력하는 시스템들 및 방법들이 제공된다.

Description

효율적인 병렬 광학 흐름 알고리즘 및 GPU 구현{EFFICIENT PARALLEL OPTICAL FLOW ALGORITHM AND GPU IMPLEMENTATION}

우선권

본 출원은 또한 2018년 4월 24일자로 출원된 미국 가특허 출원 일련번호 제62/661,958호에 대한 우선권의 이익을 주장하며, 그 이익은 이로써 청구되며, 그 전체가 본 명세서에 참조로 포함된다.

광학 흐름(optical flow)은 객체 검출 및 추적, 모션 추정, 비주얼 오도메트리(visual odometry) 등에 사용되는 중요한 컴퓨터 비전 알고리즘이다. 그러나, 전형적인 광학 흐름 알고리즘은 매우 계산 집약적이고 많은 컴퓨팅 자원 및 시간을 필요로 한다. 이것은 광학 흐름 알고리즘이 모바일 디바이스들과 같은 특정 디바이스들 상에서 사용되고 배치되는 것을 방지한다.

첨부 도면의 다양한 도면들은 본 개시내용의 예시적인 실시예를 나타낼 뿐이고 그 범위를 제한하는 것으로서 간주되어서는 안 된다.
도 1은 일부 예시적인 실시예들에 따른 이미지 처리 시스템의 작업흐름을 예시하는 블록도이다.
도 2는 일부 예시적인 실시예들에 따른 예시적인 모바일 디바이스를 도시한다.
도 3은 일부 예시적인 실시예들에 따른 이미지 피라미드(image pyramid)를 도시한다.
도 4는 일부 예시적인 실시예들에 따른 방법의 양태들을 예시하는 흐름도이다.
도 5는 일부 예시적인 실시예들에 따른 CPU와 GPU 사이의 태스크들의 분리에 대한 타이밍도를 도시한다.
도 6은 일부 예시적인 실시예들에 따른 방법의 양태들을 예시하는 흐름도이다.
도 7은 일부 예시적인 실시예들에 따른 이미지 피라미드에서 CPU와 GPU 사이의 태스크들의 예시적인 분리를 도시한다.
도 8은 일부 예시적인 실시예들에 따른 CPU 상의 광학 흐름 계산들의 작업흐름을 도시한다.
도 9는 일부 예시적인 실시예들에 따른 GPU 상의 광학 흐름 계산들의 작업흐름을 도시한다.
도 10은, 일부 예시적인 실시예들에 따른, 네트워크를 통해 데이터(예를 들어, 메시지들 및 연관된 콘텐츠)를 교환하기 위한 예시적인 메시징 시스템을 도시하는 블록도이다.
도 11은 일부 예시적인 실시예들에 따른 메시징 시스템에 관한 추가의 상세들을 예시하는 블록도이다.
도 12는, 일부 예시적인 실시예들에 따른, 메시징 서버 시스템의 데이터베이스에 저장될 수 있는 데이터를 예시하는 개략도이다.
도 13은, 통신을 위해 메시징 클라이언트 애플리케이션에 의해 생성된, 일부 실시예들에 따른, 메시지의 구조를 예시하는 개략도이다.
도 14는, 일부 예시적인 실시예들에 따른, 머신 상에 설치될 수 있는 소프트웨어 아키텍처의 예를 예시하는 블록도이다.
도 15는, 예시적인 실시예에 따른, 머신으로 하여금 본 명세서에서 논의되는 방법론들 중 임의의 하나 이상을 수행하게 하기 위해 명령어들의 세트가 실행될 수 있는, 컴퓨터 시스템의 형태의, 머신의 도식적 표현을 예시한다.

본 명세서에 설명된 시스템들 및 방법들은 현대의 모바일 프로세서들의 병렬 아키텍처를 사용하고 모바일 중앙 처리 유닛(central processing unit)(CPU) 상의 SLAM(simultaneous localization and mapping) 명령어 및 모바일 그래픽 처리 유닛(graphics processing unit)(GPU) 상의 OpenCL을 사용하여 DIS(dense inverse iearch)-기반 광학 흐름(DIS-OF) 알고리즘을 가속한다. 알고리즘들의 병렬성(parallelism)을 활용함으로써, 예시적인 실시예들은 처리 속도를 개선하기 위해 DIS-OF 알고리즘을 최적화한다. 현대의 모바일 프로세서들의 이종 아키텍처를 더 활용함으로써, 예시적인 실시예들은 작업부하를 분할하고 그것들을 CPU와 GPU 둘 다에 분배한다. 예시적인 실시예들에서, 최적화는 모바일 디바이스들 상의 실시간 광학 흐름 계산을 가능하게 하고, 모바일 증강 현실, 비디오 세그먼트화, 객체 추적 등과 같은 광범위한 모바일 사용 사례들에 적용될 수 있다.

광학 흐름은 얼굴 추적으로부터 SLAM(Simultaneous localization and mapping)에 이르기까지 컴퓨터 비전에서 많은 응용들을 갖는다. 비동기 세그먼트화는 광학 흐름을 위한 그러한 응용들 중 하나이다. 세그먼트화 시스템이 DNN(deep neural network)을 사용하여 세그먼트화된 마스크를 생성한다. 계산 복잡성 때문에, DNN 런타임 성능은 중저가 모바일 디바이스들에서 매우 낮다. 낮은 성능 때문에, 비디오 스트림에서 실시간 세그먼트화를 달성하는 것은 어렵다. 비동기 세그먼트화 시스템이 배경 스레드(background thread)에서 DNN 세그먼트화를 실행하고 광학 흐름을 사용하여 보간된 세그먼트화 마스크를 생성함으로써 이러한 문제를 해결한다.

일 예에서, 모바일 디바이스는 모바일 디바이스를 통해 이미지들(예를 들어, 사진들) 및 비디오를 캡처하기 위한 적어도 하나의 카메라를 포함한다. 모바일 디바이스는 이미지 또는 비디오에 크리에이티브 도구들(creative tools)(예를 들어, 특수 효과들, 미디어 오버레이들(media overlays) 등)을 적용하는 기능성을 제공하는 카메라-기반 애플리케이션을 추가로 포함할 수 있다. 예를 들어, 크리에이티브 도구들은 특수 효과들, 미디어 오버레이들, 및 그와 유사한 것을 전체 이미지 또는 비디오에 또는 이미지 또는 비디오 스트림 내의 특정 객체들(예를 들어, 얼굴, 자동차, 나무, 하늘, 바디, 고양이 등)에 추가하는 능력을 제공할 수 있다.

일 예에서, 카메라-기반 애플리케이션은 세그먼트화를 사용하여 객체들(예를 들어, 크리에이티브 도구들을 적용할 대상)을 식별할 수 있다. 세그먼트화의 한가지 문제점은 많은 시간이 걸린다는 것이다. 따라서, 카메라-기반 애플리케이션에서, 특히 모바일 디바이스와 같은 컴퓨팅 디바이스 상에서, 세그먼트화 알고리즘을 사용하는 경우 초당 높은 프레임 레이트를 유지하는 것은 어렵다. 따라서, 일부 예시적인 실시예들은 키 프레임들에 세그먼트화를 적용하고 그 키 프레임들 사이에 광학 흐름을 적용하여 이전에 생성된 마스크를 추적하므로, 세그먼트화에 의해 요구되는 계산이 감소될 수 있다. 예를 들어, 키 프레임들은 프레임 처리 스케줄러에 의해 또는 세그먼트화 엔진의 이용가능성(세그먼트화 엔진이 마지막 키 프레임의 처리를 완료할 때마다, 예시적인 실시예들은 새로운 프레임의 처리를 시작함)에 의해 결정될 수 있고, 다음으로 결정된 키 프레임들 사이에서 프레임들에 대해 광학 흐름이 적용될 것이다. 광학 흐름 알고리즘을 사용하는 하나의 이유는 세그먼트화와 비교하여 비교적 덜 계산 집약적이라는 것이다. 이러한 방식으로, 광학 흐름은 객체를 그의 이전 객체와 비교하고(예를 들어, 하나의 프레임으로부터 다음 프레임으로) 객체가 어느 방향으로 이동하고 있는지, 얼마나 이동하는지 등을 결정함으로써 비디오에서 객체의 모션을 추적하는 데 사용된다. 광학 흐름을 사용하여, 각각의 프레임에 대한 세그먼트화를 대체함으로써, 계산이 감소되고, 대부분의 모바일 디바이스들(예를 들어, 중저가 모바일폰을 포함함) 상에서 실시간(또는 거의 실시간) 처리가 달성될 수 있다. 광학 흐름 및 세그먼트화를 사용하는 이러한 시스템은 도 1의 예시적인 시스템(100)에 도시되어 있다.

광학 흐름이 세그먼트화보다 더 간단하고 덜 계산 집약적이지만, 광학 흐름은 여전히 비교적 긴 시간이 걸린다. 예를 들어, 중저가 모바일 디바이스들에서는 약 15-20 밀리초가 걸릴 수 있다. 따라서, 초당 30 프레임의 프레임 레이트를 달성하기 위해, 예를 들어, 각각의 프레임은 임의의 다른 처리를 완료하기 위해 33 밀리초 미만으로 걸리지 않아야 한다. 광학 흐름이 20 밀리초가 걸리는 경우, 후처리 또는 렌더링과 같은 다른 처리를 위한 여지가 별로 없다. 따라서, 광학 흐름이 계산 오버헤드를 개선하지만, 모두 얼마나 많은 시간이 걸리는지에 대한 문제가 여전히 있다. 예시적인 실시예들은 알고리즘을 가속하기 위해 컴퓨팅 디바이스의 CPU와 GPU의 조합을 사용함으로써 광학 흐름의 속도를 개선하는 것을 더 제공한다. 본 명세서에서 더 설명되는 바와 같이, 이것은 이미지/비디오의 전체 처리 속도를 높인다.

도 1은 일부 예시적인 실시예들에 따른 세그먼트화 및 광학 흐름을 사용하는 시스템(100)의 작업흐름을 예시하는 블록도이다. 시스템(100)은 (예를 들어, 비디오 스트림의) 하나 이상의 이미지 프레임을 포함하는 데이터스토어(datastore)(102)를 포함한다. 예를 들어, 이러한 이미지 프레임들은 모바일폰과 같은 컴퓨팅 디바이스 내의 카메라에 의해 캡처되는 비디오 스트림의 일부일 수 있다. 일 예에서, 이미지 프레임들은 비디오가 캡처되고 있을 때 데이터스토어(102)에 저장될 수 있다. 시스템(100)은 이미지 프레임들(102)의 키 프레임들에 적용되는, 전술한 바와 같은, 세그먼트화(DNN)(108)를 추가로 포함한다. 세그먼트화(108)는 하나 이상의 객체와 연관된 하나 이상의 마스크(예를 들어, 각각의 객체를 식별하는 마스크)를 마스크 스토리지(110)에 출력할 수 있다.

시스템(100)은, 키 프레임들 사이의 보간을 위한, 전술한 바와 같은, 광학 흐름(104)을 포함한다. 광학 흐름(104)에 의한 보간된 마스크 생성 및 세그먼트화(108)에 의해 생성되어 마스크 스토리지(110)에 저장된 마스크는 보간된 마스크 생성(106) 내로 입력된다. 일 예에서, 가이드 필터(guided filter)(112)(예를 들어, 마스크 품질을 향상시키거나 개선하기 위한 것) 및 효과들 또는 렌더링(114)(예를 들어, 특수 효과들 또는 다른 크리에이티브 도구들을 비디오 내의 하나 이상의 객체에 적용하는 것)과 같은 선택적인 후처리가 이어서 이미지 프레임들(102)에 적용될 수 있다. 이어서, 최종 프레임은 컴퓨팅 디바이스의 디스플레이에 출력될 수 있다. 예시적인 실시예들은 시스템(100)의 광학 흐름(104)을 최적화한다.

시스템(100)의 양태들은 도 2에 도시된 예시적인 모바일 디바이스(200)와 같은 컴퓨팅 디바이스를 사용하여 구현될 수 있다. 모바일 디바이스는 스마트폰, 태블릿 컴퓨터, PDA(personal digital assistant) 등과 같은 휴대용 컴퓨팅 디바이스이다. 모바일 디바이스(200)는 하나 이상의 프로세서(202)를 포함할 수 있다. 하나 이상의 프로세서(202)는 모바일 디바이스들에 적합한 각종의 상이한 타입들의 상업적으로 이용가능한 프로세서들(202)(예를 들어, XScale 아키텍처 마이크로프로세서, MIPS(microprocessor without interlocked pipeline stages) 아키텍처 프로세서, 또는 다른 타입의 프로세서) 중 임의의 것일 수 있다. 예시적인 실시예들에서, 모바일 디바이스(200)는 CPU(220) 및 GPU(222)를 포함할 수 있다. 예시적인 실시예들은, 이하에서 더 상세히 설명되는 바와 같이, 모바일 디바이스(200)의 CPU(220), 모바일 디바이스(200)의 GPU(222), 또는 CPU(220)와 GPU(222)의 조합을 사용하여 구현될 수 있다.

랜덤 액세스 메모리(RAM), 플래시 메모리, 또는 다른 타입의 메모리와 같은 메모리(204)는 전형적으로 하나 이상의 프로세서(202)에 액세스가능하다. 메모리(204)는 운영 체제(OS)(206)뿐만 아니라, 이미지(예를 들어, 사진) 또는 비디오에 이미지 효과들을 제공할 수 있는 이미지 처리 애플리케이션 또는 카메라-기반 애플리케이션과 같은 애플리케이션들(208)을 저장하도록 적응될 수 있다. 모바일 디바이스(200)는 하나 이상의 카메라 디바이스(도시되지 않음)를 추가로 포함할 수 있고 및/또는 하나 이상의 카메라 디바이스와 결합될 수 있다.

하나 이상의 프로세서(202)는, 직접 또는 적절한 중간 하드웨어를 통해, 디스플레이(210)에, 그리고 키패드, 터치 패널 센서, 마이크로폰 등과 같은 하나 이상의 입력/출력(I/O) 디바이스(212)에 결합될 수 있다. 유사하게, 일부 실시예들에서, 하나 이상의 프로세서(202)는 안테나(216)와 인터페이스하는 송수신기(214)에 결합될 수 있다. 송수신기(214)는 모바일 디바이스(200)의 특성에 따라, 안테나(216)를 통해 셀룰러 네트워크 신호들, 무선 데이터 신호들, 또는 다른 타입들의 신호들을 송신하고 수신하는 것의 양자를 행하도록 구성될 수 있다. 또한, 일부 구성들에서, GPS 수신기(218)는 GPS 신호들을 수신하기 위해 안테나(216)를 사용할 수도 있다.

광학 흐름은 이동하는 객체의 밝기가 2개의 프레임 사이에서 일정하게 유지된다고 가정한다. 광학 흐름 방정식은 2개의 미지수(예를 들어, X 및 Y 방향에서의 광학 흐름들)를 가지므로, 하나의 방정식으로부터의 유일해(unique solution)를 갖지 않는다. 패치 기반 광학 흐름은 패치 내의 모든 픽셀에 대해 동일한 광학 흐름을 가정하고, 따라서 다수의 광학 흐름 방정식을 도출하여 2개의 미지수를 찾는다. 일 예에서, 이미지(예를 들어, 비디오의 프레임)는 복수의 패치들로 분할될 수 있고, 각각의 패치는 미리 결정된 수의 픽셀들을 포함한다. 광학 흐름 계산은 모션의 방향 및 얼마나 이동하는지를 결정하기 위해 각각의 패치에 대해 행해질 것이다. 예를 들어, 패치 크기가 8x8 픽셀이면, 이미지는 8x8 크기 패치로 분할될 수 있다.

광학 흐름 계산은 이미지 피라미드의 모든 레벨에 대해 수행된다. 예를 들어, 각각의 레벨에 대해 다양한 해상도들로 서브샘플링된 이미지 데이터의 다수의 층들을 포함하는 이미지에 대해 이미지 피라미드가 생성될 수 있다. 광학 흐름 계산은 이미지 피라미드의 최상위 레벨(가장 조대한(coarsest) 레벨 - 가장 작은 이미지 해상도를 가짐)에서 시작된다. 가장 조대한 레벨에서, 광학 흐름 계산은 일부 초기 광학 흐름으로 시작된다. 초기 광학 흐름은 제로 모션 벡터 또는 이전 프레임의 광학 흐름으로부터의 모션 벡터일 수 있다.

예시적인 이미지 피라미드(300)가 도 3에 도시되어 있다. 도 3의 이미지 피라미드(300)는 4개의 레벨을 포함하는 것으로 도시되어 있다. 예를 들어, 제1 레벨(302)은 가장 큰 이미지 해상도를 갖는 원래 이미지일 수 있고, 제2 층(304)은 더 작은 이미지 해상도를 포함하고, 제3 층(306)은 훨씬 더 작은 이미지 해상도를 포함하고, 제4 레벨(308)은 가장 작은 또는 가장 조대한 이미지 해상도를 포함한다. 따라서, 각각의 레벨은 이미지의 이전 레벨의 더 조대한 버전일 수 있다. 도 3의 이미지 피라미드(300)는 4개의 레벨을 포함하는 것으로 도시되어 있지만, 이미지 피라미드는 임의의 수의 레벨을 가질 수 있다는 것이 이해된다.

일단 가장 조대한 레벨에서의 광학 흐름이 알려지면, 그 광학 흐름은 다음 레벨에서 업샘플링되고, 이는 다음 레벨에서의 광학 흐름을 찾기 위해 사용된다. 이 프로세스는 광학 흐름의 마지막 레벨에 도달할 때까지 반복된다.

도 4는 일부 예시적인 실시예들에 따른 이미지 피라미드의 각각의 레벨에서의 광학 흐름 알고리즘을 위한 방법(400)의 양태들을 예시하는 흐름도이다. 동작(402)에서, 컴퓨팅 디바이스(예를 들어, 도 2의 컴퓨팅 디바이스(200))는 모든 픽셀에 대해 X 및 Y 방향에서 소스 이미지 그래디언트들(source image gradients)(I_x, I_y)을 계산하고, 여기서 I는 이미지이다. 동작(404)에서, 컴퓨팅 디바이스는 미리 결정된 패치-크기 및 패치-스트라이드(patch-stride)에 기초하여 소스 이미지(예를 들어, 비디오의 이미지 프레임)를 패치들의 그리드(grid)로 분할한다. 예를 들어, 미리 결정된 패치-크기는 8개의 픽셀일 수 있고, 미리 결정된 패치-스트라이드(예를 들어, 2개의 패치 사이의 시작 포인트)는 4개의 픽셀일 수 있다. 이 예에서, 이미지는 8x8 패치들로 분할될 것이고, 패치는 X 및 Y에서의 4개의 픽셀마다 시작할 것이다(예를 들어, 패치들은 중첩될 것이다).

동작(406)에서, 컴퓨팅 디바이스는 모든 패치에 대한 그래디언트들의 합을 계산한다. 예를 들어, 컴퓨팅 디바이스는 모든 패치에 대해 다음과 같은 그래디언트들의 합을 계산한다:

a. ∑I_x ²: 패치 픽셀들에 대한 I_x ²의 합

b. ∑I_y ²: 패치 픽셀들에 대한 I_y ²의 합

c. ∑I_xy: 패치 픽셀들에 대한 I_x와 I_y의 곱의 합

d. ∑I_x: 패치 픽셀들에 대한 I_x의 합

e. ∑I_y: 패치 픽셀들에 대한 I_y의 합

동작(408)에서, 컴퓨팅 디바이스는 헤시안(Hessian) 행렬(H):

의 역을 계산한다.

동작(410)에서, 컴퓨팅 디바이스는 초기 흐름 필드를 설정한다. 예를 들어, 제로 모션의 비용 및 이전 프레임의 광학 흐름을 사용하는 비용에 따라, 컴퓨팅 디바이스는 이미지 피라미드의 가장 조대한 레벨(예를 들어, 도 3의 이미지 피라미드(300)의 레벨 0(308))에 대한 초기 흐름 필드를 설정한다. 이미지 피라미드의 다른 레벨들의 경우, 초기 흐름은 이전 레벨에 의해 설정된다.

동작(412)에서, 컴퓨팅 디바이스는 반복적인 역 패치 검색(iterative inversion patch search)을 수행한다. 예를 들어, 컴퓨팅 디바이스는 X 및 Y에서 증분 광학 흐름(예를 들어, 증분 모션 벡터)을 찾기 위해 모든 패치에 대해 역 조성(inverse composition)에 기초한 반복적인 역 패치 검색을 수행한다. 이 방법은 다음을 포함한다:

a. 임의의 패치에 대해 2개의 상이한 프레임(예를 들어, 이전(소스) 및 현재(목적지) 프레임들) 사이의 픽셀 차이를 결정한다. 픽셀 차이 = 목적지 이미지 픽셀 - 소스 이미지 픽셀. 목적지 이미지 픽셀은 X 및 Y에서의 쌍선형 보간을 사용하여 계산된다.

i. 목적지 이미지 픽셀들은 X 및 Y를 사용하여 샘플링된다

b. 픽셀 차이를 사용하여 X 및 Y 모션 벡터들에서의 차이를 계산한다. [△x; △y] = H^-1 * ∑([I_x;I_y] * (픽셀 차이))

c. X 및 Y를 업데이트한다. [X, Y] := [X, Y] - [△x, △y].

d. 픽셀 비용(예를 들어, ZSSD)이 미리 결정된 임계값보다 작으면, 반복 프로세스는 정지된다. 그렇지 않으면, 단계 a로 복귀함으로써 계속된다.

동작(412) 후에, 컴퓨팅 디바이스는 패치가 이전 프레임으로부터 현재 프레임으로 이동(패치 흐름)하고 있는 방향을 알 것이다. 패치 흐름은 모션 벡터의 형태로 되어 있을 수 있다. 동작(414)에서, 컴퓨팅 디바이스는 패치 흐름을 사용하여 픽셀-별 흐름 필드(pixel-wise flow field)를 계산하기 위해(예를 들어, 모든 픽셀에 대한 흐름을 찾기 위해) 조밀화(densification)를 수행한다. 이를 위해, 컴퓨팅 디바이스는 다음의 수학식을 사용하여 모든 픽셀에서 조밀한 흐름(dense flow)을 찾고, 여기서, λ_i,x는 대응하는 패치가 픽셀과 중첩되는 경우 1이고, d_i(x)는 (x + u_i)에서의 목적지 이미지와 (x)에서의 소스 이미지의 픽셀 사이의 픽셀 차이이다.

동작(412)의 출력은 각각의 픽셀에 대한 X, Y를 갖는 모션 벡터이다.

도 5 내지 도 7은 컴퓨팅 디바이스의 CPU 및 GPU 둘 다를 이용하는 광학 흐름의 효율적인 구현들을 위한 방법들을 예시한다. 제1 효율적인 구현은 네온 SIMD(single instruction multiple data) 최적화를 포함한다. 전술한 바와 같이, 광학 흐름은 매우 계산 집약적인 알고리즘이다. 패치 별 광학 흐름(patch wise optical flow)은 픽셀들의 행에 대해 많은 유사한 계산들을 수행하므로, SIMD에 대한 이상적인 후보이다. 광학 흐름의 패치 역 검색 프로세스(예를 들어, 도 4의 동작(412)) 동안, 반복의 모든 단계에 대해 패치 매칭의 비용이 계산될 필요가 있다. 이 비용 함수는 SSD(sum of squared difference), ZSSD(zero mean SSD), NCC(normalized cross-correlation), 또는 다른 비용 함수일 수 있다. 비용 계산은 SIMD에서 효율적으로 구현될 수 있다. 하나의 예시적인 실시예에서, ZSSD(예를 들어, 동작(412)의 단계 d)는 SIMD에서 구현된다. 예를 들어, 픽셀들의 모든 행에 대해, 4개의 픽셀의 청크가 SIMD 명령어들의 하나의 그룹에서 처리된다. 이러한 방식으로, 패치의 4개의 픽셀의 계산은 병렬로 일어날 수 있으므로, 동작(412)의 단계 d가 최적화된다.

패치 별 광학 흐름으로부터의 조밀한 광학 흐름 계산(dense optical flow calculation)(예를 들어, 도 4의 동작(414)) 동안, 이웃 광학 흐름 출력을 사용하는 픽셀 차이 비용이 평가될 필요가 있다. 이 계산은 다음 프레임에서 보간된 픽셀들을 생성하기 위해 모션 벡터들의 소수부를 사용하는 쌍선형 보간을 필요로 한다. 이 프로세스는 한번에 4개의 쌍선형 보간된 픽셀을 생성함으로써 SIMD에서 효율적으로 구현된다. 따라서, 동작(414)이 최적화된다.

제2 효율적인 구현은 GPU 구현을 포함한다. 첫째, GPU 상에서 실행되는 임의의 알고리즘의 경우, GPU 하드웨어 자원들을 효율적으로 활용하기에 충분한 병렬 작업부하를 가져야 한다. 패치 기반 광학 흐름(예를 들어, 도 4의 동작(412))은 패치들 사이에 직렬 종속성(serial dependency)을 가지며, 그 직렬 종속성 때문에 모든 패치에 대한 패치 역 검색은 래스터 스캔 순서(raster scan order)로 차례로 계산될 필요가 있다. 예시적인 실시예들은 광학 흐름의 유사한 품질(예를 들어, 평균 엔드포인트 에러)을 유지하면서 이 직렬 종속성을 깨뜨린다. GPU 구현의 경우, 모든 패치에 대한 패치 역 검색이 독립적으로 수행되고, 이후 이웃 패치의 광학 흐름의 출력을 체크하는 동기화 페이즈가 있다. 동기화 후에, 이웃 광학 흐름이 더 양호한 품질(ZSSD)의 광학 흐름을 생성하는 경우 패치의 광학 흐름 결과가 이웃 광학 흐름으로 업데이트될 수 있다. 동기화 후에, 패치 역 검색을 다시 수행하여 더 수렴한다. 이러한 방식으로, 더 양호한 품질의 광학 흐름을 달성하기 위해 반복적인 수렴 및 동기화 페이즈가 몇 번(a couple of times) 반복된다.

둘째, 광학 흐름의 효율적인 병렬 구현 동안 직면하는 또 다른 문제는, 피라미드의 가장 조대한 레벨이 작은 이미지 해상도를 가지므로 GPU 상에서 처리하기에 충분한 양의 작업부하를 갖지 않는다는 것이다. GPU 측에서 작은 이미지 해상도를 위한 광학 흐름을 계산하는 것은 태스크들을 스케줄링하는 오버헤드를 가질 것이므로, 계산 효율의 관점에서 불량하게 수행한다. 예시적인 실시예들은 (도 8에 도시된 바와 같은) CPU 측의 조대한 레벨들 및 (도 9에 도시된 바와 같은) GPU 측의 큰 이미지 레벨들을 처리한다.

일 예에서, 컴퓨팅 디바이스는 컴퓨팅 디바이스 능력들에 기초하여 어느 레벨들(예를 들어, 조대한 레벨들)이 CPU 측에서 처리될 것이고 어느 레벨들이 GPU 측에서 처리될 것인지를 결정할 수 있다. 이것은 컴퓨팅 디바이스마다 달라질 수 있다. 예를 들어, 컴퓨팅 디바이스는 GPU가 인계받을 이미지 피라미드의 레벨을 선택하기 위해 튜닝 단계를 수행할 수 있다. 이러한 튜닝 단계는 일회성 비용일 수 있다(예를 들어, 객체가 구성될 때). 다른 예에서, CPU 상에서 처리될 레벨(들)은 특정 파라미터들(예를 들어, 컴퓨팅 디바이스 능력들)에 기초하여 또는 CPU 상에서 처리될 디폴트 미리 결정된 레벨(들)에 기초하여 미리 결정될 수 있다.

또한, 조대한 레벨들의 처리가 수행되지만, GPU에 대한 메모리 전송은 병렬로 행해질 수 있다. 이것은 메모리 전송 비용을 숨기고 CPU-GPU 공유를 달성할 것이다. 이것은 GPU의 시작 레벨에 대한 메모리 전송이 조대한 레벨들에서의 광학 흐름 계산에 병렬로 일어나고 있는 도 5의 타이밍도(500)에 도시된다.

셋째, 이미지 피라미드의 임의의 레벨의 광학 흐름 계산을 완료한 후에, 다음 레벨의 더 큰 해상도에 대한 초기 광학 흐름을 생성하기 위해 광학 흐름 행렬의 업샘플링이 필요하며, 이는 다음 레벨에 대한 수렴의 시작 포인트를 제공한다. 이러한 업샘플링 동작은 작은 해상도 광학 흐름 행렬을 판독하고, 쌍선형 보간을 수행하고, 그 후 더 큰 해상도 행렬에 저장(기입)하는 것을 필요로 할 것이다. 이 전체 동작은 임의의 성능 페널티 없이 온 더 플라이(on the fly) 쌍선형 보간을 지원하는 GPU의 메모리 판독 동작을 활용함으로써 회피될 수 있다. 따라서, 예시적인 실시예들은, 위치(x, y)를 다운샘플링하고 온 더 플라이 쌍선형 보간에 의해 이전 레벨로부터의 광학 흐름 결과를 판독함으로써 이전 피라미드 레벨 광학 흐름을 판독한다.

도 6은 일부 예시적인 실시예들에 따른, CPU와 GPU 둘 다를 이용하는 광학 흐름 알고리즘을 사용하여 이미지 데이터를 처리하기 위한 방법(600)의 양태들을 예시하는 흐름도이다. 위에서 설명한 바와 같이, 도 2의 모바일 디바이스(200)와 같은 컴퓨팅 디바이스는 이미지들(예를 들어, 사진들) 및/또는 비디오의 캡처를 허용하기 위해 하나 이상의 카메라를 포함할 수 있다(또는 그와 결합될 수 있다). 일 예에서, 컴퓨팅 디바이스는 카메라로부터 카메라에 의해 캡처되고 있는 이미지 또는 비디오를 포함하는 이미지 데이터를 수신한다. 컴퓨팅 디바이스는 이미지 데이터를 하나 이상의 데이터 스토어(예를 들어, 데이터 스토어(102))에 저장할 수 있다. 컴퓨팅 디바이스는 도 4에 도시된 광학 흐름 프로세스를 포함하는, 도 1에 도시된 이미지 처리와 같은 이미지 처리를 이미지 데이터에 대해 수행한다. 위에서 설명한 바와 같이, 예시적인 실시예들은 컴퓨팅 디바이스의 CPU와 GPU 둘 다를 사용함으로써 광학 흐름 프로세스의 최적화를 제공한다.

일 예에서, 이미지 데이터는 컴퓨팅 디바이스의 카메라에 의해 캡처되고 있는 비디오에 대한 비디오 스트림의 하나 이상의 프레임을 포함할 수 있다. 하나 이상의 카메라로부터 이미지 데이터를 수신한 후에, 컴퓨팅 디바이스는 각각의 레벨에 대해 다양한 해상도로 서브샘플링된, 이미지 데이터에 이미지(예를 들어, 비디오의 프레임)의 다수의 레벨들을 포함하는 이미지 피라미드를 생성한다. 하나의 예시적인 이미지 피라미드(300)가 도 3에 도시되고 위에 설명되어 있다. 다른 예시적인 이미지 피라미드(700)가 도 7에 도시되어 있다.

도 7의 이미지 피라미드는 4개의 레벨을 도시한다. 제1 레벨(702)은 가장 높은 해상도에서 원래의 이미지(예를 들어, 비디오의 프레임)를 포함할 수 있고, 제2 레벨(704)은 더 작은 해상도를 갖는 이미지일 수 있고, 제3 레벨(706)은 훨씬 더 작은 이미지 해상도를 갖는 이미지일 수 있고, 제4 레벨(708)은 가장 작은 또는 가장 조대한 이미지 해상도를 갖는 이미지일 수 있다. 따라서, 각각의 레벨은 이미지의 이전 레벨의 더 조대한 버전일 수 있다. 도 7의 이미지 피라미드(700)가 4개의 레벨을 포함하는 것으로 도시되어 있지만, 이미지 피라미드는 임의의 수의 층을 가질 수 있다는 것을 이해해야 한다. 일 예에서, 앞서 설명된 바와 같이, 하나 이상의 더 조대한 레벨은 CPU에 의한 처리를 위해 지정될 수 있고 더 높은 해상도 레벨들 중 하나 이상은 GPU에 의한 처리를 위해 지정될 수 있다. 이 예에서, 제1 레벨(702) 및 제2 레벨(704)은 더 높은 해상도를 포함하므로 GPU에 의한 처리를 위해 지정될 수 있고, 제3 레벨(706) 및 제4 레벨(708)은 더 조대한 해상도를 포함하므로 CPU에 의한 처리를 위해 지정될 수 있다. 다른 예들에서, 상이한 레벨들은 CPU 및 GPU에 의한 처리를 위해 지정될 수 있다.

도 6으로 돌아가면, 동작(602)에서, 컴퓨팅 디바이스(예를 들어, 도 2의 컴퓨팅 디바이스(200))는 GPU 시작 레벨의 메모리 전송을 개시한다. 예를 들어, 더 높은 해상도를 포함하는 이미지 피라미드의 제1 레벨 및 제2 레벨이 GPU에 의한 처리를 위해 지정되면(예를 들어, 도 7의 제1 레벨(702) 및 제2 레벨(704)), 이들 2개의 레벨에 대한 이미지 데이터는 GPU에 전송된다. 따라서, 더 높은 해상도를 포함하는 이미지 피라미드의 적어도 하나의 미리 결정된 레벨에 대응하는 이미지 데이터는 컴퓨팅 디바이스의 GPU에 전송된다.

이미지 데이터의 초기화 및 GPU로의 전송 동안, 동작(604)에 도시된 바와 같이, 컴퓨팅 디바이스의 CPU는 이미지 피라미드의 적어도 하나의 미리 결정된 조대한 레벨의 광학 흐름을 계산한다. 도 5는 GPU에 대한 메모리 전송 동안 CPU 처리가 어떻게 행해지는지를 도시한다. CPU는 도 4에 도시되고 위에서 설명된 프로세스를 사용하여 이미지 피라미드의 적어도 하나의 미리 결정된 조대한 레벨의 광학 흐름을 계산할 수 있다.

도 8은 CPU에서의 광학 흐름 계산(예를 들어, 위에서 설명한 바와 같은, 조대한 레벨 계산들에 대한 네온 (SIMD) 최적화)을 예시한다. 위에서 도 4와 관련하여 더 상세히 설명한 바와 같이, 컴퓨팅 디바이스는 동작(802)(예를 들어, 도 4의 동작(406)에서의 그래디언트들의 합 및 동작(408)에서의 역 헤시안 계산)에서 이미지 그래디언트들(820)을 전처리하고, 동작(804)(예를 들어, 도 4의 동작(412))에서 패치-별 광학 흐름(patch-wise optical flow)을 수행하고, 이후 동작(806)(예를 들어, 도 4의 동작(414))에서 패치-별 광학 흐름으로부터 조밀한 광학 흐름을 수행한다. 일 예에서, 조대한 레벨들에 대한 광학 흐름 계산들은 CPU에 의해 직렬로 행해진다.

도 6으로 돌아가면, CPU가 이미지 피라미드의 적어도 하나의 미리 결정된 조대한 레벨의 광학 흐름을 계산한 후, 동작(606)에 도시된 바와 같이, 컴퓨팅 디바이스의 CPU는 출력(예를 들어, 이미지 피라미드의 적어도 하나의 미리 결정된 조대한 레벨의 계산된 광학 흐름)을 GPU에 전송한다. 예를 들어, 컴퓨팅 디바이스의 CPU는 GPU가 시작할 레벨 전의 레벨에 대한 광학 흐름을 전송한다. 이 프로세스는 또한 도 5의 타이밍도(500)에 도시된다.

동작(608)에서, 컴퓨팅 디바이스의 GPU는 CPU에 의해 계산된 광학 흐름을 사용하여 더 높은 해상도를 포함하는 이미지 피라미드의 적어도 하나의 미리 결정된 레벨(예를 들어, 도 7의 레벨들(706 및 708))의 광학 흐름을 계산한다. 예를 들어, CPU 결과의 마지막 레벨이 GPU에 전송되면, 초기 흐름 필드는 GPU의 제1 레벨에 대해 설정된다. GPU는 온 더 플라이 쌍선형 보간을 사용하여 이 초기 흐름 필드를 업샘플링하고 그 레벨에서의 광학 흐름 계산을 시작할 것이다.

도 9는 GPU에서의 광학 흐름 계산을 예시한다. GPU가 CPU로부터 더 조대한 레벨들의 광학 흐름을 수신하고 있고 GPU가 패치-별 광학 흐름을 병렬로 수행하기 때문에 이는 또한 동기화 페이즈(예를 들어, 이웃 동기화(906))를 포함한다는 것을 제외하고, 도 9의 프로세스는 CPU에 대한 도 8의 프로세스(예를 들어, 동작(902)에서 이미지 그래디언트들(922)을 전처리하는 것, 동작(904)에서 패치-별 광학 흐름을 수행하는 것, 동작(908)에서 패치 광학 흐름으로부터 조밀한 광학을 수행하는 것)와 유사하다. 이웃 동기화(906)는 이미지 피라미드의 층 내의 복수의 패치들 중의 주어진 패치에 대해, 주어진 패치에 대한 모든 이웃 패치들을 결정하는 것을 포함한다. 이웃 패치는 주어진 패치에 가까운 또는 그 옆에 있는 패치이다. 예를 들어, 주어진 패치 위의 패치, 우측의 패치, 좌측의 패치, 및 아래의 패치. 주어진 패치의 위치에 따라, 주어진 패치는 우측 및 좌측 및 아래 및 위의 패치를 갖지 않을 수 있지만, 대신에 이 이웃 패치들의 서브세트만을 가질 수 있다.

컴퓨팅 디바이스는 다음에 각각의 이웃 패치 모션 벡터 값을 결정한다. 모션 벡터 값은 (4.5, -5.5)와 같은(X, Y) 값을 포함할 수 있다. 컴퓨팅 디바이스는 각각의 이웃 패치 모션 벡터 값을 주어진 패치의 모션 벡터 값과 비교한다. 임의의 이웃 패치 모션 벡터가 주어진 패치의 모션 벡터를 사용하는 비용보다 더 낮은 비용(예를 들어, 비용 함수, 예컨대 ZSSD 등에 의해 주어진 값)을 갖는 경우, 주어진 패치의 모션 벡터는 그 이웃의 패치 모션 벡터로 업데이트된다. 비용이 낮을수록, 2개의 프레임으로부터의 2개의 패치가 동일한 패치일 확률이 높아진다. 일 예에서, 주어진 패치는 최저 비용을 갖는 이웃 패치 모션 벡터 값으로 업데이트된다.

GPU는 이미지 데이터의 광학 흐름을 출력할 수 있다. GPU로부터의 출력은 이미지(예를 들어, 비디오 스트림의 프레임)에 대한 광학 흐름이다. 광학 흐름은 어떻게 모든 픽셀이 X 방향으로, 그리고 얼마나 이동하고 있는지, 및 Y 방향으로, 그리고 얼마나 이동하고 있는지를 나타낸다. 이것은 이후 이미지의 추가 처리를 위해 사용된다(예를 들어, 크리에이티브 도구를 적용할 객체가 다음 프레임에서 이동한/이동할 위치에 기초하여 크리에이티브 도구를 배치할 위치를 결정하기 위해). 이러한 방식으로, 컴퓨팅 디바이스는 광학 흐름 모션 벡터 값들을 사용하여 오래된 마스크를 워핑(warping)함으로써 새로운 마스크를 생성할 수 있다.

본 명세서에 설명된 예시적인 실시예들은 성능에 대해 발명자들에 의해 테스트되었다. 다음의 표는 CPU만의 구현(CPU only implementation)과 예시적인 실시예들 사이의 성능 비교를 보여준다. 성능 데이터는 삼성 Galaxy S7 디바이스 상에서 생성되었다. 여기서, 성능 측정을 위해, 광학 흐름이 2개의 이미지 프레임 사이에서 약 100회 실행되고 평균 성능이 보고된다. 결과에 도시된 바와 같이, 그것은 대략 4배 속도 향상을 달성한다.

예시적인 실시예들은 다양한 사용 사례들에서 사용될 수 있다. 예를 들어, 예시적인 실시예들은 카메라 애플리케이션에서 특수 효과들 및 미디어 오버레이들과 같은 크리에이티브 도구들을 사진 또는 비디오에 적용하는데 사용될 수 있다. 다른 예에서, 예시적인 실시예들은 메시징 시스템 또는 애플리케이션에서 메시징 시스템을 통해 하나 이상의 사용자와 공유될 사진 또는 비디오에 크리에이티브 도구들을 적용하는데 사용될 수 있다. 예를 들어, 크리에이티브 도구들을 갖는 사진 또는 비디오는 하나 이상의 사용자에게 메시지로서 전송되고, 미디어 컬렉션(media collection)에 추가되고, 기타등등으로 될 수 있다.

도 10은 네트워크를 통해 데이터(예를 들어, 메시지들 및 연관된 콘텐츠)를 교환하기 위한 네트워크화된 시스템(networked system)(1000)(예를 들어, 메시징 시스템)을 예시하는 블록도이다. 네트워크화된 시스템(1000)은 다수의 클라이언트 디바이스들(1010)을 포함하고, 이들 각각은 다수의 클라이언트 애플리케이션들(1014)을 호스팅한다. 각각의 클라이언트 애플리케이션(1014)은 네트워크(1004)를 통해 클라이언트 애플리케이션(1014) 및 서버 시스템(1008)의 다른 인스턴스들에 통신가능하게 결합된다.

클라이언트 디바이스(1010)는 이동 전화, 데스크톱 컴퓨터, 랩톱, 휴대용 디지털 보조기기(portable digital assistant)(PDA), 스마트폰, 태블릿, 울트라북, 넷북, 랩톱, 멀티프로세서 시스템, 마이크로프로세서 기반 또는 프로그램가능 소비자 전자 시스템, 게임 콘솔, 셋톱박스, 차량 내 컴퓨터, 웨어러블 디바이스, 또는 사용자가 네트워크화된 시스템(1000)에 액세스하기 위해 활용할 수 있는 임의의 다른 통신 디바이스를 포함할 수 있으며, 이에 제한되지는 않는다. 일부 실시예들에서, 클라이언트 디바이스(1010)는 (예를 들어, 사용자 인터페이스들의 형태로) 정보를 디스플레이하는 디스플레이 모듈(도시되지 않음)을 포함할 수 있다. 추가 실시예들에서, 클라이언트 디바이스(1010)는 터치 스크린들, 가속도계들, 자이로스코프들, 카메라들, 마이크로폰들, 글로벌 포지셔닝 시스템(global positioning system)(GPS) 디바이스들 등 중 하나 이상을 포함할 수 있다. 일부 실시예들에서, 클라이언트 디바이스(1010)는 도 2의 모바일 디바이스(200)이다.

클라이언트 디바이스(1010)는 비디오, 이미지들(예를 들어, 사진), 및 오디오와 같은 미디어 콘텐츠 아이템들(media content items)을 생성하여 그러한 미디어 콘텐츠 아이템들, 텍스트 등을 포함하는 메시지들을 다른 사용자들에게 그리고 다른 사용자들로부터 전송 및 수신하는 데 사용되는 사용자의 디바이스일 수 있다. 클라이언트 디바이스(1010)는 미디어 오버레이들을 생성 및 편집하고 복수의 미디어 컬렉션에 액세스하는 데 사용되는 사용자의 디바이스일 수 있다. 클라이언트 디바이스(1010)는 전술한 바와 같이 보케(bokeh) 효과를 사진 또는 비디오에 적용하는데 사용되는 사용자의 디바이스일 수 있다.

하나 이상의 사용자는 클라이언트 디바이스(1010)와 상호작용하는 사람, 머신, 또는 다른 수단일 수 있다. 예시적인 실시예들에서, 사용자는 시스템(1000)의 일부가 아닐 수 있지만, 클라이언트 디바이스(1000) 또는 다른 수단을 통해 시스템(1010)과 상호작용할 수 있다. 예를 들어, 사용자는 클라이언트 디바이스(1010)에 입력(예를 들어, 터치 스크린 입력 또는 영숫자 입력)을 제공할 수 있고, 그 입력은 네트워크(1004)를 통해 시스템(1000)의 다른 엔티티들(예를 들어, 제3자 서버들, 서버 시스템(1008) 등)에 통신될 수 있다. 이러한 경우에, 시스템(1000)의 다른 엔티티들은, 사용자로부터 입력을 수신하는 것에 응답하여, 사용자에게 제시될 정보를 네트워크(1004)를 통해 클라이언트 디바이스(1010)에 통신할 수 있다. 이러한 방식으로, 사용자는 클라이언트 디바이스(1010)를 사용하여 시스템(1000)의 다양한 엔티티들과 상호작용할 수 있다.

시스템(1000)은 네트워크(1004)를 추가로 포함할 수 있다. 네트워크(1004)의 하나 이상의 부분은 애드혹 네트워크, 인트라넷, 엑스트라넷, 가상 사설 네트워크(virtual private network)(VPN), 로컬 영역 네트워크(local area network)(LAN), 무선 LAN(wireless LAN)(WLAN), 광역 네트워크(wide area network)(WAN), 무선 WAN(wireless WAN)(WWAN), 메트로폴리탄 영역 네트워크(metropolitan area network)(MAN), 인터넷의 일부분, 공중 교환 전화 네트워크(public switched telephone network)(PSTN)의 일부분, 셀룰러 전화 네트워크, 무선 네트워크, WI-FI 네트워크, WiMax 네트워크, 또 다른 타입의 네트워크, 또는 둘 이상의 그러한 네트워크의 조합일 수 있다.

클라이언트 디바이스(1010)는 웹 클라이언트(예를 들어, 워싱턴주 레드몬드의 Microsoft® Corporation에 의해 개발된 Internet Explorer® 브라우저와 같은 브라우저) 또는 하나 이상의 클라이언트 애플리케이션(1014)을 통해 시스템(1000)의 다른 엔티티들에 의해 제공되는 다양한 데이터 및 애플리케이션들에 액세스할 수 있다. 클라이언트 디바이스(1010)는 웹 브라우저, 메시징 애플리케이션, 전자 메일(이메일) 애플리케이션, 전자 상거래 사이트 애플리케이션, 매핑 또는 로케이션 애플리케이션, 미디어 오버레이 애플리케이션, 대화형 메시징 애플리케이션, 이미지에 보케 효과를 적용하기 위한 애플리케이션, 및 이와 유사한 것과 같은, 그러나 이에 제한되지 않는, 하나 이상의 클라이언트 애플리케이션(1014)("앱"으로도 지칭됨)을 포함할 수 있다.

일부 실시예들에서, 하나 이상의 클라이언트 애플리케이션(1014)은 클라이언트 디바이스들(1010) 중 주어진 하나에 포함될 수 있고, 국부적으로 이용가능하지 않은 데이터 및/또는 처리 능력들을 위해(예를 들어, 사용자 질의들을 처리하기 위해, 사용자를 인증하기 위해, 지불 방법을 검증하기 위해, 기타 등등), 필요에 따라, 시스템(1000)(예를 들어, 제3자 서버들, 서버 시스템(1008) 등)의 다른 엔티티들과 통신하도록 구성되는 클라이언트 애플리케이션(1014)에 사용자 인터페이스 및 기능성들의 적어도 일부를 국부적으로 제공하도록 구성될 수 있다. 반대로, 하나 이상의 클라이언트 애플리케이션(1014)은 클라이언트 디바이스(1010)에 포함되지 않을 수 있고, 그러면 클라이언트 디바이스(1010)는 그것의 웹 브라우저를 사용하여 시스템(1000)(예를 들어, 제3자 서버들, 서버 시스템(1008) 등)의 다른 엔티티들에서 호스팅되는 하나 이상의 애플리케이션에 액세스할 수 있다.

일 예에서, 클라이언트 애플리케이션(1014)은 사용자가 사진 또는 비디오를 촬영하고, 캡션(caption)을 추가하거나 다른 방식으로 사진 또는 비디오를 편집(예를 들어, 일부 실시예들에서 보케 효과를 적용)하고, 그 다음에 사진 또는 비디오를 다른 사용자에게 전송할 수 있게 하는 메시징 애플리케이션일 수 있다. 일 예에서, 메시지는 단기적(ephemeral)이어서 보고 난 후에 또는 미리 결정된 양의 시간(예를 들어, 10초, 24시간 등) 후에 수신 사용자 디바이스로부터 제거될 수 있다. 단기적 메시지(ephemeral message)는 시간-제한된 지속기간(time-limited duration) 동안 액세스가능한 메시지를 지칭한다. 단기적 메시지는 본 명세서에서 설명되는 실시예들에 따라 함께 스티칭(stitch)될 수 있는 텍스트, 이미지, 비디오, 및 다른 그러한 콘텐츠일 수 있다. 단기적 메시지에 대한 액세스 시간은 메시지 전송자에 의해 설정될 수 있다. 대안적으로, 액세스 시간은 디폴트 설정 또는 수신자에 의해 특정된 설정일 수 있다. 설정 기법에 관계없이, 메시지는 일시적(transitory)이다.

메시징 애플리케이션은 사용자가 갤러리(gallery) 또는 메시지 컬렉션(message collection)(본 명세서에서 "미디어 컬렉션"으로도 지칭됨)을 생성하는 것을 추가로 허용할 수 있다. 갤러리는 사용자의 갤러리를 "팔로우하는(following)" 다른 사용자들(예를 들어, 사용자의 갤러리에서의 업데이트들을 보고 수신하기 위해 가입됨)이 볼 수 있는 사진들 및 비디오들의 컬렉션(collection)일 수 있다. 일 예에서, 갤러리는 또한 단기적일 수 있다(예를 들어, 24시간 지속, 이벤트의 지속기간 동안(예를 들어, 음악 콘서트, 스포츠 경기 등 동안) 지속, 또는 다른 미리 결정된 시간 지속).

단기적 메시지는 메시지 지속기간 파라미터와 연관될 수 있고, 그 값은 단기적 메시지가 클라이언트 애플리케이션(1014)에 의해 단기적 메시지의 수신 사용자에게 디스플레이될 시간의 양을 결정한다. 단기적 메시지는 메시지 수신기 식별자 및 메시지 타이머와 추가로 연관될 수 있다. 메시지 타이머는 메시지 수신기 식별자에 의해 식별된 특정 수신 사용자에게 단기적 메시지가 보여지는 시간의 양을 결정하는 것을 담당할 수 있다. 예를 들어, 단기적 메시지는 메시지 지속기간 파라미터의 값에 의해 결정되는 시간 기간 동안만 관련 수신 사용자에게 보여질 수 있다.

다른 예에서, 메시징 애플리케이션은, 사용자가 사진들 및 비디오들을 저장하여 단기적이 아니며 다른 사용자들에게 송신될 수 있는 갤러리를 생성하는 것을 허용할 수 있다. 예를 들어, 사용자가 최근 휴가로부터의 사진들 및 비디오들을 모아서 친구들 및 가족과 공유할 수 있다.

서버 시스템(1008)은 네트워크(1004)(예를 들어, 인터넷 또는 광역 네트워크(WAN))를 통해 서버측 기능성을 하나 이상의 클라이언트 디바이스(1010) 및/또는 하나 이상의 제3자 서버(도시되지 않음)에 제공할 수 있다. 서버 시스템(1008)은 애플리케이션 프로그래밍 인터페이스(application programming interface)(API) 서버(1002), 애플리케이션 서버(1012), 메시징 애플리케이션 서버(1016), 미디어 콘텐츠 처리 시스템(1018), 및 소셜 네트워크 시스템(1022)을 포함할 수 있으며, 이것들은 각각 서로 그리고 데이터베이스(들)(1020)와 같은 하나 이상의 데이터 스토리지(들)와 통신가능하게 결합될 수 있다.

서버 시스템(1008)은 일부 예시적인 실시예들에 따른 클라우드 컴퓨팅 환경일 수 있다. 서버 시스템(1008), 및 그 서버 시스템(1008)과 연관된 임의의 서버들은 하나의 예시적인 실시예에서 클라우드 기반 애플리케이션과 연관될 수 있다.

하나 이상의 데이터베이스(들)(1020)는, 취급되지 않은 미디어 콘텐츠, 사용자들로부터의 원래 미디어 콘텐츠(예를 들어, 고품질 미디어 콘텐츠), 처리된 미디어 콘텐츠(예를 들어, 클라이언트 디바이스들(1010)과 공유하고 클라이언트 디바이스들(1010) 상에서 보기 위해 포맷화된 미디어 콘텐츠), 미디어 콘텐츠 아이템에 관련된 컨텍스트 데이터, 사용자 디바이스(예를 들어, 컴퓨팅 또는 클라이언트 디바이스(1010))에 관련된 컨텍스트 데이터, 미디어 오버레이들, 미디어 오버레이 스마트 위젯 또는 스마트 요소들, 사용자 데이터, 사용자 디바이스 정보, 미디어 콘텐츠(예를 들어, 비디오 및 이미지들), 미디어 콘텐츠 데이터(예를 들어, 비디오 및 이미지들과 연관된 데이터), 컴퓨팅 디바이스 컨텍스트 데이터, 직렬화된 데이터, 세션 데이터 아이템들 등과 같은 정보를 저장하는 저장 디바이스들일 수 있다. 하나 이상의 데이터베이스(1020)는 제3자 서버들, 제3자 애플리케이션들, 클라이언트 디바이스들(1010), 클라이언트 애플리케이션들(1014), 사용자들 등에 관련된 정보를 더 저장할 수 있다.

하나 이상의 데이터베이스(들)(1020)는 서버 시스템(1008) 외부의 클라우드 기반 스토리지(예를 들어, 서버 시스템(1008) 외부의 하나 이상의 제3자 엔티티에 의해 호스팅됨)를 포함할 수 있다. 저장 디바이스들이 데이터베이스(들)(1020)로서 도시되어 있지만, 시스템(1000)은 데이터베이스들(1020), 블롭 스토리지(blob storage), 및 다른 타입들의 저장 방법들과 같은 저장 디바이스들에서 데이터를 액세스하고 저장할 수 있다는 것을 이해해야 한다.

시스템(1000)은 하나 이상의 제3자 서버(도시되지 않음)를 추가로 포함할 수 있다. 하나 이상의 제3자 서버는 하나 이상의 제3자 애플리케이션(들)을 포함할 수 있다. 제3자 서버(들) 상에서 실행되는 하나 이상의 제3자 애플리케이션(들)은 API 서버(1002)에 의해 제공되는 프로그램적 인터페이스(programmatic interface)를 통해 API 서버(1002)를 통해 서버 시스템(1008)과 상호작용할 수 있다. 예를 들어, 제3자 애플리케이션들 중 하나 이상은 제3자에 의해 호스팅되는 웹사이트 또는 제3자에 의해 호스팅되는 애플리케이션 상에서 하나 이상의 특징 또는 기능을 지원하기 위해 API 서버(1002)를 통해 서버 시스템(1008)으로부터의 정보를 요청하고 활용할 수 있다. 예를 들어, 제3자 웹사이트 또는 애플리케이션은 서버 시스템(1008) 내의 관련 기능성 및 데이터에 의해 지원되는 기능성을 제공할 수 있다.

따라서, 각각의 클라이언트 애플리케이션(1014)은 네트워크(1004)를 통해 다른 클라이언트 애플리케이션들(1014)과 그리고 서버 시스템(1008)과 데이터를 통신 및 교환할 수 있다. 클라이언트 애플리케이션(1014)들 사이에 그리고 클라이언트 애플리케이션(1014)과 서버 시스템(1008) 사이에 교환되는 데이터는, 기능들(예를 들어, 기능들을 인보크(invoke)하는 커맨드들)뿐만 아니라, 페이로드 데이터(예를 들어, 텍스트, 오디오, 비디오, 또는 다른 멀티미디어 데이터)를 포함한다.

서버 시스템(1008)은 네트워크(1004)를 통해 특정 클라이언트 애플리케이션(1014)에 서버측 기능성을 제공한다. 시스템(1000)의 특정 기능들이 클라이언트 애플리케이션(1014)에 의해 또는 서버 시스템(1008)에 의해 수행되는 것으로 본 명세서에 설명되지만, 클라이언트 애플리케이션(1014) 내의 또는 서버 시스템(1008) 내의 특정 기능성의 로케이션은 설계 선택사항이라는 것을 인식할 것이다. 예를 들어, 처음에는 특정 기술 및 기능성을 서버 시스템(1008) 내에 배치하지만, 나중에 클라이언트 디바이스(1010)가 충분한 처리 용량을 갖는 경우 이 기술 및 기능성을 클라이언트 애플리케이션(1014)으로 이전시키는 것이 기술적으로 바람직할 수 있다.

서버 시스템(1008)은 클라이언트 애플리케이션(1014)에 제공되는 다양한 서비스들 및 동작들을 지원한다. 그러한 동작들은 클라이언트 애플리케이션(1014)에 데이터를 송신하고, 그로부터 데이터를 수신하고, 그에 의해 생성된 데이터를 처리하는 것을 포함한다. 이 데이터는, 예들로서, 메시지 콘텐츠, 클라이언트 디바이스 정보, 지오로케이션 정보, 미디어 주석 및 오버레이들(media annotation and overlays), 메시지 콘텐츠 지속 조건들(message content persistence conditions), 소셜 네트워크 정보, 라이브 이벤트 정보(live event information), 날짜 및 시간 스탬프들, 미디어 콘텐츠(예를 들어, 비디오 및 이미지들), 미디어 콘텐츠 데이터(예를 들어, 비디오 및 이미지들과 연관된 데이터), 및 사용자 데이터(예를 들어, 사용자 클릭 데이터)를 포함할 수 있다. 네트워크화된 시스템(1000) 내의 데이터 교환은 클라이언트 애플리케이션(1014)의 사용자 인터페이스(UI)들을 통해 이용가능한 기능들을 통해 인보크되고 제어된다.

서버 시스템(1008)에서, API 서버(1002)는 애플리케이션 서버(1012)에 결합되어 애플리케이션 서버(1012)에 프로그램적 인터페이스를 제공한다. 애플리케이션 서버(1012)는 데이터베이스 서버(1024)에 통신가능하게 결합되고, 이는 애플리케이션 서버(1012)에 의해 처리되는 메시지들과 연관된 데이터가 저장되는 하나 이상의 데이터베이스(들)(1020)에 대한 액세스를 용이하게 한다.

API 서버(1010)는 클라이언트 디바이스(1002)와 애플리케이션 서버(1012) 사이에서 메시지 데이터(예를 들어, 커맨드들 및 메시지 페이로드들)를 수신하고 송신한다. 구체적으로, API 서버(1002)는 애플리케이션 서버(1012)의 기능성을 인보크하기 위해 클라이언트 애플리케이션(1014)에 의해 호출되거나 질의될 수 있는 인터페이스들(예를 들어, 루틴들 및 프로토콜들)의 세트를 제공한다. API 서버(1002)는 계정 등록; 로그인 기능성; 애플리케이션 서버(1012)를 통해 특정 클라이언트 애플리케이션(1014)으로부터 다른 클라이언트 애플리케이션(1014)으로 메시지들을 전송하는 것; 다른 클라이언트 애플리케이션(1014)에 의한 가능한 액세스를 위해, 클라이언트 애플리케이션(1014)으로부터 메시징 애플리케이션 서버(1016)로 미디어 파일들(예를 들어, 이미지들 또는 비디오)을 전송하는 것; 미디어 데이터의 컬렉션(예를 들어, 갤러리, 스토리, 메시지 컬렉션, 또는 미디어 컬렉션)의 설정; 클라이언트 디바이스(1010)의 사용자의 친구들의 리스트 검색; 이러한 컬렉션들의 검색; 메시지들 및 콘텐츠의 검색; 소셜 그래프에 친구들을 추가하고 소셜 그래프로부터 친구들을 삭제하는 것; 소셜 그래프 내의 친구들의 로케이션; 애플리케이션 이벤트(예를 들어, 클라이언트 애플리케이션(1014)에 관련됨)를 오픈하는 것; 기타 등등을 포함하는, 애플리케이션 서버(1012)에 의해 지원되는 다양한 기능을 노출시킨다.

애플리케이션 서버(1012)는 메시징 애플리케이션 서버(1016), 미디어 콘텐츠 처리 시스템(1018), 및 소셜 네트워크 시스템(1022)을 포함하는 다수의 애플리케이션 및 서브시스템을 호스팅한다. 메시징 애플리케이션 서버(1016)는, 특히 클라이언트 애플리케이션(1014)의 다수의 인스턴스로부터 수신된 메시지들에 포함된 콘텐츠(예를 들어, 텍스트 및 멀티미디어 콘텐츠)의 집성 및 다른 처리에 관련된, 다수의 메시지 처리 기술들 및 기능들을 구현한다. 다수의 소스로부터의 텍스트 및 미디어 콘텐츠는, 콘텐츠의 컬렉션들(예를 들어, 스토리들, 갤러리들, 또는 미디어 컬렉션들이라고 불림)로 집성(aggregate)될 수 있다. 그 후, 이러한 컬렉션들은, 메시징 애플리케이션 서버(1016)에 의해, 클라이언트 애플리케이션(1014)에 이용가능하게 된다. 다른 프로세서 및 메모리 집약적인 데이터의 처리는 또한, 그러한 처리를 위한 하드웨어 요건들을 고려하여, 메시징 애플리케이션 서버(1016)에 의해 서버측에서 수행될 수 있다.

애플리케이션 서버(1012)는, 전형적으로 메시징 애플리케이션 서버(1016)에서 메시지의 페이로드 내에서 수신된 이미지들 또는 비디오에 관하여, 다양한 미디어 콘텐츠 처리 동작들을 수행하는 데 전용되는 미디어 콘텐츠 처리 시스템(1018)을 또한 포함한다. 미디어 콘텐츠 처리 시스템(1018)은 미디어 콘텐츠를 처리하는 데 사용할 저장된 데이터를 검색하고 처리된 미디어 콘텐츠의 결과들을 저장하기 위해 하나 이상의 데이터 스토리지(예를 들어, 데이터베이스(들)(1020))에 액세스할 수 있다.

소셜 네트워크 시스템(1022)은 다양한 소셜 네트워킹 기능들 및 서비스들을 지원하고, 이들 기능들 및 서비스들을 메시징 애플리케이션 서버(1016)에 이용가능하게 한다. 이를 위해, 소셜 네트워크 시스템(1022)은 데이터베이스(1020) 내에서 엔티티 그래프(1204)(도 12에 도시됨)를 유지하고 액세스한다. 소셜 네트워크 시스템(1022)에 의해 지원되는 기능들 및 서비스들의 예들은, 특정 사용자가 관계를 가지는 또는 특정 사용자가 "팔로우하는" 네트워크화된 시스템(1000)의 다른 사용자들의 식별(identification), 및 또한 특정 사용자의 다른 엔티티들 및 관심사항들의 식별을 포함한다.

메시징 애플리케이션 서버(1016)는 클라이언트 디바이스들(1010)의 사용자들 사이의 메시지들의 생성 및 전달을 담당할 수 있다. 메시징 애플리케이션 서버(1016)는 다수의 메시지 전달 네트워크들 및 플랫폼들 중 어느 하나를 활용하여 메시지들을 사용자들에게 전달할 수 있다. 예를 들어, 메시징 애플리케이션 서버(1016)는 전자 메일(이메일), 인스턴트 메시지(instant message)(IM), 단문 메시지 서비스(Short Message Service)(SMS), 텍스트, 팩시밀리, 또는 음성(예를 들어, VoIP(Voice over IP)) 메시지들을 사용하여 유선 네트워크들(예를 들어, 인터넷), POTS(plain old telephone service), 또는 무선 네트워크들(예를 들어, 모바일, 셀룰러, WIFI, LTE(Long Term Evolution), 또는 블루투스)을 통해 메시지들을 전달할 수 있다.

도 11은 예시적인 실시예들에 따른 네트워크화된 시스템(1000)에 관한 추가의 상세들을 예시하는 블록도(1100)이다. 구체적으로, 시스템(1100)은 메시징 클라이언트 애플리케이션(1014) 및 애플리케이션 서버(1012)를 포함하는 것으로 도시되며, 이는 결국 다수의 일부 서브시스템, 즉, 단기적 타이머 시스템(ephemeral timer system)(1102), 컬렉션 관리 시스템(1104), 및 주석 시스템(1106)을 구현한다.

단기적 타이머 시스템(1102)은 메시징 클라이언트 애플리케이션(1014) 및 메시징 애플리케이션 서버(1016)에 의해 허용되는 콘텐츠에 대한 일시적인 액세스를 시행(enforcing)하는 것을 담당한다. 이를 위해, 단기적 타이머 시스템(1102)은, 메시지, 또는 메시지들의 컬렉션(예를 들어, 본 명세서에서 미디어 컬렉션들, 갤러리들, 메시지 컬렉션들, 스토리들 등으로 달리 지칭됨)과 연관된 지속기간 및 디스플레이 파라미터들에 기초하여, 메시징 클라이언트 애플리케이션(1014)을 통해 메시지들 및 연관된 콘텐츠를 선택적으로 디스플레이하고 그에 대한 액세스를 가능하게 하는 다수의 타이머를 포함한다.

컬렉션 관리 시스템(1104)은, 본 명세서에서 "미디어 컬렉션들"로 달리 지칭되는, 미디어의 컬렉션들(예를 들어, 텍스트, 이미지, 비디오, 및 오디오 데이터의 컬렉션들)을 관리하는 것을 담당한다. 일부 예들에서, 콘텐츠의 컬렉션(예를 들어, 이미지들, 비디오, 텍스트, 및 오디오를 포함하는 메시지들)은 "이벤트 갤러리(event gallery)" 또는 "이벤트 스토리(event story)"로 조직될 수 있다. 이러한 컬렉션은, 콘텐츠가 관련된 이벤트의 지속기간과 같은, 특정된 시간 기간 동안 이용가능하게 될 수 있다. 예를 들어, 음악 콘서트와 관련된 콘텐츠는 그 음악 콘서트의 지속기간 동안 "스토리"로서 이용가능하게 될 수 있다. 컬렉션 관리 시스템(1104)은 또한 메시징 클라이언트 애플리케이션(1014)의 사용자 인터페이스에 특정 컬렉션의 존재의 통지를 제공하는 아이콘을 게시(publishing)하는 것을 담당할 수 있다.

컬렉션 관리 시스템(1104)은 더욱이 컬렉션 관리자가 특정 콘텐츠의 컬렉션을 관리 및 큐레이팅하는 것을 허용하는 큐레이션 인터페이스(curation interface)(1108)를 포함한다. 예를 들어, 큐레이션 인터페이스(1108)는 이벤트 조직자(event organizer)가 특정 이벤트에 관련된 콘텐츠의 컬렉션을 큐레이팅(예를 들어, 부적절한 콘텐츠 또는 중복 메시지들을 삭제)하는 것을 가능하게 한다. 추가적으로, 컬렉션 관리 시스템(1104)은 머신 비전(또는 이미지 인식 기술) 및 콘텐츠 규칙들을 사용하여 콘텐츠 컬렉션을 자동으로 큐레이팅한다. 특정 실시예들에서, 사용자-생성 콘텐츠를 컬렉션에 포함시키는 것에 대한 보상(예를 들어, 금전, 메시징 시스템 또는 제3자 리워드 시스템과 연관된 비-금전 크레딧들 또는 포인트들(non-money credits or points), 여행 마일, 아트워크(artwork) 또는 특수 렌즈들에 대한 액세스 등)이 사용자에게 지불될 수 있다. 그러한 경우들에서, 큐레이션 인터페이스(1108)는 그러한 사용자들에게 그들의 콘텐츠를 사용하는 것에 대해 자동으로 지불하도록 동작한다.

주석 시스템(1106)은 사용자가 메시지와 연관된 미디어 콘텐츠를 주석하거나 다른 방식으로 수정하거나 편집하는 것을 가능하게 하는 다양한 기능들을 제공한다. 예를 들어, 주석 시스템(1106)은 네트워크화된 시스템(1000)에 의해 처리된 메시지들에 대한 미디어 오버레이들의 생성 및 게시와 관련된 기능들을 제공한다. 일 예에서, 주석 시스템(1106)은 클라이언트 디바이스(1010)의 지오로케이션에 기초하여 메시징 클라이언트 애플리케이션(1014)에 미디어 오버레이(예를 들어, 필터 또는 미디어 증강)를 동작적으로 공급한다. 다른 예에서, 주석 시스템(1106)은 클라이언트 디바이스(1010)의 사용자의 소셜 네트워크 정보와 같은 다른 정보에 기초하여 메시징 클라이언트 애플리케이션(1014)에 미디어 오버레이를 동작적으로 공급한다. 미디어 오버레이는 오디오 및 시각적 콘텐츠 및 시각적 효과를 포함할 수 있다. 오디오 및 시각적 콘텐츠의 예는, 사진, 텍스트, 로고, 애니메이션, 및 음향 효과를 포함한다. 시각적 효과의 예는 컬러 오버레잉(color overlaying)을 포함한다. 오디오 및 시각적 콘텐츠 또는 시각적 효과들은 클라이언트 디바이스(1010)에서 미디어 콘텐츠 아이템(예를 들어, 사진)에 적용될 수 있다. 예를 들어, 미디어 오버레이는 클라이언트 디바이스(1010)에 의해 촬영된 사진의 최상부에 오버레이될 수 있는 텍스트를 포함한다. 다른 예에서, 미디어 오버레이는 로케이션 식별 오버레이(예를 들어, Venice Beach), 라이브 이벤트의 이름, 또는 머천트 이름 오버레이(예를 들어, Beach Coffee House)를 포함한다. 다른 예에서, 주석 시스템(1106)은 클라이언트 디바이스(1010)의 지오로케이션을 사용하여, 클라이언트 디바이스(1010)의 지오로케이션에서의 머천트의 이름을 포함하는 미디어 오버레이를 식별한다. 미디어 오버레이는 머천트와 연관된 다른 표시들을 포함할 수 있다. 미디어 오버레이들은 데이터베이스(1020)에 저장되고 데이터베이스 서버(1024)를 통해 액세스될 수 있다.

이하에서 더 상세히 설명되는 바와 같이, 주석 시스템(1106)은 또한 사용자가 대화형 메시지에 하나 이상의 미디어 콘텐츠 아이템을 추가하는 등에 의해 대화형 메시지와 상호작용할 수 있게 할 수 있다. 하나의 예시적인 실시예에서, 주석 시스템(1106)은 사용자 또는 머천트가 사용자들이 개인 콘텐츠를 추가할 수 있는 대화형 메시지와 연관된 복수의 객체를 갖는 대화형 메시지를 생성할 수 있게 해주는 게시 플랫폼(publication platform)을 제공한다. 예를 들어, 설계자는 밴드의 상이한 멤버들(드럼 연주자, 키보드 연주자, 기타 연주자 등)에 대한 다양한 대화형 객체들을 갖는 록 밴드의 비디오를 생성할 수 있다. 록 밴드의 비디오는 대화형 메시지로서 사용자들에게 이용가능하게 될 수 있다.

하나의 예시적인 실시예에서, 주석 시스템(1106)은 사용자들이 지도 상에서 지오로케이션을 선택하고, 선택된 지오로케이션과 연관된 콘텐츠를 업로드하는 것을 가능하게 하는 사용자-기반 게시 플랫폼(user-based publication platform)을 제공한다. 사용자는 또한 특정 미디어 오버레이가 다른 사용자들에게 제공(offer)되어야 하는 상황들을 특정할 수 있다. 주석 시스템(1106)은 업로드된 콘텐츠를 포함하고 업로드된 콘텐츠를 선택된 지오로케이션과 연관시키는 미디어 오버레이를 생성한다.

다른 예시적인 실시예에서, 주석 시스템(1106)은 머천트들이 입찰 프로세스(bidding process)를 통해 지오로케이션과 연관된 특정 미디어 오버레이를 선택하는 것을 가능하게 하는 머천트-기반 게시 플랫폼(merchant-based publication platform)을 제공한다. 예를 들어, 주석 시스템(1106)은 최고 입찰 머천트의 미디어 오버레이를 미리 정의된 양의 시간 동안 대응하는 지오로케이션과 연관시킨다.

도 12는, 특정 예시적인 실시예들에 따른, 서버 시스템(1008)의 데이터베이스(들)(1020)에 저장될 수 있는 데이터를 예시하는 개략도(1200)이다. 데이터베이스(1020)의 콘텐츠가 다수의 테이블을 포함하는 것으로 도시되어 있지만, 데이터는 (예를 들어, 객체 지향 데이터베이스로서) 다른 타입들의 데이터 구조들에 저장될 수 있다는 것을 인식할 것이다.

데이터베이스(1020)는 메시지 테이블(1214) 내에 저장된 메시지 데이터를 포함한다. 엔티티 테이블(1202)은 엔티티 그래프(1204)를 포함하는 엔티티 데이터를 저장한다. 엔티티 테이블(1202) 내에 레코드들이 유지되는 엔티티들은, 개인, 법인 엔티티, 조직, 객체, 장소, 이벤트 등을 포함할 수 있다. 타입에 관계없이, 서버 시스템(1008)이 그에 관한 데이터를 저장하는 임의의 엔티티는 인식된 엔티티(recognized entity)일 수 있다. 각각의 엔티티에는 고유 식별자뿐만 아니라 엔티티 타입 식별자(도시되지 않음)가 제공된다.

엔티티 그래프(1204)는 또한 엔티티들 사이의 관계 및 연관에 관한 정보를 저장한다. 그러한 관계들은, 단지 예를 들어, 사회적, 전문적(예를 들어, 일반 법인 또는 조직에서의 일), 관심-기반, 또는 활동-기반일 수 있다.

데이터베이스(1020)는 또한 주석 데이터를, 미디어 오버레이들 또는 필터들의 예시적인 형태로, 주석 테이블(1212)에 저장한다. 주석 데이터는 또한 본 명세서에서 "창작 도구들(creative tools)" 또는 "대화형 피처들(interactive features)"로 지칭될 수 있다. 주석 데이터는 사용자들에게 제공될 미리 정의된 대화형 메시지들을 포함할 수 있다.

주석 테이블(1212) 내에 그에 대한 데이터가 저장되는 미디어 오버레이들 또는 필터들은, 비디오들(그에 대한 데이터가 비디오 테이블(1210)에 저장됨) 및/또는 이미지들(그에 대한 데이터가 이미지 테이블(1208)에 저장됨)과 연관되고 이들에 적용된다. 일 예에서, 필터들은 수신자 사용자에의 제시 동안 이미지 또는 비디오 상에 오버레이되어 디스플레이되는 오버레이들이다. 필터들은, 전송측 사용자가 메시지를 작성하고 있을 때 메시징 클라이언트 애플리케이션(1014)에 의해 전송측 사용자에게 제시되는 필터들의 갤러리로부터의 사용자-선택된 필터들을 포함한, 다양한 타입들의 필터들일 수 있다. 다른 타입의 필터들은, 지리적 로케이션에 기초하여 전송측 사용자에게 제시될 수 있는 지오로케이션 필터들(지오-필터들이라고도 알려짐)을 포함한다. 예를 들어, 이웃 또는 특별한 로케이션에 특정한 지오로케이션 필터들은, 클라이언트 디바이스(1010)의 GPS 유닛에 의해 결정되는 지오로케이션 정보에 기초하여 메시징 클라이언트 애플리케이션(1014)에 의해 사용자 인터페이스 내에 제시될 수 있다. 다른 타입의 필터는, 메시지 생성 프로세스 동안 클라이언트 디바이스(1010)에 의해 수집된 다른 입력들 또는 정보에 기초하여, 메시징 클라이언트 애플리케이션(1014)에 의해 전송측 사용자에게 선택적으로 제시될 수 있는 데이터 필터이다. 데이터 필터들의 예들은, 특정 로케이션에서의 현재 온도, 전송측 사용자가 이동(traveling)하고 있는 현재 속도, 클라이언트 디바이스(1010)에 대한 배터리 수명, 또는 현재 시간을 포함한다.

주석 테이블(1212) 내에 저장될 수 있는 다른 주석 데이터는 소위 "렌즈(lens)" 데이터이다. "렌즈"는 이미지 또는 비디오에 추가될 수 있는 실시간 특수 효과 및 음향일 수 있다.

위에 언급한 바와 같이, 비디오 테이블(1210)은, 일 실시예에서, 그에 대한 레코드들이 메시지 테이블(1214) 내에 유지되는 메시지들과 연관되는 비디오 데이터를 저장한다. 유사하게, 이미지 테이블(1208)은 그에 대한 메시지 데이터가 엔티티 테이블(1214)에 저장되는 메시지들과 연관된 이미지 데이터를 저장한다. 엔티티 테이블(1202)은 주석 테이블(1212)로부터의 다양한 주석들을 이미지 테이블(1208) 및 비디오 테이블(1210)에 저장된 다양한 이미지들 및 비디오들과 연관시킬 수 있다.

스토리 테이블(1206)은, 컬렉션(예를 들어, 스토리, 갤러리, 또는 미디어 컬렉션)으로 컴파일되는, 메시지들 및 연관된 이미지, 비디오, 또는 오디오 데이터의 컬렉션들에 관한 데이터를 저장한다. 특정 컬렉션의 생성은 특정 사용자(예를 들어, 그에 대한 레코드가 엔티티 테이블(1202)에 유지되는 임의의 사용자)에 의해 개시될 수 있다. 사용자는 그 사용자에 의해 생성되고 전송/브로드캐스트된 콘텐츠의 컬렉션의 형태로 "개인 스토리"를 생성할 수 있다. 이를 위해, 메시징 클라이언트 애플리케이션(1014)의 사용자 인터페이스는, 전송측 사용자가 자신의 개인 스토리에 특정 콘텐츠를 추가하는 것을 가능하게 하기 위해 사용자 선택가능한 아이콘을 포함할 수 있다.

미디어 또는 메시지 컬렉션은 또한, 수동으로, 자동으로, 또는 수동 및 자동 기법들의 조합을 사용하여 생성되는 다수의 사용자로부터의 콘텐츠의 컬렉션인 "라이브 스토리"를 구성할 수 있다. 예를 들어, "라이브 스토리"는 다양한 로케이션들 및 이벤트들로부터의 사용자-제출 콘텐츠(user-submitted content)의 큐레이팅된 스트림(curated stream)을 구성할 수 있다. 로케이션 서비스 가능한(location services enabled) 클라이언트 디바이스들(1010)을 갖고 특정 시간에 공통 이벤트 로케이션에 있는 사용자들에게는, 예를 들어, 메시징 클라이언트 애플리케이션(1014)의 사용자 인터페이스를 통해, 특정 라이브 스토리에 콘텐츠를 기여하는 옵션이 제시될 수 있다. 라이브 스토리는 자신의 로케이션에 기초하여 메시징 클라이언트 애플리케이션(1014)에 의해 사용자에게 식별될 수 있다. 최종 결과는 커뮤니티 관점에서 말한 "라이브 스토리"이다.

추가적인 타입의 콘텐츠 컬렉션은, 특정 지리적 로케이션 내에(예를 들어, 단과대학 또는 대학 캠퍼스에) 위치하는 클라이언트 디바이스(1010)를 갖는 사용자가 특정 컬렉션에 기여하는 것을 가능하게 하는 "로케이션 스토리(location story)"라고 알려져 있다. 일부 실시예들에서, 로케이션 스토리에 대한 기여는 최종 사용자가 특정 조직 또는 다른 엔티티에 속하는지(예를 들어, 대학 캠퍼스의 학생인지)를 검증하기 위해 제2 인증 정도(second degree of authentication)를 요구할 수 있다.

도 13은 추가의 클라이언트 애플리케이션(1014) 또는 메시징 애플리케이션 서버(1016)로의 통신을 위해 클라이언트 애플리케이션(1014)에 의해 생성된, 일부 실시예들에 따른, 메시지(1300)의 구조를 예시하는 개략도이다. 특정 메시지(1300)의 콘텐츠는 메시징 애플리케이션 서버(1016)에 의해 액세스 가능한, 데이터베이스(1020) 내에 저장된 메시지 테이블(1214)을 채우는 데 사용된다. 유사하게, 메시지(1300)의 콘텐츠는 클라이언트 디바이스(1010) 또는 애플리케이션 서버(1012)의 "수송중(in-transit)" 또는 "비행중(in-flight)" 데이터로서 메모리에 저장된다. 메시지(1300)는 다음의 컴포넌트들을 포함하는 것으로 도시되어 있다:

● 메시지 식별자(1302): 메시지(1300)를 식별하는 고유 식별자.

● 메시지 텍스트 페이로드(1304): 클라이언트 디바이스(1010)의 사용자 인터페이스를 통해 사용자에 의해 생성되고 메시지(1300)에 포함되는 텍스트.

● 메시지 이미지 페이로드(1306): 클라이언트 디바이스(1010)의 카메라 컴포넌트에 의해 캡처되거나 클라이언트 디바이스(1010)의 메모리로부터 검색되고, 메시지(1300)에 포함되는 이미지 데이터.

● 메시지 비디오 페이로드(1308): 카메라 컴포넌트에 의해 캡처되거나 클라이언트 디바이스(1010)의 메모리 컴포넌트로부터 검색되고 메시지(1300)에 포함되는 비디오 데이터.

● 메시지 오디오 페이로드(1310): 마이크로폰에 의해 캡처되거나 클라이언트 디바이스(1010)의 메모리 컴포넌트로부터 검색되고, 메시지(1300)에 포함되는 오디오 데이터.

● 메시지 주석(1312): 메시지(1300)의 메시지 이미지 페이로드(1306), 메시지 비디오 페이로드(1308) 또는 메시지 오디오 페이로드(1310)에 적용될 주석을 나타내는 주석 데이터(예를 들어, 필터들, 스티커들, 또는 다른 개선들과 같은 미디어 오버레이들).

● 메시지 지속기간 파라미터(1314): 메시지(1300)의 콘텐츠(예를 들어, 메시지 이미지 페이로드(1306), 메시지 비디오 페이로드(1308), 메시지 오디오 페이로드(1310))가 메시징 클라이언트 애플리케이션(1014)을 통해 사용자에게 제시되거나 액세스가능하게 되는 시간의 양을 초 단위로 표시하는 파라미터 값.

● 메시지 지오로케이션 파라미터(1316): 메시지(1300)의 콘텐츠 페이로드와 연관된 지오로케이션 데이터(예를 들어, 위도 및 경도 좌표들). 다수의 메시지 지오로케이션 파라미터(1316) 값들이 페이로드에 포함될 수 있으며, 이들 파라미터 값들 각각은 콘텐츠(예를 들어, 메시지 이미지 페이로드(1306) 내의 특정 이미지, 또는 메시지 비디오 페이로드(1308) 내의 특정 비디오)에 포함된 콘텐츠 아이템들에 관하여 연관된다.

● 메시지 스토리 식별자(1318): 메시지(1300)의 메시지 이미지 페이로드(1306) 내의 특정 콘텐츠 아이템이 연관되어 있는 하나 이상의 콘텐츠 컬렉션(예를 들어, "스토리")을 식별하는 식별자 값들. 예를 들어, 메시지 이미지 페이로드(1306) 내의 다수의 이미지는 각각 식별자 값들을 사용하여 다수의 콘텐츠 컬렉션과 연관될 수 있다.

● 메시지 태그(1320): 각각의 메시지(1300)는 다수의 태그로 태깅될 수 있고, 그 각각은 메시지 페이로드에 포함된 콘텐츠의 주제를 나타낸다. 예를 들어, 메시지 이미지 페이로드(1306)에 포함된 특정 이미지가 동물(예를 들어, 사자)을 묘사하는 경우, 관련 동물을 나타내는 태그 값이 메시지 태그(1320) 내에 포함될 수 있다. 태그 값들은, 사용자 입력에 기초하여 수동으로 생성될 수 있거나, 또는 예를 들어, 이미지 인식을 사용하여 자동으로 생성될 수 있다.

● 메시지 전송자 식별자(1322): 메시지(1300)가 생성되었고 메시지(1300)가 전송된 클라이언트 디바이스(1010)의 사용자를 나타내는 식별자(예를 들어, 메시징 시스템 식별자, 이메일 주소, 또는 디바이스 식별자).

● 메시지 수신자 식별자(1324): 메시지(1300)가 어드레싱되는 클라이언트 디바이스(1010)의 사용자를 나타내는 식별자(예를 들어, 메시징 시스템 식별자, 이메일 주소, 또는 디바이스 식별자).

메시지(1300)의 다양한 컴포넌트들의 콘텐츠(예를 들어, 값들)는 그 안에 콘텐츠 데이터 값들이 저장되어 있는 테이블들 내의 로케이션들에 대한 포인터들일 수 있다. 예를 들어, 메시지 이미지 페이로드(1306) 내의 이미지 값은 이미지 테이블(1208) 내의 로케이션에 대한 포인터(또는 그의 어드레스)일 수 있다. 유사하게, 메시지 비디오 페이로드(1308) 내의 값들은 비디오 테이블(1210) 내에 저장된 데이터를 가리킬 수 있고, 메시지 주석들(1312) 내에 저장된 값들은 주석 테이블(1212)에 저장된 데이터를 가리킬 수 있고, 메시지 스토리 식별자(1318) 내에 저장된 값들은 스토리 테이블(1206)에 저장된 데이터를 가리킬 수 있고, 메시지 전송자 식별자(1322) 및 메시지 수신자 식별자(1324) 내에 저장된 값들은 엔티티 테이블(1202) 내에 저장된 사용자 레코드들을 가리킬 수 있다.

도 14는 전술한 디바이스들 중 임의의 하나 이상에 설치될 수 있는 소프트웨어 아키텍처(1402)를 예시하는 블록도(1400)이다. 예를 들어, 다양한 실시예들에서, 클라이언트 디바이스들(1010), 서버 시스템(1008), 및 서버들(1002, 1012, 1016, 1018, 1022, 및 1024)은 소프트웨어 아키텍처(1402)의 요소들의 일부 또는 전부를 사용하여 구현될 수 있다. 도 14는 소프트웨어 아키텍처의 비제한적인 예일 뿐이며, 본 명세서에 설명된 기능을 용이하게 하기 위해 많은 다른 아키텍처들이 구현될 수 있다는 것을 알 것이다. 다양한 실시예들에서, 소프트웨어 아키텍처(1402)는 프로세서들(1510), 메모리(1530), 및 I/O 컴포넌트들(1550)을 포함하는 도 15의 머신(1500)과 같은 하드웨어에 의해 구현된다. 이 예에서, 소프트웨어 아키텍처(1402)는 각각의 계층이 특정 기능을 제공할 수 있는 계층들의 스택으로서 개념화될 수 있다. 예를 들어, 소프트웨어 아키텍처(1402)는 운영 체제(1404), 라이브러리들(1406), 프레임워크들(1408), 및 애플리케이션들(1410)과 같은 계층들을 포함한다. 동작적으로, 애플리케이션들(1410)은, 일부 실시예들에 따라, 소프트웨어 스택을 통해 API 호출들(1412)을 인보크하고, API 호출들(1412)에 응답하여 메시지들(1414)을 수신한다.

다양한 구현에서, 운영 체제(1404)는 하드웨어 자원들을 관리하고 공통 서비스들을 제공한다. 운영 체제(1404)는, 예를 들어, 커널(1420), 서비스들(1422), 및 드라이버들(1424)을 포함할 수 있다. 커널(1420)은 일부 실시예들에 따라 하드웨어와 다른 소프트웨어 계층들 사이의 추상화 계층(abstraction layer)으로서 작용한다. 예를 들어, 커널(1420)은 다른 기능 중에서도, 메모리 관리, 프로세서 관리(예를 들어, 스케줄링), 컴포넌트 관리, 네트워킹, 및 보안 설정들을 제공한다. 서비스들(1422)은 다른 소프트웨어 계층들에 대한 다른 공통 서비스들을 제공할 수 있다. 일부 실시예들에 따르면, 드라이버들(1424)은 기저 하드웨어(underlying hardware)를 제어하거나 그와 인터페이싱하는 것을 담당한다. 예를 들어, 드라이버들(1424)은 디스플레이 드라이버들, 카메라 드라이버들, BLUETOOTH® 또는 BLUETOOTH® Low Energy 드라이버들, 플래시 메모리 드라이버들, 직렬 통신 드라이버들(예를 들어, 범용 직렬 버스(Universal Serial Bus)(USB) 드라이버들), WI-FI® 드라이버들, 오디오 드라이버들, 전력 관리 드라이버들 등을 포함할 수 있다.

일부 실시예들에서, 라이브러리들(1406)은 애플리케이션들(1410)에 의해 이용되는 저레벨 공통 인프라스트럭처를 제공한다. 라이브러리들(1406)은, 메모리 할당 기능, 문자열 조작 기능, 수학 기능 등과 같은 기능을 제공할 수 있는 시스템 라이브러리들(1430)(예를 들어, C 표준 라이브러리)을 포함할 수 있다. 또한, 라이브러리들(1406)은 미디어 라이브러리들(예를 들어, MPEG4(Moving Picture Experts Group-4), 진보된 비디오 코딩(Advanced Video Coding)(H.264 또는 AVC), MP3(Moving Picture Experts Group Layer-3), 진보된 오디오 코딩(Advanced Audio Coding, AAC), 적응적 멀티-레이트(Adaptive Multi-Rate, AMR) 오디오 코덱, 공동 영상 전문가 그룹(Joint Photographic Experts Group)(JPEG 또는 JPG), 또는 이동성 네트워크 그래픽(Portable Network Graphics, PNG)과 같은 다양한 미디어 포맷들의 제시 및 조작을 지원하는 라이브러리들), 그래픽 라이브러리들(예를 들어, 디스플레이 상에 2차원(2D) 및 3차원(3D)으로 그래픽 콘텐츠를 렌더링하기 위해 사용되는 OpenGL 프레임워크), 데이터베이스 라이브러리들(예를 들어, 다양한 관계형 데이터베이스 기능들을 제공하는 SQLite), 웹 라이브러리들(예를 들어, 웹 브라우징 기능성을 제공하는 WebKit) 등과 같은 API 라이브러리들(1432)을 포함할 수 있다. 라이브러리들(1406)은 또한, 많은 다른 API를 애플리케이션들(1410)에 제공하는 매우 다양한 다른 라이브러리들(1434)을 포함할 수 있다.

프레임워크들(1408)은 일부 실시예들에 따라 애플리케이션(1410)에 의해 이용될 수 있는 고레벨 공통 인프라스트럭처를 제공한다. 예를 들어, 프레임워크들(1408)은 다양한 그래픽 사용자 인터페이스(GUI) 기능, 고레벨 자원 관리, 고레벨 로케이션 서비스들 등을 제공한다. 프레임워크들(1408)은 애플리케이션들(1410)에 의해 이용될 수 있는 광범위한 다른 API들을 제공할 수 있으며, 그 중 일부는 특정 운영 체제(1404) 또는 플랫폼에 특정적일 수 있다.

예시적인 실시예에서, 애플리케이션들(1410)은 홈 애플리케이션(1450), 연락처 애플리케이션(1452), 브라우저 애플리케이션(1454), 북 리더 애플리케이션(1456), 로케이션 애플리케이션(1458), 미디어 애플리케이션(1460), 메시징 애플리케이션(1462), 게임 애플리케이션(1464), 및 제3자 애플리케이션들(1466)과 같은 여러 가지 다른 애플리케이션들을 포함한다. 일부 실시예들에 따르면, 애플리케이션들(1410)은 프로그램들에 정의된 기능들을 실행하는 프로그램들이다. 객체 지향 프로그래밍 언어(예를 들어, Objective-C, Java, 또는 C++) 또는 절차적 프로그래밍 언어(procedural programming language)(예를 들어, C 또는 어셈블리 언어)와 같은, 다양한 방식으로 구조화된, 애플리케이션들(1410) 중 하나 이상을 생성하기 위해 다양한 프로그래밍 언어들이 이용될 수 있다. 구체적인 예에서, 제3자 애플리케이션(1466)(예를 들어, 특정 플랫폼의 벤더 이외의 엔티티에 의해 ANDROID™ 또는 IOS™ 소프트웨어 개발 키트(SDK)를 사용하여 개발된 애플리케이션)은 IOS™, ANDROID™, WINDOWS® Phone, 또는 다른 모바일 운영 체제와 같은 모바일 운영 체제 상에서 실행되는 모바일 소프트웨어일 수 있다. 이 예에서, 제3자 애플리케이션(1466)은 본 명세서에 설명된 기능을 용이하게 하기 위해 운영 체제(1404)에 의해 제공되는 API 호출들(1412)을 인보크할 수 있다.

일부 실시예들은 특히 카메라-기반 애플리케이션(1467)을 포함할 수 있다. 특정 실시예들에서, 이것은 제3자 서버들 또는 서버 시스템(1008)과 같은 서버 시스템과의 통신들을 관리하도록 동작하는 독립형 애플리케이션일 수 있다. 다른 실시예들에서, 이러한 기능성은 다른 애플리케이션(예를 들어, 메시징 애플리케이션(1462))과 통합될 수 있다. 카메라-기반 애플리케이션(1467)은 메시징, 미디어 콘텐츠, 미디어 컬렉션들, 미디어 오버레이들 등에 관련된 다양한 데이터를 요청하고 디스플레이할 수 있으며, 사용자가 터치 인터페이스, 키보드를 통해, 또는 머신(1500)의 카메라 디바이스를 사용하여 시스템에 관련된 데이터를 입력하는 능력, I/O 컴포넌트들(1550)을 통한 서버 시스템과의 통신, 및 객체 데이터의 수신과 메모리(1530) 내의 저장을 제공할 수 있다. 정보의 제시 및 정보와 연관된 사용자 입력들은 머신(1500) 상에서 동작하는 상이한 프레임워크들(1408), 라이브러리(1406) 요소들, 또는 운영 체제(1404) 요소들을 사용하여 카메라-기반 애플리케이션(1467)에 의해 관리될 수 있다.

도 15는 머신 판독가능 매체(예를 들어, 머신 판독가능 저장 매체)로부터 명령어들을 판독하여 본 명세서에서 논의된 방법론들 중 임의의 하나 이상을 수행할 수 있는, 일부 실시예들에 따른, 머신(1500)의 컴포넌트들을 예시하는 블록도이다. 구체적으로, 도 15는 컴퓨터 시스템의 예시적인 형태로 머신(1500)의 도식적 표현을 도시하며, 그 내에서 머신(1500)으로 하여금 본 명세서에서 논의된 방법론들 중 임의의 하나 이상을 수행하게 하기 위한 명령어들(1516)(예를 들어, 소프트웨어, 프로그램, 애플리케이션, 애플릿, 앱, 또는 다른 실행가능 코드)이 실행될 수 있다. 대안적인 실시예들에서, 머신(1500)은 독립형 디바이스로서 동작하거나 또는 다른 머신들에 결합(예를 들어, 네트워크화)될 수 있다. 네트워크화된 배치에서, 머신(1500)은 서버-클라이언트 네트워크 환경에서의 서버 머신(1008, 1012, 1016, 1022, 1024 등) 또는 클라이언트 디바이스(1010)로서, 또는 피어-투-피어(또는 분산형) 네트워크 환경에서 피어 머신으로서 동작할 수 있다. 머신(1500)은 서버 컴퓨터, 클라이언트 컴퓨터, 개인용 컴퓨터(PC), 태블릿 컴퓨터, 랩톱 컴퓨터, 넷북, 개인용 디지털 보조기기(personal digital assistant, PDA), 엔터테인먼트 미디어 시스템, 셀룰러 전화기, 스마트폰, 모바일 디바이스, 웨어러블 디바이스(예를 들어, 스마트 시계), 스마트 홈 디바이스(예를 들어, 스마트 어플라이언스), 다른 스마트 디바이스들, 웹 어플라이언스, 네트워크 라우터, 네트워크 스위치, 네트워크 브리지, 또는 머신(1500)에 의해 취해질 액션들을 특정하는 명령어들(1516)을 순차적으로 또는 다른 방식으로 실행할 수 있는 임의의 머신을 포함할 수 있고, 이에 제한되지 않는다. 또한, 단일 머신(1500)만이 예시되지만, 용어 "머신"은 또한 본 명세서에서 논의되는 방법론들 중 임의의 하나 이상을 수행하기 위해 명령어들(1516)을 개별적으로 또는 공동으로 실행하는 머신들(1500)의 컬렉션을 포함하는 것으로 간주되어야 한다.

다양한 실시예들에서, 머신(1500)은, 버스(1502)를 통해 서로 통신하도록 구성될 수 있는 프로세서들(1510), 메모리(1530), 및 I/O 컴포넌트들(1550)을 포함한다. 예시적인 실시예에서, 프로세서들(1510)(예를 들어, 중앙 처리 유닛(CPU), 축소 명령어 세트 컴퓨팅(reduced instruction set computing, RISC) 프로세서, 복잡 명령어 세트 컴퓨팅(complex instruction set computing, CISC) 프로세서, 그래픽 처리 유닛(graphics processing unit, GPU), 디지털 신호 프로세서(digital signal processor, DSP), 주문형 집적 회로(application specific integrated circuit, ASIC), 무선 주파수 집적 회로(radio-frequency integrated circuit, RFIC), 다른 프로세서, 또는 이들의 임의의 적절한 조합)은, 예를 들어, 명령어들(1516)을 실행할 수 있는 프로세서(1512) 및 프로세서(1514)를 포함한다. "프로세서"라는 용어는 명령어들(1516)을 동시에 실행할 수 있는 2개 이상의 독립 프로세서(1512, 1514)("코어"라고도 함)를 포함할 수 있는 멀티-코어 프로세서들(1510)을 포함하는 것으로 의도된다. 도 15는 다수의 프로세서(1510)를 도시하지만, 머신(1500)은 단일 코어를 갖는 단일 프로세서(1510), 다수의 코어를 갖는 단일 프로세서(1510)(예를 들어, 멀티-코어 프로세서(1510)), 단일 코어를 갖는 다수의 프로세서(1512, 1514), 다수의 코어를 갖는 다수의 프로세서(1512, 1514), 또는 그의 임의의 조합을 포함할 수 있다.

일부 실시예들에 따르면, 메모리(1530)는, 버스(1502)를 통해 프로세서들(1510)에 액세스할 수 있는, 메인 메모리(1532), 정적 메모리(1534), 및 스토리지 유닛(1536)을 포함한다. 스토리지 유닛(1536)은, 본 명세서에서 설명된 방법론들 또는 기능들 중 임의의 하나 이상을 구현하는 명령어들(1516)이 저장되어 있는 머신 판독가능 매체(1518)를 포함할 수 있다. 명령어들(1516)은 또한 머신(1500)에 의한 실행 동안, 메인 메모리(1532) 내에, 정적 메모리(1534) 내에, 프로세서들(1510) 중 적어도 하나의 프로세서 내에(예를 들어, 프로세서의 캐시 메모리 내에), 또는 그것들의 임의의 적절한 조합 내에 완전하게 또는 적어도 부분적으로 상주할 수 있다. 따라서, 다양한 실시예에서, 메인 메모리(1532), 정적 메모리(1534), 및 프로세서들(1510)은 머신 판독가능 매체(1518)로서 간주된다.

본 명세서에서 사용될 때, "메모리"라는 용어는, 데이터를 일시적으로 또는 영구적으로 저장할 수 있는 머신 판독가능 매체(1518)를 말하며, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 버퍼 메모리, 플래시 메모리, 및 캐시 메모리를 포함하지만 이것으로 제한되지 않는 것으로 간주된다. 머신 판독가능 매체(1518)가 예시적인 실시예에서 단일 매체인 것으로 도시되어 있지만, 용어 "머신 판독가능 매체"는 명령어들(1516)을 저장할 수 있는 단일 매체 또는 다수의 매체(예를 들어, 중앙집중형 또는 분산형 데이터베이스, 또는 연관된 캐시들 및 서버들)를 포함하는 것으로 간주되어야 한다. "머신 판독가능 매체"라는 용어는, 명령어들(1516)이, 머신(1500)의 하나 이상의 프로세서(예를 들어, 프로세서(1510))에 의해 실행될 때, 머신(1500)으로 하여금, 본 명세서에서 설명된 방법론들 중 임의의 하나 이상을 수행하게 하도록, 머신(예를 들어, 머신(1500))에 의한 실행을 위한 명령어들(예를 들어, 명령어들(1516))을 저장할 수 있는 임의의 매체 또는 다수의 매체의 조합을 포함하는 것으로 또한 간주되어야 한다. 따라서, "머신 판독가능 매체"는, 단일 스토리지 장치 또는 디바이스뿐만 아니라, 다수의 스토리지 장치 또는 디바이스를 포함하는 "클라우드 기반" 스토리지 시스템들 또는 스토리지 네트워크들을 지칭한다. 따라서, "머신 판독가능 매체"라는 용어는, 고체 상태 메모리(예를 들어, 플래시 메모리), 광학 매체, 자기 매체, 다른 비휘발성 메모리(예를 들어, 소거가능한 프로그램가능 판독 전용 메모리(erasable programmable read-only memory, EPROM)), 또는 그의 임의의 적절한 조합의 형태로 된 하나 이상의 데이터 리포지토리(data repository)를 포함하지만 이에 제한되지 않는 것으로 간주되어야 한다. "머신 판독가능 매체"라는 용어는 구체적으로 비-법정 신호들(non-statutory signals) 자체를 배제한다.

I/O 컴포넌트들(1550)은, 입력을 수신하고, 출력을 제공하며, 출력을 생성하고, 정보를 송신하고, 정보를 교환하며, 측정들을 캡처하는 등을 행하는 매우 다양한 컴포넌트들을 포함한다. 일반적으로, I/O 컴포넌트들(1550)은 도 15에 도시되지 않은 많은 다른 컴포넌트를 포함할 수 있다는 것을 알 것이다. I/O 컴포넌트들(1550)은 단지 이하의 논의를 간소화하기 위해 기능성에 따라 그룹화되어 있고, 이러한 그룹화는 어떠한 방식으로든 제한하는 것이 아니다. 다양한 예시적인 실시예들에서, I/O 컴포넌트들(1550)은 출력 컴포넌트들(1552) 및 입력 컴포넌트들(1554)을 포함한다. 출력 컴포넌트들(1552)은, 시각 컴포넌트들(예를 들어, 플라즈마 디스플레이 패널(PDP), 발광 다이오드(LED) 디스플레이, 액정 디스플레이(LCD), 프로젝터, 또는 음극선관(cathode ray tube, CRT)과 같은 디스플레이), 음향 컴포넌트들(예를 들어, 스피커들), 햅틱 컴포넌트들(예를 들어, 진동 모터), 다른 신호 생성기들 등을 포함한다. 입력 컴포넌트들(1554)은 영숫자 입력 컴포넌트들(예를 들어, 키보드, 영숫자 입력을 수신하도록 구성되는 터치 스크린, 광전 키보드(photo-optical keyboard), 또는 다른 영숫자 입력 컴포넌트들), 포인트 기반 입력 컴포넌트들(예를 들어, 마우스, 터치패드, 트랙볼, 조이스틱, 모션 센서, 또는 다른 포인팅 기구들), 촉각 입력 컴포넌트들(예를 들어, 물리적 버튼, 터치들 또는 터치 제스처들의 로케이션 및 힘을 제공하는 터치 스크린, 또는 다른 촉각 입력 컴포넌트들), 오디오 입력 컴포넌트들(예를 들어, 마이크로폰), 및 이와 유사한 것을 포함한다.

일부 추가의 예시적인 실시예들에서, I/O 컴포넌트들(1550)은, 다양한 다른 컴포넌트들 중에서, 바이오메트릭 컴포넌트들(1556), 모션 컴포넌트들(1558), 환경 컴포넌트들(1560), 또는 포지션 컴포넌트들(1562)을 포함한다. 예를 들어, 바이오메트릭 컴포넌트들(1556)은 표현들(예를 들어, 손 표현들, 얼굴 표정들, 음성 표현들, 신체 제스처들, 또는 눈 추적)을 검출하고, 생체신호들(예를 들어, 혈압, 심박수, 체온, 땀, 또는 뇌파들)을 측정하고, 사람(예를 들어, 음성 식별, 망막 식별, 얼굴 식별, 지문 식별, 또는 뇌전도(electroencephalogram) 기반 식별)을 식별하고, 이와 유사한 것을 하기 위한 컴포넌트들을 포함한다. 모션 컴포넌트들(1558)은 가속도 센서 컴포넌트들(예를 들어, 가속도계), 중력 센서 컴포넌트들, 회전 센서 컴포넌트들(예를 들어, 자이로스코프) 등을 포함한다. 환경 컴포넌트들(1560)은, 예를 들어, 조명 센서 컴포넌트들(예를 들어, 광도계), 온도 센서 컴포넌트들(예를 들어, 주변 온도를 검출하는 하나 이상의 온도계), 습도 센서 컴포넌트들, 압력 센서 컴포넌트들(예를 들어, 기압계), 음향 센서 컴포넌트들(예를 들어, 배경 잡음을 검출하는 하나 이상의 마이크로폰), 근접 센서 컴포넌트들(예를 들어, 근처 물체들을 검출하는 적외선 센서들), 가스 센서 컴포넌트들(예를 들어, 머신 후각 검출 센서들, 안전을 위한 위험 가스들의 농도들을 검출하거나 대기중의 오염물들을 측정하는 가스 검출 센서들), 또는 주변 물리적 환경에 대응하는 표시들, 측정들, 또는 신호들을 제공할 수 있는 다른 컴포넌트들을 포함한다. 포지션 컴포넌트들(1562)은 로케이션 센서 컴포넌트들(예를 들어, 글로벌 포지셔닝 시스템(GPS) 수신기 컴포넌트), 고도 센서 컴포넌트들(예를 들어, 고도가 도출될 수 있는 공기 압력을 검출하는 고도계들 또는 기압계들), 배향 센서 컴포넌트들(예를 들어, 자력계들), 및 이와 유사한 것을 포함한다.

통신은 매우 다양한 기술들을 사용하여 구현될 수 있다. I/O 컴포넌트들(1550)은, 머신(1500)을 각각 결합(1582) 및 결합(1572)을 통해 네트워크(1580) 또는 디바이스들(1570)에 결합하도록 동작가능한 통신 컴포넌트들(1564)을 포함할 수 있다. 예를 들어, 통신 컴포넌트들(1564)은 네트워크 인터페이스 컴포넌트, 또는 네트워크(1580)와 인터페이스하기 위한 다른 적합한 디바이스를 포함한다. 추가 예들에서, 통신 컴포넌트들(1564)은 유선 통신 컴포넌트들, 무선 통신 컴포넌트들, 셀룰러 통신 컴포넌트들, 근접장 통신(near field communication, NFC) 컴포넌트들, BLUETOOTH® 컴포넌트들(예를 들어, BLUETOOTH® Low Energy), WI-FI® 컴포넌트들, 및 다른 모달리티들을 통해 통신을 제공하는 다른 통신 컴포넌트들을 포함한다. 디바이스들(1570)은, 또 다른 머신(1500) 또는 임의의 다양한 주변 디바이스들(예를 들어, 범용 직렬 버스(USB)를 통해 결합된 주변 디바이스)일 수 있다.

또한, 일부 실시예들에서, 통신 컴포넌트들(1564)은 식별자들을 검출하거나 식별자들을 검출하도록 동작가능한 컴포넌트들을 포함한다. 예를 들어, 통신 컴포넌트들(1564)은 무선 주파수 식별(radio frequency identification, RFID) 태그 판독기 컴포넌트들, NFC 스마트 태그 검출 컴포넌트들, 광학 판독기 컴포넌트들(예를 들어, UPC(Universal Product Code) 바코드와 같은 1차원 바코드들, QR(Quick Response) 코드, Aztec 코드, Data Matrix, Dataglyph, MaxiCode, PDF417, 울트라 코드, UCC RSS(Uniform Commercial Code Reduced Space Symbology)-2D 바코드들, 및 다른 광학 코드들과 같은 다차원 바코드들을 검출하는 광학 센서), 음향 검출 컴포넌트들(예를 들어, 태깅된 오디오 신호들을 식별하는 마이크로폰들), 또는 그의 임의의 적절한 조합을 포함한다. 또한, 인터넷 프로토콜(IP) 지오로케이션을 통한 로케이션, WI-FI® 신호 삼각측량을 통한 로케이션, 특정 로케이션을 표시할 수 있는 BLUETOOTH® 또는 NFC 비컨 신호를 검출하는 것을 통한 로케이션 등과 같은 다양한 정보가 통신 컴포넌트들(1564)을 통해 도출될 수 있다.

다양한 예시적인 실시예들에서, 네트워크(1580)의 하나 이상의 부분은 애드혹 네트워크, 인트라넷, 엑스트라넷, 가상 사설 네트워크(VPN), 로컬 영역 네트워크(LAN), WLAN(wireless LAN), 광역 네트워크(WAN), WWAN(wireless WAN), 메트로폴리탄 영역 네트워크(MAN), 인터넷, 인터넷의 일부, 공중 교환 전화 네트워크(PSTN)의 일부, POTS(plain old telephone service) 네트워크, 셀룰러 전화 네트워크, 무선 네트워크, WI-FI® 네트워크, 다른 타입의 네트워크, 또는 2개 이상의 이러한 네트워크들의 조합일 수 있다. 예를 들어, 네트워크(1580) 또는 네트워크(1580)의 일부는 무선 또는 셀룰러 네트워크를 포함할 수 있고, 결합(1582)은 CDMA(Code Division Multiple Access) 접속, GSM(Global System for Mobile communications) 접속, 또는 다른 타입의 셀룰러 또는 무선 결합을 포함할 수 있다. 이 예에서, 결합(1582)은 1xRTT(Single Carrier Radio Transmission Technology), EVDO(Evolution-Data Optimized) 기술, GPRS(General Packet Radio Service) 기술, EDGE(Enhanced Data rates for GSM Evolution) 기술, 3G를 포함한 3GPP(third Generation Partnership Project), 4세대 무선(4G) 네트워크, UMTS(Universal Mobile Telecommunications System), HSPA(High Speed Packet Access), WiMAX(Worldwide Interoperability for Microwave Access), LTE(Long Term Evolution) 표준, 다양한 표준 설정 기구에 의해 정의된 다른 것들, 다른 장거리 프로토콜들, 또는 다른 데이터 전송 기술과 같은, 다양한 타입의 데이터 전송 기술 중 임의의 것을 구현할 수 있다.

예시적인 실시예들에서, 명령어들(1516)은 네트워크 인터페이스 디바이스(예를 들어, 통신 컴포넌트들(1564)에 포함된 네트워크 인터페이스 컴포넌트)를 통해 송신 매체를 사용하여 그리고 다수의 널리 공지된 전송 프로토콜(예를 들어, 하이퍼텍스트 전송 프로토콜(Hypertext Transfer Protocol, HTTP)) 중 임의의 하나를 사용하여 네트워크(1580)를 통해 송신 또는 수신된다. 유사하게, 다른 예시적인 실시예들에서, 명령어들(1516)은 디바이스들(1570)에 대한 결합(1572)(예를 들어, 피어-투-피어 결합)을 통해 송신 매체를 사용하여 송신 또는 수신된다. "송신 매체"라는 용어는 머신(1500)에 의한 실행을 위해 명령어들(1516)을 저장, 인코딩, 또는 전달할 수 있는 임의의 무형의 매체를 포함하는 것으로 간주되어야 하고, 그러한 소프트웨어의 통신을 용이하게 하기 위한 디지털 또는 아날로그 통신 신호들 또는 다른 무형의 매체를 포함한다.

또한, 머신 판독가능 매체(1518)는 전파 신호를 구현하지 않는다는 점에서 비일시적(즉, 임의의 일시적 신호를 갖지 않음)이다. 그러나, 머신 판독가능 매체(1518)를 "비일시적"이라고 라벨링하는 것이 매체가 이동할 수 없다는 것을 의미하는 것으로 해석되어서는 안 되고; 매체(1518)는 하나의 물리적 로케이션으로부터 다른 물리적 로케이션으로 수송가능한 것으로 간주되어야 한다. 추가적으로, 머신 판독가능 매체(1518)는 유형(tangible)이기 때문에, 머신 판독가능 매체(1518)는 머신 판독가능 디바이스인 것으로 간주될 수 있다.

본 명세서의 전반에 걸쳐, 복수의 인스턴스는 단일 인스턴스로서 설명된 컴포넌트들, 동작들, 또는 구조들을 구현할 수 있다. 하나 이상의 방법의 개별적인 동작들은 별도의 동작들로서 예시되고 설명되지만, 개별적인 동작들 중의 하나 이상은 동시에 수행될 수 있고, 어떤 것도 동작들이 예시된 순서로 수행될 것을 요구하지는 않는다. 예시적인 구성들에서 별도의 컴포넌트들로서 제시된 구조들 및 기능은 조합된 구조 또는 컴포넌트로서 구현될 수 있다. 유사하게, 단일 컴포넌트로서 제시된 구조들 및 기능은 별도의 컴포넌트들로서 구현될 수 있다. 이들 및 다른 변형들, 수정들, 추가들, 및 개선들은 본 명세서의 주제의 범위 내에 속한다.

발명 주제의 개요가 특정 예시적인 실시예들을 참조하여 설명되었지만, 본 개시내용의 실시예들의 더 넓은 범위를 벗어나지 않고 이러한 실시예들에 대한 다양한 수정들 및 변경들이 이루어질 수 있다.

본 명세서에서 예시된 실시예들은 본 기술분야의 통상의 기술자들이 개시된 교시사항들을 실시하는 것을 가능하게 할 정도로 충분히 상세하게 설명된다. 본 개시내용의 범위로부터 벗어나지 않고 구조적 및 논리적 치환들 및 변경들이 이루어질 수 있도록, 다른 실시예들이 사용되고 그로부터 도출될 수 있다. 따라서, 상세한 설명은 제한적인 의미로 해석되어서는 안 되며, 다양한 실시예들의 범위는 첨부된 청구항들과 함께, 그러한 청구항들의 자격이 있는 균등물들의 전체 범위(full range of equivalents)에 의해서만 정의된다.

본 명세서에서 사용되는 바와 같이, "또는"이라는 용어는 포괄적 또는 배타적 의미의 어느 하나로 해석될 수 있다. 더욱이, 본 명세서에서 단일 인스턴스로서 설명되는 자원들, 동작들, 또는 구조들에 대해 복수의 인스턴스가 제공될 수 있다. 추가적으로, 다양한 자원들, 동작들, 모듈들, 엔진들, 및 데이터 저장소들 사이의 경계들은 다소 임의적이고, 특정 동작들은 특정 예시적인 구성들의 컨텍스트에서 예시된다. 기능의 다른 할당들이 구상되고, 본 개시내용의 다양한 실시예들의 범위 내에 속할 수 있다. 일반적으로, 예시적인 구성들에서 별도의 자원들로서 제시된 구조들 및 기능은 조합된 구조 또는 자원으로서 구현될 수 있다. 유사하게, 단일 자원으로서 제시된 구조 및 기능은 별개의 자원들로서 구현될 수 있다. 이들 및 다른 변형들, 수정들, 추가들, 및 개선들은 첨부된 청구항들에 의해 나타낸 바와 같이 본 개시내용의 실시예들의 범위 내에 있다. 따라서, 명세서 및 도면들은 한정적인 의미보다는 예시적인 의미로 간주되어야 한다.

Claims

방법으로서,
컴퓨팅 디바이스에 의해 수신되고 복수의 프레임들을 포함하는 이미지 데이터의 프레임들 중 적어도 두개의 프레임 각각에 대해, 각각의 레벨에 대한 다양한 해상도들에서 서브샘플링된 상기 이미지 데이터 내의 이미지의 다수의 레벨들을 포함하는 이미지 피라미드(image pyramid)를 생성하는 단계;
상기 컴퓨팅 디바이스의 그래픽 처리 유닛(graphic processing unit, GPU)으로, 더 높은 해상도를 포함하는 상기 이미지 피라미드의 적어도 하나의 미리 결정된 레벨에 대응하는 이미지 데이터를 전송하는 동안, 상기 컴퓨팅 디바이스의 중앙 처리 유닛(central processing unit, CPU)에 의해, 상기 이미지 피라미드의 적어도 하나의 미리 결정된 조대한 레벨(coarse level)의 광학 흐름(optical flow)을 계산하는 단계;
상기 컴퓨팅 디바이스의 상기 GPU에 의해, 상기 이미지 데이터의 광학 흐름을 생성하기 위해, 상기 CPU에 의해 계산된 상기 이미지 피라미드의 상기 적어도 하나의 미리 결정된 조대한 레벨의 상기 광학 흐름을 사용하여, 더 높은 해상도를 포함하는 상기 이미지 피라미드의 상기 적어도 하나의 미리 결정된 레벨의 광학 흐름을 계산하는 단계; 및
상기 컴퓨팅 디바이스의 상기 GPU에 의해, 상기 이미지 데이터의 상기 광학 흐름을 출력하는 단계
를 포함하는, 방법.
제1항에 있어서, 상기 이미지 데이터는 상기 컴퓨팅 디바이스의 카메라에 의해 캡처되고 있는 비디오에 대한 비디오 스트림의 하나 이상의 프레임을 포함하는, 방법.
제1항에 있어서, 상기 이미지는 상기 컴퓨팅 디바이스의 카메라에 의해 캡처되고 있는 비디오에 대한 비디오 스트림의 프레임인, 방법.
제1항에 있어서, 상기 컴퓨팅 디바이스의 상기 CPU에 의해, 상기 이미지 피라미드의 상기 적어도 하나의 미리 결정된 조대한 레벨의 상기 광학 흐름을 계산하는 단계는:
모든 픽셀에 대해 X 및 Y 방향에서 소스 이미지 그래디언트들(source image gradients)을 계산하는 단계;
상기 이미지를 패치들의 그리드로 분할하는 단계;
각각의 패치에 대한 그래디언트들의 합을 계산하는 단계;
역 헤시안 행렬(inverse Hessian matrix)을 계산하는 단계;
초기 흐름 필드(initial flow field)를 설정하는 단계;
반복적인 역 패치 검색(iterative inverse patch search)을 수행하는 단계; 및
픽셀-별 흐름 필드(pixel-wise flow field)를 계산하는 단계
를 포함하는, 방법.
제1항에 있어서, 상기 컴퓨팅 디바이스의 CPU에 의해, 상기 이미지 피라미드의 적어도 하나의 미리 결정된 조대한 레벨의 상기 광학 흐름을 계산하는 단계는, 각각의 레벨에 대해:
이미지 그래디언트들을 전처리하는 단계;
패치-별 광학 흐름(patch-wise optical flow)을 수행하는 단계; 및
상기 패치-별 광학 흐름으로부터 조밀한 광학 흐름(dense optical flow)을 수행하는 단계
를 포함하는, 방법.
제5항에 있어서, 패치-별 광학 흐름을 수행하는 단계는 상기 이미지에 대해 X 및 Y 방향에서 증분 광학 흐름(incremental optical flow)을 찾기 위해 상기 레벨의 모든 패치에 대해 역 조성(inverse composition)에 기초한 반복적인 역 패치 검색(iterative inverse patch search)을 수행하는 단계를 포함하는, 방법.
제6항에 있어서, 반복적인 역 패치 검색을 수행하는 단계는 패치 매칭(patch matching)의 비용을 계산하는 단계를 포함하고, 상기 패치 매칭의 비용을 계산하는 단계는 SIMD(single instruction multiple data)에서 구현되는, 방법.
제5항에 있어서, 조밀한 광학 흐름을 수행하는 단계는 이웃 광학 흐름 출력을 사용하여 픽셀 차이 비용을 평가하는 프로세스를 포함하고, 상기 프로세스는 한번에 4개의 쌍선형 보간된 픽셀들을 생성함으로써 SIMD(single instruction multiple data)에서 구현되는, 방법.
제6항에 있어서, 반복적인 역 패치 검색을 수행하는 단계는:
(a) 상기 이미지와 이전 프레임 사이의 픽셀 차이를 결정하는 단계;
(b) 상기 픽셀 차이를 사용하여 X 및 Y 모션 벡터들에서의 차이를 계산하는 단계;
(c) X 및 Y를 업데이트하는 단계;
(d) 픽셀 비용이 미리 결정된 임계값보다 작은지를 결정하는 단계; 및
(e) 상기 픽셀 비용이 상기 미리 결정된 임계값보다 작지 않으면 단계 (a)로 복귀하는 단계
를 포함하는, 방법.
제1항에 있어서, 상기 컴퓨팅 디바이스의 상기 GPU에 의해, 더 높은 해상도를 포함하는 상기 이미지 피라미드의 상기 적어도 하나의 미리 결정된 레벨의 광학 흐름을 계산하는 단계는, 각각의 레벨에 대해 병렬로:
이미지 그래디언트들을 전처리하는 단계;
패치-별 광학 흐름을 수행하는 단계;
이웃 동기화(neighbor synchronization)를 수행하는 단계; 및
상기 패치-별 광학 흐름으로부터 조밀한 광학 흐름(dense optical flow)을 수행하는 단계
를 포함하는, 방법.
제10항에 있어서, 상기 이웃 동기화를 수행하는 단계는:
상기 이미지 피라미드의 층 내의 복수의 패치들 중의 주어진 패치에 대해:
상기 주어진 패치에 대한 모든 이웃 패치들을 결정하는 단계;
각각의 이웃 패치 모션 벡터 값에 대한 비용 함수에 의해 주어진 비용 값을 결정하는 단계;
각각의 이웃 패치 비용 값을 상기 주어진 패치의 비용 값과 비교하는 단계; 및
임의의 이웃 패치 비용 값이 상기 주어진 패치의 비용 값보다 작으면 상기 주어진 패치의 벡터 값을 업데이트하는 단계를 포함하고, 상기 주어진 패치의 벡터 값은 최저 비용 값을 갖는 이웃 패치 모션 벡터 값을 포함하도록 업데이트되는, 방법.
컴퓨팅 디바이스로서,
명령어들을 저장한 메모리; 및
상기 명령어들에 의해 동작들을 수행하도록 구성되는 하나 이상의 하드웨어 프로세서
를 포함하고,
상기 동작들은:
컴퓨팅 디바이스에 의해 수신되고 복수의 프레임들을 포함하는 이미지 데이터의 프레임들 중 적어도 두개의 프레임 각각에 대해, 각각의 레벨에 대한 다양한 해상도들에서 서브샘플링된 상기 이미지 데이터 내의 이미지의 다수의 레벨들을 포함하는 이미지 피라미드를 생성하는 동작;
상기 컴퓨팅 디바이스의 그래픽 처리 유닛(GPU)으로, 더 높은 해상도를 포함하는 상기 이미지 피라미드의 적어도 하나의 미리 결정된 레벨에 대응하는 이미지 데이터를 전송하는 동안, 상기 컴퓨팅 디바이스의 중앙 처리 유닛(CPU)에 의해, 상기 이미지 피라미드의 적어도 하나의 미리 결정된 조대한 레벨의 광학 흐름을 계산하는 동작;
상기 컴퓨팅 디바이스의 상기 GPU에 의해, 상기 이미지 데이터의 광학 흐름을 생성하기 위해, 상기 CPU에 의해 계산된 상기 이미지 피라미드의 상기 적어도 하나의 미리 결정된 조대한 레벨의 상기 광학 흐름을 사용하여, 더 높은 해상도를 포함하는 상기 이미지 피라미드의 상기 적어도 하나의 미리 결정된 레벨의 광학 흐름을 계산하는 동작; 및
상기 컴퓨팅 디바이스의 상기 GPU에 의해, 상기 이미지 데이터의 상기 광학 흐름을 출력하는 동작
을 포함하는, 컴퓨팅 디바이스.
제12항에 있어서, 상기 컴퓨팅 디바이스의 상기 CPU에 의해, 상기 이미지 피라미드의 적어도 하나의 미리 결정된 조대한 레벨의 상기 광학 흐름을 계산하는 동작은, 각각의 레벨에 대해:
이미지 그래디언트들을 전처리하는 동작;
패치-별 광학 흐름을 수행하는 동작; 및
상기 패치-별 광학 흐름으로부터 조밀한 광학 흐름을 수행하는 동작
을 포함하는, 컴퓨팅 디바이스.
제13항에 있어서, 패치-별 광학 흐름을 수행하는 동작은 상기 이미지에 대해 X 및 Y 방향에서 증분 광학 흐름을 찾기 위해 상기 레벨의 모든 패치에 대해 역 조성에 기초한 반복적인 역 패치 검색을 수행하는 동작을 포함하는, 컴퓨팅 디바이스.
제14항에 있어서, 반복적인 역 패치 검색을 수행하는 동작은 패치 매칭의 비용을 계산하는 동작을 포함하고, 상기 패치 매칭의 비용을 계산하는 동작은 SIMD(single instruction multiple data)에서 구현되는, 컴퓨팅 디바이스.
제13항에 있어서, 조밀한 광학 흐름을 수행하는 동작은 이웃 광학 흐름 출력을 사용하여 픽셀 차이 비용을 평가하는 프로세스를 포함하고, 상기 프로세스는 한번에 4개의 쌍선형 보간된 픽셀들을 생성함으로써 SIMD(single instruction multiple data)에서 구현되는, 컴퓨팅 디바이스.
제14항에 있어서, 반복적인 역 패치 검색을 수행하는 동작은:
(a) 상기 이미지와 이전 프레임 사이의 픽셀 차이를 결정하는 동작;
(b) 상기 픽셀 차이를 사용하여 X 및 Y 모션 벡터들에서의 차이를 계산하는 동작;
(c) X 및 Y를 업데이트하는 동작;
(d) 픽셀 비용이 미리 결정된 임계값보다 작은지를 결정하는 동작; 및
(e) 상기 픽셀 비용이 상기 미리 결정된 임계값보다 작지 않으면 단계 (a)로 복귀하는 동작
을 포함하는, 컴퓨팅 디바이스.
제12항에 있어서, 상기 컴퓨팅 디바이스의 상기 GPU에 의해, 더 높은 해상도를 포함하는 상기 이미지 피라미드의 상기 적어도 하나의 미리 결정된 레벨의 광학 흐름을 계산하는 동작은, 각각의 레벨에 대해 병렬로:
이미지 그래디언트들을 전처리하는 동작;
패치-별 광학 흐름을 수행하는 동작;
이웃 동기화를 수행하는 동작; 및
상기 패치-별 광학 흐름으로부터 조밀한 광학 흐름을 수행하는 동작
을 포함하는, 컴퓨팅 디바이스.
제18항에 있어서, 상기 이웃 동기화를 수행하는 동작은:
상기 이미지 피라미드의 층 내의 복수의 패치들 중의 주어진 패치에 대해:
상기 주어진 패치에 대한 모든 이웃 패치들을 결정하는 동작;
각각의 이웃 패치 모션 벡터 값에 대한 비용 함수에 의해 주어진 비용 값을 결정하는 동작;
각각의 이웃 패치 비용 값을 상기 주어진 패치의 비용 값과 비교하는 동작; 및
임의의 이웃 패치 비용 값이 상기 주어진 패치의 비용 값보다 작으면 상기 주어진 패치의 벡터 값을 업데이트하는 동작을 포함하고, 상기 주어진 패치의 벡터 값은 최저 비용 값을 갖는 이웃 패치 모션 벡터 값을 포함하도록 업데이트되는, 컴퓨팅 디바이스.
컴퓨팅 디바이스로 하여금 동작들을 수행하게 하기 위해 적어도 하나의 프로세서에 의해 실행가능한 명령어들을 저장한 비일시적 컴퓨터 판독가능 매체로서,
상기 동작들은:
컴퓨팅 디바이스에 의해 수신되고 복수의 프레임들을 포함하는 이미지 데이터의 프레임들 중 적어도 두개의 프레임 각각에 대해, 각각의 레벨에 대한 다양한 해상도들에서 서브샘플링된 상기 이미지 데이터 내의 이미지의 다수의 레벨들을 포함하는 이미지 피라미드를 생성하는 동작;
상기 컴퓨팅 디바이스의 그래픽 처리 유닛(GPU)으로, 더 높은 해상도를 포함하는 상기 이미지 피라미드의 적어도 하나의 미리 결정된 레벨에 대응하는 이미지 데이터를 전송하는 동안, 상기 컴퓨팅 디바이스의 중앙 처리 유닛(CPU)에 의해, 상기 이미지 피라미드의 적어도 하나의 미리 결정된 조대한 레벨의 광학 흐름을 계산하는 동작;
상기 컴퓨팅 디바이스의 상기 GPU에 의해, 상기 이미지 데이터의 광학 흐름을 생성하기 위해, 상기 CPU에 의해 계산된 상기 이미지 피라미드의 상기 적어도 하나의 미리 결정된 조대한 레벨의 상기 광학 흐름을 사용하여, 더 높은 해상도를 포함하는 상기 이미지 피라미드의 상기 적어도 하나의 미리 결정된 레벨의 광학 흐름을 계산하는 동작; 및
상기 컴퓨팅 디바이스의 상기 GPU에 의해, 상기 이미지 데이터의 상기 광학 흐름을 출력하는 동작
을 포함하는, 비일시적 컴퓨터 판독가능 매체.