KR102647336B1

KR102647336B1 - 동적 깊이 이미지를 캡처 및 편집하는 기술

Info

Publication number: KR102647336B1
Application number: KR1020227037003A
Authority: KR
Inventors: 미라 룽; 스티브 페리; 파레스 알하센; 에이브 스테판; 닐 와드와
Original assignee: 구글 엘엘씨
Priority date: 2019-04-01
Filing date: 2019-11-19
Publication date: 2024-03-14
Also published as: CN112868224A; EP3744088A1; JP2023085325A; KR20210041057A; JP2022526053A; JP7247327B2; CN117221512A; US20220132095A1; KR20220150410A; US11949848B2; WO2020205003A1; US20240214542A1; CN112868224B; KR102461919B1

Abstract

본 명세서에 설명된 구현들은 하나 이상의 카메라를 사용하여 이미지 데이터를 캡처하는 단계를 포함하는 컴퓨터 구현 방법에 관한 것으로, 이미지 데이터는 주 이미지와 관련 깊이값을 포함한다. 방법은 이미지 포맷으로 이미지 데이터를 인코딩하는 단계를 더 포함한다. 인코딩된 이미지 데이터는 이미지 포멧으로 인코딩된 주 이미지 및 이미지 유형을 나타내는 프로파일 엘리먼트와 제1 카메라 엘리먼트를 포함하는 디바이스 엘리먼트를 포함하는 이미지 메타 데이터를 포함하고, 제1 카메라 엘리먼트는 이미지 엘리먼트 및 깊이값에 기초한 깊이 맵을 포함한다. 방법은 인코딩 후에 이미지 포맷에 기초하여 파일 컨테이너에 이미지 데이터를 저장하는 단계를 더 포함한다. 방법은 주 이미지가 디스플레이되게 하는 단계를 더 포함한다.

Description

동적 깊이 이미지를 캡처 및 편집하는 기술{TECHNIQUES TO CAPTURE AND EDIT DYNAMIC DEPTH IMAGES}

본 출원은 2019년 4월 1일에 출원된 미국 가출원 번호 62/827,739에 대한 우선권의 이점을 주장하며, 이는 그 전체가 본 명세서에 참고로 포함된다.

사용자는 예를 들어 휴대폰, 웨어러블 디바이스, 스마트 기기, 스마트 스피커, 태블릿, 컴퓨터, 독립형 카메라 등과 같은 다양한 디바이스를 사용하여 이미지를 캡처한다. 많은 디바이스는 향상된 정보로 이미지를 캡처할 수 있다. 예를 들어, 사용자는 스틸 이미지에 묘사된 장면과 관련된 스틸 이미지 및 깊이 정보를 캡처할 수 있다. 다른 예에서, 사용자는 스틸 이미지 및 그 스틸 이미지의 하나 이상의 대안 표현, 예를 들어 복수의 이미지 프레임을 포함하는 버스트 모드 이미지를 캡처할 수 있다. 또 다른 예에서, 사용자는 적은 양의 움직임, 예를 들어 카메라가 활성화되는 동안 0-3초의 짧은 기간에 캡처된 움직임을 갖는 이미지를 캡처할 수 있다. 또 다른 예에서, 사용자는 예를 들어 이미지를 캡처하기 전에 장면에 객체를 삽입함으로써 가상 객체로 장면을 증강하여 증강 현실(AR) 이미지를 얻을 수 있다.

사용자는 예를 들어 휴대폰, 웨어러블 디바이스, 스마트 기기, 스마트 스피커, 태블릿, 컴퓨터, 독립형 카메라 등과 같은 상이한 유형의 디바이스를 사용하여 이미지를 보거나 편집할 수 있다. 상이한 디바이스는 예를 들어, 2차원 또는 3차원 디스플레이와 같은 이미지의 디스플레이를 위해 상이한 기능을 가질 수 있다. 이미지 편집에 사용되는 상이한 소프트웨어 애플리케이션에는 예를 들어, 인물(portrait) 효과(이미지의 피사체로서 식별된 이미지의 하나 이상의 객체에 초점이 맞춰지고 다른 객체는 흐릿함), 보케 효과(선택된 객체에 초점이 맞춰지고 이미지의 다른 부분이 흐릿함)와 같은 상이한 특징이 포함될 수 있다. 일부 소프트웨어 애플리케이션에는 예를 들어, 하나 이상의 객체를 식별하기 위해 이미지 분할을 수행하기 위한 기능이 포함될 수도 있다. 이러한 애플리케이션은 사용자가 예를 들어 이미지의 다른 부분은 변경되지 않은 상태에서 식별된 객체에 효과(예를 들어, 흑백 또는 세피아로 변경, 가장자리를 부드럽게 하는 등)를 적용함으로써 상기 식별된 객체를 수정하거나, 예를 들어 잘라 내기 또는 복사 동작에 의해 상기 식별된 객체를 추출하고 객체를 다른 이미지에 삽입하도록 허용할 수 있다.

본 명세서에 제공된 배경 설명은 일반적으로 본 개시 내용의 맥락을 제시하기 위한 것이다. 현재 명명된 발명자의 작업은 출원 당시에 선행 기술로 인정되지 않을 수 있는 설명의 양태뿐만 아니라 이 배경 섹션에 설명된 범위내에서 본 개시에 대한 종래 기술로서 명시적이거나 묵시적으로 인정되지 않는다.

일부 구현은 하나 이상의 카메라를 사용하여 이미지 데이터를 캡처하는 단계를 포함하는 컴퓨터 구현 방법과 관련된다. 이미지 데이터에는 주 이미지 및 관련 깊이값이 포함된다. 방법은 이미지 포맷으로 이미지 데이터를 인코딩하는 단계를 더 포함한다. 인코딩된 이미지 데이터는 이미지 포멧으로 인코딩된 주 이미지, 그리고 이미지 유형을 나타내는 프로파일 엘리먼트 및 제1 카메라 엘리먼트를 포함하는 디바이스 엘리먼트를 포함하는 이미지 메타 데이터를 포함한다. 제1 카메라 엘리먼트는 이미지 엘리먼트 및 깊이값을 기반으로 하는 깊이 맵을 포함한다. 방법은 이미지 포맷에 기초하여 파일 컨테이너에 이미지 데이터를 저장하는 단계를 더 포함한다. 방법은 주 이미지가 디스플레이되게 하는 단계를 더 포함한다.

일부 구현에서, 깊이 맵은 복수의 픽셀 값을 포함하고, 각각의 픽셀 값은 하나 이상의 카메라의 특정 카메라로부터의 개별 거리를 나타낸다. 일부 구현에서, 깊이 맵은 특정 카메라로부터의 복수의 거리에 대응하는 착란원의 개별 반경 값을 정의하는 렌즈 초점 모델을 더 포함한다. 일부 구현에서, 복수의 거리는 근거리 및 원거리를 포함하고, 근거리는 원거리보다 작다. 일부 구현에서, 복수의 거리는 근거리보다 크고 원거리보다 작은 초점 거리를 더 포함한다.

일부 구현에서, 방법은 깊이값을 정수 포멧으로 변환하고 이미지 포멧에 기초하여 상기 변환된 깊이값을 압축함으로써 복수의 픽셀 값을 획득하는 단계를 더 포함한다.

일부 구현에서, 이미지 데이터는 하나 이상의 부 이미지를 더 포함할 수 있다. 일부 구현에서, 각각의 부 이미지는 특정 카메라와 상이한 하나 이상의 카메라의 개별 카메라에 의해 캡처될 수 있다. 일부 구현에서, 이미지 메타 데이터는 하나 이상의 추가 카메라 엘리먼트를 더 포함 할 수 있으며, 각각의 추가 카메라 엘리먼트는 하나 이상의 부 이미지의 적어도 하나의 이미지에 대응하고 적어도 하나의 이미지에 대한 포인터를 포함하는 개별 이미지 엘리먼트를 포함한다. 일부 구현에서, 하나 이상의 추가 카메라 엘리먼트는 제1 카메라 엘리먼트 이후에 이미지 메타 데이터에서 순차적으로 구성된다. 일부 구현에서, 이미지 데이터를 파일 컨테이너에 저장하는 단계는 이미지 포맷으로 인코딩된 주 이미지와 하나 이상의 부 이미지를 연결하는 단계를 포함한다. 일부 구현에서, 파일 컨테이너에 있는 주 이미지와 하나 이상의 부 이미지의 순서는 이미지 메타 데이터에 있는 하나 이상의 추가 카메라 엘리먼트의 순서와 동일하다.

일부 구현에서, 이미지 데이터는 하나 이상의 카메라의 개별 카메라에 의해 각각 캡처되는 하나 이상의 부 이미지를 더 포함할 수 있다. 일부 구현에서, 하나 이상의 부 이미지는 깊이 카메라 또는 비디오에 의해 캡처된 깊이 이미지를 포함할 수 있다.

일부 구현들은 파일 컨테이너로부터 이미지 데이터를 획득하는 단계를 포함하는 컴퓨터 구현 방법과 관련된다. 이미지 데이터는 주 이미지에 대응하는 복수의 픽셀 값 및 렌즈 초점 모델을 포함하는 이미지 메타 데이터를 포함한다. 방법은 주 이미지가 디스플레이되게 하는 단계를 더 포함한다. 방법은 타겟 초점 거리를 나타내는 사용자 입력을 수신하는 단계를 더 포함한다. 방법은 사용자 입력에 응답하여, 수정된 이미지내의 객체들이 초점이 맞춰지도록 수정된 이미지를 획득하기 위해 렌즈 초점 모델에 기초하여 주 이미지의 하나 이상의 픽셀 값을 수정하는 단계를 더 포함한다. 방법은 수정된 이미지가 디스플레이되게 하는 단계를 더 포함한다.

일부 구현에서, 렌즈 초점 모델은 주 이미지를 캡처한 카메라로부터의 복수의 거리에 대응하는 착란원의 개별 반경 값을 정의할 수 있다. 이러한 구현에서 하나 이상의 픽셀 값을 수정하는 단계는 주 이미지내의 하나 이상의 객체가 흐려지도록 하고, 하나 이상의 객체는 그 하나 이상의 객체가 주 이미지를 캡처한 카메라로부터 타겟 초점 거리와 다른 거리에 있음을 나타내는 깊이 데이터와 연관된다.

일부 구현에서, 렌즈 초점 모델은 이미지 메타 데이터의 깊이 맵 엘리먼트의 파일 컨테이너에 저장될 수 있다. 일부 구현에서, 깊이 맵 엘리먼트는 주 이미지를 캡처한 카메라에 대응할 수 있다.

일부 구현들은 파일 컨테이너로부터 이미디 데이터를 획득하는 단계를 포함하는 컴퓨터 구현 방법과 관련된다. 이미지 데이터는 주 이미지에 대응하는 복수의 픽셀 값 및 깊이 맵을 포함하는 이미지 메타 데이터를 포함한다. 방법은 주 이미지가 디스플레이되도록 하는 단계를 더 포함한다. 방법은 주 이미지에 대한 자르기(crop, 발췌) 동작 또는 주 이미지에 대한 스케일 동작 중 적어도 하나를 나타내는 사용자 입력을 수신하는 단계를 더 포함한다. 방법은 수정된 이미지를 획득하기 위해 사용자 입력에 기초하여 주 이미지를 수정하는 단계를 더 포함한다. 방법은 업데이트된 깊이 맵을 계산하는 단계를 더 포함하며, 업데이트된 깊이 맵은 수정된 이미지에 대응하는 깊이 데이터를 포함한다. 방법은 주 이미지를 수정된 이미지로 대체하고 깊이 맵을 업데이트된 깊이 맵으로 대체하도록 파일 컨테이너를 업데이트하는 단계를 더 포함한다.

일부 구현들은 파일 컨테이너로부터 이미지 데이터를 획득하는 단계를 포함하는 컴퓨터 구현 방법과 관련된다. 이미지 데이터는 각각이 주 이미지의 복수의 픽셀 중 특정 픽셀에 대응하는 복수의 픽셀 값 및 깊이 맵을 포함하는 이미지 메타 데이터를 포함한다. 방법은 주 이미지 및 복수의 깊이 맵에 기초하여 3차원 이미지를 생성하는 단계를 더 포함한다. 방법은 3차원 이미지가 디스플레이되도록 하는 단계를 더 포함한다.

일부 구현에서, 방법은 3차원 이미지에 대한 틸트 동작 또는 팬 동작을 나타내는 사용자 입력을 수신하는 단계를 더 포함한다. 방법은 사용자 입력을 수신하는 것에 응답하여, 사용자 입력, 주 이미지 및 복수의 깊이 맵에 기초하여 업데이트된 3차원 이미지를 생성하는 단계를 더 포함한다. 방법은 업데이트된 3차원 이미지가 디스플레이되도록 하는 단계를 더 포함한다.

일부 구현에서, 복수의 깊이 맵은 단일 카메라를 사용하는 모션 기술로부터의 깊이를 사용함으로써 획득될 수 있다. 일부 구현에서, 복수의 깊이 맵은 하나 이상의 깊이 카메라를 통해 획득될 수 있다.

일부 구현들은 파일 컨테이너로부터 이미지 데이터를 획득하는 단계를 포함하는 컴퓨터 구현 방법과 관련된다. 이미지 데이터는 각각이 주 이미지의 복수의 픽셀 중 특정 픽셀에 대응하는 복수의 픽셀 값 및 깊이 맵을 포함하는 이미지 메타 데이터를 포함한다. 방법은 주 이미지가 디스플레이되도록 하는 단계를 더 포함한다. 방법은 주 이미지에 묘사된 객체의 선택을 나타내는 사용자 입력을 수신하는 단계를 더 포함한다. 방법은 깊이 맵에 기초하여 분할 마스크를 생성하는 단계를 더 포함한다. 분할 마스크는 객체에 대응하는 주 이미지의 픽셀의 서브 세트를 식별할 수 있다. 방법은 분할 마스크에 기초하여 객체의 객체 이미지를 획득하는 단계를 더 포함한다. 방법은 객체 이미지를 선택할 수 있는 사용자 인터페이스를 제공하는 단계를 더 포함한다.

일부 구현에서, 깊이 맵은 각각이 주 이미지의 특정 픽셀에 대응하는 복수의 깊이값을 포함한다. 일부 구현에서, 분할 마스크를 생성하는 단계는 깊이값의 임계 범위 내에 있는 개별 깊이값을 갖는 주 이미지의 픽셀을 선택하는 단계를 포함한다.

일부 구현은 전술한 방법 중 임의의 것을 수행하기 위한 컴퓨팅 장치, 컴퓨팅 시스템 또는 컴퓨팅 디바이스에 관한 것이다. 일부 구현들은 명령들(어)이 저장된 컴퓨터 판독 가능 저장 매체 또는 명령들을 포함하는 컴퓨터 프로그램과 관련되고, 명령들은 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 전술한 방법들을 수행하게 한다.

도 1은 본 명세서에 설명된 하나 이상의 구현에 사용될 수 있는 예시적인 네트워크 환경의 블록도이다.
도 2a는 일부 구현에 따른 카메라를 사용한 이미지 캡처의 예를 예시한다.
도 2b는 카메라 및 대응하는 깊이 이미지로 캡처된 예시적인 이미지를 도시한다.
도 3은 동적 깊이 정보를 저장하기 위한 메타 데이터 구조를 포함하는 예시적인 이미지 파일을 도시한다.
도 4는 일부 구현에 따른 예시적인 방법을 도시하는 흐름도이다.
도 5는 일부 구현에 따른 다른 예시적인 방법을 도시하는 흐름도이다.
도 6은 본 명세서에 설명된 하나 이상의 구현에 사용될 수 있는 예시적인 디바이스의 블록도이다.

깊이(depth) 이미지 및 증강 현실 이미지는 모바일 디바이스 및 운영 체제 전반에서 점점 인기있는 카메라 사용 사례이다. 그러나, 이러한 이미지를 캡처, 저장, 공유 및 편집하는데는 표준화가 부족하다. 카메라 애플리케이션을 이용하여 생성된 깊이 이미지는 다른 애플리케이션에서 편집하지 못할 수 있다.

본 명세서에 설명된 기술은 이미지 메타 데이터 및/또는 추가 이미지를 단일 연결(된) 파일 컨테이너에 저장하기 위해 다양한 클라이언트 디바이스에 의해 사용되는 카메라 프레임 워크 내에서 균일하고 일관된 프레임 워크를 제공한다. 본 명세서에 설명된 기술을 사용하여 저장된 이미지는 임의의 애플리케이션에서 보기 및/또는 편집을 위해 액세스할 수 있다. 따라서 본 명세서에 설명된 기술은 깊이 이미지 및/또는 증강 현실 이미지를 캡처, 저장, 공유 또는 편집할 때 애플리케이션들 및/또는 디바이스들 간의 향상된 상호 운용성을 제공할 수 있다.

이 기술은 모바일 디바이스 카메라를 포함하는 카메라 및 모바일과 개인용 컴퓨팅 디바이스 소프트웨어를 포함하는 소프트웨어에서 사용되는 다양한 운영 체제 전반에서 구현하기 쉽고, 빠르게 파싱하고, 기존 이미지 포멧을 확장할 수 있다. 이 기술은 임의의 개수의 부(secondary, 보조) 이미지와 함께, 캡처된 이미지의 이미지 메타 데이터에 디바이스 관련 메타 데이터, 예를 들어 깊이 정보, 디바이스 카메라의 이미징 모델 등을 저장할 수 있게 한다. 저장된 메타 데이터와 부 이미지는 임의의 이미지 보기 또는 편집 애플리케이션에 의해 사용될 수 있다.

도 1은 동일한 엘리먼트를 식별하기 위해 동일한 참조 번호를 사용한다. "156a"와 같이 참조 번호 뒤의 문자는 텍스트가 특정 참조 번호를 갖는 엘리먼트를 구체적으로 지칭함을 나타낸다. "156"과 같이 후속 문자가 없는 텍스트의 참조 번호는 도면에서 참조 번호가 있는 엘리먼트의 일부 또는 전부를 지칭한다(예를 들어, 텍스트에서 "156"은 도면에서 참조 번호 "156a" 및/또는 "156b"를 나타낸다).

도 1은 본 명세서에 설명된 일부 구현에서 사용될 수 있는 예시적인 네트워크 환경(100)의 블록도를 도시한다. 일부 구현에서, 네트워크 환경(100)은 하나 이상의 서버 시스템, 예를 들어 도 1의 예의 서버 시스템(102)을 포함한다. 서버 시스템(102)은 예를 들어 네트워크(130)와 통신할 수 있다. 서버 시스템(102)은 서버 디바이스(104) 및 저장 디바이스(미도시)를 포함할 수 있다. 서버 시스템(102)은 하나 이상의 이미지 파일(106b)을 저장할 수 있다. 일부 구현에서, 서버 디바이스(104)는 이미지 관리 애플리케이션(156b)을 제공할 수 있다. 이미지 관리 애플리케이션(156b)은 개별 이미지 파일(106b)을 제공하는 사용자의 허가를 이용하여 이미지 파일(106b)에 액세스할 수 있다.

네트워크 환경(100)은 또한 네트워크(130)를 통해 서로 및/또는 서버 시스템(102)과 통신할 수 있는 하나 이상의 클라이언트 디바이스, 예를 들어 클라이언트 디바이스(120, 122, 124, 126)를 포함할 수 있다. 네트워크(130)는 인터넷, 근거리 통신망(LAN), 무선 네트워크, 스위치 또는 허브 연결 중 하나 이상을 포함하는 임의의 유형의 통신 네트워크일 수 있다. 일부 구현에서, 네트워크(130)는 예를 들어 피어-투-피어 무선 프로토콜(예를 들어, 블루투스®, Wi-Fi 다이렉트 등) 등을 사용하는 디바이스 간의 피어-투-피어 통신을 포함할 수 있다. 2개의 클라이언트 디바이스(120 및 122) 사이의 피어-투-피어 통신의 일 예는 화살표(132)로 도시된다.

설명의 편의를 위해, 도 1은 서버 시스템(102) 및 서버 디바이스(104)에 대한 하나의 블록을 나타내고, 클라이언트 디바이스(120, 122, 124 및 126)에 대한 4 개의 블록을 나타낸다. 서버 블록(102 및 104)은 다중 시스템, 서버 디바이스들 및 네트워크 데이터베이스들을 나타낼 수 있으며, 그 블록들은 도시된 것과 상이한 구성으로 제공될 수 있다. 예를 들어, 서버 시스템(102)은 네트워크(130)를 통해 다른 서버 시스템과 통신할 수 있는 다중 서버 시스템을 나타낼 수 있다. 일부 구현에서, 서버 시스템(102)은 예를 들어 클라우드 호스팅 서버들을 포함할 수 있다. 일부 예에서, 하나 이상의 저장 디바이스는 서버 디바이스(104)와 분리되어 있고 네트워크(130)를 통해 서버 디바이스(104) 및 다른 서버 시스템과 통신할 수 있는 서버 시스템 블록(들)에 제공될 수 있다.

임의의 수의 클라이언트 디바이스가 있을 수 있다. 각 클라이언트 디바이스는 임의의 유형의 전자 디바이스, 예를 들어 데스크탑 컴퓨터, 랩탑 컴퓨터, 휴대용 또는 모바일 디바이스, 휴대폰, 스마트 폰, 태블릿 컴퓨터, 텔레비전, TV 셋탑 박스 또는 엔터테인먼트 디바이스, 웨어러블 디바이스(예를 들어, 디스플레이 안경 또는 고글, 손목 시계, 헤드셋, 손목 밴드, 보석류 등), PDA(Personal Digital Assistant), 미디어 플레이어, 게임 디바이스 등일 수 있다. 일부 클라이언트 디바이스는 또한 예를 들어 클라이언트 디바이스의 카메라를 사용하여 캡처되거나, 예를 들어 서버로부터 이미지 파일을 다운로드함으로써 다른 방식으로 획득되는 로컬 이미지 파일(106a)을 포함할 수 있다. 일부 구현에서, 네트워크 환경(100)은 도시된 모든 구성 엘리먼트를 갖지 않을 수 있고 및/또는 본 명세서에 설명된 것 대신에 또는 추가적으로 다른 유형의 엘리먼트를 포함하는 다른 엘리먼트를 가질 수 있다.

다양한 구현에서, 최종 사용자(U1, U2, U3 및 U4)는 개별 클라이언트 디바이스(120, 122, 124 및 126)를 사용하여 서버 시스템(102) 및/또는 서로 통신할 수 있다. 일부 예에서 사용자(U1, U2, U3 및 U4)는 네트워크 서비스, 예를 들어, 소셜 네트워크 서비스, 이미지 호스팅 서비스, 또는 서버 시스템(102)에서 구현되는 다른 유형의 네트워크 서비스를 통해 개별 클라이언트 디바이스 및/또는 서버 시스템(102)에서 실행되는 애플리케이션을 통해 서로 상호 작용할 수 있다. 예를 들어, 개별 클라이언트 디바이스(120, 122, 124 및 126)는 하나 이상의 서버 시스템(예를 들어 시스템(102))과 데이터를 주고 받을 수 있다.

일부 구현에서, 서버 시스템(102)은 각 클라이언트 디바이스가 서버 시스템(102) 및/또는 네트워크 서비스에 업로드된 통신된 컨텐츠 또는 공유된 컨텐츠를 수신할 수 있도록 적절한 데이터를 클라이언트 디바이스들에 제공할 수 있다. 일부 예에서, 사용자(U1-U4)는 오디오 또는 비디오 회의, 오디오, 비디오 또는 텍스트 채팅, 또는 다른 통신 모드 또는 애플리케이션을 통해 상호 작용할 수 있다. 서버 시스템(102)에 의해 구현되는 네트워크 서비스는 사용자가 다양한 통신을 수행하고, 링크 및 연결을 형성하고, 이미지, 텍스트, 비디오, 오디오 및 다른 유형의 컨텐츠와 같은 공유 컨텐츠를 업로드 및 게시하고 및/또는 다른 기능을 수행할 수 있도록 하는 시스템을 포함할 수 있다. 예를 들어, 클라이언트 디바이스는 그 클라이언트 디바이스로 전송 또는 스트리밍되고 서버 및/또는 네트워크 서비스를 통해(또는 상이한 클라이언트 디바이스로부터 직접) 상이한 클라이언트 디바이스로부터 발신되거나 서버 시스템 및/또는 네트워크 서비스로부터 발신되는 컨텐츠 게시물과 같은 수신된 데이터를 디스플레이할 수 있다. 일부 구현에서, 클라이언트 디바이스는 예를 들어 전술한 바와 같이 클라이언트 디바이스 간의 피어-투-피어 통신을 사용하여 서로 직접 통신할 수 있다. 일부 구현에서, "사용자"는 시스템 또는 네트워크와 인터페이스하는 사람뿐만 아니라 하나 이상의 프로그램 또는 가상 엔티티를 포함할 수 있다.

일부 구현에서, 임의의 클라이언트 디바이스(120, 122, 124 및/또는 126)는 하나 이상의 애플리케이션을 제공할 수 있다. 예를 들어, 도 1에 도시된 바와 같이, 클라이언트 디바이스(120)는 카메라 애플리케이션(152) 및 이미지 관리 애플리케이션(156a)을 제공할 수 있다. 클라이언트 디바이스(122-126)는 또한 유사한 애플리케이션을 제공할 수 있다. 예를 들어, 카메라 애플리케이션(152)은 개별 클라이언트 디바이스의 사용자(예를 들어, 사용자(U1-U4))에게 개별 클라이언트 디바이스의 하나 이상의 카메라를 사용하여 이미지를 캡처하는 기능을 제공할 수 있다. 예를 들어, 카메라 애플리케이션(152)은 클라이언트 디바이스(120)에서 실행되는 소프트웨어 애플리케이션일 수 있다.

일부 구현에서, 카메라 애플리케이션(152)은 사용자 인터페이스를 제공할 수 있다. 예를 들어, 사용자 인터페이스는 클라이언트 디바이스(120)의 사용자가 정적 이미지(또는 사진) 모드, 버스트 모드(예를 들어, 짧은 시간 기간 동안 연속된 수의 이미지 캡처), 모션 이미지 모드, 비디오 모드, HDR(High Dynamic Range) 모드와 같은 이미지 캡처 모드 선택할 수 있도록 할 수 있다. 일부 구현에서, 카메라 애플리케이션(152)은 도 4 및 5를 참조하여 본 명세서에 설명된 방법들을 (예를 들어, 부분적으로 또는 전체적으로) 구현할 수 있다. 일부 구현에서, 이미지 관리 애플리케이션(156a) 및/또는 이미지 관리 애플리케이션(156b)은 도 4 및 5를 참조하여 본 명세서에 설명된 방법들을 (예를 들어, 부분적으로 또는 전체적으로) 구현할 수 있다.

카메라 애플리케이션(152)과 이미지 관리 애플리케이션(156a)은 클라이언트 디바이스(120)의 하드웨어 및/또는 소프트웨어를 사용하여 구현될 수 있다. 다른 구현에서, 이미지 관리 애플리케이션(156a)은 예를 들어 임의의 클라이언트 디바이스(120-124)에서 실행되는 독립형 애플리케이션일 수 있거나, 서버 시스템(102)에 제공된 이미지 관리 애플리케이션(156b)과 함께 작동할 수 있다. 이미지 관리 애플리케이션(156)은 사용자가 이미지, 예를 들어 이미지 파일(106)을 보고 및/또는 편집하는 것을 가능하게 할 수 있다.

사용자 권한에 따라, 이미지 관리 애플리케이션(156)은 서버상의 이미지 저장(예를 들어, 백업), 이미지 편집, 이미지 자동 향상, 이미지 안정화, 이미지의 하나 이상의 피처 인식(예를 들어, 얼굴, 몸, 객체의 유형, 움직임의 유형 등)과 같은 하나 이상의 자동 기능을 수행할 수 있다.

이미지 관리 애플리케이션(156)은 또한 사용자 인터페이스에 이미지 디스플레이(예를 들어, 단일 이미지를 포함하는 낱개(one-up) 뷰, 다수의 이미지를 포함하는 그리드 뷰 등), 이미지 편집(예를 들어, 이미지 설정 조정, 필터 적용, 이미지 초점 변경, 인물 효과 적용, 보케 효과 적용, 기타 효과 적용, 팬/틸트 동작으로 3차원 이미지 보기, 이미지 분할 기술을 사용하여 이미지에서 객체 추출 등), (예를 들어, 클라이언트 디바이스(120-126)의) 다른 사용자와의 이미지 공유, 이미지 보관(예를 들어, 주 사용자 인터페이스에 나타나지 않도록 이미지 저장), 이미지 기반 장착물(예를 들어, 콜라주, 포토 북, 애니메이션, 스토리, 비디오 루프 등과 같은 모션 기반 아티팩트 등)과 같은 이미지 관리 기능을 제공할 수 있다. 일부 구현에서, 이미지 기반 창작물을 생성하기 위해, 이미지 관리 애플리케이션(156)은 이미지 또는 그 이미지에 저장된 이미지 메타 데이터와 연관된 하나 이상의 라벨을 이용할 수 있다.

클라이언트 디바이스(120, 122, 124 및/또는 126)상의 사용자 인터페이스는 이미지, 비디오, 데이터 및 기타 컨텐츠는 물론 통신, 프라이버시 설정, 통지 및 기타 데이터를 포함하여 사용자 컨텐츠 및 기타 컨텐츠의 디스플레이를 가능하게 할 수 있다. 이러한 사용자 인터페이스는 클라이언트 디바이스의 소프트웨어, 서버 디바이스의 소프트웨어, 및/또는 서버 디바이스(104)에서 실행되는 클라이언트 소프트웨어 및 서버 소프트웨어의 조합, 예를 들어 서버 시스템(102)과 통신하는 애플리케이션 소프트웨어 또는 클라이언트 소프트웨어를 사용하여 디스플레이될 수 있다. 사용자 인터페이스는 클라이언트 디바이스 또는 서버 디바이스의 디스플레이 디바이스(예를 들어, 터치 스크린 또는 기타 디스플레이 스크린, 프로젝터 등)에 의해 디스플레이될 수 있다. 일부 구현에서, 서버 시스템에서 실행되는 애플리케이션 프로그램은 클라이언트 디바이스와 통신하여 클라이언트 디바이스에서 사용자 입력을 수신하고 클라이언트 디바이스에서 시각 데이터, 오디오 데이터 등과 같은 데이터를 출력할 수 있다.

일부 구현에서, 서버 시스템(102) 및/또는 하나 이상의 클라이언트 디바이스(120-126) 중 임의의 것은 통신 애플리케이션 프로그램을 제공할 수 있다. 통신 프로그램은 시스템(예를 들어, 클라이언트 디바이스 또는 서버 시스템)이 다른 디바이스와 통신하기 위한 옵션을 제공하도록 할 수 있다. 통신 프로그램은 서버 시스템 또는 클라이언트 디바이스와 연관된 디스플레이 디바이스에 디스플레이되는 하나 이상의 관련 사용자 인터페이스를 제공할 수 있다. 사용자 인터페이스는 통신 모드, 통신할 사용자 또는 디바이스 등을 선택하기 위해 사용자에게 다양한 옵션을 제공할 수 있다. 일부 예에서, 통신 프로그램은 컨텐츠 게시물(post)을 예를 들어 브로드캐스트 영역으로 전송 또는 브로드 캐스트하기 위한 옵션을 제공할 수 있고 및/또는 컨텐츠 케시물이 디바이스에 의해 수신되었으며, 예를 들어 그 디바이스가 게시물에 대해 정의된 브로드캐스트 영역에 있음을 나타내는 통지를 출력할 수 있다. 통신 프로그램은 전송된 컨텐츠 게시물 및 수신된 컨텐츠 게시물을 예를 들어 다양한 포멧 중 하나로 디스플레이하거나 출력할 수 있다. 컨텐츠 게시물에는 다른 사용자와 공유된 이미지 등이 포함될 수 있다.

본 명세서에 설명된 특징의 다른 구현은 임의의 유형의 시스템 및/또는 서비스를 사용할 수 있다. 예를 들어, 다른 네트워크 서비스(예를 들어, 인터넷에 연결됨)가 소셜 네트워킹 서비스 대신에 또는 추가하여 사용될 수 있다. 임의의 유형의 전자 디바이스는 본 명세서에 설명된 피처들을 사용할 수 있다. 일부 구현은 컴퓨터 네트워크로부터 연결이 끊어지거나 간헐적으로 연결된 하나 이상의 클라이언트 또는 서버 디바이스상에 본 명세서에 설명된 하나 이상의 피처를 제공할 수 있다. 일부 예에서, 디스플레이 디바이스를 포함하거나 이에 연결된 클라이언트 디바이스는 예를 들어 통신 네트워크를 통해 이전에 수신된 클라이언트 디바이스에 로컬인 저장 디바이스에 저장된 데이터(예를 들어, 컨텐츠)를 디스플레이할 수 있다.

도 2a는 카메라를 사용한 이미지 캡처의 예를 예시한다. 도 2a에 도시된 바와 같이, 렌즈(202)가 있는 카메라가 이미지 캡처에 사용될 수 있다. 도 2a는 렌즈(202)를 도시하지만, 카메라는 도 2a에 도시되지 않은 다른 엘리먼트, 예를 들어 이미징 센서, 초점 거리 조정 디바이스 등을 포함할 수 있다. 이미지 캡처 시, 카메라는 초점면(208)에 초점을 맞춘다. 캡처된 이미지는 렌즈(202)로부터 상이한 거리(카메라로부터 상이한 거리)에 있는 복수의 객체를 포함할 수 있다. 예를 들어, 캡처된 이미지는 근거리 평면(206), 초점 평면(208), 원거리 평면(210) 및 임의의 중간 평면에 하나 이상의 객체를 포함할 수 있다.

이미지 캡처에 사용되는 단일 디바이스(예를 들어, 임의의 클라이언트 디바이스(120-126))는 하나 이상의 카메라 또는 이미징 센서를 포함할 수 있다. 예를 들어, 디바이스는 컬러 이미지를 캡처하는데 사용될 수 있는 하나 이상의 카메라(예를 들어, RGB 카메라), 적외선 카메라 등을 포함할 수 있다. 예를 들어, 하나 이상의 카메라는 예를 들어, 망원 카메라, 광각 카메라 등과 같은 상이한 구성을 갖는 카메라를 포함할 수 있다. 다른 구성의 카메라들도 사용될 수 있다. 각 카메라는 대응하는 이미지를 생성할 수 있다. 일부 구현에서, 디바이스의 상이한 카메라들로부터 획득된 이미지 데이터는 주(primary) 이미지를 획득하기 위해 결합될 수 있다. 주 이미지는 예를 들어 디바이스의 화면에 디스플레이될 수 있다. 또한, 본 명세서에 설명된 기술에 따라, 주 이미지는 예를 들어 JPEG, PNG, TIFF, HEIF 등과 같은 이미지 포멧으로 저장될 수 있다. 또한, 본 명세서에 설명된 기술에 따라, 개별 카메라로부터 획득된 하나 이상의 이미지는 도 3을 참조하여 아래에서 설명하는 바와 같이 컨테이너에 저장될 수 있다.

도 2b는 카메라 및 대응하는 깊이 이미지(230)로 캡처된 예시적인 이미지(220)를 도시한다. 예를 들어, 깊이 이미지는 적외선 카메라 또는 기타 깊이 센서를 사용하여 캡처될 수 있다. 다른 예에서, 깊이 이미지는 이미지(220)를 캡처한 카메라로 캡처된 이미지 데이터에 기초하여 생성될 수 있다.

도 2b에 도시된 바와 같이, 이미지(220)는 배경에서 보이는 잎들보다 카메라에 더 가까운 꽃을 포함하는 장면을 묘사한다. 이에 상응하여, 깊이 이미지(230)에서, 카메라에 더 가까운 꽃의 꽃잎은 카메라에서 더 멀리 떨어져있는 다른 꽃잎 및 카메라에서 더 멀리 떨어져있는 잎들보다 더 어두운 음영으로 보인다. 깊이 이미지(230)에서, 더 어두운 음영은 카메라에 더 가까운 장면의 객체에 대응하고 더 밝은 음영은 더 멀리 떨어져 있는 객체에 대응한다.

깊이 이미지(230)는 카메라 시점(viewpoint)으로부터 해당 이미지(예를 들어, 이미지 220)에서 보이는 객체까지의 거리를 나타내는 스칼라 값(예를 들어, 정수 값, 실수 또는 부동점 값 등)의 이미지일 수 있다. 깊이값의 정의는 깊이 센서의 유형에 기초하여 다를 수 있다. 예를 들어, 두 가지 일반적인 정의는 이미지를 캡처한 카메라의 광학 축(일반적으로 z 축)을 따른 깊이 및 이미지 캡처 중에 각 픽셀을 통과하는 광학 광선을 따른 깊이이다.

도 3은 동적 깊이 정보를 저장하기 위한 메타 데이터 구조를 포함하는 예시적인 이미지 파일(300)을 도시한다. 구조화된 메타 데이터는 깊이 정보를 포함하는 이미지에 사용될 수 있다. 일부 구현에서, 이미지 파일(300)은 주 이미지가 추가된 0개, 1개 또는 그 이상의 부 미디어 파일을 갖는 합성 파일 또는 연결 (concatenated) 파일을 포함하는 연결된 파일 컨테이너로서 저장될 수 있다. 도 3에 도시된 예에서, 주 이미지(340)와 관련 메타 데이터(310), 및 XMP(eXtensible Metadata Platform) 메타 데이터(320)가 도시된다. 일부 구현에서, 부 미디어 파일은 주 이미지 또는 깊이 데이터와 같은 관련 미디어의 대안적인 표현을 포함할 수 있다.

이미지 파일(300)은 예를 들어 JPEG, PNG, TIFF, HEIF 등과 같은 임의의 유형의 이미지일 수 있다. 이미지 파일(300)은 주 이미지(340)를 포함한다. 이미지 파일(300)은 메타 데이터(310), 예를 들어 EXIF(Exchangeable Image File Format) 데이터를 더 포함할 수 있다. EXIF 데이터에는 ISO 속도, 셔터 속도, 조리개, 화이트 밸런스, 렌즈 유형, 초점 거리, 날짜 및 시간 등과 같은 하나 이상의 설정이 포함될 수 있다.

일부 구현에서, 이미지 파일(300)은 ISO/IEC 14496-12에 기초하여 ISO 박스 미디어 파일 포맷 컨테이너로서 저장될 수 있다. 이러한 구현에서, 컨테이너의 XMP 메타 데이터에는 컨테이너 XMP 메타 데이터 디렉터리 엘리먼트가 포함되는데, 여기서 디렉터리의 각 항목은 URI(Uniform Resource Identifier)를 사용하여 ISO/IEC 14496-12 컨테이너 내의 박스를 참조한다.

일부 구현에서, 이미지 파일의 XMP 메타 데이터로 인코딩된 컨테이너 엘리먼트는 컨테이너에서 미디어 항목의 디렉토리를 정의할 수 있다. 일부 구현에서, 연결된 미디어 항목들은 디렉토리의 미디어 항목 엘리먼트와 동일한 순서로 컨테이너 파일에 위치한다. 일부 구현에서, 연결된 미디어 항목들은 단단히 패킹(packed), 예를 들어, 상이한 미디어 항목에 대응하는 데이터는 갭(gap)없이 파일 컨테이너에 연속적으로 배치된다. 예를 들어, 이미지 파일은 주 이미지(예를 들어, 주 이미지(340)) 이후에 연결된, 연결된 미디어 항목에 대응하는 바이트를 포함할 수 있다.

주 이미지(340)는 JPEG 이미지 또는 다른 포맷의 이미지와 같은 디스플레이 지원(ready) 이미지일 수 있다. 이미지 파일(300)은 깊이 데이터, 중간 이미지, 또는 주 이미지의 대체 표현과 같은 부 이미지를 포함할 수 있거나, 다른 미디어 항목(예를 들어, 하나 이상의 비디오, 텍스트 등)을 포함할 수 있다. 부 이미지 및/또는 미디어 항목은 전술한 바와 같이 연결된 파일 컨테이너에 저장될 수 있다. 이미지 파일(300)이 ISO/IEC 14496-12 ISO 박스 미디어 파일 포맷 컨테이너인 일부 구현에서, 부 이미지는 컨테이너의 다른 박스로서 저장될 수 있다.

이미지 파일(300)은 XMP 메타 데이터(320)를 더 포함할 수 있다. XMP 메타 데이터(320)는 하나 이상의 디바이스, 예를 들어 디바이스 엘리먼트(324)를 지정하는 데이터를 포함할 수 있다. 메타 데이터는 예를 들어 ISO 16684-1 : 2011(E) XMP 본문 파트 1에 따라 직렬화될 수 있고, 파일들의 Adobe XMP 본문 파트 3 저장편에 설명된 바와같이 이미지 파일(300) 내부에 임베딩될 수 있다. 일부 구현에서, 이미지 파일(300)은 RDF/XML(Resource Description Framework/eXtensible Markup Language)로 포맷된 다음 항목들을 포함할 수 있다.

일부 구현에서, XMP 메타 데이터(320)(컨테이너 XMP 메타 데이터 디렉토리라고도 지칭됨)는 연결된 파일 컨테이너에서 후속 미디어 파일들의 순서 및 속성을 정의할 수 있다. 각 엘리먼트는 컨테이너 : 항목 구조일 수 있으며 컨테이너의 레이아웃과 컨텐츠를 정의할 수 있다. 컨테이너 유형은 예를 들어 "디바이스" 엘리먼트, "카메라" 엘리먼트 등일 수 있다. 연결된 컨테이너의 각 파일(예를 들어, 다른 이미지, 비디오, 텍스트 등)은 디렉토리에 대응하는 미디어 항목을 가질 수 있다. 미디어 항목은 파일 컨테이너내의 위치 및 그 연결된 파일 컨테이너내의 각각의 연결된 파일의 기본 속성을 기술할 수 있다. 일부 구현에서, 컨테이너 디렉토리의 미디어 항목은 메타 데이터의 이미지 또는 깊이 맵 엘리먼트의 ItemURI 속성에 의해 참조될 수 있다. URI는 네임스페이스(namespace)에 기초할 수 있는데, 예를 들어 디폴트 네임스페이스 접두사를 사용하는 것은 컨테이너이다. 디렉토리에는 디렉토리의 제1 항목인 단일 주 이미지만 포함된다. 항목 엘리먼트에는 애플리케이션에 의해 사용 가능한 각 항목의 설명이 포함된다.

일부 구현에서, XMP 데이터(320)의 루트 메타 데이터 객체는 디바이스(324)라고도 지칭되는 디바이스 엘리먼트(324)를 포함할 수 있다. 일부 구현에서, 디바이스 엘리먼트(324)는 필수이며, 예를 들어, 적어도 하나의 디바이스(324)는 항상 XMP 데이터(320)에 포함된다. 일부 구현에서, 하나 이상의 디바이스 엘리먼트가 포함될 수 있다.

디바이스 엘리먼트(324)는 하나 이상의 프로파일 또는 사용 사례에 따라 지정될 수 있다. 각 프로파일에는 대응하는 필수 엘리먼트 및 데이터 세트가 있을 수 있다. 프로파일은 애플리케이션(예를 들어, 이미지 파일(300)을 생성한 카메라 애플리케이션) 또는 이미지 파일(300)에 액세스하는 다른 애플리케이션(예를 들어, 이미지 백업, 보기 또는 편집 애플리케이션)에 의해 사용될 수 있다. 예를 들어, 프로파일들은 특정 이미지 파일이 지원할 수 있는 사용 사례를 식별하는데 사용될 수 있다. 이미지 파일(300)은 하나 이상의 프로파일을 포함할 수 있다. 일부 구현에서, 각 프로파일은 특정 사용 사례에 대응할 수 있고 대응하는 필수 엘리먼트 및 데이터 세트를 가질 수 있다. 예를 들어 사용자가 이미지를 보거나 편집할 수 있도록 이미지 파일(300)에 액세스하는 애플리케이션은 프로파일(들)을 활용하여 주어진 이미지 파일이 지원할 수 있는 사용 사례를 식별할 수 있다.

도 3에 도시된 예에서, 이미지 파일(300)의 XMP 메타 데이터(320)는 "DepthPhoto" 프로파일 유형의 프로파일 엘리먼트(326)(프로파일(326)이라고도 함)를 포함하는 단일 디바이스 엘리먼트(324)를 포함한다. 또한, 프로파일(326)은 예를 들어, 이미지 캡처(또는 생성)시에 이미지 파일(300)의 이미지 데이터가 획득된 카메라의 수("카메라 인덱스(cameraindices) =i", 여기서 i는 인덱스 값)를 나타낸다. 예를 들어 카메라 인덱스가 0인 일부 구현에서, 주 이미지는 카메라 엘리먼트에서 참조되는 이미지와 동일할 수 있다. 일부 구현에서, 프로파일 유형 "DepthPhoto"의 프로파일은 적어도 하나의 프로파일 엘리먼트(326) 및 적어도 하나의 카메라 엘리먼트(예를 들어, "카메라(328"))를 포함하는 것이 필수적일 수 있다. 도 3에 도시된 예에서, 카메라(328)(카메라 엘리먼트(328)라고도 함)는 카메라 엘리먼트(330)(카메라 i)를 포함하는 것으로 묘사된다. 일부 구현에서, 카메라들(328)은 하나 이상의 카메라 엘리먼트의 시퀀스이다.

일부 구현에서, 각 카메라 엘리먼트(예를 들어, 카메라 엘리먼트(330))는 카메라에 의해 제공된 이미지에 대한 이미지 엘리먼트(332) 및 깊이 맵 엘리먼트(334)(또한 깊이 맵(334)라고도 함)를 포함한다. 이미지 엘리먼트(332)는 그 이미지 엘리먼트가 상기 연결된 파일 컨테이너의 주 이미지(340)에 대응하는지 여부를 나타내는 속성 "Primary"를 포함할 수 있다. 일부 구현에서, 이미지 엘리먼트(332)는 이미지 엘리먼트(332)에 의해 참조되는 미디어 항목이 원래 버전, 예를 들어 깊이 효과를 렌더링하는데 사용할 수 있는 필터링되지 않은 컬러 이미지인지 여부를 나타내는 속성 "Original"을 포함할 수 있다. 일부 구현에서, 이미지 엘리먼트(332)는 그 이미지 엘리먼트(332)에 의해 참조되는 미디어 항목(예를 들어, 이미지)이 디스플레이 지원가 되지 않은 원시 버전이고 디스플레이 지원 이미지를 획득하기 위해 처리될 수 있음을 나타내는 속성 "Raw"를 포함할 수 있다. 일부 구현에서, 이미지 엘리먼트(332)는 그 이미지 엘리먼트(332)에 의해 참조되는 미디어 항목(예를 들어, 이미지)이 깊이 이미지를 포함 함을 나타내는 속성 "Depth"를 포함할 수 있다.

깊이 맵(334)은 해당 카메라에서 제공하는 이미지의 깊이 관련 정보 및/또는 깊이 맵을 포함할 수 있다. 일부 구현에서, 이미지 엘리먼트(332) 및/또는 깊이 맵 엘리먼트(334)는 예를 들어, 연결된 파일 컨테이너에서 이미지 파일(300)에 저장된 대응하는 이미지 데이터 및/또는 깊이 데이터의 위치를 가리키는 URI를 포함할 수 있다. 제1 카메라의 깊이 데이터에는 홀(hole)이 없어야 한다. 이미지 파일을 생성하는 애플리케이션은 깊이값을 사용할 수 없거나 계산할 수 없는 이미지 영역에서 예상 값을 인코딩한다.

일부 구현에서, 깊이 이미지는 그 깊이 이미지의 특정 픽셀에 각각 대응하는 복수의 값을 포함한다. 예를 들어 부동 포인터 또는 32 비트 정수 포멧의 깊이 정보는 정수 포멧으로 변환되고 파일 컨테이너 유형(예를 들어, JPEG)으로 지원되는 이미지 코덱을 사용하여 압축된다. 정수 포멧으로의 변환은 선형 범위 변환 및 역 범위 변환을 포함하여 다양한 방식으로 수행될 수 있다. 예를 들어, 인코딩될 때 깊이 맵 정밀도에 손실이 있는 경우, 예를 들어 부동점 깊이 값을 16 비트 정수로 변환하는 경우 역변환이 이용될 수 있다.

선형 변환(RangeLinear) : d는 픽셀의 깊이 거리 값이고, 가능한 최소 및 최대 깊이값에 가깝거나 멀다. 깊이값들은 먼저 다음 공식을 사용하여 [0, 1] 범위로 정규화된다.

그런 다음, 깊이값들은 다음 공식을 사용하여 16비트로 양자화된다.

깊이는 다음 공식을 사용하여 양자화된 깊이값(d_n)으로부터 복구된다.

역변환(RangeInverse) : RangeInverse는 가까운 깊이 값에 더 많은 비트를 할당하고 먼 값에 더 적은 비트를 할당한다. 깊이값들은 먼저 다음 공식을 사용하여 [0, 1] 범위로 정규화된다.

일부 구현에서, 깊이 맵(334)은 깊이 데이터에 대한 렌즈 초점 모델을 포함할 수 있다. 일부 구현에서, 렌즈 모델은 예를 들어 초점 테이블(FocalTable) 속성에 저장된 메타 데이터를 포함할 수 있다. 메타 데이터는 예를 들어 피사계 심도 효과를 렌더링하기 위해 애플리케이션에 의해 사용될 수 있다. 렌즈 모델은 뷰어(예를 들어, 이미지를 캡처한 카메라)로부터 상이한 거리에서 착란원(circle of confusion)의 반경을 정의한다. 초점 테이블에는 깊이 거리 값의 함수로 착란원을 정의하는 룩업 테이블을 구성하는데 사용할 수 있는 거리 및 반경 쌍이 포함될 수 있다.

일부 구현에서, 초점 테이블 속성은 실제 거리 값인 base-64 인코딩된 리틀 엔디안(base-64 encoded little endian) 부동점 쌍으로 구성된 문자열 값일 수 있다. 이러한 <거리>, <반경> 쌍은 깊이 맵의 가까운 값과 먼 값 사이의 거리 값에서 착란원의 반경을 계산하기 위해, 예를 들어 이미지 보기 또는 편집 애플리케이션에 의해 사용될 수 있는 룩업 테이블을 정의한다.

일부 구현에서, 거리-반경 쌍은 거리 값에 의해 정렬된 오름차순으로 저장된다. 일부 구현에서, 거리 좌표는 깊이 맵 거리 값 단위로 정의될 수 있다. 일부 구현에서, 반경 값은 픽셀 좌표로 정의될 수 있다. 각 반경 값은 0이상이다. 반경 값 0은 이미지의 초점면에서 초점이 맞는 깊이 거리를 나타낼 수 있다. 룩업 테이블은 적어도 두 쌍, 예를 들어 근거리에 대응하는 제1 쌍 및 깊이 맵의 원거리에 대응하는 제2 쌍을 포함한다. 일부 구현에서, 반경 값들은 이미지를 캡처한 카메라로부터 임의의 초점 거리에서 착란원의 반경을 획득하기 위해, 초점 테이블에 정의된 포인트들 사이에서 보간(예를 들어, 선형 보간)될 수 있다.

일부 구현에서, 초점 테이블은 3개의 반경 값, 즉 근거리 평면에 대한 근거리 값, 초점 평면에 대한 초점 평면 값 및 원거리 평면에 대한 원거리 값을 포함할 수 있다. 이미지 보기 애플리케이션은 초점 테이블에 액세스하여 초점 평면 깊이값에 초점이 맞춰진 객체들을 렌더링할 수 있다. 일부 구현에서, 초점 테이블은 예를 들어 초점 평면에 대응하는 초점에서와 같이 둘 이상의 거리 값을 포함할 수 있다.

일부 구현에서, 주 이미지(340)는 카메라 엘리먼트(328)의 제1 카메라와 연관된다. 일부 구현에서, 카메라(328)에 나열된 제1 카메라 엘리먼트는 주 카메라, 예를 들어 스마트 폰 또는 태블릿과 같은 디바이스의 주 카메라일 수 있다. 일부 구현에서, 추가 카메라 엘리먼트는 디바이스의 다른 카메라, 예를 들어 스마트 폰 또는 태블릿 디바이스의 적외선 카메라에 대응할 수 있다. 다른 카메라들의 순서는 임의적일 수 있다. 일부 구현에서, 각각의 추가 카메라 엘리먼트는 디바이스에 대한 카메라의 포즈를 나타내는 대응하는 포즈 엘리먼트를 포함할 수 있다. 일부 구현에서, 단일 카메라 엘리먼트 내의 모든 이미지 및 깊이 맵은 동일한 카메라(예를 들어, 엘리먼트들이 동일한 포즈, 비율 및 시야를 갖음)에 의해 시정될 수 있다.

이미지 파일(300)이 이미지 편집 애플리케이션에 의해 수정(예를 들어, 췌자르기, 크기 조정 등)되면, 하나 이상의 카메라 엘리먼트는 예를 들어 카메라 엘리먼트의 깊이 맵 및 이미지 엘리먼트를 업데이트하기 위해, 이미지에 대한 수정을 반영하도록 업데이트될 수 있다.

일부 구현에서, 이미지 파일(300)은 장면에 대해 이미지를 캡처한 이미징 센서(들) 또는 카메라(들)의 위치 및 방향을 포함하는 포즈와 같은 이미지 캡처에 관한 정보를 포함할 수 있다. 이 정보를 포함하면 애플리케이션이 다수의 카메라의 이미지(예를 들어, 컬러 이미지 카메라로부터의 이미지와 깊이 센서로부터의 깊이 이미지)를 함께 사용할 수 있다. 예를 들어, 포즈 정보는 애플리케이션이 이미지에 깊이 데이터(다른 해상도일 수 있음)를 매핑할 수 있도록 할 수 있다.

일부 구현에서, 디바이스(324)는 하나 이상의 다른 엘리먼트를 포함할 수 있다. 예를 들어, 이러한 엘리먼트에는 파일 컨테이너내의 연결된 파일들의 정렬된 디렉토리인 컨테이너 엘리먼트, 디바이스에 대한 벤더 관련 정보를 포함하는 벤더 정보(endorInfo), 디바이스의 애플리케이션-특정 또는 렌더링 정보를 포함하는 애플리케이션 정보(AppInfo) 엘리먼트 등이 포함될 수 있다.

일부 구현에서, 카메라 엘리먼트(330)는 하나 이상의 추가 엘리먼트, 예를 들어 카메라의 벤더 관련 정보를 포함하는 벤더 정보 엘리먼트, 카메라의 애플리케이션-특정 또는 렌더링 정보를 포함하는 애플리케이션 정보 엘리먼트, 카메라에 의해 제공되는 이미지(예를 들어, 깊이 이미지)를 포함하는 이미지 엘리먼트, 카메라 렌즈의 이미징 모델을 기술하는 이미징 모델(ImagingModel) 엘리먼트를 포함할 수 있다. 예를 들어, 이미징 모델 엘리먼트는 어안 왜곡 모델 또는 5-DoF 방사형 왜곡이 있는 표준 핀홀 카메라 모델을 기술하는데 사용될 수 있다. 일부 구현에서, 이미징 모델 엘리먼트는 이미징 센서의 치수로 정규화되고 실수로 표현된 X 축과 Y 축을 따르는 초점 거리, 카메라 광축이 각각 X 및 Y 축을 따라 카메라의 이미지 평면 중심을 교차하고, 센서 높이로 정규화된 주요 지점(X 위치 및 Y 위치), 픽셀로 표현된 이미지 폭과 높이; 각도로 표현된 카메라의 기울기(예를 들어, 이미지의 y 축이 수직에서 멀어지는 시계 방향 각도); 픽셀 폭 대 픽셀 높이의 픽셀 종횡비; 및 하나 이상의 왜곡 파라미터를 나타낼 수 있다. 이미지가 편집되는 경우 예를 들어, 크기 조정되거나 또는 잘리는 경우) 이미징 모델 엘리먼트가 그에 따라 업데이트될 수 있다.

항목 구조는 예를 들어, 컨테이너 : 항목 형태로 그 아이템이 포함된 컨테이너의 레이아웃 및 컨텐츠를 정의할 수 있다. 예를 들어, "프로파일" 컨테이너 엘리먼트는 도 3에 도시된 바와같이 "유형 및 "카메라 인덱스"항목을 포함할 수 있다. 다른 예에서, "카메라" 엘리먼트는 파일 컨테이너 내의 해당 이미지에 대한 URI를 포함하는 "이미지" 항목, 그 이미지의 깊이 맵을 포함하는 "깊이 맵" 항목 등을 포함할 수 있다. 각 항목 엘리먼트에는 예를 들어 사용자가 이미지를 보거나 편집할 수 있도록 하기 위해 이미지 백업, 보기 또는 편집 애플리케이션을 가능하게 하는 정보가 포함된다.

일부 구현에서, 디렉토리의 제1 미디어 항목은 주 이미지(340)이다. 주 이미지 엘리먼트에는 MIME 유형을 나타내는 관련 필드가 있다. 필드는 컨테이너에 있는 미디어 항목의 MIME 유형을 나타내는 간단한 문자열일 수 있다. 예를 들어, 주 이미지의 MIME 유형 값은 다음과 같다.

또한, 포함되는 경우 주 이미지 엘리먼트의 길이 필드는 0의 값으로 설정될 수 있다. 주 이미지가 파일 컨테이너의 제1 파일인 구현에서, 애플리케이션은 예를 들어 파일 컨테이너의 시작점에서 시작하여, 표시된 MIME 유형에 기초하여 주 이미지를 파싱함으로써 주 이미지의 길이를 결정할 수 있다.

XMP 메타 데이터의 제1 미디어 항목은 인코딩된 주 이미지의 끝 부분과 제1 부 이미지의 시작 부분사이에 추가 패딩을 지정하는 패딩 속성을 선택적으로 포함할 수 있다.

미디어 아이템이 단단히 패킹되는 일부 구현에서, 부 이미지에 대한 후속 미디어 아이템들은 패딩 속성을 포함하지 않는다. 각 미디어 항목(예를 들어, 주 이미지(340) 이외의 이미지)은 대응하는 MIME 유형 속성 및 길이 속성을 갖는다. 길이 속성은 정수값일 수 있으며 부 미디어 항목에 필수적이다. 일부 구현에서, 길이 속성은 상기 연결된 파일 컨테이너의 대응 파일에 있는 항목의 바이트 수를 나타내는 양의 정수 길이를 포함하는 간단한 문자열일 수 있다. 일반적으로 아이템 엘리먼트에는 표 1에 나열된 이미지 MIME 유형들 중 하나인 마임(Mime) 속성이 포함된다. 일부 구현에서, 순차 미디어 항목들은 파일 컨테이너 내에서 리소스 데이터를 공유할 수 있다. 제1 미디어 항목은 파일 컨테이너에서 리소스의 위치를 나타낼 수 있으며, 후속 공유 미디어 항목은 0으로 설정된 길이 속성을 가질 수 있다. 리소스 데이터 자체가 컨테이너인 경우, DataURI는 리소스 내 미디어 항목 데이터의 위치를 결정하는데 사용될 수 있다. 애플리케이션은 선행하는 부 항목 리소스들의 길이를 지정된 경우 주 이미지 인코딩에 그 주 이미지의 패딩 값을 더한 길이에 합산함으로써 상기 연결된 파일 컨테이너에서 미디어 항목 리소스들의 위치를 결정할 수 있다.

아래 표는 아이템 엘리먼트에 포함될 수 있는 다양한 속성의 예를 설명한다.

일부 구현에서, XMP 메타 데이터는 증강 현실(AR) 이미지에 대한 파라미터들을 지정할 수 있다. AR 이미지의 프로파일 유형은 "ARPhoto"일 수 있다. 이러한 파라미터는 예를 들어 AR 이미지를 캡처한 클라이언트 디바이스의 포즈, 조명 추정 정보, 장면의 수평 및/또는 수직 표면 평면(예를 들어, 바닥, 벽 등), 카메라 내장 함수 등을 포함할 수 있다. 또한, AR 파라미터는 예를 들어 이미지 캡처 또는 증강 현실 애플리케이션에 의해 제공되는 애플리케이션 특정 메타 데이터를 포함할 수 있다. 이러한 애플리케이션 특정 메타 데이터는 3차원(3D) 자산의 식별자(들), 예를 들어 AR 이미지에 묘사된 현실 세계 장면 및 대응하는 포즈를 보강하는데 사용되는 하나 이상의 가상 객체를 포함할 수 있다.

또한, 일부 구현에서, 하나 이상의 이미지가 증강 현실 이미지에 사용되는 이미지 파일에 임베딩될 수 있다. 이러한 임베딩의 사용 사례는 임베드된 이미지가 3D 자산이 없는 이미지이고 컨테이너(예를 들어, 주 이미지)에 3D 자산이 포함된 경우이다. 이를 통해 사용자는 예를 들어 이미지 갤러리에서 3D 자산이 포함된 썸네일을 미리 볼 수 있으며 보기 또는 편집 애플리케이션은 사용자가 증강 현실 이미지에서 가상 객체를 상호 작용하고 이동할 수 있도록 하는 사용자 인터페이스를 제공할 수 있다. 이 예에서, 사용자가 편집 후 증강 현실 이미지를 저장하면 주 이미지가 업데이트될 수 있다. 이 예에서 XMP 메타 데이터는 임베딩된 이미지를 0이상의 인덱스를 갖는 카메라에 저장한다. 임베딩된 이미지가 없는 경우 카메라 0에는 AR 메타 데이터가 포함된다.

예를 들어, "depthphoto" 및 "ARphoto"와 상이한 다른 유형의 프로파일이 다른 기능 및 사용 사례를 지원하기 위해 XMP 메타 데이터에 또한 지정될 수 있다.

일부 구현에서, 모바일 디바이스상의 카메라 애플리케이션과 같은 애플리케이션은 예를 들어 클라이언트 디바이스(예를 들어, 임의의 클라이언트 디바이스(120-126))의 카메라 하드웨어를 사용하여 이미지 파일(300)을 생성할 수 있다. 이러한 구현에서, 카메라 애플리케이션은 전술한 포멧으로 이미지 파일(300)을 생성할 수 있다. 이미지 파일(300)을 생성하기 위해, 이미지 데이터는 예를 들어 하드웨어 센서(예를 들어, CCD, CMOS, 적외선 등)와 같은 이미징 센서로부터 획득될 수 있다.

이미징 센서에서 획득된 이미지 데이터는 예를 들어, 이미지 파일(300) 내의 (예를 들어, 카메라 i에 각각 대응하는) 주 이미지 및 하나 이상의 다른 이미지가 동일한 포즈 및 동일한 종횡비를 갖도록 카메라 애플리케이션에 의해 수정될 수 있다. 예를 들어, 주 이미지와 하나 이상의 다른 이미지는 동일한 종횡비로 잘릴 수 있다. 일부 구현에서, 예를 들어 깊이 정보가 하나 이상의 카메라로부터 이용 가능한 경우, 이미지 파일(300)은 깊이 맵을 포함할 수 있다. 일부 구현에서, 깊이 맵의 해상도는 주 이미지 및 하나 이상의 다른 이미지의 해상도와 동일할 수 있다. 일부 구현에서, 깊이 맵의 해상도는 주 이미지 및 하나 이상의 다른 이미지의 해상도와 다를 수 있다. 일부 구현에서, 하나 이상의 다른 이미지는 이미지 파일(300)에 저장될 수 있고 추가 카메라 엘리먼트에서 참조될 수 있다.

본 명세서에 기술된 바와 같이 XMP 메타 데이터를 갖는 연결된 파일 컨테이너인 이미지 파일은 이미지 백업, 보기 또는 편집 애플리케이션이 이미지 생성과 일치하는 방식으로 미디어(예를 들어, 깊이 사진, 증강 현실 사진 등)를 제시(예를 들어, 클라이언트 디바이스의 하나 이상의 이미지 센서를 사용하여 캡처)할 수 있도록 한다. 또한 파일 컨테이너에 주 이미지를 포함하면 XMP 메타 데이터를 해석할 수 없는 애플리케이션이나 서비스가 디스플레이 지원 버전의 이미지를 획득할 수 있다.

도 4는 일부 구현에 따른 예시적인 방법(400)을 도시하는 흐름도이다. 일부 구현에서, 방법(400)은 예를 들어 도 1에 도시된 바와 같이 서버 시스템(102)에서 구현될 수 있다. 일부 구현에서, 방법(400)의 일부 또는 전부는 도 1에 도시된 바와 같이 하나 이상의 클라이언트 디바이스(120, 122, 124 또는 126), 하나 이상의 서버 디바이스 및/또는 서버 디바이스(들)와 클라이언트 디바이스(들) 모두에서 구현될 수 있다. 설명된 예에서, 구현 시스템은 하나 이상의 디지털 프로세서 또는 처리 회로("프로세서") 및 하나 이상의 저장 디바이스를 포함한다. 일부 구현에서, 하나 이상의 서버 및/또는 클라이언트의 상이한 구성 요소는 방법(400)의 상이한 블록 또는 상이한 부분을 수행할 수 있다. 일부 예에서, 제1 디바이스는 방법(400)의 블록들을 수행하는 것으로 설명된다. 일부 구현은 결과 또는 데이터를 제1 디바이스에 전송할 수 있는 하나 이상의 다른 디바이스(예를 들어, 다른 클라이언트 디바이스 또는 서버 디바이스)에 의해 수행되는 방법(400)의 하나 이상의 블록을 가질 수 있다.

다양한 구현에서, 클라이언트 디바이스(120)는 독립형 카메라, 카메라를 포함하는 다른 디바이스, 예를 들어 스마트 폰, 태블릿, 컴퓨터, 웨어러블 디바이스(예를 들어, 스마트 워치, 헤드셋 등), 또는 다른 디바이스에 의해 캡처된 이미지 또는 비디오를 수신할 수 있는 다른 클라이언트 디바이스일 수 있다. 일부 구현에서, 클라이언트 디바이스(120)는 캡처 전용 디바이스, 예를 들어 스크린을 포함하지 않는 카메라일 수 있다. 일부 구현에서, 클라이언트 디바이스(120)는 보기 전용 디바이스, 예를 들어 이미지 또는 비디오가 디스플레이될 수 있는 스크린을 포함하지만 이미지 또는 비디오를 캡처하는 카메라 또는 다른 기능이 없는 디바이스일 수 있다. 일부 구현에서, 클라이언트 디바이스(120)는 캡처 및 보기 기능 모두를 가질 수 있다.

일부 구현에서, 클라이언트 디바이스(120)는 이미지 또는 비디오를 캡처하기 위해 단일 카메라를 포함할 수 있다. 일부 구현에서, 클라이언트 디바이스(120)는 복수의 카메라(또는 렌즈)를 포함할 수 있다. 예를 들어, 스마트 폰 또는 다른 디바이스는 하나 이상의 전면 카메라(디바이스의 화면과 동일한 면에 있음) 및/또는 하나 이상의 후면 카메라를 포함할 수 있다. 일부 구현에서, 하나 이상의 전면 또는 후면 카메라는 캡처 중에 함께 작동할 수 있는데, 예를 들어, 제1 카메라는 깊이 정보를 캡처할 수 있고 제2 카메라는 이미지 또는 비디오의 이미지 픽셀을 캡처할 수 있다. 일부 구현에서, 상이한 카메라들이 상이한 유형의 이미지 또는 비디오 캡처에 예를 들어 상이한 줌 레벨(예를 들어, 망원 렌즈, 광각 렌즈 등)에 사용될 수 있다. 일부 구현에서, 클라이언트 디바이스(120)는 360도 이미지 또는 비디오를 캡처하도록 구성될 수 있다. 일부 구현에서, 카메라 또는 렌즈는 단일 이미지 센서(예를 들어, CCD 또는 CMOS 센서) 또는 복수의 센서를 사용하여 이미지를 캡처할 수 있다. 일부 구현에서, 다른 센서, 예를 들어 깊이 센서 등은 이미지 캡처시에 하나 이상의 카메라와 함께 사용될 수 있다.

일부 구현에서, 클라이언트 디바이스(120)는 하나 이상의 카메라(또는 렌즈)의 이미지 센서에서 캡처된 원시 이미지 데이터와 다른 센서(예를 들어, 가속도계, 자이로 스코프, 위치 센서, 깊이 센서)로부터 획득된 다른 데이터를 결합하여 이미지를 형성하고, 그 이미지를 파일 컨테이너에 저장한다.

클라이언트 디바이스(120)는 사용자가 상이한 모드들, 예를 들어 단일 프레임을 캡처하기 위한 정적 이미지(또는 사진) 모드, 복수의 프레임을 캡처하기 위한 버스트 또는 모션 이미지 모드, 복수의 프레임 등을 포함하는 비디오를 캡처하기 위한 비디오 모드에서 이미지를 캡처하는 것을 가능하게 할 수 있다. 일부 구현에서, 방법(400)은 카메라가 이미지를 캡처하는 경우 이미지 캡처시에 수행될 수 있다.

클라이언트 디바이스(120)는 사용자가 예를 들어 클라이언트 디바이스(120)에 의해 캡처되거나 사용자와 연관된 이미지 또는 비디오를 상이한 사용자 인터페이스에서 볼 수 있게 할 수 있다. 예를 들어, 사용자가 한 번에 단일 이미지 또는 비디오를 보거나 편집할 수 있도록 낱개 모드 또는 슬라이드 쇼 모드가 제공될 수 있다. 다른 예에서, 사용자가 예를 들어 이미지 그리드로서 동시에 다수의 이미지를 보고 및/또는 편집할 수 있게 하는 갤러리 모드가 제공될 수 있다. 일부 구현에서, 클라이언트 디바이스(120)는 방법(400)을 수행할 수 있다. 다른 예에서, 클라이언트 디바이스 또는 서버 디바이스는 방법(400)을 수행할 수 있다. 일부 구현에서, 방법(400)은 서버 디바이스에 의해 구현될 수 있다.

블록(402)에서, 방법(400)의 구현에서 사용자 데이터를 사용하기 위해 사용자 동의(예를 들어, 사용자 허가)가 획득되었는지가 여부가 체크된다. 예를 들어, 사용자 데이터에는 클라이언트 디바이스를 사용하여 사용자가 캡처한 이미지 또는 비디오, (예를 들어, 클라이언트 디바이스를 사용하여) 사용자가 저장하거나 액세스한 이미지 또는 비디오, 이미지/비디오 메타 데이터, 메시징 애플리케이션 사용과 관련된 사용자 데이터, 사용자 선호도, 사용자 생체 인식 정보, 사용자 특성(예를 들어, 신원, 이름, 나이, 성별, 직업 등), 사용자의 소셜 네트워크 및 연락처에 대한 정보, 사용자가 생성하거나 제출한 소셜 및 기타 유형의 액션 및 활동, 컨텐츠, 평가 및 의견, 사용자의 현재 위치, 이력적인 사용자 데이터, 사용자가 생성, 수신 및/또는 액세스한 이미지, 사용자가 보거나 공유한 이미지가 포함될 수 있다. 본 명세서에 설명된 방법의 하나 이상의 블록은 일부 구현에서 이러한 사용자 데이터를 사용할 수 있다.

사용자 데이터가 방법(400)에서 사용될 수 있는 관련 사용자로부터 사용자 동의가 획득된 경우, 블록(404)에서, 본 명세서에서 방법의 블록들은 이러한 블록에 대해 설명된 사용자 데이터의 가능한 사용으로 구현될 수 있다고 결정되고, 방법은 블록(410)으로 계속된다. 사용자 동의가 획득되지 않은 경우, 블록들은 사용자 데이터를 사용하지 않고 구현되어야 한다고 블록(406)에서 결정되고, 방법은 블록(410)으로 계속 진행된다. 일부 구현에서, 사용자 동의를 획득하지 못한 경우, 블록들은 사용자 데이터를 사용하지 않고 합성 데이터 및/또는 일반 또는 공개적으로 액세스 가능하고 공개적으로 사용 가능한 데이터로 구현된다. 일부 구현에서, 사용자 동의가 획득되지 않은 경우, 방법(400)이 수행되지 않는다.

블록(410)에서, 이미지 데이터는 예를 들어 클라이언트 디바이스의 하나 이상의 카메라를 사용하여 캡처된다. 일부 구현에서, 캡처된 이미지 데이터는 주 이미지 및 관련 깊이값을 포함할 수 있다. 일부 구현에서, 캡처된 이미지 데이터는 하나 이상의 부 이미지를 포함한다. 일부 구현에서, 주 이미지는 컬러 이미지일 수 있다. 일부 구현에서, 하나 이상의 부 이미지는 (예를 들어, 주 이미지와 다른 관점 또는 다른 시간에 획득된) 컬러 이미지, 그레이 스케일 이미지, 흑백 이미지, 깊이 이미지(예를 들어, 깊이 정보를 포함하지만 사람이 볼 수 있는 장면 묘사는 포함하지 않는 이미지)를 포함할 수 있다. 일부 구현에서, 하나 이상의 부 이미지는 주 이미지를 캡처한 카메라와 상이한 카메라에 의해 캡처될 수 있다. 일부 구현에서, 하나 이상의 부 이미지 각각은 하나 이상의 카메라 중 대응하는 카메라에 의해 캡처될 수 있다. 블록(410) 다음에 블록(412)이 올 수 있다.

블록(412)에서, 이미지 데이터는 예를 들어 JPEG 이미지, TIFF 이미지, HEIF 이미지, PNG 이미지 등과 같은 이미지 포맷으로 인코딩될 수 있다. 일부 구현에서, 인코딩된 이미지 데이터는 이미지 포맷으로 인코딩된 주 이미지를 포함할 수 있다. 인코딩된 이미지 데이터는 이미지 메타 데이터를 더 포함할 수 있다. 일부 구현에서, 이미지 메타 데이터는 XMP 메타 데이터로 인코딩될 수 있다. 일부 구현에서, 이미지 메타 데이터는 이미지 유형(예를 들어, 깊이 사진, 증강 현실(AR) 사진 등)을 나타내는 프로파일 엘리먼트를 포함하는 디바이스 엘리먼트를 포함할 수 있다. 일부 구현에서, 이미지 메타 데이터는 이미지 엘리먼트 및 깊이 맵을 포함하는 카메라 엘리먼트를 더 포함할 수 있으며, 깊이 맵은 깊이값에 기초하여 획득된다.

일부 구현에서, 깊이 맵은 이미지 데이터를 캡처하기 위해 사용된 하나 이상의 카메라의 특정 카메라로부터의 개별 거리를 각각 나타내는 복수의 픽셀 값을 포함할 수 있다. 일부 구현에서, 깊이는 렌즈 초점 모델을 더 포함할 수 있다. 일부 구현에서, 렌즈 초점 모델은 특정 카메라로부터의 복수의 거리에 대응하는 착란원의 개별 반경 값을 정의할 수 있다. 일부 구현에서, 복수의 거리는 근거리(근거리 평면에 대응) 및 원거리(원거리 평면에 대응)를 포함할 수 있으며, 근거리는 원거리보다 작다(근거리 평면은 원거리 평면보다 카메라에 더 가깝다). 일부 구현에서, 복수의 거리는 근거리보다 크고 원거리보다 작은 초점 거리를 더 포함할 수 있다. 일부 구현에서, 복수의 픽셀 값은 깊이값을 정수 포멧(예를 들어, 16 비트 정수)으로 변환하고 그 변환된 깊이값을 이미지 포멧(예를 들어, JPEG)에 기초하여 압축함으로써 획득될 수 있다.

하나 이상의 부 이미지를 포함하는 구현에서, 이미지 메타 데이터는 하나 이상의 추가 카메라 엘리먼트를 더 포함할 수 있다. 각각의 추가 카메라 엘리먼트는 하나 이상의 부 이미지의 적어도 하나의 이미지에 대응할 수 있고, 파일 컨테이너 내의 적어도 하나의 이미지에 대한 포인터(예를 들어, URI)를 포함하는 개별 이미지 엘리먼트를 포함할 수 있다. 일부 구현에서, 하나 이상의 추가 카메라 엘리먼트는 제1 카메라 엘리먼트 이후에 이미지 메타 데이터에서 순차적으로 구성될 수 있다. 블록(412) 다음에 블록(414)이 올 수 있다.

블록(414)에서, 인코딩된 이미지 데이터는 이미지 포맷에 기초하여 파일 컨테이너에 저장될 수 있다. 일부 구현에서, 이미지 데이터를 파일 컨테이너에 저장하는 것은 이미지 포맷으로 인코딩된 주 이미지와 하나 이상의 부 이미지를 연결하는 것을 포함할 수 있다. 파일 컨테이너내의 주 이미지와 하나 이상의 부 이미지의 순서는 이미지 메타 데이터내의 하나 이상의 추가 카메라 엘리먼트의 순서와 동일할 수 있다. 블록(414) 다음에 블록(416)이 올 수 있다.

블록(416)에서, 주 이미지가 디스플레이될 수 있다.

도 5는 일부 구현에 따른 다른 예시적인 방법(500)을 도시하는 흐름도이다. 일부 구현에서, 방법(500)은 예를 들어 도 1에 도시된 바와 같이 서버 시스템(102)에서 구현될 수 있다. 일부 구현에서, 방법(500)의 일부 또는 전부는 도 1에 도시된 바와 같이 하나 이상의 클라이언트 디바이스(120, 122, 124 또는 126), 하나 이상의 서버 디바이스, 및/또는 서버 디바이스(들)과 클라이언트 디바이스 모두에서 구현될 수 있다. 설명된 예들에서, 구현 시스템은 하나 이상의 디지털 프로세서 또는 처리 회로("프로세서") 및 하나 이상의 저장 디바이스를 포함한다. 일부 구현에서, 하나 이상의 서버 및/또는 클라이언트의 상이한 구성 요소는 방법(500)의 다른 블록 또는 다른 부분을 수행할 수 있다. 일부 예에서, 제1 디바이스는 방법(500)의 블록들을 수행하는 것으로 설명된다. 일부 구현은 결과 또는 데이터를 제1 디바이스로 전송할 수 있는 하나 이상의 다른 디바이스(예를 들어, 다른 클라이언트 디바이스 또는 서버 디바이스)에 의해 수행되는 방법(500)의 하나 이상의 블록을 가질 수 있다.

다양한 구현에서, 클라이언트 디바이스(120)는 독립형 카메라, 카메라를 포함하는 다른 디바이스, 예를 들어, 스마트 폰, 태블릿, 컴퓨터, 웨어러블 디바이스(예를 들어, 스마트 워치, 헤드셋 등), 또는 다른 디바이스에 의해 캡처된 이미지 또는 비디오를 수신할 수 있는 다른 클라이언트 디바이스일 수 있다. 일부 구현에서, 클라이언트 디바이스(120)는 캡처 전용 디바이스, 예를 들어 스크린을 포함하지 않는 카메라일 수 있다. 일부 구현에서, 클라이언트 디바이스(120)는 뷰 전용 디바이스, 예를 들어 이미지 또는 비디오가 디스플레이될 수 있는 스크린을 포함하지만 이미지 또는 비디오를 캡처하는 카메라 또는 다른 기능을 갖지 않는 디바이스일 수 있다. 일부 구현에서, 클라이언트 디바이스(120)는 캡처 및 보기(viewing) 기능 모두를 가질 수 있다.

일부 구현에서, 클라이언트 디바이스(120)는 이미지 또는 비디오를 캡처하기 위한 단일 카메라를 포함할 수 있다. 일부 구현에서, 클라이언트 디바이스(120)는 복수의 카메라(또는 렌즈)를 포함할 수 있다. 예를 들어, 스마트 폰 또는 다른 디바이스는 하나 이상의 전면 카메라(디바이스의 스크린과 동일한 면에 있음) 및/또는 하나 이상의 후면 카메라를 포함할 수 있다. 일부 구현에서, 하나 이상의 전면 또는 후면 카메라는 캡처 중에 함께 작동할 수 있는데, 예를 들어, 제1 카메라는 깊이 정보를 캡처할 수 있고 제2 카메라는 이미지 또는 비디오의 이미지 픽셀을 캡처할 수 있다. 일부 구현에서, 상이한 카메라들이 예를 들어 상이한 줌 레벨(예를 들어, 망원 렌즈, 광각 렌즈 등)을 사용하여 상이한 유형의 이미지 또는 비디오 캡처에 사용될 수 있다. 일부 구현에서, 클라이언트 디바이스(120)는 360도 이미지 또는 비디오를 캡처하도록 구성될 수 있다. 일부 구현에서, 카메라 또는 렌즈는 단일 이미지 센서(예를 들어, CCD 또는 CMOS 센서) 또는 복수의 센서를 사용하여 이미지를 캡처할 수 있다. 일부 구현에서, 다른 센서, 예를 들어 깊이 센서 등은 이미지 캡처시에 하나 이상의 카메라와 함께 사용될 수 있다.

일부 구현에서, 클라이언트 디바이스(120)는 하나 이상의 카메라(또는 렌즈)로부터의 이미지 센서에서 캡처된 원시 이미지 데이터와 다른 센서(예를 들어, 가속도계, 자이로스코프, 위치 센서, 깊이 센서 등)로부터 획득된 다른 데이터를 결합하여, 이미지를 형성하고 그 이미지를 파일 컨테이너에 저장할 수 있다.

클라이언트 디바이스(120)는 사용자가 상이한 모드, 예를 들어 단일 프레임을 캡처하기 위한 정적 이미지(또는 사진) 모드, 복수의 프레임을 캡처하기 위한 버스트 또는 모션 이미지 모드, 복수의 프레임을 포함하는 비디오를 갭처하기 위한 비디오 모드에서 이미지를 캡처하는 것을 가능하게 할 수 있다. 일부 구현에서, 방법(500)은 카메라가 이미지를 캡처할 때, 캡처가 완료된 후, 또는 나중에, 예를 들어, 클라이언트 디바이스(120)가 이미지를 보고 및/또는 편집하기 위해 사용자에 의해 사용될 때 이미지 캡처시에 수행될 수 있다.

클라이언트 디바이스(120)는 사용자가 예를 들어 클라이언트 디바이스(120)에 의해 캡처되거나 사용자와 관련된 이미지 또는 비디오를 상이한 사용자 인터페이스에서 볼 수 있게 할 수 있다. 예를 들어, 사용자가 한 번에 단일 이미지 또는 비디오를 보거나 편집할 수 있도록 낱개 모드 또는 슬라이드쇼 모드가 제공될 수 있다. 다른 예에서, 사용자가 예를 들어 이미지 그리드로서 동시에 다수의 이미지를 보고 및/또는 편집할 수 있게 하는 갤러리 모드가 제공될 수 있다.

일부 구현에서, 클라이언트 디바이스(120)가 방법(500)을 수행할 수 있다. 다른 예에서, 클라이언트 디바이스 또는 서버 디바이스가 방법(500)을 수행할 수 있다. 일부 구현에서, 방법(500)은 서버 디바이스에 의해 구현될 수 있다.

블록(502)에서, 방법(500)의 구현에서 사용자 데이터를 사용하기 위해 사용자 동의(예를 들어, 사용자 허가)가 획득되었는지가 여부가 체크된다. 예를 들어, 사용자 데이터에는 클라이언트 디바이스들을 사용하여 사용자가 캡처한 이미지 또는 비디오, (예를 들어, 클라이언트 디바이스를 사용하여) 사용자가 저장하거나 액세스한 이미지 또는 비디오, 이미지/비디오 메타 데이터, 메시징 애플리케이션 사용과 관련된 사용자 데이터, 사용자 선호도, 사용자 생체 인식 정보, 사용자 특성(예를 들어, 신원, 이름, 나이, 성별, 직업 등), 사용자의 소셜 네트워크 및 연락처에 대한 정보, 사용자가 생성하거나 제출한 소셜 및 기타 유형의 액션 및 활동, 컨텐츠, 평가 및 의견, 사용자의 현재 위치, 이력적인 사용자 데이터, 사용자가 생성, 수신 및/또는 액세스한 이미지, 사용자가 보거나 공유한 이미지가 포함될 수 있다. 본 명세서에 설명된 방법의 하나 이상의 블록은 일부 구현에서 이러한 사용자 데이터를 사용할 수 있다.

사용자 데이터가 방법(500)에서 사용될 수 있는 관련 사용자로부터 사용자 동의가 획득된 경우, 블록(504)에서, 본 명세서에서 방법의 블록들은 이러한 블록에 대해 설명된 사용자 데이터의 가능한 사용으로 구현될 수 있다고 결정되고, 방법은 블록(510)으로 계속된다. 사용자 동의가 획득되지 않은 경우, 블록들은 사용자 데이터를 사용하지 않고 구현되어야 한다고 블록(506)에서 결정되고, 방법은 블록(510)으로 계속 진행된다. 일부 구현에서, 사용자 동의를 획득하지 못한 경우, 블록들은 사용자 데이터를 사용하지 않고 합성 데이터 및/또는 일반 또는 공개적으로 액세스 가능하고 공개적으로 사용 가능한 데이터로 구현된다. 일부 구현에서, 사용자 동의가 획득되지 않은 경우, 방법(500)이 수행되지 않는다. 예를 들어, 사용자가 하나 이상의 이미지에 대한 액세스 권한을 거부하면, 방법(500)이 수행되지 않거나 블록(506)을 수행한 후에 중지된다.

블록(510)에서, 이미지 데이터는 파일 컨테이너, 예를 들어 도 3을 참조하여 설명된 바와 같이 특정 이미지 포맷으로 이미지를 저장하는 파일 컨테이너로부터 획득된다. 다른 구현에서, 블록(510) 다음에 블록(512), 블록(522), 블록(542), 또는 블록(562)이 이어질 수 있다.

일부 구현에서, 블록(510) 다음에 블록(512)이 이어질 수 있다. 블록(512)에서, 이미지 데이터로부터의 주 이미지가 예를 들어 클라이언트 디바이스의 디스플레이 스크린에 디스플레이되게 한다. 일부 구현에서, 주 이미지는 사용자가 사용자 입력을 제공할 수 있게 하는 사용자 인터페이스에 디스플레이될 수 있다. 블록(512) 다음에 블록(514)이 올 수 있다.

블록(514)에서, 타겟 초점 거리를 나타내는 사용자 입력이 수신될 수 있다. 예를 들어, 사용자 인터페이스는 캡처된 이미지내의 근거리 값과 원거리 값에 대응하는 거리 값 사이에서 슬라이더를 이동함으로써 사용자가 타겟 초점 거리를 선택할 수 있도록 하는 사용자 인터페이스 엘리먼트(예를 들어, 슬라이더)를 포함할 수 있다. 일부 구현에서, 사용자 입력은, 예를 들어, 주 이미지의 특정 부분을 식별하는 터치 입력, 제스처 입력, 음성 입력 등으로서 직접 수신될 수 있고, 초점 거리는 그 특정 부분에 기초하여 결정될 수 있다. 블록(514) 다음에 블록(516)이 올 수 있다.

블록(516)에서, 주 이미지는 예를 들어 이미지 메타 데이터의 일부로서 파일 컨테이너에 저장된 렌즈 초점 모델에 기초하여 수정될 수 있다. 예를 들어, 주 이미지는 인물 효과(예를 들어, 타겟 초점 거리보다 더 먼 거리에 있는 이미지의 객체들이 흐려짐); 보케 효과(예를 들어, 타겟 초점 거리보다 주 이미지를 캡처한 카메라와 상이한 거리에 있는 이미지의 객체들이 흐려짐); 다른 선택적 흐림 효과를 적용하기 위해 수정될 수 있다. 타겟 거리에 기초하여 다른 유형의 효과, 예를 들어, 컬러 효과, 필터 등도 적용될 수 있다.

일부 구현에서, 효과는 이미지 메타 데이터의 깊이 맵에 저장된 초첨 테이블에 기초할 수 있다. 타겟 초점 거리가 초첨 테이블에 포함된 거리에 해당하는 경우, 초첨 테이블에서 간단한 조회를 통해 착란원의 반경이 획득될 수 있다. 타겟 초점 거리가 초점 테이블에 포함되지 않은 경우, 사용 가능한 거리, 예를 들어 타겟 초점 거리에 가장 가까운 거리에 해당하는 반경 값이 획득될 수 있다. 예를 들어, 초첨 테이블에 근거리 평면과 원거리 평면에 대한 거리-반경 쌍이 포함된 경우 이러한 값들이 획득된다. 타겟 초점 거리에 대한 반경 값은 획득된 값 사이의 보간에 기초하여 결정된다. 예를 들어, 타겟 초점 거리에 대한 반경 값을 획득하기 위해 선형 보간이 수행될 수 있다. 따라서 결정된 반경 값은 (예를 들어, 주 이미지를 흐리게 하기 위한) 효과를 적용하는데 사용된다. 블록(516) 다음에 블록(518)이 올 수 있다.

블록(518)에서, 수정된 이미지가 디스플레이되게 한다. 일부 구현에서, 블록(518) 다음에 예를 들어 사용자가 상이한 타겟 초점 거리를 나타내는 추가 입력을 제공할 수 있도록 블록(514)이 이어질 수 있다.

일부 구현에서, 블록(510) 다음에 블록(522)이 올 수 있다. 블록(522)에서, 이미지 데이터로부터의 주 이미지가 예를 들어 클라이언트 디바이스의 디스플레이 스크린에 디스플레이되게 한다. 일부 구현에서, 주 이미지는 사용자가 사용자 입력을 제공할 수 있게 하는 사용자 인터페이스에 디스플레이될 수 있다. 블록(522) 다음에 블록(524)이 올 수 있다.

블록(524)에서, 자르기 동작 또는 스케일 동작을 나타내는 사용자 입력이 수신될 수 있다. 예를 들어, 사용자 인터페이스는 사용자가 자르기 또는 스케일 동작을 표시할 수 있게 하는 하나 이상의 사용자 인터페이스 엘리먼트를 포함할 수 있다. 예를 들어, 사용자는 주 이미지의 픽셀의 서브 세트를 선택하기 위해 모양(예를 들어, 자르기 직사각형)을 그려서 주 이미지의 하나 이상의 부분을 제거하는 자르기 동작을 나타낼 수 있다. 다른 예에서, 사용자는 주 이미지의 하나 이상의 코너 또는 에지를 드래그함으로써 주 이미지의 크기를 증가시키는 스케일 동작을 나타낼 수 있다. 사용자가 자르기 또는 스케일 동작의 입력을 제공할 수 있는 다른 유형의 사용자 인터페이스가 제공될 수 있다. 블록(524) 다음에 블록(526)이 올 수 있다.

블록(526)에서, 블록(524)에서 수신된 사용자 입력에 기초하여 주 이미지가 수정(자르기 및/또는 스케일링됨)된다. 블록(526) 다음에 블록(528)이 이어질 수 있다.

블록(528)에서, 깊이 맵이 수정된 주 이미지에 기초하여 업데이트된다. 예를 들어, 잘려진(제거된) 주 이미지 부분에 대응하는 깊이 맵의 부분이 삭제될 수 있다. 스케일 동작의 경우, 수정된 주 이미지에 적용된 스케일링에 기초하여 깊이 맵이 업데이트될 수 있다. 블록(528) 다음에 블록(530)이 올 수 있다.

블록(530)에서, 파일 컨테이너는 수정된 주 이미지 및 업데이트된 깊이 맵을 저장하도록 업데이트될 수 있다.

일부 구현에서, 블록(510) 다음에 블록(542)이 이어질 수 있다. 블록(542)에서, 예를 들어 컴퓨터 비전 기술을 사용하여 3차원 이미지가 생성된다. 주 이미지, 하나 이상의 부 이미지 및 깊이 정보를 포함할 수 있는 파일 컨테이너로부터 획득된 이미지 데이터가 3차원 이미지를 생성하기 위해 이용된다. 예를 들어, 깊이 정보에는 복수의 깊이 맵이 포함될 수 있으며, 각각의 깊이 맵은 이미지 촬영시 단일 카메라로 움직임으로부터 생성되어 이미지 메타 데이터에 임베딩될 수 있다. 다른 예에서, 복수의 깊이 맵은 하나 이상의 깊이 카메라를 사용하여 생성될 수 있다. 복수의 깊이 맵은 3D 장면을 재구성하기 위해 이용될 수 있다. 블록(542) 다음에 블록(544)이 올 수 있다.

블록(544)에서, 3차원 이미지가 디스플레이된다. 블록(544) 다음에 블록(546)이 올 수 있다.

블록(546)에서, 틸트 동작 또는 팬 동작을 나타내는 사용자 입력이 수신될 수 있다. 예를 들어, 사용자 입력은 클라이언트 디바이스의 하나 이상의 센서, 예를 들어 자이로 스코프, 가속도계, 제스처 센서, 터치 스크린 또는 기타 센서를 통해 수신될 수 있다. 블록(546) 다음에 블록(548)이 올 수 있다.

블록(548)에서, 업데이트된 3차원 이미지가 사용자 입력에 기초하여 생성될 수 있다. 이미지의 3차원 특성은 객체들이 단단한(solid) 깊이를 가질 수 있도록 하고, 객체가 움직일 때 이미지에서 다른 객체를 가릴 수 있도록 이미지를 디스플레이할 수 있게 한다. 일부 구현에서, 효과는 3D 디오라마(diorama)를 보는 것과 유사할 수 있다. 블록(548) 다음에 블록(550)이 올 수 있다.

블록(550)에서 업데이트된 3차원 이미지가 디스플레이될 수 있다. 일부 구현들에서, 블록(550) 다음에 추가 사용자 입력을 수신하기 위해 블록(546)이 올 수 있다.

일부 구현에서, 블록(510) 다음에 블록(562)이 올 수 있다. 블록(562)에서, 이미지 데이터로부터의 주 이미지가 예를 들어 클라이언트 디바이스의 디스플레이 스크린에 디스플레이되게 한다. 일부 구현에서, 주 이미지는 사용자가 사용자 입력을 제공할 수 있게 하는 사용자 인터페이스에 표시될 수 있다. 블록(522) 다음에 블록(524)이 올 수 있다.

블록(564)에서, 이미지에서 하나 이상의 객체의 선택을 나타내는 사용자 입력이 수신될 수 있다. 예를 들어, 사용자는 포인팅 디바이스, 터치 스크린, 제스처 인터페이스, 음성 등을 사용하여 객체를 선택할 수 있다. 블록(564) 다음에 블록(566)이 이어질 수 있다.

블록(566)에서, 사용자가 선택한 객체(들)에 대응하는 분할 마스크가 생성된다. 분할 마스크는 객체에 대응하는 주 이미지의 픽셀의 서브 세트를 식별할 수 있다. 분할 마스크는 복수의 깊이값을 포함하는 깊이 맵을 사용하여 생성될 수 있다. 일부 구현에서, 각 깊이값은 주 이미지의 특정 픽셀에 대응할 수 있다. 이들 구현에서, 분할 마스크를 생성하는 것은 깊이값의 임계 범위 내에 있는 개별 깊이값을 갖는 주 이미지의 픽셀을 선택하는 것을 포함할 수 있다. 예를 들어, 깊이값의 임계값 범위는 객체에 해당하는 최소 깊이값과 최대 깊이값 사이의 범위일 수 있는데, 예를 들어, 깊이 정보를 활용하는 이미지 분할 기법 및 이미지 캡처 중에 사용된 카메라 애플리케이션에 의해 적용된 피사계 심도에 관한 정보를 사용하여 식별된다. 객체 이미지는 분할 마스크에 기초하여 획득되는데, 예를 들어, 객체는 분할 마스크에 의해 식별되는 주 이미지의 픽셀의 서브 세트만을 포함할 수 있다. 예를 들어, 도 2b를 참조하면, 깊이 이미지(230)내의 어두운 꽃은 이미지(220)에서 꽃을 분할하는데 이용될 수 있다. 블록(566) 다음에 블록(568)이 이어질 수 있다.

블록(568)에서, 사용자 인터페이스는 사용자가 객체 이미지를 선택하고, 하나 이상의 동작, 예를 들어, 디스플레이된 이미지에서 객체를 제거하기 위한 잘라 내기(cut) 동작, 객체를 복사하기 위한 복사(copy) 동작 또는 객체를 다른 이미지 또는 디스플레이된 이미지내의 다른 위치에 삽입하는 붙여 넣기(paste) 동작을 수행할 수 있게 하는 사용자 인터페이스가 제공될 수 있다.

도 6은 본 명세서에 설명된 하나 이상의 피처를 구현하는데 사용될 수 있는 예시적인 디바이스(600)의 블록도이다. 일 예에서, 디바이스(600)는 클라이언트 디바이스, 예를 들어, 도 1에 도시된 임의의 클라이언트 디바이스(120, 122, 124, 126)를 구현하는데 사용될 수 있다. 대안적으로, 디바이스(600)는 서버 디바이스, 예를 들어 서버(104)를 구현할 수 있다. 일부 구현에서, 디바이스(600)는 클라이언트 디바이스, 서버 디바이스 또는 클라이언트와 서버 디바이스 모두를 구현하는데 사용될 수 있다. 디바이스(600)는 임의의 적절한 컴퓨터 시스템, 서버, 또는 전술 한 바와 같은 다른 전자 또는 하드웨어 디바이스일 수 있다.

본 명세서에 기술된 하나 이상의 방법은 임의의 유형의 컴퓨팅 디바이스, 웹 브라우저에서 실행되는 프로그램, 모바일 컴퓨팅 디바이스(예를 들어, 휴대폰, 스마트 폰, 태블릿 컴퓨터, 웨어러블 기기(손목 시계, 손목 밴드, 보석류, 모자, 가상 현실 고글 또는 안경, 증강 현실 고글 또는 안경, 헤드 마운트 디스플레이), 랩탑 컴퓨터 등)에서 실행되는 모바일 애플리케이션("앱")에서 실행될 수 있는 독립형 프로그램에서 실행될 수 있다. 일 예에서, 클라이언트/서버 아키텍처는 예를 들어, 모바일 컴퓨팅 디바이스(클라이언트 디바이스로서)가 사용자 입력 데이터를 서버 디바이스로 전송하고, 서버로부터 출력(예를 들어, 디스플레이)를 위한 최종 출력 데이터를 수신할 수 있다. 다른 예에서, 모든 계산은 모바일 컴퓨팅 디바이스의 모바일 앱(및/또는 다른 앱) 내에서 수행될 수 있다. 다른 예에서, 계산은 모바일 컴퓨팅 디바이스와 하나 이상의 서버 디바이스간에 분할될 수 있다.

일부 구현에서, 디바이스(600)는 프로세서(602), 메모리(604), 입력/출력(I/O) 인터페이스(606) 및 카메라(616)를 포함한다. 일부 구현에서, 카메라(616)는 복수의 카메라 또는 이미징 센서를 포함할 수 있다. 예를 들어, 카메라(616)는 예를 들어 디바이스(600)가 모바일 폰, 태블릿 또는 컴퓨터 디바이스인 경우 전면 카메라 및 후면 카메라를 포함할 수 있다. 다른 예에서, 카메라(616)는 예를 들어 RGB 이미지를 캡처하는 카메라, 예를 들어 적외선 또는 기타 기술을 이용하여 깊이 정보를 캡처하는 깊이 카메라, 회색조 카메라, 흑백 카메라 등을 포함할 수 있다.

프로세서(602)는 프로그램 코드를 실행하여 디바이스(600)의 기본 동작들을 제어하기 위한 하나 이상의 프로세서 및/또는 처리 회로일 수 있다. "프로세서"는 데이터, 신호 또는 기타 정보를 처리하는 적절한 하드웨어 시스템, 메커니즘 또는 구성 요소를 포함한다. 프로세서는 하나 이상의 코어(예를 들어, 단일 코어, 이중 코어 또는 다중 코어 구성), 다중 처리 장치(예를 들어, 다중 프로세서 구성), 그래픽 처리 장치(GPU), 필드 프로그래밍 가능 게이트 어레이(FPGA), 애플리케이션 특정 집적 회로(ASIC), 복합 프로그래밍 가능 논리 디바이스(CPLD), 기능을 달성하기 위한 전용 회로, 신경망 모델 기반 처리를 구현하는 특수 목적 프로세서, 신경 회로, 행렬 계산에 최적화된 프로세서(예를 들어, 행렬 곱셈) 또는 기타 시스템을 갖는 범용 중앙 처리 장치(CPU)가 있는 시스템을 포함할 수 있다. 일부 구현에서, 프로세서(602)는 신경망 처리를 구현하는 하나 이상의 코(co)-프로세서를 포함할 수 있다. 일부 구현에서, 프로세서(602)는 확률적 출력을 생성하기 위해 데이터를 처리하는 프로세서일 수 있으며, 예를 들어, 프로세서(602)에 의해 생성된 출력은 부정확할 수 있거나 예상된 출력의 범위 내에서 정확할 수 있다. 처리는 특정 지리적 위치로 제한되거나 일시적인 제한이 있을 필요가 없다. 예를 들어, 프로세서는 "실시간", "오프라인", "배치(batch) 모드"등의 기능을 수행할 수 있다. 처리의 일부는 상이한(또는 동일한) 처리 시스템에 의해 상이한 시간과 상이한 위치에서 수행될 수 있다. 컴퓨터는 메모리와 통신하는 모든 프로세서일 수 있다.

메모리(604)는 일반적으로 프로세서(602)에 의한 액세스를 위해 디바이스(600)에 제공되며, 그 프로세서에 의한 실행을 위한 명령들를 저장하기에 적합하고, 프로세서(602)와 분리되고 및/또는 그와 통합된 RAM, ROM, EEPROM, 플래시 메모리 등과 같은 임의의 적절한 프로세서가 판독 가능한 저장 매체일 수 있다. 메모리(604)는 운영 체제(608), 기계 학습 애플리케이션(630), 다른 애플리케이션(612) 및 애플리케이션 데이터(614)를 포함하여 프로세서(602)에 의해 서버 디바이스상 (600)에서 작동하는 소프트웨어를 저장할 수 있다.

다른 애플리케이션(612)은 카메라 애플리케이션, 이미지 갤러리, 이미지 관리 또는 이미지 라이브러리 애플리케이션, 미디어 공유 애플리케이션, 데이터 디스플레이 엔진, 웹 호스팅 엔진, 이미지 디스플레이 엔진, 알림 엔진, 소셜 네트워킹 엔진 등과 같은 애플리케이션을 포함할 수 있다. 일부 구현에서, 기계 학습 애플리케이션(630) 및 다른 애플리케이션(612)은 각각 프로세서(602)가 본 명세서에 설명된 기능, 예를 들어 도 4 및 5의 방법의 일부 또는 전부를 수행할 수 있게 하는 명령들을 포함할 수 있다. 본 명세서에 개시된 하나 이상의 방법은 예를 들어, 임의의 유형의 컴퓨팅 디바이스에서 실행될 수 있는 독립형 컴퓨터 프로그램, 웹 페이지가 있는 웹 애플리케이션, 모바일 컴퓨팅 디바이스 등에서 실행되는 모바일 애플리케이션("앱")으로서 여러 환경 및 플랫폼에서 작동할 수 있다.

다양한 구현에서, 기계 학습 애플리케이션(630)은 베이지안 분류기, 지원 벡터 머신, 신경망 또는 기타 학습 기술을 활용할 수 있다. 일부 구현에서, 기계 학습 애플리케이션(630)은 트레이닝된 모델(634), 추론 엔진(636) 및 데이터(632)를 포함할 수 있다.

일부 구현에서, 데이터(632)는 트레이닝 데이터, 예를 들어 트레이닝된 모델(634)을 생성하는데 사용되는 데이터를 포함할 수 있다. 예를 들어, 트레이닝 데이터에는 텍스트, 이미지, 오디오, 비디오 등과 같은 임의의 유형의 데이터가 포함될 수 있다. 트레이닝 데이터는 트레이닝을 위해 특별히 표시된 데이터 저장소, 기계 학습을 위한 트레이닝 데이터로 사용하기 위한 권한이 제공되는 데이터 등과 같이 모든 소스로부터 획득될 수 있다. 하나 이상의 사용자가 기계 학습 모델, 예를 들어 트레이닝된 모델(634)을 트레이닝하기 위해 개별 사용자 데이터의 사용을 허용하는 구현에서, 트레이닝 데이터는 이러한 사용자 데이터를 포함할 수 있다. 사용자들이 그들의 개별 사용자 데이터의 사용을 허용하는 구현에서, 데이터(632)는 이미지/비디오 또는 이미지/비디오 메타 데이터(예를 들어, 비디오, 다른 사용자와의 비디오 공유에 관한 데이터, 비디오와 관련된 라벨, 비디오 기반 창작물(예를 들어, 비디오 콜라주, 스토리)이 비디오로부터 생성되었는지 여부 등), 통신(예를 들어, 이메일; 문자 메시지, 음성, 비디오 등과 같은 채팅 데이터), 문서(예를 들어, 스프레드시트, 텍스트 문서, 프레젠테이션 등)와 같은 허용된 데이터를 포함할 수 있다.

일부 구현에서, 트레이닝 데이터는 사용자 입력 또는 트레이닝중인 상황에서의 활동에 기초하지 않는 데이터, 예를 들어 시뮬레이션 또는 컴퓨터 생성 비디오로부터 생성된 데이터 등)와 같은 트레이닝 목적으로 생성된 합성 데이터를 포함할 수 있다. 일부 구현에서, 기계 학습 애플리케이션(630)은 데이터(632)를 제외한다. 예를 들어, 이러한 구현에서, 트레이닝된 모델(634)은 예를 들어 다른 디바이스에서 생성될 수 있고 기계 학습 애플리케이션(630)의 일부로서 제공될 수 있다. 다양한 구현에서, 트레이닝된 모델(634)은 모델 구조 또는 형태(예를 들어, 신경망 노드의 수 및 유형, 노드 간의 연결성 및 복수의 계층으로의 노드 구성) 및 관련 가중치를 포함하는 데이터 파일로 제공될 수 있다. 추론 엔진(636)은 트레이닝된 모델(634)에 대한 데이터 파일을 판독하고 트레이닝된 모델(634)에 지정된 모델 구조 또는 형태에 기초하여 노드 연결성, 계층 및 가중치를 사용하여 신경망을 구현할 수 있다.

기계 학습 애플리케이션(630)은 또한 트레이닝된 모델(634)을 포함한다. 일부 구현에서, 트레이닝된 모델은 하나 이상의 모델 형태 또는 구조를 포함할 수 있다. 예를 들어, 모델 형태 또는 구조는 선형 네트워크, 복수의 계층(예를 들어, 입력 계층과 출력 계층 사이의 "은닉 계층", 각 계층은 선형 네트워크임), 컨볼루션 신경망(예를 들어, 입력 데이터를 다수의 부분 또는 타일로 분할하거나 세분화하고, 하나 이상의 신경망 계층을 사용하여 각 타일을 개별적으로 처리하고, 그리고 각 타일 처리 결과를 집계하는 네트워크), 시퀀스-투-시퀀스 신경망(예를 들어, 입력으로서 문장의 단어, 비디오의 프레임 등과 같은 순차적 데이터를 수신하여 출력으로서 결과 시퀀스를 출력하는 네트워크) 등과 같은 임의의 유형의 신경망을 포함 할 수 있다.

모델 형태 또는 구조는 다양한 노드 사이의 연결성 및 노드를 계층으로 구성하는 것을 지정할 수 있다. 예를 들어, 제1 계층(예를 들어, 입력 계층)의 노드들은 입력 데이터(632) 또는 애플리케이션 데이터(614)로서 데이터를 수신할 수 있다. 이러한 데이터는 예를 들어, 트레이닝된 모델이 예를 들어 복수의 프레임을 포함하는 비디오의 분석을 위해 사용될 때 노드 당 하나 이상의 픽셀을 포함할 수 있다. 후속 중간 계층은 모델 형태 또는 구조에 지정된 연결에 따라 이전 계층의 노드의 입력, 출력으로 수신할 수 있다. 이러한 계층들은 은닉 계층으로도 지칭된다. 최종 계층(예를 들어, 출력 계층)은 기계 학습 애플리케이션의 출력을 생성한다. 일부 구현에서, 모델 형태 또는 구조는 또한 각 계층에서 노드의 수 및/또는 유형을 지정한다.

다른 구현에서, 트레이닝된 모델(634)은 하나 이상의 모델을 포함할 수 있다. 모델들 중 하나 이상은 모델 구조 또는 형태에 따라 계층으로 배열된 복수의 노드를 포함할 수 있다. 일부 구현에서, 노드들은 예를 들어, 하나의 입력 단위를 처리하여 하나의 출력 단위를 생성하도록 구성된 메모리가 없는 계산 노드일 수 있다. 노드에 의해 수행되는 계산은, 예를 들어, 복수의 노드 입력 각각에 가중치를 곱하고, 가중치 합을 얻고, 노드 출력을 생성하도록 가중치 합을 바이어스 또는 인터셉트 값으로 조정하는 것을 포함할 수 있다. 일부 구현에서, 노드에 의해 수행되는 계산은 또한 조정된 가중 합에 스텝/활성화 함수를 적용하는 것을 포함할 수 있다. 일부 구현에서, 스텝/활성화 함수는 비선형 함수일 수 있다. 다양한 구현에서, 이러한 계산은 행렬 곱셈과 같은 연산을 포함할 수 있다. 일부 구현에서, 복수의 노드에 의한 계산은 예를 들어 멀티 코어 프로세서의 다중 프로세서 코어를 사용하거나, GPU의 개별 처리 유닛을 사용하거나, 특수 목적 신경 회로를 사용하여 병렬로 수행될 수 있다. 일부 구현에서, 노드들은 예를 들어 후속 입력을 처리할 때 하나 이상의 이전 입력을 저장하고 사용할 수 있는 메모리를 포함할 수 있다. 예를 들어, 메모리가 있는 노드들은 장단기 메모리(LSTM) 노드를 포함할 수 있다. LSTM 노드는 노드가 FSM(Finite State Machine)처럼 작동하도록 허용하는 "상태"를 유지하기 위해 메모리를 사용할 수 있다. 이러한 노드가 있는 모델은 연속적인 데이터(예를 들어, 문장 또는 단락의 단어, 비디오의 프레임, 음성 또는 기타 오디오 등)를 처리하는데 유용할 수 있다.

일부 구현에서, 트레이닝된 모델(634)은 개별 노드에 대한 임베딩 또는 가중치를 포함할 수 있다. 예를 들어, 모델은 모델 형태 또는 구조에 의해 지정된 대로 계층들로 구성된 복수의 노드로 시작될 수 있다. 초기화시, 모델 형태에 따라 연결된 각 노드 쌍, 예를 들어 신경망의 연속적인 계층의 노드 간의 연결에 개별 가중치가 적용될 수 있다. 예를 들어, 개별 가중치는 무작위로 할당되거나 디폴트값으로 초기화될 수 있다. 모델은 결과를 생성하기 위해 예를 들어 데이터(632)를 사용하여 트레이닝될 수 있다.

예를 들어, 트레이닝은 지도 학습 기술을 적용하는 것을 포함할 수 있다. 지도 학습에서, 트레이닝 데이터는 복수의 입력(예를 들어, 비디오 세트) 및 각 입력에 대한 대응하는 예상 출력(예를 들어, 각 비디오에 대한 하나 이상의 라벨)을 포함할 수 있다. 모델의 출력과 예상 출력의 비교에 기초하여, 가중치 값은 예를 들어 유사한 입력이 제공될 때 모델이 예상 출력을 생성할 확률을 높이는 방식으로 자동 조정된다.

일부 구현에서, 트레이닝은 비지도 학습 기술을 적용하는 것을 포함할 수 있다. 비지도 학습에서, 입력 데이터 만 제공될 수 있고, 모델은 예를 들어 입력 데이터를 복수의 그룹으로 클러스터링하기 위해 데이터를 차별화하도록 트레이닝될 수 있으며, 각 그룹에는 일부 방식에서 유사한 입력 데이터가 포함된다.

다양한 구현에서, 트레이닝된 모델은 모델 구조에 대응하는 가중치 세트 또는 임베딩을 포함한다. 데이터(632)가 생략된 구현에서, 기계 학습 애플리케이션(630)은 예를 들어, 기계 학습 애플리케이션(630)의 개발자, 제3자 등에 의한 사전 트레이닝에 기초하는 트레이닝된 모델(634)을 포함할 수 있다. 일부 구현에서, 트레이닝된 모델(634)은 고정된, 예를 들어 가중치를 제공하는 서버로부터 다운로드되는 가중치 세트를 포함할 수 있다.

기계 학습 애플리케이션(630)은 또한 추론 엔진(636)을 포함한다. 추론 엔진(636)은 추론을 제공하기 위해 애플리케이션 데이터(614)(예를 들어, 비디오)와 같은 데이터에 트레이닝된 모델(634)을 적용하도록 구성된다. 일부 구현에서, 추론 엔진(636)은 프로세서(602)에 의해 실행될 소프트웨어 코드를 포함할 수 있다. 일부 구현에서, 추론 엔진(636)은 프로세서(602)가 트레이닝된 모델을 적용할 수 있게 하는 (예를 들어, 프로그래밍 가능 프로세서에 대한, FPGA에 대한) 회로 구성을 지정할 수 있다. 일부 구현에서, 추론 엔진(636)은 소프트웨어 명령, 하드웨어 명령 또는 조합을 포함할 수 있다. 일부 구현에서, 추론 엔진(636)은 추론 엔진(636)을 호출하기 위해, 예를 들어, 추론을 생성하도록 애플리케이션 데이터(614)에 트레이닝된 모델(634)을 적용하기 위해 운영 체제(608) 및/또는 다른 애플리케이션(612)에 의해 사용될 수 있는 애플리케이션 프로그래밍 인터페이스(API)를 제공할 수 있다.

일부 구현에서, 기계 학습 애플리케이션(630)은 오프라인 방식으로 구현될 수 있다. 이러한 구현에서, 트레이닝된 모델(634)은 제1 단계에서 생성되어, 기계 학습 애플리케이션(630)의 일부로서 제공될 수 있다. 일부 구현에서, 기계 학습 애플리케이션(630)은 온라인 방식으로 구현될 수 있다. 예를 들어, 이러한 구현에서, 기계 학습 애플리케이션(630)을 호출하는 애플리케이션(예를 들어, 운영 체제 (608), 하나 이상의 다른 애플리케이션(612) 등)은 기계 학습 애플리케이션(630)에 의해 생성된 추론을 활용, 예를 들어 사용자에게 추론을 제공할 수 있으며, 시스템 로그(예를 들어, 사용자가 허용하는 경우 추론에 기초하여 사용자가 취한 액션 또는 추가 처리를 위한 입력으로 활용되는 경우 추가 처리의 결과)를 생성할 수 있다. 시스템 로그는 주기적으로, 예를 들어, 시간별, 월별, 분기 별 등으로 생성될 수 있으며, 예를 들어, 트레이닝된 모델(634)에 대한 임베딩을 업데이트하기 위해, 사용자 허가하에, 트레이닝된 모델(634)을 업데이트하는데 사용될 수 있다.

일부 구현에서, 기계 학습 애플리케이션(630)은 그 기계 학습 애플리케이션(630)이 실행되는 디바이스(600)의 특정 구성에 적응할 수 있는 방식으로 구현될 수 있다. 예를 들어, 기계 학습 애플리케이션(630)은 가용 계산 자원, 예를 들어 프로세서(602)를 활용하는 계산 그래프를 결정할 수 있다. 예를 들어, 기계 학습 애플리케이션(630)이 다수의 디바이스에서 분산 애플리케이션으로 구현되는 경우, 기계 학습 애플리케이션(630)은 계산을 최적화하는 방식으로 개별 디바이스에서 수행될 계산을 결정할 수 있다. 다른 예에서, 기계 학습 애플리케이션(630)은 프로세서(602)가 특정 개수의 GPU 코어(예를 들어, 1000개)를 갖는 GPU를 포함하고 그에 따라(예를 들어, 1000개의 개별 프로세스 또는 스레드로서) 추론 엔진을 구현한다고 결정할 수 있다.

일부 구현에서, 기계 학습 애플리케이션(630)은 트레이닝된 모델의 앙상블을 구현할 수 있다. 예를 들어, 트레이닝된 모델(634)은 동일한 입력 데이터에 각각 적용 가능한 복수의 트레이닝된 모델을 포함할 수 있다. 이러한 구현에서, 기계 학습 애플리케이션(630)은 예를 들어 가용 계산 자원, 사전 추론을 통한 성공률 등에 기초하여 특정 트레이닝된 모델을 선택할 수 있다. 일부 구현에서, 기계 학습 애플리케이션(630)은 복수의 트레이닝된 모델이 적용되도록 추론 엔진(636)을 실행할 수 있다. 이러한 구현에서, 기계 학습 애플리케이션(630)은, 예를 들어, 각각의 트레이닝된 모델을 적용함으로써 개별 출력을 점수화하는 투표 기술을 사용하거나 하나 이상의 특정 출력을 선택함으로써 개별 모델을 적용하여 출력을 결합할 수 있다. 또한, 이러한 구현에서, 기계 학습 애플리케이션은 개별 트레이닝된 모델을 적용하기 위한 시간 임계값(예를 들어, 0.5ms)을 적용하고, 그 시간 임계값 내에서 사용할 수 있는 개별 출력만을 활용할 수 있다. 시간 임계값 내에 수신되지 않은 출력은 사용되지 않을 수 있다(예를 들어, 폐기됨). 예를 들어, 이러한 접근법은 예를 들어, 운영 체제(608) 또는 하나 이상의 애플리케이션(612)에 의해 기계 학습 애플리케이션을 호출하는 동안 지정된 시간 제한이 있을 때 적합할 수 있다. 일부 구현에서, 기계 학습 애플리케이션(630)은 호출 애플리케이션 예를 들어, 운영 체제(608) 또는 하나 이상의 애플리케이션(612)에 의해 지정된 포멧에 기초하여 출력을 생성할 수 있다. 일부 구현에서, 호출 애플리케이션은 다른 기계 학습 애플리케이션일 수 있다. 예를 들어, 이러한 구성은 생성적 적대 네트워크에서 사용될 수 있으며, 여기서 호출 기계 학습 애플리케이션은 기계 학습 애플리케이션(630)의 출력을 사용하여 트레이닝되고 그 반대의 경우도 마찬가지이다.

메모리(604) 내의 임의의 소프트웨어는 대안적으로 임의의 다른 적절한 저장 위치 또는 컴퓨터 판독 가능 매체에 저장될 수 있다. 또한, 메모리(604)(및/또는 기타 연결된 저장 디바이스(들))는 하나 이상의 메시지, 하나 이상의 분류법, 전자 사전, 사전, 동의어 사전, 지식 베이스, 메시지 데이터, 문법, 사용자 선호도, 및/또는 본 명세서에 설명된 피처들에 사용되는 기타 명령 및 데이터를 저장할 수 있다. 메모리(604) 및 임의의 다른 유형의 스토리지(자기 디스크, 광 디스크, 자기 테이프 또는 다른 유형(tangible)의 매체)는 "저장" 또는 "저장 디바이스"로 간주될 수 있다.

I/O 인터페이스(606)는 서버 디바이스(600)를 다른 시스템 및 디바이스들과 인터페이스할 수 있는 기능을 제공할 수 있다. 인터페이스된 디바이스들은 디바이스(600)의 일부로서 포함될 수 있거나 분리되어 디바이스(600)와 통신할 수 있다. 예를 들어, 네트워크 통신 디바이스, 저장 디바이스(예를 들어, 메모리) 및 입/출력 디바이스는 I/O 인터페이스(606)를 통해 통신할 수 있다. 일부 구현에서, I/O 인터페이스는 입력 디바이스(키보드, 포인팅 디바이스, 터치 스크린, 마이크로폰, 카메라, 스캐너, 센서 등) 및/또는 출력 디바이스(디스플레이 디바이스, 스피커 디바이스, 프린터, 모터 등)와 같은 인터페이스 디바이스에 연결할 수 있다.

I/O 인터페이스(606)에 연결할 수 있는 인터페이스 디바이스의 일부 예는 컨텐츠, 예를 들어, 본 명세서에 설명된 출력 애플리케이션의 이미지, 비디오 및/또는 사용자 인터페이스를 디스플레이하는데 사용될 수 있는 하나 이상의 디스플레이 디바이스(620)를 포함할 수 있다. 디스플레이 디바이스(620)는 로컬 연결(예를 들어, 디스플레이 버스) 및/또는 네트워크 연결을 통해 디바이스(600)에 연결될 수 있으며 임의의 적절한 디스플레이 디바이스일 수 있다. 디스플레이 디바이스(620)는 LCD, LED 또는 플라즈마 디스플레이 스크린, CRT, 텔레비전, 모니터, 터치 스크린, 3D 디스플레이 스크린, 또는 다른 시각적 디스플레이 디바이스와 같은 임의의 적절한 디스플레이 디바이스를 포함할 수 있다. 예를 들어, 디스플레이 디바이스(620)는 모바일 디바이스에 제공된 평면 디스플레이 화면, 고글 또는 헤드셋 디바이스에 제공된 다중 디스플레이 화면, 또는 컴퓨터 디바이스용 모니터 스크린일 수 있다.

I/O 인터페이스(606)는 다른 입력 및 출력 디바이스와 인터페이스할 수 있다. 일부 예에는 이미지를 캡처할 수 있는 하나 이상의 카메라가 포함된다. 일부 구현은 (예를 들어, 캡처된 이미지, 음성 명령 등의 일부로) 사운드 캡처를 위한 마이크로폰, 사운드를 출력하기 위한 오디오 스피커 디바이스 또는 기타 입력 및 출력 디바이스를 제공할 수 있다.

카메라(616)는 복수의 프레임을 포함하는 비디오를 캡처할 수 있는 임의의 유형의 카메라일 수 있다. 본 명세서에 사용된 카메라는 임의의 이미지 캡처 디바이스를 포함할 수 있다. 일부 구현에서, 카메라(616)는 상이한 기능, 예를 들어 전면 대 후면, 상이한 줌 레벨, 캡처된 이미지의 이미지 해상도 등을 갖는 복수의 렌즈 또는 이미징 센서를 포함할 수 있다. 일부 구현에서, 디바이스(600)는 깊이 센서, 가속도계, 위치 센서(예를 들어, GPS), 자이로스코프 등과 같은 하나 이상의 센서를 포함할 수 있다. 일부 구현에서, 하나 이상의 센서는 카메라를 사용하여 캡처된 비디오의 상이한 프레임에 대응하는 센서 판독 값을 획득하기 위해 카메라와 함께 작동될 수 있다.

설명의 편의를 위해, 도 6은 프로세서(602), 메모리(604), I/O 인터페이스(606), 카메라(616) 및 소프트웨어 블록(608, 612 및 630) 각각에 대한 하나의 블록을 도시한다. 이러한 블록은 하나 이상의 프로세서 또는 처리 회로, 운영 체제, 메모리, I/O 인터페이스, 애플리케이션 및/또는 소프트웨어 모듈을 나타낼 수 있다. 다른 구현에서, 디바이스(600)는 도시된 모든 구성 요소를 갖지 않을 수 있고 및/또는 본 명세서에 도시된 것 대신에 또는 이에 추가하여 다른 유형의 엘리먼트를 포함하는 다른 엘리먼트를 가질 수 있다. 일부 구성 요소는 본 명세서의 일부 구현에서 설명된 바와 같이 블록들 및 동작들을 수행하는 것으로 설명되지만, 네트워크 환경(100), 디바이스(600), 유사 시스템, 또는 그러한 시스템과 관련된 임의의 적절한 프로세서 또는 프로세서들의 임의의 적절한 구성 요소 또는 구성 요소의 조합이 설명된 블록들 및 동작들을 수행할 수 있다.

본 명세서에 설명된 방법은 컴퓨터에서 실행될 수 있는 컴퓨터 프로그램 명령 또는 코드에 의해 구현될 수 있다. 예를 들어, 코드는 하나 이상의 디지털 프로세서(예를 들어, 마이크로 프로세서 또는 다른 처리 회로)에 의해 구현될 수 있으며, 반도체 또는 솔리드 스테이트 메모리, 자기 테이프, 이동식 컴퓨터 디스켓, RAM, ROM, 플래시 메모리, 견고한 자기 디스크, 광 디스크, 솔리드 스테이트 메모리 드라이브를 포함하여 자기, 광학, 전자기 또는 반도체 저장 매체와 같은 비-일시적 컴퓨터 판독 가능 매체(예를 들어, 저장 매체)를 포함하는 컴퓨터 프로그램 제품에 저장될 수 있다. 프로그램 명령은 또한 예를 들어 서버(예를 들어, 분산 시스템 및/또는 클라우드 컴퓨팅 시스템)로부터 전달되는 SaaS(Software as a Service)의 형태로 전자 신호에 포함되어 제공될 수 있다. 대안적으로, 하나 이상의 방법이 하드웨어(로직 게이트 등) 또는 하드웨어와 소프트웨어의 조합으로 구현될 수 있다. 하드웨어의 예는 프로그래밍 가능 프로세서(예를 들어, FPGA, 복합 프로그래밍 가능 논리 디바이스), 범용 프로세서, 그래픽 프로세서, ASIC 등일 수 있다. 하나 이상의 방법은 시스템에서 실행되는 애플리케이션의 일부 또는 구성 요소로 수행되거나 다른 애플리케이션 및 운영 체제와 함께 실행되는 애플리케이션이나 소프트웨어로 수행될 수 있다.

설명이 그의 특정 구현들에 대해 설명되었지만, 이러한 특정 구현들은 단지 예시 적이며 제한적이지 않다. 예에서 도시된 개념은 다른 예 및 구현에 적용될 수 있다.

본 명세서에서 특정 구현이 논의되는 상황에서 사용자에 관한 개인 정보(예를 들어, 사용자 데이터, 사용자의 소셜 네트워크에 관한 정보, 사용자의 위치 및 해당 위치에서의 시간, 사용자의 생체 인식 정보, 사용자의 활동 및 인구 통계 정보)를 수집하거나 사용할 수 있으며, 사용자에게는 정보 수집 여부, 개인 정보 저장 여부, 개인 정보 사용 여부 및 사용자에 대한 정보 수집, 저장 및 사용 방법을 제어할 수 있는 하나 이상의 기회가 제공된다. 즉, 본 명세서에 설명된 시스템 및 방법은 관련 사용자로부터 명시적인 승인을 받으면 사용자 개인 정보를 수집, 저장 및/또는 사용한다.

예를 들어, 사용자는 프로그램 또는 기능이 특정 사용자 또는 프로그램 또는 기능과 관련된 다른 사용자에 대한 사용자 정보를 수집하는지 여부를 제어할 수 있다. 개인 정보를 수집할 각 사용자에게는 해당 사용자와 관련된 정보 수집을 제어할 수 있는 하나 이상의 옵션이 제공되어 정보가 수집되는지 여부 및 정보의 어느 부분이 수집되는지에 대한 권한 또는 권한을 제공한다. 예를 들어, 사용자는 통신 네트워크를 통해 이러한 제어 옵션을 하나 이상 제공받을 수 있다. 또한, 특정 데이터는 저장 또는 사용되기 전에 하나 이상의 방식으로 처리되어 개인 식별 정보가 제거될 수 있다. 예를 들어, 사용자의 신원은 개인 식별 정보가 결정되지 않도록 처리될 수 있다. 다른 예로서, 사용자 기기의 지리적 위치는 사용자의 특정 위치를 결정할 수 없도록 더 큰 지역으로 일반화될 수 있다.

본 개시에 설명된 기능 블록들, 동작들, 특징들, 방법들, 디바이스들 및 시스템들은 당업자에게 알려진 바와 같이 시스템, 디바이스 및 기능 블록의 상이한 조합으로 통합되거나 분할될 수 있다는 점에 유의한다. 특정 구현의 루틴을 구현하기 위해 임의의 적절한 프로그래밍 언어 및 프로그래밍 기술이 사용될 수 있다. 다른 프로그래밍 기술, 예를 들어 절차적 또는 객체 지향이 사용될 수 있다. 루틴은 단일 처리 디바이스 또는 다중 프로세서에서 실행될 수 있다. 단계들, 동작들 또는 계산들이 특정 순서로 표시될 수 있지만 순서는 다른 특정 구현에서 변경될 수 있다. 일부 구현에서, 본 명세서에서 순차적으로 도시된 다수의 단계 또는 동작은 동시에 수행될 수 있다.

Claims

컴퓨터 구현 방법으로서,
파일 컨테이너로부터 복수의 픽셀 값을 포함하는 이미지 데이터를 획득하는 단계와, 상기 픽셀 값 각각은 주(primary) 이미지의 복수의 픽셀의 개별 픽셀 및 깊이 맵을 포함하는 이미지 메타데이터에 대응하고;
주 이미지가 디스플레이되게 하는 단계와;
주 이미지에 묘사된 객체의 선택을 나타내는 사용자 입력을 수신하는 단계와;
깊이 맵에 기초하여 분할 마스크를 생성하는 단계로서,
깊이 값의 임계값 범위 내에 있는 개별 깊이 값을 갖는 주 이미지의 픽셀을 선택하는 단계와, 상기 분할 마스크는 객체에 대응하는 주 이미지의 픽셀의 서브세트를 식별하고;
분할 마스크에 기초하여 객체의 객체 이미지를 획득하는 단계와; 그리고
객체 이미지의 선택을 가능하게 하는 사용자 인터페이스를 제공하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 깊이 맵은 복수의 픽셀 값을 포함하고, 각 픽셀 값은 카메라로부터의 개별 거리를 나타내는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 깊이 맵은 각각이 주 이미지의 특정 픽셀에 대응하는 복수의 깊이 값을 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
제3항에 있어서,
상기 깊이 값의 임계 범위는,
객체에 대응하는 최소 깊이 값과 최대 깊이 값 사이의 범위인 것을 특징으로 하는 컴퓨터 구현 방법..
제4항에 있어서,
상기 객체는 주 이미지의 캡처 동안 사용된 카메라 애플리케이션에 의해 적용된 피사계 심도 효과에 관한 정보 및 깊이 정보를 활용하는 이미지 분할 기술을 사용하여 식별되는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 사용자 인터페이스는,
사용자가 디스플레이된 이미지로부터 객체를 제거하는 잘라내기(cut) 동작, 객체 이미지를 복사하는 복사(copy) 동작, 또는 객체 이미지를 다른 이미지나 디스플레이된 이미지의 다른 위치에 삽입하는 붙여넣기(paste) 동작 중 하나 이상을 추가로 수행할 수 있도록 하는 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 이미지 데이터는 하나 이상의 보조(secondary) 이미지를 더 포함하고, 상기 하나 이상의 보조 이미지 중 적어도 하나는 깊이 카메라에 의해 캡처된 깊이 이미지인 것을 특징으로 하는 컴퓨터 구현 방법.
제1항에 있어서,
상기 사용자 입력은 주 이미지에 대한 자르기(crop) 동작 또는 주 이미지에 대한 스케일(scale) 동작 중 적어도 하나를 추가로 나타내고,
상기 방법은,
수정된 이미지를 획득하기 위해 사용자 입력에 기초하여 주 이미지를 수정하는 단계와; 그리고
업데이트된 깊이 맵을 계산하는 단계를 더 포함하고, 상기 업데이트된 깊이 맵은 수정된 이미지에 대응하는 깊이 데이터를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
컴퓨팅 시스템으로,
하나 이상의 프로세서와; 그리고
하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서로 하여금 제1항 내지 제8항 중 어느 한 항의 방법의 단계들을 수행하게 하는 명령들을 저장하는 하나 이상의 저장 디바이스를 포함하는 컴퓨팅 시스템.
하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서로 하여금 제1항 내지 제8항 중 어느 한 항의 방법의 단계들을 수행하게 하는 명령들을 포함하는컴퓨터 판독 가능 저장 매체.
컴퓨터에 의해 실행될 때 컴퓨터로 하여금 제1항 내지 제8항 중 어느 한 항의 방법의 단계들을 수행하게 하는 명령들을 포함하는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.