KR20160120722A

KR20160120722A - 비디오 메타데이터

Info

Publication number: KR20160120722A
Application number: KR1020167020958A
Authority: KR
Inventors: 미니에 칼린 파쿠라리유; 안드레아스 본 스네이던; 라이너 브로더슨
Original assignee: 라이브 마인즈, 아이엔씨.
Priority date: 2013-12-30
Filing date: 2014-12-29
Publication date: 2016-10-18
Also published as: WO2015103151A1; US20150187390A1; EP3090571A1; CN106416281A; EP3090571A4; TW201540058A

Abstract

서로 다른 타입의 메타데이터를 포함하는 하나 이상의 트랙을 포함하는 비디오 데이터 구조를 제공하기 위한 시스템 및 방법이 개시되었다. 메타데이터는, 예를 들어, 위치, 포지셔닝, 모션, 속도, 가속도 등과 같은 다양한 환경 조건을 나타내는 데이터를 포함할 수 있다. 메타데이터는, 예를 들어, 인물 태그, 오디오 태그, 모션 태그 등과 같은 다양한 비디오 또는 오디오 태그를 나타내는 데이터도 포함할 수 있다. 메타데이터의 일부 또는 전부가, 예를 들어, 비디오 클립의 특정 비디오 프레임과 함께 기록될 수 있다. 메타데이터의 일부 또는 전부가, 예를 들어, 연속적인 방식으로 기록될 수 있고/있거나 복수의 특정 비디오 프레임들 중 하나 이상과 함께 기록될 수 있다.

Description

비디오 메타데이터{VIDEO METADATA}

본 개시내용은 일반적으로 비디오 메타데이터에 관한 것이다.

디지털 비디오는 사진만큼이나 흔한 것이 되어가고 있다. 비디오 센서 크기의 감소 및 품질의 향상은 비디오 카메라가 많은 애플리케이션에 있어서 점점 더 접근하기 쉽게 만들었다. 비디오 카메라를 구비한 모바일폰은 보다 접근하기 쉽고 유용해진 비디오 카메라의 일 예이다. 종종 착용가능한 작은 휴대용 비디오 카메라가 다른 예이다. 유튜브(YouTube), 인스타그램(Instagram) 및 다른 소셜 네트워크의 출현은 비디오를 다른 사람들과 공유하는 사용자의 능력을 증가시켜왔다.

이러한 예시적인 실시예들은 본 개시내용을 제한 또는 정의하지 않고 본 발명의 이해를 돕기 위한 예를 제공하도록 언급되었다. 추가의 실시예들이 상세한 설명에 논의되며, 추가의 설명이 제공된다. 다양한 실시예들 중 하나에 의해 제공되는 장점들은 이러한 명세를 실험함으로써 또는 제시된 하나 이상의 실시예를 실시함으로써 추가로 이해될 수 있다.

본 발명의 실시예들은 이미지 센서, 모션 센서, 메모리 및 프로세싱 유닛을 포함하는 카메라를 포함한다. 프로세싱 유닛은 이미지 센서, 마이크로폰, 모션 센서 및 메모리와 전기적으로 결합될 수 있다. 프로세싱 유닛은 이미지 센서로부터 비디오 클립을 포함하는 복수의 비디오 프레임들을 수신하고; 모션 센서로부터 모션 데이터를 수신하며; 비디오 클립과 연관하여 모션 데이터를 저장하도록 구성될 수 있다.

일부 실시예들에서, 모션 데이터는 복수의 비디오 프레임들 각각과 연관하여 저장될 수 있다. 일부 실시예들에서, 모션 데이터는 제 1 모션 데이터 및 제 2 모션 데이터를 포함할 수 있고 복수의 비디오 프레임들이 제 1 비디오 프레임 및 제 2 비디오 프레임을 포함할 수 있다. 제 1 모션 데이터는 제 1 비디오 프레임과 연관하여 저장될 수 있으며; 제 2 모션 데이터는 제 2 비디오 프레임과 연관하여 저장될 수 있다. 일부 실시예들에서, 제 1 모션 데이터 및 제 1 비디오 프레임이 제 1 타임스탬프를 이용하여 타임스탬핑될 수 있으며, 제 2 모션 데이터 및 제 2 비디오 프레임이 제 2 타임스탬프를 이용하여 타임스탬핑될 수 있다.

일부 실시예들에서, 카메라는 GPS 센서를 포함할 수 있다. 프로세싱 유닛은 GPS 센서로부터 GPS 데이터를 수신하며; 비디오 클립과 연관하여 모션 데이터 및 GPS 데이터를 저장하도록 추가로 구성될 수 있다. 일부 실시예들에서, 모션 센서는 가속도계, 자이로스코프, 및/또는 자력계를 포함할 수 있다.

본 발명의 실시예들은 이미지 센서, GPS 센서, 메모리 및 프로세싱 유닛을 포함하는 카메라를 포함한다. 프로세싱 유닛은 이미지 센서, 마이크로폰, GSP 센서 및 메모리와 전기적으로 결합될 수 있다. 프로세싱 유닛은 이미지 센서로부터 비디오 클립을 포함하는 복수의 비디오 프레임들을 수신하고; GPS 센서로부터 GPS 데이터를 수신하며; 비디오 클립과 연관하여 GPS 데이터를 저장하도록 구성될 수 있다. 일부 실시예들에서, GPS데이터가 복수의 비디오 프레임들 각각과 연관하여 저장될 수 있다.

일부 실시예들에서, GPS 데이터는 제 1 GPS 데이터 및 제 1 모션 데이터를 포함할 수 있으며; 복수의 비디오 프레임들이 제 1 비디오 프레임 및 제 2 비디오 프레임을 포함할 수 있다. 제 1 GPS 데이터는 제 1 비디오 프레임과 연관하여 저장될 수 있으며; 제 2 GPS 데이터는 제 2 비디오 프레임과 연관하여 저장될 수 있다. 일부 실시예들에서, 제 1 GPS 데이터 및 제 1 비디오 프레임이 제 1 타임스탬프를 이용하여 타임스탬핑될 수 있고, 제 2 GPS 데이터 및 제 2 비디오 프레임이 제 2 타임스탬프를 이용하여 타임스탬핑될 수 있다.

본 명세서에 기술된 일부 실시예들에 따라 비디오 데이터를 수집하기 위한 방법이 또한 제공된다. 이 방법은 이미지 센서로부터 비디오 클립을 포함하는 복수의 비디오 프레임들을 수신하는 단계; GPS 센서로부터 GPS 데이터를 수신하는 단계; 모션 센서로부터 모션 데이터를 수신하는 단계; 및 비디오 클립과 연관하여 ㅁ모션 데이터 및 GPS 데이터를 저장하는 단계를 포함할 수 있다.

일부 실시예들에서, 모션 데이터는 복수의 비디오 프레임들 각각과 연관하여 저장될 수 있다. 일부 실시예들에서, GPS 데이터는 복수의 비디오 프레임들 각각과 연관하여 저장될 수 있다. 일부 실시예들에서, 이 방법은 마이크로폰으로부터 오디오 데이터를 수신하는 단계; 및 비디오 클립과 연관하여 오디오 데이터를 저장하는 단계를 더 포함할 수 있다.

일부 실시예들에서, 모션 데이터는 가속도 데이터, 각 회전 데이터, 방향 데이터, 및/또는 회전 매트릭스를 포함할 수 있다. 일부 실시예들에서, GPS 데이터는 위도, 경도, 고도, 위성들을 이용한 고정 시간, GPS데이터를 결정하기 위해 사용되는 위성들의 수를 나타내는 숫자, 베어링(bearing), 및/또는 속도를 포함할 수 있다.

비디오 데이터를 수집하기 위한 방법이 또한 본 명세서에 기술된 일부 실시예들에 따라 제공된다. 이 방법은 이미지 센서로부터 제 1 비디오 프레임을 수신하는 단계; GPS 센서로부터 제 1 GPS 데이터를 수신하는 단계; 모션 센서로부터 제 1 모션 데이터를 수신하는 단계; 제 1 비디오 프레임과 연관하여 제 1 모션 데이터 및 제 1 GPS 데이터를 저장하는 단계; 이미지 센서로부터 제 2 비디오 프레임을 수신하는 단계; GPS 센서로부터 제 2 GPS 데이터를 수신하는 단계; 모션 센서로부터 제 2 모션 데이터를 수신하는 단계; 및 제 2 비디오 프레임과 연관하여 제 2 모션 데이터 및 제 2 GPS 데이터를 저장하는 단계를 포함할 수 있다. 일부 실시예들에서, 제 1 모션 데이터, 제 1 GPS 데이터 및 제 1 비디오 프레임이 제 1 타임스탬프를 이용하여 타임스탬핑되고, 제 2 모션 데이터, 제 2 GPS 데이터 및 제 2 비디오 프레임이 제 2 타임스탬프를 이용하여 타임스탬핑된다.

본 개시내용의 이러한 특성들, 양태들 및 장점들과 다른 특성들, 양태들 및 장점들은 첨부된 도면들을 참조할 때 아래의 상세한 설명으로부터 더욱 잘 이해된다.
도 1은 본 명세서에 기술된 일부 실시예들에 따른 예시적인 카메라 시스템을 도시한 도면.
도 2는 본 명세서에 기술된 일부 실시예들에 따른 예시적인 데이터 구조를 도시한 도면.
도 3은 본 명세서에 기술된 일부 실시예들에 따른 예시적인 데이터 구조를 도시한 도면.
도 4는 본 명세서에 기술된 일부 실시예들에 따른 메타데이터를 포함하는 포켓화된 비디오 데이터 구조의 다른 예를 도시한 도면.
도 5는 본 명세서에 기술된 일부 실시예들에 따라 모션 및/또는 지리위치 데이터를 비디오 프레임들과 연관시키기 위한 프로세스의 예시적인 흐름도.
도 6은 본 명세서에 기술된 일부 실시예들에 따른 비디오 프레임들의 음성 태깅을 위한 프로세스의 예시적인 흐름도.
도 7은 본 명세서에 기술된 일부 실시예들에 따른 비디오 프레임들의 인물 태깅을 위한 프로세스의 예시적인 흐름도.
도 8은 본 명세서에 기술된 일부 실시예들에 따른 비디오 및 메타데이터의 샘플링 및 결합을 위한 프로세스의 예시적인 흐름도.
도 9는 본 명세서에 기술된 실시예들의 구현을 용이하게 하는 기능을 수행하기 위한 예시적인 컴퓨터 시스템을 도시한 도면.

점점 더 많은 비디오 녹화 디바이스에 다른 감지 하드웨어 중에서도 모션 및/또는 위치 감지 하드웨어가 장착된다. 본 발명의 실시예들은 비디오 스트림과 동기식으로 이들 센서들로부터 데이터를 녹화 또는 샘플링하기 위한 시스템들 및/또는 방법들을 포함한다. 이는, 예를 들어 풍부한 환경적 인식을 미디어 스트림에 주입시킬 수 있다.

서로 다른 타입의 메타데이터를 포함하는 하나 이상의 트랙을 포함하는 비디오 데이터 구조를 제공하기 위한 시스템들 및 방법들이 개시되었다. 메타데이터는, 예를 들어, 위치, 포지셔닝, 모션, 속도, 가속도 등과 같은 다양한 환경 조건을 나타내는 데이터를 포함할 수 있다. 메타데이터는, 예를 들어, 인물 태그, 오디오 태그, 모션 태그 등과 같은 다양한 비디오 또는 오디오 태그를 나타내는 데이터도 포함할 수 있다. 메타데이터의 일부 또는 전부가, 예를 들어, 비디오 클립의 특정 비디오 프레임과 함께 기록될 수 있다. 메타데이터의 일부 또는 전부가, 예를 들어, 연속적인 방식으로 기록될 수 있고/있거나 복수의 특정 비디오 프레임들 중 하나 이상과 함께 기록될 수 있다.

본 발명의 다양한 실시예들이 비디오 트랙보다 작거나 또는 같은 데이터 속도(예로서, 30Hz 또는 60Hz)로 샘플링된(예로서, 시간에 맞춰 찍힌 스냅샷) 메타데이터를 포함하는 비디오 데이터 구조를 포함할 수 있다. 일부 실시예들에서, 메타데이터는 파일 또는 스트림의 오디오 및/또는 비디오 부분과 동일한 미디어 컨테이너 내에 존재할 수 있다. 일부 실시예들에서, 데이터 구조는 다수의 서로 다른 미디어 재생기 및 편집기를 포함할 수 있다. 일부 실시예들에서, 메타데이터는 데이터 구조로부터 추출가능 및/또는 번역가능할 수 있다. 일부 실시예들에서, 메타데이터는 임의의 타입의 증강 실시간 데이터를 위해 확장가능할 수 있다.

도 1은 본 명세서에 기술된 일부 실시예들에 따른 예시적인 카메라 시스템(100)을 도시한다. 카메라 시스템(100)은 카메라(110), 마이크로폰(115), 컨트롤러(120), 메모리(125), GPS 센서(130), 모션 센서(135), 센서(들)(140), 및/또는 사용자 인터페이스(145)를 포함한다. 컨트롤러(120)는 임의의 타입의 컨트롤러, 프로세서 또는 로직을 포함할 수 있다. 예를 들어, 컨트롤러(120)는 도 9에 도시된 컴퓨터 시스템(900)의 구성요소들의 전부 또는 임의의 구성요소를 포함할 수 있다.

카메라(110)는 임의의 가로세로 비율, 크기, 및/또는 프레임 속도를 갖는 디지털 비디오를 기록하는 종래기술에서 알려진 임의의 카메라를 포함할 수 있다. 카메라(110)는 시야를 샘플링 및 기록하는 이미지 센서를 포함할 수 있다. 이미지 센서는, 예를 들어, CCD 또는 CMOS 센서를 포함할 수 있다. 예를 들어, 카메라(110)에 의해 생성된 디지털 비디오의 가로세로 비율이 1:1, 4:3, 5:4, 3:2, 16:9, 10:7, 9:5, 9:4, 17:6 등, 또는 임의의 다른 가로세로 비율일 수 있다. 다른 예로서, 카메라의 이미지 센서의 크기가 9 메가픽셀, 15 메가픽셀, 20 메가픽셀, 50 메가픽셀, 100 메가픽셀, 200 메가픽셀, 500 메가픽셀, 1000 메가픽셀 등, 또는 임의의 다른 크기일 수 있다. 다른 예로서, 프레임 속도는 초당 24 프레임(fps; frames per second), 25 fps, 30 fps, 48 fps, 50 fps, 72 fps, 120 fps, 300 fps, 등, 또는 임의의 다른 프레임 속도일 수 있다. 프레임 속도는 비월(interlaced) 또는 순차(progressive) 포맷일 수 있다. 또한 카메라(110)는, 예를 들어 3D 비디오일 수도 있다. 카메라(110)는 원본 또는 압축 비디오 데이터를 제공할 수 있다. 카메라(110)에 의해 제공된 비디오 데이터는 시간 내에 함께 링크된 일련의 비디오 프레임들을 포함할 수 있다. 비디오 데이터는 메모리(125) 내에 직접 또는 간접적으로 저장될 수 있다.

마이크로폰(115)은 오디오를 수집하기 위한 하나 이상의 마이크로폰을 포함할 수 있다. 오디오는 모노 사운드, 스테레오 사운드, 서라운드 사운드(임의의 수의 트랙), 돌비(Dolby) 등, 또는 임의의 다른 오디오 포맷으로서 녹음될 수 있다. 또한, 오디오는 압축, 인코딩, 필터링, 압축 등이 될 수 있다. 오디오 데이터는 메모리(125) 내에 직접 또는 간접적으로 저장될 수 있다. 오디오 데이터는 또한, 예를 들어, 임의의 수의 트랙을 포함할 수 있다. 예를 들어 스테레오 오디오에 있어서, 두 개의 트랙들이 사용될 수 있다. 그리고 예를 들어, 서라운드 사운드 5.1 오디오는 6개의 트랙들을 포함할 수 있다.

컨트롤러(120)는 카메라(110) 및 마이크로폰(115)과 통신상 결합될 수 있고/있거나 카메라(110) 및 마이크로폰(115)의 동작을 제어할 수 있다. 컨트롤러(120)는 또한 오디오 데이터 및 비디오 데이터를 동기화하도록 사용될 수 있다. 컨트롤러(120)는 또한 비디오 데이터 및/또는 오디오 데이터를 메모리(125) 내에 저장하기에 앞서 비디오 데이터 및/또는 오디오 데이터의 다양한 타입의 프로세싱, 필터링, 압축 등을 수행할 수 있다.

GPS 센서(130)는 컨트롤러(120) 및/또는 메모리(125)와 (무선 또는 유선으로) 통신상 결합될 수 있다. GPS 센서(130)는 GPS 데이터를 수집할 수 있는 센서를 포함할 수 있다. 일부 실시예들에서, GPS 데이터는 비디오 프레임들이 저장되는 것과 동일한 속도로 메모리(125) 내에 샘플링 및 저장될 수 있다. 임의의 타입의 GPS 센서가 사용될 수 있다. GPS 데이터는, 예를 들어, 위도, 경도, 고도, 위성들을 이용한 고정 시간, GPS 데이터를 결정하기 위해 사용된 위성들의 수를 나타내는 숫자, 베어링 및 속도를 포함할 수 있다. GPS 센서(130)는 GPS 데이터를 메모리(125) 내에 기록할 수 있다. 예를 들어, GPS 센서(130)는 카메라가 비디오 프레임들을 기록하는 것과 동일한 프레임 속도로 GPS 데이터를 샘플링할 수 있으며 GPS 데이터는 동일한 속도로 메모리(125) 내에 저장될 수 있다. 예를 들어, 만약 비디오 데이터가 24 fps로 기록된다면, GPS 센서(130)는 초당 24회로 샘플링 및 저장될 수 있다. 다양한 다른 샘플링 횟수들이 사용될 수 있다. 또한, 서로 다른 센서들이 서로 다른 샘플링 속도로 데이터를 샘플링 및/또는 저장할 수 있다.

모션 센서(135)는 컨트롤러(120) 및/또는 메모리(125)와 (무선 또는 유선으로) 통신상 결합될 수 있다. 모션 센서(135)는 모션 데이터를 메모리(125) 내에 기록할 수 있다. 모션 데이터는 비디오 프레임들이 메모리(125) 내에 저장되는 것과 동일한 속도로 메모리(125) 내에 샘플링 및 저장될 수 있다. 예를 들어, 만약 비디오 데이터가 24 fps로 기록된다면, 모션 센서는 초당 24회로 샘플링 및 저장될 수 있다.

모션 센서(135)는, 예를 들어, 가속도계, 자이로스코프, 및/또는 자력계를 포함할 수 있다. 모션 센서(135)는, 예를 들어, 각각의 개별 센서: 가속도, 자이로스코프 및 자력계에 대해 3개의 축으로 원본 데이터를 출력하거나, 또는 3개의 카테시안 축 둘레에서의 센서의 회전을 기술하는 회전 매트릭스를 출력할 수 있는 9-축 센서를 포함할 수 있다. 또한, 모션 센서(135)는 가속도 데이터를 제공할 수 있다. 모션 센서(135)가 샘플링될 수 있으며 모션 데이터가 메모리(125) 내에 저장될 수 있다.

이와 달리, 모션 센서(135)는 개별 1-3 축 가속도계, 자이로스코프, 및/또는 자력계와 같은 개별 센서들을 포함할 수 있다. 이들 센서로부터의 원본 또는 프로세싱된 데이터가 모션 데이터로서 메모리(125) 내에 저장될 수 있다.

센서(들)(140)는, 예를 들어 주변 광 센서, 온도계, 기압계, 심박동수, 맥박 등과 같은, 컨트롤러(120)와 (무선 또는 유선으로) 통신상 결합된 임의의 수의 추가적인 센서들을 포함할 수 있다. 센서(들)(140)는 컨트롤러(120) 및/또는 메모리(125)와 통신상 결합될 수 있다. 센서(들)(140)는, 예를 들어, 비디오 프레임들이 저장되는 것과 동일한 속도로 또는 선택된 센서 데이터 스트림에 대한 실제 속도보다 더 낮은 속도로 샘플링될 수 있으며 데이터가 메모리 내에 저장될 수 있다. 예를 들어, 만약 비디오 데이터가 24 fps로 기록된다면, 센서(들)는 초당 24회 샘플링 및 저장될 수 있으며 GPS는 1 fps로 샘플링될 수 있다.

사용자 인터페이스(145)는 버튼 및/또는 터치스크린을 포함하는 임의의 타입의 입력/출력 디바이스와 (무선 또는 유선으로) 통신상 연결될 수 있으며 이를 포함할 수 있다. 사용자 인터페이스(145)는 유선 또는 무선 인터페이스를 통해 컨트롤러(120) 및/또는 메모리(125)와 통신상 연결될 수 있다. 사용자 인터페이스는 사용자로부터의 지시 및/또는 출력 데이터를 사용자에게 제공할 수 있다. 다양한 사용자 입력들이 메모리(125) 내에 저장될 수 있다. 예를 들어, 사용자는 기록된 비디오의 제목, 위치명, 개인들의 이름 등을 입력할 수 있다. 다양한 다른 디바이스들 또는 다른 입력들로부터 샘플링된 데이터가 메모리(125) 내에 저장될 수 있다.

도 2는 본 명세서에 기술된 일부 실시예들에 따른 비디오 메타데이터를 포함하는 비디오 데이터에 대한 데이터 구조(200)의 예시적인 도면이다. 데이터 구조(200)는 다양한 구성요소들이 데이터 구조(200) 내에 포함되거나 랩핑되는(wrapped) 방법을 나타낸다. 도 2에서, 시간은 수평축을 따라 이어지고 비디오, 오디오 및 메타데이터는 수직축을 따라 연장한다. 이 예에서, 5개의 비디오 프레임들(205)이 프레임 X, 프레임 X+1, 프레임 X+2, 프레임 X+3 및 프레임 X+4로서 나타내어졌다. 이러한 비디오 프레임들(205)은 훨씬 더 긴 비디오 클립의 작은 하위세트일 수 있다. 각 비디오 프레임(205)은 다른 비디오 프레임들(205)과 함께 촬영되고 시퀀스로 재생될 때 비디오 클립을 포함하는 이미지일 수 있다.

데이터 구조(200)는 또한 오디오 트랙들(210, 211, 212, 213)을 포함한다. 마이크로폰(115) 또는 다른 소스로부터의 오디오가 오디오 트랙들 중 하나 이상으로서 메모리(125) 내에 저장될 수 있다. 4개의 오디오 트랙들이 도시되었지만, 임의의 수의 오디오 트랙이 사용될 수 있다. 일부 실시예들에서, 이러한 오디오 트랙들 각각이 서라운드 사운드, 더빙 등을 위한, 또는 임의의 다른 목적을 위한 상이한 트랙을 포함할 수 있다. 일부 실시예들에서, 오디오 트랙은 마이크로폰(115)으로부터 수신된 오디오를 포함할 수 있다. 만약 하나보다 많은 마이크로폰(115)이 사용된다면, 트랙이 각 마이크로폰에 대해 사용될 수 있다. 일부 실시예들에서, 오디오 트랙은 후(post) 프로세싱 동안 또는 비디오 캡처 동안 디지털 오디오 파일로부터 수신된 오디오를 포함할 수 있다.

오디오 트랙들(210, 211, 212, 213)은 본 명세서에 기술된 일부 실시예들에 따른 연속적인 데이터 트랙들일 수 있다. 예를 들어, 비디오 프레임들(205)은 불연속적이며(discrete) 카메라의 프레임 속도에 따라 시간 내에 고정된 위치를 가진다. 오디오 트랙들(210, 211, 212, 213)은 불연속적이지 않을 수 있으며 도시된 것과 같이 시간 내에 연속적으로 연장할 수 있다. 일부 오디오 트랙들은 프레임들(205)과 정렬되지 않은 시작 및 중단 주기를 가질 수 있지만 이러한 시간과 중단 시간들 사이에서 연속적이다.

오픈 트랙(215)은 본 명세서에 기술된 일부 실시예들에 따른 특정 사용자 애플리케이션들에 대해 보호될 수 있는 오픈 트랙이다. 오픈 트랙(215)은 특히 연속적인 트랙일 수 있다. 임의의 수의 오픈 트랙이 데이터 구조(200) 내에 포함될 수 있다.

모션 트랙(220)은 본 명세서에 기술된 일부 실시예들에 따른 모션 센서(135)로부터 샘플링된 모션 데이터를 포함할 수 있다. 모션 트랙(220)은 각 비디오 프레임(205)에 상응하는 불연속 데이터 값들을 포함하는 불연속 트랙일 수 있다. 예를 들어, 모션 데이터는 카메라의 프레임 속도와 동일한 속도로 모션 센서(135)에 의해 샘플링될 수 있으며 모션 데이터가 샘플링되는 동안 캡처된 비디오 프레임들(205)과 함께 저장될 수 있다. 모션 데이터는, 예를 들어, 모션 트랙(220) 내에 저장되기에 앞서 프로세싱될 수 있다. 예를 들어, 원본 가속도 데이터가 필터링될 수 있고 또는 다른 데이터 포맷으로 변환될 수 있다.

모션 트랙(220)은, 예를 들어, 각 하위트랙이 본 명세서에 기술된 일부 실시예들에 따른 9-축 가속도계-자이로스코프 센서로부터의 데이터를 포함하는 9개의 하위트랙을 포함할 수 있다. 다른 예로서, 모션 트랙(220)은 회전 매트릭스를 포함하는 단일 트랙을 포함할 수 있다. 다양한 다른 데이터 포맷들이 사용될 수 있다.

지리위치 트랙(225)은 본 명세서에 기술된 일부 실시예들에 따라 위치, 속도, 및/또는 GPS 센서(130)로부터 샘플링된 GPS 데이터를 포함할 수 있다. 지리위치 트랙(225)은 각 비디오 프레임(205)에 상응하는 불연속 데이터 값들을 포함하는 불연속 트랙일 수 있다. 예를 들어, 카메라의 프레임 속도와 동일한 속도로 GPS 센서(130)에 의해 샘플링될 수 있으며 모션 데이터가 샘플링되는 동안 캡처된 비디오 프레임들(205)과 함께 저장될 수 있다.

지리위치 트랙(225)은, 예를 들어, 세 개의 하위트랙을 포함할 수 있으며, 여기에서 각 하위트랙은 GPS 센서(130)로부터 수신된 위도, 경도 및 고도 데이터를 나타낸다. 다른 예로서, 지리위치 트랙(225)은 6개의 하위트랙을 포함할 수 있으며, 각 하위트랙은 속도 및 위치에 대한 3차원 데이터를 포함한다. 다른 예로서, 지리위치 트랙(225)은 속도 및 위치를 나타내는 매트릭스를 포함하는 단일 트랙을 포함할 수 있다. 다른 하위트랙은 위성들을 이용한 고정 시간 및/또는 GPS 데이터를 결정하기 위해 사용된 위성들의 수를 나타내는 숫자를 나타낼 수 있다. 다양한 다른 데이터 포맷들이 사용될 수 있다.

다른 센서 트랙(230)은 본 명세서에 기술된 일부 실시예들에 따라 센서(140)로부터 샘플링된 데이터를 포함할 수 있다. 임의의 수의 추가적인 센서 트랙들이 사용될 수 있다. 다른 센서 트랙(230)은 각 비디오 프레임(205)에 상응하는 불연속 데이터 값들을 포함하는 불연속 트랙일 수 있다. 다른 센서 트랙은 임의의 수의 하위트랙을 포함할 수 있다.

오픈 불연속 트랙(235)은 본 명세서에 기술된 일부 실시예들에 따른 특정 사용자 또는 제3자 애플리케이션을 위해 보호될 수 있는 오픈 트랙이다. 오픈 불연속 트랙(235)은 특히 불연속 트랙일 수 있다. 임의의 수의 오픈 불연속 트랙이 데이터 구조(200) 내에 포함될 수 있다.

음성 태깅 트랙(240)은 본 명세서에 기술된 일부 실시예들에 따른 음성 개시 태그를 포함할 수 있다. 음성 태깅 트랙(240)은 임의의 수의 하위트랙을 포함할 수 있으며; 예를 들어 하위트랙은 서로 다른 개인들로부터의 및/또는 음성 태그를 오버랩하기 위한 음성 태그를 포함할 수 있다. 음성 태깅은 실시간으로 또는 후 프로세싱 중에 발생할 수 있다. 일부 실시예들에서, 음성 태깅은 마이크로폰(115)을 통해 기술되고 기록된 선택된 단어들을 식별할 수 있으며 연관된 프레임 동안 기술된 것과 같은 단어들을 식별하는 텍스트를 저장할 수 있다. 예를 들어, 음성 태깅은 다가오는 비디오 프레임들에서 기록될 동작의 시작(예로서, 레이스의 시작)과 연관되는 것과 같은 기술된 단어 "시작!"을 식별할 수 있다. 다른 예로서, 음성 태깅은 비디오 프레임 또는 프레임들에서 기록되고 있는 관심 이벤트를 식별하는 것으로서 기술된 단어 "와우!"를 식별할 수 있다. 임의의 수의 단어들이 음성 태깅 트랙(240)에 태그될 수 있다. 일부 실시예들에서, 음성 태깅은 모든 기술된 단어들을 텍스트로 번역할 수 있으며 텍스트는 음성 태깅 트랙(240)에 저장될 수 있다.

일부 실시예에서, 음성 태깅 트랙(240)은 또한, 예를 들어 박수, 음악 시작, 음악 종료, 개 짖는 소리, 엔진 소리 등과 같은 배경소리를 식별할 수 있다. 임의의 타입의 사운드가 배경 사운드로서 식별될 수 있다. 일부 실시예들에서, 음성 태깅은 또한 음성 또는 배경 사운드의 방향을 명시하는 정보를 포함할 수 있다. 예를 들어, 만약 카메라가 다수의 마이크로폰을 구비한다면, 이것은 사운드가 오는 방향을 삼각측량하고 음성 태깅 트랙 내에 방향을 명시할 수 있다.

일부 실시예들에서, 다양한 배경 태그를 캡처 및 기록하는 별개의 배경 소음 트랙이 사용될 수 있다.

모션 태깅 트랙(245)은, 예를 들어, 가속도 데이터, 속도 데이터, 속력 데이터, 줌아웃 데이터, 줌인 데이터 등과 같은 다양한 모션 관련 데이터를 나타내는 데이터를 포함할 수 있다. 일부 모션 데이터는, 예를 들어, 모션 센서(135) 또는 GPS 센서(130)로부터 샘플링된 데이터로부터 및/또는 모션 트랙(220) 및/또는 지리위치 트랙(225) 내의 데이터로부터 파생될 수 있다. 소정의 가속도 또는 비디오 프레임 또는 일련의 비디오 프레임들 내에서 발생하는 가속도에서의 변화(예로서, 명시된 임계값 위의 모션 데이터의 변화)는 비디오 프레임, 복수의 비디오 프레임들 또는 소정의 시간이 예를 들어, 회전, 낙하, 중단, 시작, 동작 시작, 범프(bump), 저크(jerk) 등과 같은 카메라의 소정의 이벤트 발생을 나타내도록 태그되게 할 수 있다. 모션 태깅은 실시간으로 또는 후 프로세싱 동안에 발생할 수 있다.

인물 태깅 트랙(250)은 비디오 프레임 내의 사람(또는 사람의 얼굴)의 대략적인 위치를 나타내는 직사각형 정보뿐 아니라 비디오 프레임 내의 사람들의 이름을 나타내는 정보를 포함할 수 있다. 인물 태깅 트랙(250)은 복수의 하위트랙들을 포함할 수 있다. 각 하위트랙은, 예를 들어, 데이터 요소로서 개인의 이름 및 개인에 대한 직사각형 정보를 포함할 수 있다. 일부 실시예들에서, 개별의 이름은 데이터를 보호하도록 복수의 비디오 프레임들 중 하나 내에 배치될 수 있다.

직사각형 정보는, 예를 들어, "0.25, 0.25, 0.25, 0.25"와 같은 4개의 쉼표로 구분된 소수 값들에 의해 표현될 수 있다. 처음 두 개의 값들은 좌측 상단 좌표를 명시할 수 있고; 마지막 두 개는 직사각형의 높이 및 폭을 명시한다. 인물 직사각형을 정의하기 위한 이미지의 치수는 1로 정규화되며, 이것은 "0.25, 0.25, 0.25, 0.25"의 예에서 직사각형이 상단으로부터 1/4의 거리와 이미지의 좌측으로부터 1/4의 거리로부터 시작함을 의미한다. 직사각형의 높이 및 폭 모두가 이들 각각의 이미지 치수의 크기의 1/4이다.

인물 태깅은 비디오가 기록되는 동안에 실시간으로 또는 후 프로세싱 동안에 발생할 수 있다. 인물 태깅은 또한 이미지 내의 인물을 식별하는 소셜 네트워크 애플리케이션과 함께 발생할 수 있으며 이러한 정보를 비디오 프레임 내의 인물을 태그하고 인물의 이름 및 직사각형 정보를 인물 태깅 트랙(250)에 추가하도록 사용할 수 있다. 임의의 태깅 알고리즘 또는 루틴이 인물 태깅을 위해 사용될 수 있다.

모션 태깅, 인물 태깅, 및/또는 음성 태깅을 포함하는 데이터는 프로세싱된 메타데이터로서 고려될 수 있다. 다른 태깅 또는 데이터가 또한 프로세싱된 메타데이터일 수 있다. 프로세싱된 메타데이터는, 예를 들어, 센서, 비디오 및/또는 오디오로부터의 입력으로부터 생성될 수 있다.

일부 실시예들에서, 불연속 트랙들(예를 들어, 모션 트랙(220), 지리위치 트랙(225), 다른 센서 트랙(230), 오픈 트랙(235), 음성 태깅 트랙(240), 모션 태깅 트랙(245), 및/또는 인물 태깅 트랙)이 비디오 프레임보다 더 넓게 걸칠 수 있다. 예를 들어, 단일 GPS 데이터 엔트리가 데이터 구조(200) 내의 데이터의 양을 감소시키도록 5개의 비디오 프레임들에 걸치는 지리위치 트랙(225) 내에 만들어질 수 있다. 불연속 트랙 내의 데이터에 의해 걸쳐진 비디오 프레임들의 수는 표준에 기초하여 달라질 수 있거나 또는 각 비디오 세그먼트에 대해 설정되어 예로서 헤더 내의 메타데이터에 표시될 수 있다.

다양한 다른 트랙들이 데이터 구조(200) 내에서 사용 및/또는 보호될 수 있다. 예를 들어, 추가의 불연속 또는 연속 트랙이 사용자 정보, 하드웨어 데이터, 광 데이터, 시간 정보, 온도 데이터, 기압, 나침반 정보, 시계, 타이밍, 타임스탬프 등을 포함할 수 있다.

일부 실시예들에서, 추가 트랙이 비디오 프레임 품질 트랙을 포함할 수 있다. 예를 들어, 비디오 프레임 품질 트랙은 예를 들어 얼굴, 풍경, 차량, 실내, 실외 등과 같은 비디오 프레임 내의 객체들의 타입뿐 아니라, 예를 들어 비디오 프레임이 과도노출되었는지, 노출 부족인지, 인 포커스인지, 아웃 포커스인지, 적목현상이 있는지 등에 기초하여 비디오 프레임 또는 비디오 프레임들의 그룹의 품질을 나타낼 수 있다.

도시되지 않았지만, 오디오 트랙들(210, 211, 212, 213)은 또한 각 비디오 프레임의 타이밍에 기초한 불연속 트랙들일 수 있다. 예를 들어, 오디오 데이터는 또한 프레임 기반으로 프레임 상에 캡슐화될 수 있다.

도 3은 모든 데이터 트랙들이 본 명세서에 기술된 일부 실시예들에 따른 연속 트랙들이라는 점을 제외하면 데이터 구조(200)와 다소 유사한 데이터 구조(300)를 도시한다. 데이터 구조(300)는 다양한 구성요소들이 데이터 구조(300) 내에 포함되거나 랩핑되는 방법을 나타낸다. 데이터 구조(300)는 동일한 트랙들을 포함한다. 각 트랙은 데이터가 샘플링되는 시간 또는 데이터가 메타데이터로서 저장된 시간에 기초하여 타임스탬핑되는 데이터를 포함할 수 있다. 각 트랙은 상이한 또는 동일한 샘플링 속도를 가질 수 있다. 예를 들어, 모션 데이터가 일 샘플링 속도로 모션 트랙(220) 내에 저장될 수 있는 반면, 지리위치 데이터는 다른 샘플링 속도로 지리위치 트랙(225) 내에 저장될 수 있다. 다양한 샘플링 속도들이 샘플링되거나, 또는 선택된 속도에 기초하여 설정되는 데이터의 타입에 의존할 수 있다.

도 4는 본 명세서에 기술된 일부 실시예들에 따른 메타데이터를 포함하는 포켓화된 비디오 데이터 구조(400)의 다른 예를 도시한다. 데이터 구조(400)는 다양한 구성요소들이 데이터 구조(400) 내에 포함 또는 랩핑되는 방법을 나타낸다. 데이터 구조(400)는 비디오, 오디오 및 메타데이터 트랙들이 데이터 구조 내에 포함될 수 있는 방법을 나타낸다. 데이터 구조(400)는, 예를 들어, MPEG-4 부분 14 및/또는 퀵타임(Quicktime) 포맷과 같은 다양한 타입의 압축 포맷의 확장일 수 있고/있거나 부분들을 포함할 수 있다. 데이터 구조(400)는 또한 다양한 다른 MPEG-4 타입 및/또는 다른 포맷과 호환가능할 수 있다.

데이터 구조(400)는 4개의 비디오 트랙들(401, 402, 403, 404) 및 두 개의 오디오 트랙들(410, 411)을 포함한다. 데이터 구조(400)는 또한 임의의 타입의 메타데이터를 포함할 수 있는 메타데이터 트랙(420)을 포함한다. 메타데이터 트랙(420)은 메타데이터 트랙 내에 서로 다른 타입 또는 양의 메타데이터를 유지시키기 위해서 유연할 수 있다. 도시된 바와 같이, 메타데이터 트랙(420)은, 예를 들어, 지리위치 하위트랙(421), 모션 하위트랙(422), 음성 태그 하위트랙(423), 모션 태그 하위트랙(423), 및/또는 인물 태그 하위트랙(424)을 포함할 수 있다. 다양한 다른 하위트랙들이 포함될 수 있다.

메타데이터 트랙(420)은 메타데이터 트랙(420) 내에 포함된 하위트랙들의 타입 및/또는 메타데이터 트랙(420) 내에 포함된 데이터의 양을 명시하는 헤더를 포함할 수 있다. 이와 다르게 및/또는 이에 더하여, 헤더는 데이터 구조의 시작시에 또는 제 1 메타데이터 트랙의 부분으로서 발견될 수 있다.

도 5는 본 명세서에 기술된 일부 실시예들에 따른 비디오 프레임들과 모션 및/또는 지리위치 데이터를 연관시키기 위한 프로세스(500)의 예시적인 흐름도를 도시한다. 프로세스(500)는 비디오 카메라(110)로부터 비디오 데이터가 수신되는 블록(505)에서 시작한다. 블록(510)에서 모션 데이터가 모션 센서(135)로부터 샘플링될 수 있고/있거나 블록(515)에서 지리위치 데이터가 GPS 센서(130)로부터 샘플링될 수 있다. 블록들(510, 515)은 임의의 순서로 발생할 수 있다. 또한, 블록들(510, 515) 중 하나가 스킵될 수 있거나 또는 프로세스(500)에서 발생하지 않을 수 있다. 또한, 블록(510) 및/또는 블록(515) 중 하나가 블록(505)에 대해 비동기식으로 발생할 수 있다. 모션 데이터 및/또는 지리위치 데이터가 비디오 카메라로부터 비디오 프레임이 샘플링(수신)되는 것과 동일한 시간에 샘플링될 수 있다.

블록(520)에서, 모션 데이터 및/또는 GPS 데이터가 비디오 프레임과 연관하여 메모리(125) 내에 저장될 수 있다. 예를 들어, 모션 데이터 및/또는 GPS 데이터 및 비디오 프레임이 동일한 타임스탬프를 이용하여 타임스탬핑될 수 있다. 다른 예로서, 모션 데이터 및/또는 지리위치 데이터는 비디오 프레임이 메모리 내에 저장되는 것과 동일한 시간에 데이터 구조(200) 내에 저장될 수 있다. 다른 예로서, 모션 데이터 및/또는 지리위치 데이터가 비디오 프레임으로부터 따로따로 메모리(125) 내에 저장될 수 있다. 어느 정도 이후의 시점에서 모션 데이터 및/또는 지리위치 데이터가 데이터 구조(200) 내에 비디오 프레임(및/또는 다른 데이터)과 결합될 수 있다.

그 다음 프로세스(500)는 다른 비디오 프레임이 수신되는 블록(505)으로 복귀할 수 있다. 프로세스(500)는 비디오 기록을 중단하라는 중단 신호 또는 커맨드가 수신될 때까지 비디오 프레임, GPS 데이터, 및/또는 모션 데이터를 계속해서 수신할 수 있다. 예를 들어, 비디오 데이터가 초당 50 프레임으로 기록되는 비디오 포맷에서, 프로세스(500)는 초당 30회 반복할 수 있다.

도 6은 본 명세서에 기술된 일부 실시예들에 따른 음성 태깅 비디오 프레임들에 대한 프로세스(600)의 예시적인 순서도를 도시한다. 프로세스(600)는 비디오 클립의 오디오 트랙(예로서, 오디오 트랙들(210, 211, 212, 213) 중 하나 이상)으로부터의 오디오 클립 또는 비디오 클립과 연관된 오디오 클립이 수신되는 블록(605)에서 시작한다. 오디오 클립은 메모리(125)로부터 수신될 수 있다.

블록(610)에서 오디오 클립에 대해 스피치 인식이 수행될 수 있으며 오디오 클립 내의 기술된 단어들의 텍스트가 반환될 수 있다. 예를 들어 히든 마코프 모델(hidden Markov model) 스피치 인식, 동적 시간 워핑(dynamic time warping) 스피치 인식, 중성 네트워크 스피치 인식 등과 같은 임의의 타입의 스피치 인식 알고리즘이 사용될 수 있다. 일부 실시예들에서, 스피치 인식이 원격 서버에서 알고리즘에 의해 수행될 수 있다.

블록(615)에서, 제 1 단어가 테스트 단어로서 선택될 수 있다. "단어"라는 용어는 하나 이상의 단어 또는 구를 포함할 수 있다. 블록(620)에서 테스트 단어가 단어들의 사전선택된 샘플로부터의 단어(들)와 일치하는지 또는 동일한지 여부가 결정될 수 있다. 단어들의 사전선택된 샘플은 사용자 특정적이거나 상황 특정적인 동적 샘플일 수 있고/있거나 메모리(125) 내에 저장될 수 있다. 사전선택된 단어들의 샘플은, 예를 들어, "시작", "출발", "중단", "종료", "와우", "마크, 준비, 출발", "제자리, 준비, 출발"과 같은 동작의 일부 타입을 나타내도록 비디오 클립을 기록할 때 사용될 수 있는 단어들 또는 구들을 포함할 수 있다. 단어들의 사전선택된 샘플은, 예를 들어, 비디오 클립 내에 기록된 개인들의 이름, 비디오 클립이 기록된 위치명, 비디오 클립 내의 동작의 서술 등과 연관된 단어들 또는 구들을 포함할 수 있다.

만약 테스트 단어가 단어들의 사전선택된 샘플로부터의 단어(들)와 일치하지 않으면 프로세스(600)는 블록(625)으로 이동하고 다음 단어 또는 단어들이 테스트 단어로서 선택되며 프로세스(600)가 블록(620)으로 복귀한다.

만약 테스트 단어가 단어들의 사전선택된 샘플로부터의 단어(들)와 일치하면 프로세스(600)는 블록(630)으로 이동한다. 블록(630)에서 테스트 단어와 연관된 비디오 클립 내의 비디오 프레임 또는 프레임들이 식별될 수 있으며, 블록(635)에서, 테스트 단어가 이러한 비디오 프레임들과 연관하여 저장될 수 있고/있거나 하나 또는 두 개의 비디오 프레임들과 동일한 타임스탬프를 가지고 저장될 수 있다. 예를 들어, 만약 테스트 단어 또는 구의 지속기간이 비디오 클립의 20 비디오 프레임들에 걸쳐 기술되면, 테스트 단어가 20개의 비디오 프레임들과 연관된 음성 태깅 트랙(240) 내의 데이터 구조(200) 내에 저장된다.

도 7은 본 명세서에 기술된 일부 실시예들에 따른 인물 태깅 비디오 프레임들을 위한 프로세스(700)의 예시적인 순서도를 도시한다. 프로세스(700)는 비디오 클립이 예를 들어 메모리(125)로부터 수신되는 블록(705)에서 시작된다. 블록(710)에서 얼굴 검출이 비디오 클립의 각 비디오 프레임에 대해 수행될 수 있으며 비디오 클립 내의 각 얼굴에 대한 직사각형 정보가 반환될 수 있다. 직사각형 정보는 각 얼굴의 위치 및 비디오 클립 내의 얼굴의 크기에 대략 일치하는 직사각형을 결정할 수 있다. 임의의 타입의 얼굴 검출 알고리즘이 사용될 수 있다. 블록(715)에서 직사각형 정보가 각 비디오 프레임과 연관하여 메모리(125) 내에 저장될 수 있고/있거나 각 상응하는 비디오 프레임과 동일한 타임스탬프를 이용하여 타임스탬핑될 수 있다. 예를 들어, 직사각형 정보는 인물 태깅 트랙(250) 내에 저장될 수 있다.

블록(720)에서 얼굴 인식이 각 비디오 프레임의 블록(710)에서 식별된 각 얼굴에 대해 수행될 수 있다. 임의의 타입의 얼굴 인식 알고리즘이 사용될 수 있다. 얼굴 인식은 블록(710)에서 검출된 각 얼굴의 이름 또는 일부 다른 식별자를 반환할 수 있다. 얼굴 인식은, 예를 들어, 각 얼굴의 신원을 결정하도록 소셜 네트워킹 사이트(예를 들어, 페이스북)를 사용할 수 있다. 다른 예로서, 사용자 입력이 얼굴을 식별하도록 사용될 수 있다. 또 다른 예로서, 이전 얼굴 내의 얼굴의 신원확인 또한 이후의 프레임 내의 개인을 식별하도록 사용될 수 있다. 사용된 기술과 무관하게, 블록(725)에서 식별자가 비디오 프레임과 연관하여 메모리(125) 내에 저장될 수 있고/있거나 비디오 프레임과 동일한 타임스탬프를 이용하여 타임스탬핑될 수 있다. 예를 들어, 식별자(또는 사람의 이름)이 인물 태깅 트랙(250) 내에 저장될 수 있다.

일부 실시예들에서, 블록들(710, 720)이 단일의 얼굴 결정-인식 알고리즘에 의해 수행될 수 있고 직사각형 데이터 및 얼굴 식별자가 단일 단계에서 저장될 수 있다.

도 8은 본 명세서에 기술된 일부 실시예들에 따라 비디오 및 메타데이터를 샘플링 및 결합하기 위한 프로세스(800) 및 프로세스(801)의 예시적인 흐름도이다. 프로세스(800)는 블록(805)에서 시작한다. 블록(805)에서 메타데이터가 샘플링된다. 메타데이터는, 예를 들어, 모션 센서, GPS 센서, 원격측정 센서, 가속도계, 자이로스코프, 자력계 등으로부터 샘플링된 데이터와 같은 임의의 타입의 데이터를 포함할 수 있다. 메타데이터는 또한 인물 태그, 오디오 태그, 모션 태드 등과 같은 다양한 비디오 또는 오디오 태그를 나타내는 데이터를 포함할 수 있다. 메타데이터는 또한 본 명세서에 기술된 임의의 타입의 데이터를 포함할 수 있다.

블록(810)에서, 메타데이터가 큐(815) 내에 저장될 수 있다. 큐(815)는 메모리(125)를 포함할 수 있거나 또는 메모리(125)의 부분일 수 있다. 큐(815)는 FIFO 또는 LIFO 큐일 수 있다. 메타데이터는 초당 기록되는 비디오 데이터의 프레임들의 수와 동일할 수 있거나 동일하지 않을 수 있는 설정 샘플 속도로 샘플링될 수 있다. 메타데이터는 또한 타임스탬핑될 수 있다. 그 다음 프로세스(800)가 블록(805)에 반환될 수 있다.

프로세스(801)는 블록(820)에서 시작한다. 블록(820)에서 비디오 및/또는 오디오가, 예를 들어, 카메라(110) 및/또는 마이크로폰(115)으로부터 샘플링된다. 비디오 데이터는 비디오 프레임으로서 샘플링될 수 있다. 이러한 비디오 및/또는 오디오 데이터는 블록(805) 및/또는 블록(810)에서 메타데이터의 샘플링으로부터 동기식 또는 비동기식으로 샘플링될 수 있다. 블록(825)에서 비디오 데이터는 큐(815) 내의 메타데이터와 결합될 수 있다. 만약 메타데이터가 큐(815) 내에 있다면, 그러한 메타데이터는 블록(830)에서 데이터 구조(예로서, 데이터 구조(200) 또는 데이터 구조(300))의 부분으로서 비디오 프레임과 저장된다. 만약 메타데이터가 큐(815) 내에 있지 않다면, 블록(830)에서 무엇도 비디오와 함께 저장되지 않는다. 그 다음 프로세스(801)는 블록(820)으로 반환될 수 있다.

일부 실시예들에서, 큐(815)는 오직 가장 최근 메타데이터만을 저장할 수 있다. 이러한 실시예들에서, 큐는 단일 데이터 저장 위치일 수 있다. 메타데이터가 블록(825)에서 큐(815)로부터 당겨질 때, 메타데이터는 큐(815)를 형성하도록 삭제될 수 있다. 이러한 방식으로, 메타데이터는 이러한 메타데이터가 큐(815) 내에서 이용가능할 때에만 비디오 및/또는 오디오 데이터와 결합될 수 있다.

도 9에 예시된 컴퓨터 시스템(900)(또는 프로세싱 유닛)이 본 발명의 실시예들 중 임의의 것을 수행하기 위해 사용될 수 있다. 예를 들어, 컴퓨터 시스템(900)은 프로세스들(500, 600, 700, 및/또는 800) 중 모두 또는 일부를 실행하기 위해 단독으로 또는 다른 구성요소들과 함께 사용될 수 있다. 다른 예로서, 컴퓨터 시스템(900)은 임의의 계산을 수행하고, 임의의 방정식을 풀고, 임의의 식별을 수행하며, 그리고/또는 본 명세서에 설명한 임의의 결정을 하기 위해 사용될 수 있다. 컴퓨터 시스템(900)은 버스(905)를 통해 전기적으로 결합될 수 있는(또는 그렇지 않으면, 적절하게 통신할 수 있는) 하드웨어 요소들을 포함한다. 하드웨어 요소들은 (디지털 신호 프로세싱 칩들, 그래픽 가속 칩들 등과 같은) 하나 이상의 범용 프로세서들 및/또는 하나 이상의 특수용 프로세서들을 제한없이 포함하는 하나 이상의 프로세서들(910); 마우스, 키보드 등을 제한없이 포함할 수 있는 하나 이상의 입력 디바이스들(915); 및 디스플레이 디바이스, 프린터 등을 제한없이 포함할 수 있는 하나 이상의 출력 디바이스들(920)을 포함할 수 있다.

컴퓨터 시스템(900)은 로컬 및/또는 네트워크 액세스가능한 스토리지를 제한없이 포함할 수 있고 그리고/또는 디스크 드라이브, 드라이브 어레이, 광학 스토리지 디바이스, 프로그램가능하고 플래시-업데이트가능한 랜덤 액세스 메모리("RAM") 및/또는 판독 전용 메모리("ROM")와 같은 고체 상태 스토리지 디바이스 등을 제한없이 포함할 수 있는 하나 이상의 스토리지 디바이스(925)를 더 포함할 수 있다(그리고/또는 하나 이상의 스토리지 디바이스(925)와 통신할 수 있다). 컴퓨터 시스템(900)은 모뎀, 네트워크 카드(무선 또는 유선), 적외선 통신 디바이스, 무선 통신 디바이스 및/또는 (블루투스 디바이스, 902.6 디바이스, Wi-Fi 디바이스, WiMAX 디바이스, 셀룰러 통신 설비 등과 같은) 칩세트 등을 제한없이 포함할 수 있는 통신 서브시스템(930)을 또한 포함할 수 있다. 통신 서브시스템(930)은 데이터가 (일례를 들어, 후술하는 네트워크와 같은) 네트워크 및/또는 본 명세서에 설명한 임의의 다른 디바이스들과 교환되게 할 수 있다 다수의 실시예들에서, 컴퓨터 시스템(900)은 상술한 바와 같이, RAM 또는 ROM 디바이스를 포함할 수 있는 작업 메모리(935)를 더 포함한다. 도 1에 도시된 메모리(125)는 작업 메모리(935) 및/또는 스토리지 디바이스(들)(925)의 전부 또는 일부를 포함할 수 있다.

컴퓨터 시스템(900)은 본 명세서에 설명한 바와 같이, 본 발명의 컴퓨터 프로그램들을 포함할 수 있고, 그리고/또는 본 발명의 방법들을 구현하고 본 발명의 시스템들을 구성하도록 구현될 수 있는 하나 이상의 애플리케이션 프로그램들(945)과 같은, 운영 시스템(940) 및/또는 다른 코드를 포함하는, 작업 메모리(935) 내에 현재 위치되어 있는 것으로 도시되어 있는 소프트웨어 요소들을 또한 포함할 수 있다. 예를 들어, 위에서 논의한 방법(들)에 관하여 설명한 하나 이상의 절차들은 컴퓨터(및/또는 컴퓨터 내의 프로세서)에 의해 실행가능한 코드 및/또는 명령어들로서 구현될 수 있다. 이들 명령어들 및/또는 코드들의 세트가 상술한 스토리지 디바이스(들)(925)와 같은 컴퓨터 판독가능 저장 매체상에 저장될 수 있다.

일부 경우들에서, 저장 매체는 컴퓨터 시스템(900) 내에 통합될 수 있거나 컴퓨터 시스템(900)과 통신할 수 있다. 다른 실시예들에서, 저장 매체는 컴퓨터 시스템(900)으로부터 분리될 수 있고(예를 들어, 컴팩트 디스크와 같은 착탈식 매체 등) 그리고/또는 설치 패키지에 제공될 수 있어서, 저장 매체는 명령어들/코드가 저장되어 있는 범용 컴퓨터를 프로그래밍하기 위해 사용될 수 있다. 이들 명령어들은 컴퓨터 시스템(900)에 의해 실행가능한 코드의 형태를 취할 수 있고 그리고/또는 (예를 들어, 각종의 일반적으로 이용가능한 컴파일러들, 설치 프로그램들, 압축/압축해제 유틸리티들 등을 사용하여) 컴퓨터 시스템(900)상에 컴필레이션(compilation) 및/또는 설치시에, 실행가능한 코드의 형태를 취하는 소스 및/또는 설치가능한 코드의 형태를 취할 수 있다.

다수의 특정한 상세사항들이 청구물의 완전한 이해를 제공하기 위해 여기에 설명된다. 그러나, 본 기술분야의 통상의 기술자는 청구물이 이들 특정한 상세사항들 없이 실시될 수 있다는 것을 이해할 것이다. 다른 경우들에서, 통상의 기술자에 의해 공지되어 있는 방법들, 장치들, 또는 시스템들은 청구물을 모호하게 하지 않기 위해 상세히 설명하지 않는다.

일부 부분들은 컴퓨터 메모리와 같은 컴퓨팅 시스템 메모리내에 저장된 데이터 비트들 또는 이진 디지털 신호들에 대한 동작들의 알고리즘들 또는 심볼 표현들과 관련하여 제공된다. 이들 알고리즘적 설명들 또는 표현들은 본 기술분야의 다른 통상의 기술자에게 작업의 본질을 전달하기 위해 데이터 프로세싱 분야의 통상의 기술자에 의해 사용된 기법들의 예들이다. 알고리즘은 원하는 결과를 초래하는 동작들의 자기 모순없는 시퀀스 또는 유사한 프로세싱이다. 이러한 맥락에서, 동작들 또는 프로세싱은 물리량들의 물리적 조작을 수반한다. 통상적으로, 반드시는 아니더라도, 이러한 양들은 저장되고, 전달되고, 조합되고, 비교되거나 그렇지 않으면 조작될 수 있는 전기 또는 자기 신호들의 형태를 취할 수 있다. 이러한 신호들을 비트들, 데이터, 값들, 요소들, 심볼들, 문자들, 용어들, 수들, 부호들 등으로서 지칭하는 것이 주로 공통 사용으로 인해 때때로 편리하다는 것이 입증되었다. 그러나, 이들 및 유사한 용어들 중 모두가 적절한 물리적 양들과 연관되고 단지 편리한 라벨들이라는 것을 이해해야 한다. 구체적으로 다르게 언급하지 않으면, 본 명세서 전반적으로, "프로세싱하는", "컴퓨팅하는", "계산하는", "결정하는", "식별하는" 등과 같은 용어들을 활용하는 논의들은 메모리들, 레지스터들, 또는 다른 정보 저장 디바이스들, 송신 디바이스들, 또는 컴퓨팅 플랫폼의 디스플레이 디바이스들내에서 물리적 전자 또는 자기 양들로서 표현된 데이터를 조작하거나 변환하는 하나 이상의 컴퓨터들 또는 유사한 전자 컴퓨팅 디바이스 또는 디바이스들과 같은 컴퓨팅 디바이스의 액션들 또는 프로세스들을 지칭한다.

본 명세서에 논의한 시스템 또는 시스템들은 임의의 특정한 하드웨어 아키텍처 또는 구성에 제한되지 않는다. 컴퓨팅 디바이스는 하나 이상의 입력들에 대해 컨디셔닝된 결과를 제공하는 구성요소들의 임의의 적합한 배열을 포함할 수 있다. 적합한 컴퓨팅 디바이스들은 본 청구물의 하나 이상의 실시예들을 구현하는 범용 컴퓨팅 장치로부터 특수 컴퓨팅 장치까지 컴퓨팅 시스템을 프로그래밍하거나 구성하는 저장된 소프트웨어에 액세스하는 다목적 마이크로프로세서-기반 컴퓨터 시스템들을 포함한다. 임의의 적합한 프로그래밍, 스크립팅, 또는 다른 타입의 언어 또는 언어들의 조합이 컴퓨팅 디바이스를 프로그래밍하거나 구성하는데 있어서 사용될 소프트웨어로 본 명세서에 포함된 교시들을 구현하기 위해 사용될 수 있다.

본 명세서에 개시된 방법들의 실시예들은 이러한 컴퓨팅 디바이스들의 동작에서 수행될 수 있다. 상기 예들에 제공된 블록들의 순서는 변경될 수 있고, 예를 들어, 블록들은 재순서화될 수 있고, 조합될 수 있고, 그리고/또는 서브-블록들로 분할될 수 있다. 특정한 블록들 또는 프로세스들이 병렬로 수행될 수 있다.

본 명세서에서 "하도록 적응된" 또는 "하도록 구성된"의 사용은 추가의 작업들 또는 단계들 수행하도록 적응되거나 구성된 디바이스들을 배제하지 않는 개방형(open) 및 포괄적(inclusive) 언어로서 의미된다. 추가로, "에 기초하는"의 사용은 하나 이상의 인용된 조건들 또는 값들에 "기초하는" 프로세스, 단계, 계산, 또는 다른 액션이 실제로, 인용된 바를 넘는 추가의 조건들 또는 값들에 기초할 수 있다는 점에서 개방형 및 포괄적인 것으로 의미된다. 본 명세서에 포함된 제목들, 리스트들, 및 넘버링은 단지 설명의 편의를 위한 것이고 제한하는 것으로 의미되지 않는다.

본 청구물이 그것의 특정한 실시예들에 관하여 상세히 설명되었지만, 본 기술분야의 통상의 기술자는 상술한 바의 이해를 얻을 때, 이러한 실시예들에 대한 변동물들, 변경물들, 및 등가물들을 쉽게 생성할 수 있다는 것이 이해될 것이다. 따라서, 본 개시내용이 제한보다는 예시의 목적을 위해 제공되었으며, 본 기술분야의 통상의 기술자에게 쉽게 명백한 바와 같은 본 청구물에 대한 이러한 변형물들, 변경물들 및/또는 추가물들의 포함을 배제하지 않는다는 것을 이해해야 한다.

Claims

카메라로서,
이미지 센서;
모션 센서;
메모리; 및
상기 이미지 센서, 마이크로폰, 상기 모션 센서 및 상기 메모리와 전기적으로 결합된 프로세싱 유닛을 포함하되, 상기 프로세싱 유닛은,
상기 이미지 센서로부터 비디오 클립을 포함하는 복수의 비디오 프레임들을 수신하고;
상기 모션 센서로부터 모션 데이터를 수신하며;
상기 비디오 클립과 연관된 상기 모션 데이터를 저장
하도록 구성되는, 카메라.
제 1 항에 있어서,
상기 모션 데이터는 상기 복수의 비디오 프레임들 각각에 연관되어 저장되는, 카메라.
제 1 항에 있어서,
상기 모션 데이터는 제 1 모션 데이터 및 제 2 모션 데이터를 포함하고;
상기 복수의 비디오 프레임들은 제 1 비디오 프레임 및 제 2 비디오 프레임을 포함하고;
상기 제 1 모션 데이터는 상기 제 1 비디오 프레임과 연관되어 저장되며;
상기 제 2 모션 데이터는 상기 제 2 비디오 프레임과 연관되어 저장되는, 카메라.
제 3 항에 있어서,
상기 제 1 모션 데이터 및 상기 제 1 비디오 프레임은 제 1 타임스탬프를 이용하여 타임스탬핑되며, 상기 제 2 모션 데이터 및 상기 제 2 비디오 프레임은 제 2 타임스탬프를 이용하여 타임스탬핑되는, 카메라.
제 1 항에 있어서,
상기 모션 센서는 가속도계, 자이로스코프 및 자력계 중 하나 이상으로 구성된 센서를 포함하는, 카메라.
제 1 항에 있어서,
상기 프로세싱 유닛은,
상기 모션 데이터로부터 프로세싱된 메타데이터를 결정하며;
상기 비디오 클립과 연관하여 상기 프로세싱된 메타데이터를 저장
하도록 추가로 구성되는, 카메라.
제 1 항에 있어서,
상기 프로세싱 유닛은,
상기 복수의 비디오 프레임들로부터 프로세싱된 메타데이터를 결정하며;
상기 비디오 클립과 연관하여 상기 프로세싱된 메타데이터를 저장
하도록 추가로 구성되는, 카메라.
제 1 항에 있어서,
상기 모션 데이터는 상기 비디오 프레임들에 대해 비동기식으로 수신되는, 카메라.
비디오 데이터를 수집하는 방법으로서,
이미지 센서로부터 비디오 클립을 포함하는 복수의 비디오 프레임들을 수신하는 단계;
모션 센서로부터 모션 데이터를 수신하는 단계; 및
상기 비디오 클립을 갖는 메타데이터로서 상기 모션 데이터를 저장하는 단계를 포함하는, 방법.
제 9 항에 있어서,
상기 모션 센서는 GPS 센서, 원격 측정 센서, 가속도계, 자이로스코프 및 자력계로 구성된 그룹으로부터 선택된 하나 이상의 모션 센서를 포함하는, 방법.
제 9 항에 있어서,
모션 태그가 상기 복수의 비디오 프레임들 각각과 연관되어 저장되는, 방법.
제 9 항에 있어서,
상기 모션 데이터로부터 프로세싱된 메타데이터를 결정하는 단계; 및
상기 비디오 클립과 연관하여 상기 프로세싱된 메타데이터를 저장하는 단계를 더 포함하는, 방법.
제 9 항에 있어서,
상기 비디오 프레임들로부터 프로세싱된 메타데이터를 결정하는 단계; 및
상기 비디오 클립과 연관하여 상기 프로세싱된 메타데이터를 저장하는 단계를 더 포함하는, 방법.
제 13 항에 있어서,
상기 프로세싱된 메타데이터는 음성 태깅 데이터, 인물 태깅, 사람의 얼굴의 대략적인 위치를 나타내는 직사각형 정보로 구성된 리스트로부터 선택된 메타데이터를 포함하는, 방법.
제 9 항에 있어서,
상기 모션 데이터는 가속 데이터, 각 회전 데이터, 방향 데이터 및 회전 매트릭스로 구성된 리스트로부터 선택된 하나 이상의 데이터를 포함하는, 방법.
제 9 항에 있어서,
GPS 센서로부터 GPS 데이터를 수신하는 단계; 및
상기 비디오 클립을 갖는 메타데이터로서 상기 GPS 데이터를 저장하는 단계를 더 포함하는, 방법.
제 16 항에 있어서,
상기 GPS 데이터는 위도, 경도, 고도, 위성을 이용한 고정 시간, GPS데이터를 결정하도록 사용된 위성들의 수를 나타낸 숫자, 베어링(bearing) 및 속도로 구성된 리스트로부터 선택된 하나 이상의 데이터를 포함하는, 방법.
비디오 데이터를 수집하는 방법으로서,
이미지 센서로부터 비디오 데이터를 수신하는 단계;
모션 센서로부터 모션 데이터를 수신하는 단계;
상기 비디오 데이터 및 상기 모션 데이터 중 하나 또는 둘 모두로부터 프로세싱된 메타데이터를 결정하는 단계; 및
상기 비디오 데이터와 함께 상기 모션 데이터 및 상기 프로세싱된 메타데이터를 저장하는 단계를 포함하는, 방법.
제 18 항에 있어서,
상기 모션 데이터는 상기 비디오 데이터에 대해 비동기식으로 수신되는, 방법.
제 18 항에 있어서,
상기 모션 센서는 GPS 센서, 원격 측정 센서, 가속도계, 자이로스코프 및 자력계로 구성된 그룹으로부터 선택된 하나 이상의 모션 센서를 포함하는, 방법.
제 18 항에 있어서,
상기 프로세싱된 메타데이터는 음성 태깅 데이터, 인물 태깅, 사람의 얼굴의 대략적인 위치를 나타내는 직사각형 정보로 구성된 리스트로부터 선택된 메타데이터를 포함하는, 방법.