KR20210022279A - Motion sensor-based approach method and apparatus for automatic capture and editing of photos and videos - Google Patents

Motion sensor-based approach method and apparatus for automatic capture and editing of photos and videos Download PDF

Info

Publication number
KR20210022279A
KR20210022279A KR1020190101525A KR20190101525A KR20210022279A KR 20210022279 A KR20210022279 A KR 20210022279A KR 1020190101525 A KR1020190101525 A KR 1020190101525A KR 20190101525 A KR20190101525 A KR 20190101525A KR 20210022279 A KR20210022279 A KR 20210022279A
Authority
KR
South Korea
Prior art keywords
motion sensor
terminal
video
time
based approach
Prior art date
Application number
KR1020190101525A
Other languages
Korean (ko)
Inventor
장샤를바장
박티야로브 산자르
카자우브 아딜
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020190101525A priority Critical patent/KR20210022279A/en
Publication of KR20210022279A publication Critical patent/KR20210022279A/en

Links

Images

Classifications

    • H04N5/23218
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/57Mechanical or electrical details of cameras or camera modules specially adapted for being embedded in other devices
    • H04N5/2257
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • User Interface Of Digital Computer (AREA)
  • Studio Devices (AREA)

Abstract

Presented are motion sensor-based approach and device for automatically taking and editing a photo and video using a smartphone. The motion sensor-based approach according to one embodiment of the present invention may comprise: a synchronization step in which a first terminal and a second terminal are connected through wireless communication; a data acquisition step of recording a video with a camera of the first terminal; and a data processing step of receiving recorded motion sensor data from the second terminal possessed by a person or object to be photographed, and analyzing and detecting the motion sensor data.

Description

사진 및 비디오 자동 촬영 및 편집을 위한 모션 센서 기반 접근 방법 및 장치{MOTION SENSOR-BASED APPROACH METHOD AND APPARATUS FOR AUTOMATIC CAPTURE AND EDITING OF PHOTOS AND VIDEOS}Motion sensor-based approach and device for automatic photographing and editing of photos and videos {MOTION SENSOR-BASED APPROACH METHOD AND APPARATUS FOR AUTOMATIC CAPTURE AND EDITING OF PHOTOS AND VIDEOS}

아래의 실시예들은 스마트폰을 이용한 사진 및 비디오 자동 촬영 및 편집을 위한 모션 센서 기반 접근 방법 및 장치에 관한 것이다. The following embodiments relate to a motion sensor-based approach and apparatus for automatically capturing and editing photos and videos using a smartphone.

19세기에 사진이 발명된 이래로 약 40년 전까지는 사진과 비디오 촬영이 간단하지 않았다. 전문가가 사용하는 고가의 장비가 필요했고, 중요한 행사를 위한 것이었으며, 최종적인 사진을 보기 위해서는 물리적 받침대 위에서 빛에 민감한 필름을 현상해야 했다. 또한 비디오 편집은 면도날을 사용해서 필름을 물리적으로 자르고 필름 조각을 붙이는 것을 수반했다. Since photography was invented in the 19th century, photography and video shooting was not straightforward until about 40 years ago. Expensive equipment used by professionals was required, it was for an important event, and light-sensitive film had to be developed on a physical pedestal to view the final picture. Also, video editing involved using a razor blade to physically cut the film and attach a piece of film.

최근 스마트폰의 등장으로, 사진 및 비디오 촬영은 매우 쉬워졌고 사실상 비용이 들지 않으며 이제는 일상 생활의 일부가 되었다. 그러나, 스마트폰의 사용이 쉬움에도 불구하고, 짧은 동작의 사진을 정확한 시점에 촬영하는 것은 여전히 어려우며, 비디오 편집은 숙련된 사용자가 하는 수동적이고 시간이 많이 소요되는 작업이다. With the recent advent of smartphones, taking pictures and videos has become very easy, virtually inexpensive, and is now a part of everyday life. However, despite the ease of use of a smartphone, it is still difficult to take a photo of a short motion at an accurate point in time, and video editing is a manual and time-consuming task performed by an experienced user.

대표적인 시간 소모적인 비디오 편집 작업은 비디오에서 동작의 부분적인 속도를 수정하는 것(speed ramping이라고도 함)이다. 예를 들어, 테니스 선수가 공을 치는 비디오 부분은 느리게 하는 반면, 비디오의 나머지 부분은 정상 속도로 하는 것이다. 구체적으로, 사용자는 (비디오 전체를 보면서) 공을 치는 순간을 수동으로 선택하고 속도 변화를 수정하기 위해 정교한 비디오 편집 소프트웨어를 사용해야 한다. 또한 이 과정은 비디오의 공을 치는 순간마다, 입력 비디오마다 반복되어야 한다. 유사하게, 대표적으로 획득하기 어려운 사진 촬영은 점프 사진이다. 점프 사진은 매우 인기가 있지만, 점프는 매우 짧은 동작이기 때문에 정확한 시점에 사진을 찍는 것이 어려워서 실제로는 여러 번의 시도가 필요하다. 이는 상대적으로 긴 작동 지연(trigger delays)으로 인한 것으로, 특히 스마트폰에 해당되는 것이다.A typical time-consuming video editing task is modifying the partial speed of motion in the video (also known as speed ramping). For example, the part of the video where a tennis player hits the ball is slow, while the rest of the video is at normal speed. Specifically, the user must manually select the moment of hitting the ball (viewing the entire video) and use sophisticated video editing software to correct for changes in speed. Also, this process must be repeated every time the video ball is hit, and for each input video. Similarly, a typical photographing that is difficult to obtain is a jump photograph. Jumping photos are very popular, but jumping is a very short motion, so it's difficult to take a picture at the exact point in time, so it actually takes several attempts. This is due to relatively long trigger delays, especially for smartphones.

이와 같이, 스마트폰의 등장으로 사진과 비디오 촬영이 매우 쉬워졌으며 이제는 일상 생활의 일부가 되었다. 그러나 짧은 동작(예: 점프 사진)을 정확한 시간에 촬영하는 것은 여전히 어려우며, 비디오 편집(예: 일부 슬로우 모션(local slow motion))은 숙련된 사용자가 맡는 수동적이며 시간 소모적인 작업이다. As such, with the advent of smartphones, taking pictures and videos has become very easy, and it is now a part of everyday life. However, it is still difficult to shoot short motions (e.g., jump photos) at the correct time, and video editing (e.g. some local slow motion) is a manual and time-consuming task for experienced users.

Dan Morris, T. Scott Saponas, Andrew Guillory, and Ilya Kelner. 2014. RecoFit: using a wearable sensor to find, recognize, and count repetitive exercises. In ACM Human Factors in Computing Systems (CHI). 3225-3234. Dan Morris, T. Scott Saponas, Andrew Guillory, and Ilya Kelner. 2014. RecoFit: using a wearable sensor to find, recognize, and count repetitive exercises. In ACM Human Factors in Computing Systems (CHI). 3225-3234.

실시예들은 스마트폰을 이용한 사진 및 비디오 자동 촬영 및 편집을 위한 모션 센서 기반 접근 방법 및 장치에 관하여 기술하며, 보다 구체적으로 촬영 및 편집 작업을 용이하게 하기 위해 스마트폰의 편재성(ubiquity)과 스마트폰의 첨단 기술 특징(특히 내장 모션 센서, 고프레임율(high frame rate) 카메라 및 무선 연결)를 활용하는 기술을 제공한다. The embodiments describe a motion sensor-based approach and apparatus for automatic photographing and editing of photos and videos using a smartphone, and more specifically, the ubiquity of a smartphone and a smartphone in order to facilitate the photographing and editing operation. It offers a technology that takes advantage of its advanced technology features (especially built-in motion sensors, high frame rate cameras and wireless connectivity).

실시예들은 촬영된 비디오의 모션 센서 데이터를 사용하여, 사용자가 의도한 비디오 편집 효과를 입력 비디오에 자동적으로 "스냅(snap)"할 수 있는 스마트폰을 이용한 사진 및 비디오 자동 촬영 및 편집을 위한 모션 센서 기반 접근 방법 및 장치를 제공하는데 있다.Embodiments are motion for automatic photographing and editing of photos and videos using a smartphone that can automatically "snap" the video editing effect intended by the user to the input video using motion sensor data of the captured video. It is to provide a sensor-based approach and device.

일 실시예에 따른 모션 센서 기반 접근 방법은, 제1 단말 및 제2 단말이 무선 통신을 통해 연결되는 동기화 단계; 상기 제1 단말의 카메라로 비디오를 기록하는 데이터 획득 단계; 및 촬영 대상인 사람 또는 물체가 가지고 있는 상기 제2 단말로부터 기록된 모션 센서 데이터를 전달 받아, 상기 모션 센서 데이터를 분석하여 감지하는 데이터 처리 단계를 포함하여 이루어질 수 있다. A motion sensor-based approach method according to an embodiment includes: a synchronization step in which a first terminal and a second terminal are connected through wireless communication; A data acquisition step of recording a video with a camera of the first terminal; And a data processing step of receiving recorded motion sensor data from the second terminal possessed by a person or object to be photographed, and analyzing and detecting the motion sensor data.

상기 동기화 단계는, 상기 제1 단말 및 상기 제2 단말을 동기화하여 상기 모션 센서 데이터의 타임라인을 상기 비디오의 타임라인과 시간적으로 정렬할 수 있다. In the synchronization step, the timeline of the motion sensor data may be temporally aligned with the timeline of the video by synchronizing the first terminal and the second terminal.

상기 데이터 처리 단계는, 상기 제2 단말로부터 임계 값 이상의 가속이 발생하는 순간 또는 상기 제2 단말의 방향이 목표 방향과 일치하는 순간의 상기 모션 센서 데이터에 대한 동작 시각을 전달 받아, 상기 동작 시각에 대응하는 비디오 프레임 또는 세그먼트를 자동으로 선택할 수 있다. The data processing step includes receiving an operation time for the motion sensor data at a moment when acceleration of more than a threshold value occurs from the second terminal or a moment when the direction of the second terminal coincides with a target direction, and at the operation time. The corresponding video frame or segment can be automatically selected.

상기 데이터 처리 단계는, 애드혹(adhoc) 처리 기술을 통해 상기 임계 값을 설정하는 단계를 더 포함할 수 있다.The data processing step may further include setting the threshold value through an adhoc processing technique.

상기 데이터 처리 단계는, 상기 동작 시각에 대응하는 비디오 프레임 또는 세그먼트에 슬로우 모션, 카메라 선택, 텍스트 중첩, 오디오 효과 및 음악 중 적어도 어느 하나 이상의 비디오 효과를 제공하는 단계를 더 포함할 수 있다. The data processing step may further include providing at least one video effect of slow motion, camera selection, text superimposition, audio effect, and music to a video frame or segment corresponding to the motion time.

상기 데이터 처리 단계는, 점프 위치의 시각을 자동적으로 계산하기 위해, 촬영 대상인 사람이 가지고 있는 상기 제2 단말에서 획득한 가장 높은 수직 가속도를 갖는 두 개의 시각을 감지하는 단계; 및 감지된 상기 두 개의 시각을 도약 및 착지로 인식하고, 상기 두 개의 시각 사이의 중간 시각을 점프 시각으로 인식하여 대응하는 비디오 프레임을 반환하는 단계를 포함할 수 있다. The data processing step may include detecting two times having the highest vertical acceleration acquired by the second terminal possessed by a person to be photographed in order to automatically calculate the time of the jump position; And recognizing the two sensed times as jumping and landing, recognizing an intermediate time between the two times as a jump time, and returning a corresponding video frame.

상기 데이터 처리 단계는, 가격(hit) 시각을 자동적으로 계산하기 위해, 촬영 대상인 사람 또는 물체가 가지고 있는 상기 제2 단말에서 획득한 가속도의 피크를 감지하는 단계; 및 감지된 상기 가속도의 피크를 가격(hit) 시각으로 인식하고, 대응하는 비디오 프레임을 반환하는 단계를 포함할 수 있다. The data processing step may include: detecting a peak of acceleration acquired by the second terminal possessed by a person or object to be photographed in order to automatically calculate a hit time; And recognizing the detected acceleration peak as a hit time, and returning a corresponding video frame.

상기 제2 단말은, 가속도계 또는 자이로스코프 데이터를 획득할 수 있다. The second terminal may acquire accelerometer or gyroscope data.

상기 제1 단말 및 상기 제2 단말은, 스마트폰(smart phone)이며, 상기 스마트폰을 이용하여 비디오의 촬영 후 자동 편집할 수 있다. The first terminal and the second terminal are smart phones, and can be automatically edited after taking a video by using the smart phone.

다른 일 실시예에 따른 모션 센서 기반 접근 장치는, 제1 단말 및 제2 단말이 무선 통신을 통해 연결되는 동기화부; 상기 제1 단말의 카메라로 비디오를 기록하는 데이터 획득부; 및 촬영 대상인 사람 또는 물체가 가지고 있는 상기 제2 단말로부터 기록된 모션 센서 데이터를 전달 받아, 상기 모션 센서 데이터를 분석하여 감지하는 데이터 처리부를 포함하여 이루어질 수 있다. According to another embodiment, a motion sensor-based access device includes: a synchronization unit to which a first terminal and a second terminal are connected through wireless communication; A data acquisition unit for recording video with a camera of the first terminal; And a data processing unit that receives recorded motion sensor data from the second terminal possessed by a person or object to be photographed, and analyzes and senses the motion sensor data.

상기 동기화부는, 상기 제1 단말 및 상기 제2 단말을 동기화하여 상기 모션 센서 데이터의 타임라인을 상기 비디오의 타임라인과 시간적으로 정렬 할 수 있다.The synchronization unit may synchronize the first terminal and the second terminal to temporally align the timeline of the motion sensor data with the timeline of the video.

상기 데이터 처리부는, 상기 제2 단말로부터 임계 값 이상의 가속이 발생하는 순간 또는 상기 제2 단말의 방향이 목표 방향과 일치하는 순간의 상기 모션 센서 데이터에 대한 동작 시각을 전달 받아, 상기 동작 시각에 대응하는 비디오 프레임 또는 세그먼트를 자동으로 선택할 수 있다.The data processing unit receives an operation time of the motion sensor data at a moment when acceleration of more than a threshold value occurs from the second terminal or a moment when the direction of the second terminal coincides with a target direction, and corresponds to the operation time. You can automatically select the video frame or segment you want.

상기 데이터 처리부는, 상기 동작 시각에 대응하는 비디오 프레임 또는 세그먼트에 슬로우 모션, 카메라 선택, 텍스트 중첩, 오디오 효과 및 음악 중 적어도 어느 하나 이상의 비디오 효과를 제공할 수 있다.The data processing unit may provide at least one video effect of slow motion, camera selection, text superposition, audio effect, and music to a video frame or segment corresponding to the operation time.

상기 데이터 처리부는, 점프 위치의 시각을 자동적으로 계산하기 위해, 촬영 대상인 사람이 가지고 있는 상기 제2 단말에서 획득한 가장 높은 수직 가속도를 갖는 두 개의 시각을 감지하며, 감지된 상기 두 개의 시각을 도약 및 착지로 인식하고, 상기 두 개의 시각 사이의 중간 시각을 점프 시각으로 인식하여 대응하는 비디오 프레임을 반환할 수 있다.The data processing unit detects two times having the highest vertical acceleration acquired from the second terminal possessed by the person to be photographed in order to automatically calculate the time of the jump position, and leaps the detected two times. And recognizing as a landing, recognizing an intermediate time between the two times as a jump time, and returning a corresponding video frame.

상기 데이터 처리부는, 가격(hit) 시각을 자동적으로 계산하기 위해, 촬영 대상인 사람 또는 물체가 가지고 있는 상기 제2 단말에서 획득한 가속도의 피크를 감지하며, 감지된 상기 가속도의 피크를 가격(hit) 시각으로 인식하고, 대응하는 비디오 프레임을 반환할 수 있다.The data processing unit detects a peak of acceleration obtained from the second terminal possessed by a person or object to be photographed in order to automatically calculate a hit time, and calculates the detected peak of the acceleration as a hit. It can recognize visually and return a corresponding video frame.

상기 제1 단말 및 상기 제2 단말은, 스마트폰(smart phone)이며, 상기 스마트폰을 이용하여 비디오의 촬영 후 자동 편집할 수 있다.The first terminal and the second terminal are smart phones, and can be automatically edited after taking a video by using the smart phone.

실시예들에 따르면 촬영된 비디오의 모션 센서 데이터를 사용하여, 사용자가 의도한 비디오 편집 효과를 입력 비디오에 자동적으로 "스냅(snap)"할 수 있는 스마트폰을 이용한 사진 및 비디오 자동 촬영 및 편집을 위한 모션 센서 기반 접근 방법 및 장치를 제공할 수 있다.According to embodiments, automatic photographing and editing of photos and videos using a smartphone that can automatically "snap" the video editing effect intended by the user to the input video using motion sensor data of the captured video. It is possible to provide a motion sensor-based approach and apparatus for

실시예들에 따르면 정확한 시점에 모션 효과(예: 일부 슬로우 모션)를 적용함으로써, 비주얼 트래킹(visual tracking)이나 비디오 분석(video analysis)을 실행하지 않고 자동으로 동작하는 스마트폰을 이용한 사진 및 비디오 자동 촬영 및 편집을 위한 모션 센서 기반 접근 방법 및 장치를 제공할 수 있다. According to embodiments, by applying a motion effect (eg, some slow motion) at a precise point in time, automatic photos and videos using a smartphone that automatically operate without performing visual tracking or video analysis. A motion sensor-based approach and apparatus for shooting and editing can be provided.

도 1은 일 실시예에 따른 모션 센서 기반 접근 방법의 예시들을 나타내는 도면이다.
도 2는 일 실시예에 따른 스마트폰 카메라를 이용하여 특정 모션을 촬영하는 상황을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 모션 센서 기반 접근 방법을 나타내는 흐름도이다.
도 4는 일 실시예에 따른 모션 센서 기반 접근 장치를 나타내는 블록도이다.
도 5는 일 실시예에 따른 가격 감지 및 점프 감지를 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 다수의 카메라 설정에서 자동적인 카메라 선택을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 단체 점프 사진의 상황에서 다수의 모션 센서들에 대한 모션 센서 기반 접근 방법을 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 불릿 타임(bullet time) 효과를 위한 데이터 캡처에 대한 스마트폰 배열을 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 불릿 타임(bullet time) 시점에 대한 예시를 나타내는 도면이다.
도 10은 일 실시예에 따른 자이로-기반 브라우징의 예시를 나타내는 도면이다.
1 is a diagram illustrating examples of a motion sensor-based approach according to an embodiment.
2 is a diagram for describing a situation in which a specific motion is photographed using a smartphone camera according to an exemplary embodiment.
3 is a flowchart illustrating a motion sensor-based approach method according to an embodiment.
4 is a block diagram illustrating a motion sensor-based access device according to an exemplary embodiment.
5 is a diagram for describing price detection and jump detection according to an exemplary embodiment.
6 is a diagram for explaining automatic camera selection in setting a plurality of cameras according to an exemplary embodiment.
7 is a diagram for describing a motion sensor-based approach to a plurality of motion sensors in the context of a group jump photograph according to an exemplary embodiment.
8 is a diagram illustrating an arrangement of a smartphone for data capture for a bullet time effect according to an exemplary embodiment.
9 is a diagram illustrating an example of a bullet time point according to an embodiment.
10 is a diagram illustrating an example of gyro-based browsing according to an embodiment.

이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.Hereinafter, embodiments will be described with reference to the accompanying drawings. However, the described embodiments may be modified in various different forms, and the scope of the present invention is not limited by the embodiments described below. In addition, various embodiments are provided to more completely describe the present invention to those of ordinary skill in the art. In the drawings, the shapes and sizes of elements may be exaggerated for clearer explanation.

촬영과 편집 문제를 해결하기 위해, 두 개의 관찰을 할 수 있다. 첫 번째, 스마트폰은 어디에나 있다(ubiquitous). 예를 들어, 2016년에 18세와 49세 사이의 미국 인구 중 90%가 스마트폰을 가지고 있다. 즉, 거의 모든 사람이 스마트폰을 가지고 있으며, 이는 그들을 한데 결합시키는 것을 시사한다. 두 번째, 스마트폰은 첨단 센서, 컴퓨팅 자원, 스토리지 및 연결 능력을 갖춘 응축 기술의 아름다운 작품이다. 이 두 가지 관찰에 기반하여, 촬영 및 편집 작업을 용이하게 하기 위해 스마트폰의 편재성(ubiquity) 및 첨단 기술 특징(특히, 내장 모션 센서, 고프레임율 카메라 및 무선 연결)을 이용하는 방법에 대해 검토할 수 있다. 일반적으로, 어디에나 있고, 연결되어 있고, 다수의 센서를 갖는 컴퓨터 장치가 미디어 콘텐츠 편집과 관련된 문제들을 간단한 방법으로 해결하는 데 새로운 기회를 제공할 수 있으며, 이것은 촬영 및 편집이라는 맥락으로 본 실시예에서 제시할 내용이다.To solve the shooting and editing problem, you can make two observations. First, smartphones are ubiquitous. For example, in 2016, 90% of the U.S. population between the ages of 18 and 49 have a smartphone. That said, almost everyone has a smartphone, which suggests bringing them together. Second, the smartphone is a beautiful piece of condensation technology with advanced sensors, computing resources, storage and connectivity capabilities. Based on these two observations, we will review how to use the smartphone's ubiquity and advanced technology features (especially built-in motion sensors, high frame rate cameras and wireless connectivity) to facilitate shooting and editing tasks. I can. In general, ubiquitous, connected, multi-sensor computer devices can provide a new opportunity to solve problems related to media content editing in a simple way, which is in this embodiment in the context of shooting and editing. This is the content to be presented.

자동적인 촬영 및 편집을 위한 첫 번째 단계로서, 본 실시예에서는 주로 점프, 발차기, 춤, 스윙 및 던지기 같은 동작을 아우르는, 짧고, 강력한 가속도를 갖는 동작에 중점을 둔다. 또한, 회전 모션 및 방향에 대한 응용과 물체 직립 감지(object upright detection) 및 시점 측정(viewpoint estimation)과 같은 응용도 보여준다. 실시예들은 촬영된 비디오의 모션 센서 데이터를 사용하여, 사용자가 의도한 비디오 편집 효과를 입력 비디오에 자동적으로 “스냅”할 수 있다. 즉, 정확한 시점에 모션 효과(예를 들어, 부분 슬로우 모션)를 적용할 수 있다. 비디오 편집 소프트웨어에서, 입력 비디오는 편집자 타임라인 내에 비디오 트랙을 사용하여 막대로 구조화된다. 사용자는 수동으로 효과의 시작/끝 지점을 선택하거나 효과 툴바(effect toolbar)를 드래그 및 늘이기(dragging-and-stretching)함으로써 비디오 효과를 설정할 수 있다. As the first step for automatic shooting and editing, the present embodiment mainly focuses on movements with short, strong acceleration, including movements such as jumping, kicking, dancing, swinging and throwing. It also shows applications for rotational motion and direction, and applications such as object upright detection and viewpoint estimation. Embodiments may automatically “snap” the video editing effect intended by the user to the input video using motion sensor data of the captured video. In other words, it is possible to apply a motion effect (eg, partial slow motion) at a precise point in time. In video editing software, the input video is structured into bars using video tracks within the editor timeline. The user can manually select the start/end point of the effect or set the video effect by dragging-and-stretching the effect toolbar.

근본적으로, 본 실시예에서는 편집자 타임라인 상에 모션 센서 데이터 트랙을 추가하는 것과, 비디오 효과의 시점이 모션 센서 데이터에 따라 자동적으로 설정되도록 모션 데이터를 기반으로 비디오 효과를 비디오에 스내핑하는 것으로 볼 수 있다. Fundamentally, in this embodiment, it is considered as adding a motion sensor data track on the editor timeline and snapping a video effect to the video based on the motion data so that the viewpoint of the video effect is automatically set according to the motion sensor data. I can.

도 1은 일 실시예에 따른 모션 센서 기반 접근 방법의 예시들을 나타내는 도면이다.1 is a diagram illustrating examples of a motion sensor-based approach according to an embodiment.

도 1을 참조하면, 일 실시예에 따른 모션 센서 기반 접근 방법은 스마트폰의 편재성(ubiquity) 뿐만 아니라 그 최신 특징들(특히, 내장 모션 센서, 고프레임율 카메라 및 무선 연결)을 사용하여 사진 및 비디오의 촬영 및 편집을 가능하게 한다. 이에 따라 모션 센서 기반 접근 방법을 스마트폰 앱으로 구현했으며 짧고 강한 가속도를 갖는 동작들에 중점을 두었다. Referring to FIG. 1, the motion sensor-based approach method according to an embodiment uses not only the ubiquity of a smartphone, but also its latest features (especially, a built-in motion sensor, a high frame rate camera, and a wireless connection) to take pictures and Enables the shooting and editing of videos. Accordingly, a motion sensor-based approach was implemented as a smartphone app and focused on motions with short and strong acceleration.

예를 들어, 도시된 바와 같이 자동적인 점프 사진(a), 다수의 스마트폰 모션 센서들에 의해 “작동된(triggered)” 조합된 사진들에서의 단체 점프 사진(b), 탁구를 치는 플레이어가 공을 가격(hit)할 때마다 자동 "BOOM" 로고가 표시되는 효과(c), 음악 비트에 맞게 정렬된 댄서의 모션을 갖는 춤 미화(dance beautification)(d), 다수의 스마트폰 카메라를 갖는 불릿 타임(bullet time) 효과(e, f), 그리고 농구 선수가 덩크를 할 때(g)의 비디오 부분에 음악을 자동적으로 더하는 것과 같은 다양한 상황 및 응용에 적용할 수 있다. For example, a photo of an automatic jump as shown (a), a photo of a group jump in the combined photos "triggered" by multiple smartphone motion sensors (b), a player playing table tennis The effect of automatically displaying the "BOOM" logo every time the ball is hit (c), dance beautification (d) with the dancer's motion aligned to the beat of the music, and multiple smartphone cameras. It can be applied to a variety of situations and applications, such as the bullet time effect (e, f), and automatically adding music to the video portion of a basketball player dunk (g).

도 2는 일 실시예에 따른 스마트폰 카메라를 이용하여 특정 모션을 촬영하는 상황을 설명하기 위한 도면이다. 2 is a diagram for describing a situation in which a specific motion is photographed using a smartphone camera according to an exemplary embodiment.

도 2의 (a)는 점프하는 사람이 스마트폰을 주머니에 넣고 있는 점프 사진 상황에 대한 대표적인 설정을 나타내고, (b)는 일 실시예에 따른 모션 센서 기반 접근 방법에 의해 자동적으로 획득된 사진은 나타낸다. 즉, 점프하는 사람이 소지하고 있는 스마트폰과 점프 사진을 찍는 사람의 스마트폰이 서로 통신하여 점프한 모션을 획득할 수 있다. 2(a) shows a representative setting for a jump photo situation in which a jumping person puts a smartphone in a pocket, and (b) is a photo automatically acquired by the motion sensor-based approach method according to an embodiment. Show. That is, the smartphone of the jumping person and the smartphone of the person taking a jump picture may communicate with each other to obtain a jumped motion.

그리고, (c)는 모션 스마트폰이 샌드백에 부착된 상황의 설정을 나타낸다. 이에 따라 일 실시예에 따른 모션 센서 기반 접근 방법에서의 가격(hit)은 슬로우 모션이 되는 반면, 나머지 비디오 부분은 일반적인 속도가 되도록 자동적으로 촬영된 비디오를 부분적으로 재시간 설정(retime)할 수 있다.And, (c) shows the setting of the situation in which the motion smartphone is attached to the sandbag. Accordingly, in the motion sensor-based approach according to an embodiment, the hit is slow motion, while the remaining video portion may partially retime the automatically captured video so that it becomes a normal speed. .

스내핑(snapping) 작업은 예를 들어, 기존에는 오직 비-선형 다중-비디오 동기화(non-linear multi-video synchronization)의 맥락이었다. 대신에, 실시예에서는 동작 시점에 비디오 효과를 적용하는 방법에 대해 검토하여 부분 슬로우 모션, 카메라 시점 선택 및 프레임 선택과 같이 다양한 도전적이고 시간 소비적인 응용에 적용될 수 있는 일반적인 알고리즘을 제공할 수 있다.The task of snapping, for example, was previously only in the context of non-linear multi-video synchronization. Instead, an embodiment may review a method of applying a video effect to an operation point of view and provide a general algorithm that can be applied to various challenging and time-consuming applications such as partial slow motion, camera view selection, and frame selection.

일반적인 알고리즘은 3가지 핵심 단계로 구성될 수 있다. 즉, 데이터 획득(data acquisition), 데이터 처리(data processing) 및 동기화(synchronization)로 구성될 수 있다. 아래에서는 도 1을 통해 본 실시예에 따른 모션 센서 기반 접근 방법의 일반적인 알고리즘을 보다 구체적으로 설명한다. A general algorithm can consist of three key steps. That is, it may consist of data acquisition, data processing, and synchronization. Hereinafter, a general algorithm of the motion sensor-based approach method according to the present embodiment will be described in more detail with reference to FIG. 1.

도 3은 일 실시예에 따른 모션 센서 기반 접근 방법을 나타내는 흐름도이다. 3 is a flowchart illustrating a motion sensor-based approach method according to an embodiment.

도 3을 참조하면, 일 실시예에 따른 모션 센서 기반 접근 방법은, 제1 단말 및 제2 단말이 무선 통신을 통해 연결되는 동기화 단계(S110), 제1 단말의 카메라로 비디오를 기록하는 데이터 획득 단계(S120), 및 촬영 대상인 사람 또는 물체가 가지고 있는 제2 단말로부터 기록된 모션 센서 데이터를 전달 받아, 모션 센서 데이터를 분석하여 감지하는 데이터 처리 단계(S130)를 포함하여 이루어질 수 있다. Referring to FIG. 3, in the motion sensor-based approach method according to an embodiment, a synchronization step in which a first terminal and a second terminal are connected through wireless communication (S110), data acquisition for recording video with a camera of the first terminal Step S120 and a data processing step S130 of receiving recorded motion sensor data from a second terminal possessed by a person or object to be photographed, and analyzing and detecting the motion sensor data.

이러한 일 실시예에 따른 모션 센서 기반 접근 방법의 각 단계는 일 실시예에 따른 모션 센서 기반 접근 장치를 하나의 예로써 보다 구체적으로 설명할 수 있다. Each step of the motion sensor-based approach method according to this embodiment may be described in more detail as an example of the motion sensor-based approach device according to an embodiment.

도 4는 일 실시예에 따른 모션 센서 기반 접근 장치를 나타내는 블록도이다. 4 is a block diagram illustrating a motion sensor-based access device according to an exemplary embodiment.

도 4를 참조하면, 일 실시예에 따른 모션 센서 기반 접근 장치(400)는 동기화부(410), 데이터 획득부(420) 및 데이터 처리부(430)를 포함하여 이루어질 수 있다. 예컨대 일 실시예에 따른 모션 센서 기반 접근 장치(400)는 제1 단말에서 수행되거나 제1 단말을 통해 수행될 수 있다. Referring to FIG. 4, a motion sensor-based access device 400 according to an embodiment may include a synchronization unit 410, a data acquisition unit 420, and a data processing unit 430. For example, the motion sensor-based access device 400 according to an embodiment may be performed in a first terminal or performed through a first terminal.

동기화 단계(S110)에서, 동기화부(410)는 제1 단말 및 제2 단말이 무선 통신을 통해 연결시킬 수 있다. 보다 구체적으로, 동기화부(410)는 제1 단말 및 제2 단말을 동기화하여 모션 센서 데이터의 타임라인을 비디오의 타임라인과 시간적으로 정렬할 수 있다.In the synchronization step (S110), the synchronization unit 410 may connect the first terminal and the second terminal through wireless communication. More specifically, the synchronization unit 410 may temporally align the timeline of the motion sensor data with the timeline of the video by synchronizing the first terminal and the second terminal.

동기화 단계는 제1 단말 및 제2 단말이 동기화되지 않을 수 있기 때문에, 모션 센서 데이터 타임라인을 비디오 타임라인과 시간적으로 정렬하는 것에 목표를 둔다. 데이터가 동기화되면, 도 2에 도시된 바와 같이, 감지한 동작 시각에 대응하는 비디오 프레임 또는 세그먼트를 자동적으로 검색(retrieve)할 수 있다.The synchronization step aims at temporally aligning the motion sensor data timeline with the video timeline, since the first terminal and the second terminal may not be synchronized. When data is synchronized, as illustrated in FIG. 2, a video frame or segment corresponding to the detected operation time may be automatically retrieved.

데이터 획득 단계(S120)에서, 데이터 획득부(420)는 제1 단말의 카메라로 비디오를 기록할 수 있다. In the data acquisition step S120, the data acquisition unit 420 may record a video with the camera of the first terminal.

데이터 획득 단계에서, 도 2에 도시된 바와 같이, 원격 스마트폰 카메라(제1 단말)로 비디오를 기록할 뿐만 아니라 관심 있는 사람이나 물체가 갖고 있는 스마트폰(제2 단말)으로 모션 센서 데이터를 동시에 기록할 수 있다. In the data acquisition step, as shown in FIG. 2, not only video is recorded with a remote smartphone camera (first terminal), but also motion sensor data is simultaneously recorded with a smartphone (second terminal) possessed by a person or object of interest. Can be recorded.

데이터 처리 단계(S130)에서, 데이터 처리부(430)는 촬영 대상인 사람 또는 물체가 가지고 있는 제2 단말로부터 기록된 모션 센서 데이터를 전달 받아, 모션 센서 데이터를 분석하여 감지할 수 있다. 데이터 처리 단계에서, 예를 들어, 간단한 임계 값 설정(thresholding)을 통해 강한 가속이 발생하는 순간 또는 제2 단말의 방향이 목표 방향과 일치하는 순간과 같은 동작 시각을 모션 센서 데이터를 분석하여 감지할 수 있다. 모션 센서 데이터에 기반한 정교한 인간 행동 인지 방법은 [비특허문헌 1]에 적용될 수 있지만, 다음과 같은 몇몇 이유 때문에 간단한 애드혹(adhoc) 처리 기술 방식(임계 값 설정 등)을 부여할 수 있다. 계산적으로 효율적이며(스마트폰에서 중요함), 다양한 사용 상황(use context)에 적용될 수 있고, 학습 데이터세트를 필요로 하지 않고 정확하다(윈도우 수준의 분류 시간이 없다). In the data processing step S130, the data processing unit 430 may receive the recorded motion sensor data from the second terminal possessed by the person or object to be photographed, and analyze and detect the motion sensor data. In the data processing step, for example, the motion sensor data can be analyzed to detect the moment when strong acceleration occurs or the moment the direction of the second terminal coincides with the target direction through a simple thresholding. I can. A sophisticated human behavior recognition method based on motion sensor data can be applied to [Non-Patent Document 1], but a simple adhoc processing technique (threshold value setting, etc.) can be provided for several reasons as follows. It is computationally efficient (important in smartphones), can be applied to a variety of use contexts, does not require training datasets, and is accurate (no window-level classification time).

보다 구체적으로, 데이터 처리부(430)는 제2 단말로부터 임계 값 이상의 가속이 발생하는 순간 또는 제2 단말의 방향이 목표 방향과 일치하는 순간의 모션 센서 데이터에 대한 동작 시각을 전달 받아, 동작 시각에 대응하는 비디오 프레임 또는 세그먼트를 자동으로 선택할 수 있다. 이 때, 데이터 처리부(430)는 애드혹(adhoc) 처리 기술을 통해 임계 값을 설정할 수 있다. More specifically, the data processing unit 430 receives the operation time for the motion sensor data at the moment when acceleration of more than a threshold value occurs from the second terminal or the moment when the direction of the second terminal coincides with the target direction, The corresponding video frame or segment can be automatically selected. In this case, the data processing unit 430 may set a threshold value through an adhoc processing technology.

이후, 데이터 처리부(430)는 동작 시각에 대응하는 비디오 프레임 또는 세그먼트에 슬로우 모션, 카메라 선택, 텍스트 중첩, 오디오 효과 및 음악 중 적어도 어느 하나 이상의 비디오 효과를 제공할 수 있다. Thereafter, the data processing unit 430 may provide at least one video effect of slow motion, camera selection, text superposition, audio effect, and music to a video frame or segment corresponding to the operation time.

일례로, 점프 위치의 시각을 자동적으로 계산하기 위해, 데이터 처리부(430)는 촬영 대상인 사람이 가지고 있는 제2 단말에서 획득한 가장 높은 수직 가속도를 갖는 두 개의 시각을 감지한 후, 감지된 두 개의 시각을 도약 및 착지로 인식하고, 두 개의 시각 사이의 중간 시각을 점프 시각으로 인식하여 대응하는 비디오 프레임을 반환할 수 있다. 여기서, 제2 단말은 가속도계 또는 자이로스코프 데이터를 획득할 수 있다. As an example, in order to automatically calculate the time of the jump position, the data processing unit 430 detects two times having the highest vertical acceleration acquired from the second terminal possessed by the person to be photographed, and then detects the two detected times. Time is recognized as a jump and landing, and an intermediate time between two times is recognized as a jump time, and a corresponding video frame can be returned. Here, the second terminal may acquire accelerometer or gyroscope data.

다른 예로, 가격(hit) 시각을 자동적으로 계산하기 위해, 데이터 처리부(430)는 촬영 대상인 사람 또는 물체가 가지고 있는 제2 단말에서 획득한 가속도의 피크를 감지한 후, 감지된 가속도의 피크를 가격(hit) 시각으로 인식하고, 대응하는 비디오 프레임을 반환할 수 있다. As another example, in order to automatically calculate the hit time, the data processing unit 430 detects the peak of the acceleration acquired by the second terminal possessed by the person or object to be photographed, and then price the peak of the detected acceleration. (hit) Can recognize visually and return a corresponding video frame.

제1 단말 및 제2 단말은 스마트폰(smart phone)일 수 있으며, 스마트폰을 이용하여 비디오의 촬영 후 자동 편집할 수 있다. 또한, 제1 단말 및 제2 단말은 스마트폰뿐만 아니라, 휴대폰, PMP(Portable Multimedia Player), MID(Mobile Internet Device), 내비게이션, 데스크톱(Desktop), 태블릿 컴퓨터(Tablet PC), 노트북(Note book), 넷북(Net book) 및 정보통신 기기 등과 같은 다양한 이동통신 사양을 갖는 모바일(Mobile) 단말일 수 있다. 아래에서는 제1 단말 및 제2 단말을 편의상 스마트폰 또는 폰으로 혼용하여 사용하기로 한다. The first terminal and the second terminal may be a smart phone, and the video may be automatically edited after a video is captured using a smart phone. In addition, the first terminal and the second terminal are not only smartphones, but also mobile phones, portable multimedia players (PMPs), mobile Internet devices (MIDs), navigation systems, desktops, tablet computers, and notebooks. It may be a mobile terminal having various mobile communication specifications, such as, a net book and an information communication device. In the following, for convenience, the first terminal and the second terminal will be used as a smartphone or a phone.

이러한 본 실시예에 따른 모션 센서 기반 접근 방법의 일반적인 알고리즘을 기반으로 하여, 점프 사진, 프레임 선택, 슬로우 모션 비디오의 자동 재생 속도 제어, 비디오 내의 동작 기반-텍스트 중첩 및 춤 비디오 미화를 포함하는 다양한 응용을 위하여 이 알고리즘 위에 덧붙여진 몇 가지 확장을 설명한다(도 1 참조). 또한, 다수의 카메라 설정에서 카메라 시점 선택, 불릿 타임(bullet time) 효과 및 조합된 장면에서 단체 점프 사진들을 위한 다수의 사람, 다수의 모션 센서 및 다수의 카메라로 모션 센서 기반 접근 방법을 확장시킬 수 있다.Based on the general algorithm of the motion sensor-based approach according to this embodiment, various applications including jump photo, frame selection, automatic playback speed control of slow motion video, motion-based in video-text superposition and dance video beautification. For this, several extensions added to this algorithm are described (see Fig. 1). In addition, it is possible to extend a motion sensor-based approach with multiple people, multiple motion sensors and multiple cameras for camera point selection in multiple camera settings, bullet time effects, and group jump photos in a combined scene. have.

모션 센서 기반 접근 방법은 전체적으로 모션 센서 데이터를 기반으로 하며, 비주얼 트래킹(visual tracking) 및 비디오 분석(video analysis)은 실행하지 않는다. 따라서, 빠르며, 조명(lighting), 교합(occlusion), 카메라 방향 및 위치, 블러(blur)와 같은 어떠한 시각적 조건에도 강인하다. 전체적으로, 모션 센서 기반 접근 방법은 최신 스마트폰의 첨단 기술 특징(특히, 모션 센서와 고프레임 속도 카메라 및 무선 연결)을 이용하여 간단하고, 자동적이고, 빠르며, 강인한 방법으로 어려운 비디오 편집 작업을 해결하는 일반적인 접근법이다. 하나의 예시로써, 안드로이드 스마트폰을 위한 앱(app)으로 모션 센서 기반 접근 방법을 구현하였으나, 이에 한정되지는 않는다. 사용하는 법을 직관적이며, 완전히 자동적인 방법으로 실행되고 다양한 비디오 효과를 사용하여 시각적으로 매력적인 결과(슬로우 모션, 카메라 선택, 텍스트 중첩, 오디오 효과, 음악)를 제공한다. 결과의 우수함은 정성적이고 정량적인 평가를 사용하여 성공적으로 설명된다.The motion sensor-based approach is entirely based on motion sensor data, and does not perform visual tracking and video analysis. Thus, it is fast and robust to any visual condition such as lighting, occlusion, camera orientation and position, and blur. Overall, the motion sensor-based approach takes advantage of the advanced technology features of the latest smartphones (especially motion sensors and high frame rate cameras and wireless connectivity) to solve difficult video editing tasks in a simple, automatic, fast and robust way. This is a general approach. As an example, a motion sensor-based approach is implemented as an app for an Android smartphone, but is not limited thereto. It's intuitive to use, runs in a fully automatic way, and uses a variety of video effects to deliver visually appealing results (slow motion, camera selection, text overlay, audio effects, music). The excellence of the results is successfully demonstrated using qualitative and quantitative assessments.

응용이라는 맥락에서 관련 연구 검토를 수행하고 기술적인 어려움을 설명하기 위하여, 앞에서 언급된 다음의 두 가지 사용 사례(use cases)를 우선 고려할 것이다. 점프 사진 촬영과 공을 치는 테니스 선수 비디오의 부분적인 스피드 편집(즉, 가격(hit) 장면은 슬로우 모션인 반면, 나머지 비디오 부분은 일반적인 속도)이다. 이 두 가지 동기 부여 예시로부터, 자동적인 촬영 및 비디오 편집이라는 맥락에서 다양한 응용에 일반화하는 방법을 제시할 수 있다.In order to carry out the relevant research review in the context of application and to explain the technical difficulties, we will first consider the following two use cases mentioned above. This is a partial speed-editing of a jump photo and a video of a tennis player hitting the ball (i.e. the hit scene is in slow motion while the rest of the video is at normal speed). From these two motivational examples, it is possible to present a way to generalize to various applications in the context of automatic shooting and video editing.

한 상황 또는 동작(예를 들어, 점프)에 대한 사진을 자동적으로 촬영하는 것은 자동적인 카메라 작동(triggering)과 관련되어 있다. 적용 상황에 따라(예를 들어, 스포츠, 동물 트랩 사진술(animal trap photography)), 적용 상황은 차광막(light barriers), 압력 패드(pressure pads), 힘판(force platforms), 접촉 매트(contact mats) 및 광전자 셀(photoelectric cells)과 같은 추가적인 하드웨어를 사용하여 달성될 수 있다. 그러나 이러한 추가적인 하드웨어는 일반적으로 비싸고 운반하기 어려울 뿐만 아니라, 사용자들이 이 모든 장치들을 거의 이용하지 않는다. 사용자들은 오직 흔하게 사용 가능하고 어디에나 있으며, 이동 가능한 장치를 사용하는 방법을 원한다.Automatically taking pictures of a situation or action (eg, a jump) involves automatic camera triggering. Depending on the application situation (e.g. sports, animal trap photography), the application situation may include light barriers, pressure pads, force platforms, contact mats and This can be achieved using additional hardware such as photoelectric cells. However, this additional hardware is generally expensive and difficult to transport, and users rarely use all of these devices. Users only want a way to use commonly available, ubiquitous, and portable devices.

추가적인 하드웨어를 사용하는 대신, 실시간 이미지 처리 기술을 사용하여 카메라가 촬영한 시각적인 콘텐츠를 분석함으로써 카메라는 자동적으로 사진을 얻도록 동작될 수 있다. 점프 사진이라는 맥락에서, 가능성 있는 접근법은 점프하는 동안의 스마트폰 카메라의 실시간 비디오 스트림에서 점프하는 사람의 얼굴을 추적하여, 얼굴이 이미지 내에서 아래로 가기 시작할 때 카메라를 동작하는 것이 될 수 있다. 그러나, 이 간단한 접근법은 몇 가지 한계를 갖는다. 첫 번째, 사진은 특히 스마트폰에서 이미지 처리 지연 및 카메라 작동 지연과 같은 필연적인 지연에 의해 너무 늦게 촬영될 것이다. 두 번째, 얼굴 감지 및 추적은 조명, 모션 블러 및 교합에 매우 민감하다. 또한, 이 접근법은 이미지 내에서 얼굴이 가장 높은 위치에 있는 시각이 점프하는 사람이 가장 높은 위치에 있는 시각에 대응한다고 가정하지만, 이는 오직 점프가 카메라 평면과 정면으로 평행할 때만 유효하다. 반면, 본 실시예에 따른 모션 센서 기반 접근 방법은 이러한 모든 한계를 극복하고 임의의 카메라 방향에 대해서도 적용이 가능하다.Instead of using additional hardware, the camera can be operated to automatically take pictures by analyzing the visual content captured by the camera using real-time image processing techniques. In the context of jump photography, a probable approach could be to track the jumping person's face in a real-time video stream of a smartphone camera during the jump, activating the camera as the face begins to go down in the image. However, this simple approach has several limitations. First, photos will be taken too late due to inevitable delays, such as delays in image processing and camera operation, especially in smartphones. Second, face detection and tracking is very sensitive to lighting, motion blur and occlusion. Also, this approach assumes that the view at which the face is at the highest position in the image corresponds to the view at which the jumping person is at the highest position, but this is only valid when the jump is parallel to the camera plane in front. On the other hand, the motion sensor-based approach according to the present embodiment overcomes all these limitations and can be applied to any camera direction.

지연을 해결하기 위한 방법은 점프하는 사람이 가장 높은 위치에 도달하는 시각을 예측하는 것이다. 이에, 실시간으로 사람의 얼굴을 추적하고 사람의 속도를 추정하여 탄도 운동 모델에 대입함으로써 가장 높은 위치의 시각을 예측할 수 있다. 예측된 시각에서 연역 지연(priori delay)을 빼줌으로써, 정확한 시각에 카메라를 작동시킬 수 있다. 그러나 상기의 방법처럼, 이 접근법은 비주얼 트래킹에 의해 실제적으로는 에러가 발생하기 쉽고 일반적인 점프 스타일과 카메라 포즈를 해결할 수 없다. 또한, 처리 지연과 카메라 지연을 먼저 알아야 하지만, 이는 장면의 조명, 카메라 초점, 계산 자원(computational resource), CPU 사용, 폰 모델 등과 같은 몇몇 요인에 의존하여 매우 변화할 수 있기 때문에 실제적으로 정확히 얻기는 어렵다. 마지막으로, 점프하는 동안 카메라가 작동하기 때문에 폰 간의 매우 빠른 연결 및 모션 데이터의 매우 빠른 처리를 필요로 한다. 이와 대조적으로, 본 실시예에 따른 모션 센서 기반 접근 방법은 이 모든 한계를 극복할 수 있으며, 단지 점프 사진뿐만 아니라 자동적인 비디오 시간 재설정 및 카메라 시점 선택과 같은 다양한 응용에도 일반화할 수 있다.A way to address the delay is to predict when the jumping person will reach the highest position. Accordingly, it is possible to predict the time of the highest position by tracking a person's face in real time, estimating the speed of the person, and substituting it into a ballistic motion model. By subtracting the priori delay from the predicted time, it is possible to operate the camera at the correct time. However, like the above method, this approach is practically error-prone due to visual tracking and cannot solve general jump styles and camera poses. Also, you need to know the processing delay and the camera delay first, but this can vary greatly depending on several factors such as scene lighting, camera focus, computational resources, CPU usage, phone model, etc. It is difficult. Finally, since the camera works during the jump, it requires very fast connections between phones and very fast processing of motion data. In contrast, the motion sensor-based approach according to the present embodiment can overcome all of these limitations and can be generalized not only to jump photos, but also to various applications such as automatic video time resetting and camera viewpoint selection.

대안적인 방법은 비디오 또는 연사 모드(burst mode)로 점프를 기록하고 나서, 수동적 또는 자동적인 컴퓨터 비전 기술을 사용하여 점프하는 사람이 가장 높은 위치에 있는 프레임을 선택하는 것이다. 수동적인 선택은 연사 모드에서의 일반적인 과정이다. 이는 사용하기에 쉽지만, 사진을 직접적으로 제공하지 않으며(스크롤을 통한 수동적인 상호 작용(interaction)이 필요하다), 확장 불가능하며 단체 점프 사진을 해결할 수 없다. 더 중요하게는, 비디오 편집에 대한 다른 적용에는 일반화할 수 없다(도 1의 춤 재시간 설정 등). An alternative method is to record the jump in video or burst mode, and then use manual or automatic computer vision techniques to select the frame in the highest position by the jumping person. Manual selection is a common process in continuous mode. It's easy to use, but it doesn't provide a photo directly (requires manual interaction through scrolling), it's not scalable, and it can't solve group jump photos. More importantly, it cannot be generalized to other applications for video editing (such as the dance retime setting in Fig. 1).

기존에 한 컬렉션의 사진이 주어졌을 때, 사진 컬렉션에 대한 몇몇 자동적인 방법들이 제안되었다. 그러나, 그 방법들은 드문 드문 촬영된 일련의 사진들 선별을 위해 설계되거나 전용 학습 데이터세트를 필요로 한다. 이와 대조적으로, 본 실시예에 따른 모션 센서 기반 접근 방법에서 점프를 위한 데이터는 아주 짧은 동작(400ms 미만)에 대한 비디오 프레임들 중에서 매우 밀도 있게 샘플링된 세트이며, 모션 센서 기반 접근 방법은 기계 학습 절차를 위해 특정한 데이터세트 생성을 필요로 하지 않는다.Given an existing collection of photos, several automatic methods for the collection of photos have been proposed. However, the methods are designed for screening a series of sparse shots or require a dedicated training dataset. In contrast, in the motion sensor-based approach according to this embodiment, the data for jump is a very densely sampled set among video frames for a very short motion (less than 400 ms), and the motion sensor-based approach is a machine learning procedure. You don't need to create a specific dataset for it.

이에 대한 대안으로, 광류(optical flow), 얼굴 감지/추적 및 3D 사람 자세 추정(3D human pose estimation)으로부터의 모션 감지와 같은 컴퓨터 비전 기술들을 실행함으로써 비디오 프레임은 촬영된 비디오에서 자동적으로 선택될 수 있다 그러나, 위에서 설명된 비전-기반 카메라 작동(vision-based camera trigger)에서와 같은 이유로, 비주얼 트래킹 및 감지의 에러(교합(occlusion), 블러링(blurring), 조명(lighting) 등)에 민감하며, 정면으로 평행한 모션만 해결할 수 있고, 사람에게만 적용할 수 있으며, 이동하는 카메라는 다룰 수 없다(또는, 더 정교한 카메라-배경의 모션 분리(camera-background motion separation)를 필요로 할 것이다). 대신에, 본 실시예에 따른 모션 센서 기반의 접근 방법은 이 모든 어려움을 간단히 극복할 수 있다. 또한, 간단한 모션 데이터 처리를 사용함으로써 점프 사진에서 비디오 재시간 설정(video retiming) 및 카메라 시점 선택(camera viewpoint selection)에 이르는 여러 유형의 적용을 다루는 것이 가능하다는 점을 보여줄 것이다. As an alternative to this, by implementing computer vision techniques such as optical flow, motion detection from face detection/tracking and 3D human pose estimation, video frames can be automatically selected from the captured video. However, for the same reasons as in the vision-based camera trigger described above, it is sensitive to errors in visual tracking and detection (occlusion, blurring, lighting, etc.). However, it can only solve front-to-parallel motion, it can only be applied to humans, and cannot handle moving cameras (or will require more sophisticated camera-background motion separation). Instead, the motion sensor-based approach according to this embodiment can simply overcome all these difficulties. It will also be shown that by using simple motion data processing, it is possible to handle many types of applications, from jump photos to video retiming and camera viewpoint selection.

아래에서는 본 실시예에 따른 모션 센서 기반 접근 방법(Motion sensor-based approach)에 대해 설명한다. Hereinafter, a motion sensor-based approach according to the present embodiment will be described.

비전 기반 방법의 어려움들을 극복하기 위하여, 몇몇 방법들은 모션 센서 데이터를 사용하는 것을 제안했고, 3D 복구(3D reconstruction) 및 비디오 안정화(video stabilization)와 같은 일부 어려운 컴퓨터 비전 및 컴퓨터 그래픽 작업들에 효과적이라는 점을 보였다. 카메라 작동(camera triggering)이라는 맥락에서, 기존에는 던질 수 있는 파노라마 카메라 공(throwable panoramic camera ball)의 작동(triggering)을 가속도계 센서를 사용하여 설명한다. 사용자는 공중으로 카메라 공을 던지고 카메라는 가장 높은 위치에 도달했을 때 파노라마 사진을 촬영한다. 그러나, 모션 센서는 카메라 시스템에 직접적으로 부착된다. To overcome the difficulties of vision-based methods, several methods have proposed using motion sensor data and are effective for some difficult computer vision and computer graphics tasks such as 3D reconstruction and video stabilization. Showed a point. In the context of camera triggering, the triggering of a previously throwable panoramic camera ball is described using an accelerometer sensor. The user throws the camera ball into the air and the camera takes a panoramic picture when it reaches the highest position. However, the motion sensor is attached directly to the camera system.

이 대신, 본 실시예에 따른 모션 센서 기반 접근 방법에서, 카메라는 일반적으로 관심 있는 물체 또는 사람의 비디오 또는 사진을 촬영하기 위하여 모션 센서에서 멀리 떨어져 있다. 이를 위해서는 장치 간의 통신 및 동기화가 이루어져야 한다. 또한, 모션 센서 기반 접근 방법에서는 흔히 사용 가능하고, 어디에나 존재하는(ubiquitous) 스마트폰을 사용하는 합리적인 솔루션을 제안하고자 한다. 그리고, 모션 센서 기반 접근 방법이 사진 촬영 및 비디오 편집에 대한 다양한 적용에 사용할 수 있음을 보여줄 수 있다. 이전에 설명된 점프 사진에 대한 비전 기반 예측 방법과 동일한 방식으로, 적절한 시각에 사진 카메라(photo camera)를 동작시키기 위하여 가장 높은 지점의 시각을 예측함으로써 한 장의 사진을 찍지만 모션 센서 데이터를 사용한다. 비전 접근법보다 더 강인하지만, 동일한 제한, 즉, 처리 지연 및 카메라 지연을 미리 가정하며 매우 빠른 처리 및 연결이 필요하다는 제한이 있다. 또한 속도와 위치를 얻기 위해 가속도 데이터를 대상으로 적분(integration)을 수행한다. 그러나 사람의 움직임에서 필연적으로 발생하는 진동에 의해 가속도 값에 오차가 발생하고 이는 적분 과정에서 기하급수적으로 증가한다. Instead, in the motion sensor-based approach according to this embodiment, the camera is generally far from the motion sensor in order to take a video or picture of an object or person of interest. For this, communication and synchronization between devices must be performed. In addition, in the motion sensor-based approach, we would like to propose a rational solution that is commonly used and uses ubiquitous smartphones. In addition, it can be shown that a motion sensor-based approach can be used for various applications in photography and video editing. In the same way as the vision-based prediction method for jump photos described previously, a single picture is taken by predicting the time of the highest point in order to operate the photo camera at an appropriate time, but motion sensor data is used. . It is more robust than the vision approach, but with the same limitations, i.e. it presumes processing delay and camera delay, and requires very fast processing and connection. It also performs integration on the acceleration data to obtain the velocity and position. However, an error occurs in the acceleration value due to the vibration that inevitably occurs in human motion, which increases exponentially during the integration process.

이와 대조적으로, 본 실시예에 따른 모션 센서 기반 접근 방법은 적분(integration)을 수행하지 않고 기록된 점프 비디오에서 프레임을 선택하므로, 결과적으로 강인한 방법을 제공한다. In contrast, the motion sensor-based approach according to the present embodiment selects a frame from the recorded jump video without performing integration, and consequently provides a robust method.

현존하는 최신 기술과의 주된 차이점을 설명한다. 첫 번째, 그 기술들은 사진을 촬영하기 위해 카메라를 작동(trigger)시키는데, 이를 위해 카메라 작동 지연(trigger delay)을 알아야 하며, 작동 지연은 조명 설정, 자동 초점, 폰 모델, 메모리 등에 따라 달라질 수 있기 때문에 먼저 정확히 아는 것을 매우 어렵다. 이와 대조적으로, 본 실시예에 따른 모션 센서 기반 접근 방법은 점프 등에 대한 비디오를 기록하여 최적의 프레임을 자동적으로 선택하므로 작동 지연과 관련된 모든 문제들을 극복할 수 있다.It explains the main differences from the latest technologies in existence. First, the technologies trigger the camera to take a picture, which requires knowing the camera trigger delay, which can vary depending on the lighting settings, auto focus, phone model, memory, etc. Therefore, it is very difficult to know exactly first. In contrast, the motion sensor-based approach according to the present embodiment automatically selects an optimal frame by recording a video of a jump, etc., so that all problems related to operation delay can be overcome.

아래에서, 자동적인 촬영 및 편집을 위한 본 실시예에 따른 모션 센서 기반 접근 방법의 일반적인 알고리즘을 소개한다. 주요 단계는 데이터 캡처, 데이터 처리 및 장치 동기화이다. 이 일반적인 알고리즘에 기반하여, 다수의 모션 센서 및 다수의 카메라에 대한 확장을 설명할 수 있다.In the following, a general algorithm of a motion sensor-based approach according to this embodiment for automatic photographing and editing is introduced. The main steps are data capture, data processing and device synchronization. Based on this general algorithm, it is possible to describe the extension to multiple motion sensors and multiple cameras.

도 5는 일 실시예에 따른 가격 감지 및 점프 감지를 설명하기 위한 도면이다. 5 is a diagram for describing price detection and jump detection according to an exemplary embodiment.

도 5를 참조하면, 권투의 펀치에 대한 가격 감지(a) 및 점프 감지(b)를 설명하기 위한 것으로, 가장 높은 점프 위치의 시각을 자동적으로 계산하기 위한 모션 센서 기반 접근 방법은 우선 가장 높은 수직 가속도를 갖는 두 개의 시각을 감지할 수 있다. 이는 도약 및 착지에 대응하며, 빨간색으로 표시된다. 그 후, 점프의 중간 시각을 계산하고 그 시각에 대응하는 비디오 프레임을 반환한다. 즉, 빨간색 윤곽으로 제시되는 것과 같이, 가장 높은 위치에 있는 프레임을 반환한다.Referring to FIG. 5, a motion sensor-based approach for automatically calculating the time of the highest jump position is for explaining the price detection (a) and jump detection (b) for a boxing punch. It can detect two perspectives with acceleration. This corresponds to a leap and landing, and is indicated in red. Then, the intermediate time of the jump is calculated and a video frame corresponding to that time is returned. That is, it returns the frame at the highest position, as shown by the red outline.

일 실시예에 따른 모션 센서 기반 접근 방법에 대한 개요를 상황에 두기 위하여, 복싱 선수의 펀치에 대한 부분적인 비디오 시간 재설정(local video retiming)이라는 사용 사례를 고려해본다. 목표는 부분적인 비디오 속도가 조정된(부분적인 속도 램핑(local speed ramping)) 비디오, 즉, 펀치 또는 가격 시에는 슬로우 모션이지만 비디오의 나머지 부분은 일반적인 속도인 비디오를 얻는 것이다.To put an overview of the motion sensor-based approach according to an embodiment in context, consider a use case of local video retiming for a boxer's punch. The goal is to get a video with a partial video rate adjusted (local speed ramping), i.e. slow motion at punch or price, but the rest of the video at normal speed.

관련 연구를 검토할 때 논의한 바와 같이, 필연적이고, 가변적이고, 사전에 알 수 없는 데이터 처리 및 카메라 작동 지연에 의하여 (예를 들어, 비전 분석 또는 모션 센서를 통해) 공 가격(hit) 사진을 촬영하기 위해 정확한 시간에 카메라를 자동적으로 작동시키는 것은 만족되지 않는다. 이러한 한계들을 극복하기 위하여, 모션 센서 기반 접근 방법은 선수의 비디오를 기록하여 모션 센서 데이터에서 최적의 비디오 프레임을 자동적으로 선택한다. As discussed when reviewing related studies, taking pictures of hits (e.g., via vision analysis or motion sensors) due to inevitable, variable, and unknown data processing and delays in camera operation. It is not satisfactory to operate the camera automatically at the correct time to do so. To overcome these limitations, a motion sensor-based approach records the athlete's video and automatically selects the optimal video frame from the motion sensor data.

구체적으로, 본 실시예에 따른 모션 센서 기반 접근 방법의 일반적인 알고리즘은 다음의 핵심 단계들로 구성된다. 첫 번째, 동기화 단계에서, 시간적으로 정렬된 비디오 및 모션 센서 데이터를 얻기 위해 무선 연결을 통해 스마트폰들을 동기화시킬 수 있다. 두 번째, 데이터 획득 단계에서, 스마트폰으로 테니스 선수의 비디오 및 모션 센서 데이터를 기록할 수 있다. 이후, 오프라인의 데이터 처리 단계에서, 즉, 경기가 끝난 직후에, 공 가격(hit)이 발생한 시각을 감지하기 위해 (가속 데이터 상에 간단한 임계 값 설정을 통해) 스마트폰으로 바로 모션 센서 데이터를 분석할 수 있다. 다음으로, 이 감지된 시각을 무선으로 카메라 폰에 전달하여 그 시각에 대응하는 비디오 프레임을 자동적으로 선택할 수 있다. 마지막으로, 이 비디오 프레임 결과는 사용자의 스마트폰에 디스플레이될 수 있다. 전체적인 과정은 완전히 자동적인 방법으로 실행되며, 결과 사진은 비디오 기록을 멈춘 이후 약 2초(전체적인 처리 시간) 뒤에 보여진다.Specifically, the general algorithm of the motion sensor-based approach according to the present embodiment consists of the following key steps. First, in the synchronization step, the smartphones can be synchronized over a wireless connection to obtain temporally aligned video and motion sensor data. Second, in the data acquisition step, a video of a tennis player and motion sensor data can be recorded with a smartphone. Afterwards, in the offline data processing stage, i.e., right after the game, the motion sensor data is analyzed directly with a smartphone (by setting a simple threshold value on the acceleration data) to detect the time when the hit has occurred. can do. Next, the detected time can be wirelessly transmitted to the camera phone to automatically select a video frame corresponding to the time. Finally, this video frame result can be displayed on the user's smartphone. The whole process is carried out in a completely automatic way, and the resulting picture is displayed approximately 2 seconds (total processing time) after stopping video recording.

데이터 획득(Data acquisition) 부분에서, 관심 있는 물체 또는 사람(예를 들어, 테니스 선수)이 들고 있는 스마트폰에서 모션 센서 데이터를 기록할 뿐만 아니라 동시에 원거리 스마트폰 카메라에서 비디오를 기록할 수 있다. 캡처 설정은 도 2에 제시된다. 모션 센서 데이터 기록과 관련하여, 스마트폰의 가속도계와 자이로스코프 데이터를 얻는다. 이것은 예를 들어, 수직적인 가속도, 즉, 중력 방향으로의 가속도를 제공한다.In the data acquisition section, it is possible to record motion sensor data from a smartphone held by an object or person of interest (e.g., a tennis player), as well as record video from a remote smartphone camera at the same time. The capture setup is presented in Figure 2. Regarding recording motion sensor data, get the accelerometer and gyroscope data of the smartphone. This gives, for example, vertical acceleration, i.e. acceleration in the direction of gravity.

비디오 기록과 관련하여, 공 가격이 촬영되기를 원한다. 이를 위해, 짧은 동작을 다루기 위하여 스마트폰의 고프레임율 비디오 기록 성능을 이용하며 120fps 속도로 비디오를 기록한다(또는 가능하다면 240fps). 몇 년 전에는 병목 현상이 발생할 수도 있었지만, 최근 스마트폰의 대다수는 높은 fps 모드를 가지고 있으며 이 특징은 앞으로의 모든 스마트폰 모델에도 표준이 될 것이라고 본다.Regarding the video recording, I want the ball price to be filmed. To do this, it uses the smartphone's high frame rate video recording capability to handle short motions and records video at a rate of 120 fps (or 240 fps if possible). It could have been a bottleneck a few years ago, but the majority of recent smartphones have a high fps mode, and I think this feature will become standard for all future smartphone models as well.

여기에서는 짧고, 강한 가속도를 갖는 모션에 주로 초점을 둔다. 또한, 회전 모션 및 방향에 대한 적용도 고려한다. 데이터 처리(Data processing) 단계는 목표로 하는 효과 및 사용하는 모션 센서(가속도계 또는 자이로스코프)를 기반으로 하는 3가지 다른 변수를 갖는다. 그러므로, 본 실시예에 따른 모션 센서 기반 접근 방법의 일반적인 알고리즘을 설명하기 위해, 다음과 같이 변수 당 하나의 일반적인 사용 사례를 고려할 것이다. 점프 사진 촬영, 공을 치는 테니스 선수의 부분적인 비디오 속도 시간 재설정(즉, 가격 시에는 슬로우 모션인 반면 나머지 비디오 부분은 일반적인 속도) 및 카메라 시점 선택이다. 이 세 가지 변수들 및 동기 부여 사례로부터, 아래에서 실험 부분에서 자동적인 촬영 및 비디오 편집이라는 맥락으로 다양한 응용에 일반화하는 방법을 제시할 것이다.The focus here is on short, strong acceleration motions. Also consider the application to rotational motion and direction. The data processing step has three different variables based on the target effect and the motion sensor used (accelerometer or gyroscope). Therefore, in order to explain the general algorithm of the motion sensor-based approach according to the present embodiment, one general use case per variable will be considered as follows. Take a picture of a jump, a partial video speed re-time of the tennis player hitting the ball (i.e. slow motion at the price, while the rest of the video is normal speed), and camera point selection. From these three variables and motivational examples, below, in the experimental section, we will present a method of generalizing to various applications in the context of automatic filming and video editing.

먼저, 가격 감지(Hit detection)에 대해 설명한다. 기록된 모션 센서 데이터를 처리하는 방법에 대해 설명한다. 권투라는 관점에서, 권투 선수가 샌드백을 치는 시점을 찾으려고 한다. 비디오에서 가격 시점을 감지하기 위해 간단하지만 유효한 접근 방법을 제시한다. 모션 센서 기반 접근 방법은 큰 가속도의 펀치는 권투 선수의 주먹이 샌드백에 충격을 주는 동안에 발생한다는 관찰을 기반으로 한다. 주먹이 샌드백에 주는 충격에 대응하는, 큰 가속도의 펀치를 갖는 순간을 감지한다.First, hit detection will be described. A method of processing recorded motion sensor data will be described. From a boxing point of view, we try to find the point when the boxer hits the punching bag. We present a simple but valid approach to detecting price points in a video. The motion sensor-based approach is based on the observation that punches with high acceleration occur while the boxer's fist strikes the punching bag. It detects the moment when you have a punch of great acceleration in response to the impact of your fist on the punching bag.

데이터 획득 부분에서, 관심 있는 물체 또는 사람이 들고 있는 스마트폰에서 모션 센서 데이터를 기록할 뿐만 아니라 원격 스마트폰 카메라에서 비디오를 기록한다. 권투라는 관점에서, 샌드백에 부착된 스마트폰에서 모션 센서 데이터를 기록한다. 캡처 설정은 도 7에서 보여준다. 모션 센서 데이터 기록과 관련하여, 스마트폰의 가속도계 및 자이로스코프 데이터를 얻는다. 권투의 경우, 가속도계 및 자이로스코프에서 얻은 정보를 사용하여 중력 벡터와 수직인 평면을 따라 발생한 가속도의 크기를 계산한다. 근본적으로, 펀치의 방향을 따라 발생하는 가속도 값을 얻는다. 데이터 처리 및 가격 감지에 대해 설명하였으므로, 이제 기록된 모션 센서 데이터를 처리하는 방법에 대해 설명한다. 권투 선수가 샌드백을 치는 시점을 찾으려고 한다. 비디오에서 가격 시점을 감지하기 위해 간단하지만 유효한 접근 방법을 제시한다.In the data acquisition section, motion sensor data is recorded from a smartphone held by an object or person of interest, as well as video from a remote smartphone camera. From a boxing point of view, a smartphone attached to a sandbag records motion sensor data. The capture setup is shown in FIG. 7. Regarding the motion sensor data recording, get the accelerometer and gyroscope data of the smartphone. In boxing, information from the accelerometer and gyroscope is used to calculate the magnitude of the acceleration that occurs along a plane perpendicular to the gravity vector. Basically, you get the value of the acceleration that occurs along the direction of the punch. Now that the data processing and price detection have been described, a method of processing the recorded motion sensor data will now be described. Trying to find out when the boxer hits the punching bag. We present a simple but valid approach to detecting price points in a video.

점프 감지(Jump detection)에 대해 설명한다. 관련 연구를 검토할 때 설명한 바와 같이, (예를 들어, 비전 분석 또는 모션 센서를 통해) 점프 사진을 촬영하기 위해 정확한 시간에 카메라를 자동적으로 작동시키는 것(triggering)은 필연적이고, 가변적이고, 사전에 알 수 없는 데이터 처리 및 카메라 작동 지연과 같은 몇몇 이유에 의해 만족되지 않는다. 이러한 한계들을 극복하기 위하여, 모션 센서 기반 접근 방법은 점프하는 사람의 비디오를 기록하여 모션 센서 데이터에서 최적의 비디오 프레임을 자동적으로 선택한다. 점프 직후, 본 실시예에 따른 모션 센서 기반 접근 방법의 앱은 점프 시각을 감지하기 위하여 스마트폰 상에서 직접 모션 센서 데이터를 분석한다. 그 다음, 이 감지된 시각을 무선으로 카메라 폰에 전달하여 그 시각에 대응하는 비디오 프레임을 자동적으로 선택한다. 마지막으로, 이 비디오 프레임 결과는 사용자의 스마트폰에 디스플레이된다. 전체적인 과정은 완전히 자동적인 방법으로 실행되며, 결과 사진은 비디오 기록을 멈춘 이후 약 2초(전체적인 처리 시간) 뒤에 보여진다.Jump detection will be described. As explained when reviewing relevant studies, triggering the camera automatically at the correct time to take a jump picture (e.g., via vision analysis or motion sensor) is inevitable, variable, and proactive. It is not satisfied by some reasons such as unknown data processing and delay in camera operation. To overcome these limitations, a motion sensor-based approach records a video of a jumping person and automatically selects the optimal video frame from the motion sensor data. Immediately after the jump, the app of the motion sensor-based approach method according to the present embodiment analyzes the motion sensor data directly on the smartphone in order to detect the jump time. Then, the detected time is wirelessly transmitted to the camera phone, and a video frame corresponding to the time is automatically selected. Finally, the result of this video frame is displayed on the user's smartphone. The whole process is carried out in a completely automatic way, and the resulting picture is displayed approximately 2 seconds (total processing time) after stopping video recording.

점프 시각을 감지하기 위한 모션 센서 기반 접근 방법은 점프하는 동안 두 가지 큰 가속도가 발생한다는 관찰을 기반으로 한다. 도 5에 도시된 바와 같이, 하나는 도약 시이며, 다른 하나는 착지 시이다. 모션 센서 기반 접근 방법은 점프의 시작과 끝을 감지하기 위하여 이 두 가지 큰 가속도를 강인하고 간단한 방법으로 이용하고, 점프의 중간 시각을 가장 높은 위치의 시각으로 고려한다. 이론적으로, (이후 논의되는 바와 같이) 점프가 가장 높은 위치의 시각에 대해서 “대칭적”이라는 가정, 예를 들어, 점프는 같은 위치(예를 들어, 지면)에서 시작하고 끝난다고 가정한다. 실제적으로 모션 센서 기반 접근 방법이 이 가정이 완벽히 유효하지 않을 때에도 시각적으로(visually) 만족스러운 결과를 준다는 점을 보일 것이다.A motion sensor-based approach to detecting the jump time is based on the observation that two large accelerations occur during the jump. As shown in Fig. 5, one is at the time of jumping and the other is at the time of landing. The motion sensor-based approach uses these two large accelerations in a robust and simple way to detect the start and end of a jump, and considers the middle time of the jump as the view of the highest position. In theory (as discussed later) the assumption that the jump is “symmetrical” with respect to the time at the highest position, eg, the jump starts and ends at the same position (eg, the ground). In practice, it will be shown that the motion sensor-based approach gives visually pleasing results even when this assumption is completely invalid.

이제 두 개의 가속도 피크를 감지하는 방법에 대해 설명한다. 300개 이상의 점프를 분석했고 도약 및 착지 시의 가속도 값은 그렇게 크지 않고, 실제론 점프하는 동안에 가속도가 가장 컸다는 점을 관찰했다. 따라서, 모션 센서 데이터에서 가장 큰 두 개의 가속도 피크를 감지하는 것을 목표로 한다. 이 두 개의 가속도 피크를 찾기 위해, (수직) 가속도 데이터에서 두 개의 국지적인 최대 값을 간단히 추출한다. 특히, 가속도 데이터에서 가장 높은 피크를 추출하고 그 피크에서 최소 피크 거리

Figure pat00001
만큼 떨어진 곳까지의 모든 피크들을 무시한다. 이후, 두 번째로 높은 나머진 피크에 대해 절차를 반복한다. 모든 실험에서,
Figure pat00002
라고 설정한다(점프 지속 시간은 일반적으로 200ms 및 700ms 사이에서 변한다). 이는 매우 보수적인 값이며 전반적으로 이 과정은 실험에서 얻는 300개의 점프 중 대다수(>90%)에 대해 만족스러운 결과를 제공했다. 따라서, 이 두 개의 피크의 시각
Figure pat00003
Figure pat00004
를 얻는다. 이후, 가장 높은 위치의 시각
Figure pat00005
를 점프의 중간 시각, 즉
Figure pat00006
로 계산한다. Now, how to detect the two acceleration peaks will be described. We analyzed more than 300 jumps and observed that the acceleration values at the time of jumping and landing were not so large, and in fact, the acceleration during the jump was the largest. Therefore, it aims to detect the two largest acceleration peaks in the motion sensor data. To find these two acceleration peaks, we simply extract the two local maximums from the (vertical) acceleration data. Specifically, extract the highest peak from the acceleration data and the minimum peak distance from that peak.
Figure pat00001
Ignore all peaks up to the distance by. Then, the procedure is repeated for the second highest remaining peak. In all experiments,
Figure pat00002
(Jump duration typically varies between 200ms and 700ms). This is a very conservative value and overall this process gave satisfactory results for the majority (>90%) of the 300 jumps obtained in the experiment. Therefore, the time of these two peaks
Figure pat00003
And
Figure pat00004
Get Afterwards, the time of the highest position
Figure pat00005
The middle time of the jump, i.e.
Figure pat00006
Calculate as.

가장 높은 점프 위치의 시각을 가지고 있으므로, 그 시각에 대응하는 비디오 프레임을 간단히 검색할 필요가 있다. 이 단계는 아래에서 설명될 장치 동기화를 필요로 한다.Since it has the time of the highest jump position, it is necessary to simply search for a video frame corresponding to that time. This step requires device synchronization, which will be described below.

공기 저항을 무시하면, 점프 상태 동안 점프하는 사람의 모션은 탄도 궤적이다. 즉, 사람은 오직 중력에 영향을 받는다. 이하 점프는 “대칭”이라고 가정한다. 점프 궤도는 가장 높은 위치의 시각에 대해 대칭적이다. 예를 들어, 점프는 같은 높이(예를 들어, 지면)에서 시작하고 끝난다. 그 경우, 가장 높은 위치는 대략 점프의 중간 시각에 이르게 된다. 특별한 점프에 대해, 점프의 시작 및 끝의 높이는 다를 수 있으며, 점프를 비-대칭적으로 만드는 부가적인 힘/토크가 있을 수도 있다. 그럼에도 불구하고, 모션 센서 기반 접근 방법은 실험에서 볼 수 있듯이 매우 다양한 점프 스타일에 여전히 효과가 있고 다양한 높이에 따라 시각적으로(visually) 매력적인 결과를 제공한다. 대칭적인 점프에서, 가장 높은 위치에 이르는 시각은 점프의 중간 시각에 대응한다. 따라서, 점프의 시작(도약) 및 끝(착지) 시각을 찾는 것에 목표를 두며, 이하에서 이에 대해 설명한다. 전체적인 점프에 대한 데이터를 이용할 수 있다는 사실을 이용함으로써 종합(integration) 없이도 이 시각들을 쉽게 얻을 수 있다는 점을 보일 것이다.Ignoring the air resistance, the jumping person's motion during the jump state is a trajectory. That is, people are only affected by gravity. Hereinafter, it is assumed that the jump is "symmetric". The jump trajectory is symmetrical with respect to the view of the highest position. For example, a jump starts and ends at the same height (eg, the ground). In that case, the highest position is approximately reached in the middle of the jump. For a particular jump, the height of the start and end of the jump may be different, and there may be additional forces/torques that make the jump asymmetrical. Nevertheless, the motion sensor-based approach still works for a wide variety of jump styles, as shown in the experiment, and provides visually appealing results with varying heights. In a symmetrical jump, the time to reach the highest position corresponds to the middle time of the jump. Therefore, the goal is to find the start (leap) and end (landing) time of the jump, which will be described below. It will be shown that by using the fact that data on the overall jump is available, these views can be easily obtained without integration.

방향 감지(Orientation detection)에 대해 설명한다. 자동적인 카메라 선택 접근법은 가속도계 및 자기장 센서에 의해 획득된 스마트폰의 회전 행렬 데이터를 기반으로 한다. 회전 행렬은 스마트폰의 좌표계 내의 벡터를 세계의 좌표계(world’s coordinate system)로 변환시키며, 여기서 x축은 y축 및 z축의 외적(cross-product)으로 정의되며(이는 장치의 현재 위치에서 지면에 접하며, 대략적으로 동쪽을 가리킨다), y축은 장치의 현재 위치에서 지면에 접하며, 자북극을 가리키고, z축은 하늘을 가리키며 땅과 수직이다. 회전 행렬 데이터를 이용함으로써, 스마트폰의 z축 벡터(벡터는 장치의 스크린에서 나오며, 수직이다) 및 방향 벡터(z축 벡터와 반대이며, 장치의 카메라에서 나오며 그 뒷면과 수직이다)를 세계 좌표계에서 계산할 수 있다. 이는 근처에 위치한 몇몇 스마트폰들의 z축 및 방향 벡터에 대한 비교를 가능하게 한다. Orientation detection will be described. The automatic camera selection approach is based on the smartphone's rotation matrix data acquired by the accelerometer and magnetic field sensor. The rotation matrix converts the vectors in the smartphone's coordinate system into the world's coordinate system, where the x-axis is defined as the cross-product of the y-axis and z-axis (which is in contact with the ground at the device's current position, It points approximately east), the y-axis touches the ground at the device's current position, points to the magnetic north pole, and the z-axis points to the sky and is perpendicular to the ground. By using the rotation matrix data, the z-axis vector of the smartphone (the vector comes out of the device's screen and is vertical) and the direction vector (the opposite of the z-axis vector, comes out of the device's camera and is perpendicular to its back side) is converted into the world coordinate system. Can be calculated from. This makes it possible to compare the z-axis and direction vectors of several nearby smartphones.

도 6은 일 실시예에 따른 다수의 카메라 설정에서 자동적인 카메라 선택을 설명하기 위한 도면이다. 6 is a diagram for explaining automatic camera selection in setting a plurality of cameras according to an exemplary embodiment.

도 6을 참조하면, 2개 이상의 카메라 스마트폰(

Figure pat00007
,
Figure pat00008
,
Figure pat00009
등), 관심 있는 물체를 위한 하나의 스마트폰(예를 들어, 사람, 인형 등) 및 데이터 기록을 위해 개발된 어플리케이션을 구비한다. 카메라 장치들은 다른 각도에서 물체를 보고 있으며, 물체는 비디오 내내 방향을 바꾼다. 카메라들이 다른 시간에(일부는 빨리, 일부는 늦게) 기록을 시작하기 때문에, 정확히 같은 시각(time)에 시작하고 같은 시간(duration)동안 되도록 만들기 위해 촬영 이후 개별적인 비디오들을 편집(cut)해야 할 필요가 있다. 이러한 목적 및 또 다른 목적으로, 장치들 간의 동기화가 요구된다. 따라서, 공공 시간 서버(public time server)를 사용하기로 결정했지만, 장치들 간의 블루투스 또는 와이파이 P2P 연결 또한 잘 동작한다. 관심 있는 물체에 부착된 장치(
Figure pat00010
)의 방향은 물체(
Figure pat00011
)의 방향과 동일하지 않기 때문에, 매우 유사하더라도(예를 들어, 주머니 내부의 스마트폰은 사람의 실제 방향과 스마트폰의 방향 벡터 간의 작은 각도가 있다), 실제 촬영하기 전에 카메라 스마트폰의 회전 행렬들의 교정 값(calibration values)이 기록되어야 한다. 이는 다음과 같은 방법으로 수행된다. 관심 있는 물체는 첫 번째 카메라로 회전하고 어플리케이션은 교정 값들 및 타임 스탬프(timestamp)를 기록한다. 그 후, 물체는 두 번째 카메라로 회전하고 그렇게 반복한다. 교정 값들은 교정 각들(
Figure pat00012
,
Figure pat00013
,
Figure pat00014
등)을 계산하기 위하여 사용되며, 이는 정확한 카메라 시점을 인지하는 것을 도와줄 것이다. 비디오를 촬영하는 동안, 모든 스마트폰들(카메라 및 물체 장치)은 타임 스탬프들과 함께 회전 행렬 데이터를 기록한다. 기록 이후, 이 데이터는 세계 좌표계에 대해 모든 폰들의 z축 및 방향 벡터를 계산하는 데 사용된다. 카메라들의 z축 벡터들(
Figure pat00015
,
Figure pat00016
,
Figure pat00017
)은 시간에 따라 물체의 폰 방향 벡터(
Figure pat00018
)와 비교되고, 이에 따라서, 정확한 카메라 시점이 선택된다. 더 정확하게, 프레임들이 다음과 같은 경험(heuristics)에 따라 선택된다. 매 프레임 및 매 카메라 장치에 대해, 카메라 z축 벡터 및 물체의 장치 방향 벡터 간의 각도는 (내적(dot product)을 통해) 계산되며, 다음 식과 같이 표현될 수 있다.6, two or more camera smartphones (
Figure pat00007
,
Figure pat00008
,
Figure pat00009
Etc.), one smartphone for the object of interest (for example, a person, a doll, etc.), and an application developed for data recording. Camera devices are looking at the object from different angles, and the object changes direction throughout the video. Since cameras start recording at different times (some early, some late), it is necessary to cut individual videos after shooting to make them start at exactly the same time and for the same duration. There is. For this and another purpose, synchronization between devices is required. Therefore, although it was decided to use a public time server, Bluetooth or Wi-Fi P2P connections between devices also work well. Devices attached to objects of interest (
Figure pat00010
The direction of the object (
Figure pat00011
), because it is not the same as the orientation of the camera, although very similar (for example, the smartphone inside the pocket has a small angle between the person's actual orientation and the smartphone's orientation vector), the rotation matrix of the camera smartphone before the actual shooting The calibration values of these should be recorded. This is done in the following way. The object of interest is rotated with the first camera and the application records the calibration values and timestamp. After that, the object rotates with the second camera and repeats. The calibration values are the calibration angles (
Figure pat00012
,
Figure pat00013
,
Figure pat00014
Etc.), which will help to recognize the correct camera point of view. During video shooting, all smartphones (camera and object device) record rotation matrix data along with time stamps. After recording, this data is used to calculate the z-axis and direction vectors of all pawns with respect to the world coordinate system. The z-axis vectors of the cameras (
Figure pat00015
,
Figure pat00016
,
Figure pat00017
) Is the object's pawn direction vector over time (
Figure pat00018
), and accordingly, the correct camera viewpoint is selected. More precisely, frames are selected according to the following heuristics. For every frame and every camera device, the angle between the camera z-axis vector and the device direction vector of the object is calculated (through a dot product), and can be expressed as the following equation.

[수학식 1][Equation 1]

Figure pat00019
Figure pat00019

카메라의 z축 벡터와 물체의 장치 방향 벡터 간의 각도를 카메라의 벡터에서 물체 장치의 방향 벡터까지의 반시계 방향 유향각(directed counterclockwise angle)으로 정의하는 점을 주목하는 것은 중요하다. 그 후, 교정 시점에서의 각도(

Figure pat00020
, 즉 교정 각)와 비교되며, 이 두 각도 간의 가장 작은 절대 값 차이를 갖는 카메라가 선택된다. 즉, 다음 식과 같이 표현될 수 있다.It is important to note that the angle between the z-axis vector of the camera and the device direction vector of the object is defined as a directed counterclockwise angle from the vector of the camera to the direction vector of the object device. After that, the angle at the time of calibration (
Figure pat00020
, That is, the calibration angle), and the camera with the smallest absolute difference between these two angles is selected. That is, it can be expressed as the following equation.

[수학식 2][Equation 2]

Figure pat00021
Figure pat00021

아래에서는 장치의 동기화에 대해 설명한다. The following describes device synchronization.

모션 센서 데이터 타임라인 내 관심 있는 동작의 시각을 갖고 있으므로(즉, 펀치/가격, 가장 높은 점프 위치, 시점), 비디오 타임라인 내에 대응하는 시각을 찾아야 할 필요가 있다. 실제적으로, 모션과 카메라 폰은 서로 다른 시계의 시각을 가질 수도 있기 때문에 모션 센서 데이터 및 비디오는 시간적으로 정렬되지 않는다. 따라서, 비디오 프레임을 검색하기 이전에 폰을 동기화할 필요가 있다.Since you have the time of the motion of interest in the motion sensor data timeline (ie, the punch/price, the highest jump position, the time point), you need to find the corresponding time in the video timeline. In practice, motion sensor data and video are not temporally aligned because motion and camera phones may have different clock times. Therefore, it is necessary to synchronize the phone before searching for a video frame.

위에서 설명한 바와 같이, 폰의 시계는 같지 않아서(즉, 시각대(time zones), 네트워크에 의한 설정, 수동 설정 등) 모션 센서 데이터 및 비디오는 시간적으로 정렬되지 않는다. 이는 폰을 동기화해야 하는 이유이다. 기준 시간(reference time)(폰 중 하나의 시계)에 대해 무선 연결을 통하여 스마트폰들을 시간적으로 동기화한다. 만족스러운 동기화 결과를 제공하는 두 가지 방법들을 테스트했다. 첫 번째 방법은 장치들 간의 블루투스 네트워크 또는 로컬 와이파이를 통해 기준 시간(즉, 장치들 중에서 기준 폰이라고 부르는 어느 하나의 시간)을 보내는 것이다. 두 번째 방법은 인터넷 연결을 통해 공공 시간 서버에 양 장치들을 연결해서 공통 기준 시간을 얻는 것이다. 그 이후, 기준 시간이 주어졌을 때, 한 방법은 휴대폰의 시계를 기준 시간으로 변경하는 것인데, 이는 사용자에게 불편할 수 있다(즉, 시각대, 사용자 선호 등). 대신, 기준 시간과 휴대폰의 내부 시계 사이의 차이를 측정하고 저장한다. 이 동기화 과정은 오직 한 번 수행되며 앱이 실행될 때 완전히 자동적이다.As explained above, the phones' clocks are not the same (ie, time zones, network settings, manual settings, etc.) so the motion sensor data and video are not temporally aligned. That's why you need to sync your phone. The smartphones are temporally synchronized through a wireless connection to a reference time (one of the phones). We tested two methods of providing satisfactory synchronization results. The first method is to send a reference time (ie, any one of the devices called a reference phone) over a Bluetooth network or local Wi-Fi between devices. The second method is to connect both devices to a public time server through an Internet connection to obtain a common reference time. Thereafter, given the reference time, one method is to change the clock of the mobile phone to the reference time, which can be inconvenient to the user (ie, time zone, user preference, etc.). Instead, it measures and stores the difference between the reference time and the phone's internal clock. This synchronization process is performed only once and is fully automatic when the app is launched.

이 동기화 덕분에, 이제

Figure pat00022
를 모션 폰의 시계에서 카메라 폰의 시계로 변환할 수 있어서, 점프 시간에 대응하는 비디오 프레임을 자동적으로 검색할 수 있다. 이제 휴대폰들이 동기화되었다고 가정하면, 시간
Figure pat00023
를 (앱에서 설정된) 비디오 프레임 속도를 알려주는 프레임 인덱스 y로 변환할 수 있으며, 그 시간 인덱스의 비디오 프레임을 반환할 수 있다. 계산된 프레임 인덱스가 정수가 아닌 경우에, 시간적으로 가장 가까운 비디오 프레임을 선택한다. 대표적인 결과는 도 5의 (b)에 도시된 바와 같다.Thanks to this synchronization, now
Figure pat00022
Can be converted from the motion phone's watch to the camera phone's watch, so that the video frame corresponding to the jump time can be automatically searched. Now, assuming that the phones are synchronized, the time
Figure pat00023
Can be converted to a frame index y indicating the video frame rate (set in the app), and a video frame at that temporal index can be returned. If the calculated frame index is not an integer, the temporally closest video frame is selected. Representative results are as shown in Figure 5 (b).

본 실시예에 따른 모션 센서 기반 접근 방법의 일반적인 알고리즘을 기반으로 하여, 이제 다수의 모션 센서로 확장할 수 있다.Based on the general algorithm of the motion sensor-based approach according to the present embodiment, it can now be extended to multiple motion sensors.

도 7은 일 실시예에 따른 단체 점프 사진의 상황에서 다수의 모션 센서들에 대한 모션 센서 기반 접근 방법을 설명하기 위한 도면이다. 7 is a diagram for describing a motion sensor-based approach to a plurality of motion sensors in the context of a group jump photograph according to an exemplary embodiment.

도 7에 도시된 바와 같이, 각각이 모션 폰을 착용하고 있고 하나의 카메라 폰에 의해 동시에 촬영되는 몇몇 사람들의 경우를 고려한다. 도 7의 (a)는 데이터 획득 설정을 나타내는 것으로, 점프하는 두 사람은 모션 폰을 착용하며 그들의 점프 비디오는 카메라 폰에서 기록된다. (b), (c) 및 (d)는 두 사람이 동시에 점프하지 않을 수 있기 때문에, 두 사람이 가장 높은 위치에 있는 이미지가 없을 수도 있다. 이에, 일 실시예에 따르면 (b) 및 (c)에 도시된 바와 같이, 점프하는 각 사람이 가장 높은 위치에 있는 이미지를 자동적으로 검색할 수 있다. 그 후, (c)에 도시된 바와 같이, 이러한 두 가지 이미지들을 결합하여 두 사람이 가장 높은 위치에 있는 최종적인 결과를 생성할 수 있다.As shown in Fig. 7, consider the case of several people, each wearing a motion phone and being photographed simultaneously by one camera phone. 7(a) shows the data acquisition setup, where two jumping people wear motion phones, and their jumping video is recorded on the camera phone. (b), (c) and (d) may not have an image where the two people are in the highest position, since two people may not jump at the same time. Accordingly, according to an embodiment, as shown in (b) and (c), an image in which each jumping person is at the highest position may be automatically searched. Thereafter, as shown in (c), these two images can be combined to produce the final result in which the two people are in the highest position.

사용자 인터페이스의 관점에서, 사용자들은 그들의 폰의 모드(모션 센서)를 간단히 선택할 필요가 있다.In terms of the user interface, users simply need to select their phone's mode (motion sensor).

앞에서 설명한 본 실시예에 따른 모션 센서 기반 접근 방법의 일반적인 접근법을 기반으로 하여, 다수의 카메라들로 확장할 수 있다. Based on the general approach of the motion sensor-based approach according to the present embodiment described above, it can be extended to a plurality of cameras.

도 8은 일 실시예에 따른 불릿 타임(bullet time) 효과를 위한 데이터 캡처에 대한 스마트폰 배열을 설명하기 위한 도면이다. 8 is a diagram illustrating an arrangement of a smartphone for data capture for a bullet time effect according to an exemplary embodiment.

도 8에 도시된 바와 같이, 모션 폰을 착용하고 있고 동시에 다수의 카메라에 의해 촬영되는 한 사람의 경우를 고려한다. 이 설정은 영화 매트릭스(Matrix)에 의해 알려진 불릿 타임(bullet time) 효과를 완전히 자동적인 방법으로 생성할 수 있도록 한다. 복잡한 상업 카메라 배열 시스템과 비교했을 때, 모션 센서 기반 접근 방법은 어디에나 존재하는 스마트폰을 사용하며 일상적인 사용자들이 사용하기에 용이한 저비용 저무게 카메라 배열이다. 기존에 스마트폰 카메라의 사용을 검토했지만 “얼리기(freeze)” 위해 수동으로 시간을 선택할 필요가 있었다. 이와 대조적으로, 본 실시예에 따른 모션 센서 기반 접근 방법은 완전히 자동적인 방법으로 동작할 수 있다.As shown in Fig. 8, consider the case of one person wearing a motion phone and being photographed by multiple cameras at the same time. This setting allows the creation of the bullet time effect known by the Movie Matrix in a fully automatic way. Compared to the complex commercial camera array system, the motion sensor-based approach is a low-cost, low-weight camera array that is easy to use by everyday users using smartphones that are ubiquitous. Previously, the use of smartphone cameras was considered, but it was necessary to manually select the time to “freeze”. In contrast, the motion sensor-based approach according to this embodiment can operate in a fully automatic manner.

본 실시예에 따른 모션 센서 기반 접근 방법을 위해, 카메라 순서를 알아야 한다(가장 왼쪽에 있는 것, 두 번째로 왼쪽에 있는 것 등). 이는 수동으로 해결될 수 있다. 카메라 순서를 자동적으로 얻기 위하여, 자이로스코프 데이터(yaw 각도)를 사용할 수 있다.For the motion sensor-based approach according to this embodiment, the camera order must be known (the leftmost one, the second one on the left, etc.). This can be resolved manually. To get the camera sequence automatically, you can use the gyroscope data (yaw angle).

도 9는 일 실시예에 따른 불릿 타임(bullet time) 시점에 대한 예시를 나타내는 도면이다. 9 is a diagram illustrating an example of a bullet time point according to an embodiment.

도 9를 참조하면, 스마트폰 시스템을 사용한 모션 센서 기반 접근 방법에 의해 자동적으로 촬영된 불릿 효과(bullet effect) 시점의 예시를 나타내는 것으로, 시점들은 더 나은 디스플레이를 위해 크로핑되었다(cropping).Referring to FIG. 9, as an example of a bullet effect viewpoint automatically photographed by a motion sensor-based approach method using a smartphone system, the viewpoints are cropped for better display.

사용자는 스마트폰 스크린을 간단히 밀어서(swipe), 캡처된 불릿 타임(bullet time) 시점을 통하여 슬라이드 쇼처럼 브라우징할(browse) 수 있다. The user can simply swipe the smartphone screen and browse through the captured bullet time point as a slide show.

도 10은 일 실시예에 따른 자이로-기반 브라우징의 예시를 나타내는 도면이다. 10 is a diagram illustrating an example of gyro-based browsing according to an embodiment.

또한, 도 10에 도시된 바와 같이, 사용자가 스마트폰을 자연스럽게 회전할 수 있는 자이로스코프-기반 접근법을 구현할 수 있다. 즉, 촬영된 불릿 효과(bullet effect) 시점들을 통한 자이로-기반 브라우징의 예시를 나타내는 것으로, 사용자가 직관적으로 스마트폰을 회전시킬 수 있다.In addition, as shown in FIG. 10, a gyroscope-based approach can be implemented in which the user can naturally rotate the smartphone. That is, as an example of gyro-based browsing through photographed bullet effect viewpoints, the user can intuitively rotate the smartphone.

캡처 시에, 스마트폰의 자이로스코프에서 얻은 각 카메라의 방향을 저장한다. 그 후, 디스플레이 시에 사용자가 시점들을 볼 때, 그 스마트폰의 자이로스코프 값을 읽고 가장 가까운 불릿(bullet) 시점으로 자동적으로 전환한다.When capturing, the orientation of each camera obtained from the smartphone's gyroscope is stored. After that, when the user sees viewpoints during display, the gyroscope value of the smartphone is read and automatically switches to the nearest bullet viewpoint.

실시예들에 따르면 정확한 시점에 모션 효과(예: 일부 슬로우 모션)를 적용함으로써, 비주얼 트래킹(visual tracking)이나 비디오 분석(video analysis)을 실행하지 않고 자동으로 동작하는 스마트폰을 이용한 사진 및 비디오 자동 촬영 및 편집을 위한 모션 센서 기반 접근 방법 및 장치를 제공할 수 있다.According to embodiments, by applying a motion effect (eg, some slow motion) at a precise point in time, photos and videos are automatically operated using a smartphone that automatically operates without performing visual tracking or video analysis. A motion sensor-based approach and apparatus for shooting and editing can be provided.

이상과 같이 실시예들에 따르면 자동 카메라 제어, 사진/비디오 캡처, 프레임 선택, 비디오 편집(예: 로컬 슬로우 모션), 카메라 선택(멀티 카메라 설정에서) 공동 오디오-비디오 편집(예: 음악을 기반으로 한 비디오 리 타이밍) 등이 가능하다. 그리고, 실시예들에 따른 접근 방식은 완전 자동으로 실행된다. 자동으로 데이터를 기록하고 처리하며 결과를 반환하는 것으로, 완전히 자동이며 몇 초 안에 실행될 수 있다. 또한, 실시예들에 따른 접근 방식은 직관적이고, 소프트웨어 전용이며 간단한 계산을 수행한다. 이러한 실시예들에 따른 기술은 사진/비디오 특수 효과(예: 자동 점프 사진, 자동 슬로우 모션, 최적의 프레임 선택, 사운드/음악 효과, 로고 오버레이)를 위해 Instagram, Facebook 및 Snapchat과 같은 주요 소셜 네트워크 앱과 통합될 수도 있다. As described above, according to the embodiments, automatic camera control, photo/video capture, frame selection, video editing (e.g. local slow motion), camera selection (in multi-camera settings), joint audio-video editing (e.g., based on music). One video retiming), etc. are possible. And, the approach according to the embodiments is executed completely automatically. Automatically recording data, processing, and returning results, is fully automatic and can be run in seconds. In addition, the approach according to the embodiments is intuitive, software-only, and performs simple calculations. The technology according to these embodiments can be used with major social network apps such as Instagram, Facebook and Snapchat for photo/video special effects (e.g. auto jump photos, auto slow motion, optimal frame selection, sound/music effects, logo overlay). It can also be integrated with.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and/or a combination of a hardware component and a software component. For example, the devices and components described in the embodiments include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA), It may be implemented using one or more general purpose computers or special purpose computers, such as a programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications executed on the operating system. Further, the processing device may access, store, manipulate, process, and generate data in response to the execution of software. For the convenience of understanding, although it is sometimes described that one processing device is used, one of ordinary skill in the art, the processing device is a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of these, configuring the processing unit to operate as desired or processed independently or collectively. You can command the device. Software and/or data may be interpreted by a processing device or, to provide instructions or data to a processing device, of any type of machine, component, physical device, virtual equipment, computer storage medium or device. Can be embodyed. The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -A hardware device specially configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those produced by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described by the limited embodiments and drawings as described above, various modifications and variations can be made from the above description to those of ordinary skill in the art. For example, the described techniques are performed in a different order from the described method, and/or components such as systems, structures, devices, circuits, etc. described are combined or combined in a form different from the described method, or other components Alternatively, even if substituted or substituted by an equivalent, an appropriate result can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and those equivalent to the claims also fall within the scope of the claims to be described later.

Claims (16)

제1 단말 및 제2 단말이 무선 통신을 통해 연결되는 동기화 단계;
상기 제1 단말의 카메라로 비디오를 기록하는 데이터 획득 단계; 및
촬영 대상인 사람 또는 물체가 가지고 있는 상기 제2 단말로부터 기록된 모션 센서 데이터를 전달 받아, 상기 모션 센서 데이터를 분석하여 감지하는 데이터 처리 단계
를 포함하는, 모션 센서 기반 접근 방법.
A synchronization step in which the first terminal and the second terminal are connected through wireless communication;
A data acquisition step of recording a video with a camera of the first terminal; And
Data processing step of receiving recorded motion sensor data from the second terminal possessed by a person or object to be photographed, and analyzing and detecting the motion sensor data
Including a motion sensor-based approach.
제1항에 있어서,
상기 동기화 단계는,
상기 제1 단말 및 상기 제2 단말을 동기화하여 상기 모션 센서 데이터의 타임라인을 상기 비디오의 타임라인과 시간적으로 정렬하는 것
을 특징으로 하는, 모션 센서 기반 접근 방법.
The method of claim 1,
The synchronization step,
Synchronizing the first terminal and the second terminal to temporally align the timeline of the motion sensor data with the timeline of the video
A motion sensor-based approach, characterized in that.
제1항에 있어서,
상기 데이터 처리 단계는,
상기 제2 단말로부터 임계 값 이상의 가속이 발생하는 순간 또는 상기 제2 단말의 방향이 목표 방향과 일치하는 순간의 상기 모션 센서 데이터에 대한 동작 시각을 전달 받아, 상기 동작 시각에 대응하는 비디오 프레임 또는 세그먼트를 자동으로 선택하는 단계
를 포함하는, 모션 센서 기반 접근 방법.
The method of claim 1,
The data processing step,
A video frame or segment corresponding to the motion time by receiving the motion time of the motion sensor data at the moment when acceleration of more than a threshold value occurs from the second terminal or the moment the direction of the second terminal coincides with the target direction Steps to automatically select
Including a motion sensor-based approach.
제3항에 있어서,
상기 데이터 처리 단계는,
애드혹(adhoc) 처리 기술을 통해 상기 임계 값을 설정하는 단계
를 더 포함하는, 모션 센서 기반 접근 방법.
The method of claim 3,
The data processing step,
Setting the threshold value through adhoc processing technology
Further comprising a motion sensor-based approach.
제3항에 있어서,
상기 데이터 처리 단계는,
상기 동작 시각에 대응하는 비디오 프레임 또는 세그먼트에 슬로우 모션, 카메라 선택, 텍스트 중첩, 오디오 효과 및 음악 중 적어도 어느 하나 이상의 비디오 효과를 제공하는 단계
를 더 포함하는, 모션 센서 기반 접근 방법.
The method of claim 3,
The data processing step,
Providing at least one video effect of slow motion, camera selection, text superimposition, audio effect, and music to a video frame or segment corresponding to the motion time
Further comprising a motion sensor-based approach.
제1항에 있어서,
상기 데이터 처리 단계는,
점프 위치의 시각을 자동적으로 계산하기 위해, 촬영 대상인 사람이 가지고 있는 상기 제2 단말에서 획득한 가장 높은 수직 가속도를 갖는 두 개의 시각을 감지하는 단계; 및
감지된 상기 두 개의 시각을 도약 및 착지로 인식하고, 상기 두 개의 시각 사이의 중간 시각을 점프 시각으로 인식하여 대응하는 비디오 프레임을 반환하는 단계
를 포함하는, 모션 센서 기반 접근 방법.
The method of claim 1,
The data processing step,
Detecting two times having the highest vertical acceleration acquired from the second terminal possessed by the person to be photographed in order to automatically calculate the time of the jump position; And
Recognizing the two detected times as jumping and landing, recognizing an intermediate time between the two times as a jump time, and returning a corresponding video frame
Including a motion sensor-based approach.
제1항에 있어서,
상기 데이터 처리 단계는,
가격(hit) 시각을 자동적으로 계산하기 위해, 촬영 대상인 사람 또는 물체가 가지고 있는 상기 제2 단말에서 획득한 가속도의 피크를 감지하는 단계; 및
감지된 상기 가속도의 피크를 가격(hit) 시각으로 인식하고, 대응하는 비디오 프레임을 반환하는 단계
를 포함하는, 모션 센서 기반 접근 방법.
The method of claim 1,
The data processing step,
Detecting a peak of acceleration acquired by the second terminal of a person or object to be photographed in order to automatically calculate a hit time; And
Recognizing the detected acceleration peak as a hit time, and returning a corresponding video frame
Including a motion sensor-based approach.
제6항 또는 제7항에 있어서,
상기 제2 단말은,
가속도계 또는 자이로스코프 데이터를 획득하는 것
을 특징으로 하는, 모션 센서 기반 접근 방법.
The method according to claim 6 or 7,
The second terminal,
Acquiring accelerometer or gyroscope data
A motion sensor-based approach, characterized in that.
제1항에 있어서,
상기 제1 단말 및 상기 제2 단말은,
스마트폰(smart phone)이며, 상기 스마트폰을 이용하여 비디오의 촬영 후 자동 편집하는 것
을 특징으로 하는, 모션 센서 기반 접근 방법.
The method of claim 1,
The first terminal and the second terminal,
It is a smart phone, and automatically edits the video after shooting using the smart phone.
A motion sensor-based approach, characterized in that.
제1 단말 및 제2 단말이 무선 통신을 통해 연결되는 동기화부;
상기 제1 단말의 카메라로 비디오를 기록하는 데이터 획득부; 및
촬영 대상인 사람 또는 물체가 가지고 있는 상기 제2 단말로부터 기록된 모션 센서 데이터를 전달 받아, 상기 모션 센서 데이터를 분석하여 감지하는 데이터 처리부
를 포함하는, 모션 센서 기반 접근 장치.
A synchronization unit to which the first terminal and the second terminal are connected through wireless communication;
A data acquisition unit for recording video with a camera of the first terminal; And
A data processing unit that receives recorded motion sensor data from the second terminal possessed by a person or object to be photographed, and analyzes and detects the motion sensor data
Containing, motion sensor-based access device.
제10항에 있어서,
상기 동기화부는,
상기 제1 단말 및 상기 제2 단말을 동기화하여 상기 모션 센서 데이터의 타임라인을 상기 비디오의 타임라인과 시간적으로 정렬하는 것
을 특징으로 하는, 모션 센서 기반 접근 장치.
The method of claim 10,
The synchronization unit,
Synchronizing the first terminal and the second terminal to temporally align the timeline of the motion sensor data with the timeline of the video
A motion sensor-based approach device, characterized in that.
제10항에 있어서,
상기 데이터 처리부는,
상기 제2 단말로부터 임계 값 이상의 가속이 발생하는 순간 또는 상기 제2 단말의 방향이 목표 방향과 일치하는 순간의 상기 모션 센서 데이터에 대한 동작 시각을 전달 받아, 상기 동작 시각에 대응하는 비디오 프레임 또는 세그먼트를 자동으로 선택하는 것
을 특징으로 하는, 모션 센서 기반 접근 장치.
The method of claim 10,
The data processing unit,
A video frame or segment corresponding to the motion time by receiving the motion time of the motion sensor data at the moment when acceleration of more than a threshold value occurs from the second terminal or the moment the direction of the second terminal coincides with the target direction To automatically select
A motion sensor-based approach device, characterized in that.
제12항에 있어서,
상기 데이터 처리부는,
상기 동작 시각에 대응하는 비디오 프레임 또는 세그먼트에 슬로우 모션, 카메라 선택, 텍스트 중첩, 오디오 효과 및 음악 중 적어도 어느 하나 이상의 비디오 효과를 제공하는 것
을 특징으로 하는, 모션 센서 기반 접근 장치.
The method of claim 12,
The data processing unit,
Providing at least one video effect of slow motion, camera selection, text superimposition, audio effect, and music to a video frame or segment corresponding to the motion time
A motion sensor-based approach device, characterized in that.
제10항에 있어서,
상기 데이터 처리부는,
점프 위치의 시각을 자동적으로 계산하기 위해, 촬영 대상인 사람이 가지고 있는 상기 제2 단말에서 획득한 가장 높은 수직 가속도를 갖는 두 개의 시각을 감지하며, 감지된 상기 두 개의 시각을 도약 및 착지로 인식하고, 상기 두 개의 시각 사이의 중간 시각을 점프 시각으로 인식하여 대응하는 비디오 프레임을 반환하는 것
을 특징으로 하는, 모션 센서 기반 접근 장치.
The method of claim 10,
The data processing unit,
In order to automatically calculate the time of the jump position, two times with the highest vertical acceleration acquired from the second terminal possessed by the person to be photographed are detected, and the detected two times are recognized as jumping and landing. , Recognizing an intermediate time between the two times as a jump time and returning a corresponding video frame
A motion sensor-based approach device, characterized in that.
제10항에 있어서,
상기 데이터 처리부는,
가격(hit) 시각을 자동적으로 계산하기 위해, 촬영 대상인 사람 또는 물체가 가지고 있는 상기 제2 단말에서 획득한 가속도의 피크를 감지하며, 감지된 상기 가속도의 피크를 가격(hit) 시각으로 인식하고, 대응하는 비디오 프레임을 반환하는 것
을 특징으로 하는, 모션 센서 기반 접근 장치.
The method of claim 10,
The data processing unit,
In order to automatically calculate the hit time, the peak of the acceleration acquired by the second terminal possessed by the person or object to be photographed is detected, and the detected peak of the acceleration is recognized as the hit time, Returning the corresponding video frame
A motion sensor-based approach device, characterized in that.
제10항에 있어서,
상기 제1 단말 및 상기 제2 단말은,
스마트폰(smart phone)이며, 상기 스마트폰을 이용하여 비디오의 촬영 후 자동 편집하는 것
을 특징으로 하는, 모션 센서 기반 접근 장치.
The method of claim 10,
The first terminal and the second terminal,
It is a smart phone, and automatically edits the video after shooting using the smart phone.
A motion sensor-based approach device, characterized in that.
KR1020190101525A 2019-08-20 2019-08-20 Motion sensor-based approach method and apparatus for automatic capture and editing of photos and videos KR20210022279A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190101525A KR20210022279A (en) 2019-08-20 2019-08-20 Motion sensor-based approach method and apparatus for automatic capture and editing of photos and videos

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190101525A KR20210022279A (en) 2019-08-20 2019-08-20 Motion sensor-based approach method and apparatus for automatic capture and editing of photos and videos

Publications (1)

Publication Number Publication Date
KR20210022279A true KR20210022279A (en) 2021-03-03

Family

ID=75151159

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190101525A KR20210022279A (en) 2019-08-20 2019-08-20 Motion sensor-based approach method and apparatus for automatic capture and editing of photos and videos

Country Status (1)

Country Link
KR (1) KR20210022279A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022192883A1 (en) * 2021-03-12 2022-09-15 Snap Inc. Automated video editing to add visual or audio effect corresponding to a detected motion of an object in the video
US11581019B2 (en) 2021-03-12 2023-02-14 Snap Inc. Automated video editing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Dan Morris, T. Scott Saponas, Andrew Guillory, and Ilya Kelner. 2014. RecoFit: using a wearable sensor to find, recognize, and count repetitive exercises. In ACM Human Factors in Computing Systems (CHI). 3225-3234.

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022192883A1 (en) * 2021-03-12 2022-09-15 Snap Inc. Automated video editing to add visual or audio effect corresponding to a detected motion of an object in the video
US11581019B2 (en) 2021-03-12 2023-02-14 Snap Inc. Automated video editing
CN116964674A (en) * 2021-03-12 2023-10-27 斯纳普公司 Automated video editing for adding visual or audio effects corresponding to detected object motion in video
US11967343B2 (en) 2021-03-12 2024-04-23 Snap Inc. Automated video editing

Similar Documents

Publication Publication Date Title
US10721439B1 (en) Systems and methods for directing content generation using a first-person point-of-view device
US9589595B2 (en) Selection and tracking of objects for display partitioning and clustering of video frames
JP6419830B2 (en) System, method and apparatus for image retrieval
EP2763077B1 (en) Method and apparatus for sensor aided extraction of spatio-temporal features
US9413947B2 (en) Capturing images of active subjects according to activity profiles
KR102091848B1 (en) Method and apparatus for providing emotion information of user in an electronic device
US10070046B2 (en) Information processing device, recording medium, and information processing method
US8538153B2 (en) System and method for enabling meaningful interaction with video based characters and objects
US20180063514A1 (en) Image processing apparatus, image processing method, and storage medium
JP2015523010A (en) Automatic digital curation and action video tagging
US9934820B2 (en) Mobile device video personalization
CN112653848B (en) Display method and device in augmented reality scene, electronic equipment and storage medium
CN101639354A (en) Method and apparatus for object tracking
JP6649231B2 (en) Search device, search method and program
JP2018504802A5 (en)
WO2017173933A1 (en) Object image display method, device, and system
CN112637665B (en) Display method and device in augmented reality scene, electronic equipment and storage medium
KR20210022279A (en) Motion sensor-based approach method and apparatus for automatic capture and editing of photos and videos
KR101938381B1 (en) Imaging apparatus and imaging method
JP2008287594A (en) Specific movement determination device, reference data generation device, specific movement determination program and reference data generation program
KR20170086859A (en) Method of displaying golf swing and mobile device for performing the same and golf swing analyzing system having the mobile device
Chen Capturing fast motion with consumer grade unsynchronized rolling-shutter cameras
Lee Novel video stabilization for real-time optical character recognition applications
Karjauv et al. Motionsnap: A Motion Sensor-Based Approach for Automatic Capture and Editing of Photos and Videos on Smartphones
Zamanov Applying Computer Vision Methods on Mobile Devices for BallSpeed Measurements