KR20190078800A

KR20190078800A - 3차 투영법을 이용한 인터랙티브 360 비디오 어노테이션 방법

Info

Publication number: KR20190078800A
Application number: KR1020170180486A
Authority: KR
Inventors: 조근식; 장정훈
Original assignee: 인하대학교 산학협력단
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2019-07-05
Also published as: KR102008072B1

Abstract

3차 투영법을 이용한 인터랙티브 360 비디오 어노테이션 방법이 개시된다. 일 실시예에 따른 360 비디오 어노테이션 방법은, 360 비디오에서 추출된 프레임으로부터 3차 투영된 이미지를 생성하는 단계; 상기 생성된 3차 투영된 이미지에서 3차 투영된 이미지에 포함된 물체를 인식하는 단계; 상기 3차 투영된 이미지 및 이미지에서 인식된 물체에 대하여 각각의 물체 정보를 취합하여 메타데이터로 저장하는 단계; 및 상기 3차 투영된 이미지에 상기 물체에 대한 물체 정보를 메타데이터로 저장하여 어노테이션을 생성하는 단계를 포함할 수 있다.

Description

3차 투영법을 이용한 인터랙티브 360 비디오 어노테이션 방법{ANNOTATION METHOD FOR INTERACTIVE 360 VIDEO USING CUBIC PROJECTION}

아래의 설명은 3차 투영법을 이용한 인터랙티브 360 비디오 어노테이션 기술에 관한 것이다.

인터랙티브 비디오(Interactive Video)는 비디오에 클릭 가능한 객체나 영역, 핫스팟(Hot spot)을 제공하여 사용자와 상호작용을 통해 추가적인 정보나 기능을 제공하는 비디오를 말한다. 여기서 상호작용은 비디오 위에 클릭이나 터치 등과 같은 입력을 주는 것이다. 인터랙티브 비디오는 비디오에 등장하는 물체의 정보를 웹과 연동하여 제공하거나 상품 구매 유도, 게임, 관련된 비디오에 연결하는 등 다양한 서비스를 제공할 수 있다. 인터랙티브 비디오를 저작하기 위해서 어노테이터가 인터랙티브 비디오 저작 도구를 사용하여 어노테이션 할 객체의 위치와 클릭할 때 제공할 정보를 지정하는 과정이 필요하다. 인터랙티브 비디오를 저작하는 방법에 관한 많은 연구가 있었고 그에 따라 다양한 인터랙티브 비디오 저작 도구가 개발되었다.

저작 도구마다 저작하는 방법에 다소 차이가 있으나 일반적으로 1)비디오에서 인터랙션할 물체나 영역을 결정하고, 2)인터랙션할 물체나 영역의 위치, 크기, 인터랙션 가능 시간 등의 정보를 저장하고, 3)클릭 시 제공할 정보 또는 기능 설정하여 4)정보를 요약하고 메타데이터로 저장하는 공통된 과정이 필요하다. 상기 과정 1과 2에서 어노테이터가 직접 비디오를 시청하면서 작업하는 시간을 단축하기 위해 비디오에서 물체나 사람의 얼굴을 인식하는 방법을 이용하여 물체의 위치, 등장 시간 등의 정보를 자동으로 추출하는 연구가 진행되어 왔다.

한편 360도 녹화가 가능한 카메라가 널리 퍼지면서 360비디오 컨텐츠가 급속도로 증가하고 있다. 이에 따라 인터랙티브 360비디오의 수요가 증가하고 있지만 360비디오의 경우 구면의 정보를 평면에서 표현할 때 발생하는 왜곡에 의해 물체 인식 기반의 자동 어노테이션 방법을 적용하기가 쉽지 않다.

참고자료: 한국공개특허 제10-2015-0106879, 한국공개특허 제10-2014-0054025

360도 비디오 프레임에 3차 투영법을 적용하여 왜곡이 없는 복수 개의 평면 이미지를 추출하여 물체를 인식하여 물체의 레이블과 위치 정보를 메타데이터로 저장하여 어노테이션을 생성하는 시스템 및 방법을 제공할 수 있다.

또한, 이러한 방법을 통하여 인터랙티브 360 비디오를 효율적으로 저작하는 어노테이션 시스템 및 방법을 제공할 수 있다.

어노테이션 시스템에 의해 수행되는 360 비디오 어노테이션 방법은, 360 비디오에서 추출된 프레임으로부터 3차 투영된 이미지를 생성하는 단계; 상기 생성된 3차 투영된 이미지에서 3차 투영된 이미지에 포함된 물체를 인식하는 단계; 상기 3차 투영된 이미지 및 이미지에서 인식된 물체에 대하여 각각의 물체 정보를 취합하여 메타데이터로 저장하는 단계; 및 상기 3차 투영된 이미지에 상기 물체에 대한 물체 정보를 메타데이터로 저장하여 어노테이션을 생성하는 단계를 포함할 수 있다.

상기 360 비디오에서 추출된 프레임으로부터 3차 투영된 이미지를 생성하는 단계는, 360 비디오를 위도 정보 및 경도 정보를 평면에 반영하는 등변 투영된 이미지에 x축, y축, z축에 대하여 회전시켜 3차원 좌표를 매핑시키고, 상기 매핑된 3차원 좌표에 픽셀 값을 지정함으로써 상기 등변 투영된 이미지가 3차 투영된 이미지로 변환되는 단계를 포함할 수 있다.

상기 생성된 3차 투영된 이미지에서 3차 투영된 이미지에 포함된 물체를 인식하는 단계는, 상기 3차 투영된 이미지를 각 면단위로 분할하고, 상기 각 면단위로 분할된 3차 투영된 이미지에서 물체의 레이블과 위치를 계산하는 단계를 포함하고, 상기 3차 투영된 이미지 및 이미지에서 인식된 물체에 대하여 각각의 물체 정보를 취합하여 메타데이터로 저장하는 단계는, 상기 물체의 레이블과 위치를 계산함에 따라 획득된 물체 정보와 상기 3차 투영된 이미지의 각 면의 정보를 통합하여 메타데이터를 생성하는 단계를 포함할 수 있다.

상기 메타데이터는 계층형 구조를 형성하고, 상기 360 비디오는 제목 정보를 가지고 하위에 복수의 360 비디오 프레임을 포함하고, 상기 360 비디오 프레임은 시간 정보를 가지고 하위에 복수의 면(face) 이미지를 포함하고, 상기 면 이미지는 위치 정보를 가지고 하위에 물체 검출로 인식된 물체(object)를 포함하고-면은 상기 360 비디오 프레임에 3차 투영법을 적용하고 6개로 분할한 이미지를 의미함-; 상기 물체는 레이블 정보, 위치 정보, 시간 속성을 포함할 수 있다.

상기 저장된 메타데이터에 기반하여 어노테이션을 생성하는 단계는, 360 비디오 뷰어, 네비게이션, 어노테이션 정보를 포함하는 저작 도구를 제공하는 단계를 포함하고, 상기 360 비디오 뷰어는, 360 비디오를 왜곡없이 비디오 프레임의 일부분을 시청하고, 각도의 전환이 가능하도록 하고, 상기 360 비디오 뷰어에 어노테이션 후보가 표시되고, 사용자에 의하여 입력된 어노테이션이 표시되고, 상기 네비게이션은, 사용자로부터 어노테이션되는 물체를 포함하는 비디오의 시간 정보 및 위치 정보를 검색하는 검색 기능을 제공하고, 상기 어노테이션 정보는, 사용자로부터 작업 중인 비디오에서 어노테이션되는 리스트 표시하고, 각각의 어노테이션에 대한 메타데이터의 정보를 편집하는 기능을 제공하는 단계를 포함할 수 있다.

어노테이션 시스템은, 360 비디오에서 추출된 프레임으로부터 3차 투영된 이미지를 생성하는 이미지 생성부; 상기 생성된 3차 투영된 이미지에서 3차 투영된 이미지에 포함된 물체를 인식하는 인식부; 상기 3차 투영된 이미지 및 이미지에서 인식된 물체에 대하여 각각의 물체 정보를 취합하여 메타데이터로 저장하는 저장부; 및 상기 3차 투영된 이미지에 상기 물체에 대한 물체 정보를 메타데이터로 저장하여 어노테이션을 생성하는 어노테이션 생성부를 포함할 수 있다.

일 실시예에 따른 어노테이션 시스템은 3차 투영법을 이용함으로써 왜곡이 있는 360 비디오 프레임에서도 물체를 정확하게 검출할 수 있다.

일 실시예에 따른 어노테이션 시스템은 저작도구의 네비게이션 기능을 이용하여 인터랙티브 360 비디오 어노테이션에 소요되는 시간을 대폭 절감할 수 있다.

도 1은 일 실시예에 따른 어노테이션 시스템에서 3차 투영법을 이용한 어노테이션 생성 방법을 설명하기 위한 흐름도이다.
도 2는 일 실시예에 따른 어노테이션 시스템에서 등변 투영된 이미지를 3차 투영된 이미지로 변환하는 과정을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 어노테이션 시스템에서 등변 투영된 이미지를 3차 투영된 이미지로 변환된 예를 나타낸 것이다.
도 4는 일 실시예에 따른 어노테이션 시스템에서 z 축 회전으로 3차 투영된 이미지의 옆면들의 경계선에서 발생한 왜곡을 제거한 예이다.
도 5는 일 실시예에 따른 메타데이터의 구조를 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 등변 투영된 이미지와 3차 투영된 이미지에서 물체를 검출한 것을 비교한 예이다.
도 7은 일 실시예에 따른 메타데이터를 이용하여 제공하는 네비게이션을 나타낸 예이다.
도 8은 일 실시예에 따른 어노테이션 시스템의 구성을 설명하기 위한 블록도이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

도 1은 일 실시예에 따른 어노테이션 시스템에서 3차 투영법을 이용한 어노테이션 생성 방법을 설명하기 위한 흐름도이다.

어노테이션 시스템은 인터랙티브 360 비디오의 어노테이션 과정을 설명하기 위한 도면이다. 어노테이션 시스템은 360 비디오 프레임에 3차 투영법을 적용하여 왜곡을 해소한 후, 물체 검출 기반의 알고리즘에 기반하여 물체의 레이블과 위치 정보를 메타데이터로 저장하여 어노테이션을 생성할 수 있다. 또한, 3차 투영법에서 생성된 이미지와 물체 검출로 획득된 정보를 이용하여 저작 도구에서 관심있는 물체의 위치를 빠르게 접근할 수 있도록 하는 네비게이션 기능을 사용할 수 있다.

어노테이션 시스템은 360 비디오에서 프레임을 추출할 수 있다(110). 어노테이션 시스템은 360 비디오에서 추출한 프레임을 3차 투영법(Cube Mapping)을 적용하여 왜곡이 없는 이미지(즉, 3차 투영된 이미지)를 생성할 수 있다(120). 구체적으로, 어노테이션 시스템은 등변 투영된 이미지에서 3차 투영된 이미지로 좌표를 매핑하고, 매핑된 좌표를 이용하여 픽셀 값을 지정할 수 있다. 어노테이션 시스템은 360 비디오를 위도 정보 및 경도 정보를 평면에 반영하는 등변 투영된 이미지에 x축, y축, z축에 대하여 회전시켜 3차원 좌표를 매핑시키고, 매핑된 3차원 좌표에 픽셀 값을 지정함으로써 등변 투영된 이미지를 3차 투영된 이미지로 변환할 수 있다. 이때, 하나의 비디오 내에서의 프레임은 모두 동일한 해상도를 가지기 때문에 각 픽셀의 매핑은 한 번만 계산된다. 아래의 식은 등변 투영된 이미지에서 3차 투영된 이미지로 변환되는 과정을 나타낸 것이다.

3차 투영된 이미지의 각 면(face) 안에서 왜곡이 없지만 면 사이의 경계선에서 왜곡이 발생할 수 있다. 이때, 경계선의 왜곡은 매핑된 3차원 좌표를 각 x 축, y 축, z 에 대해 회전한 이미지를 이용하면 해결할 수 있다. 이후, 각 매핑된 좌표에 실제 픽셀 값을 대입하면, 도 3과 같이 등변 투영된 이미지가 3차 투영된 이미지로 변환될 수 있다. 도 3을 참고하면, 왼쪽은 등변 투영된 이미지를, 오른쪽은 3차 투영된 이미지를 나타낸 것이다. 왼쪽의 등변 투영된 이미지를 3차 투영법을 이용하여 변환함에 따라 오른쪽과 같은 이미지가 된다. 6개의 각 면에서는 이미지의 왜곡이 없지만 면 사이의 경계선에서 왜곡이 발생하기 때문에 각각의 면을 분할(Cut)하여 물체 검출 알고리즘을 적용하여 각 면에 존재하는 물체를 검출할 수 있다(130).

도 4는 z 축 회전으로 3차 투영된 이미지의 옆면들의 경계선에서 발생한 왜곡을 해소한 예이다. 도 4은 3차 투영법을 이용하여 변환된 3차 투영된 이미지를 3차원 좌표에 기반하여 회전시킨 것을 나타낸 것이다. 면의 경계선에 해당하는 부분의 물체 검출은 3차 투영법을 적용할 때 3차원 회전을 적용하여 다른 각도로 투영하는 방법을 해결할 수 있다. 도 4는 3차 투영법 적용 시 z 축으로 45도 회전한 것으로 왼쪽의 이미지에서 후면(back), 좌측면(left), 전면(front), 우측면(right)의 경계선이 오른쪽 이미지에서 면의 중앙으로 이동한 것을 판단할 수 있다.

어노테이션 시스템은 3차 투영된 이미지를 각 면 단위로 분할하고, 물체 검출 알고리즘에 기초하여 물체의 레이블과 위치를 포함하는 물체 정보를 계산할 수 있다. 어노테이션 시스템은 검출된 물체의 정보와 3차 투영된 이미지에서 각 면의 정보를 통합하여 어노테이션 및 네비게이션을 위한 메타데이터를 구성할 수 있다(140). 메타데이터는 각 검출된 물체별로 레이블, 위치 정보(좌표 정보), 등장 시간 정보로 구성될 수 있다. 네비게이션은 3차 투영법으로 생성된 각 면으로 구성되고, 각 면의 중심을 위도와 경도로 계산한 좌표 정보와 각 면에 속한 이미지에 대한 물체의 어노테이션 정보를 포함할 수 있다.

어노테이션 시스템은 메타데이터를 이용하여 인터랙티브 360 비디오 저작을 효율적으로 할 수 있는 저작 도구의 인터페이스의 예시이다. 메타데이터를 이용하여 어노테이션이 가능한 핫스팟을 생성하고 비디오 뷰어에서 보이지 않는 각도에서도 어노테이션이 가능한 물체가 존재함을 알 수 있도록 뷰어 밖에서도 핫스팟을 생성할 수 있다. 어노테이션 정보는 저작 도구에서 편집이 가능하며, 어노테이션한 물체의 리스트와 개별 어노테이션의 정보를 편집할 수 있다. 저작 도구의 하단에는 네비게이션 기능을 사용하여 사용자가 비디오 전체를 시청하지 않고도 빠르게 어노테이션할 수 있다. 사용자는 네비게이션 기능으로 어노테이션할 물체나 시간으로 필터링할 수 있고 3차 투영법의 면 단위의 미리보기 이미지로 내용을 쉽게 파악할 수 있다. 네비게이션의 이미지를 클릭하면 비디오 뷰어가 해당 시간의 같은 각도를 보여주게 된다.

도 2는 일 실시예에 따른 어노테이션 시스템에서 등변 투영된 이미지를 3차 투영된 이미지로 변환하는 과정을 설명하기 위한 도면이다.

일반적으로 360 비디오를 저장할 때, 위도 정보 및 경도 정보를 평면에 반영하는 등변 투영법(Equirectangular projection)이 사용된다. 도 2는 평면 위의 위도, 경도 정보를 정육면체 위의 좌표 정보로 변환한 것을 나타낸 예이다. 왼쪽의 등변 투영된 이미지의 픽셀 값을 잃지 않으면서 모두 3차 투영법에 반영한다. 오른쪽의 top, bottom, back, left, front, right 면(face)만 픽셀이 매핑되고 나머지 면은 픽셀 값이 매핑되지 않는다. 이후에 어노테이션 시스템은 매핑된 6개의 면에 대해서 각각 물체 인식 기법을 적용하여 각각의 면에 존재하는 물체를 인식할 수 있다.

도 5는 일 실시예에 따른 메타데이터의 구조를 설명하기 위한 도면이다.

메타데이터는 계층형 구조로 형성되어 어노테이션과 네비게이션을 생성하는데 필요한 정보를 포함할 수 있다. 360 비디오는 제목 정보를 가지고 하위에 복수의 360 비디오 프레임을 포함하고, 360 비디오 프레임은 시간 정보를 가지고 하위에 복수의 면(face) 이미지를 포함하고, 면 이미지는 위치 정보를 가지고 하위에 물체 검출로 인식된 물체(object)를 포함할 수 있다. 이때, 면은 360 비디오 프레임에 3차 투영법을 적용하고 6개로 분할한 이미지를 의미한다. 물체는 레이블 정보, 위치 정보, 시간 속성을 포함한다.

예를 들면, 어노테이션 생성에 사용할 메타데이터는 각 면에서 검출된 물체들의 글로벌(global) 위치 정보와 레이블, 등장 시간 정보를 포함할 수 있다. 또한, 네비게이션 기능을 위한 메타데이터는 3차 투영법과 물체 검출 알고리즘으로 검출된 물체가 있는 이미지(face)와 물체의 리스트(object labels), 이미지의 global위치, 등장 시간으로 구성된다.

도 6은 일 실시예에 따른 등변 투영된 이미지와 3차 투영된 이미지에서 물체를 검출한 것을 비교한 예이다.

360 비디오 프레임을 그대로 물체를 인식할 경우, 왜곡으로 인하여 잘못된 검출 결과를 획득할 수 있다. 도 6의 맨 위의 이미지는, CNN 기반의 YOLO v2 모델을 이용하여 물체를 검출한 것을 나타낸 예이다. 맨 위의 이미지에 포함된 비행기가 왜곡으로 인하여 우산으로 잘못 검출된 것을 알 수 있다. 그러나, 어노테이션 시스템에 따르면 3차 투영법으로 변환하여 물체를 검출할 경우, 비행기로 올바르게 검출됨을 알 수 있다.

도 7은 일 실시예에 따른 메타데이터를 이용하여 제공하는 네비게이션을 나타낸 예이다.

어노테이션 시스템은 메타데이터를 이용하여 인터랙티브 360 비디오 저작을 할 수 있는 저작 도구와 관련된 인터페이스를 제공할 수 있다. 저작 도구에 존재하는 위쪽의 뷰어는 360 비디오를 제어하거나 다른 각도를 볼 수 있도록 하는 360 비디오 뷰어로서, 뷰어에서 볼 수 있는 색깔이 있는 작은 원은 어노테이션의 상태를 나타내는 것으로 원의 테두리와 원의 내부 색깔로 구분한다. 360 비디오 뷰어는, 360 비디오를 왜곡없이 비디오 프레임의 일부분을 시청하고, 각도의 전환이 가능하도록 하고, 상기 360 비디오 뷰어에 어노테이션 후보가 표시되고, 사용자에 의하여 입력된 어노테이션이 표시될 수 있다. 우선적으로, 원의 테두리 색으로 메타데이터로 생성한 어노테이션 후보(예를 들면, 빨간색)와 사용자가 실제로 어노테이션한 것(예를 들면, 초록색)으로 구분할 수 있다. 원의 안쪽 색은 검출된 물체의 레이블을 대신하는 것으로 아래의 네비게이션 창에서도 볼 수 있다(보라-사람, 빨강-자전거, 노랑-자동차 등). 현재 보고있는 각도에서 벗어난 어노테이션 후보는 화면 밖에 원을 표시하여 방향을 알려주고 원을 클릭 시 뷰어의 위치를 이동하는 기능을 제공한다.

저작 도구의 하단에 존재하는 네비게이션은 사용자가 어노테이션할 만한 장면을 보여주고 클릭하면 해당 시간과 각도로 바로 이동하는 기능을 제공한다. 네비게이션은, 사용자로부터 어노테이션되는 물체를 포함하는 비디오의 시간 정보 및 위치 정보를 검색하는 검색 기능을 제공한다. 이에 따라 비디오 시간이나 찾을 물체의 레이블로 필터링 기능을 지원하여 어노테이션할 물체를 효율적으로 검색할 수 있다.

저작 도구의 우측에 존재하는 어노테이션 정보는, 사용자로부터 작업 중인 비디오에서 어노테이션되는 리스트 표시하고, 각각의 어노테이션에 대한 메타데이터의 정보를 편집하는 기능을 제공할 수 있다. 어노테이션 정보에서는 현재 어노테이션한 물체의 리스트를 관리하거나 어노테이션의 정보를 편집할 수 있다.

도 8은 일 실시예에 따른 어노테이션 시스템의 구성을 설명하기 위한 블록도이다.

어노테이션 시스템(800)은 이미지 생성부(810), 인식부(820), 저장부(830) 및 어노테이션 생성부(840)를 포함할 수 있다.

이미지 생성부(810)는 360 비디오에서 추출된 프레임으로부터 3차 투영된 이미지를 생성할 수 있다. 이미지 생성부(810)는 360 비디오를 위도 정보 및 경도 정보를 평면에 반영하는 등변 투영된 이미지에 x축, y축, z축에 대하여 회전시켜 3차원 좌표를 매핑시키고, 매핑된 3차원 좌표에 픽셀 값을 지정함으로써 등변 투영된 이미지를 3차 투영된 이미지로 변환할 수 있다.

인식부(820)는 생성된 3차 투영된 이미지에서 3차 투영된 이미지에 포함된 물체를 인식할 수 있다. 인식부(820)는 3차 투영된 이미지를 각 면단위로 분할하고, 각 면단위로 분할된 3차 투영된 이미지에서 물체의 레이블과 위치를 계산할 수 있다.

저장부(830)는 3차 투영된 이미지 및 이미지에서 인식된 물체에 대하여 각각의 물체 정보를 취합하여 메타데이터로 저장할 수 있다. 저장부(830)는 물체의 레이블과 위치를 계산함에 따라 획득된 물체 정보와 3차 투영된 이미지의 각 면의 정보를 통합하여 메타데이터를 생성할 수 있다.

어노테이션 생성부(840)는 3차 투영된 이미지에 물체에 대한 물체 정보를 메타데이터로 저장하여 어노테이션을 생성할 수 있다. 어노테이션 생성부(840)는 360 비디오 뷰어, 네비게이션, 어노테이션 정보를 포함하는 저작 도구를 제공할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

어노테이션 시스템에 의해 수행되는 360 비디오 어노테이션 방법에 있어서,
360 비디오에서 추출된 프레임으로부터 3차 투영된 이미지를 생성하는 단계;
상기 생성된 3차 투영된 이미지에서 3차 투영된 이미지에 포함된 물체를 인식하는 단계;
상기 3차 투영된 이미지 및 이미지에서 인식된 물체에 대하여 각각의 물체 정보를 취합하여 메타데이터로 저장하는 단계; 및
상기 3차 투영된 이미지에 상기 물체에 대한 물체 정보를 메타데이터로 저장하여 어노테이션을 생성하는 단계
를 포함하는 360 비디오 어노테이션 방법.
제1항에 있어서,
상기 360 비디오에서 추출된 프레임으로부터 3차 투영된 이미지를 생성하는 단계는,
360 비디오를 위도 정보 및 경도 정보를 평면에 반영하는 등변 투영된 이미지에 x축, y축, z축에 대하여 회전시켜 3차원 좌표를 매핑시키고, 상기 매핑된 3차원 좌표에 픽셀 값을 지정함으로써 상기 등변 투영된 이미지가 3차 투영된 이미지로 변환되는 단계
를 포함하는 360 비디오 어노테이션 방법.
제1항에 있어서,
상기 생성된 3차 투영된 이미지에서 3차 투영된 이미지에 포함된 물체를 인식하는 단계는,
상기 3차 투영된 이미지를 각 면단위로 분할하고, 상기 각 면단위로 분할된 3차 투영된 이미지에서 물체의 레이블과 위치를 계산하는 단계
를 포함하고,
상기 3차 투영된 이미지 및 이미지에서 인식된 물체에 대하여 각각의 물체 정보를 취합하여 메타데이터로 저장하는 단계는,
상기 물체의 레이블과 위치를 계산함에 따라 획득된 물체 정보와 상기 3차 투영된 이미지의 각 면의 정보를 통합하여 메타데이터를 생성하는 단계
를 포함하는 어노테이션 생성 방법.
제1항에 있어서,
상기 메타데이터는 계층형 구조를 형성하고,
상기 360 비디오는 제목 정보를 가지고 하위에 복수의 360 비디오 프레임을 포함하고,
상기 360 비디오 프레임은 시간 정보를 가지고 하위에 복수의 면(face) 이미지를 포함하고,
상기 면 이미지는 위치 정보를 가지고 하위에 물체 검출로 인식된 물체(object)를 포함하고-면은 상기 360 비디오 프레임에 3차 투영법을 적용하고 6개로 분할한 이미지를 의미함-;
상기 물체는 레이블 정보, 위치 정보, 시간 속성을 포함하는
어노테이션 생성 방법.
제1항에 있어서,
상기 저장된 메타데이터에 기반하여 어노테이션을 생성하는 단계는,
360 비디오 뷰어, 네비게이션, 어노테이션 정보를 포함하는 저작 도구를 제공하는 단계
를 포함하고,
상기 360 비디오 뷰어는, 360 비디오를 왜곡없이 비디오 프레임의 일부분을 시청하고, 각도의 전환이 가능하도록 하고, 상기 360 비디오 뷰어에 어노테이션 후보가 표시되고, 사용자에 의하여 입력된 어노테이션이 표시되고,
상기 네비게이션은, 사용자로부터 어노테이션되는 물체를 포함하는 비디오의 시간 정보 및 위치 정보를 검색하는 검색 기능을 제공하고,
상기 어노테이션 정보는, 사용자로부터 작업 중인 비디오에서 어노테이션되는 리스트 표시하고, 각각의 어노테이션에 대한 메타데이터의 정보를 편집하는 기능을 제공하는 단계
를 포함하는 어노테이션 생성 방법.
어노테이션 시스템에 있어서,
360 비디오에서 추출된 프레임으로부터 3차 투영된 이미지를 생성하는 이미지 생성부;
상기 생성된 3차 투영된 이미지에서 3차 투영된 이미지에 포함된 물체를 인식하는 인식부;
상기 3차 투영된 이미지 및 이미지에서 인식된 물체에 대하여 각각의 물체 정보를 취합하여 메타데이터로 저장하는 저장부; 및
상기 3차 투영된 이미지에 상기 물체에 대한 물체 정보를 메타데이터로 저장하여 어노테이션을 생성하는 어노테이션 생성부
를 포함하는 어노테이션 시스템.