KR101946715B1 - Adaptive search ragne determination method for motion estimation of 360 degree video - Google Patents

Adaptive search ragne determination method for motion estimation of 360 degree video Download PDF

Info

Publication number
KR101946715B1
KR101946715B1 KR1020170081609A KR20170081609A KR101946715B1 KR 101946715 B1 KR101946715 B1 KR 101946715B1 KR 1020170081609 A KR1020170081609 A KR 1020170081609A KR 20170081609 A KR20170081609 A KR 20170081609A KR 101946715 B1 KR101946715 B1 KR 101946715B1
Authority
KR
South Korea
Prior art keywords
target block
image
search area
degree
frame
Prior art date
Application number
KR1020170081609A
Other languages
Korean (ko)
Other versions
KR20190001963A (en
Inventor
강제원
김나영
Original Assignee
이화여자대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이화여자대학교 산학협력단 filed Critical 이화여자대학교 산학협력단
Priority to KR1020170081609A priority Critical patent/KR101946715B1/en
Publication of KR20190001963A publication Critical patent/KR20190001963A/en
Application granted granted Critical
Publication of KR101946715B1 publication Critical patent/KR101946715B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Abstract

360도 영상을 위한 움직임 추정에서 적응적 탐색 영역 결정 방법은 360도 영상의 제1 프레임에서 타깃 블록을 결정하는 단계, 상기 제1 프레임을 기준으로 움직임 추정을 하는 제2 프레임에서 탐색 영역을 결정하는 단계 및 상기 탐색 영역에서 상기 타깃 블록과 차이가 최소인 블록을 결정하는 단계를 포함한다. 상기 탐색 영역의 크기는 상기 타깃 블록의 위치에 따라 결정된다.A method for determining an adaptive search region in motion estimation for a 360-degree image includes determining a target block in a first frame of a 360-degree image, determining a search region in a second frame for motion estimation based on the first frame, And determining a block having a minimum difference from the target block in the search area. The size of the search area is determined according to the position of the target block.

Description

360도 영상을 위한 움직임 추정에서 적응적 탐색 영역 결정 방법{ADAPTIVE SEARCH RAGNE DETERMINATION METHOD FOR MOTION ESTIMATION OF 360 DEGREE VIDEO}BACKGROUND OF THE INVENTION 1. Field of the Invention [0001] The present invention relates to an adaptive search area determination method,

이하 설명하는 기술은 360도 영상에 대한 움직임 추정 기법에 관한 것이다. 보다 구체적으로 이하 설명하는 기술은 360도 영상의 움직임 추정을 위한 탐색 영역 설정 기법에 관한 것이다.The techniques described below relate to motion estimation techniques for 360 degree images. More specifically, the technique described below relates to a search area setting technique for motion estimation of a 360 degree image.

최근 VR(Virtual Reality) 장치 및 이를 이용한 콘텐츠가 주목받고 있다. VR 장치는 사용자에게 360도(전방위) 영상을 제공한다. 360도 영상은 다양한 모델을 통해 생성될 수 있다.Recently, VR (Virtual Reality) devices and contents using them have attracted attention. The VR device provides a 360-degree (all-round) image to the user. 360 degree images can be generated through various models.

한편 최신 비디오 코덱 표준인 HEVC(High Efficiency Video Coding)/H.265 보다 2배 이상의 부호화 성능을 갖는 차세대 비디오 부호화(Future Video Coding) 표준이 준비되고 있다. 해당 표준화 기구는 360도 영상에 대해서도 표준화를 논의하고 있다.On the other hand, a next generation video coding (Future Video Coding) standard having a coding efficiency twice as high as that of HEVC (High Efficiency Video Coding) / H.265, which is the latest video codec standard, is being prepared. The standardization body is also discussing standardization for 360 degree images.

미국공개특허 US 2008/0137746US Published Patent US 2008/0137746

이하 설명하는 기술은 360도 영상에 대한 움직임 추정 기법을 제공하고자 한다. 이하 설명하는 기술은 360도 영상에 대한 움직임 추정을 위하여 적응적으로 탐색 영역을 설정하는 기법을 제공하고자 한다.The technique described below is intended to provide a motion estimation technique for a 360 degree image. The technique described below is to provide a technique for adaptively setting a search area for motion estimation on a 360-degree image.

360도 영상을 위한 움직임 추정에서 적응적 탐색 영역 결정 방법은 360도 영상의 제1 프레임에서 타깃 블록을 결정하는 단계 및 상기 제1 프레임을 기준으로 움직임 추정을 하는 제2 프레임에서 탐색 영역을 결정하는 단계를 포함한다. 상기 탐색 영역의 크기는 상기 타깃 블록의 위치에 따라 결정된다. 또는 상기 탐색 영역의 크기는 상기 타깃 블록을 구성하는 개별 영상의 식별자에 따라 크기가 결정된다.A method for determining an adaptive search region in motion estimation for a 360 degree image includes determining a target block in a first frame of a 360 degree image and determining a search region in a second frame for motion estimation based on the first frame . The size of the search area is determined according to the position of the target block. Or the size of the search area is determined according to the identifiers of the individual images constituting the target block.

이하 설명하는 기술은 360도 영상에서 발생하는 왜곡을 고려하여 정확한 움직임 추정을 수행하게 한다.The technique described below allows accurate motion estimation to be performed in consideration of distortion occurring in a 360-degree image.

도 1은 360도 영상을 생성하는 예이다.
도 2는 블록 매칭에 기반한 움직임 추정의 예이다.
도 3은 ERP 모델에서 발생하는 왜곡의 예이다.
도 4는 360도 영상에 대한 움직임 추정을 위한 탐색 영역의 예이다.
도 5는 360도 영상을 전달하는 시스템에 대한 예이다.
1 is an example of generating a 360-degree image.
Figure 2 is an example of motion estimation based on block matching.
Figure 3 is an example of distortion that occurs in the ERP model.
4 is an example of a search area for motion estimation for a 360 degree image.
Figure 5 is an example of a system for delivering a 360 degree image.

이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.The following description is intended to illustrate and describe specific embodiments in the drawings, since various changes may be made and the embodiments may have various embodiments. However, it should be understood that the following description does not limit the specific embodiments, but includes all changes, equivalents, and alternatives falling within the spirit and scope of the following description.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.The terms first, second, A, B, etc., may be used to describe various components, but the components are not limited by the terms, but may be used to distinguish one component from another . For example, without departing from the scope of the following description, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component. And / or < / RTI > includes any combination of a plurality of related listed items or any of a plurality of related listed items.

본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.As used herein, the singular " include " should be understood to include a plurality of representations unless the context clearly dictates otherwise, and the terms " comprises & , Parts or combinations thereof, and does not preclude the presence or addition of one or more other features, integers, steps, components, components, or combinations thereof.

도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.Before describing the drawings in detail, it is to be clarified that the division of constituent parts in this specification is merely a division by main functions of each constituent part. That is, two or more constituent parts to be described below may be combined into one constituent part, or one constituent part may be divided into two or more functions according to functions that are more subdivided. In addition, each of the constituent units described below may additionally perform some or all of the functions of other constituent units in addition to the main functions of the constituent units themselves, and that some of the main functions, And may be carried out in a dedicated manner.

또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.Also, in performing a method or an operation method, each of the processes constituting the method may take place differently from the stated order unless clearly specified in the context. That is, each process may occur in the same order as described, may be performed substantially concurrently, or may be performed in the opposite order.

최근 VR(가상 현실) 서비스가 주목 받고 있다. VR 서비스는 기본적으로 360도 영상(전방위 영상)을 사용한다. 360도 영상(전방위 영상)은 전방위 장면을 촬영하는 카메라(이하 360도 카메라라고 함)가 획득한 영상을 일정하게 결합한 영상이다. 스마트폰 또는 VR 전용 장치는 360도 영상을 이용하여 장치의 방향에 따라 특정 시점의 영상을 제공한다. 먼저 360도 영상을 생성하는 과정에 대하여 설명한다. Recently, VR (Virtual Reality) service has attracted attention. The VR service basically uses a 360-degree image (omni-directional image). A 360-degree image (omnidirectional image) is an image obtained by uniformly combining images acquired by a camera (hereinafter referred to as a 360-degree camera) that captures an omnidirectional scene. A smartphone or a VR-only device provides an image at a specific point in time according to the orientation of the device using a 360-degree image. First, a process of generating a 360-degree image will be described.

도 1은 360도 영상을 생성하는 예이다. 360도 영상을 생성하는 과정은 (a) 영상 획득, (b) 복수의 영상 결합(stitching) 및 (c) 결합된 영상의 맵핑으로 구성된다. 컴퓨터 장치는 복수의 영상을 입력받아 360도 영상을 생성한다. 경우에 따라서는 인코더가 360도 영상을 생성하고, 영상을 인코딩할 수도 있다. 360도 영상 생성은 컴퓨터 장치가 수행한다고 가정한다.1 is an example of generating a 360-degree image. The process of generating a 360-degree image includes (a) image acquisition, (b) a plurality of image stitching, and (c) mapping of combined images. The computer device receives a plurality of images and generates 360-degree images. In some cases, the encoder may generate a 360 degree image and encode the image. It is assumed that the 360-degree image generation is performed by a computer device.

컴퓨터 장치는 360도 카메라를 이용하여 복수의 영상을 획득한다(a 과정). 360도 카메라는 특정 지점을 기준으로 서로 다른 방향(시점)의 영상을 획득하는 장치이다. 360도 카메라는 기준 지점을 기준으로 서로 다른 방향을 향하는 복수의 카메라 유닛을 포함한다. 도 1에서는 구 형태의 360도 카메라를 도시하였으나 360도 카메라는 다양한 형태를 가질 수 있다. The computer device acquires a plurality of images using a 360-degree camera (a process). A 360 degree camera is a device that acquires images of different directions (viewpoints) based on a specific point. The 360 degree camera includes a plurality of camera units facing different directions with respect to the reference point. Although a 360 degree camera in the form of a sphere is shown in Fig. 1, a 360 degree camera can have various forms.

컴퓨터 장치는 360도 카메라가 획득한 복수의 영상을 일정한 기준으로 결합한다(b 과정). 결합 과정은 복수의 영상을 하나의 영상으로 결합하는 과정에 해당한다. 컴퓨터 장치는 인접한 영상을 서로 이어서(stitching) 하나의 결합된 영상을 생성한다.The computer device combines a plurality of images obtained by the 360 degree camera with a certain reference (step b). The combining process corresponds to a process of combining a plurality of images into one image. The computer device stitches adjacent images together to produce a combined image.

마지막으로 컴퓨터 장치는 결합된 영상을 일정한 모델을 사용하여 맵핑을 수행한다(c 과정). 맵핑은 360도 방위 영상을 평면 영상으로 변환하는 과정에 해당한다. 도 1은 ERP(Equirectangular projection) 모델을 사용하여 맵핑한 예를 도시한다. ERP 모델은 360도 카메라를 기준으로 360도 구에 맵핑되는 영상을 2D로 투사하는 방식이다. 나아가 컴퓨터 장치는 다른 다양한 모델을 사용하여 영상을 맵핑할 수 있다. ERP 외에도 360도 영상을 맵핑하는 기법은 CMP(cube map projection), ISP(icosahedral projection), OCP(octachedron projection) 등이 있다. Finally, the computer device performs mapping using a certain model of the combined image (step c). The mapping corresponds to the process of converting a 360-degree azimuth image into a plane image. FIG. 1 shows an example of mapping using an equirectangular projection (ERP) model. The ERP model is a method of projecting an image that is mapped to a 360-degree sphere in 2D based on a 360 degree camera. Furthermore, the computer device can map images using various other models. In addition to ERP, there are cube map projection (CMP), icosahedral projection (ISP), and octachedron projection (OCP).

동영상 코딩에서 인코더는 프레임 사이에서 객체에 대한 움직임 추정(motion estimation)을 한다. 인코더는 동일한 객체에 대한 움직임 추정을 통해 전달하는 데이터의 양을 줄인다. 움직임 추정의 결과는 움직임 벡터(motion vector)이다. 먼저 일반적인 움직임 추정에 대해 설명한다. 도 2는 블록 매칭에 기반한 움직임 추정의 예이다. 일반적으로 인코더는 블록 매칭 기반의 움직임 추정을 수행한다. 인코더는 두 개의 프레임에서 블록 단위로 가장 유사한 블록을 결정하여 움직임 추정을 수행한다. 현재 프레임(제1 프레임)에서 움직임 추정을 수행하는 대상을 타깃 블록이라고 명명한다. 인코더는 현재 프레임의 타깃 블록과 가장 유사한(차이가 가장 적은) 블록을 참조 프레임(제2 프레임)에서 찾는다. 이때 인코더는 일반적으로 참조 프레임에서 일정한 영역(탐색 영역)에 존재하는 블록을 대상으로 타깃 블록과의 유사성을 비교한다. 인코더는 탐색 영역에서 픽셀 단위 또는 서브 픽셀 단위로 블록을 움직이면서 타깃 블록과 차이가 가장 적은 블록을 선택한다. 움직임 추정 과정에 대한 자세한 설명은 생략한다.In video coding, the encoder performs motion estimation on an object between frames. The encoder reduces the amount of data delivered through motion estimation for the same object. The result of the motion estimation is a motion vector. First, general motion estimation will be described. Figure 2 is an example of motion estimation based on block matching. Generally, the encoder performs block matching based motion estimation. The encoder determines the most similar block in two frames and performs motion estimation. An object on which motion estimation is performed in the current frame (first frame) is called a target block. The encoder finds the block that is closest to the target block of the current frame (least difference) in the reference frame (second frame). At this time, the encoder generally compares the similarity with the target block with respect to the block existing in a certain area (search area) in the reference frame. The encoder moves blocks in pixel units or subpixel units in the search area and selects the block with the smallest difference from the target block. A detailed description of the motion estimation process is omitted.

이제 전술한 360도 영상의 특징에 대해 설명한다. 이하 ERP 모델을 중심으로 설명한다. Now, the features of the above-described 360-degree image will be described. The following will focus on the ERP model.

도 3은 ERP 모델에서 발생하는 왜곡의 예이다. 도 3(a)는 ERP 모델로 생성한 360도 영상에 대한 예이다. 도 3(a)에서 기준선은 영상에서 수직방향의 중심에 해당하는 선이다. ERP 모델로 생성된 영상은 기준선을 기준으로 상,하로 이동하게 되면 물체가 좌,우로 늘어지는 왜곡 현상이 나타난다. 전술한 바와 같이 ERP는 지구와 같은 구를 기준으로 2차원 평면을 생성하는 과정이다. 따라서 3차원 지구좌표계를 기준으로 설명하면 기준선은 적도에 해당하는 선이라고 할 수 있다. 왜곡 정도는 기준선을 기준으로 1/cosφ만큼 늘어난다. 여기서 φ는 위도(latitude)에 해당한다. 즉 φ는 지구좌표계에서 영상의 특정 영역에 대한 세로 방향 위치를 나타낸다.Figure 3 is an example of distortion that occurs in the ERP model. 3 (a) is an example of a 360-degree image generated by an ERP model. 3 (a), the reference line is a line corresponding to the center of the vertical direction in the image. The image generated by the ERP model is distorted when the object moves up and down with respect to the reference line. As described above, ERP is a process of generating a two-dimensional plane based on a sphere such as the earth. Therefore, when describing with reference to the three-dimensional earth coordinate system, the baseline can be said to correspond to the equator. The degree of distortion is increased by 1 / cos? Based on the reference line. Where φ is the latitude. In other words, φ represents the position in the longitudinal direction with respect to a specific region of the image in the global coordinate system.

도 3(b)는 ERP 모델로 생성한 영상에서 발생한 왜곡에 대한 예이다. 영상에서 일정한 객체가 이동하여 참조 프레임에서의 위치와 현재 프레임에서의 위치가 다르다고 가정한다. 예컨대, 현재 프레임(제1 프레임)에서 제1 블록에 있는 객체가 참조 프레임에서 제2 블록에 있는 객체가 동일하다고 가정한다. 도 3(b)에 도시한 바와 같이 동일한 객체이지만 360도 영상에서 발생한 왜곡에 의해 동일한 객체가 차지하는 영역의 크기가 달라진다. ERP 모델로 생성한 영상은 적도를 기준으로 상하 이동시 좌우로 1/cosφ만큼 영상이 늘어지게 된다. 따라서 EPR 모델로 생성한 영상에 일반적은 블록 매칭 알고리즘을 사용하면 움직임 추정의 정확도가 떨어질 수 있다.FIG. 3 (b) shows an example of the distortion generated in the image generated by the ERP model. It is assumed that the position of the reference frame is different from the position of the current frame due to the movement of a certain object in the image. For example, assume that the object in the first block in the current frame (first frame) is the same as the object in the second block in the reference frame. As shown in FIG. 3 (b), the size of the area occupied by the same object varies due to distortion occurring in the 360-degree image even though the object is the same object. The images generated by the ERP model are displayed on the equator as 1 / cos? Therefore, the accuracy of the motion estimation may be degraded if a general block matching algorithm is used for the image generated by the EPR model.

이제 360도 영상을 위한 움직임 추정 과정을 설명한다. 블록 매칭을 위한 새로운 탐색 영역 설정 방법을 제안한다. 도 4는 360도 영상에 대한 움직임 추정을 위한 탐색 영역의 예이다. 인코더가 현재 프레임(제1 프레임)에서 타깃 블록을 기준으로 블록 매칭을 수행한다고 가정한다. 인코더는 참조 프레임(제2 프레임)의 일정한 탐색 영역에서 타깃 블록과 매칭되는 블록을 찾는다. 인코더는 타깃 블록의 위치를 기준으로 탐색 영역의 크기를 결정한다. 즉, 타깃 블록의 위치가 ERP 맵핑에 따라 왜곡이 심하게 발생하는 위치라면, 인코더는 탐색 영역의 크기를 더 넓게 설정한다. 탐색 영역의 위치(중심점의 위치)는 기본적으로 종래 블록 매칭에서 사용하는 위치라고 가정한다. 인코더는 탐색 영역의 가로 방향 크기(L)만을 타깃 블록의 위치에 따라 결정할 수 있다. A motion estimation process for a 360-degree image will now be described. We propose a new search area setting method for block matching. 4 is an example of a search area for motion estimation for a 360 degree image. It is assumed that the encoder performs block matching based on the target block in the current frame (first frame). The encoder finds a block that matches the target block in a constant search area of the reference frame (second frame). The encoder determines the size of the search area based on the position of the target block. That is, if the position of the target block is located at a position where the distortion is severely generated according to the ERP mapping, the encoder sets the size of the search area to be wider. It is assumed that the position of the search area (the position of the center point) is basically a position used in conventional block matching. The encoder can determine only the horizontal size L of the search area according to the position of the target block.

(i) 인코더는 타깃 블록이 기준선에서 떨어진 거리(d)에 비례하게 탐색 영역의 크기(L)를 결정할 수 있다. (ii) 블록의 크기가 사전에 결정된다면, 블록의 좌표 위치에 따라 기준선과의 거리가 결정될 수 있다. 따라서 인코더는 타깃 블록의 위치(x, y)에 따라 탐색 영역의 크기(L)를 결정할 수도 있다. 이때 블록의 좌표는 블록의 중심점을 기준으로 설정할 수 있다. 실시예에 따라 좌표는 블록의 다른 지점을 기준으로 설정될 수도 있다. (iii) 사전에 블록의 식별자와 블록의 위치를 맵핑한 정보가 있다면, 인코더는 타깃 블록의 식별자(ID)로 타깃 블록의 위치를 파악할 수도 있다. (i) The encoder can determine the size (L) of the search area in proportion to the distance d away from the reference line of the target block. (ii) If the size of the block is determined in advance, the distance from the reference line can be determined according to the coordinate position of the block. Therefore, the encoder may determine the size L of the search area according to the position (x, y) of the target block. At this time, the coordinates of the block can be set based on the center point of the block. Depending on the embodiment, the coordinates may be set relative to other points in the block. (iii) If there is information that previously maps an identifier of a block and a position of a block, the encoder may determine the position of the target block with an identifier (ID) of the target block.

블록의 좌표를 사용하는 경우 인코더는 아래의 수학식 1에 따라 탐색 영역의 크기를 결정할 수 있다. When the coordinates of the block are used, the encoder can determine the size of the search area according to Equation (1) below.

Figure 112017061868461-pat00001
Figure 112017061868461-pat00001

이때 블록의 좌표에 따라 θ는 아래의 수학식 2와 같이 결정될 수 있다.At this time,? Can be determined according to the following Equation 2 according to the coordinates of the block.

Figure 112017061868461-pat00002
Figure 112017061868461-pat00002

여기서, 프레임은 W(수평 방향 길이) × H(수직 방향 길이)의 크기를 갖는다고 가정한다. y는 타깃 블록의 수직 방향 좌표이다.Here, it is assumed that the frame has a size of W (horizontal length) × H (vertical length). y is the vertical coordinate of the target block.

다만 탐색 영역이 늘어나면 블록 매칭에 대한 복잡도가 증가할 수 있다. 이 경우 탐색 영역이 늘어나는 정도에 따라 매칭을 위한 탐색점의 개수를 조절하여 복잡도 문제를 해결할 수 있다.However, as the search area increases, the complexity of block matching may increase. In this case, the complexity problem can be solved by adjusting the number of search points for matching according to the extent of the search area.

나아가 360도 영상에서 발생하는 왜곡은 ERP 모델이 아닌 다른 모델에서도 발생할 수 있다. 인코더는 다른 모델을 사용하여 생성한 360도 영상에서도 타깃 블록의 위치에 따라 탐색 영역을 설정할 수 있다. 인코더는 모델에 따라 발생하는 왜곡을 고려하여 탐색 영역의 크기를 적응적으로 설정할 수 있다.Furthermore, distortions that occur in 360-degree images can occur in other models than ERP models. The encoder can set the search area according to the position of the target block even in a 360-degree image generated by using another model. The encoder can adaptively set the size of the search area in consideration of the distortion caused by the model.

도 4에서는 타깃 블록의 위치를 기준으로 설명하였다. 타깃 블록의 위치는 360도 영상을 구성하는 영상의 종류와 관련이 있다. 360도 영상은 도 1에서 설명한 바와 같이 복수의 영상으로 구성된다. 복수의 영상은 각기 서로 다른 시점(방향)에 대한 영상이다. 복수의 영상은 서로 다른 카메라(내지 카메라 유닛)가 획득한 영상이다. 360도 영상은 복수의 영상 각각이 일정한 위치에 배치된다. 맵핑 기법에 따라서 하나의 평면 영상을 구성하는 복수의 영상의 위치가 사전에 결정될 수 있다. In FIG. 4, the position of the target block is used as a reference. The location of the target block is related to the type of image that makes up the 360 degree image. The 360-degree image is composed of a plurality of images as described with reference to FIG. A plurality of images are images for different viewpoints (directions). A plurality of images are images obtained by different cameras (or camera units). The 360 degree image is arranged at a constant position of each of the plurality of images. The positions of the plurality of images constituting one plane image can be determined in advance according to the mapping technique.

따라서 인코더는 타깃 블록을 구성하는 영상의 종류에 따라 탐색 영역의 크기를 결정할 수도 있다. 다른 말로 표현하면, 인코더는 타깃 블록을 구성하는 영상의 방향(시점)에 따라 탐색 영역의 크기를 결정할 수도 있다. 또 다른 말로 하면, 인코더는 타깃 블록을 구성하는 영상을 촬영한 카메라의 종류에 따라 탐색 영역의 크기를 결정할 수도 있다. 이 경우 인코더는 복수의 영상에 대한 식별자, 카메라의 식별자 또는 타깃 블록을 구성하는 영상의 방향(시점) 중 어느 하나를 기준으로 탐색 영역의 크기를 결정할 수 있다.Therefore, the encoder may determine the size of the search area according to the type of the image forming the target block. In other words, the encoder may determine the size of the search area according to the direction (viewpoint) of the image constituting the target block. In other words, the encoder may determine the size of the search area according to the type of camera that has captured the image forming the target block. In this case, the encoder can determine the size of the search area based on any one of an identifier for a plurality of images, an identifier of a camera, or a direction (viewpoint) of an image forming a target block.

도 5는 360도 영상을 전달하는 시스템(100)에 대한 예이다. 시스템(100)은 인코더(110)와 디코더(120)를 포함한다. 인코더(110)는 360도 영상을 입력받는다. 도 5에 도시하지 않았지만 360도 카메라(50)가 획득한 영상을 별도의 컴퓨터 장치 또는 서버가 360도 영상으로 변환한다. 경우에 따라서는 인코더(110)가 360도 카메라(50)로부터 전달받은 복수의 영상을 360도 영상으로 변환할 수도 있다.Figure 5 is an example of a system 100 for delivering a 360 degree image. The system 100 includes an encoder 110 and a decoder 120. The encoder 110 receives a 360 degree image. Although not shown in FIG. 5, a separate computer device or server converts the image acquired by the 360 degree camera 50 into a 360-degree image. In some cases, the encoder 110 may convert a plurality of images received from the 360-degree camera 50 into 360-degree images.

인코더(110)는 영상에 대한 움직임 추정을 수행한다. 이때 인코더(110)는 전술한 바와 같이 타깃 블록의 위치에 따라 탐색 영역을 적응적으로 설정하여 블록 매칭을 수행한다. 인코더(110)는 360도 영상을 인코딩한다. 이때 인코더(110)는 움직임 추정 결과인 움직임 벡터를 이용하여 영상을 인코딩한다.The encoder 110 performs motion estimation on the image. At this time, the encoder 110 performs block matching by adaptively setting the search area according to the position of the target block as described above. Encoder 110 encodes a 360 degree image. At this time, the encoder 110 encodes an image using a motion vector, which is a motion estimation result.

디코더(120)는 인코더(110)가 전달하는 비트 스트림에서 영상 스트림을 인코딩의 역순으로 디코딩한다. 디코더(120)는 영상 데이터와 움직인 벡터 등을 이용하여 360도 영상을 복호한다.The decoder 120 decodes the video stream in the reverse order of encoding in the bitstream delivered by the encoder 110. [ The decoder 120 decodes the 360-degree image using the image data and the moving vector.

본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.The present embodiment and drawings attached hereto are only a part of the technical idea included in the above-described technology, and it is easy for a person skilled in the art to easily understand the technical idea included in the description of the above- It will be appreciated that variations that may be deduced and specific embodiments are included within the scope of the foregoing description.

50 : 360도 카메라
100 : 360도 영상을 전달하는 시스템
110 : 인코더
120 : 디코더
50: 360 degree camera
100: System to transmit 360 degree image
110: Encoder
120: decoder

Claims (13)

삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 360도 영상의 제1 프레임에서 타깃 블록을 결정하는 단계:
상기 제1 프레임을 기준으로 움직임 추정을 하는 제2 프레임에서 탐색 영역을 결정하는 단계; 및
상기 타깃 블록의 식별자에 따라 결정되는 상기 탐색 영역의 크기에 따라 블록 매칭을 위한 탐색점의 개수를 조절하여 상기 탐색 영역에서 상기 타깃 블록과 차이가 최소인 블록을 결정하는 단계를 포함하되,
상기 360도 영상은 복수의 개별 영상을 이용하여 생성되고, 상기 탐색 영역의 수평 방향 크기가 상기 타깃 블록의 식별자에 따라 결정되고, 상기 식별자는 상기 제1 프레임에서 상기 타깃 블록의 수직 방향 위치를 정의하며, 상기 제1 프레임의 수직 방향 중심과 상기 타깃 블록 사이의 거리를 결정하는 360도 영상을 위한 움직임 추정에서 적응적 탐색 영역 결정 방법.
Determining a target block in a first frame of the 360 degree image;
Determining a search area in a second frame for motion estimation based on the first frame; And
And determining a block having a minimum difference from the target block in the search area by adjusting the number of search points for block matching according to the size of the search area determined according to the identifier of the target block,
Wherein the 360 degree image is generated using a plurality of individual images, the horizontal size of the search area is determined according to the identifier of the target block, and the identifier defines a vertical position of the target block in the first frame And determining a distance between a center of the first frame and the target block in the vertical direction.
삭제delete 제7항에 있어서,
상기 식별자는 상기 타깃 블록을 구성하는 영상의 방향을 나타내는 360도 영상을 위한 움직임 추정에서 적응적 탐색 영역 결정 방법.
8. The method of claim 7,
Wherein the identifier is a 360-degree image indicating a direction of an image constituting the target block.
제7항에 있어서,
상기 식별자는 상기 타깃 블록을 구성하는 영상을 촬영한 카메라를 나타내는 360도 영상을 위한 움직임 추정에서 적응적 탐색 영역 결정 방법.
8. The method of claim 7,
Wherein the identifier is a 360-degree image representing a camera that captures an image constituting the target block.
삭제delete 삭제delete 제7항에 있어서,
상기 탐색 영역의 수평 방향 크기가 상기 제1 프레임의 수직 방향 중심과 상기 타깃 블록 사이의 거리에 비례하는 360도 영상을 위한 움직임 추정에서 적응적 탐색 영역 결정 방법.
8. The method of claim 7,
Wherein the size of the search area in the horizontal direction is proportional to the distance between the center of the vertical direction of the first frame and the target block.
KR1020170081609A 2017-06-28 2017-06-28 Adaptive search ragne determination method for motion estimation of 360 degree video KR101946715B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170081609A KR101946715B1 (en) 2017-06-28 2017-06-28 Adaptive search ragne determination method for motion estimation of 360 degree video

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170081609A KR101946715B1 (en) 2017-06-28 2017-06-28 Adaptive search ragne determination method for motion estimation of 360 degree video

Publications (2)

Publication Number Publication Date
KR20190001963A KR20190001963A (en) 2019-01-08
KR101946715B1 true KR101946715B1 (en) 2019-02-11

Family

ID=65020993

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170081609A KR101946715B1 (en) 2017-06-28 2017-06-28 Adaptive search ragne determination method for motion estimation of 360 degree video

Country Status (1)

Country Link
KR (1) KR101946715B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102233494B1 (en) * 2019-05-28 2021-03-26 한국항공대학교산학협력단 Multi-object tracking device and method in 360 degree video space

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015173424A (en) * 2014-03-12 2015-10-01 株式会社セック Video distribution system and video display device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015173424A (en) * 2014-03-12 2015-10-01 株式会社セック Video distribution system and video display device

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Alouache et al. An Adapted Block Matching method for optical flow estimation in catadioptric images. ICMCS, 2014년 4월, pp. 69-74. 1부.*
De Simone et al. Geometry driven quantization for omnidirectional image coding. PCS, 2016년 12월, pp. 1-5. 1부.*

Also Published As

Publication number Publication date
KR20190001963A (en) 2019-01-08

Similar Documents

Publication Publication Date Title
US10904570B2 (en) Method for encoding/decoding synchronized multi-view video by using spatial layout information and apparatus of the same
US9648346B2 (en) Multi-view video compression and streaming based on viewpoints of remote viewer
JP7058277B2 (en) Reconstruction method and reconfiguration device
US11212507B2 (en) Method and apparatus for processing three-dimensional images
KR102141319B1 (en) Super-resolution method for multi-view 360-degree image and image processing apparatus
US10681272B2 (en) Device for providing realistic media image
CN111602403B (en) Apparatus and method for generating image data bit stream
KR101933037B1 (en) Apparatus for reproducing 360 degrees video images for virtual reality
EP3857899B1 (en) Image synthesis
KR20200116947A (en) Image processing device, encoding device, decoding device, image processing method, program, encoding method, and decoding method
CN110036640A (en) System and method for supporting video bit stream to switch
EP3813024A1 (en) Image processing device and image processing method
JPWO2019050038A1 (en) Image generation method and image generation device
WO2018233662A1 (en) Method and apparatus of motion vector derivations in immersive video coding
KR101982436B1 (en) Decoding method for video data including stitching information and encoding method for video data including stitching information
JP2016082328A (en) Image composition device and program for the same
JP6575999B2 (en) Lighting information acquisition device, lighting restoration device, and programs thereof
KR101946715B1 (en) Adaptive search ragne determination method for motion estimation of 360 degree video
CN109961395A (en) The generation of depth image and display methods, device, system, readable medium
US11825066B2 (en) Video reproduction apparatus, reproduction method, and program
US20220174259A1 (en) Image signal representing a scene
Sivakumar et al. Geodesic Disparity Compensation for Inter-View Prediction in VR180
KR20220071904A (en) 2D Image Projection Method from Plenoptic 3D Voxel Data which have Different Color Values as Viewing Angle Changes
JP2015046040A (en) Image conversion device
CN117611765A (en) Virtual scene model generation method and device, storage medium and electronic equipment

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant