KR20030062313A - Image conversion and encoding techniques - Google Patents

Image conversion and encoding techniques Download PDF

Info

Publication number
KR20030062313A
KR20030062313A KR10-2003-7001886A KR20037001886A KR20030062313A KR 20030062313 A KR20030062313 A KR 20030062313A KR 20037001886 A KR20037001886 A KR 20037001886A KR 20030062313 A KR20030062313 A KR 20030062313A
Authority
KR
South Korea
Prior art keywords
perspective
image
algorithm
pixel
characterized
Prior art date
Application number
KR10-2003-7001886A
Other languages
Korean (ko)
Inventor
허먼필립빅터
폭스사이몬리차드
도레이마크로버트
플랙줄리엔찰스
Original Assignee
다이나믹 디지탈 텝스 리서치 피티와이 엘티디
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to AUPQ9292A priority Critical patent/AUPQ929200A0/en
Priority to AUPQ9292 priority
Priority to AUPR0455 priority
Priority to AUPR0455A priority patent/AUPR045500A0/en
Application filed by 다이나믹 디지탈 텝스 리서치 피티와이 엘티디 filed Critical 다이나믹 디지탈 텝스 리서치 피티와이 엘티디
Priority to PCT/AU2001/000975 priority patent/WO2002013141A1/en
Publication of KR20030062313A publication Critical patent/KR20030062313A/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/507Depth or shape recovery from shading
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user

Abstract

원근 맵을 생성하는 방법은 영상의 적어도 하나의 픽셀 또는 부분에 원근을 부여하는 단계와, 상기 영상의 적어도 하나의 픽셀 또는 부분에 대한 상대적인 위치 및 영상 특성을 결정하는 단계, 상기 원근과 영상 특성 및 상대적인 위치를 이용하여 상대적인 위치와 영상 특성의 함수로서 원근 특성을 알아내기 위한 알고리즘의 구성을 결정하는 단계, 상기 알고리즘을 이용하여 상기 영상의 각각의 픽셀 또는 부분에 대한 원근 특성을 계산하는 단계를 포함하여 구성된다. Method for creating a perspective map is at least one step to give perspective to the pixel or portion, and a step of determining a relative position and a visual characteristic for at least one pixel or part of the image, the perspective and image characteristics of the image, and a step, calculating a perspective characteristic for each pixel or portion of the image by using the algorithm for determining the configuration of the algorithm to find out the perspective characteristics as a function of the relative location and image characteristics by using the relative position It is configured to. 상기 원근 특성은 상기 영상에 대한 원근 맵을 형성한다. The characteristic trapezoidal forms a perspective map for the image. 상기 원근 맵을 처리하는 제 2단계에서 상대적인 위치, 영상 특성 및 키 프레임까지의 거리를 이용하여 키 프레임이 아닌 프레임에 대한 원근 맵을 생성하기 위하여 키 프레임을 형성한다. Forms a key frame to generate a perspective map for the non-key frame using the frame distance to the relative position, image properties and a key frame in the second step of processing the perspective map.

Description

영상 변환 및 부호화 기술{IMAGE CONVERSION AND ENCODING TECHNIQUES} Image converting and encoding technique {IMAGE CONVERSION AND ENCODING TECHNIQUES}

여러 가지 영상 처리 작업을 위해서는 영상내의 대상물의 원근(depth)을 알아야 한다. For a number of image processing operations to be understood perspective (depth) of the object in the image. 이러한 영상 처리작업에는 영화 및 비디오 시퀀스에 특수 효과를 적용하는 것과 2차원 영상을 입체적인 3차원 영상으로 변환시키는 작업이 포함된다. These image processing operations include the operations of converting the film and as a two-dimensional image to apply a special effect to a video sequence, a three-dimensional three-dimensional image. 대상물의 원근(depth)를 결정하는 것은 원근 맵을 형성하는 과정이라고 할 수 있다. Determining the perspective (depth) of the object can be described as forming a perspective map. 원근 맵에 있어서, 각각의 대상물에는 회색 음영이 가해지는데 이 음영은 특정한 점으로부터의 대상물의 원근을 나타낸다. In the perspective map, and each object has makin subjected to grayscale shading indicates the perspective of an object from a particular point. 일반적으로, 멀리 있는 대상물에는 어두운 음영이 가해지고 가까운 대상물에는 밝은 음영이 가해진다. In general, the farther the object has been applied is subjected to dark shades are bright shades close to the object in. 원근 맵을 생성하기 위한 표준 규약은 아직 채택되지 않았으며, 서로 다른 원근을 나타내기 위해서는 역 컬러링(reverse colouring)을 사용하거나 각기 다른 색들을 사용할 수 있다. Using the standard protocol was to create a map perspective has not yet been adopted, coloring station (reverse colouring) to indicate a different perspective, or may each be a different color. 본 명세서에서는 멀리 있는 대상물은 가까운 대상물보다 어둡게 하고 그레이 스케일(gray scale)로 컬러링하는 것으로 설명될 것이다. An object in the distance in the present specification will be darker near the object and described as coloring in grayscale (gray scale).

역사적으로 2차원 영상으로부터 원근 맵을 생성하는 것은 수동으로 행해져 왔다. Historically, the ability to create the perspective map from the 2-D image has been done manually. 컴퓨터에게 영상은 단지 일련의 픽셀들인 반면에 사람은 대상물과 이와 관련된 원근을 구별할 수 있다. On the other hand, a computer image is a set of pixels, which are just one can distinguish the perspective associated with the object.

원근 맵을 생성하는데는 변환될 영상의 각각의 대상물의 윤곽을 그리고 대상물에 원근을 부여하는 시스템이 필요하다. To generate a perspective map the contours of each object of the image to be converted, and what is needed is a system that gives a perspective on the object. 이러한 과정은 느리게 진행되며 시간과 비용이 든다. This process is slow and costs time and money. 윤곽을 그리는 단계는 마우스와 함께 소프트웨어 프로그램을 사용하여 수행한다. Step contouring is performed using a software program with a mouse. 이 작업을 실행하는데 사용될 수 있는 소프트웨어 프로그램의 예로는 Adobe의 "애프터 이펙트(After Effects)"가 있다. An example of this can be used to run the operation software program is the "after-effects (After Effects)" from Adobe. "애프터 이펙트"를 사용하는 작업자는 원근을 부여할 각각의 대상물의 윤곽을 그린 다음, 관찰자(viewer)와 대상물간의 원근 또는 거리를 규정하는 회색 음영을 상기 대상물에 입힌다. Operator using "after-effect" are coated with the contours of each object to grant perspective green then gray shades, which defines the perspective or the distance between the observer (viewer) and the object to the object. 이 과정을 영상내의 각각의 대상물에 대해 반복적으로 행한다. This process is carried out repeatedly for each of the objects in the image. 또한, 예컨대 영화와 같이 다수의 영상들이 존재하는 경우에는 상기 과정을 영화의 각각의 영상 또는 프레임에 대해 수행해야 한다. Further, for example if a plurality of images are present, such as movies are to be performed the above process for each image or frame of film.

종래의 시스템에 있어서, 영상의 윤곽선은 예컨대 베지어 곡선(Bezier curve)과 같은 곡선으로 묘사된다. In a conventional system, the contour of the image is described as e.g. the Bezier curve, such as curve (Bezier curve). 이와 같은 곡선을 이용하면 작업자는 대상물의 윤곽선이 대상물과 정확하게 정렬되도록 윤곽선의 형태를 수정할 수 있다. Using this curve the operator can modify the shape of the contour so as to be aligned accurately with an object, an outline of the object.

영화 또는 비디오와 같이 일련의 영상들의 원근 매핑이 요구되는 경우에는 상기 과정을 시퀀스내의 각각의 프레임에 대해 반복한다. If it required the perspective mapping of the series of images, such as film or video, and repeats the above process for each frame in the sequence.

대상물의 크기, 위치 및/또는 원근은 시퀀스를 통해 변화될 수 있다. The size of the object, the position and / or perspective can be changed over the sequence. 이 경우, 작업자는 각각의 프레임내의 대상물을 수동으로 트랙킹하고 곡선을 수정하여 각각의 프레임을 처리하고, 필요에 따라 회색 음영을 변화시켜 대상물의 원근을 갱신할 필요가 있다. In this case, the operator is required to process each frame of the object by modifying the manual tracking curve and the in each frame, and by varying the shade of gray if necessary updates the perspective of the object. 이것은 느리고 지루하며 시간과 비용이 많이 드는 과정이다. This is a slow and tedious process and time-consuming and expensive.

이러한 과정을 개선하기 위해 여러 가지 시도들이 이루어졌다. Several attempts have been made to improve this process. 이러한 종래 기술에는 대상물이 프레임에서 프레임으로 이동하면 대상물의 윤곽선을 자동적으로 트랙킹하는 기술들이 있다. This prior art is when the object is moved to the frame in the frame, there are techniques for automatically tracking a contour line of the object. 이러한 기술의 일례로 활성 윤곽선(Active contour)을 적용하는 기술이 있다(참조: Active contour - Andrew Blake & Michael Isard - ISBN 3-540-76217-5). Active Contour An example of such a technique is a technique for applying (Active contour) (see: Active contour - Andrew Blake & Michael Isard - ISBN 3-540-76217-5). 이 기술의 주요 취약점은 대상물의 예상되는 움직임을 트랙킹하는 기술을 실행하는 소프트웨어를 가르쳐야 한다는 것이다. The main vulnerabilities of the technology is that it should teach the software to run the technology to track the expected movement of an object. 이것은 예상되는 움직임을 모르거나 복잡한 변형이 예상되거나 서로 다른 움직임 특성을 갖는 다수의 대상물들을 동시에 트랙킹해야 하는 경우에는 심각한 문제가 된다. If this is to be the tracking of multiple objects, or expected to know or complicated modifications to the expected movement that have different motion characteristics at the same time there is a serious problem.

포인트에 기초한 트랙킹(Point-based tracking) 기술도 윤곽선의 움직임을 정의하기 위해 사용되어 왔다. Tracking (Point-based tracking) technique based on the point also has been used to define the movement of the outline. 이것은 코모션(Commotion) 및 애프터 이펙트와 같은 편집 환경에서 인기가 있는 기술이다. This is a technique that is popular in the editing environment, such as the nose Motion (Commotion) and After Effects. 그러나 그 움직임이 대상물의 움직임을 모두 반영하는 적절한 트랙킹 포인트를 식별하는 것이 불가능한 경우가 많기 때문에 이 기술의 적용은 매우 제한된다. However, the movement is applied in this technique because in many cases it is not possible to identify the appropriate tracking points that reflect both the movement of the object is extremely limited. 포인팅 트랙킹은 때때로 대상물이 단순한 변환을 거칠 경우에는 적용할 수 있으나, 형태 변형, 폐색(occulsion) 또는 일반적인 다양한 다른 문제들을 처리하지 못한다. Pointing the tracking time to time when the object is subjected to a simple transformation, but can be applied, the type strain, occlusion (occulsion) or can not handle the typical variety of other problems.

이스라엘 회사 AutoMedia는 AutoMasker라는 소프트웨어 프로그램을 생산하였다. AutoMedia Israeli company was producing a software program called AutoMasker. 이 프로그램은 작업자로 하여금 대상물의 윤곽선을 그리고 그것을 프레임에서 프레임으로 트랙킹하도록 할 수 있다. The program allows the operator to be the outline of the object and tracking it from frame to frame. 이것은 대상물의 색을 트랙킹에 의존하므로 유사한 색의 대상물들이 교차하는 경우에는 작용할 수 없다. This does not work if you are of a similar color objects that intersect rely on the color of an object tracking. 이 프로그램은 또한 연속되는 프레임들을 통해 크기가 변하는 대상물을 트랙킹하는데 어려움이 있다.예를 들면, 대상물이 관찰자 쪽으로 가까워지거나 스크린 상에서 앞쪽으로 이동할 때 이 대상물을 트랙킹하는데 어려움이 있다. The program also it is difficult to track the object, the size of which varies over successive frames. For example, the object may have difficulty tracking the object when moving toward the front on the screen near or toward the viewer.

적용 가능한 정도로 원근 맵을 부여하고 트랙킹할 수 있는 기술이 없기 때문에 원근 맵은 아직도 수동 시스템으로 생성하고 있다. Since there is no applicable give a perspective about the map and technologies that can be tracked and generated map it is still a manual system perspective.

원래는 2차원 시퀀스를 기록하는데 사용되는 카메라의 움직임의 재구성에 의존하는 종래의 기술들이 있으나, 이 기술들은 본래의 영상 시퀀스내의 카메라의 움직임과 트랙킹 포인트로 사용할 수 있는 각각의 프레임내의 잘 정의된 특징을 필요로 한다는 취약점을 가진다. Original, but to the prior art which depends on reconstruction of the movement of the camera used to record a two-dimensional sequence, the techniques are a well-defined features within each frame that can be used as a movement of the camera in the original video sequence and the tracking point the vulnerability that has a need.

본 발명은 하나 이상의 2차원 영상으로부터 원근 맵(Depth map)을 얻기 위한 개선된 기술에 관한 것이다. The present invention relates to an improved technique for obtaining a perspective map (Depth map) from one or more 2D images.

도 1은 단계1의 트레이닝 과정의 일실시예를 나타낸 도면, 1 is a view showing an embodiment of a training procedure for step 1,

도 2는 단계1의 변환 과정의 일실시예를 나타낸 도면, Figure 2 is a view showing an embodiment of the conversion procedure for step 1,

도 3은 단계2의 트레이닝 과정의 일실시예를 나타낸 도면, Figure 3 is a view showing an embodiment of a training process of the step 2,

도 4는 단계2의 변환 과정의 일실시예를 나타낸 도면, 4 is a view showing an embodiment of the conversion process of Step 2,

도 5는 학습과정이 어떻게 특성 공간을 분할하는지를 보여주는 도면, 5 is a view showing how the learning process dividing a feature space,

도 6은 단계2를 위한 다른 원근 맵 생성 과정을 나타낸 도면, 6 is a perspective view showing another map generation process for the second step,

도 7은 단계2에서 각각의 픽셀의 원근을 결정하는 방법을 나타낸 도면, 7 is a diagram showing a method for determining the perspective of the respective pixels in step 2,

도 8은 후보 트레이닝 샘플을 검색하는 과정을 나타낸 도면, 8 is a view illustrating a process of searching the candidate training samples,

도 9는 다수의 후보 트레이닝 샘플들로부터 원근을 계산하는 것을 나타낸 도면. Figure 9 is a view of calculating the perspective from the plurality of candidate training samples.

현재, 작업자는 영상의 각각의 프레임에 대한 원근 맵을 수동으로 생성하여 겨우 기준에 맞는 결과를 얻어야 한다. Currently, the operator is to manually create a perspective map for each frame of the image to obtain the result for the only criteria. 이에 본 발명은 수동으로 원근을 생성해야 하는 프레임의 수를 감소시킴으로써 작업자가 원근 맵을 생성하는데 소요되는 시간을 줄이는 것을 그 목적으로 한다. The present invention by reducing the number of frames that must be manually generated by the perspective and with the object of reducing the time it takes the operator to create the perspective map.

그러나 여전히 원근 맵을 수동으로 생성해야 하는 프레임들이 존재한다. But still there are frames that need to manually create a map perspective. 이에 본 발명의 또 다른 목적은 이들 프레임에 대한 원근 맵을 수동으로 생성하는 과정을 돕는 데에 있다. In yet another object of the invention is to help the step of manually generating the perspective map for these frames.

상기 목적을 달성하기 위하여 본 발명은 영상의 적어도 하나의 픽셀 또는 부분에 원근을 부여하는 단계와, 상기 영상의 적어도 하나의 픽셀 또는 부분에 대한 상대적인 위치 및 영상 특성을 결정하는 단계, 상기 원근과 영상 특성 및 상대적인 위치를 이용하여 상대적인 위치와 영상 특성의 함수로서 원근 특성을 알아내기 위한 제 1알고리즘의 구성을 결정하는 단계, 상기 제 1알고리즘을 이용하여 상기 영상의 각각의 픽셀 또는 부분에 대한 원근 특성을 계산하는 단계를 포함하여 구성되되, 상기 원근 특성이 상기 영상에 대한 원근 맵을 형성하는 것을 특징으로 하는 원근 맵을 형성하는 방법을 제공한다. The present invention to achieve the above object, the method comprising: granting perspective in at least one pixel or part of the image, determining a relative position and a visual characteristic for at least one pixel or part of the image, the perspective and image characteristics and phase, perspective characteristic for each pixel or portion of the image using the first algorithm for determining the configuration of a first algorithm to find out the perspective characteristics as a function of the relative position and image characteristics by using the relative position the doedoe comprises a step of calculating, a method in which the characteristic trapezoidal form a perspective map, characterized in that for forming a perspective map for the image.

또 다른 일면에 있어서, 본 발명은 영상의 적어도 하나의 픽셀 또는 부분에 원근을 부여하는 단계와, 상기 영상의 적어도 하나의 픽셀 또는 부분에 대한 x,y좌표 및 영상 특성을 결정하는 단계, 상기 원근과 영상 특성 및 x,y좌표를 이용하여 x,y좌표와 영상 특성의 함수로서 원근 특성을 알아내기 위한 제 1알고리즘을 결정하는 단계, 상기 제 1알고리즘을 이용하여 상기 영상의 각각의 픽셀 또는 부분에 대한 원근 특성을 계산하는 단계를 포함하여 구성되되, 상기 원근 특성이 상기 영상에 대한 원근 맵을 형성하는 것을 특징으로 하는 원근 맵을 형성하는 방법을 제공한다. In a further aspect, the present invention and to impart a perspective in at least one pixel or part of the image, determining an x, y coordinate and the image attribute for at least one pixel or part of the image, the perspective and image characteristics, and x, y using the coordinates determining a first algorithm to find out the perspective characteristics as a function of x, y coordinates and the image characteristic, using the first algorithm, each pixel or portion of the image doedoe comprises the step of calculating the perspective characteristic for, a method in which the characteristic trapezoidal form a perspective map, characterized in that for forming a perspective map for the image.

또 다른 일면에 있어서, 본 발명은 영상 시퀀스의 적어도 하나의 프레임에 대한 원근 맵을 입력하는 단계와, 상기 적어도 하나의 원근 맵을 이용하여 상대적인 위치와 영상 특성의 함수로서 원근 특성을 확인하기 위한 제 2알고리즘의 제 2구성을 결정하는 단계, 및 상기 알고리즘을 이용하여 상기 영상 시퀀스의 각각의 프레임에 대한 원근 맵을 생성하는 단계를 포함하여 구성되는 영상 시퀀스에 대한 일련의 원근 맵들을 생성하는 방법을 제공한다. In a further aspect, the present invention has been made to determine the perspective characteristics by using a step and the at least one perspective map for inputting a perspective map for at least one frame of the image sequence as a function of the relative position and the image characteristic determining a second configuration of the second algorithm, and a method for generating a series of perspective map for the video sequence, which comprises the step of using the algorithm generates a perspective map for each frame of the image sequence to provide.

또 다른 일면에 있어서, 본 발명은 영상 시퀀스로부터 적어도 하나의 키 프레임을 선택하는 단계와, 적어도 하나의 키 프레임 각각에 대하여 각각의 프레임의적어도 하나의 픽셀 또는 일부분에 원근을 부여하는 단계, 상기 각각의 키 프레임의 적어도 하나의 픽셀 또는 부분에 대하여 상대적인 위치(예를 들면, x,y좌표)와 영상 특성을 결정하는 단계, 상기 적어도 하나의 키 프레임 각각에 대한 원근과 영상 특성 및 상대적인 위치를 이용하여 상대적인 위치와 원근 특성의 함수로서 원근 특성을 확인하기 위하여 상기 적어도 하나의 프레임 각각에 대한 제 1알고리즘의 제 1구성을 결정하는 단계, 상기 제 1알고리즘을 이용하여 상기 적어도 하나의 키 프레임의 각각의 픽셀 또는 부분에 대한 원근 특성을 계산하는 단계, 상기 각각의 원근 맵을 이용하여 상 In a further aspect, the present invention is to impart a perspective in at least one and a step of selecting a key-frame, at least one pixel or a portion of each frame for each of the at least one key frame from the video sequence, wherein each the relative position with respect to the at least one pixel or part of a key frame (e.g., x, y coordinates) and determining an image characteristic, perspective and the image characteristic for the at least one key-frame, respectively, and using the relative position to each of the first algorithm, the first step, the at least one key frame of using the first algorithm for determining the first configuration of the at least one frame each in order to determine the perspective characteristics as a function of the relative position and the perspective characteristic of computing a perspective characteristic for a pixel or section, the individual using the perspective map 적인 위치와 영상 특성의 함수로서 각각의 프레임에 대한 원근 특성을 확인하기 위한 제2알고리즘의 제2구성을 결정하는 단계, 및 상기 제2알고리즘을 이용하여 상기 영상 시퀀스의 각각의 프레임에 대한 원근 맵을 생성하는 단계를 포함하여 구성되되, 상기 원근 특성은 상기 적어도 하나의 키 프레임에 대한 원근 맵을 형성하는 것을 특징으로 하는 영상 시퀀스에 대한 일련의 원근 맵을 생성하는 방법을 제공한다. Position and as a function of the image characteristic determining a second configuration of the second algorithm to determine the perspective characteristic for each frame, and a perspective map for each frame of the video sequence using the second algorithm, doedoe comprises the steps, the characteristic trapezoidal generating provides a method for generating a series of perspective map for the video sequence, characterized in that for forming a perspective map for the at least one key frame.

상대적인 위치 및 영상 특성의 결과로서 원근 맵을 생성하기 위해 알고리즘에 의한 시스템은 실제로 다수의 서로 다른 함수들을 생성한다. As a result of the relative position and the image characteristic system according to the algorithm to create the perspective map is generated in practice a number of different functions. 바람직한 시스템에 있어서, 상대적인 위치는 x,y 좌표의 값이 된다. In a preferred system, the relative location is the value of the x, y coordinates.

본 발명을 구현하는 시스템은 시퀀스의 어느 프레임을 키 프레임으로 할 것인지를 미리 결정한다. Systems embodying the present invention is determined in advance whether a certain frame in the sequence as key frames. 예를 들면, 5번째 프레임을 키 프레임으로 하도록 결정한다. For example, it is determined that the fifth frame as the keyframe. 또한, 알고리즘은 시간을 알고리즘의 입력으로 간주하여 프로세싱을 더욱 개선한다. In addition, the algorithm further improve the process by considering the time to the input of the algorithm.

본 발명은 관련된 2차원 영상을 위한 원근 맵을 생성하는 과정을 개선하기 위한 것이다. The present invention is to improve the process of generating a perspective map for the two-dimensional image associated. 본 발명의 바람직한 실시예는 키 프레임의 원근 맵을 생성하는 단계와 나머지 맵을 생성하는 단계의 두 가지 단계를 포함한다. The preferred embodiment of the present invention includes two steps of generating a phase and the rest of the map to create a map perspective of the key frame.

첫 번째 단계에서 사용자로부터 적은 양의 데이터를 얻는다. In the first step to obtain a small amount of data from the user. 이 데이터는 장면의 기본 구조를 나타내는 것이다. This data shows the basic structure of the scene. 사용자에 의해 여러 영상 픽셀들에 부여되는 원근 z와, x,y 위치 및 영상 특성간의 관계를 학습할 수 있는 알고리즘에 2차원 영상 및 이와 관련된 데이터가 제공된다. In perspective and z, an algorithm that can learn the relationship between the x, y position and the image characteristic imparted to the several image pixels by a user and a two-dimensional image and related data is provided. 상기 영상 특성에는 각각의 픽셀의 RGB값이 포함된다. The image characteristics include the RGB values ​​of each pixel. 일반적으로, 상기 알고리즘에 의해 사용자가 규정한 프레임에 있어서의 각각의 픽셀에 대한 다음 방정식의 답이 구해진다. In general, the answer of the following equation for each pixel in the frame by the user defined by the algorithm is obtained.

z=f(x,y,R,G,B) z = f (x, y, R, G, B)

상기 알고리즘은 상기에서 학습한 관계를 영상의 나머지 픽셀들에 적용하여 원근 맵을 생성한다. The algorithm generates a perspective map by applying the learned relationship in the remainder of the pixels in the image. 필요할 경우, 사용자는 데이터를 정련하여 원근 맵의 정확성을 향상시킬 수 있다. If necessary, the user may be refined to improve the accuracy of data of the perspective map. 초기의 원근 데이터를 반드시 사용자가 규정할 필요는 없으며, 모션 알고리즘으로부터의 자동화된 구조를 이용하거나 스테레오 영상으로부터 원근 값을 구하는 것을 포함하는 다른 과정에 의해 결정할 수 있다. It is not the initial data of the perspective required to be user-defined, it may be determined by another process which comprises using an automated structure from motion algorithm or to obtain the perspective value from the stereo images.

두 번째 단계는 선택된 키 프레임에 제공될 2차원 영상과 이와 관련된 원근 맵을 필요로 한다. The second step requires the associated perspective map and the two-dimensional image to be provided to the selected key frame. 키 프레임의 원근 맵은 예컨대, 본 출원인이 이전에 개시한 바와 같이 생성하거나, 레이저 레인지 파인더(laser range finder), 예컨대 LIDAR(Light Detection And Range)장치를 포함하는 원근 포획(depth capture) 기술 및 DFF(Depth-from-focus) 기술을 이용하여 자동적으로 생성한다. Perspective map of the key frames, for example, the present applicant produced as disclosed previously, or a laser range finder (laser range finder), for example, LIDAR (Light Detection And Range) perspective capture including a device (depth capture) technology and DFF the automatically generated by using the (Depth-from-focus) technology.

각각의 키 프레임에 대한 2차원 영상과 이와 관련된 원근 맵은 나머지 프레임의 각각의 픽셀에 부여된 원근 z와, 픽셀의 x 및 y위치 및 영상 특성간의 관계를 학습할 수 있는 알고리즘에 제공된다. Perspective map associated with this 2-D image for each of the key frames are provided to the perspective and z, an algorithm that can learn the relationship between x and y location and image characteristics of the pixels assigned to each pixel of the rest of the frame. 상기 영상 특성에는 각각의 픽셀의 RGB값이 포함된다. The image characteristics include the RGB values ​​of each pixel. 일반적으로, 상기 알고리즘에 의해 키 프레임내의 각각의 픽셀에 대한 다음 방정식의 해를 구한다. In general, to obtain the following equation for each pixel in the key frames by said algorithm.

z=f(x,y,R,G,B) z = f (x, y, R, G, B)

인접한 키 프레임들 사이의 연속되는 프레임이 상기 알고리즘에 제공되며 각각의 픽셀에 대해 알고리즘을 사용하여 z값을 계산한다. The algorithm provides for a continuous frame that is between adjacent key frames and calculates the z value using an algorithm for each pixel.

본 발명은 하나 이상의 2차원 영상으로부터 원근 맵을 구하는 개선된 기술을 제공한다. The present invention provides an improved technique to obtain the perspective map from one or more 2D images. 본 발명은 두 단계를 포함하는바, 각각의 단계에는 자동화된 학습 과정이 통합되는 것이 이상적이다. Ideally, the present invention is that the bar, each step is automated learning process including the two-step integration.

단계1 Step 1

제 1단계는 하나의 영상에 대해 작용한다. The first step is to act on the single image. 사용자는 영상을 제공받아 단순한 그래픽 인터페이스를 이용하여 제공받은 영상내의 여러 영역들에 대한 대략적인 원근을 규정한다. The user specifies a rough perspective of the various areas within the received video service provided by using a simple graphical interface image. 상기 그래픽 인터페이스는 사용자가 픽셀에 원근을 부여하는 것을 돕기 위한 도구를 제공할 수 있다. The graphical interface may provide tools for helping the user to give perspective to the pixel. 이 도구에는 펜 및 화필(paintbrush) 도구, 영역을 채우는(area fill) 도구 및 픽셀의 색에 기초한 원근을 부여하는 도구가 포함된다. The tool includes a tool which imparts a perspective based on the pen and Brush (paintbrush) tools, filling the region (area fill) tool, and the color of the pixel. 상기 과정의 결과로서 영상내의 픽셀들의 부분 집합에 대해 원근이 규정된다. This perspective is defined for the subset of pixels in the image as a result of the process.

이것을 도 1에 예시하였다. This is illustrated in Figure 1; 도 1에서 2차원 영상(1)이 사용자에게 제공된다. A two-dimensional image (1) is provided to the user in FIG. 그러면 사용자는 2차원 영상내의 여러 픽셀들에게 원근을 부여할 수 있다. The user can be given a different perspective to the pixels in the two-dimensional image. 도 1의 예에서 "X"로 표시된 픽셀들은 사용자가 원근을 규정하지 않은 픽셀들이다. In the example of Figure 1, the pixel indicated by "X" are the pixel the user has not specified a perspective. 본 발명의 시스템은 상기 2차원 영상(1)과 사용자가 제공한 원근 데이터(2)를 서로 관련시키고, 영상내의 각각의 픽셀의 원근에 대한 함수를 풀 수 있는 매핑 함수(4)의 생성을 돕기 위해 트레이닝 알고리즘(3)을 이용한다. System to help the generation of the two-dimensional image (1) and that a user and correlate to the perspective data (2) provides, to solve the function for the perspective of each pixel in the image mapping functions (4) according to the present invention; It utilizes a training algorithm (3) for.

사용자가 제공하는 정보는 이하에서 후술될 학습 과정에 이용되는 트레이닝 데이터를 규정하여 원근과 상기 하나의 영상내의 각각의 픽셀을 관련시킨다. Information provided by the user is defined by the training data used in the learning process will be described later in the following relates to the respective pixels within the single image and the perspective. 이 과정은 상호 작용하는 방식(interative)으로 수행된다는 점에서 사용자는 몇 개의 영역들에 대해 대략적인 원근을 정의할 수 있다. In that the process is being performed in a manner (interative) interacting user can define a rough perspective for the several regions. 상기 영역들에 대한 학습 과정의 결과에 기초하여 사용자는 학습 과정이 불충분하게 행해진 영역들에 대한 원근 값들을 제공할 수 있다. Based on a result of the learning process for the zone the user may provide the perspective values ​​for the area it made the learning process becomes insufficient. 사용자와 학습 과정간의 이러한 상호작용은 여러 번 반복될 수 있다. This interaction between the user and the learning process can be repeated many times. 실제로, 사용자는 이 단계에서 학습과정을 가이드할 수 있다. In fact, the user can guide the learning process at this stage. 초기의 원근 데이터는 사용자에 의해 규정될 필요가 없으며 상술한 바와 같은 다른 과정에 의해 결정할 수 있다는데 주목해야 한다. Perspective of the initial data does not need to be specified by the user should be noted itdaneunde be determined by other procedures, such as described above.

<매핑 함수의 생성> <Generate the mapping function>

시스템에 영상과 픽셀 원근들이 제공되면, 시스템은 매핑 함수를 생성하기 위하여 규정된 원근을 갖는 픽셀들을 분석한다. If the system image and a perspective pixels are provided, the system analyzes the pixels having the perspective rules in order to create a mapping function. 매핑 함수는 영상으로부터의 픽셀 또는 픽셀들 대한 값을 입력으로 받고 이 픽셀 또는 픽셀들에 대한 원근 값을 출력으로 제공하는 과정 또는 함수가 될 수 있다. Mapping function may be a function or process to receive a value for the pixel or pixels from the input image to provide a perspective on the value of the pixel or pixels to the output.

개별적인 픽셀에 대한 값들은 적색, 녹색 및 청색값들로 이루어지거나 휘도, 색도, 콘트라스트와 같은 다른 값들 및 영상에 있어서의 수평 및 수직 위치와 같은 공간 값들로 이루어진다. Values ​​for the individual pixels are composed of horizontal and vertical space values, such as position in the other image values ​​and the like made or brightness, color, contrast with the red, green, and blue values. 또한, 상기 매핑 함수는 보다 큰 픽셀들의 집합들 및 평균과 분산 또는 엣지 또는 코너 등(즉, 특징 검출기의 응답)과 같은 픽셀들의 집합에 대한 값들과 같이 높은 레벨의 영상 특징에 작용할 수 있다. In addition, the mapping function may serve to image features of a higher level, such as the values ​​for a set of pixels, such as pixels and larger than the set of the mean and variance or edge or a corner (i.e., the response characteristics of the detector). 보다 큰 픽셀들의 집합들은 예컨대 영상내의 부분들(Segments)을 나타내며, 동종(homogeneous) 영역을 형성하는 연결된 픽셀들의 집합들에 해당된다. Than the group of large pixels, for example indicate the portions (Segments) in the image, is that the same type (homogeneous) a set of connected pixels forming the region.

설명을 위해 하나의 픽셀은 다음과 같은 형태로 표현될 수 있다. For purposes of illustration a single pixel can be expressed in the following forms.

x,y,R,G,B,z x, y, R, G, B, z

여기서 x와 y는 픽셀의 x 및 y좌표와 같은 상대적인 위치를 나타내며, R,G,B는 이 픽셀의 적색, 녹색 및 청색값들을 나타내고, z는 이 픽셀의 원근을 나타낸다. Where x and y represents the relative location, such as the x and y coordinates of the pixels, R, G, B represent the red, green and blue values ​​of the pixel, z represents the perspective of a pixel. z값은 사용자가 어떤 값을 규정했을 경우에만 정의된다. z values ​​are defined only if the user specified a value.

매핑 함수는 영상 데이터와 사용자에 의해 식별된 픽셀에 대한 데이터 사이의 관계를 파악함으로써 학습된다. Mapping function is learned by identifying the relationship between the image data and the data for the pixel identified by the user. 매핑 함수는 입력 데이터를 수신하여 처리하고 출력하는 제네릭-프로세싱 유닛(generic-processing unit)의 형태를 가질 수 있다. Mapping the generic functions for processing and outputting the received input data - may be in the form of a processing unit (generic-processing unit). 이 처리 유닛은 사용자 데이터와 해당 영상 데이터의 조사에 의해 그 성질이 결정되는 학습 과정을 수행하는 것이 바람직하다. The processing unit is preferably carried out a learning process in which the property is determined by the irradiation of the user data and the corresponding image data.

입력 데이터와 원하는 출력 사이의 관계를 학습하는 과정은 인공지능 또는 기계 학습 분야에 종사하는 자들에 의해 이해될 것이며, 다양한 형태를 가질 수 있다. The process of learning the relationship between the desired output and input data will be understood by those working in artificial intelligence or machine learning, it can take a variety of forms. 인공지능 또는 기계 학습 분야에 종사하는 사람들은 일반적으로 입체 시스템 또는 2차원 영상의 3차원 영상으로의 변환기술 분야에서 일하지 않는다. Those who engage in artificial intelligence or machine learning typically does not work in the transformation of art into three-dimensional images of three-dimensional or two-dimensional imaging system. 기계 학습에 있어서, 매핑 함수는 공지의 것으로, 신경망, 판단 트리(decision tree), 판단 그래프(decision graph), 모델 트리 및 최단거리-이웃 분류자(nearest-neighbor classifier)를 포함한다. In machine learning, a mapping function to a known, neural network, determines the tree (decision tree), a graph is determined (decision graph), the model tree and shortest-neighbor classifier to include (nearest-neighbor classifier). 학습 알고리즘의 바람직한 실시예는 매핑 에러의 측정값을 최소화하고 본래의 데이터 세트 외부의 값들을 만족스럽게 일반화하는 매핑 함수의 설계를 추구하는 것이다. A preferred embodiment of the learning algorithm, for example, is to minimize a measure of the mapping error to seek a design of a mapping function to generalize satisfactorily the original data set values ​​of the external.

학습 알고리즘은 2차원 영상정보와 원근 사이의 관계를 전체 영상에 대해 전체적으로 결정하거나 작은 공간적인 영역에 대해 부분적으로 결정하는 것이다. Learning algorithm is to determine for the entire image as a whole or in part, determined for a small spatial regions the relationship between the two-dimensional image information and perspective.

상기 관계는 전체 시퀀스에 대한 원근 맵들을 완성하기 위해 적용될 수 있다. The relationship can be applied to complete the perspective map for the entire sequence.

이것을 도 2에 예시한 바, 2차원 영상(1)으로부터 데이터를 생성된 매핑 함수(4)로 입력하여 2차원 영상(1)의 원근 맵(5)을 생성한다. This was illustrated in Figure 2 bars, and input to a mapping function (4) generates the data from the two-dimensional image (1) and generates the perspective map 5 of the two-dimensional image (1).

성공적인 학습 알고리즘의 예는 신경망을 학습하기 위한 후방-전파 알고리즘(back-propagation algorithm), 판단 트리 학습을 위한 C4.5 알고리즘, 부분적으로 가중된 선형 복귀(locally weighted linear regression) 및 클러스터 타입 분류자(cluster-type classifier) 학습을 위한 K-means 알고리즘이다. Examples of successful learning algorithm to learn the neural network is back for-propagation algorithm (back-propagation algorithm), C4.5 algorithm for determining the tree learning, return a partially weighted linearly (locally weighted linear regression), and cluster-type classifier ( cluster-type classifier) ​​is a K-means algorithm for learning.

설명을 위해서, 학습 알고리즘이 2차원 영상 시퀀스의 프레임내의 각각의 픽셀에 대한 다음 관계식을 계산하는 것으로 간주할 수 있다. For purposes of explanation, it can be considered as learning algorithm calculates the following relational expression for each pixel in the frame of the two-dimensional image sequence.

Z n = k a ·x n + k b ·y n + k c ·R n + k d ·G n + k e ·B n N = a k x n · Z + b · y k n + k c · R n + d k · G k + e n · B n

여기서, here,

n은 키프레임 영상의 n번째 픽셀이고, n is an n-th pixel of the key frame image,

Z n 은 x n ,y n 에 위치한 픽셀에 부여된 원근의 값이고, And Z n is a value of the perspective given to the pixel located in the n x, n y,

k a 내지 k e 는 상수로서 상기 알고리즘에 의해 결정되며, k to a k e is determined by the algorithm as a constant,

R n 은 x n ,y n 에 위치한 픽셀의 적색 성분의 값이고, R n is a value of the red component of the pixel in the n x, n y,

G n 은 x n ,y n 에 위치한 픽셀의 녹색 성분의 값이고, And G n is the value of the green component of the pixel in the n x, n y,

B n 은 x n ,y n 에 위치한 픽셀의 청색 성분의 값이다. B n is the value of the blue component of the pixel in the x n, y n.

이 과정은 도 1에 나타내었다. This process is shown in Figure 1;

상기 방정식은 단지 설명을 위해 단순화한 것으로 실제로는 이상적으로 작용하지 않는 것을 당 분야의 통상의 지식을 가진 자들은 이해할 수 있을 것이다. The equations will be those of ordinary skill in the art field that does not actually serve as ideal to be simplified for illustrative purposes only they can understand. 예컨대 신경망과 영상내의 다수의 픽셀들을 이용하는 실제적인 상황에서 상기 신경망은 다수의 k값들과 승산 및 가산을 포함하는 하나의 큰 방정식을 학습하게 된다. For example, in practical situations using a number of pixels in the neural network and the neural network image is to study a single large equation including a plurality of k values ​​and the multiplication and addition. 또한, k값들은 부분적인 영상의 특징에 적합하도록 영상내의 각기 다른 x,y 위치들에 따라 변화될 수 있다. In addition, k values ​​can be changed in accordance with different x, y position in the image to fit the characteristics of the partial image.

<매핑 함수의 2차원 영상에의 적용> <Application of the two-dimensional image of the mapping function>

본 발명은 상기 매핑 함수를 2차원 영상 시퀀스의 전체 프레임에 적용한다. The invention applies to the entire frame of the two-dimensional video sequence, the mapping function. 소정의 픽셀에 대하여 매핑 함수의 입력은 학습 과정동안 매핑 함수에 제공된 것과 같은 방식으로 결정된다. The input of the mapping function for a given pixel is determined in the same manner as provided in the mapping function for the learning process. 예를 들어, 단일 픽셀의 값들을 입력으로 제공하여 매핑 함수를 학습한 경우에는 매핑 함수가 이 값들을 입력으로서 필요로 할 것이다. For example, when the learning of the mapping function will provide the values ​​of the single pixels in the input, the mapping function may require as input the values. 이 입력으로 매핑 함수는 학습한 작업을 수행하고 원근 값을 출력한다. This type mapping function performs a learning task and the output value of the perspective. 단일 픽셀에 대한 예에 있어서, 이 원근 값은 단순한 원근 값일 수 있다. In the example of a single pixel, the perspective value may be a simple trapezoidal. 이 예에서, 매핑 함수는 전체 영상에 대해 적용되어 영상에 대한 원근 데이터의 전체 집합을 완성한다. In this example, the mapping function is applied for the entire image to complete a full set of data for the perspective image. 보다 큰 픽셀들의 집합을 이용하여 매핑 함수를 학습한 경우에는 영상에 대해 상기한 바와 같은 큰 픽셀들의 집합을 생성할 필요가 있다. If the learning of the mapping function using a set of larger than a pixel, it is necessary to generate a large set of pixels as described above for the image. 평균 및 분산과 같은 이러한 픽셀들의 집합에 관한 높은 레벨의 값들은 학습 과정에서와 같은 동일한 방식으로 만들어진다. High level values ​​on the set of these pixels, such as the mean and variance are made in the same manner as in the learning process. 이러한 값들을 입력으로 하여 매핑 함수는 상기 픽셀들의 집합에 대하여 필요한 원근 값을 생성한다. To these values ​​as input to mapping function creates a trapezoidal values ​​necessary for the set of pixels.

이 과정을 도 2에 도시한 바, 2차원 영상에 대한 전체적인 원근 맵이 얻어진다. In Fig. 2 the process Toba, the overall perspective map for the two-dimensional image is obtained. 이 원근 맵이 에러가 있는 영역을 포함하는 경우, 사용자 데이터를 수정할 수 있으며 상기 과정을 반복하여 이 영역을 보정한다. When this perspective map includes a region in which there is an error, the user can modify the data and corrects this region by repeating the above procedure. 매핑 함수를 다른 프레임들에 적용하여 원근 맵을 생성할 수 있다. By applying a mapping function to the other frame may generate a perspective map.

트레이닝 단계가 알고리즘의 일반적인 구성에 포함될 수 있다는 것을 기계 학습 분야에 통상의 지식을 가진 자들은 이해할 수 있을 것이다. Now that the training phase may be included in the general structure of the algorithm of ordinary skill in the field of machine learning it will be understood. 이것은 사례에 기초한 학습(instance-based learning)이라고 하며, 부분적으로 가중된 선형 복귀(locally weighted linear regression)와 같은 기술들을 포함한다. This is called learning (instance-based learning) based on the case and includes techniques such as returning the partially weighted linearly (locally weighted linear regression). 다른 실시예에 있어서, 사용자는 대상물들의 집합을 정의하고 이 대상물들에 픽셀들을 할당할 수 있다. In another embodiment, the user may define a set of objects, and assigning the pixel to the object. 이 실시예에 있어서, 영상의 나머지 픽셀들에 대해 사용자 데이터를 일반화하는 과정은 전체 영상을 사용자에 의해 최초로 식별된 대상물들의 집합으로 분할한다. In this embodiment, the generalized process of the user data for the remaining pixels in the image is divides the whole image into a first set of the identified object by a user. 상기 대상물들을 규정하는 매핑 함수 또는 대상물들 자체는 본 실시예에서 요구되는 출력이 될 수 있다. The mapping function or the object that define the object itself may be the output that is required in this embodiment. 또한, 상기 대상물들에 함수들을 적용하여 이 대상물들의 원근을 규정함으로써 상기 영상에 대한 원근 맵을 구성할 수 있다. Further, by applying the function to the object may constitute a perspective map for the image by defining the perspective of the object. 이 함수들은 원근 램프(depth ramp)의 형태를 취할 수 있으며 본 출원인이 이전에 출원한 PCT/AU00/00700에 기술된 바와 같은 대상물의 원근을 규정하는 다른 방법의 형태를 가질 수 있다. The function may have a different form of the method for defining the perspective of the object as described in the PCT / AU00 / 00700, filed the prior present applicant may take the form of trapezoidal ramp (ramp depth).

또 다른 실시예에 있어서, 상기 트레이닝 알고리즘은 사용자 정보에 임의의 요소의 도입을 시도할 수 있다. In yet another embodiment, it said training algorithm may attempt to introduction of any elements in the user information. 어떠한 학습 알고리즘에 대해서도 이것은 오버트레이닝(over-training)의 문제점을 극복하는 것을 돕는다. For any learning algorithm which helps to overcome the problem of over-training (over-training). 오버트레이닝은 학습 알고리즘이 트레이닝 정보를 단순히 기억하는 상황을 의미한다. Over training is a situation that simply learning algorithm remembers the training information. 이것은 어린이가 곱셈자체의 개념을 이해하지 않고 구구단을 써가면서 익히는 것과 유사하다. This is analogous to a child going to write the multiplication table does not understand the concept of multiplication own learning. 이 문제는 기계 학습 분야에서 공지의 것으로, 이를 해결하기 위한 방법은 트레이닝 데이터에 불규칙 잡음을 도입하는 것이다. This problem is known to be in machine learning, how to solve this problem is to introduce the random noise in the training data. 우수한 학습 알고리즘은 트레이닝 데이터에 있어서의 잡음과 쓸만한 정보를 구별해야 한다. Excellent learning algorithm must distinguish between noise and the useful information in the training data. 그러므로 데이터를 단순히 기억하기보다는 데이터의 성질을 알아야 한다. Therefore, to know the nature of the data, rather than simply storing data. 이러한 시도의 일 실시예는 트레이닝 알고리즘이 다음의 함수를 학습하는 상술한 예와 관련된다. One embodiment of this approach is related to the above-described example in which the training algorithm learning the following function.

Z n = k a ·x n + k b ·y n + k c ·R n + k d ·G n + k e ·B n N = a k x n · Z + b · y k n + k c · R n + d k · G k + e n · B n

트레이닝 알고리즘에 z,x,y,R,G,B 입력값을 제공하면, 이 값들에 작은 잡음 성분이 가해진다. When a training algorithm service z, x, y, R, G, B input value, is applied is less noise component in the values. 이 잡음 성분은 임의의 작은 양의 수 또는 음의 수일 수 있다. The noise component may be a number of arbitrarily small positive or negative of the. 바람직한 실시예에 있어서는 z성분에는 잡음이 가해지지 않는다. In a preferred embodiment, the z component does not noise is applied.

<학습 과정> <Learning>

바람직한 실시에에 있어서, 학습 과정의 입력은 다음과 같다. In a preferred embodiment, an input of the learning process is as follows.

1. 원근을 포함한 특성들을 갖는 다수의 트레이닝 샘플들 1. The number of training samples having characteristics including perspective

2. 그 원근이 학습 과정에 의해 결정되며 상기 트레이닝 샘플들에 필적하는 특성들을 갖는 다수의 "분류" 샘플들 2. The perspective this is determined by a learning process, a plurality of "Category" sample having characteristics comparable to that of the training samples

상기 트레이닝 샘플들은 위치(x,y)와 색(R,G,B) 및 원근(z)를 포함하는 특성을 갖는 개별적인 픽셀들로 구성된다. The training samples are composed of individual pixels that have the attributes including a position (x, y) and color (R, G, B) and perspective (z). 학습 과정의 목적은 위치(x,y)와 색(R,G,B)을 포함하는 특성들을 가진 각각의 분류 픽셀에 대한 원근(z)를 계산하는 것이다. The purpose of the learning process is to calculate the perspective (z) for each category of pixels that has the characteristics including the location (x, y) and color (R, G, B).

각각의 분류 샘플에 대한 학습 과정의 첫 번째 단계는 문제의 분류 픽셀과 "유사한" 영상 특성을 공유하는 트레이닝 샘플들의 부분집합을 식별하는 것이다. The first step of the learning process for each of the classified sample is to identify a subset of pixels categorized as the training samples that share the "similar" image characteristic in question.

<트레이닝 후보의 검색> <Search of Training Candidate>

현재의 분류 샘플과 유사한 특성을 가진 트레이닝 샘플을 식별하기 위해 샘플이 발생하는 n차원의 특징 공간을 그려본다. Draw the characteristics of the n-dimensional space to the sample is caused to identify the training samples with similar characteristics to the current classification of the sample. 바람직한 실시예에 있어서, 이것은 각각의 차원이 영상 특성인 x,y,R,G,B,z 중의 하나를 나타내는 5차원 공간이다. In a preferred embodiment, this is the 5-dimensional space, each dimension representing one of the x, y, R, G, B, z image characteristics. 이 공간의 축들은 각각의 차원의 범위의 차이를 나타내기 위해 정규화된다. Axes of this space are normalized to show the difference in range of each dimension. 그러므로 상대적인 백분율을 이용하여 샘플들 간의 차이를 나타낼 수 있다. It is therefore possible by using a relative percentage to indicate the difference between the samples. 예를 들면, 소정의 샘플의 R성분은 제2의 샘플에 비해 (R성분의 절대 범위의) 10% 다르다. For example, R component of a given sample are different (in the absolute range of the R component) of 10% compared to the samples of the second.

이 공간내의 두 샘플들간의 거리는 이 샘플들의 유사도의 크기이다. The distance between the two samples in this area is the size of the similarity of the sample. 현재의 분류 샘플과 유사한 트레이닝 샘플을 검출하기 위해 검색 반경을 정한다. Lay down the search radius to detect the training sample is similar to the current classification of the sample. 분류 샘플과의 거리가 검색 반경보다 작은 트레이닝 샘플은 분류 샘플과 유사한 것으로 간주하고 원근 계산에 사용한다. The distance is smaller than a search radius of the training samples and classification sample is considered to be similar to the sorted samples and used for perspective calculation. 단순한 유클리드 미터법을 이용하여 n차원의 검색 공간에서의 거리를 측정한다. Using a simple Euclidean metric to measure the distance from the search space of n dimensions. n차원 특징 공간의 특별한 공간을 차지하지 않는 데이터에는 마할라노비스(Mahalanobis) 거리 미터법을 이용하여 더 나은 결과를 얻도록 한다. Data that does not take up any extra space in the n-dimensional feature space, and to obtain better results by using the Taj la nobiseu (Mahalanobis) distance metric. RGB, YUV 또는 HSV 성분의 히스토그램 균등화(histogram equalization) 또는 주요 성분 분석(principal component analysis)과 같이 데이터 범위를 스트레칭하는 방법도 유사한 장점을 제공한다. How to stretch the range of data, such as RGB, YUV or HSV histogram equalization of the components (histogram equalization) or principal component analysis (principal component analysis) also provides a similar advantage.

상기 검색 반경은 원근의 정확한 산정에 있어서 중요한 변수이며 데이터의 특성과 관련하여 구성한다. The search radius is an important parameter in the accurate calculation of the perspective constitutes in relation to the nature of the data. 높은 공간적 또는 시간적 자기상관성(autocorrelation)을 나타내는 데이터에 있어서, 상기 검색 반경은 낮은 공간적 또는 시간적 자기상관성을 갖는 영상에 대한 반경보다 작은 값으로 설정한다. A data representing the high spatial or temporal self correlation (autocorrelation), the search radius is set to a value smaller than the radius of the image having low spatial or temporal correlation between self.

상기 검색 반경은 특징 공간의 각각의 차원에 대해서 다를 수 있다. The search radius can be different for each dimension of the feature space. 예를 들면, x-축에서의 검색 반경은 적색 강도를 나타내는 축의 검색 반경과 다를 수 있다. For example, a search radius in the x- axis may be different from the radius of the search axis indicating the red intensity. 또한, 상기 학습 과정은 사용자가 규정한 범위내의 데이터에 상기 변수들을 적용할 수 있다. Further, the learning process is applicable to the above variables, the data within the range specified by the user. 예를 들어, 5%의 공간 반경과 10%의 색 반경 내에서 적절한 트레이닝 샘플이 식별되지 않으면, 공간 반경을 10% 증가시킨다. For example, if the proper training samples in the color space, a radius of 5% and 10% of the radius is not identified, thereby increasing the space radius of 10%.

도 8은 후보 검색 과정의 간략한 예를 나타낸 것이다. Figure 8 shows a simplified example of a candidate search process. 도8은 샘플의 공간적인 x축과 적색 강도가 변화하는 2차원 검색 공간을 도시하고 있다. 8 shows a two-dimensional search space in which the spatial x-axis of the sample and the red intensity change. 이 공간에는 다수의 트레이닝 샘플들(20)이 있다. This space has a number of training samples (20). 목표 픽셀(11)의 제1반경(21) 내에는 트레이닝 샘플이 존재하지 않는다. The radius in the first (21) of the target pixel 11 is not present the training samples. 따라서 학습 과정은 목표 픽셀(11)의 제2검색반경(22)으로 검색을 확장하여 3개의 후보 트레이닝 샘플들을 식별해낸다. Therefore, the learning process is identified recall three candidate training samples can expand the search in the second search radius 22 of a target pixel (11).

다른 검색 방법을 적절한 트레이닝 후보를 식별하기 위해 사용할 수 있다. Other search methods can be used to identify a suitable candidate training. 이러한 방법에 있어서, 트레이닝 데이터는 해즈 트리(has tree), kd 트리 도는 차원 보로누아도(Voronoi diagram)와 같은 구조에 저장된다. In such a way, the training data is stored in a structure as haejeu tree (tree has), kd-tree-dimensional turning Boro Noir also (Voronoi diagram). 이러한 방법은 후보 트레이닝 샘플들을 식별하는 속도를 증가시킬 수도 있지만 본 발명의 본질에는 영향을 미치지 않는다. This method may increase the rate of identifying candidate training samples, but the essence of this invention is not affected.

트레이닝 샘플들을 저장함으로써 특징 공간내의 연속되는 분류 샘플들의 근접성을 이용하는 검색 방법은 후보 트레이닝 샘플을 식별하는 속도를 증가시킬 수 있으나 본 발명의 경우 심하게 증가시키지 않는다. By storing the training sample search method using the proximity of the sample to be classified in the feature space is continuous, but may increase the speed of identifying a candidate training samples does not increase severely for the present invention.

<거리 가중 학습(Distance weighted learning)> <Weighted distance learning (Distance weighted learning)>

소정의 분류 샘플에 대한 원근을 계산하기 위해서는 상술한 바와 같이 분류 샘플과 유사한 것으로 간주되는 하나 이상의 트레이닝 샘플이 필요하다. The one or more training samples are considered to be similar to the classification sample as described above is required to calculate the perspective of a given classification sample. 이 트레이닝 샘플을 "후보" 트레이닝 샘플이라고 한다. This training samples referred to as "candidates" for the training sample.

분류 샘플의 원근을 후보 트레이닝 샘플의 원근의 가중 평균(weighted average)으로서 계산한다. The perspective of the classified sample is calculated as a weighted average of the perspective of a candidate training sample (weighted average). 어떤 후보 트레이닝 샘플에 가해지는 가중치(weight)는 그 후보 트레이닝 샘플과 n차원 공간내의 분류 샘플간의 거리와 비례한다. Weight (weight) applied to any candidate training sample is proportional to the distance between samples in the category that training candidate sample and the n-dimensional space. 상술한 바와 같이 이 거리는 정규화되며 마할라노비스 미터법(Mahalanobis metrics) 또는 주요 성분 스타일 분석을 이용하여 데이터바이어스(data-biased)될 수 있다. This distance may be normalized, and Mahal la nobiseu metrics (Mahalanobis metrics) or by using the main component analysis style data bias (data-biased), as described above.

도 9는 원근 계산 과정의 간략화된 예를 나타낸 것이다. 9 illustrates a simplified example of a perspective calculations. 도8에서와 같이 도9는 샘플들의 공간적 x축과 적색 강도가 변화하는 2차원 검색 공간을 도시하고 있다. As with the Figure 89 shows a two-dimensional search space in which the spatial x axis and the red intensity of the sample change. 3개의 후보 트레이닝 샘플들(19)이 목표 픽셀(11)로부터 서로 다른 거리(w1,w2,w3)에 위치하고 있다. Is located in the three candidate training samples (19) are different distances from the target pixel (11) (w1, w2, w3). 그 원근은 다음 식을 이용하여 후보 트레이닝 샘플들의 가중 평균으로서 계산할 수 있다. The perspective is may be calculated using the following equation as a weighted average of the candidate training samples.

여기서, D1은 목표 픽셀(11)로부터의 거리가 w1인 트레이닝 샘플의 깊이이고, D2는 목표 픽셀(11)로부터의 거리가 w2인 트레이닝 샘플의 깊이이며, D3은 목표 픽셀(11)로부터의 거리가 w3인 트레이닝 샘플의 깊이이다. Here, D1 is the depth of the training samples is the distance from the target pixel 11, w1, D2 is the depth of the training samples is the distance from the target pixel 11, w2, D3 is the distance from the target pixel 11 is the depth of w3 of the training samples.

바람직한 실시예에 있어서, 상기 가중치들은 n차원 공간내의 거리의 제곱에반비례한다. In a preferred embodiment, the weights are inversely proportional to the square of the distance in the n-dimensional space.

<다른 실시예> <Other embodiments>

다른 실시예에 있어서, 학습 과정은 모든 이용 가능한 트레이닝 데이터를 분석하고 영상 특성과 샘플 원근의 관계를 결정하는 규칙을 추정한다. In another embodiment, the learning process is to estimate the rules to analyze all of the available training data to determine the relationship between the image characteristic to the sample perspective.

이 과정에서 n차원 특징 공간은 다수의 영역들로 분할된다. In the process n-dimensional feature space is divided into a number of areas. 도 5는 그 원리를 간략하게 나타낸 것이다. Figure 5 shows an overview of the principle. 여기서 n차원 공간은 결정 경계(23)에 의해 다수의 직사각형 영역들로 분할된다. The n-dimensional space is divided into a number of rectangular area determined by the perimeter (23). 목표 픽셀(11)이 어느 영역을 차지하고 있는가에 따라 원근 값이 목표 픽셀(11)에 부여된다. The perspective value is given to the target pixel 11 in accordance with a target pixel 11, there was involved in any area.

실제로, M5 모델 트리 알고리즘을 사용하여 특징 공간을 분할한다. In fact, by using the model M5 tree algorithm divides a feature space. M5 알고리즘은 상술한 기본적인 예를 두 가지 방식으로 개선한다. M5 algorithm improves the above-described basic example in two ways. 결정 경계는 특징 공간의 축과 직교할 필요가 없으며 원근은 영상 특성의 선형 함수로서 개별적인 영역들 내에서 변화할 수 있다. Grain boundary does not need to be perpendicular to the axis of the feature space, perspective may change within the individual regions as a linear function of the image characteristic.

기계 학습 분야의 통상의 지식을 가진 자들은 신경망, 판단 트리, 판단 그래프 및 최단거리-이웃 분류자를 포함하는 많은 학습 구조들을 M5 모델 대신 사용할 수 있다는 것을 이해할 수 있을 것이다. Those of ordinary skill in the field of machine learning, neural networks are, determining the tree, graph and determine shortest distance - it will be appreciated that many learning structure that includes the neighbor classification can be used instead of the M5 model. 학습 알고리즘의 본질은 본 발명의 신규성에 영향을 미치지 않는다. The nature of the learning algorithm does not affect the novelty of the invention.

바람직한 실시예에 있어서, 학습 과정은 영상 특성 x,y,R,G,B에 작용한다. In a preferred embodiment, the learning process is applied to the image characteristic x, y, R, G, B. 다른 실시예는 많은 픽셀들과 같은 높은 레벨의 영상 특성과 평균, 분산 또는 엣지, 코너 등(즉, 특징 검출기의 응답)과 같은 다수의 픽셀들에 관한 값들에 작용할 수 있다. Other embodiments may operate on values ​​of a plurality of pixels, such as the number of high-level image features, such as the pixels and the mean, variance, or the edge, corner, etc. (that is, the response characteristic of the detector). 많은 픽셀들은 예컨대 영상내의 부분들을 나타내며, 동종 영역을 형성하는 연결된 픽셀들에 해당된다. Number of pixels in the image portion represent for example, corresponds to the associated pixel forming the same area.

단계2 Phase 2

제 2단계는 적어도 하나 이상의 프레임이 키 프레임으로 식별된 영상 시퀀스에 작용한다. The second stage acts on the video sequence to identify a key frame at least one frame. 제 2단계는 각각의 키 프레임에 대한 3차원 입체 데이터를 원근 맵의 형태로 입력한다. The second step is to enter a three-dimensional data for each key frame in the form of the perspective map. 원근 맵은 인간 규정화(human specification)와 같은 과정으로 인한 상술한 제 1단계의 출력, 입체 영상으로부터 결정된 원근 또는 거리 탐지 시스템(range finding system)을 이용하여 직접 얻은 원근이 될 수 있다. Perspective map may be obtained directly by using the perspective of human qualified (human specification) process the perspective or the distance detection system (range finding system) determined from the output, the stereoscopic image in step 1 above due to the like. 상기 3차원 입체 정보는 원근 맵 이외의 형태를 가질 수 있는데, 예를 들면 스테레오 쌍(stereo pair)을 포함하는 키 프레임으로부터 얻어진 불일치(disparity) 정보의 형태를 가질 수 있다. The three-dimensional information can be in the form other than the perspective map, for example a stereo pair may be in the form of a disparity (disparity) information obtained from the key frame containing the (stereo pair).

2차원 영상 시퀀스의 다른 모든 프레임에 대해 본 발명은 초기에 이용 가능한 키 프레임 정보에 기초하여 원근 맵에 대한 상세한 사항을 제공한다. For all other frames of the two-dimensional image sequences of this invention on the basis of the key frame information available initially it provides a detailed information on the perspective map. 키 프레임의 수는 전체 프레임 수의 작은 부분이 될 것으로 예상된다. The number of keyframes is expected to be a small part of the total number of frames. 그러므로 본 발명은 초기에 생성해야 하는 원근 맵의 양을 대폭적으로 감소시키는 방법을 제공한다. Therefore, the present invention provides a method for significantly reducing the amount of perspective map needs to be generated in the initial.

<매핑 함수의 생성> <Generate the mapping function>

키 프레임과 이에 해당하는 원근 맵이 시스템에 제공되면, 시스템은 매핑 함수를 생성하기 위하여 키 프레임과 초기에 이용 가능한 원근 맵을 분석한다. When the perspective map to the key frame and this provides a system, the system can analyze the perspective map using the key frame and the beginning in order to create a mapping function. 매핑 함수는 2차원 영상의 소정의 값을 입력하여 그 영상에 대한 원근 맵을 출력으로 제공하는 과정 또는 함수이다. Mapping function is a procedure or function that provides as an output a perspective map for the input image by a predetermined value in the two-dimensional image. 이러한 매핑은 키 프레임 영상 데이터와 이 영상에 대해 이용 가능한 원근 맵 데이터 사이의 관계를 파악함으로써 학습된다. This mapping is learned by identifying the relationship between the key frame image data and the available data with respect to the perspective map image.

상기 매핑 함수는 입력 데이터를 받아 처리하여 출력하는 제네릭-프로세싱 유닛(generic-processing unit)의 형태를 가질 수 있다. The mapping function of the generic output to receive and process the input data - may be in the form of a processing unit (generic-processing unit). 이 처리유닛은 키 프레임 데이터와 이에 해당하는 원근 맵을 조사하여 그 성질을 결정하는 학습 과정을 수행하는 것이 바람직하다. The processing unit is preferably carried out a learning process to determine the nature by examining the perspective map and the corresponding key frame data. 기계 학습 분야에 있어서, 이러한 매핑 함수는 공지의 것으로 신경망, 판단 트리, 판단 그래프, 모델 트리 및 최단거리-이웃 분류자를 포함한다. In machine learning, this mapping function is a neural network, determines the tree, a graph is determined, the model tree, and the shortest distance to be a known-and including the neighborhood classification.

시스템은 입력 데이터와 원하는 출력 데이터간의 관계를 알고자 시도한다. The system attempts to know the relationship between the desired output data and input data. 학습 과정에서 2차원 키 프레임 영상으로부터의 정보가 트레이닝 알고리즘에 제공된다. The information from the two-dimensional key frame image in the learning process are provided to the training algorithm. 이 정보는 적색, 녹색 및 청색 값들 또는 휘도, 색도, 콘트라스트 및 영상내의 수평 및 수직 위치와 같은 공간 값들과 같은 다른 값들과 같은 픽셀 값들이 제공될 경우 픽셀마다 제공된다. This information is, if a pixel value, such as other values, such as red, green, and blue values ​​or luminance, chromaticity, contrast and the horizontal and vertical position and the same values ​​in the image space to be provided is provided for each pixel. 또한, 상기 정보는 큰 픽셀들의 집합 및 평균과 분산 또는 엣지, 코너 등(즉, 특징 검출기의 응답)과 같은 픽셀들에 관한 측정값들과 같은 높은 레벨의 영상 특성의 형태로 제공될 수 있다. In addition, the information may be provided in the form of a high-level image features, such as the measured values ​​according to the pixels, such as a set of larger pixels and the mean and variance, or the edge, corner, etc. (that is, the response of the feature detector). 큰 픽셀들의 집합은 예컨대 영상내의 부분들을 나타낼 수 있으며, 동종 영역을 형성하는 연결된 픽셀들의 집합이 될 수 있다. The set of pixels is larger, for example may represent the portion in the image, it can be a group of connected pixels forming the same area.

설명을 위해서, 2차원 영상을 다음과 같은 형태로 나타낼 수 있다. For the description, it may refer to a two-dimensional image in the following forms.

x,y,R,G,B x, y, R, G, B

여기서, x와 y는 각각의 픽셀의 x 및 y좌표를 나타내며, R,G,B는 그 픽셀의 적색, 녹색 및 청색값을 나타낸다. Here, x and y represent the x and y coordinates of each pixel, R, G, B represent the red, green and blue values ​​of the pixels.

해당 원근 맵은 트레이닝 알고리즘에 제공되어 트레이닝 알고리즘이 요구되는 매핑을 학습할 수 있게 된다. Its perspective map is available on the training algorithm is able to learn a mapping algorithm that requires training. 일반적으로 개별적인 픽셀들이 트레이닝 알고리즘에 제공된다. In general, the individual pixels are provided to the training algorithm. 그러나 큰 픽셀들 또는 부분들의 집합과 같이 높은 레벨의 영상 특징이 사용될 경우, 원근 맵은 평균과 분산과 같은 픽셀들의 집합에 대한 원근 값이 될 수 있다. However, when used in a large pixels or high level of image feature as a set of partial, perspective map may be a perspective value for a set of pixels, such as mean and variance.

설명을 위해서, 원근 맵은 다음과 같이 나타낼 수 있다. For illustration, perspective map can be expressed as:

z,x,y z, x, y

여기서 x와 y는 각각의 픽셀의 x와 y좌표를 나타내며, z는 해당 픽셀에 부여되는 원근 값을 나타낸다. Where x and y represent the x and y coordinates of each pixel, z represents a perspective value assigned to that pixel.

입력 데이터와 원하는 출력 사이의 관계를 학습하는 과정은 인공지능 분야에 종사하는 자들에 의해 이해될 수 있으며 다양한 형태를 가질 수 있다. The process of learning the relationship between the desired output and the input data can be understood by those working in the field of artificial intelligence may take a variety of forms. 학습 알고리즘의 바람직한 실시예는 매핑 에러를 최소화하는 매핑 함수를 설계하는 것이다. A preferred embodiment of the learning algorithm is to design a mapping function that minimizes the error map.

학습 알고리즘은 2차원 영상 정보와 키 프레임에 존재하는 원근 맵간의 관계를 일반화한다. Learning algorithm generalizes the relationship between the perspective map existing in the two-dimensional image information with the key frame. 이러한 일반화는 전체 시퀀스에 대한 원근 맵을 완성하는데 적용된다. This generalization is applied to complete the perspective map for the entire sequence. 당 분야에서 알려진 성공적인 학습 알고리즘의 예는 신경망을 학습하기 위한 후방전파 알고리즘(bask-propagation algorithm), 판단 트리를 학습하기 위한 C4.5 알고리즘, 클러스터-타입 분류자를 학습하기 위한 K-means 알고리즘이다. Examples of successful learning algorithms known in the art is a C4.5 algorithm, the cluster to learn the back propagation algorithm (bask-propagation algorithm), the tree is determined for the neural network learning - the K-means algorithm for learning character-type classification.

설명을 위해서, 학습 알고리즘이 2차원 영상내의 각각의 픽셀에 대한 다음 관계식을 계산하는 것으로 간주할 수 있다. For purposes of explanation, can be considered to be a learning algorithm calculates the following relational expression for each pixel in the two-dimensional image.

Z n = k a ·x n + k b ·y n + k c ·R n + k d ·G n + k e ·B n N = a k x n · Z + b · y k n + k c · R n + d k · G k + e n · B n

여기서, here,

n은 키프레임 영상의 n번째 픽셀이고, n is an n-th pixel of the key frame image,

Z n 은 x n ,y n 에 위치한 픽셀에 부여된 원근의 값이고, And Z n is a value of the perspective given to the pixel located in the n x, n y,

k a 내지 k e 는 상수로서 상기 알고리즘에 의해 결정되며, k to a k e is determined by the algorithm as a constant,

R n 은 x n ,y n 에 위치한 픽셀의 적색 성분의 값이고, R n is a value of the red component of the pixel in the n x, n y,

G n 은 x n ,y n 에 위치한 픽셀의 녹색 성분의 값이고, And G n is the value of the green component of the pixel in the n x, n y,

B n 은 x n ,y n 에 위치한 픽셀의 청색 성분의 값이다. B n is the value of the blue component of the pixel in the x n, y n.

상기 방정식은 단지 설명을 위해 단순화한 것으로 실제로는 이상적으로 작용하지 않는 것을 당 분야의 통상의 지식을 가진 자들을 이해할 수 있을 것이다. The equation will be understood by those skilled in the art that do not actually serve as ideal to be simplified for illustrative purposes only. 예컨대 신경망과 영상내의 다수의 픽셀들을 이용하는 실제적인 상황에서 상기 신경망은 다수의 k값들과 승산 및 가산을 포함하는 하나의 큰 방정식을 학습하게 된다. For example, in practical situations using a number of pixels in the neural network and the neural network image is to study a single large equation including a plurality of k values ​​and the multiplication and addition.

상기 과정을 도 3에 나타내었다. It is shown the process in FIG. 도 3은 유사한 과정이 서로 다른 개수의 키 프레임들을 사용할 수 있음을 나타낸다. Figure 3 shows that a similar process can use a different number of key frames.

<매핑 함수의 적용> <Application of the mapping function>

본 발명은 상기 매핑 함수를 이용 가능한 원근 맵을 아직 가지지 못한 2차원 영상들의 집합에 적용한다. The present invention applies to a set of two-dimensional images have not already have a perspective map as possible using the mapping function. 이 집합내의 소정의 2차원 영상에 대하여 매핑 함수의 입력은 학습 과정동안 매핑 함수에 제공된 것과 같은 방식으로 결정된다. The input of the mapping function for a given two-dimensional image in the set is determined in the same manner as provided in the mapping function for the learning process. 예를 들어, 단일 픽셀의 값들을 입력으로 제공하여 매핑 함수를 학습한 경우에는 매핑 함수가 이 값들을 새로운 영상의 픽셀들을 위해 필요로 할 것이다. For example, it will when the learning of the mapping function to provide a value for a single pixel in the input, the values ​​are mapped to the function required for the pixels in the new image. 이 입력으로 매핑 함수는 학습한 작업을 수행하고 원근 값을 출력한다. This type mapping function performs a learning task and the output value of the perspective. 단일 픽셀에 대한 예에 있어서, 이 원근 값은 단순한 원근 값일 수 있다. In the example of a single pixel, the perspective value may be a simple trapezoidal. 이 예에서, 매핑 함수는 전체 영상 시퀀스에 대해 적용되어 영상 시퀀스에 대한 원근 데이터의 전체 집합을 완성한다. In this example, the mapping function is applied for the entire image sequence to complete the full set of data for the perspective image sequence. 보다 큰 픽셀들의 집합을 이용하여 매핑 함수를 학습한 경우에는 새로운 영상에 대해 상기한 바와 같은 큰 픽셀들의 집합을 생성할 필요가 있다. If the learning of the mapping function using a set of larger than a pixel, it is necessary to generate a large set of pixels as described above for the new image. 평균 및 분산과 같은 이러한 픽셀들의 집합에 관한 높은 레벨의 값들은 학습 과정에서와 같은 동일한 방식으로 만들어진다. High level values ​​on the set of these pixels, such as the mean and variance are made in the same manner as in the learning process. 이러한 값들을 입력으로 하여 매핑 함수는 상기 픽셀들의 집합에 대하여 필요한 원근 값을 생성한다. To these values ​​as input to mapping function creates a trapezoidal values ​​necessary for the set of pixels.

2차원 영상 시퀀스에 있어서, 원근 맵을 가진 키 프레임들은 임의로 상기 시퀀스에 걸쳐 일정한 간격으로 위치할 수 있다. 2-D in the video sequence, the key frames with a perspective map may be located optionally at regular intervals throughout the sequence. 바람직한 실시예에 있어서, 어떤 공통성을 갖는 2차원 영상들의 집합에 걸쳐 있는 키 프레임들의 집합과 이에 해당되는 원근 맵들이 매핑 함수에 제공된다. In a preferred embodiment, and thus a collection of key frames over a set of two-dimensional image having a certain commonality is the perspective map are provided to the mapping function. 가장 간단한 경우, 두 개의 키 프레임이 매핑 함수를 학습하는데 사용되며, 매핑 함수는 상기 두 개의 키 프레임들 사이의 2차원 영상들을 위한 원근 맵을 결정하기 위해 사용된다. In the simplest case, it is used to learn a mapping function, two key frames, a mapping function is used to determine the perspective map for 2D images between the two key frames. 그러나 매핑 함수를 학습하기 위해 사용되는 키 프레임의 개수에는 제한이 없다. However, the number of key frames that are used to study the mapping function is not limited. 또한, 2차원 영상들의 전체 집합을 완성하기 위해 사용되는 매핑 함수의 개수에도 제한이 없다. Also, there is no maximum number of mapping functions that are used to complete the full set of 2-D image. 바람직한 실시예에 있어서, 하나 이상의 중재 프레임(intervening frame)에 의해 분리되는 두 개의 키 프레임들이 제 2단계의 입력으로 정의된다. In a preferred embodiment, two key frames that are separated by one or more intervening frames (intervening frame) are defined as an input of the second stage. 이 제 2단계의 목적은 각각의 중재 프레임에 원근 맵을 할당하는 것이다. The purpose of this second step is to assign a perspective map to each arbitration frame. 중재 프레임들에 원근 맵이 할당되는 바람직한 순서는 키 프레임에 시간적으로 가장 가까운 프레임을 먼저 처리하는 것이다. The preferred order in which the perspective map assigned to the arbitration frame is to first process the nearest frame in time to the key frame. 처리된 프레임은 키 프레임이 되어 후속 프레임의 원근을 매핑한다. A processing frame is a key frame and maps the perspective of a subsequent frame.

이러한 시간 변수를 부가하면 키 프레임에서 이용 가능한 정보를 일반화하는 트레이닝 함수를 돕게 된다. When adding these time parameters assists the training function to generalize the information available in the key frame. 시간 변수가 없으면, 두 개의 키 프레임의 원근 정보가 서로 모순될 수 있다. If there is a time variable, the perspective information for the two keyframes can be contradictory. 이것은 유사한 색의 픽셀들이 두 개의 키 프레임내의 동일한 공간 영역에 발생하되 서로 다른 대상물에 속할 경우 일어난다. This is similar to the color pixels, but generated in the same spatial area in the two key frames occur if belong to different object. 예를 들면, 첫 번째 키 프레임에서, 원근 특성에 의해 전경에 보이는 녹색 자동차가 영상의 중앙부분에서 관찰될 수 있다. For example, in the first key frame, the green car by the characteristics shown in the perspective views can be observed in the center of the picture. 다음 키 프레임에서, 상기 자동차가 이동하여 원근 특성이 중간 녹색 영역을 규정하는 녹색의 발차 대기소 뒤로 숨는다. In the next key frame, the car is moved to hide behind the departure daegiso of green perspective attribute defining the intermediate green region. 트레이닝 알고리즘에는 양쪽 모두 영상의 중앙부에 녹색 픽셀을 가지지만 서로 다른 원근 특성을 갖는 두 개의 키 프레임이 제공된다. Training algorithm, only have a both a green pixel in the center portion of the image is provided with two key frames having different trapezoidal characteristics. 이러한 모순은 해결할 수 없으며 매핑 함수가 그러한 영역에서 만족스럽게 실행될 것으로는 예상되지 않는다. These contradictions can not be solved by the mapping function satisfactorily executed in such a region it is not expected. 시간 변수를 도입하면, 트레이닝 알고리즘이 영상의 중앙부분의 녹색 픽셀들이 영상 시퀀스의 첫 번째 키 프레임에 가까운 시간에 전경의 픽셀들이라는 것을 인식함으로써 상기 모순을 해결할 수 있다. The introduction of a time variable, it can solve the contradiction by recognizing that the training algorithm is that the pixels of the foreground to the time the green pixels in the central portion of the image are close to the first key frame of a video sequence. 시간이 두 번째 키 프레임에 가까워질수록 트레이닝 알고리즘은 영상의 중앙부분의 녹색 픽셀들을 녹색의 발차 대기소의 중간 원근으로 인식하게 된다. The time is closer to the second key frame, the training algorithm is aware of the green pixel in the center of the picture in the middle of the perspective of the kick daegiso green.

이 과정은 도 6에 나타내었다. This process is shown in Fig. 도 6에서 박스들은 영상 시퀀스의 각각의 프레임들을 나타낸다. In Figure 6, boxes represent each frame of a video sequence. 윗줄의 6개는 소오스 프레임을 나타내며, 영상 시퀀스내의 상대적인 위치에 따라 번호가 매겨져 있다. 6 of the top row are numbered according to the relative position in the frame represents the source, the image sequence. 아랫줄은 이 단계에서 생성된 원근 맵을나타낸다. The lower line represents a perspective map generated in this step. 번호는 원근 맵들이 형성되는 순서를 나타낸다. Numbers indicate the order in which the perspective map are formed. 원근 프레임 1과 2를 역순으로 처리할 수 있지만 원근 프레임 3과 4도 역순으로 처리할 수 있다. To the reverse processing to the perspective frames 1 and 2, but the perspective frames 3 and 4 it may also be treated in the reverse order. 키 프레임(7)은 상술한 바와 같이 이 과정의 입력으로 제공된다. Key frame 7 is provided as the input to the process as described above. 생성될 첫 번째 원근 맵은 도시된 바와 같이 소오스 프레임1과 관련된다. The first perspective map is generated is related to the source and the frame 1, as shown. 먼저 생성된 두 개의 원근 맵을 이용하여 후속 원근 맵이 생성된다. The follow-up perspective map is generated using a two perspective map is first created.

<바람직한 실시예> <Preferred Example>

원근이 매핑될 프레임의 각각의 픽셀에 대해 목표 픽셀의 영상 특성을 이용하여 상기 픽셀과 관련된 원근을 결정한다. For each pixel of the frame to be the perspective map using the image characteristics of the target pixel and determines the perspective associated with the pixel. 바람직한 실시예에 있어서, 각각의 프레임으로부터 하나씩 두 개의 원근 값을 구한다. In a preferred embodiment, one obtains the two values ​​from the perspective of each frame. 이 과정을 도7에 나타내었다. This process is shown in Fig 7. 도7은 영상 시퀀스의 현재 프레임의 전과 후에 목표 픽셀(11)을 어떻게 가장 가까운 소오스 키 프레임과 비교(단계12 및 13)하는지를 보여준다. Figure 7 shows how if the nearest source keyframe and the comparison (step 12 and 13) the target pixel (11) before and after the current frame of the image sequence. 상술한 학습 과정과 유사한 학습 과정이 검색 반경(14)을 이용하여 유사한 영상 특성을 갖는 픽셀들을 식별하고 상기 픽셀들과 관련된 원근을 이용하여(단계15 및 16) 목표 픽셀에 대한 원근을 계산한다(단계17 및 18). The learning process is similar to the learning process described above to identify pixels having similar image characteristics by using a search radius 14 to calculate the perspective of the using the trapezoidal (step 15 and 16) the target pixel associated with the pixel ( steps 17 and 18). 각각의 키 프레임은 목표 픽셀의 원근 값을 생성한다. Each of the key frames, and generates a perspective value of the target pixel. 이것을 D1 및 D2로 정의한다. It defines this as D1 and D2.

목표 픽셀과 관련된 최종 원근을 결정하기 위해 상기 원근 값 D1과 D2를 조합해야 한다. To determine the final perspective relating to the target pixel should be a combination of the perspective values ​​D1 and D2. 바람직한 실시예에 있어서, 이 값들의 가중 평균을 키 프레임의 위치를 가중 파라미터로 이용하여 계산한다. In the preferred embodiment, it is calculated by using a weighted average of the value of a parameter weighting the position of the key frame. 현재 프레임과 첫 번째 키 프레임 사이의 거리가 T1이고 현재 프레임과 두 번째 키 프레임 사이의 거리가 T2이면, 목표 픽셀의 원근은 다음과 같이 주어진다. When the distance T1 between the present frame and the first key frame, the distance between the present frame and the second key frame T2, the target pixel perspective is given by:

여기서, D1 및 D2는 각각 키 프레임1과 키 프레임2로부터 계산한 깊이(원근)이다. Here, D1, and D2 is the depth (perspective) calculated from the respective key frames and one key frame 2.

몇몇 경우에 있어서, 학습 과정은 주어진 픽셀에 대한 원근 값을 결정할 수 없다. In some cases, the learning process can not determine the perspective values ​​for a given pixel. 상기한 계산과정 중에 두 개의 키 프레임 원근 값들 중의 하나를 결정할 수 없으면 목표 픽셀은 할당된 키 프레임 원근 값에 할당되며 가중치는 부여하지 않는다. If you can not determine the one of the two key frames perspective values ​​in the above-described calculation process the target pixel is assigned to the allocated key frame perspective value it does not give a weight. 두 개의 값 D1 및 D2가 모두 정의되지 않으면, 검색 반경을 확장하고 상기 과정을 반복한다. If the two values, D1 and D2 is not defined, extend the search radius and repeats the above process.

다른 프레임에 대한 원근 맵을 생성하는데는 하나의 키 프레임만이 필요하다는데 주목해야 한다. Is to create a perspective map for the other frames should be noted that I only needed one key frame. 그러나 대상물의 원근이 영상 시퀀스에서 변하는 경우에는 상술한 바와 같이 가중되는 둘 이상의 키 프레임이 개선된 결과를 제공한다. However, if the perspective is changing object in the image sequence, and provides the two or more keyframes are improvements that are weighted as described above results.

프레임들을 처리하는 순서와 다수의 키 프레임들로부터의 결과를 조합하는 방식은 본 발명의 본질에 영향을 미치는 일없이 변화될 수 있다는 것을 이해해야 한다. Method of combining the results from processing the frame with the sequence number of the key frames is to be understood that it can be changed without affecting the essence of the invention.

2차원 영상의 경우와 같이 영상 시퀀스의 어떤 픽셀의 원근 값을 결정하기 위해 트레이닝 단계가 사례에 기초한 학습(instance based learning)에 포함될 수 있다. A training phase may be included in the study (based learning instance) based on the case in order to determine the perspective value of a pixel of the image sequence, as in the case of two-dimensional image. 이 과정을 도 4에 도시하였다. This process is shown in FIG.

단계 1을 위해 사용된 것과 유사한 학습 과정을 단계 2에서 수행할 수 있다는 것에 주목해야 한다. It should be noted that a similar learning process used for step 1 can be performed in two stages. 두 과정 모두 입력 데이터와 원하는 출력, 즉, 원근 사이의 관계를 고려한다. Consider the relationship between the two processes both the desired output and the input data, i.e., perspective. 주요한 차이는 단계 2를 위한 학습 과정이 프레임 번호에 따른 시간 요소를 고려해야 하는 반면, 단계 1은 시간 요소를 고려할 필요가 없다는 것이다. While the main difference is a learning process for Phase 2 should consider the time element of the frame number, the first step is that there is no need to consider the time factor.

기타 응용분야 Other applications

매핑 함수는 시퀀스내의 키 프레임이 아닌 모든 영상들에 관한 원근 정보를 모두 나타낸다. Mapping function represents both the perspective information regarding all of the image other than the key frames in the sequence. 이것은 이 원근 정보의 부호화에 이용될 수 있다. This can be used for encoding of the perspective information. 매핑 함수는 비교적 적은 양의 데이터로 전송될 수 있으므로 원근 정보의 상당한 압축을 나타낼 것으로 예상된다. Since the mapping function may be sent to a relatively small amount of data is expected to represent a significant compression of the perspective information.

20개의 프레임이 시퀀스에 시간을 두고 위치하고 두 개의 키 프레임이 존재하는 경우를 생각해 보자. Located 20 frames in a sequence over time, consider the case of two keyframes exist. 이 두 개의 키 프레임에 대하여 매핑 함수를 학습하였고, 이제 이 매핑 함수가 중간 프레임들에 대한 모든 원근 정보를 제공한다. This study was a mapping function with respect to the two keyframes, now the mapping function provides all the information about the perspective of the middle frame. 매핑 함수 자체는 20개의 프레임에 대한 모든 원근 정보의 압축을 나타낸다. Mapping function itself represents the compression of all the perspective information for 20 frames. 예컨대, 매핑 함수가 6000바이트를 이용하여 파일에 기록된 경우, 20개의 프레임의 원근 정보를 얻을 수 있다. For example, if the mapping function is written to a file by using the 6000 bytes, it is possible to obtain the perspective information in 20 frames. 이것은 프레임당 6000/20=300인 파일 크기를 나타낸다. This indicates a file size of 6000/20 = 300 per frame. 실제로, 효과적인 압축이 이루어진다. In fact, the effective compression is achieved.

또 다른 응용에 있어서, 상기한 압축에 의해 2차원 영상 소오스, 즉 2차원과 3차원 호환 가능한 영상에 포함된 3차원 정보를 효율적으로 전송할 수 있다. In still other applications, the two-dimensional image by the above-described compression source, that is, it is possible to efficiently transmit the 3D information included in the 2D and 3D-compatible image. 매핑 함수가 3차원 정보를 제공하는 2차원 영상 데이터의 매우 작은 부분에 해당하는 파일 길이를 필요로 하므로 매우 작은 오버헤드로 2차원 영상 시퀀스에 3차원 정보를 부가할 수 있다. Mapping function may be a three-dimensional because it requires the length of a file corresponding to a very small portion of the two-dimensional image data to provide information additional three-dimensional information to two-dimensional video sequence with very little overhead.

이 경우, 시퀀스내의 2차원 영상이 보여질 때 단순히 매핑 함수를 상기 시퀀스내의 각각의 2차원 영상에 인가함으로써 영상이 보여지기 전 또는 실시간으로 상기 3차원 정보를 생성한다. In this case, it generates the three-dimensional information in real time or before the image is being viewed by applying a simple mapping function on each of the two-dimensional image in the sequence when the two-dimensional image in the sequence shown. 이것은 기계 학습에서 발견된 매핑 함수의 형태가 매핑 함수를 학습한 후에 계산을 행하는데 있어서 매우 효율적이라는 사실에 의해 가능해진다. This is according to the line calculated after the form of the mapping function found in machine learning, learning of the mapping function, it is possible by the fact that very efficient. 일반적으로, 트레이닝 과정은 느리고 방대한 자원이 요구되며, 3차원 영상을 구축하는 과정 중에 오프라인으로 수행된다. In general, the training process is slow and requires extensive resources and is performed offline during the process of building a three-dimensional image. 일단 학습되면, 매핑 함수는 관찰자에게 전송되며, 2차원 영상의 3차원 영상으로의 실시간 변환에 적합한 매우 높은 처리량으로 수행된다. Once the study, the mapping function is transmitted to an observer, are performed in a very high throughput, appropriate for real time conversion to the 3-D image of the two-dimensional image.

본 출원인이 이전에 출원한 내용은 2차원 영상을 입체적인 3차원 영상으로 변환하는 기술과 관련이 있다. Information by the present applicant filed previously is related to the technology to convert a 2D image into a stereoscopic 3D image. 이 변환 과정은 2차원 영상과 관련된 원근 맵의 생성을 포함한다. The conversion process includes the generation of a perspective map associated with the two-dimensional image. 일 실시예에 있어서, 원근 맵은 한 프레임씩 수동으로 생성된다. In one embodiment, the perspective map is generated manually by one frame. 본 명세서에 기술된 개선된 기술에 의해 더 적은 수의 키 프레임들이 생성된 원근 맵과 계산된 중간 원근 맵을 가질 수 있게 된다. It is possible to have the frame of the improved key technology to produce fewer by their perspective map and the computed intermediate perspective map as described herein. 키 프레임은 전체 프레임 수의 작은 부분을 나타내므로 이 새로운 기술은 시간과 비용 면에서 변환 효율을 향상시킨다. Key frame exhibits a small portion of the total number of frames in a new technology to improve the conversion efficiency in terms of time and cost.

본 발명은 입체 영상의 생성이 아닌 원근 맵의 생성에 적용되어야 한다. The invention shall be applied to the generation of the perspective map and not the generation of the stereoscopic image.

원근 맵은 로토스코핑(rotoscoping)이라고 하는 과정에 있어서 특수 효과 분야에 광범위하게 사용된다는 것은 당 분야의 통상의 지식을 가진 자들에게 알려져 있다. Perspective map is known to those skilled in the art that is widely used in the field of special effects in a process called rotoscoping (rotoscoping). 2차원 영상 내에 생생한 움직임 또는 컴퓨터에 의해 생성된 영상을 합성하기 위해서는 2차원 영상의 각각의 프레임에 대한 원근 맵 또는 매트를 수동으로 생성할 필요가 있다. For two-dimensional synthesizing an image generated by a computer or live motion in the image, it is necessary to generate a perspective map or mat for each frame of the two-dimensional image manually. 이 매트는 부가적인 영상이 압축되어 원래의 2차원 영상 내에서 적절하게 움직이는 것으로 보이도록 한다. The mat is to show that the additional image is a compressed moving properly in the original two-dimensional image of. 상술한 본 발명에 의하면 이러한 매트를 신속하게 생성할 수 있다. According to this invention can quickly generate such a mat.

움직이는 장면으로부터 원근 맵을 구할 수 있도록 하는 카메라가 개발되고 있다. The camera that allows you to get the perspective from the map, moving scenes are being developed. 이 카메라는 레이저 레인지 탐지 기술을 이용하는 것으로, 일반적으로 LIDAR 장치로 알려져 있다. The camera to be used with a laser range detection techniques, generally known as LIDAR device. 텔레비젼 프레임률로 원근 맵을 얻기 위해서는 고가의 복잡한 시스템이 필요하다. In order to obtain a perspective map as a TV frame rate it requires expensive and complex systems. 본 발명을 적용하면, 비디오 필드율(video field rate)의 일부에 해당하는 속도 또는 빈번하지 않은 주기로 원근 맵을 구하고 본 발명에서 기술한 기술을 이용한 보간에 의해 발생되는 잃어버린 원근 맵을 필요로 하는 단순하고 덜 복잡한 LIDAR 장치를 구축할 수 있다. When applying the present invention, simple, requiring lost perspective map generated by interpolation with the techniques described herein to obtain the cycle perspective map is not rate or frequency that corresponds to the portion of the video field rate (video field rate) and it is possible to build less complex LIDAR device.

Claims (38)

  1. 영상의 적어도 하나의 픽셀 또는 부분에 원근을 부여하는 단계와, Comprising the steps of: imparting at least one perspective on a pixel or of the picture,
    상기 영상의 적어도 하나의 픽셀 또는 부분에 대한 상대적인 위치 및 영상 특성을 결정하는 단계, Determining a relative position and a visual characteristic for at least one pixel or part of the image,
    상기 원근과 영상 특성 및 상대적인 위치를 이용하여 상대적인 위치와 영상 특성의 함수로서 원근 특성을 알아내기 위한 제 1알고리즘의 구성을 결정하는 단계, Determining a configuration of a first algorithm to find out the perspective characteristics as a function of the relative position and image characteristics by using the perspective image characteristic and the relative position,
    상기 제 1알고리즘을 이용하여 상기 영상의 각각의 픽셀 또는 부분에 대한 원근 특성을 계산하는 단계를 포함하여 구성되되, Doedoe comprises the step of using the first algorithm calculates the perspective characteristic for each pixel or portion of the image,
    상기 원근 특성이 상기 영상에 대한 원근 맵을 형성하는 것을 특징으로 하는 원근 맵을 형성하는 방법. Method in which the characteristic trapezoidal form a perspective map, characterized in that for forming a perspective map for the image.
  2. 영상의 적어도 하나의 픽셀 또는 부분에 원근을 부여하는 단계와, Comprising the steps of: imparting at least one perspective on a pixel or of the picture,
    상기 영상의 적어도 하나의 픽셀 또는 부분에 대한 x,y좌표 및 영상 특성을 결정하는 단계, Determining an x, y coordinate and the image attribute for at least one pixel or part of the image,
    상기 원근과 영상 특성 및 x,y좌표를 이용하여 x,y좌표와 영상 특성의 함수로서 원근 특성을 알아내기 위한 제 1알고리즘을 결정하는 단계, The step of using the perspective image characteristic and the x, y coordinates determines a first algorithm to find out the perspective characteristics as a function of x, y coordinates and the image characteristic,
    상기 제 1알고리즘을 이용하여 상기 영상의 각각의 픽셀 또는 부분에 대한 원근 특성을 계산하는 단계를 포함하여 구성되되, Doedoe comprises the step of using the first algorithm calculates the perspective characteristic for each pixel or portion of the image,
    상기 원근 특성이 상기 영상에 대한 원근 맵을 형성하는 것을 특징으로 하는 원근 맵을 형성하는 방법. Method in which the characteristic trapezoidal form a perspective map, characterized in that for forming a perspective map for the image.
  3. 제 1항에 있어서, According to claim 1,
    상기 영상 특성이 RGB 값들을 포함하는 것을 특징으로 하는 방법. Wherein said image characteristic comprises the RGB value.
  4. 제 1항 내지 제 3항 중 어느 한 항에 있어서, The method according to any one of claims 1 to 3,
    상기 영상의 픽셀 또는 부분에 원근을 재할당하여 모순을 불일치(inconsistency)를 보정하는 단계를 더 포함하는 것을 특징으로 하는 방법. Method according to claim 1, further comprising the step of correcting a mismatch (inconsistency) the inconsistency to reallocate perspective on a pixel or portion of the image.
  5. 제 1항 내지 제 4항 중 어느 한 항에 있어서, The method according to any one of the preceding claims,
    상기 영상 특성이 휘도, 색도, 콘트라스트 또는 공간 값 중의 적어도 하나를 포함하는 것을 특징으로 하는 방법. Characterized in that said video attribute includes luminance, hue, contrast, or at least one of the space values.
  6. 제 1항 내지 제 5항 중 어느 한 항에 있어서, The method according to any one of claims 1 to 5,
    상기 제 1알고리즘이 방정식 z=f(x,yR,G,B)(여기서, x와 y는 샘플의 상대적인 위치를 나타낸다)로 표현되는 것을 특징으로 하는 방법. The first algorithm of the equation z = f (x, yR, G, B) characterized in that, expressed as (where, x and y represent the relative position of the sample).
  7. 제 1항 내지 제 6항 중 어느 한 항에 있어서, The method according to any one of the preceding claims,
    상기 제 1알고리즘의 구성을 결정하기 위해 학습 알고리즘을 사용하는 것을특징으로 하는 방법. Method characterized by using a training algorithm to determine the configuration of the first algorithm.
  8. 제 7항에 있어서, The method of claim 7,
    상기 영상의 각각의 픽셀에 대하여 상기 학습 알고리즘은 The learning algorithm for each pixel of the image
    Z n = k a ·x n + k b ·y n + k c ·R n + k d ·G n + k e ·B n N = a k x n · Z + b · y k n + k c · R n + d k · G k + e n · B n
    (여기서, n은 키프레임 영상의 n번째 픽셀이고, Z n 은 x n ,y n 에 위치한 픽셀에 부여된 원근의 값이고, k a 내지 k e 는 상수로서 상기 알고리즘에 의해 결정되며, R n 은 x n ,y n 에 위치한 픽셀의 적색 성분의 값이고, G n 은 x n ,y n 에 위치한 픽셀의 녹색 성분의 값이고, B n 은 x n ,y n 에 위치한 픽셀의 청색 성분의 값이다) (Where, n is the n-th pixel of the key frame image, Z n is a value of the perspective given to the pixels in the x n, y n, k a to k e is determined by the algorithm as a constant, R n is the value of the red component of the pixel in the x n, y n, G n is x n, and the value of the green component of the pixel located on y n, B n is the value of the blue components of the pixel in the x n, y n to be)
    을 계산하는 것을 특징으로 하는 방법. It characterized in that for calculating.
  9. 제 7항 또는 제 8항에 있어서, The method of claim 7 or 8,
    상기 학습 알고리즘에 임의의 요소를 도입하여 오버 트레이닝을 감소시키는 것을 특징으로 하는 방법. Characterized in that to reduce the over-training by introducing a random element to the learning algorithm.
  10. 제 9항에 있어서, 10. The method of claim 9,
    상기 임의의 요소는 임의의 작은 양의 수 또는 음의 수인 것을 특징으로 하는 방법. The random element is characterized in that any small positive or negative number of the.
  11. 제 7항 내지 제 10항 중 어느 한 항에 있어서, A method according to any one of claims 7 to 10,
    첫 단계에서 상기 학습 알고리즘은 알려진 픽셀과 유사한 특성을 갖는 픽셀들을 식별하는 것을 특징으로 하는 방법. The learning algorithm in the first phase is characterized in that identifying the pixels having similar properties as known pixel.
  12. 제 11항에 있어서, 12. The method of claim 11,
    유사한 픽셀들을 검색 반경 내에서 검색하는 것을 특징으로 하는 방법. Characterized in that to search for similar pixels within the search radius.
  13. 제 12항에 있어서, 13. The method of claim 12,
    상기 검색 반경은 각각의 특성에 대해 변화하는 것을 특징으로 하는 방법. The search radius is characterized in that the changing for each attribute.
  14. 제 11항 내지 제 13항 중 어느 한 항에 있어서, A method according to any one of claims 11 to 13,
    픽셀의 원근은 유사한 픽셀들로부터의 거리의 가중 평균에 의해 결정되는 것을 특징으로 하는 방법. Perspective of the pixel is characterized in that which is determined by the weighted average of the distance from similar pixels.
  15. 제 14항에 있어서, 15. The method of claim 14,
    가중치는 거리에 반비례하는 것을 특징으로 하는 방법. Weight is characterized in that is inversely proportional to the distance.
  16. 제 7항에 있어서, The method of claim 7,
    각각의 특성은 다수의 영역들로 분할되고 원근 값은 점유된 영역에 기초하여부여되는 것을 특징으로 하는 방법. Each characteristic is divided into a plurality of areas perspective value characterized in that the grant on the basis of the area occupied.
  17. 영상 시퀀스의 적어도 하나의 프레임에 대한 원근 맵을 입력하는 단계와, And inputting a perspective map for at least one frame of the image sequence,
    상기 적어도 하나의 원근 맵을 이용하여 상대적인 위치와 영상 특성의 함수로서 원근 특성을 확인하기 위한 제 2알고리즘의 제 2구성을 결정하는 단계, 및 Wherein the determining the second configuration of the second algorithm to determine the perspective characteristics using at least one of the perspective map as a function of the relative position and the image attribute, and
    상기 알고리즘을 이용하여 상기 영상 시퀀스의 각각의 프레임에 대한 원근 맵을 생성하는 단계를 포함하여 구성되는 영상 시퀀스에 대한 일련의 원근 맵들을 생성하는 방법. Method of generating a series of perspective map for the video sequence, which comprises the step of: generating a perspective map for each frame of the video sequence using the algorithm.
  18. 영상 시퀀스의 적어도 하나의 프레임에 대한 원근 맵을 입력하는 단계와, And inputting a perspective map for at least one frame of the image sequence,
    상기 적어도 하나의 원근 맵을 이용하여 x,y좌표와 영상 특성의 함수로서 원근 특성을 확인하기 위한 제 2알고리즘을 결정하는 단계, 및 The step of using the at least one perspective map, determining a second algorithm to determine the perspective characteristics as a function of x, y coordinates and the image attribute, and
    상기 알고리즘을 이용하여 상기 영상 시퀀스의 각각의 프레임에 대한 원근 맵을 생성하는 단계를 포함하여 구성되는 영상 시퀀스에 대한 일련의 원근 맵들을 생성하는 방법. Method of generating a series of perspective map for the video sequence, which comprises the step of: generating a perspective map for each frame of the video sequence using the algorithm.
  19. 제 17항 또는 제 18항에 있어서, 18. The method of claim 17 or 18,
    상기 영상 시퀀스의 적어도 두 개의 프레임에 해당하는 적어도 두 개의 원근 맵을 입력하는 것을 특징으로 하는 방법. It characterized in that for entering at least two perspective map for the at least two frames of the video sequence.
  20. 제 17항 내지 제 19항 중 어느 한 항에 있어서, The method according to any one of Items 17 to 19, wherein
    상기 영상 특성이 RGB 값들을 포함하는 것을 특징으로 하는 방법. Wherein said image characteristic comprises the RGB value.
  21. 제 17항 내지 제 20항 중 어느 한 항에 있어서, The method according to any one of Items 17 to 20, wherein
    상기 영상 특성은 휘도, 색도, 콘트라스트 또는 공간 값 중의 적어도 하나를 포함하는 것을 특징으로 하는 방법. The image characteristic method comprising the brightness, color, contrast, or at least one of the space values.
  22. 제 17항 내지 제 21항 중 어느 한 항에 있어서, The method according to any one of Items 17 to 21, wherein
    상기 제 2알고리즘의 구성을 결정하기 위해 학습 알고리즘을 이용하는 것을 특징으로 하는 방법. Characterized in that using a training algorithm to determine the configuration of the second algorithm.
  23. 제 22항에 있어서, 23. The method of claim 22,
    상기 학습 알고리즘은 후방전파 알고리즘, C4.5 알고리즘 또는 k-means 알고리즘 중의 하나인 것을 특징으로 하는 방법. The learning algorithm is characterized in that, one of the back-propagation algorithm, C4.5 algorithm, or k-means algorithm.
  24. 제 22항 또는 제 23항에 있어서, 23. The method of claim 22 or 23,
    상기 제 2알고리즘은 Z n = k a ·x n + k b ·y n + k c ·R n + k d ·G n + k e ·B n It said second algorithm is a k · x n = n Z + b · y k n + k c · R n + d k · G k + e n · B n
    (여기서, n은 키프레임 영상의 n번째 픽셀이고, Z n 은 x n ,y n 에 위치한 픽셀에 부여된 원근의 값이고, k a 내지 k e 는 상수로서 상기 알고리즘에 의해 결정되며, R n 은x n ,y n 에 위치한 픽셀의 적색 성분의 값이고, G n 은 x n ,y n 에 위치한 픽셀의 녹색 성분의 값이고, B n 은 x n ,y n 에 위치한 픽셀의 청색 성분의 값이다)을 계산하는 것을 특징으로 하는 방법. (Where, n is the n-th pixel of the key frame image, Z n is a value of the perspective given to the pixels in the x n, y n, k a to k e is determined by the algorithm as a constant, R n is the value of the red component of the pixel in the x n, y n, G n is x n, and the value of the green component of the pixel in the y n, B n is the value of the blue component of the pixel in the x n, y n characterized in that to calculate the a).
  25. 제 17항 내지 제 24항 중 어느 한 항에 있어서, A method according to any one of claim 17 through claim 24, wherein
    원근 맵이 입력된 프레임들의 각각의 쌍에 대해 부가적인 알고리즘 구성을 생성하는 것을 특징으로 하는 방법. Characterized in that to generate an additional algorithm configured for each pair of the perspective map input frame.
  26. 영상 시퀀스의 적어도 두 개의 키 프레임들에 대한 원근 맵들을 입력하는 단계와, And inputting the perspective map for the at least two key frames for the image sequence,
    상기 원근 맵들을 이용하여 x,y좌표와 영상 특성의 함수로서 원근 특성을 확인하기 위한 제 2알고리즘을 결정하는 단계, 및 The step of using said perspective map, determining a second algorithm to determine the perspective characteristics as a function of x, y coordinates and the image attribute, and
    상기 알고리즘을 이용하여 상기 영상 시퀀스의 각각의 프레임에 대한 원근 맵을 생성하는 단계를 포함하여 구성되되, 상기 키 프레임들과 인접한 프레임들을 키 프레임들과 인접하지 않은 프레임들보다 먼저 처리하는 것을 특징으로 하는 영상 시퀀스에 대한 일련의 원근 맵들을 생성하는 방법. Characterized in that the image doedoe comprising the step of: generating a perspective map for each frame in the sequence, first processing the adjacent frame to the key frame than the frame that is not close to the key frame using the algorithm method of generating a series of perspective map for the video sequence.
  27. 제 26항에 있어서, 27. The method of claim 26,
    상기 인접한 키 프레임이 처리되면, 상기 인접한 키 프레임을 원근 맵 생성을 위한 키 프레임으로 간주하는 것을 특징으로 하는 방법. When the adjacent key frames are processed, characterized in that to consider the adjacent key frames as a key frame for the perspective map generation.
  28. 제 22항, 제 23항, 제 26항 또는 제 27항에 있어서, 23. The method of claim 22, claim 23, claim 26 or 27,
    상기 제2알고리즘은 Z n = k a ·x n + k b ·y n + k c ·R n + k d ·G n + k e ·B n + k f ·T It said second algorithm is a k · x n = n Z + b · y k n + k c · R n + d k · G k n + e n + k · B · f T
    (여기서, n은 키프레임 영상의 n번째 픽셀이고, Z n 은 x n ,y n 에 위치한 픽셀에 부여된 원근의 값이고, k a 내지 k e 는 상수로서 상기 알고리즘에 의해 결정되며, R n 은 x n ,y n 에 위치한 픽셀의 적색 성분의 값이고, G n 은 x n ,y n 에 위치한 픽셀의 녹색 성분의 값이고, B n 은 x n ,y n 에 위치한 픽셀의 청색 성분의 값이고, T는 시퀀스내의 이 특정 프레임에 대한 시간 값이다)을 계산하는 것을 특징으로 하는 방법. (Where, n is the n-th pixel of the key frame image, Z n is a value of the perspective given to the pixels in the x n, y n, k a to k e is determined by the algorithm as a constant, R n is the value of the red component of the pixel in the x n, y n, G n is x n, and the value of the green component of the pixel in the y n, B n is the value of the blue component of the pixel in the x n, y n and, T is characterized in that for calculating the time values ​​for a particular frame in the sequence).
  29. 영상 시퀀스로부터 적어도 하나의 키 프레임을 선택하는 단계와, Comprising the steps of: selecting at least one key frame from the video sequence;
    적어도 하나의 키 프레임 각각에 대하여 각각의 프레임의 적어도 하나의 픽셀 또는 일부분에 원근을 부여하는 단계, To impart the at least one perspective on a pixel or a portion of each frame for the at least one key-frame, respectively,
    상기 각각의 키 프레임의 적어도 하나의 픽셀 또는 부분에 대하여 상대적인 위치와 영상 특성을 결정하는 단계, Determining a relative position and a visual characteristic with respect to at least one pixel or portion of the respective key frames,
    상기 적어도 하나의 키 프레임 각각에 대한 원근과 영상 특성 및 상대적인 위치를 이용하여 상대적인 위치와 원근 특성의 함수로서 원근 특성을 확인하기 위하여 상기 적어도 하나의 프레임 각각에 대한 제 1알고리즘의 제 1구성을 결정하는단계, Determining a first structure of the first algorithm for each of the at least one frame in order to determine the perspective characteristics as a function of the relative position and the perspective characteristic by using the perspective and image characteristics, and the relative position for the at least one key frame, respectively the method comprising,
    상기 제 1알고리즘을 이용하여 상기 적어도 하나의 키 프레임의 각각의 픽셀 또는 부분에 대한 원근 특성을 계산하는 단계, Calculating a trapezoidal characteristic for each pixel or portion of the at least one key frame of using the first algorithm,
    상기 각각의 원근 맵을 이용하여 상대적인 위치와 영상 특성의 함수로서 각각의 프레임에 대한 원근 특성을 확인하기 위한 제 2알고리즘의 제 2구성을 결정하는 단계, 및 Determining a second configuration of the second algorithm to determine the perspective characteristic for each frame as a function of the relative position and image characteristics by using the each of the perspective map, and
    상기 제 2알고리즘을 이용하여 상기 영상 시퀀스의 각각의 프레임에 대한 원근 맵을 생성하는 단계를 포함하여 구성되되, Doedoe comprises the step of using the second algorithm generates a perspective map for each frame of the image sequence,
    상기 원근 특성은 상기 적어도 하나의 키 프레임에 대한 원근 맵을 형성하는 것을 특징으로 하는 영상 시퀀스에 대한 일련의 원근 맵을 생성하는 방법. The perspective characteristics method of generating a series of perspective map for the video sequence, characterized in that for forming a perspective map for the at least one key frame.
  30. 제 29항에 있어서, 30. The method of claim 29,
    상기 키 프레임들에 인접한 프레임들을 인접하지 않은 프레임들보다 먼저 처리하는 것을 특징으로 하는 방법. Characterized in that the first processing than frames that are not adjacent to the adjacent frames in the key frame.
  31. 제 30항에 있어서, 31. The method of claim 30,
    다음에 처리하는 인접한 프레임을 그 후의 처리를 위한 키 프레임으로 간주하는 것을 특징으로 하는 방법. How to the next adjacent frame, characterized in that the process considered as a key frame for subsequent processing.
  32. 일련의 프레임들과 함께 적어도 하나의 매핑 함수를 전송하는 단계를 포함하되, 상기 매핑 함수가 상대적인 위치와 영상 특성의 함수로서 원근 특성을 확인하기 위한 알고리즘을 포함하는 것을 특징으로 하는 일련의 프레임들을 부호화하는 방법. Comprising the step of transmitting at least one mapping function with a series of frames, coding a series of frames, characterized in that the mapping function includes an algorithm to determine the perspective characteristics as a function of the relative position and the image characteristic How to.
  33. 제 32항에 있어서, 33. The method of claim 32,
    상기 영상 특성은 RGB 값들을 포함하는 것을 특징으로 하는 방법. The video attribute is characterized in that it comprises a RGB value.
  34. 제 32항 또는 제 33항에 있어서, 34. The apparatus of claim 32 or claim 33,
    상기 영상 특성은 휘도, 색도, 콘트라스트, 공간 값 중의 적어도 하나를 포함하는 것을 특징으로 하는 방법. The image characteristic method comprising the luminance, chroma, contrast, at least one of the space values.
  35. 제 32항 내지 제 34항 중 어느 한 항에 있어서, A method according to any one of claim 32 through claim 34, wherein
    상기 매핑 함수를 결정하기 위하여 학습 알고리즘을 이용하는 것을 특징으로 하는 방법. Characterized in that using a training algorithm to determine the mapping function.
  36. 제 35항에 있어서, 36. The method of claim 35,
    상기 학습 알고리즘은 후방전파 알고리즘, C4.5 알고리즘 또는 K-means 알고리즘인 것을 특징으로 하는 방법. The learning algorithm is characterized in that the back propagation algorithm, C4.5 algorithm or K-means algorithm.
  37. 제 35항 또는 제 36항에 있어서, 36. The method of claim 35 or claim 36,
    상기 매핑 함수가 Z n = k a ·x n + k b ·y n + k c ·R n + k d ·G n + k e ·B n Wherein the mapping function k = a n · x n Z + b · y k n + k c · R n + d k · G k + e n · B n
    (여기서, n은 키프레임 영상의 n번째 픽셀이고, Z n 은 x n ,y n 에 위치한 픽셀에 부여된 원근의 값이고, k a 내지 k e 는 상수로서 상기 알고리즘에 의해 결정되며, R n 은 x n ,y n 에 위치한 픽셀의 적색 성분의 값이고, G n 은 x n ,y n 에 위치한 픽셀의 녹색 성분의 값이고, B n 은 x n ,y n 에 위치한 픽셀의 청색 성분의 값이다)을 계산하는 것을 특징으로 하는 방법. (Where, n is the n-th pixel of the key frame image, Z n is a value of the perspective given to the pixels in the x n, y n, k a to k e is determined by the algorithm as a constant, R n is the value of the red component of the pixel in the x n, y n, G n is x n, and the value of the green component of the pixel in the y n, B n is the value of the blue component of the pixel in the x n, y n characterized in that to calculate the a).
  38. 제 32항 내지 제 37항 중 어느 한 항에 있어서, A method according to any one of claim 32 through claim 37, wherein
    원근 맵이 입력된 프레임들의 각각의 쌍에 대해 부가적인 알고리즘을 생성하는 것을 특징으로 하는 방법. Characterized in that to generate the additional algorithm, for each pair of the perspective map input frame.
KR10-2003-7001886A 2000-08-09 2001-08-09 Image conversion and encoding techniques KR20030062313A (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
AUPQ9292A AUPQ929200A0 (en) 2000-08-09 2000-08-09 Image conversion and encoding techniques
AUPQ9292 2000-08-09
AUPR0455 2000-09-29
AUPR0455A AUPR045500A0 (en) 2000-09-29 2000-09-29 Image conversion and encoding techniques
PCT/AU2001/000975 WO2002013141A1 (en) 2000-08-09 2001-08-09 Image conversion and encoding techniques

Publications (1)

Publication Number Publication Date
KR20030062313A true KR20030062313A (en) 2003-07-23

Family

ID=25646397

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-7001886A KR20030062313A (en) 2000-08-09 2001-08-09 Image conversion and encoding techniques

Country Status (7)

Country Link
US (1) US7035451B2 (en)
EP (1) EP1316068A1 (en)
JP (1) JP2004505393A (en)
KR (1) KR20030062313A (en)
CA (1) CA2418800A1 (en)
MX (1) MXPA03001171A (en)
WO (1) WO2002013141A1 (en)

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050231505A1 (en) * 1998-05-27 2005-10-20 Kaye Michael C Method for creating artifact free three-dimensional images converted from two-dimensional images
US7116323B2 (en) * 1998-05-27 2006-10-03 In-Three, Inc. Method of hidden surface reconstruction for creating accurate three-dimensional images converted from two-dimensional images
US7116324B2 (en) 1998-05-27 2006-10-03 In-Three, Inc. Method for minimizing visual artifacts converting two-dimensional motion pictures into three-dimensional motion pictures
US9286941B2 (en) 2001-05-04 2016-03-15 Legend3D, Inc. Image sequence enhancement and motion picture project management system
US9282321B2 (en) 2011-02-17 2016-03-08 Legend3D, Inc. 3D model multi-reviewer system
US7907793B1 (en) 2001-05-04 2011-03-15 Legend Films Inc. Image sequence depth enhancement system and method
US9113130B2 (en) 2012-02-06 2015-08-18 Legend3D, Inc. Multi-stage production pipeline system
US9288476B2 (en) 2011-02-17 2016-03-15 Legend3D, Inc. System and method for real-time depth modification of stereo images of a virtual reality environment
US8396328B2 (en) 2001-05-04 2013-03-12 Legend3D, Inc. Minimal artifact image sequence depth enhancement system and method
US8401336B2 (en) 2001-05-04 2013-03-19 Legend3D, Inc. System and method for rapid image sequence depth enhancement with augmented computer-generated elements
US7489812B2 (en) * 2002-06-07 2009-02-10 Dynamic Digital Depth Research Pty Ltd. Conversion and encoding techniques
AUPS283602A0 (en) * 2002-06-07 2002-06-27 Dynamic Digital Depth Research Pty Ltd Improved conversion and encoding techniques
JP4061305B2 (en) 2002-08-20 2008-03-19 一成 江良 Method and apparatus for creating stereoscopic image
US9692964B2 (en) * 2003-06-26 2017-06-27 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
KR100543706B1 (en) * 2003-11-28 2006-01-20 삼성전자주식회사 Vision-based humanbeing detection method and apparatus
US7333652B2 (en) * 2004-08-03 2008-02-19 Sony Corporation System and method for efficiently performing a depth map recovery procedure
EP1807806B1 (en) * 2004-10-26 2011-04-06 Koninklijke Philips Electronics N.V. Disparity map
US7822000B2 (en) * 2005-06-30 2010-10-26 Symbol Technologies, Inc. Time division multiplexing for access ports in a wireless network
US8384763B2 (en) * 2005-07-26 2013-02-26 Her Majesty the Queen in right of Canada as represented by the Minster of Industry, Through the Communications Research Centre Canada Generating a depth map from a two-dimensional source image for stereoscopic and multiview imaging
US7929801B2 (en) * 2005-08-15 2011-04-19 Sony Corporation Depth information for auto focus using two pictures and two-dimensional Gaussian scale space theory
US20070189750A1 (en) * 2006-02-16 2007-08-16 Sony Corporation Method of and apparatus for simultaneously capturing and generating multiple blurred images
US7616254B2 (en) 2006-03-16 2009-11-10 Sony Corporation Simple method for calculating camera defocus from an image scene
KR101228304B1 (en) * 2006-06-16 2013-01-30 삼성전자주식회사 Apparatus and method for composing of depth information map, apparatus and method for displaying images by using depth information map
US7711201B2 (en) * 2006-06-22 2010-05-04 Sony Corporation Method of and apparatus for generating a depth map utilized in autofocusing
CN101542529B (en) * 2006-11-21 2012-10-03 皇家飞利浦电子股份有限公司 Generation method of depth map for an image and an image process unit
WO2008091622A1 (en) * 2007-01-23 2008-07-31 Monte Ramstad High fidelity anaglyphs utilizing a far-red primary color
US8077964B2 (en) * 2007-03-19 2011-12-13 Sony Corporation Two dimensional/three dimensional digital information acquisition and display device
CA2681342A1 (en) * 2007-03-23 2008-10-02 Thomson Licensing System and method for region classification of 2d images for 2d-to-3d conversion
US8488868B2 (en) * 2007-04-03 2013-07-16 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry, Through The Communications Research Centre Canada Generation of a depth map from a monoscopic color image for rendering stereoscopic still and video images
US8213711B2 (en) * 2007-04-03 2012-07-03 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry, Through The Communications Research Centre Canada Method and graphical user interface for modifying depth maps
WO2009013682A2 (en) * 2007-07-26 2009-01-29 Koninklijke Philips Electronics N.V. Method and apparatus for depth-related information propagation
BRPI0820739A2 (en) 2007-12-14 2015-06-16 Koninkl Philips Electronics Nv Video information playback method, playback device for reproducing video information, signal, and recording carrier
US8515172B2 (en) * 2007-12-20 2013-08-20 Koninklijke Philips N.V. Segmentation of image data
US8471898B2 (en) * 2008-02-05 2013-06-25 Disney Enterprises, Inc. Medial axis decomposition of 2D objects to synthesize binocular depth
US9196080B2 (en) 2008-02-05 2015-11-24 Disney Enterprises, Inc. Medial axis decomposition of 2D objects to synthesize binocular depth
WO2009110082A1 (en) 2008-03-06 2009-09-11 富士通株式会社 Image photographic device, image photographic method, and image photographic program
US8280194B2 (en) * 2008-04-29 2012-10-02 Sony Corporation Reduced hardware implementation for a two-picture depth map algorithm
EP2274905B1 (en) * 2008-05-15 2012-11-28 Siemens Aktiengesellschaft Sensor device
WO2009155688A1 (en) * 2008-06-23 2009-12-30 Craig Summers Method for seeing ordinary video in 3d on handheld media players without 3d glasses or lenticular optics
US8194995B2 (en) * 2008-09-30 2012-06-05 Sony Corporation Fast camera auto-focus
US8553093B2 (en) * 2008-09-30 2013-10-08 Sony Corporation Method and apparatus for super-resolution imaging using digital imaging devices
US8233664B2 (en) * 2008-11-12 2012-07-31 Eastman Kodak Company Determining relative depth of points in multiple videos
EP2194504A1 (en) * 2008-12-02 2010-06-09 Philips Electronics N.V. Generation of a depth map
US8405742B2 (en) * 2008-12-30 2013-03-26 Massachusetts Institute Of Technology Processing images having different focus
TW201028964A (en) * 2009-01-23 2010-08-01 Ind Tech Res Inst Depth calculating method for two dimension video and apparatus thereof
TWI457853B (en) * 2009-03-24 2014-10-21 Ind Tech Res Inst Image processing method for providing depth information and image processing system using the same
US20100302365A1 (en) * 2009-05-29 2010-12-02 Microsoft Corporation Depth Image Noise Reduction
IT1399417B1 (en) 2010-04-12 2013-04-16 Sisvel Technology Srl A method for generating and rebuilding a compatible stereoscopic video stream and associated encoding and decoding devices.
KR101665567B1 (en) * 2010-05-20 2016-10-12 삼성전자주식회사 Temporal interpolation of three dimension depth image method and apparatus
IT1401731B1 (en) 2010-06-28 2013-08-02 Sisvel Technology Srl Method for 2D-compatible decoding of stereoscopic video streams
EP2536160B1 (en) * 2011-06-14 2018-09-26 Samsung Electronics Co., Ltd. Display system with image conversion mechanism and method of operation thereof
KR101870764B1 (en) * 2011-06-14 2018-06-25 삼성전자주식회사 Display apparatus using image conversion mechanism and method of operation thereof
US8831273B2 (en) 2010-09-10 2014-09-09 Reald Inc. Methods and systems for pre-processing two-dimensional image files to be converted to three-dimensional image files
US9485497B2 (en) 2010-09-10 2016-11-01 Reald Inc. Systems and methods for converting two-dimensional images into three-dimensional images
US8730232B2 (en) 2011-02-01 2014-05-20 Legend3D, Inc. Director-style based 2D to 3D movie conversion system and method
EP2525581A3 (en) * 2011-05-17 2013-10-23 Samsung Electronics Co., Ltd. Apparatus and Method for Converting 2D Content into 3D Content, and Computer-Readable Storage Medium Thereof
KR20120133571A (en) * 2011-05-31 2012-12-11 삼성전자주식회사 Imformation processing apparatus, implementation method thereof, and computer-readable storage medium thereof
CN102905141A (en) * 2011-07-28 2013-01-30 联咏科技股份有限公司 Two-dimension to three-dimension conversion device and conversion method thereof
TWI481262B (en) 2011-07-28 2015-04-11 Ind Tech Res Inst Image encoding system and image encoding method
US9471988B2 (en) * 2011-11-02 2016-10-18 Google Inc. Depth-map generation for an input image using an example approximate depth-map associated with an example similar image
KR20130084341A (en) * 2012-01-17 2013-07-25 삼성전자주식회사 Display system with image conversion mechanism and method of operation thereof
US9111350B1 (en) 2012-02-10 2015-08-18 Google Inc. Conversion of monoscopic visual content to stereoscopic 3D
CN104221367A (en) 2012-04-04 2014-12-17 拿索斯财务有限公司 System for generating and receiving stereoscopic-2d backward compatible video stream, and method thereof
CN102761768A (en) * 2012-06-28 2012-10-31 中兴通讯股份有限公司 Method and device for realizing three-dimensional imaging
RU2493602C1 (en) * 2012-08-10 2013-09-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Method and system for selecting key frames from video sequences
JP5949314B2 (en) * 2012-08-20 2016-07-06 株式会社日本自動車部品総合研究所 Parallax map generator and program for parallax map generator
KR20140030735A (en) * 2012-09-03 2014-03-12 삼성전자주식회사 Apparatus and method for display
US9007365B2 (en) 2012-11-27 2015-04-14 Legend3D, Inc. Line depth augmentation system and method for conversion of 2D images to 3D images
US9547937B2 (en) 2012-11-30 2017-01-17 Legend3D, Inc. Three-dimensional annotation system and method
US9007404B2 (en) 2013-03-15 2015-04-14 Legend3D, Inc. Tilt-based look around effect image enhancement method
US9674498B1 (en) 2013-03-15 2017-06-06 Google Inc. Detecting suitability for converting monoscopic visual content to stereoscopic 3D
US9532032B2 (en) * 2013-04-18 2016-12-27 Ellis Amalgamated, LLC Astigmatic depth from defocus imaging using intermediate images and a merit function map
US9609307B1 (en) 2015-09-17 2017-03-28 Legend3D, Inc. Method of converting 2D video to 3D video using machine learning
US9407904B2 (en) 2013-05-01 2016-08-02 Legend3D, Inc. Method for creating 3D virtual reality from 2D images
US9241147B2 (en) 2013-05-01 2016-01-19 Legend3D, Inc. External depth map transformation method for conversion of two-dimensional images to stereoscopic images
US9438878B2 (en) 2013-05-01 2016-09-06 Legend3D, Inc. Method of converting 2D video to 3D video using 3D object models
TWI460523B (en) * 2013-05-02 2014-11-11 Altek Semiconductor Corp Auto focus method and auto focus apparatus
US9383259B2 (en) 2013-08-29 2016-07-05 Nokia Technologies Oy Method, apparatus and computer program product for sensing of visible spectrum and near infrared spectrum
US20150309663A1 (en) * 2014-04-28 2015-10-29 Qualcomm Incorporated Flexible air and surface multi-touch detection in mobile platform
CN104732518B (en) * 2015-01-19 2017-09-01 北京工业大学 A kind of PTAM improved methods based on intelligent robot terrain surface specifications
CN104994365B (en) * 2015-04-30 2017-09-26 西安电子科技大学 A kind of method and 2D video three-dimensional methods for obtaining non-key frame depth image
CN104994368B (en) * 2015-07-10 2017-10-27 孙建德 Non-key frame sort method in 2D 3D Video Quality Metrics

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4925294A (en) * 1986-12-17 1990-05-15 Geshwind David M Method to convert two dimensional motion pictures for three-dimensional systems
US5469535A (en) * 1992-05-04 1995-11-21 Midway Manufacturing Company Three-dimensional, texture mapping display system
GB9406515D0 (en) 1994-03-31 1994-05-25 Argonaut Software Limited Texture mapping for 3-d computer graphics
JPH07282292A (en) 1994-04-05 1995-10-27 Toshiba Corp Texture mapping method and image processor
US5767857A (en) * 1996-08-30 1998-06-16 Pacific Data Images, Inc. Method, apparatus, and software product for generating outlines for raster-based rendered images
US6055330A (en) * 1996-10-09 2000-04-25 The Trustees Of Columbia University In The City Of New York Methods and apparatus for performing digital image and video segmentation and compression using 3-D depth information
CA2305735C (en) * 1997-12-05 2008-01-08 Dynamic Digital Depth Research Pty. Ltd. Improved image conversion and encoding techniques

Also Published As

Publication number Publication date
US20020048395A1 (en) 2002-04-25
JP2004505393A (en) 2004-02-19
MXPA03001171A (en) 2003-06-30
EP1316068A1 (en) 2003-06-04
CA2418800A1 (en) 2002-02-14
WO2002013141A1 (en) 2002-02-14
US7035451B2 (en) 2006-04-25

Similar Documents

Publication Publication Date Title
JP6395158B2 (en) How to semantically label acquired images of a scene
US8953874B2 (en) Conversion of monoscopic visual content using image-depth database
CN104756491B (en) Depth cue based on combination generates depth map from monoscopic image
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
Žbontar et al. Stereo matching by training a convolutional neural network to compare image patches
Konrad et al. Learning-based, automatic 2D-to-3D image and video conversion
US9922432B1 (en) Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures
CN104598915B (en) A kind of gesture identification method and device
Fischer et al. Flownet: Learning optical flow with convolutional networks
Guttmann et al. Semi-automatic stereo extraction from video footage
TWI455062B (en) Method for 3d video content generation
Mayer et al. What makes good synthetic training data for learning disparity and optical flow estimation?
US9008457B2 (en) Systems and methods for illumination correction of an image
Nalpantidis et al. Stereo vision for robotic applications in the presence of non-ideal lighting conditions
US9626568B2 (en) Use of spatially structured light for dynamic three dimensional reconstruction and reality augmentation
Faridul et al. A Survey of Color Mapping and its Applications.
JP2013545200A (en) Depth estimation based on global motion
JP4194025B2 (en) Illumination-invariant object tracking method and video editing apparatus using the same
JP5045371B2 (en) Foreground / background classification apparatus, method, and program for each pixel of moving image
DE60030798T2 (en) Identification of actual pixel colors in the area with uncertain pixels
Herbst et al. Toward object discovery and modeling via 3-d scene comparison
US9172947B2 (en) Method and apparatus for processing multi-view image using hole rendering
CN1328700C (en) Intelligent traffic system
RU2411690C2 (en) Method and device for displaying stereoscopic images, method of generating 3d image data from input 2d image data, and device for generating 3d image data from input 2d image data
US7869648B2 (en) Object extraction based on color and visual texture

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination