KR20060015755A - 3차원 모델을 사용하는 화상 시퀀스를 표현하는 방법 및 그장치와 신호 - Google Patents

3차원 모델을 사용하는 화상 시퀀스를 표현하는 방법 및 그장치와 신호 Download PDF

Info

Publication number
KR20060015755A
KR20060015755A KR1020057023960A KR20057023960A KR20060015755A KR 20060015755 A KR20060015755 A KR 20060015755A KR 1020057023960 A KR1020057023960 A KR 1020057023960A KR 20057023960 A KR20057023960 A KR 20057023960A KR 20060015755 A KR20060015755 A KR 20060015755A
Authority
KR
South Korea
Prior art keywords
gop
model
picture
dimensional
sequence
Prior art date
Application number
KR1020057023960A
Other languages
English (en)
Inventor
라파엘 바텔
패트릭 지오이아
Original Assignee
프랑스 텔레콤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프랑스 텔레콤 filed Critical 프랑스 텔레콤
Publication of KR20060015755A publication Critical patent/KR20060015755A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/23Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/27Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding involving both synthetic and natural picture components, e.g. synthetic natural hybrid coding [SNHC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/29Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding involving scalability at the object level, e.g. video object layer [VOL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Generation (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 화상 그룹(GOP)으로 불리는, 텍스처되고(textured) 메쉬화된(meshed) 3차원 모델이 상기 각 GOP와 관계되는, 적어도 두 개의 연속적인 화상의 세트로 그룹화된 시퀀스를 표현하는 방법에 관한 것이다. 본 발명에 따르면, 레벨 n의 GOP와 관련되는 3차원 모델은 상기 3차원 모델은 레벨 n-1의 GOP와 관련되는 3차원 모델을 표현하는 적어도 불규칙한 메쉬(irregular mesh)의 적어도 하나의 꼭지점을 고려하는 상기 불규칙한 메쉬에 의하여 표현되고, 상기 꼭지점은 공통 꼭지점이라고 불린다.
화상 그룹(GOP), 화상 시퀀스(sequence of image, or sequence of picture), 3D 모델(3D Model)

Description

3차원 모델을 사용하는 화상 시퀀스를 표현하는 방법 및 그 장치와 신호{METHOD OF REPRESENTING A SEQUENCE OF PICTURES USING 3D MODELS, AND CORRESPONDING DEVICES AND SIGNAL}
본 발명의 기술분야는 화상 시퀀스(picture sequence)를 인코딩(encoding)하는 것이다. 보다 전문적으로는 본 발명은 3차원 모델 또는 3D 모델의 스트림(stream)에 의해 화상 시퀀스를 인코딩하는 기술과 관련된다.
3D 모델에 의한 비디오 인코딩(video encoding)은 하나 또는 그 이상의 텍스처된 3D 모델(textured 3D models)에 의한 영상 시퀀스를 대표하는데 있는 것으로 생각되어질 수 있다. 화상 시퀀스의 인코더(encoder)에 전송되는 정보는 상기 3D 모델들과, 그것들과 관련되는 텍스처(texture)의 화상들 및 상기 시퀀스를 촬영한 카메라의 패러미터로 구성된다.
따라서, 이와 같은 인코딩은, 비디오 시퀀스가 일반적으로 픽셀의 세트로 표현되며 전송에 보다 비용이 많이 드는 전통적인 인코딩 기술보다 낮은 비트 레이트(bit rate)를 얻을 수 있게 해준다.
나아가, 전통적인 인코딩 기술과 비교하면, 3D 모델에 의한 이와 같은 인코딩 기술은 재구성된 시퀀스에 일정한 기능을 추가할 수 있게 해 준다. 따라서, 장 면(scene)의 조명을 바꾸거나, 입체(stereoscopic) 디스플레이를 얻거나, 시퀀스를 안정화시키거나(시퀀스가 비디오 시퀀스인 경우), 장면에 물체를 추가시키거나 또는 장면에서 자유로운 탐색(free navigation)을 시뮬레이션 하기 위하여 관찰하는 지점을 변경(자유로운 탐색이란 원 경로에 관계되는 카메라의 경로의 변화로 정의될 수 있다.)이 가능하게 된다.
그래서, 비디오 시퀀스로부터 3차원 모델을 추출하는 방법을 위한 화상 인코딩 시장에서 큰 요구가 있다. 사실, 실제의 3D 장면으로부터, 3D 모델링은 과거에 구상된 합성 방법에서 얻어지는 것보다 훨씬 더 사진처럼 사실적인 내용을 얻을 수 있는데 사용된다. 더구나, 상술한 기능들을 사용하는데 있어서, 실제 장면의 가상모델을 얻는 것은 전자 상거래, 비디오 게임, 시뮬레이션, 특수 효과 또는 다시 지리적 위치 측정에서의 응용과 같은 많은 수의 응용을 구상하는 것을 가능하게 한다.
현재 몇 가지 기술들이 비디오 화상으로부터 3D 모델을 구축하는데 알려져 있다.
능동 기술로 알려진 어떤 기술들은 실제 장면의 채광을 제어하는 것이 필요하며, 일반적으로 레이저 기술과 여러 각도에서의 장면과 많은 양의 데이터를 깊이있게 얻기 위하여 많은 수의 카메라를 사용한다.
수동 기술로 알려진 다른 기술들은 주요 부분을 정교한 계산 알로리즘에 의지하며, 화상과 화상 사이의 관계나 윤곽 중 하나에 바탕을 두고 있다. 그것들은 주로 필요한 교정(calibration) 수준과 허용된 상호작용 척도에 의하여 서로 차이 가 있다. 그것들은 사진이나 화상들의 세트로부터의 3D 정보의 조각을 복원하는 것으로 구성되며, 주로 아래의 2가지 문제에 직면한다.
- 대응점(correspondence)을 설정하거나 결정하는 것, 즉 주어진 화상의 영역에 대하여 다른 화상의 대응하는 영역을 찾는 것(이 영역은 화상의 포인트로 감소될 수 있다).
- 화상으로 형상화된 파라미터(다시 말하면, 상기 카메라의 내부 패러미터(초점 거리 등과 같은))와 그것의 외부 파라미터(시퀀스의 다른 화상들을 획득하기 위한 카메라의 위치 등)의 추정으로 구성되는 카메라의 교정.
대응점을 설정하는 것은, "교정되지 않은 2D 카메라 시야에서 반자동 3D 모델 추출(Semi-automatic 3D-model extraction from uncalibrated 2D camera views)", Proceedings Visual Data Exploration and Analysis, 1995,에서 V. M. Bove 등에 의해 설명되었다.
그 부분에서 교정하는 것은 힘이 드는 방법이며, 그에 관련된 계산 알고리즘은 종종 불안정하였다. 그래서, 많은 방법들이 인간의 행위를 필요로 하는 교정된 시퀀스에 의존하거나(E. Boyer 등, "평행육면체 및 평행사변형에 의한 교정 및 복원(Calibration and Resconstruction through Parallelepipeds and Parallelograms)", Proceedingsof the 13th French Speakers' Conference on Shape Recognition and Artificial Intelligence, 2002), "턴테이블(turntable)"에 의존하거나(W. Niem, "다중 시야로 부터 3D 자연 물체의 강력하고 빠른 모델링(Robust and Fast Modeling of 3D Natural Objects from Multiple Views)", vcip1994, 1994) 움직이는 로봇의 이용에 의존하는(J Wingbermuhle, "이동성 일안 카메라를 이용한 3D 물체의 자동 복원(Automatic Reconstruction of 3D Object Using a Mobile Monoscopic Camera)", Proceedings of the International Conference on Recent Advances in 3D Imaging and Modeling, 오타와, 캐나다, 1997) 복잡한 획득 시스템에 의존한다.
어떤 다른 자동 또는 반자동 방법에서, 대응점(correspondence)을 설정하는 것은 수동적으로 관리되지 않는다. 예를 들어, A. Fitzgibbon 등("자동 선 일치 및 다중 시야부터로의 건물의 3D 복원(Automatic Line Matching and 3D Reconstruction of Buildings from Multiple Views)", IAPRS, 뭔헨, 독일, 1999)이이나 C. Zeller 등("영상 시퀀스로부터 도시 조망의 3D 복원(3-D Reconstruction of Urban Scene from Sequence of Images)", INRIA, Information Technology 2572, 1995)에 의하여 설명된 기술들이 참조될 수 있다.
그러나, 반자동 또는 자동 방법은, 복원되어야 하는 장면에 대하여 많은 가정을 필요로 하며, 예를들어 건축물의 장면 자체에만 적용될 수 있다.
자동 3D 복원 방법은 전통적으로 아래의 단계를 실행한다.
- 특정 포인트들이나 선들을 감지;
- 화상들 사이에 대응점을 설정: 이 단계에서, 상기 특정 포인트들 또는 선들은 이전 단계동안 추출되고 비디오 시퀀스에 따라서 추적된다;
- 서로 다른 화상들을 연관시킴;
- 3D 포인트들의 투사 복원;
- 필요하다면 거리 3D 모델을 획득하기 위한 교정의 자동교정 또는 정밀화.(사실, 상기 모델의 상호작용하는 조작은 유클리드 공간에서 이루어 진다.);
- 텍스처된 3D 모델 추정;
상기 알고리즘에 근거한, 일정한 어떤 해결방법들은 동작중인 단일 카메라에 의하여 주어진 데이터로부터 3D 모델의 복원을 가능하게 한다.(즉, 카메라 또는 복원될 장면의 내부 또는 외부 파라미터 중 어떤 하나에 대하여도 사전 지식은 없다.) 예를 들어 "시각 장면 표현에 있어서의 전문가 회의(Panel Session on Visual Scene Representation)", Smile2000, 2000, 에서 P. Debevec 등에 의하여 설명된 기술이나, "VRML에 대한 VHS: 비디오 시퀀스로부터의 3D 그래픽 모델,(VHS to VRML: 3D Graphical Models from Video Sequences)", IEEE International Conference on Multimedia Computing and System, 플로랜스, 1999, 에서 G. Cross 등에 의하여 설명된 기술이 참조될 수 있다.
J. Roning 등은 "하나의 동작하는 카메라에 의한 구조화된 환경의 모델링(Modeling Structured Environments by a Single Moving Camera)", Second International Conference on 3-D Imaging and Modeling, 1999, 에서 감지된 윤곽과 확장된 칼만 필터(Kalman filter)으로부터 제1 모델을 추정하는 방법을 제안하였다. 그러나, 상기 방법은 윤곽에 너무 많이 의존하고 복잡한 장면에 맞지 않는 결점을 가진다.
"VRML에 대한 VHS: 비디오 시퀀스로부터의 3D 그래픽 모델,(VHS to VRML: 3D Graphical Models from Video Sequences)", IEEE International Conference on Multimedia Computing and System, 플로랜스, 1999, 에서 G. Cross 등은 Harris 방법에 의하여 포인트들을 감지하고, 상이한 시야에서의 그것들의 대응점을 지리적 추정과 동시에 설정하는 방법을 제안하였다. 상기 포인트들은 두 시야 사이에서의 에피폴라 기하학(epipolar geometry)에 의하여 결합되거나 세 시야 사이에서의 삼중초점 기하학(trifocal geometry)에 의하여 결합되고, 유도된 매칭을 가능하게 하는, 교차 상호연관(cross correlation)을 통하여 일치되게 된다. 그런 다음, 대응점의 경우들은 시퀀스로 확장되고 번들 조정에 의하여 최적화된다. 다음으로, 3x4 투사 행렬과 원 화상의 텍스처가 놓여지는 3D 유클리드 구조를 얻게된다. 이것은 기하학의 불완전성을 가려준다.
그러나, 이 방법의 단점은, 두개의 연속적인 화상의 동작이 비교적 작아야 하고, 화상들의 시퀀스가 알맞은 크기이어야 한다는 점이다. 따라서, 이 방법은 화상 시퀀스에는 무엇이던지 맞지 않다.
두 개의 해결방법이 Louvain 대학에서 제안되었다.
첫번째 해결방법에 따르면, (M. Pollefeys, "영상으로부터의 3D 모델링 지침서(Tutorial on 3D Modeling from Images)", eccv2000, 2000년), 감지된 화상의 특정 포인트들 또는 선들이 Torr 알고리즘(상기 저작에 설명되어 있는)에 의하여 추출되고 대응점으로 번역된다. 동시에, 한정된 교정이 교정과 불일치되는 대응점들을 제거하게 하기 위하여 평가된다. Beardsley 방법(M. Plooefeys, "영상으로부터의 3D 모델링 지침서(Tutorial on 3D Modeling from Images)", eccv2000, 2000년 6 월 26일, 더블린, 아일랜드)은 다른 시야의 처음 두 개의 화상과 투사 행렬(projection matrices)을 위한 가공되지 않은 투사 복원을 얻기 위하여 사용된다. 디폴트 값에서의 미지의 수를 결정하고, 절대 원뿔곡선(absolute cornic)의 개념을 적용시키는데 있어서, 자동교정은 메트릭 표현형식(metric representation)으로 변형되기 위하여 카메라의 내부 파라미터를 검색하는 것을 가능하게 한다. 그 다음, 정보 조각들은, 수개의 화상(내려가는 연쇄 및 올라오는 연쇄) 상에 서로 일치하는 포인트들을 연결하는 방법에 의하여, 교정하는 동안 계산되는 불일치와 회전에 대한 지도로부터, 공통 3D 모델로 합성된다. 큰 피사체에는 다중 해상도(multi-resolution) 해결방법이 제안된다.
그러나, 이 기술의 단점은 큰 피사체를 위한 다중 해상도 접근방식은 시야(view) 전체 뿐만 아니라 일부 상세영역에 대하여 접근하기 위하여 같은 장면에 대하여 몇개의 비디오 시퀀스에 대한 유효성을 요구한다. 더하여, 이 방법은 반자동 방식이다.
두번째 기술(Gool 등, "영상 시퀀스 부터 3D 모델까지(From image sequence to 3D models)", Third International Workshop on Automatic Extraction of Man-made Objects from Ariel and Space Image, 2001)에 따르면, 화상의 특정 포인트들 또는 선들은 Harris 방법 또는 Shi 와 Tomasi 방식("영상으로부터의 3D 모델링 지침서(Tutorial on 3D Modeling from Images)", eccv2000, 2000년 6월 26일, 더블린, 아일랜드, 에서 M. Plooefeys,에 의하여 설명된)에 의하여 감지된다. 그런 다음, 이러한 특성들은 대응점으로 번역되게 되거나, 그것들이 화상 시퀀스에 관계되 는지 또는 비디오 시퀀스에 관계되는지에 따라 다른 시야 사이에서 추적되어 진다. 이 대응점들로부터 시야 사이의 관계가 Torr 또는 Fisher와 Bolles 방법과 같은 강력한 방법들에 의하여 계산되어 진다. 투사 복원에 대해서는, 초기 복원을 얻기 위하여, 두개의 화상이, 내부 파라미터를 위한 투사 행렬과 근사 회전 행렬을 결정하는 데 있어서 그리고 삼각측량에 의하여, 선택되어 진다. 그 다음, 다른 시야에 일치하는 카메라의 위치는 에피폴라 기하학에 의하여 결정된다. 구조는 각 포인트로 확장된 Kalman 필터의 사용에 의하여 다듬어 진다("화상으로부터의 3D 모델링 지침서(Tutorial on 3D Modeling from Images)", eccv2000, 2000년 6월 26일, 더블린, 아일랜드, 에서 M. Plooefeys,에 의하여 설명된). 구조와 동작이 전 시퀀스에 대하여 얻어진 때에는 번들 조정이 이루어진다. 자동교정을 통하여 투사 복원으로부터 유클리드 복원으로의 변이가 이루어진다. 그 다음, 가상 3D 모델이, 깊이가 유효하지 않은 포인트들을 제거하는데 있어서 시퀀스의 화상들 중 하나에 대한 삼각 메쉬(triangular mesh)를 상승시키는 것에 의하여 얻어진다.
이 방법의 단점은 단순한 장면을 제외하고는 좋은 결과를 제공하지 않으며, 복잡한 장면에 대하여는 적합하지 않다는 것이다.
더 일반적으로는, 여기에 설명된 종래 기술은 화상 시퀀스를 획득하는데 있어서(예를들어 카메라의 파라미터의 면에서), 그리고/또는 장면의 내용물에 있어서, 또는 다시 시퀀스의 길이에 있어서 가정을 단순히 하는 것이 요구된다. 다른 말로 하면, 이러한 다른 방법들은 지정되지 않고 가능할 수 있는 복잡한 장면과 화상 시퀀스에는 맞지 않다.
인코딩에 배향되는 방법인 마지막 방법은 Franck Galpin에 의해 "비디오 시퀀스의 3D 표현: 3D 모델의 스트림 자동추출과 응용 압축을 위한 그리고 가상 현실에 대한 설계", Rennes 1 대학, 2002년, 에서 제안되었다. 화상의 전체 시퀀스에 대한 단일의 3D 모델을 복원하는 것을 추구하는 종래 기술의 다른 방법들과 달리, Franck Galpin의 방법의 주된 아이디어는 GOP(또는 화상 그룹(group of pictures))로 알려지고, 각각이 시퀀스 중 한 부분에 대하여 유효한 몇몇 모델들을 얻기 위하여 비디오 시퀀스의 구분적인 처리(piecewise processing)를 하는 것이다.
장면은 정적(또는 동작의 의미에서 분할된 것)인 것이고, 단일 카메라에 의하여 동적으로 촬영된 것이고, 획득 파라미터(카메라의 내부 또는 외부 파라미터)는 미지의 것이고, 카메라의 초점거리는 상수이며, 장면은 반사면이 없거나 거의 없다는 것으로 가정된다. 장면의 내용물과 카메라의 동작은 지정되지 않은 내용물 또는 동작으로 가정된다.
동작의 치밀한 추정이, 시퀀스의 원격 화상들(다시 말하면, GOP를 구분하는 주요 화상들) 사이에서 추정이 가능하게 하기 위하여, 광흐름(optical flow)의 방정식이나 변형할 수 있는 2D 메쉬에 근거하여 행하여 진다. 주요 화상들은 병렬로 선택되어지며 그리고, 3D 모델의 추정을 위한 지원으로서 도움이 된다. 또한 카메라의 내부 또는 외부 파라미터의 강력한 계산은 상기 주요 화상들에 대하여 이루어지고, 동시에 신축 원도우 번들 조정(sliding-window bundle adjustment) 방법에 의한 3D 기하학으로 다듬어져야 한다. 도 1에 도시된 바와 가같이 원 시퀀스의 복원을 가능하게 하기 위하여 중간 화상의 위치는 Demonthon에 의한 위치측정에 의하 여 추정되어 진다(특히 Franck Galpin의 "비디오 시퀀스의 3D 표현: 3D 모델의 스트림 자동추출과 응용 압축을 위한 그리고 가상 현실에 대한 설계", Rennes 1 대학, 2002년 1월, 참조).
초기 시퀀스는 GOP로 불리는 화상 그룹에 결합된 복수의 연속적인 화상 Ik를 포함한다. 따라서, 화상 I0에서 I5는 제1 GOP(1) 내부에서 그것과 관계되는 3D 모델 M0를 가지면서 구룹화된다. 화상 I5 에서 I13은 제2 GOP(2) 내부에서 그것과 관련되는 3D 모델 M1을 가지면서 정리된다.
마지막으로 언급된 종래기술 방법은 본 명세서에서 상술한 다른 방법들에 의해 주어지는 결과보다 인코딩 측면에서 훨씬 더 나은 결과를 얻는데 사용될 수 있다. 도 2a 내지 도 2e는 낮은 비트 레이트에서 한편으로는 이 기술에 따라, 다른 한편으로는 H26L 기술에 따라 얻은 결과를 보여준다. 더 상세하게는, 도 2a는 PSNR의 전개를 도시하고, 도 2b 및 도 2c는 각각 H26L 기술(또는 H264 기술, 특히 "3D 비디오 표현의 신축 조정(Sliding Adjustment for 3D Video Representation)", Franck Galpin 과 Luce Morin, eurasip 2000, 1088-2001쪽 참조)에 따라 82kb/s의 비트 레이트로 얻은 화상과 상기 화상의 세부 영역을 도시하며, 도 2d 및 2e는 Franck Galpin에 따른 3D 모델의 스트림을 사용하는 방법에 따라 얻어진 동일한 화상을 도시한다.
도 2a에서, 첫번째 그래프(최상단에 있는 것)는 텍스처 공간에서 Franck Galpin의 방법에 따라, 즉 기하학적 왜곡을 고려하지 않고서, 3D 모델의 재투사에 의하여 얻어진, 복원 시퀀스의 객관적인 특성을 유지한다. 도 2a의 다른 두 그래프는 Franck Galpin의 방법에 의해, 그리고 화상 공간에서 H264 인코더에 의하여 얻어진 복원 시퀀스를 위한 객관적인 품질을 표시한다.
객관적인 측정의 면에서(즉, PSNR 또는 peak signal-to-noise ratio의 면에서) 얻어진 품질이 Franck Galpin 인코더 및 H26L 인코더에 유사하다고 하더라도, 가시적인 관점으로부터, 얻어진 품질은 3D 모델 스트림에 기초한 인코더를 이용한 것이 특히 세부에의 사실성, 블록 효과가 없는 것 등의 측면에서 더 우수하다는 것에 주목하여야 한다.
나아가, 3D 모델의 스트림에 기초한 이 인코딩 기술은, 각각 16kb/s의 비트레이트에서
- PSNR 전개;
- 이 기술에 따라 얻어진 화상;
- 상기 화상의 세부 영역
을 보여주는 도 3a 내지 3c 에 도시된 바와 같이, 매우 낮은 비트 레이트를 만족스러운 시각적인 품질로 얻는데 사용될 수 있다.
3D 모델의 스트림의 추출에 의존하는 Franck Galpin의 방법이 상술한 단일 3D 모델을 추출하는 방법에 내재하는 일정한 단점들을 보여주지는 않는다 하더라도, 그럼에도 불구하고 일정 문제에 직면한다.
특별하게는, 종래 기술의 한 단점은, 화상 시퀀스을 위해 얻어진 모든 3D 모델들은 단지 부분적으로 중복되며, 따라서, 이러한 기술들이 장면의 자유로운 탐색 을 응용하는 것에 적합하지 못하게 한다.
사실, 얻어진 상이한 3D 모델은 상이한 참조 시스템으로 표현되며, 많은 불완정성을 보여 준다(드리프트(drift)와 정도를 벗어난 포인트 등의 면에서).
종래 기술의 다른 단점은, 인코딩에 치우쳐져 있다 하더라도(상술한 다른 해결방법과는 달리), 종래기술이 기하학적 관점이 아니라 화상의 텍스처의 관점에서만 평가된다는 것이다.
따라서, 이 방법은 매우 다양한 처리 용량을 가지는 디스플레이 단말장치(display terminal)상의 수행과, 다양한 비트 레이트의 전송 네트워크에 적절하지 않거나 어울리지 않는다.
본 발명은 특히 종래기술의 이러한 결점들을 극복하기 위한 것이다.
보다 상세하게는, 본 발명의 목적은 복잡한 것을 포함하는, 어떠한 형식의 고정적인 또는 정적인 화상 또는 장면의 시퀀스에도 적합한 3D 모델에 의한 화상 시퀀스의 표현 기술을 제공하는데 있다. 상세하게는, 장면의 복원을 위한, 가정이 필요 없는, 대규모의 소비자 제품인 장비로 획득할 수 있는, 특성이나 움직임이 알려지지 않은 이러한 종류의 기술을 수행하는데 본 발명의 목적이 있다.
시퀀스의 획득에 사용되는 카메라의 원 경로로부터 벗어난 움직임이 있다고 할 때에도, 높은 시각 품질(visual quality)을 가진 재투시에 의하여 재생산되는 시퀀스를 얻기 위하여 사용될 수 있는 기술을 수행하기 위한 것이 본 발명의 다른 목적이다.
매우 낮은 비트 레이트에 적합한 이러한 종류의 기술의 실현에 기여하는 것은 여전히 본 발명의 다른 목적이다.
또한, 대형의 장면에 특별히 적합한 잘 맞는 이러한 종류의 기술을 제공하는 것이 본 발명의 목적이다.
인코딩과 가상움직임에 대한 응용에 적합한 이러한 종류의 기술의 실현에 기여하는 것은 여전히 본 발명의 다른 목적이다.
상이한 비트 레이트를 가지는, 특히 휴대용 응용기기와 같은 네트워크상에서 전송을 가능하게 하기 위하여, 화상 시퀀스의 측정가능한 표현을 얻는데 사용되는 이러한 종류의 기술의 실현에 기여하는 것은 여전히 본 발명의 다른 목적이다.
여전히 본 발명의 다른 목적은 동일한 비트 레이트에서 Franck Galpin의 상술한 기술을 이용한 것보다도 더 나은 시각 품질을 가진 장면을 표현하기 위하여 사용될 수 있는 이러한 종류의 기술을 제공하는 것이다.
또한, 같은 시각 품질의 화상 시퀀스를 표현하는 경우에, 상술한 Franck Galpin의 기술과 비교하여 비트 레이트의 감소를 얻기 위하여 이러한 종류의 기술을 실현에 기여하는 것이 본 발명의 목적이다.
이러한 목적들은, 아래에 나타날 다른 것들과 더불어, GOP라고 불리는, 적어도 두개의 연속적인 화상의 집합으로 그룹화된 화상 시퀀스를 표현하는 방법에 의하여, 텍스처되고(textured) 메쉬화된(meshed) 3차원 모델이 상기 각 GOP와 관련되면서 달성된다.
본 발명에 따르면, 레벨 n의 GOP와 연관되는 3D 모델은 레벨 n-1의 GOP와 관련되는 3D 모델을 표현하는 적어도 불규칙한 메쉬의 적어도 하나의 꼭지점을 고려하는 불규칙한 메쉬에 의해 표현되며, 상기 꼭지점은 공통 꼭지점(common vertex)이라 한다.
나아가, 본 발명은 3D 모델에 의한 화상 시퀀스의 표현에 대한 신규성 있고 진보성 있는 접근방법에 전적으로 의존한다. 사실, Franck Galpin에 의해 제안된 방법의 경우처럼, 본 발명은 시퀀스의 모든 화상들에 대한 독특한 3D 모델의 추출에 의존하는 것이 아니라 GOP라 불리는 화상들의 그룹과 각각 관련되는 3D 모델의 스트림을 추출하는 것에 의존한다. 따라서, 본 발명은 유익하게는 상호작용적인 움직임 형식의 응용을 가능하게 한다.
연속적인 3D 모델 사이의 이러한 일치는 상기 화상들의 특이점들에 특별히 어울리는 화상들의 불규칙한 메쉬(irregular mesh)를 사용하는 것을 통하여 가능하게 된다. 따라서, 3D 모델의 불규칙적인 메쉬는 이전 3D 꼭지점의 불규칙한 메쉬의 적어도 하나의 특정 꼭지점(또는 더 일반적으로 상기 화상의 특별한 포인트들 또는 선들)을 고려한다.
따라서, 동등한 시각 품질을 위하여, 본 발명은 상이한 3D 모델 사이의 중복 때문에, 화상 시퀀스 전송의 비트 레이트를 줄인다. 또한, 같은 비트레이트에 대하여 연속적인 3D 모델 사이에서의 스트림의 특이점들을 추적하는 것을 통하여 화상들의 시퀀스 표현의 더 나은 시각 품질을 얻을 수 있다.
또한, 본 발명의 바람직한 특성에 따라, 적어도 2개의 연속적인 3D 모델은 상기의 적어도 2개의 3D 모델에 공통인 상기 꼭지점들로부터 구축되고, 그것들과 관계되는 일반적인 기본 모델을 가진다.
화상 시퀀스의 본질에 따라, 상기 시퀀스 관련되는 모든 3D 모델들은 그것들과 일치하는 동일한 기본 메쉬(basic mesh)를 가지는 것이 가능해진다. 이 기본 메쉬는, 또는 상이한 3D 모델들을 정교하게 하는 가공되지 않은 메쉬는, 그것과 관계되는 모든 3D 모델에 공통적인 기하학적 구조에 일치된다.
바람직하게는, 상기 3D 모델 중 하나에서 다른 모델까지의 경과는 웨이블릿 계수(Wavelet Coefficients)의 제1 세트를 사용하여 웨이블릿 변환(Wavelet Transformation)에 의하여 만들어진다.
유익하게는, 상기 3차원 모델은 웨이블릿 계수(Wavelet Coefficients)의 제2 세트를 사용하여 웨이블릿 변환(Wavelet Transformation)에 의하여 상기 관련된 기준 모델에 의하여 얻어진다.
따라서, 본 발명은 네트워크 또는 디스플레이 단말장치의 특성 함수로서 채용될 수 있는 화상 시퀀스의 계측가능한 전송을 가능하게 한다. 시퀀스를 복원하기 위하여 전송될 요소들은, 카메라의 파라미터들에 더하여, 처음으로는 상기 기준 메쉬와, 두번째로는 상이한 3D 모델을 복원하는데 사용되는 상이한 웨이블릿 계수이다. 가변적으로 큰 수의 웨이블릿 계수의 전송은 상기 전송 네트워크에서의 비트 레이트 또는 상기 디스플레이 단말장치의 용량에 맞추어진 가변적으로 높은 복원 품질을 제공한다.
바람직하게는, 상기 레벨 n에서의 불규칙한 메쉬는 레벨 n의 상기 GOP의 화상들 중 하나의 2차원적인 불규칙한 메쉬이다.
유익하게는, 상기 메쉬화된 화상은 레벨 n의 상기 GOP의 제1 화상이다.
바람직하게는 상기 3차원 모델 각각은 그것을 표현하는 상기 불규칙한 메쉬의 높이(elevation)에 의해서 얻어질 수 있다.
따라서, 깊이 정보(depth information)는 높이(elevation)에 의해 그물화된 깊이 지도(depth map)를 얻기 위하여 2D 메쉬과와 결합된다.
본 발명의 첫번째 유익한 변형에 따르면, 상기 불규칙한 2차원 메쉬는 상기 화상의 규칙적인 삼각 메쉬의 연속적인 간소화에 의하여 얻어진다.
예를 들어, 연산은 상기 화상의 모든 포인트들을 포함하기 위하여, 측면 1을 가지고 있는 삼각형들로부터 시작된다.
본 발명의 두번째 유익한 변형에 따르면, 상기 불규칙한 2차원 메쉬는 상기 화상의 기설정된 관심 포인트들의 들로네 메쉬(Delaunay Mesh)로 부터 얻어진다.
예를 들어, 이러한 관심 포인트들은 Harris 와 Stephen 알고리즘에 의하여 예비적으로 감지된다.
바람직하게는, 두 개의 연속적인 GOP는 적어도 하나의 공통 화상을 갖는다.
따라서, GOP의 마지막 화상은 또한 다음 GOP의 첫 화상이다.
본 발명의 유익한 특성에 따르면, 상기 레벨 n-1 및 레벨 n의 공통적인 상기 꼭지점들은 레벨 n-1의 상기 GOP의 첫 화상과 레벨 n의 상기 GOP의 첫 화상 사이의 움직임을 추정하는 것에 의하여 감지된다.
유익하게는 이러한 종류의 방법은 상기 감지된 공통 꼭지점들을 저장하는 단계를 포함한다.
이러한 저장된 공통 꼭지점은 다음 GOP와 관련된 모델의 구축에 사용될 수 있다.
바람직하게는, 레벨 n의 GOP와 관련되는 상기 모델을 표현하는 상기 불규칙한 메쉬는 또한, 레벨 n+1의 GOP와 관련된 모델을 표현하는 적어도 상기 불규칙한 메쉬의 적어도 하나의 꼭지점을 고려한다.
이러한 방법으로 양방향적으로 작용하는 것에 의하여, 나아가 상기 시각 품질은 복원하는 동안 증가한다.
유익하게는, 상기 웨이블릿 계수 제2 세트는 상기 관련된 3차원모델의 반규칙적(semi-regular)인 재메쉬(re-meshing) 상의 적어도 하나의 해석 필터에 의하여 만들어진다.
반규칙적인 메쉬는 6개의 이웃 꼭지점들을 가지지 못하는 꼭지점들이 메쉬상에서 따로 떨어져 있는 메쉬를 말한다(즉, 그것들은 상호 이웃하는 메쉬들이 아니다).
바람직하게는, 상기 웨이블릿은 2세대 웨이블릿이다.
바람직하게는, 상기 웨이블릿은
- 구분적인 아핀(Affine) 웨이블릿들;
- 다항식의 웨이블릿들; 및
- 나비 분할 설계(Butterfly Subdivision Scheme)에 기초한 웨이블릿들
을 포함하는 그룹에 속한다.
또한, 본 발명은 GOP로 불리는, 적어도 두 개의 연속적인 화상의 세트로 그룹화된 화상 시퀀스를 표현하는 신호와, 텍스처되고 메쉬화된 3차원 모델이 상기 각 GOP와 관련되면서, 관계된다.
본 발명에 따르면, 그러한 신호는
- 3차원 모델과 적어도 2개의 연속적인 GOP와 관계되는 적어도 2개의 상기 3차원 모델로 각각 표현하는, 적어도 2개의 불규칙한 메쉬의 공통적인 꼭지점으로부터 구축되는 기준 모델을 포함하는 적어도 하나의 필드(field);
- 각각 3차원 모델을 표현하며, 상기 적어도 2개의 3차원 모델이 적어도 2개의 연속적인 GOP들과 관련되는, 적어도 2개의 불규칙한 메쉬의 공통적인 꼭지점들로부터 구축되는 기준모델을 포함하는 적어도 하나의 필드(field);
- 상기 3차원 모델 중의 하나와 관련되는 적어도 하나의 텍스처를 포함하는 적어도 하나의 필드; 및
- 적어도 하나의 카메라 위치 파라미터를 포함하는 적어도 하나의 필드
를 포함한다.
또한, 본 발명은 상술한 표현 방법을 구현시키는 화상 시퀀스를 표현하는 장치에 관계된다.
또한, 본 발명은 GOP로 불리는, 적어도 두 개의 연속적인 화상의 세트로 그룹화된 화상 시퀀스를 표현하는 장치와, 텍스처되고 메쉬화된 3차원 모델이 상기 각 GOP와 관련되면서, 관계된다.
본 발명에 따르면, 그러한 장비는
- 2개의 연속적인 3차원 모델을 표현하는 적어도 2개의 불규칙한 메쉬에 공통되는 꼭지점들로부터 준비되고, 적어도 하나의 기준 모델의 웨이블릿 변환에 의한 상기 3차원 모델을 구축하는 수단;
- 상기 3차원 모델로부터, 적어도 하나의 텍스처에 대한 화상으로부터, 그리고 적어도 하나의 카메라 위치 파라미터로부터 시퀀스의 상기 화상을 표현하는 수단
을 포함한다.
또한, 본 발명은 GOP로 불리는, 적어도 두 개의 연속적인 화상의 세트로 그룹화된 화상 시퀀스를 인코딩하는 장치와, 텍스처되고 메쉬화된 3차원 모델이 상기 각 GOP와 관련되면서, 관계된다.
본 발명에 따르면, 이러한 종류의 인코딩 장치는 레벨 n의 GOP와 관계되는 3차원 모델을 인코딩하는 수단을 포함하고, 상기 3차원 모델은, 레벨 n-1의 GOP와 관련되는 3차원 모델을 표현하는 적어도 하나의 불규칙한 메쉬의 적어도 하나의 꼭지점을 고려하는 불규칙한 메쉬에 의하여 표현된다.
본 발명의 다른 형태들과 유익한 점들은, 간단하고 비제한적인 실시예에 의하여 주어진 바람직한 일 실시형태의 다음의 설명과 아래와 같이 첨부된 도면으로부터 더 분명하게 나타난다.
종래 기술과 관련하여 이미 설명된 도 1은 3D 모델의 스트림에 의한 비디오 시퀀스를 복원하는 원리를 보여준다;
종래 기술과 관련하여 이미 설명된 도 2a 내지 도 2b는, 한편으로는 H24L 형식에 따라 얻어진 시각 결과의 비교를, 다른 한편으로는 도 1의 인코딩 기술을 예시한다;
종래 기술과 관련하여 이미 설명된 도 3a 내지 도 3c는, 16kb/s의 낮은 비트레이트에 대한 도 1의 기술에 따라 얻어진 결과를 나타낸다;
도 4는 3D 모델로부터 비디오 시퀀스를 복원하는 일반적인 원리를 도시한다;
도 5는 하나 이상의 3D 모델에 공통적이고, 각각 기준 모델과 관련되는 3D 모델의 스트림 추출에 따른 본 발명의 일반적인 원리를 도시한다;
도6은 도 4의 3D 모델의 인코딩에 사용되는 상이한 웨이블릿 계수들을 보여준다;
도 7은 시퀀스의 화상들을 인코딩하기 위한 본 발명에 의해 구현되는 상이한 단계의 블럭도이다;
본 발명의 일반적인 원리는 불규칙한 메쉬들과 관련되고, 상기 시퀀스의 화상들의 내용에 알맞고, 전술한 3D 모델의 불규칙한 메쉬의 꼭지점에 대응하는 것을 고려하는 3D 모델의 스트림의 추출에 기초하고 있다.
도 4를 참조하면, 3차원 모델에 의한 비디오 시퀀스의 복원의 일반적인 원리를 간단하게 상기할 수 있다.
실제 장면을 고려하는데, 여기서는 카메라(43)에 의하여 촬영되는(42) 피사체(41) (여기서는 차주전자)를 고려한다. 대규모 소비자 제품이 될 수 있는 카메라의 성질이나 비디오 시퀀스 획득 파라미터에 대하여는 아무런 가정이 없다.
상기 비디오 시퀀스의 디지털화(44) 이후, 원 시퀀스라고 불리어 질 화상 시 퀀스(45)가 얻어진다.
상기 원 시퀀스의 해석(46)에 의해 화상 시퀀스(49)를 재구성하는 것이 가능한 적어도 하나의 3D 모델(47)이 디스플레이 단말장치에 표시하기 위하여 구축된다(본 발명에 따르면, 복수의 3D 모델).
이제 도 5를 참조하면, 본 발명의 일반적인 원리를 표시하는데, 첫째로는 테스처 되고 메쉬화된 3D 모델의 스트림에 기초하고, 두번째로는 웨이블릿 변환의 구현에 기초한다.
각 3D 모델은 화상의 원 시퀀스의 일부, 즉 GOP(또는 화상 그룹(group of pictures))에 일치한다. 고려된 3D 모델은 이전 모델의 꼭지점에 대응하는 것이 고려되는 제한 아래에서 불규칙하게 메쉬되는 불규칙하게 메쉬화된 높이 지도(elevation map)이다. 이러한 제한은 연속적인 모델의 꼭지점들 사이에서 정교한 대응점을 보장한다.
하나의 모델에서 다른 모델로 통과하기 위한 변환들은 웨이블릿으로 분해되고, 따라서 웨이블릿의 통상적인 척도화를 통해 상기 비트 레이트에 적합한 변환의 정확도를 가능하게 한다.
나아가, 본 발명은 도 4에 도시된 바와 같이 하나 이상의 연속적인 GOP와 관련되는 기준 모델의 복원에 의존한다.
화상들의 원 시퀀스는 연속적인 화상 Ik로 구성된다. 도 4는 특별히 화상 I0, I3, I5, I10, I30, I40, I50 및 I60을 도시한다. 이 시퀀스는 정의되지 않은 길이일 수 있으며, 본 발명에 있어서 필요한 제한적인 가정이 없을 수 있다.
상기 화상 시퀀스 Ik는 GOP라 불리는 화상의 연속적인 그룹으로 나눌 수 있다. 따라서, 제1 GOP(50)은 I0 내지 I5 로 참조되는 화상들을 포함하고, 제2 GOP(51)은 I5 내지 I20 로 참조되는 화상들을 포함하며, 제k+1 GOP(52)는 특히 화상 I30 내지 I40을 포함하고, 제k+2 GOP(53) 화상 I40 내지 I60을 포함한다. 도 4의 바람직한 일 실시형태에서, GOP의 마지막 화상은 또한 다음 GOP의 첫 화상인 것에 주목하여야 한다: 따라서, 예를 들면, 화상 I5는 제1 GOP(50)와 제2 GOP(51)에 속한다.
이러한 GOP들(50 내지 53)에 있어서 3D 모델 Mk가 구축된다. 3D 모델 M0은 GOP(50)과 관련되고, 3D 모델 M1은 GOP(51)와 관련되고, 기타 이와 같디.
상기 3D 모델 Mk로 구성되는 MBk로 참조된 기준모델들의 세트가 구축된다. 따라서, 도 4에서 기준 모델 MB0는 상기 3D 모델 M0 내지 Mk와 관련되며, 기준 모델 MB1은 상기 3D 모델 Mk, Mk +1과 계속되는 3D 모델들과 관련된다.
기설정된 특정 포인트들의 세트들을 따라가는 모든 GOP의 3D 모델과 함께, 그것과 같은 가공되지 않은 모델 MBk가 관련하는 것이 선택되어 진다. 이 포인트들 중 일부가 다음 3D 모델에서 더 이상 보이지 않을 때에, 새로운 기준 모델 MBk +1로 통과하는 것이 선택되어 진다.
따라서, 개별적으로 얻어졌어나 동일한 기준 메쉬에 모두 근거를 두고 달리 말하면 공통적인 가공되지 않은 모델관 관련있는 것인 상이한 3D 모델들 Mk을 웨이블릿으로 분해하는 것이 가능하다.
상기 원 시퀀스의 화상들의 본질에 따라서, 그리고 가변적인 많은 수의 이 화상들 사이에 공통 영역의 존재에 따라, 상기 기준 메쉬 MBk는 GOP의 변수 또는 심지어, 그와 같은 경우가 있을 수 있는 것처럼, 화상들의 전 시퀀스에 대하여 유효할 수 있다.
이 기준 모델들 MBk를 통하여, 각 추정되는 3D 모델 Mk를 첫번째로는 그것에 일치하는 기준 메쉬에 의하여, 두번째로는 웨이블릿 계수의 세트에 의하여 표현할 수 있다.
이 표현은, 계수 t i k 가 하나의 3D 모델 Mk에서 다음으로의 경로의 변환에 관계하는 웨이블릿 계수를 표현하고, 계수 r i k 가 기준 모델 MBk와 관련된 3D 모델 Mk사이의 정밀화에 관계하는 웨이블릿 계수를 표현하는 도 6에 요약되어 있다.
따라서, 웨이블릿 계수 t 0 k ,k+1 내지 t n k ,k+ 1 는 모델 Mk에서 3D 모델 Mk +1까지 통과하는데 사용된다. 그 부분에서의 웨이블릿 계수 r 0 k 내지 r n k 는 3D 모델 Mk에서 관련된 기준 모델(이 경우, 상기 모델 MB1)까지의 경로를 도시한다.
따라서, 제1 세트 웨이블릿 계수 t i k 는 상이한 모델 Mk사이의 링크를 정의하고, 그 결과 대응점 사이에서의 선형 삽입에 의하거나 내재적으로 웨이블릿을 통하여, 하나에서 다른 하나까지의 경로를 가능하게 하며, 중간 모델의 생성을 가능하게 한다.
제2 세트 웨이블릿 r i k 는 상이한 모델의 점진적이고 효과적인(비트 레이트 측면에서) 전송을 가능하게 한다. 따라서, 본 발명의 기술은 비트 레이트가 어떤것인지 상관없이 모든 형식의 전송 네트워크에, 처리 용량이 어떤 것이든지 상관없이 모든 형태의 단말장치에 적용될 수 있다.
도 7에 도시된 바와 같이, 화상들의 원 시퀀스를 표현하기 위해 모델들과 관련된 텍스처를 인코딩하는 동안, 본 발명에 따라 구현된 상이한 단계를 보여준다.
알고리즘의 입력에서, 상술한 도 4에서 예시된 바와 같이, 장면 또는 현실의 피사체에서 얻어진 상이한 장면에 일치하는 원본 화상(natural image) In 내지 Im의 세트가 있다. 본 발명의 바람직한 실시형태에서, 상기 화상들은 ppm 형식과 pgm 형식에 있다. 본 발명은 물론 다른 화상 형식에 적용될 수 있다.
처음으로, 동작 추정(71)이, 3D 정보의 추정을 위한 모든 지원 포인트(support point), 즉 Harris와 Stephen 감지기로 가장 높은 점수를 가지며 규칙적으로 없어지는 화상 In 내지 In +p사이의 동작 추정에 사용되는 메쉬의 꼭지점 세트 ε n,n+p 와 더불어 화상 In 내지 In +p사이의 동작 필드 C n ,n+p 를 결정하기 위하여, 원 시 퀀스의 상이한 화상들 사이에 이루어진다.
다음으로, 원 시퀀스의 주요 화상들(key image) Kk로 구성되는 선택이 되는데, 이것은 상이한 GOP를 구분한다.
원 시퀀스가 비디오 시퀀스이면, GOP들을 구분하는 주요 화상 Kk의 상기 선택(72)은 Franck Galpin 등이 "3D 비디오 표현을 위한 신축 조정(Sliding Adjustment for 3D Video Representation)", EURASIP Journal on Applied Signal Processing 2002:10,에서(특히 기준선택 5.1 문단(paragraph 5.1 Slection Criteria)를 보시오) 개발한 알고리즘에 따라 이루어진다. 따라서, GOP를 개시하고 종료하는 이 선택(72)은 3가지 기준의 유효성에 의존한다.
- 3D 정보를 복원하는데 충분한 평균 동작;
- GOP의 가장 멀리 있는 2개의 화상 사이에서 공통 포인트(common point)의 비교적 높은 비율;
- 추정된 기하학적 배열의 유효성
이 부분의 처음으로 선택된 주요 화상은 원 화상의 첫번째 화상 I0이다.
또한, 3D 모델 Mk의 추출, 즉 기본 메트릭스의 추정과 투사 메트릭스와 카메라 위치의 추정은, "비디오 시퀀스의 3D 표현: 3D 모델의 스트림 자동추출과 응용 압축을 위한 그리고 가상 현실에 대한 설계(3D representation of video sequences: scheme for the automatic extraction of a stream of 3D models, application compression and to virtual reality)", Rennes 1 대학, 2002년,와 "3D 비디오 표현을 위한 신축 조정(Sliding Adjustment for 3D Video Representation)", EURASIP Journal on Applied Signal Processing 2002:10,에서 Franck Galpin에 의하여 개발된 기술을 사용한다. 상기 기술들은 3D 모델링의 고전적인 알고리즘이다.
비디오 시퀀스가 아닌 화상 세트의 경우에서는 원리는 3D 정보의 추출을 위한 것과 동일하다. 그러나, 이 추정의 기본은 Harris와 Stephen 감지기("조합된 코너와 모서리 감지기(A combined Corner and Edge Detector)", Proc. 4th Alvey Vision Conf., 1998, 에 기술된)에서 높은 값을 가지는, 다음 화상에서의 대응점이 블록 매칭에 의하여 구해진는 현 화상의 특정 포인트들 세트이다. 나아가, 전송되는 모델들의 수는 원 시퀀스의 복원을 위하여 고려되는 화상들의 선택(72)을 구현하는 것에 의하여 제한된다. 이 선택(72)은 비디오 시퀀스의 경우에 있어서 주요 화상의 선택과 같은 동일한 기준에 기초한다.
GOP k의 주요 화상 Kk의 선택 후에, 그 결과로 상기 GOP k와 관련되는 동작 필드 Ck는 GOP k의 시작 및 마지막 화상 사이의 동작 필드로서 결정된다.
또한, 교정(75)이 화상 시퀀스의 획득에 사용되는 카메라의 모든 내부 및 외부 파라미터, 특히 화상 Ik와 관련되는 카메라의 위치 Pk를 결정하기 위하여 실시된다.
먼저 위치 Pk와 함께, 다음으로는 알려지는 GOP k와 관련된 동작 필드 Ck와 함께, 추정(74)이 GOP k와 관련되는 깊이 지도(depth map) Zk로 이루어진다..
또한, GOP k와 관련되는 원 시퀀스의 모든 주요 화상 Kk가 저장된다(76).
도 7의 71 내지 76으로 참조되는 블록 동작의 더 특별한 모드는 상술한 Franck Galpin의 2개의 저술을 참조한다.
복원 관점에서, 2차원 불규칙한 메쉬(77)는 화상 Kk에 포함되는, 이전 GOP 와 관련되는 모델의 꼭지점의 대응점이 고려된다는 제한 하에서, 깊이 지도 Zk로 이루어 진다.
이 2차원 메쉬는 두 가지 방법으로 계산될 수 있다:
- 변 1을 가진 삼각형(즉, 화상의 모든 포인트)의 규칙적인 메쉬로부터 연속적인 단순화를 통하여;
- 이전에 감지된 관심 포인트의 들로네 메쉬(Delaunay Mesh)로부터.
상기 메쉬가 레벨 n에서 결정되었다면, 추정(78)이, 동작 필드 Cn에 의하여, GOP n의 마지막 화상(또한, 본 발명의 바람직한 일 실시형태에서 GOP n+1의 최초 화상)에서 포인트들의 대응점으로 구성된다. 또한, 일치하는 꼭지점 리스트는 저장되고(78) GOP n+1과 관련되는 모델을 메쉬하는(77) 동안에 사용된다.
단순화에 의하여 얻어진 2D 메쉬의 경우에는, 제한은 이 목록(78)의 포인트들이 마지막 메쉬에 존재한다는 것에 적용된다.
들로네 메쉬의 경우에는 들로네 삼각형 분할에 의해 얻어지는 GOP n+1과 관련된 메쉬의 꼭지점은:
- GOP n+1의 주요 화상 Kn +1 상에서, Harris 와 Stephen 알고리즘("조합된 코너와 모서리 감지기(A combined Corner and Edge Detector)", Proc. 4th Alvey Vision Conf., 1998)에 의하거나 관심 포인터의 적합한 감지기에 의하여 해 감지된 특정 포인트.
- GOP n과 관련된 메쉬의 꼭지점의 대응점
이다.
레벨 n에서 계산된 대응점의 리스트 C(En)은 GOP n+1의 주요 화상에서 Harris에 의해 감지된 꼭지점 중에 있지 않을 수 있는 GOP n의 모델의 꼭지점을 고려하는데 사용될 수 있다.
이것은 다음 모델에서 한 모델의 꼭지점의 대응점 존재를 보장하고, 따라서, 이 2개의 모델 사이에서의 연관을(79) 구비하는 것을 강화시킨다. 사실, 상기 모델들 사이의 대응점(79)은 동작 필드를 통해 정밀하게 얻어질 수 있다.
본 발명의 다른 일 실시형태에서, 여전히 더 정밀한 변환을(79) 얻기 위해서, 이 연구는 현재 모델의 메쉬를 위치시키는 것에 의하여 이전 모델의 꼭지점 뿐만 아니라 고려되는 다음 모델의 꼭지점이라는 제한 하에서 양방향으로 이루어졌다.
GOP를 표현하는 3D 모델의 기하학적 배열에 상응하는 3D 메쉬 Mk는 블록(80)에 도시된 바와 같이 추정된 2D 메쉬들의 높이(elevation)로부터 얻어진다.
두개의 연속적인 모델의 꼭지점 사이에 설정된 대응점(78)은 웨이블릿 계수 에 의하여, 모델 Mk에서부터 모델 Mk +1로 통과하는데 사용되는 변환(79)를 표현한다.
웨이블릿에 의한 이 변환을 표현하는 것의 실용성은 변환의 정밀도가 웨이블릿의 자연적인 계측을 통하여 비트 레이트에 적합할 수 있다는 사실에 있다.
분해에 사용되는 웨이블릿은 2세대 웨이블릿, 즉 벡터 공간 구조를 가지지 않는 세트 상에서 정의될 수 있다는 것이다. 이 경우에, 도 6의 표시와 함께, 웨이블릿은 기준 모델 MB0, MB1, 등으로 정의된다.
기준 모델 MBi의 또는 MBi와 3D 모델 Mi 사이의 기하학적인 대응점의 유효성과 같이, 웨이블릿 함수는 Mi의 반규칙 재메쉬(semi-regular re-meshing) 상의 해석 필터의 응용에 의하여 생성된다. 웨이블릿 계수들 d는 다음 선형시스템의 해이다.
Figure 112005072786346-PCT00001
여기서 T는 총 합성 메트릭스이며, c는 Mi의 반규칙 재메쉬 상의 꼭지점들의 위치 세트이다.
T는 사용된 웨이블릿의 형식에 종속한다. 세가지 설계가 본 발명에 따른 바람직한 실시형태이다: 구분적인 아핀 웨이블릿들, 다항식의 웨이블릿들(특히 루프 웨이블릿), 및 나비 분할 설계(Butterfly Subdivision Scheme)에 기초한 웨이블릿들(J. Warren 등, "임의의 위상 형식의 표면들을 위한 다중해상도 해석(Mutiresolution Analysis for Surfaces of Arbitarary Topological Type)", ACM Transactions on Graphics, vol. 16, pp. 34--73,1997)
따라서, 행렬 T는 다음과 같이 구성된다.
Figure 112005072786346-PCT00002
여기서, P는 오로지 분할 설계(division scheme)(아핀, 루프, 나비,...)을 표현하기 위한 부행렬이며, 부행렬 Q는 웨이블릿 계수의 기하학적 해석이다.
본 발명의 바람직한 일 실시형태에서, Q는 상기 웨이블릿 계수가 0 모멘트를 가지도록 선택된다. 일반적으로 P와 Q는 T가 전환될 수 있는 것이므로 임의적일 수 있다.
도 7은 GOP k를 위하여 설명하기 위한 해결방법을 요약한 것이다. 화상에서 다음의 표시가 사용되었다.
- In...Im은 입력 화상이다;
- Cn ,n+p는 화상 In과 In +p 사이의 동작 필드이다;
- Ck는 GOP k와 관련되는 동작 필드이다;
- C(V)는 동작 필드에 의해 발견되는 세트 V의 포인트들의 대응점 세트이다;
- εm은 3D 정보를 추정하는 지지 포인트 세트이다(Harris와 Stephen 감지기로 최고 점수가 나오며 규칙적으로 없어지는 동작 추정에 사용되는 메쉬의 꼭지점);
- Ek는 GOP k와 관련되는 3D 모델의 꼭지점들 세트;
- Zk는 GOP k와 관련되는 깊이 지도;
- Kk는 GOP k와 관련되는 주요 화상에 따른 원 시퀀스의 화상;
- Mk는 GOP k와 관련되는 3D 모델;
- Pm은 화상 Im과 관련되는 카메라의 위치;
- θk는 Mk와 Mk +1 사이의 경로의 변환을 정의하는 웨이블릿 계수의 세트;
- Vk는 모델 Mk에 대응하는 메쉬의 꼭지점 세트;
인코더(81)은, 원 시퀀스의 상이한 화상 Ik, 텍스처된 3D 모델의 추정 Mk, 및 모델 Mk -1을 모델 Mk로 변환하게 하는 웨이블릿 계수를 위하여 카메라의 위치 Pk에서의 입력을 받는다.
각 GOP k의 3D 모델 Mk의 추정과 동시에, 도 7에 도시된 바와 같이, 몇몇의 연속적인 GOP에 유효한 기준 모델 MBi가 구축된다.
이 목적을 위하여, 계산된 동작 필드 Ck를 통하여, GOP k의 최초 화상에서 감지된 특정 포인트의 세트는 시퀀스의 몇몇 화상이 함께 따라온다. 더 상세하게는, 몇몇의 연속적인 GOP와 함께 이 포인트들의 대응점의 존재는 해석된 화상에 포함되는다수의 대응점이 기설정된 경계치 아래에 있을 때까지 감지된다. 이 경계치는 복원의 가능성을 보장하기 위하여 선택되어야 한다(즉, 기본 행렬의 추정); 이것은 7과 동등한 실시예를 위해 선택된다. GOP에서 감지된 다수의 특정 포인트가 경계치 아래에 있을 때, 이 GOP는 다음에 오는 GOP들과 같은 기준 모델 MBi과 관련 되어서는 안된다는 것이 그것으로부터 유도된다.
이 기준 모델들은 또는 가공되지 않은 모델 MBi는 그다음 개별적으로 웨이블릿으로 분해된다. 이것은 동일한 기준 메쉬에 의존하는, P. Gioia에 의하여 "기하학적 구분에 의한 웨이블릿 계수의 개수 감소(Reducing the number of wavelet coefficients by geometric partitioning)", Computational geometry, Theory and applications, vol. 14, 1999,에 기술된 방법에 의하여 구현되는 것에 의하여 성취된다. 각 3D 모델 Mk는 가공되지 않은 기준 모델 MBi의 정밀화에 고려된다.
따라서, 도 6의 계수 ti k는 다음과 같이 얻어진다: 동일한 GOP에서의 기준 메쉬는 동일하고, 분할 뒤에 그것들은 동일한 반규칙적인 메쉬를 생성한다. 결과적으로 계수 ri k는 같은 GOP에서 k 값이 달라질 때 동일한 기하학적 꼭지점에 의하여 색인이 붙는다. 중간의 k 각각에 대하여, 이들 꼭지점 각각에 일치하는 계수 ri k 와 ri k +1 사이의 차이점을 만드는 함수 fk를 정의하는 것이 가능하다. 그런 다음, 이 함수 fk는 계수 ti k인 웨이블릿 계수로, 이전과 같이, 분해된다.
따라서, 본 발명은, 한편으로는 기본 메쉬가, 다른 한편으로는 상이한 모델에 관계되는 웨이블릿 계수가 전송되기 때문에, 낮은 비용으로 원 시퀀스와 관련되는 모델의 기하학적 배열을 전송할 수 있게 한다.
본 발명의 체계 내의 가능한 응용은 많다. 또한, 본 발명은 동일한 고정 장면(독립적인 화상의 세트나 비디오 시퀀스일 수도 있는)을 표현하는 화상을 인코딩하는데 특히 응용될 수 있다. 이와 같은 형식의 표현에 의하여 얻어지는 압축비율은 낮거나 또는 아주 낮은 비트 레이트에서 위치하고 있고(전형적으로 20kbit/s의 범위), 따라서, 휴대용 응용기기를 고려하는 것이 가능해진다.
나아가, 투사(디코딩)에 의하여 얻어지는 가상 시퀀스는, 조명의 변화, 시퀀스의 안정화, 자유로운 탐색, 피사체 추가 등과 같은, 3D에 의해 허용되는 모든 기능들을 가진다.

Claims (20)

  1. GOP로 불리는, 적어도 두 개의 연속적인 화상의 세트로 그룹화된 화상 시퀀스를 표현하는 방법에 있어서,
    텍스처되고(textured) 메쉬화된(meshed) 3차원 모델이 상기 각 GOP와 관련되고, 레벨 n의 GOP와 관련되는 상기 3차원 모델은 레벨 n-1의 GOP와 관련되는 3차원 모델을 표현하는 적어도 불규칙한 메쉬(irregular mesh)의 적어도 하나의 꼭지점을 고려하는 불규칙한 메쉬에 의하여 표현되고, 상기 꼭지점은 공통 꼭지점이라고 불리는 것을 특징으로 하는 화상 시퀀스 표현 방법.
  2. 제1항에 있어서,
    적어도 2개의 연속적인 3차원 모델은 또한, 상기 2개의 연속적인 3차원 모델과 관련되고, 상기 2개의 연속적인 3차원 모델의 공통적인 상기 꼭지점으로 부터 구축되는 기준 모델(basic model)을 가지는 것을 특징으로 하는 화상 시퀀스 표현 방법.
  3. 제1항 및 제2항 중 어느 하나에 있어서,
    상기 3차원 모델들 중의 하나로부터 다른 하나로의 경로는 제1 웨이블릿 계 수(wavelet coefficients) 세트를 사용하는 웨이블릿 변환(wavelet transformation)에 의하여 이루어지는 것을 특징으로 하는 화상 시퀀스 표현 방법.
  4. 제1항 내지 제3항 중 어느 하나에 있어서,
    상기 3차원 모델들 중 하나는 제2 웨이블릿 계수 세트를 사용하는 웨이블릿 변환에 의하여 상기 관련되는 기준 모델로부터 얻어지는 것을 특징으로 하는 화상 시퀀스 표현 방법.
  5. 제1항 내지 제4항에 있어서,
    상기 레벨 n의 불규칙한 메쉬는 상기 레벨 n의 GOP의 화상들 중 하나의 2차원의 불규칙한 메쉬인 것을 특징으로 하는 화상 시퀀스 표현 방법.
  6. 제5항에 있어서,
    상기 메쉬화된 화상은 상기 레벨 n의 GOP의 첫번째 화상인 것을 특징으로 하는 화상 시퀀스 표현 방법.
  7. 제1항 내지 제6항 중 어느 하나에 있어서,
    상기 3차원 모델들 각각은 그것을 표현하는 상기 불규칙한 메쉬의 높이(elevation)에 의하여 얻어지는 것을 특징으로 하는 화상 시퀀스 표현 방법.
  8. 제5항 내지 제7항 중 어느 하나에 있어서,
    상기 불규칙한 2차원 메쉬는 상기 화상의 규칙적인 삼각형의 메쉬의 연속적인 간소화에 의하여 얻어지는 것을 특징으로 하는 화상 시퀀스 표현 방법.
  9. 제5항 내지 제7항 중 어느 하나에 있어서,
    상기 불규칙한 2차원 메쉬는 상기 화상의 기설정된 관심 포인트들(points of interest)의 들로네(Delaunay) 메쉬로부터 얻어지는 것을 특징으로 하는 화상 시퀀스 표현 방법.
  10. 제1항 내지 제9항 중 어느 하나에 있어서,
    두 개의 연속적인 GOP는 적어도 하나의 공통적인 화상을 가지는 것을 특징으로 하는 화상 시퀀스 표현 방법.
  11. 제1항 내지 제10항 중 어느 하나에 있어서,
    상기 레벨 n-1 및 n의 공통적인 상기 꼭지점들은 레벨 n-1의 상기 GOP의 첫번째 화상과 레벨 n의 상기 GOP의 첫번째 화상 사이의 동작을 추정하는 것에 의하여 감지되는 것을 특징으로 하는 화상 시퀀스 표현 방법.
  12. 제11항 에 있어서,
    상기 감지된 꼭지점들을 저장하는 단계를 포함하는 것을 특징으로 하는 화상 시퀀스 표현 방법.
  13. 제1항 내지 제12항 중 어느 하나에 있어서,
    레벨 n의 GOP와 관련되는 상기 모델을 표현하는 상기 불규칙한 메쉬는 또한 레벨 n+1의 GOP와 관련되는 모델을 표현하는 적어도 불규칙한 메쉬의 적어도 하나의 꼭지점을 고려하는 것을 특징으로 하는 화상 시퀀스 표현 방법.
  14. 제4항 내지 제13항 중 어느 하나에 있어서,
    상기 제2 웨이블릿 계수 세트는 상기 관련되는 차원 모델의 반규칙적인 재메 쉬화(semi-regular re-meshing)에 대한 적어도 하나의 해석 필터의 응용에 의하여 생성되는 것을 특징으로 하는 화상 시퀀스 표현 방법.
  15. 제3항 내지 제14항 중 어느 하나에 있어서,
    상기 웨이블릿들은 2세대 웨이블릿인 것을 특징으로 하는 화상 시퀀스 표현 방법.
  16. 제3항 내지 제15항 중 어느 하나에 있어서,
    상기 웨이블릿들은
    - 구분적인 아핀 웨이블릿들(piecewise affine wavelets);
    - 다항식의 웨이블릿들(polynominal wavelets);
    - 나비 분할 설계(Butterfly Subdivision Scheme)에 기초한 웨이블릿들
    을 포함하는 그룹에 속하는 것을 특징으로 하는 화상 시퀀스 표현 방법.
  17. GOP로 불리는, 적어도 두 개의 연속적인 화상의 세트로 그룹화된 화상 시퀀스를 표현하는 신호에 있어서,
    텍스처되고 메쉬화된 3차원 모델이 상기 각 GOP와 관련되고,
    - 각각 3차원 모델을 표현하며, 상기 적어도 2개의 3차원 모델이 적어도 2개의 연속적인 GOP들과 관련되는, 적어도 2개의 불규칙한 메쉬의 공통적인 꼭지점들로부터 구축되는 기준모델을 포함하는 적어도 하나의 필드(field);
    - 상기 기준 모델로부터 웨이블릿 변환에 의해, 상기 GOP 중의 하나와 관련되는 적어도 하나의 3차원 모델의 구축에 사용되는 웨이블릿 계수 세트를 포함하는 적어도 하나의 필드;
    - 상기 3차원 모델 중의 하나와 관련되는 적어도 하나의 텍스처를 포함하는 적어도 하나의 필드; 및
    - 적어도 하나의 카메라 위치 파라미터를 포함하는 적어도 하나의 필드
    를 포함하는 것을 특징으로 하는 화상 시퀀스 신호.
  18. 제1항 내지 제16항 중 어느 하나의 표현 방법을 구현하는 화상 시퀀스 표현 장치.
  19. GOP로 불리는, 적어도 두 개의 연속적인 화상의 세트로 그룹화된 화상 시퀀스를 표현하는 장치에 있어서,
    텍스처되고 메쉬화된 3차원 모델이 상기 각 GOP와 관련되고,
    - 2개의 연속적인 3차원 모델을 표현하는 적어도 2개의 불규칙한 메쉬에 공 통되는 꼭지점들로부터 준비되고, 적어도 하나의 기준 모델의 웨이블릿 변환에 의한 상기 3차원 모델을 구축하는 수단;
    - 상기 3차원 모델로부터, 적어도 하나의 텍스처에 대한 화상으로부터, 그리고 적어도 하나의 카메라 위치 파라미터로부터 시퀀스의 상기 화상을 표현하는 수단
    을 포함하는 것을 특징으로 하는 화상 시퀀스 표현 장치.
  20. GOP로 불리는, 적어도 두 개의 연속적인 화상의 세트로 그룹화된 화상 시퀀스를 표현하는 장치에 있어서,
    텍스처되고 메쉬화된 3차원 모델이 상기 각 GOP와 관련되고, 레벨 n-1의 GOP와 관련되는 3차원 모델을 표현하는 적어도 하나의 불규칙한 메쉬의 적어도 하나의 꼭지점을 고려하는 불규칙한 메쉬에 의하여 표현되고, 레벨 n의 GOP와 관련되는 3차원 모델을 인코딩하는 수단을 포함하는 것을 특징으로 하는 화상 시퀀스 표현 장치.
KR1020057023960A 2003-06-18 2004-06-18 3차원 모델을 사용하는 화상 시퀀스를 표현하는 방법 및 그장치와 신호 KR20060015755A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR03/07375 2003-06-18
FR0307375A FR2856548A1 (fr) 2003-06-18 2003-06-18 Procede de representation d'une sequence d'images par modeles 3d, signal et dispositifs correspondants

Publications (1)

Publication Number Publication Date
KR20060015755A true KR20060015755A (ko) 2006-02-20

Family

ID=33484549

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057023960A KR20060015755A (ko) 2003-06-18 2004-06-18 3차원 모델을 사용하는 화상 시퀀스를 표현하는 방법 및 그장치와 신호

Country Status (8)

Country Link
EP (1) EP1654882A2 (ko)
JP (1) JP2006527945A (ko)
KR (1) KR20060015755A (ko)
CN (1) CN1806443A (ko)
BR (1) BRPI0411506A (ko)
CA (1) CA2528709A1 (ko)
FR (1) FR2856548A1 (ko)
WO (1) WO2004114669A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210042861A (ko) * 2020-06-30 2021-04-20 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이미지를 처리하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008110719A1 (fr) 2007-02-01 2008-09-18 France Telecom Procede de codage de donnees representatives d'une texture multidimensionnelle, dispositif de codage, procede et dispositif de decodage, signal et programme correspondants
ATE554601T1 (de) * 2007-04-18 2012-05-15 Univ Hannover Skalierbare komprimierung zeitkonsistenter 3d- netzwerksequenzen
CN104243958B (zh) * 2014-09-29 2016-10-05 联想(北京)有限公司 三维网格数据的编码、解码方法以及编码、解码装置
US11122281B2 (en) * 2016-09-21 2021-09-14 Kakadu R&D Pty Ltd. Base anchored models and inference for the compression and upsampling of video and multiview imagery
GB2563895B (en) * 2017-06-29 2019-09-18 Sony Interactive Entertainment Inc Video generation method and apparatus
WO2021100681A1 (ja) * 2019-11-20 2021-05-27 パナソニックIpマネジメント株式会社 三次元モデル生成方法及び三次元モデル生成装置
JP2024008743A (ja) * 2022-07-09 2024-01-19 Kddi株式会社 メッシュ復号装置、メッシュ符号化装置、メッシュ復号方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210042861A (ko) * 2020-06-30 2021-04-20 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이미지를 처리하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램
US11557047B2 (en) 2020-06-30 2023-01-17 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for image processing and computer storage medium

Also Published As

Publication number Publication date
FR2856548A1 (fr) 2004-12-24
WO2004114669A2 (fr) 2004-12-29
EP1654882A2 (fr) 2006-05-10
BRPI0411506A (pt) 2006-07-25
WO2004114669A3 (fr) 2005-03-10
CN1806443A (zh) 2006-07-19
JP2006527945A (ja) 2006-12-07
CA2528709A1 (en) 2004-12-29

Similar Documents

Publication Publication Date Title
Levoy et al. Light field rendering
Würmlin et al. 3D video fragments: Dynamic point samples for real-time free-viewpoint video
Briceño Pulido Geometry videos: a new representation for 3D animations
Lee et al. GROOT: a real-time streaming system of high-fidelity volumetric videos
Zhang et al. A survey on image-based rendering—representation, sampling and compression
Magnor et al. Multi-view coding for image-based rendering using 3-D scene geometry
Tang et al. Deep implicit volume compression
Pavez et al. Dynamic polygon clouds: representation and compression for VR/AR
EP1349116A1 (en) Process for modelling a 3d scene
WO2005053321A1 (en) System for encoding plurality of videos acquired of moving object in scene by plurality of fixed cameras
Pavez et al. Dynamic polygon cloud compression
Aliaga et al. Sea of images
Chou et al. Dynamic polygon clouds: Representation and compression for VR/AR
KR20060015755A (ko) 3차원 모델을 사용하는 화상 시퀀스를 표현하는 방법 및 그장치와 신호
Malassiotis et al. Object-based coding of stereo image sequences using three-dimensional models
Park et al. A mesh-based disparity representation method for view interpolation and stereo image compression
Park et al. Multiscale representation and compression of 3-D point data
US20070064099A1 (en) Method of representing a sequence of pictures using 3d models, and corresponding devices and signals
Perry et al. Study of subjective and objective quality evaluation of 3D point cloud data by the JPEG committee
Tong et al. Interactive rendering from compressed light fields
Waschbüsch et al. 3d video billboard clouds
Balter et al. Scalable and efficient video coding using 3-d modeling
Chai et al. A depth map representation for real-time transmission and view-based rendering of a dynamic 3D scene
Magnor et al. Multiview image coding with depth maps and 3D geometry for prediction
Bannò et al. Real-time compression of depth streams through meshification and valence-based encoding

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid