KR20190094166A - 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법 및 장치, 그리고 모바일 디바이스 - Google Patents

실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법 및 장치, 그리고 모바일 디바이스 Download PDF

Info

Publication number
KR20190094166A
KR20190094166A KR1020197016326A KR20197016326A KR20190094166A KR 20190094166 A KR20190094166 A KR 20190094166A KR 1020197016326 A KR1020197016326 A KR 1020197016326A KR 20197016326 A KR20197016326 A KR 20197016326A KR 20190094166 A KR20190094166 A KR 20190094166A
Authority
KR
South Korea
Prior art keywords
data
audio data
image
marker
positioning
Prior art date
Application number
KR1020197016326A
Other languages
English (en)
Other versions
KR102210541B1 (ko
Inventor
다니엘 안데르손
볼커 바우어
Original Assignee
쓰리디큐알 게엠베하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 쓰리디큐알 게엠베하 filed Critical 쓰리디큐알 게엠베하
Publication of KR20190094166A publication Critical patent/KR20190094166A/ko
Application granted granted Critical
Publication of KR102210541B1 publication Critical patent/KR102210541B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2200/00Indexing scheme relating to G06F1/04 - G06F1/32
    • G06F2200/16Indexing scheme relating to G06F1/16 - G06F1/18
    • G06F2200/163Indexing scheme relating to constructional details of the computer
    • G06F2200/1637Sensing arrangement for detection of housing movement or orientation, e.g. for controlling scrolling or cursor movement on the display of an handheld computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/35Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
    • H04M2203/359Augmented reality

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Architecture (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

실제 장면의 광학 및 음향 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법은, 모바일 디바이스(100)의 적어도 하나의 환경 센서(102)에 의해 캡처된 실제 장면(106)의 광학 및/또는 음향 재현(108)을 나타내는 이미지 데이터를 판독하는 단계와, 상기 이미지 데이터로부터 마커 데이터(132)를 결정하는 단계로서, 상기 마커 데이터(132)는 상기 실제 장면(106)에 배치되는 마커(112)의 포지셔닝 및 재현(116)을 나타내는, 상기 결정하는 단계와, 가상 이미지 및 오디오 데이터(140)를 판독하는 단계로서, 상기 가상 이미지 및 오디오 데이터(140)는 상기 마커 데이터(132)를 사용하여 복수의 가상 이미지 및 오디오 데이터로부터 선택된 이미지 및 오디오 데이터를 나타내고, 상기 가상 이미지 및 오디오 데이터(140)는 상기 가상 이미지(124)를 표현하기 위한 표현 명령, 상기 가상 이미지(124)를 포지셔닝하기 위한 포지셔닝 명령 및 음향 데이터의 재생을 위한 포지셔닝 명령을 포함하는, 상기 판독하는 단계와, 상기 이미지 및 오디오 데이터로부터 객체 데이터(134)를 결정하는 단계로서, 상기 객체 데이터(134)는 상기 실제 장면(106) 내의 상기 마커(112)의 환경에 배치되는 객체(110)의 객체 부분(114)의 포지셔닝 및 재현(118)을 나타내는, 상기 결정하는 단계와, 상기 객체 데이터(134)와 상기 가상 이미지 및 오디오 데이터(140)를 이용하여 상기 객체 부분(114)의 상기 재현(118)을 참조하여 상기 가상 이미지(124)를 포지셔닝하기 위한 포지셔닝 규칙(142)을 확정하는 단계를 포함한다.

Description

실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법 및 장치, 그리고 모바일 디바이스
본 발명은 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법 및 장치 그리고 스마트 폰과 같은 모바일 디바이스에 관한 것이며, 상기 방법은 예를 들어 모바일 디바이스를 사용하여 실행될 수 있다.
증강 현실(Augmented Reality, AR)의 기본 개념은 수십년 동안 존재해왔으며, 이것은 현실의 실시간 재현들(예를 들어, 카메라 재현)에 대한 가상 정보의 오버레이를 지정하는 것이다.
본 발명의 목적은, 종래 기술과 관련하여, 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 개선된 방법 및 개선된 장치, 그리고 개선된 모바일 디바이스를 제공하는 것이다.
이 목적은 주요 청구항들에 따른 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법 및 장치, 그리고 모바일 디바이스에 의해 달성된다. 본 발명의 바람직한 변형예들 및 실시예들은 후속하는 종속항들로부터 명백해진다.
본 명세서에서 설명되는 접근 방식은 광학적으로 및 음향적으로 일치하는 방식으로 오버레이되는 증강 현실 분야에 관한 것이며, 여기서 가상 객체들 및 오디오 데이터는 포지션 및 배향의 관점에서 실제 장면 내의 선택된 앵커 포인트(anchor point)들과 링크되어 항상 실제 환경의 일부인 것처럼 정확한 원근감으로 3 차원 장면 내에 중첩된다. 일 실시예에 따르면, 카메라 스트림의 모든 단일 재현이 이미지 및/또는 오디오 처리 방법들을 사용하여 분석될 수 있으며, 이 효과를 달성하기 위해 대응적으로 필요한 가상 객체의 3 차원 포지션 및 배향이 계산될 수 있다. 바람직하게는, 본 명세서에서 설명되는 접근 방식은 관찰자의 이동 중에 안정된 장면의 트랙킹을 허용한다.
이하에서 가상 이미지 및 오디오 객체 또는 가상 이미지 및 오디오 데이터로도 지칭되는, 실제 장면을 오버레이하는 가상 객체의 선택은 실제 장면에 존재하는 마커, 예를 들어 QR 코드를 사용하여 유리하게 수행될 수 있다. 객체는 데이터베이스에 3 차원 스토리지로서 저장될 수 있다. 추가적으로 또는 대안적으로, 객체는 다양한 각도(360°)에서 촬영되어 데이터베이스에 저장되는 일련의 캡처들, 예를 들어 사진 및/또는 음향 레코딩으로 구성될 수 있다. 3 차원 데이터 스토리지는 객체의 포인트들 또는 단일 포인트를 정의하는 좌표계의 좌표와 객체의 다른 모든 포인트들을 결정하기 위한 벡터들을 포함할 수 있다. 캡처들의 시퀀스는 2 차원 캡처들의 시퀀스일 수 있다. 각각의 캡처들은 객체를 이미지화할 수 있다. 실제 장면의 재현 내에서 가상 이미지 및 오디오 데이터의 포지셔닝은 적어도 하나의 객체 부분, 예를 들어 실제 장면에서 마커의 주변에 배치되는 객체의 에지 또는 면을 사용하여 유리하게 수행될 수 있다. 이러한 객체 부분의 재현은 가상 객체에 대한 새로운 및/또는 추가의 앵커 포인트로서 사용될 수 있다. 마커는 실제 장면을 재현한 것의 1% 미만, 예를 들어 0.6%만 또는 심지어 0.1%만 또는 심지어 0.01%를 차지할 수 있다.
마커를 사용함으로써, 많은 노력을 들이지 않고서도 실제 장면에 적합한 가상 이미지 및 오디오 데이터가 선택되는 것을 보장할 수 있다. 객체 부분을 사용함으로써, 열악한 조건, 예를 들어 나쁜 조명 조건에서도 가상 이미지 및 오디오 데이터가 매우 정확하게 포지셔닝되는 것을 보장할 수 있다. 마커가 실제 장면의 후속 재현에서 더 이상 나타나지 않거나 또는 부분적으로만 나타나더라도 이러한 포지셔닝이 가능하다.
물체의 광학 이미지는 먼저 물체에 충돌하고 나서 그로부터 반사되어 관찰자의 눈에 도달하는, 400-800 nm의 전형적인 파장을 갖는 광학 가시 파들의 눈에 의해 감지되는 반사이다. 광원들의 경우, 객체 자체가 주어진 지점들에서 가시 광선을 방출한다. 유사하게, 객체 또는 환경의 음향 "이미지"는 예를 들어 물체 또는 환경에 의해 반사될 수 있는 20-20000 Hz의 전형적인 주파수의 가청 파들의 대응하는 반사에 의해 생성될 수 있으며, 관측자에 의해서 공간 "이미지"로 해석될 수 있다. 광원과 마찬가지로, 객체 자체가 상이한 지점들에서 음원을 방출하여 공간적인 느낌을 유발할 수도 있다(예를 들면, 오케스트라). 유사한 방식으로, 시각 장애인들은 클릭 소리와 환경 반사를 통해 "공간 이미지(spatial image)"를 만들고 재현할 수 있다. 모든 에코 음향 장치는 동일한 방식으로 작동하고; 입사되는 음파 중에서 전자적으로 공간 이미지/객체 이미지가 생성되어 스크린에 표시되며; 동일한 방식으로 관찰자의 헤드에 이에 대응하는 환경 음향 재현을 생성하는 것이 가능하다.
본 명세서에서 설명되는 접근 방식은 관찰자가 움직이는 동안 카메라에 의해 캡처되어 스크린에 표시되는 환경의 재현에서 가상 이미지 오디오 데이터를 마커(예를 들어, QR 코드 및 이미지 마커들)에 대하여 정확한 크기 정도와 정확한 포지션으로 및 정확한 각도 배향으로 나타내는 것으로 이루어진다. 이렇게 되면 사람이 이러한 "전체 이미지"를 보고나서 겉으로 보기에 실제, 단일의 카메라 캡처 이미지의 느낌을 받게 된다. 동시에, 가상 이미지 및/또는 오디오 객체는 이것이 실제로 발생하는 바로 그 지점들에서 관찰자/청취자의 모든 방향으로부터 및 모든 시간들에서의 볼륨 또는 음질로 사운드를 방사하는 것으로 생각이 들게 한다. 물론, 방사되는 음파는 방사 객체의 거리 및 각도, 또는 방사 객체의 움직임으로 인한 대응하는 왜곡(도플러 효과)에 따라 그들의 주파수 및/또는 볼륨으로 정확하게 표현된다. 객체를 "워킹 어라운드(walking around)"할 경우, 개별 음원들이 이에 따라 "사라지는" 한편, 다른 음원들이 "출현"하게 된다. 이것이 바로 본 명세서에서 설명되는 접근 방식에 의해 스크린 및/또는 헤드폰에서 제어되는 표현 프로세스이다.
마커 데이터 및 재현과 관련된 그들의 포지셔닝을 통해 이미지 및 오디오 데이터를 결정하기 위해, 마커를 결정하고 이미지 데이터 내에 그것을 포지셔닝하는데 적합한 공지의 방법들이 사용될 수 있으며, 대응하는 하위 단계들을 달성하는 다수의 방법이 알려져있다.
실제 장면의 재현에 가상의 3 차원 또는 2 차원 이미지 및 오디오 데이터를 오버레이하는 방법은 다음 단계들을 포함한다:
모바일 디바이스의 적어도 하나의 환경 센서에 의해 캡처된 실제 장면의 이미지 재현을 나타내는 재현 데이터를 판독하는 단계;
이미지 데이터 및 오디오 데이터로부터 마커 데이터를 결정하는 단계로서, 마커 데이터는 실제 장면에 배치되는 마커의 포지셔닝 및 재현을 나타내는, 상기 결정하는 단계;
마커 데이터에 의하여 선택되는 가상 이미지 및 오디오 데이터를 판독하는 단계로서, 복수의 가상 3 차원 및/또는 2 차원 이미지 및 오디오 데이터로 이루어지는 상기 판독 데이터는, 가상 이미지를 표현하기 위한 표현 명령, 가상 이미지를 포지셔닝하기 위한 포지셔닝 명령, 음향 데이터를 표현하기 위한 포지셔닝 명령 및/또는 오디오 데이터를 재생하기 위한 트리거를 포함하는, 상기 판독하는 단계;
재현 데이터로부터 객체 데이터를 결정하는 단계로서, 상기 객체 데이터는 다양한 각도로부터의 광학 및/또는 음향 3 차원 재현 또는 일련의 2 차원 사진들 및/또는 사운드 레코딩들과, 실제 장면 내의 마커의 환경에 배치되는 객체의 객체 부분의 포지셔닝으로 구성되는, 상기 결정하는 단계;
마커 데이터, 객체 데이터 및 가상 이미지 및 오디오 데이터를 이용하여 객체 부분의 재현을 참조하여 가상 이미지 및 이러한 가상 이미지와 관련된 음향 데이터 또는 추가의 가상 오디오 데이터를 포지셔닝하기 위한 포지셔닝 규칙(positioning rule)을 확정하는 단계.
실제 장면은 예를 들어 하나 이상의 환경 센서들의 감지 범위 내에 있는 모바일 디바이스의 환경 영역일 수 있다. 환경 센서는 광학 이미지 센서일 수 있으며, 선택적 추가 환경 센서는 예를 들면 하나 이상의 카메라 또는 마이크로폰과 같은 음향 사운드 센서일 수 있다. 가상 재현은 가상 이미지라고 지칭될 수도 있다. 가상 재현은 가상 이미지 및 오디오 데이터를 포함할 수 있다. 가상 이미지 및 오디오 데이터는 3 차원적으로 정의된 객체의 이미지 및/또는 사운드 표현을 위한 그리고/또는 예를 들어 객체의 2 차원 사진 또는 사운드 캡처의 형태로, 다양한 각도에서 캡처되는 이미지 및/또는 음향 캡처들로부터의 선택을 표현하기 위한 표현 명령을 포함할 수 있다. 표현 명령은 실제 장면의 광학 및 음향 재현에 가상의 3 차원 또는 2 차원 이미지 및 오디오 데이터를 오버레이하기 위해 사용될 수 있다. 결정 단계에서 객체 데이터가 결정되는 재현은 환경 센서를 사용하여 캡처된 실제 장면의 이미지 및 선택적으로는 오디오 데이터를 나타낼 수 있으며, 이 데이터는 모바일 디바이스의 디스플레이 디바이스 및 출력 디바이스를 사용하여 디스플레이되거나 출력될 수 있다. 가상 이미지 및 오디오 데이터는 실제 장면의 재현에 삽입될 수 있는 예를 들어 그래픽, 심볼 또는 기록, 대화, 음악 또는 그 밖의 사운드와 같은 임의의 광학 및 음향 표현을 나타낼 수 있다. 가상 이미지 및 오디오 데이터는 3 차원 또는 2 차원 이미지 및 이와 관련된 오디오 데이터 또는 도트 또는 단일 사운드 소스를 나타낼 수 있다. 가상 이미지 및 오디오 데이터는 선택된 데이터일 수 있다. 실제 장면의 광학 및 음향 재현에 대한 가상 이미지 및 오디오 데이터의 오버레이는 실제 장면의 광학 및 음향 재현을 포함할 수 있으며, 여기서 적어도 일부는 가상 이미지 및 오디오 데이터에 의해서 완전히 마스킹되거나 또는 예를 들어 세미트랜스페어런트 방식으로 마스킹된다. 일 실시예에 따르면, 가상 오디오 데이터는 적절한 인터페이스를 통해 스테레오 라우드스피커에 제공될 수 있는 스테레오 오디오 데이터를 포함하며, 예를 들어 스테레오 라우드스피커에 의해 출력될 수 있다. 스테레오 오디오 데이터는 청취자에게 가상 오디오 데이터와 관련된 가상 음원이 위치해 있는 것처럼 보이는 방향을 전달하는 이점을 제공한다. 가상 오디오 데이터는 오버레이에 사용될 수 있는 음향 데이터를 포함할 수 있다. 마커는 인위적으로 장면에 배치된 마커일 수 있다(예를 들면, 그림 문자 코드 형태의 기하학적 마커). 마커는 1 차원 또는 2 차원 코드 형태의 인공 마커로서 구현될 수 있다. 예를 들어, 마커는 밝은 영역과 어두운 영역이 있는 매트릭스로 구현될 수 있다. 마커는 광전자 판독이 가능한 기록을 나타낼 수 있다. 심볼 형태의 데이터가 마커에서 이미징될 수도 있다. 마커 데이터는 마커의 재현 및 실제 장면의 재현과 함께 마커 재현의 포시셔닝에 관한 정보를 포함할 수 있다. 본 방법의 추가 단계들에서, 마커 데이터는 완전히 또는 부분적으로 그리고 필요한 경우 추가 처리되는 형태로 사용될 수 있다. 가상 이미지 및 오디오 데이터를 포지셔닝하기 위한 포지셔닝 명령은 실제 장면의 재현에서 마커의 재현에 대한 가상 이미지 및 오디오 데이터의 포지셔닝에 적합한 것일 수 있다. 객체 부분은 예를 들어, 에지 또는 면과 같은 일부, 부분 또는 영역일 수 있으며, 또는 실제 객체의 음향적으로 정의된 영역일 수도 있다. 객체는 건물, 가구, 차량, 악기 또는 종이와 같은 임의의 물건일 수 있다. 객체 부분은 예를 들어, 이러한 물건의 서로에 대해 경사진 면들 사이의 외측 에지 또는 에지일 수 있다. 객체 데이터는 객체 부분의 광학 및 음향 재현에 관한 정보 및 실제 장면의 재현 내에서의 이 재현에 대한 포지셔닝을 포함할 수 있다. 본 방법의 다른 단계들에서, 객체 데이터는 완전히 또는 부분적으로 및 필요할 경우 추가 처리되는 형태로 사용될 수 있다. 포지셔닝 규칙은 실제 장면의 대응하는 재현 또는 실제 장면의 추가 재현과 같이 객체 부분의 광학 및 음향 재현과 관련하여 가상 이미지 및 오디오 데이터를 포지셔닝하는데 적합한 것일 수 있다. 포지셔닝 규칙은 마커의 재현의 포지셔닝, 객체 부분의 광학적 재현 및 추가적으로 또는 대안적적으로는 음향 재현 그리고 포지셔닝 명령을 사용하여 확정될 수 있다.
상기 객체 부분 또는 객체 부분의 재현은 소위 앵커 포인트(anchor point)로서 간주될 수 있다. 이러한 앵커 포인트는 가상 이미지 및 음향 데이터를 포지셔닝하기 위한 마커에 부가하여 또는 마커의 대안으로서 사용될 수 있다. 따라서, 가상 객체, 즉 가상 이미지 및 오디오 데이터를 포지셔닝하기 위해 항상 마커, 예를 들어 QR 코드를 사용할 필요는 없다. 대신에, 마커의 환경으로부터의 하나 이상의 앵커 포인트에 의해 마커가 확장될 수 있으며, 이에 따라 이미지 내에(즉, 모바일 디바이스의 디스플레이 장치 상에 디스플레이되는 실제 장면의 재현 내에) 마커가 더 이상 존재하지 않을 경우에도 마커가 트랙킹될 수 있다.
따라서, 판독 단계에서, 판독 재현 데이터는 이미지 데이터 외에 오디오 데이터를 나타내거나 포함할 수 있다. 오디오 데이터는 사운드 데이터라고도 지칭된다. 오디오 데이터는 모바일 디바이스의 적어도 하나의 또 다른 환경 센서에 의해 캡처되는 실제 장면의 음향 재현을 나타낼 수 있다. 이러한 방식으로, 예를 들어, 캡처된 광학 이미지 데이터와 관련된 사운드스케이프(soundscape)가 기록되고 처리될 수 있다. 추가의 환경 센서는, 예를 들어 하나의 마이크로폰 또는 여러 개의 마이크로폰을 포함할 수 있다. 여러 개의 마이크로폰 또는 방향성 마이크로폰을 사용하는 경우, 캡처된 오디오 데이터를 방출하는 음원이 로컬화될 수 있다. 대응하는 로컬라이제이션 정보는 캡처된 이미지 데이터와 매칭될 수 있다.
일 실시예에 따르면, 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법은 다음의 단계들을 포함한다:
광학 이미지 및 추가적으로 또는 대안적으로는 음향 이미지 그리고 오디오 데이터를 판독하는 단계로서, 상기 이미지 및 오디오 데이터는 모바일 디바이스의 환경 센서에 의해 캡처된 실제 장면의 재현을 나타내는, 상기 판독하는 단계;
이미지 및 오디오 데이터로부터 마커 데이터를 결정하는 단계로서, 상기 마커 데이터는 실제 장면에 배치되는 마커의 재현 및 포지셔닝을 나타내는, 상기 결정하는 단계;
가상 이미지 및 사운드 데이터를 판독하는 단계로서, 상기 가상 데이터는 마커 데이터를 사용하여 복수의 가상 데이터로부터 선택되는 3 차원 또는 일련의 2 차원의 이미지 및 사운드 데이터의 캡처들을 나타내고, 상기 가상 이미지 및 사운드 데이터는 가상 이미지를 표현하기 위한 표현 명령 및 가상 이미지를 포지셔닝하기 위한 포지셔닝 명령 그리고 가상 오디오 데이터를 재생하기 위한 트리거 포지션을 포함하는, 상기 판독하는 단계;
이미지 및 사운드 데이터로부터 객체 데이터를 결정하는 단계로서, 상기 객체 데이터는 실제 장면 내의 마커의 환경에 배치되는 광학적으로 및 추가적으로 또는 선택적으로는 음향적으로 검출 가능한 객체의 객체 부분의 재현 및 포지셔닝을 나타내는, 상기 결정하는 단계;
객체 데이터와 가상 이미지 및 사운드 데이터를 이용하여 객체 부분의 재현 및 오디오 데이터의 재생 시작 포지션을 참조하여 가상 이미지를 표현하기 위한 포지셔닝 규칙을 확정하는 단계.
일반적으로, 이미지 및 오디오 데이터는 실제 3 차원 또는 일련의 2 차원 이미지 및 사운드 데이터로 이루어질 수 있으며, 객체 데이터는 실제 객체 데이터로 이루어질 수 있고, 객체 부분은 실제 객체 부분으로 이루어질 수 있다.
일 실시예에 따르면, 확정하는 단계에서, 포지셔닝 규칙은 마커 데이터 또는 마커 데이터의 적어도 일부를 사용하여 확정될 수 있다. 실제 장면의 광학 및 음향 재현은, 실제 마커가 모바일 디바이스의 환경 센서에 의해 더 이상 감지될 수 없을 경우에도, 정의된 시간 순서로 수행되는 추가 앵커 포인트들 및/또는 앵커 라인들의 정의를 사용하여 실제 장면에서 트랙킹될 수 있다.
일 실시예에 따르면, 판독 단계, 결정 단계 및 확정 단계의 연속적인 반복은 짧은 시간 간격으로 수행될 수 있으며, 특히 초당 수회 수행될 수 있다. 예를 들어, 상기 단계들은 초당 10 번 내지 200 번(즉, 1/10 초마다 또는 5/1000 초마다) 실행될 수 있다.
본 명세서에서 설명되는 접근 방식은 모바일 디바이스의 큰 거리 및 상대적으로 무제한의 위치로부터 정확한 원근감을 갖는 일러스트레이션에서 가상의 광학/음향 객체의 포지셔닝을 가능하게 한다. 유리하게는, 모바일 디바이스가 더 이상 마커를 인식할 필요가 없고, 이 마커에 대하여 고정된 위치에 관련된 가상 객체를 포지셔닝할 필요가 없을뿐만 아니라, 이러한 추가 앵커 포인트들/라인들에 대하여도 고정된 위치에 관련된 가상 객체를 포지셔닝할 필요가 없다. 큰 거리는 마커(예를 들면, QR 코드)의 한 변의 길이의 10 배 내지 5천 배의 거리일 수 있다. 일 실시예에 따르면, 마커의 한 변의 길이의 10 배 내지 500 배의 범위가 바람직하다. 마커의 한 변의 길이가 2cm일 경우, 이것은 최대 100m(5000 x 변의 길이)의 거리에 해당한다. 상대적으로 비제한적인 포지션은 세 축 모두에서 0,1°내지 180°의 편차를 의미할 수 있다. 따라서 360°주위가 커버되어야 한다. 마커가 항상 모바일 디바이스의 시야(환경 센서) 내에 있어야할 필요는 없다.
일 실시예에 따르면, 본 명세서에서 설명되는 접근 방식은 처음 마커를 검출한 때에 고정된 위치에 대한 - 마커 검출 이후의 - 상대 위치의 변화를 측정하기 위해 - 이미지 캡처에 추가하여 - 모바일 디바이스에 배치된 측정 디바이스들을 사용한다. 또한, 실제 이미지 및 사운드 데이터로부터의 실제 객체의 데이터가 "2 차 마커"라고도 지칭되는 객체 부분으로서 사용되므로, 실제 마커가 더 이상 환경 센서의 감지 범위에 있을 필요가 없다.
다음에 언급되는 디바이스들은 처음 위치로부터의 편차를 결정하기 위해, 예를 들어 스마트 폰 또는 태블릿과 같은 모바일 디바이스 내의 인식 디바이스 또는 측정 센서로도 지칭되는 대응하는 측정 디바이스로서 - 마커를 한번 검출한 이후에 - 사용될 수 있다. 개별 측정 센서들은 여기에서 선택되는 임의의 조합들도 가능하다.
가속도 센서: 한편으로는 디바이스에 대한 지구 중력 방향을 결정하고 다른 한편으로는 이에 따른 디바이스의 배향/회전을 결정하기 위해 모바일 디바이스의 병진 움직임을 측정한다.
회전 센서: 모바일 디바이스의 회전 움직임을 측정한다.
자력계: 지구 자기장 및 이에 따른 모바일 디바이스의 수평 회전을 측정한다.
GPS 수신기: 선택 사항이며 매우 먼 거리에서 ± 2 미터의 정확도로 위치를 지정할 수 있다.
마이크로폰: 개별 음원 또는 일반적인 배경 잡음을 탐지하고 측정한다. 가청 범위(20 - 20000 Hz)의 주파수가 바람직하지만 초음파 범위의 주파수가 사용될 수도 있다.
이미지 센서에 추가하여 가속도 센서 및 회전 센서를 사용하는 것이 바람직하다.
이미지 센서는 가시 광선(400-800nm)으로 제한될 수도 있지만, 추가적으로 또는 배타적으로 다른 스펙트럼 범위(예를 들어, 추가적으로 또는 또한 배타적으로 IR 또는 UV 광)를 전송할 수도 있다.
예를 들어, 대응하는 측정 디바이스의 측정된 값들을 사용하여 모바일 디바이스의 움직임에 의해 유발되는 객체 부분의 시프트 또는 객체 부분의 재현의 시프트를 결정할 수 있다. 일 실시예에 따르면, 이 시프트를 나타내는 값은 확정하는 단계에서 객체 부분의 재현에 대한 가상 이미지 및 오디오 데이터를 포지셔닝하는 포지셔닝 규칙을 확정하는데 사용된다.
따라서, 포지셔닝 규칙은, 예를 들어, 모바일 디바이스의 가속도 센서, 회전 센서, 자력계 또는 GPS 수신기와 같은 측정 디바이스 또는 몇몇 측정 디바이스들의 측정된 값을 사용하여 확정될 수 있다.
이것은 가상 객체가 실제로 움직일 때 발생하는 기술적 문제를 추가적으로 해결한다. 이러한 움직임을 트랙킹할 때 환경 센서의 시야에서 마커가 사라지는 경우, 가상 일러스트레이션이 충돌하지 않게 된다. 따라서, 이제는 넓은 환경 영역에서 이미지 시퀀스가 표현될 수가 있다.
또한, 가상 객체의 보다 사실적인 표현을 위한 오디오 데이터가 이제 자유롭게 선택된 다양한 포지션들에서 재생될 수 있다.
일 실시예에 따르면, 본 방법은 마커 데이터의 적어도 일부를 외부 디바이스에 대한 인터페이스에 제공하는 단계를 포함한다. 이 경우, 가상 3 차원의 또는 선택된 2 차원의 또는 일련의 이들 이미지 및 오디오 데이터를 판독하는 단계에서, 가상 이미지 및 오디오 데이터는 외부 디바이스(예를 들면 서버)에 대한 인터페이스를 통해 판독될 수 있다. 상기 인터페이스는 예를 들어 무선 인터페이스일 수 있다. 바람직하게는, 가상 이미지 및 오디오 데이터의 선택이 외부 디바이스를 사용하여 수행될 수도 있다. 이에 따라, 모바일 디바이스 상의 메모리 공간이 절약될 수 있고, 항상 최신의 가상 이미지 및 오디오 데이터가 이용 가능하게 되는 것을 보장할 수 있다.
본 방법은 마커 데이터를 이용하여 복수의 가상 이미지 및 오디오 데이터로부터 가상 이미지 및 오디오 데이터를 선택하는 단계를 포함할 수 있다. 이러한 선택 단계는 외부 디바이스 또는 모바일 디바이스의 장치를 사용하여 수행될 수 있다. 후자의 옵션은 본 방법이 모바일 디바이스에서 자동으로 실행될 수 있다는 이점을 제공한다. 가상 이미지 및 오디오 데이터는 마커의 재현 또는 마커의 아이덴티피케이션을 복수의 가상 이미지와 관련된 잠재적인 마커들의 재현 또는 아이덴티피케이션과 비교하는 것을 통해 선택될 수 있으며, 예를 들어 매칭이 존재하는 가상 이미지 중 하나를 선택함으로써 선택될 수 있다. 이러한 방식으로, 매칭되는 가상 이미지 및 오디오 데이터가 큰 신뢰성으로 선택될 수 있다.
이를 위해, 본 방법은 마커 데이터를 사용하여 마커의 아이덴티피케이션을 확정하는 단계를 포함할 수 있다. 선택 단계에서, 가상 이미지 및 오디오 데이터는 아이덴티피케이션을 사용하여 선택될 수 있다. 아이덴티피케이션은 예를 들어 코드 또는 문자열일 수 있다.
예를 들어, 마커는 마커의 상응하는 아이덴티피케이션을 포함하는 기계 판독 가능한 코드를 나타낼 수 있다. 이 경우, 마커의 아이덴티피케이션은 마커 데이터를 결정하는 단계에서 마커 데이터의 일부로서 결정될 수 있다. 기계 판독 가능한 코드를 사용하여, 마커의 재현을 매우 쉽게 평가할 수 있다.
본 방법은 실제 장면의 다른 재현에 가상 이미지 및 오디오 데이터를 오버레이하기 위해 포지셔닝 규칙을 사용하는 단계를 포함할 수 있다. 바람직하게는, 한번 결정된 포지셔닝 규칙이 실제 장면의 시간 연속적인 재현에 가상 이미지 및 오디오 데이터를 오버레이하는데 사용될 수 있다.
이를 위해, 사용 단계는 예를 들어 모바일 디바이스의 환경 센서에 의해 캡처된 실제 장면의 추가 재현을 나타내는 추가 재현 데이터를 판독하는 단계, 추가 재현 데이터로부터 객체 부분의 추가 재현의 포지셔닝을 결정하는 단계 - 이것은 좌표계의 3 차원 포인트들로서 또는 포인트 및 벡터들로서 또는 2 차원 사진들의 선택으로서 제공됨 -, 및 추가 재현 데이터, 객체 부분의 추가 재현 및 포지셔닝 규칙을 이용하여 오버레이된 이미지 및 오디오 데이터를 생성하는 단계를 포함할 수 있으며, 상기 오버레이된 이미지 및 오디오 데이터는 실제 장면의 추가 재현에 대한 가상 이미지 및 오디오 데이터의 오버레이를 나타낸다. 포지셔닝을 결정하는 단계에서, 실제 장면의 추가 재현 내에서 객체 부분의 추가 재현 포지셔닝이 결정될 수 있다. 따라서, 실제 장면의 시간적 및 공간적으로 피팅된 재현들에서 객체 부분의 광학 재현 및 음향 재현이 가상 이미지 및 오디오 데이터에 대한 앵커 포인트들로서 사용될 수 있다. 오버레이된 이미지 및 오디오 데이터를 생성하는 단계에서, 가상 이미지 및 오디오 데이터는 표현 명령을 이용하여 표현될 수 있다.
본 방법은 모바일 디바이스의 디스플레이 및 재생 디바이스를 이용하여 실제 장면의 추가 재현에 대한 가상 이미지 및 오디오 데이터의 오버레이를 디스플레이하는 단계를 포함할 수 있다. 이를 위해, 예를 들어 이미 언급된 오버레이된 이미지 및 오디오 데이터가 디스플레이 및 재생 디바이스들에 제공될 수 있다. 디스플레이 디바이스는 스크린 또는 디스플레이일 수 있으며, 재생 디바이스는 라우드스피커 또는 스테레오 재생을 위한 인터페이스일 수 있다.
본 방법은 모바일 디바이스의 적어도 하나의 환경 센서를 이용하여 이미지 데이터 및 선택적으로는 오디오 데이터를 캡처하는 단계를 포함할 수 있다. 예를 들어, 이미지 및 오디오 데이터는 시간 연속적으로 캡처될 수 있으며, 이에 따라 실제 장면의 재현들이 시간 연속적 방식으로 제공될 수 있다. 가상 이미지 및 오디오 데이터는 실제 장면의 개별 재현들에 중첩될 수 있다.
다양한 실시예들에 따르면, 또한 복수의 가상 3 차원 객체 또는 2 차원 이미지 및 오디오 데이터가 오버레이에 사용될 수 있다. 이 경우, 판독 단계에서, 복수의 가상 이미지 및 오디오 데이터가 판독될 수 있거나, 또는 가상 이미지 및 오디오 데이터가 복수의 가상 이미지 및 오디오 데이터를 표현하고 포지셔닝하기 위해 표현 명령들 및 포지셔닝 명령들을 포함할 수 있다.
또한, 하나 또는 여러 객체들의 복수의 객체 부분들이 사용될 수도 있다. 이 경우, 객체 데이터를 결정하는 단계에서, 복수의 객체 데이터가 결정될 수 있거나, 또는 객체 데이터가 복수의 객체 부분들의 재현 및 포지셔닝을 나타낼 수 있다. 이에 대응하여, 포지셔닝 규칙을 확정하는 단계에서, 개별 객체 부분들에 대하여 가상 이미지를 포지셔닝하기 위한 복수의 포지셔닝 규칙이 확정될 수 있다. 대안적으로, 복수의 객체 부분들의 재현에 대한 가상 이미지 및 오디오 데이터의 포지셔닝에 적합한 포지셔닝 규칙이 확정될 수 있다. 복수의 객체 부분들의 사용은 가상 이미지 및 오디오 데이터가 매우 정확하게 포지셔닝될 수 있고 사용된 모든 객체 부분들이 실제 장면의 재현에 나타나지 않을 때에도 포지셔닝될 수 있는 이점을 제공한다.
본 명세서에 제시되는 접근 방식은 대응하는 디바이스들에서 본 명세서에 제시된 방법의 변형예의 단계들을 수행, 제어 또는 구현하도록 구성된 장치를 더 제공한다. 본 발명의 기반이 되는 객체는 장치 형태로 이루어지는 본 발명의 실시예에 의해서도 신속하고 효율적으로 달성될 수 있다.
본 장치는 입력 신호들을 판독하고 이 입력 신호들을 사용하여 출력 신호들을 결정 및 제공하도록 구성될 수 있다. 예를 들어, 입력 신호는 장치의 입력 인터페이스를 통해 판독 가능한 센서 신호를 나타낼 수 있다. 출력 신호는 장치의 출력 인터페이스에 제공될 수 있는 제어 신호 또는 데이터 신호를 나타낼 수 있다. 본 장치는 하드웨어 또는 소프트웨어로 구현되는 처리 규칙을 사용하여 출력 신호들을 결정하도록 구성될 수 있다. 예를 들어, 본 장치는 논리 회로, 집적 회로 또는 소프트웨어 모듈을 포함할 수 있으며, 예를 들어 개별 컴포넌트로서 구현되거나 개별 컴포넌트에 포함될 수 있다.
또한, 반도체 메모리, 하드 디스크 또는 광 메모리와 같은 기계 판독 가능한 캐리어 상에 저장될 수 있는 프로그램 코드를 갖는 컴퓨터 프로그램 제품이 유리하게 제공되며, 이 프로그램 코드는 프로그램 제품이 컴퓨터 또는 장치에서 실행될 때, 전술한 실시예들 중의 하나의 방법을 수행하는데 사용된다.
본 발명의 실시예들이 도면에 도시되어 있으며 후속하는 설명에서 보다 상세히 설명된다.
도 1은 일 실시예에 따른, 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법의 개요도를 나타낸다.
도 2는 일 실시예에 따른, 연관 규칙을 생성하는 방법의 개요도를 나타낸다.
도 3은 일 실시예에 따른, 모바일 디바이스의 개략도를 나타낸다.
도 4는 일 실시예에 따른, 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법의 흐름도를 나타낸다.
도 5는 일 실시예에 따른 이진 윤곽을 갖는 QR 코드 배치 정사각형을 나타낸다.
도 1은 일 실시예에 따른, 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법의 개요도를 나타낸다.
도 1의 좌측 절반은 환경 센서(102), 추가의 환경 센서(103), 디스플레이 디바이스(104) 및 재생 디바이스(105)를 포함하는 모바일 디바이스(100), 예를 들어 스마트 폰을 나타낸다. 본 실시예에 따르면, 환경 센서들(102 및 103)은 환경 센서들(102, 103)의 감지 범위에서, 실제 환경(real environment)으로도 지칭되는 실제 장면(106)을 캡처하도록 구성되는 카메라 및 마이크로폰이다. 본 실시예에 따르면, 디스플레이 디바이스들(104 및 105)은 환경 센서들(102, 103)에 의해 캡처되는 실제 장면(106)의 재현(108)을 오퍼레이터에게 디스플레이하도록 구성되는 디스플레이 디바이스 및 라우드스피커이다.
본 실시예에 따르면, 마커(marker)(112)가 있는 외부 표면 상의 객체(110)가 실제 장면(106)에 배치된다. 예를 들어, 객체(110)는 임의의 이미지 또는 아이템일 수 있다. 객체(110) 및 마커(112)는 각각 환경 센서들(102, 103)의 감지 범위 내에 부분적으로 그리고 완전히 배치된다. 특히, 객체(110)의 적어도 하나의 객체 부분(114)은 환경 센서들(102, 103)의 감지 범위 내에 배치된다. 따라서, 재현(108)은 마커(112)의 재현(116) 및 객체 부분(114)의 적어도 하나의 재현(118)을 포함한다.
도 1의 우측 절반은 좌측 절반에 도시된 것과 비교하여 시간적으로 후속하는 시점에서의 모바일 디바이스(100)를 나타낸다. 모바일 디바이스(100)의 중간 동작으로 인해, 실제 장면(106)은 환경 센서들(102, 103)에서 보았을 때 약간 변경되었으므로, 재현(116)에 대해 약간 변경된 추가의 재현(120)이 디스플레이(104)에 의해 디스플레이된다. 예를 들어, 추가 재현(120)은 재현(108) 또는 실제 장면(106)의 다른 섹션과 비교하여, 상이한 원근감으로(또한 상이한 원근감으로도) 실제 장면(106)을 나타낼 수 있다. 예를 들어, 다른 섹션은 추가 재현(120)이 객체 부분(114)의 추가 재현(122)을 포함하지만 마커(112)의 추가 재현을 포함하지 않도록 구성된다. 그럼에도 불구하고, 추가 재현(120)에는 전술한 방법을 사용하여 가상 이미지 및 오디오 데이터(124, 125)가 오버레이될 수 있다. 일 실시예에 따르면, 추가 재현(120)에는 미리 결정된 위치 및/또는 미리 결정된 배향으로 가상 이미지 및 오디오 데이터(124, 125)가 오버레이된다. 일 실시예에 따르면, 이러한 미리 결정된 오버레이는 가상 이미지 및 오디오 데이터(124, 125)에 대한 앵커 포인트(anchor point)로서 사용될 수 있는 객체 부분(106)의 적절한 추가 재현(122)을 추가 재현(120)이 포함하는 한 가능하다.
본 방법의 단계들은 모바일 디바이스(100)의 디바이스들을 사용하여 전적으로 실행될 수 있거나, 또는 예를 들어 본 명세서에서 클라우드로 예시된 적어도 하나의 외부 디바이스를 사용하여 추가적으로 실행될 수 있다. 예를 들어, 외부 디바이스(130)는 모바일 디바이스(100)에 온라인으로 커플링될 수 있다.
일 실시예에 따르면, 가상 이미지 및 오디오 데이터(124, 125)는 환경 센서(102)에 의해 검출되는 데이터만을 사용하여 생성되며, 즉, 실제 오디오 데이터는 사용되지 않는다.
본 방법은 연속적으로 실행될 수 있거나, 또는 오퍼레이터에 의해 요구되는 디스플레이 디바이스들(104)을 사용하여 컨텐츠 호출 또는 실제 장면(106)의 뷰로 시작될 수 있다.
재현(108)은 환경 센서들(102, 103) 또는 환경 센서들(102, 103)의 하류측 평가 디바이스에 의해 제공되는 이미지 및 오디오 데이터에 기초한다. 마커 데이터(132) 및 객체 데이터(134)는 예를 들어 객체 인식 방법 또는 다른 적절한 이미지 및 사운드 처리 방법을 사용하여, 본 명세서에 개략적으로 도시된, 이미지 및 오디오 데이터로부터 결정된다. 마커 데이터(132)는 적절한 추출 방식에 의해 이미지 및 오디오 데이터로부터 결정되며, 마커(112)와 관련된 아이덴티피케이션 데이터(136), 예를 들어 마커(112)와 관련된 아이덴티피케이션 ID 및/또는 마커(112)와 관련된 앳 레스트(at rest) 또는 포인터(pointer)를, 예를 들어 URL의 형태로 포함한다. 마커 데이터(132) 또는 마커 데이터(132)의 일부들 또는 그로부터 결정된 데이터, 예를 들어 마커와 관련된 아이덴티피케이션은 본 실시예에 따라, 외부 디바이스(130)의 메모리에 저장되어 있는, 예를 들어 할당 테이블(allocation table)과 같은 연관 규칙(138)을 사용하여 복수의 가상 이미지로부터 마커(112)와 관련된 가상 이미지 및 오디오 데이터(140)를 선택하는데 사용될 수 있다. 복수의 가상 이미지 및 오디오 데이터는 AR 컨텐츠의 형태로 할당 테이블(138)에 저장될 수 있다. 가상 이미지 및 오디오 데이터(140)는 모바일 디바이스(100)로 송신되어, 가상 이미지(124)를 디스플레이하는데 사용되며 추가적으로 또는 대안적으로는 가상 이미지(124)를 재생하는데 사용된다. 일 실시예에 따르면, 가상 이미지 및 오디오 데이터(140)를 선택하는 것은 새로운 마커(112)가 발견되는 경우에만 실행되며, 예를 들어 마커(112)의 재현(116) 또는 마커(112)의 아이덴티피케이션 데이터(136)가 처음으로, 재현(108)을 나타내는 이미지 및 오디오 데이터로부터 추출되었을 경우에만 실행된다.
객체 데이터(134)는 적절한 이미지 및 추가적 또는 대안적으로는 사운드 피처들의 적절한 추출에 의해서 이미지 및 오디오 데이터로부터 결정된다. 적절한 이미지/사운드 피처들은 예를 들어 일시적인 로컬 사용을 위해, 새로운 AR 마커로 지칭되는 포지셔닝 규칙(142)을 생성하는데 사용된다. 포지셔닝 규칙(142)은 마커(112)의 재현(116)이 이용 가능하지 않더라도 가상 이미지 및 오디오 데이터(124)를 재현(106) 또는 추가 재현(120)의 오버레이로서 나타낼 수 있도록 모바일 디바이스(100)에 의해 사용된다. 포지셔닝 규칙(142)을 사용하는데는 온라인 매칭이 필요하지 않다. 본 실시예에 따르면, 포지셔닝 규칙(142)은 내추럴 마커(natural marker)를 나타내는 객체 부분(114)을 참조한다.
일 실시예에 따르면, URL에 기초한 AR 컨텐츠의 신뢰성있는 연관, 및 새로운, 따라서 최신의 내추럴 마커에 기초한 안정적인 3-D 트랙킹이 가능해진다.
일 실시예에 따르면, 적어도 2개의 내추럴 마커, 즉 예를 들어 객체(110)의 객체 부분(114) 및 다른 객체 부분(144)이, 추가 재현(120)에 가상 이미지 및 오디오 데이터(124, 125)를 위치시킬 수 있도록 사용된다. 이 경우, 포지셔닝 규칙(142)은 객체 부분들(114, 144) 또는 이들의 재현들(118, 122, 146) 모두에 관한 것이다. 도 1에 나타낸 실시예에서는, 추가의 객체 부분(144)이 실제 장면(106)의 추가 재현(120)에 도시되어 있지 않다. 그럼에도 불구하고, 가상 이미지 및 오디오 데이터(124, 125)는 객체 부분(114)의 추가 재현(122)을 통해 위치될 수 있다.
일 실시예에 따르면, 본 명세서에서 설명되는 접근 방식은 객체들의 3 차원 위치들이 카메라 이미지들로부터 추출될 수 있는 2 가지 방법의 조합에 기초한다.
이러한 방법들 중의 제 1 방법에서는, 미리 정의된 기하학적 형상들이 마커(112)로서 사용되며, 이들은 카메라 재현 영역, 예를 들어 QR 코드들에 위치된다. 이러한 마커(112)의 공지된 형상 및 카메라 재현(108)에서의 그것의 재현(116)에 기초하여, 공간에서의 그것의 3 차원 배향이 이미지 처리에 의해 결정될 수 있다. 제 1 방법의 장점은, 마커(112)의 미리 정의된 설계 규칙들로 인해, 카메라 재현(108)에서 명백하게 식별될 수가 있으며, 이에 따라 또한 추가 정보가 또한 마커(112)의 ID 또는 QR 코드를 통한 웹 링크와 같은 마커(112)의 외관에서 직접 인코딩될 수 있다는 것이다. 이러한 방식으로, 한번 정의된 인코딩 방식, 예를 들어, 흑백 비트들의 QR 코드에 의해, 매우 많은 상이한 마커들이 광학적으로 서로 명확하게 구별될 수 있다. 그러나, 이들 마커들(112)은 필연적으로 정확히 규정된 형상 때문에 카메라 재현(108)의 작은 교란(disturbance)들에 대해 강건하지 않다는 단점이 있다. 이러한 작은 교란들은 예를 들어 약간의 포커스 블러(focus blur), 모션 블러(motion blur) 또는 가파른 시야각일 수 있다. 이것은, 이들 마커들(112) 중 하나의 3 차원 위치가 완전히 초점이 맞추어지고 이미지 플레인에 평행하며 카메라 재현(108)에서 숨김없이 보일 수 있고 카메라(102)가 마커(112)에 대해 거의 고정되어있는 경우에만, 정확하게 추출될 수 있다는 사실을 초래한다. 따라서, 예를 들어, QR 코드 형태의 마커(112)에 기초하여 올바른 위치에 있게 되는 가상 3-D 객체(124)의 연속적인 AR 중첩이 거의 불가능해진다. 기하학적 마커(112)가 큰 설계의 경우, 이 문제가 어느정도 완화되지만, 이러한 마커가 눈에 잘 띄고 큰 방식으로 장면(106)에 배치되어야 한다는 점에서 또 다른 단점이 수반되며, 이것은 대부분의 응용들에 있어서 부적합하다.
내추럴 피처 트랙킹(Natural Feature Tracking, 또는 NFT)이라고도 불리는, 이러한 방법들 중의 제 2 방법에서는, 실제 환경(106)에서의 객체들(110)의 재현, 예를 들어, 플라이어의 커버 이미지가 이전에 마커들로서 정의되며, 그것의 내추럴 광학 피처들(114), 예를 들면 특유의 포인트들, 에지 코스 또는 컬러들이 먼저, 일 알고리즘(즉, 쿼시 런(quasi learned))에 의해 적절한 형태로 원본으로부터 추출된다. 그 후, 카메라 재현(108)은 AR 위치 결정, 즉 오버레이될 가상 이미지(124)의 위치를 결정하기 위한 이들 이전에 학습된 내추럴 피처들(114)에 대해 탐색되며, 최적화 방법들에 의해서 현재 탐색된 객체(110)가 카메라 재현(108)에 있는지 그리고 그 배향 및 위치가 그 개별적 피처들(114)의 배열에 기초하여 추정되는지가 결정된다. 여기서의 장점은 최적화 기반 방법으로 인해 교란들에 대하여 큰 강건성을 갖는다는 것이다. 따라서, 마커 객체들(114)의 위치들이 부분적으로 감추어져있고 매우 가파른 각도에 있을 경우 블러된 카메라 재현들(108, 120)에서도 인식될 수 있다. 다른 방법들(예를 들어, SLAM)은 카메라 재현(108, 120)에서의 마커 객체(114)의 초기 인식에 기초하여 현재 환경으로부터의 피처들을 갖는 모델을 연속적으로 확장하는 것을 허용하며, 이에 따라 카메라 재현(120) 자체에서는 더 이상 볼 수 없더라도 공간에서의 배향이 부분적으로 정확하게 결정될 수 있다. 그러나, 이 방법은 매우 많은 수의 상이한 마커들이 그와 함께 인식될 때 중요한 단점들을 갖는다. 처음에 3개의 마커 객체(114)는 카메라 재현(108, 120)에서 인식될 수 있도록 내추럴 광학 외관에 대한 소정의 광학적 기준을 만족시켜야 한다. 또한, 모호하지 않은 식별을 위해, 모든 인식 가능한 마커들(114)은 서로 명확하게 상이해야 한다 - 인식 가능한 마커들(114)의 수가 많을수록 오배치의 가능성은 높아진다. 이것은 다수의 광학적으로 유사한 객체들(100), 예를 들어, 명함(business cards)이 데이터베이스 내에서 구별되어야하는 경우에 특히 문제가 된다. 또한, 모든 인식 가능한 마커들의 내추럴 피처들을 갖는 데이터베이스는 인식 시점에 이미 존재해야 하며, 이러한 완전한 데이터베이스는 마커들(114) 중 하나가 카메라 재현에 있는지 알아내기 위해 카메라 재현(108, 120)과 비교되어야한다. 마커 데이터베이스가 계속 증가하게 되는 스마트 폰 AR 애플리케이션과 같은 시스템의 경우, 이것은 중앙 위치(온라인)에서 현재 버전의 데이터 베이스를 제공할 것을 필요로 하며, 각각의 스마트폰(100)은 모든 단일 카메라 재현(108, 120)을 분석하기 위해 계산적으로 광범위한 재현 검색 요청을 이 데이터베이스에게 전송해야한다.
일 실시예에 따르면, 본 명세서에서 설명되는 접근 방식은 상기 2 가지 방법의 조합을 기초로 한 것이며, 여기서 두 방법 모두는 카메라 재현(108, 120)에서의 마커 객체들의 인식 및 3-D 포지셔닝을 위한 다음과 같은 연속적인, 링크된 단계들에서 수행된다: 제 1 단계에서는, 기하학적인, 미리 정의된 마커 설계, 예를 들어, QR 코드 또는 바코드가, 본 명세서에서 AR 컨텐츠(124)로 지칭되는, 가상 이미지(124)의 가상 이미지 및 오디오 데이터(140)를 식별하기 위해 순전히 카메라 이미지(108) 내의 마커(112)의 재현(116)으로서 사용된다. 예를 들어, 마커(112)의 재현(116)은 실제 장면(106)의 재현(108)의 단지 0.6% 또는 심지어 0.1% 또는 심지어 0.01%만을 차지할 수 있다. 이것은 DINA4 사이즈 시트 상의 마커(112) 재현(116)의 0.5 cm 측면 길이에 대응한다.
검사된 각각의 카메라 이미지에서의 QR 코드 형태로된 마커(112)의 인식에 대해서는 도 5에 기초하여 나중에 상세하게 설명될 것이다.
일 실시예에 따르면, 존재하는 경우, 마이크로폰(103) 및 추가적으로 또는 대안적으로 라우드스피커(105)가 포함되거나, 또는 스마트 폰(100)의 몇몇 마이크로폰 및/또는 여러개의 라우드스피커가 포함된다. 이 점에서, 가상 데이터(140)의 선택은 스마트 폰(100)의 카메라(102)에 의한 프라이머리 마커(116)(QR 코드들/바코드들)의 검출에 따라 발생한다. 그러나, 선택된 가상 데이터(140)는 이미지 데이터로 구성될뿐만 아니라 실제 장면에 중첩되는 가상 객체(124)의 추가 이동에 따라 재생되는 사운드 데이터로 구성된다.
더 쉽게 이해할 수 있도록 예를 들면 다음과 같다: 3 차원 텔레비전 필름(360°에서 일련의 카메라로 캡처됨 - 예를 들면 10°거리에 있는 36개의 카메라, 각각 5°거리에 있는 72개의 카메라)이 거실의 자유 공간에서 이루어질 수 있음. 물론, 가상의 이미지 및 사운드 객체들(140)은 스마트 폰(100)이 장면 주위를 이동하더라도, 즉 2 차 마커들(122)이 사용되는 경우에도 정확한 원근감으로 표현된다. 이것은 사운드 객체들의 올바른 표현을 위해 바람직하며, 특히 스테레오헤드폰을 통해 오디오 데이터를 재생하기 위해 바람직하다. 이러한 스테레오헤드폰은 적절한 인터페이스를 통해 스마트 폰(100)에 연결될 수 있다. 다른 변형예에서는, 이들 2 차 마커들(122)은 이미지 피처들뿐만 아니라 실제 장면의 사운드 피처들을 포함한다. 예를 들어, 이것은 특정 톤(tone)들의 단일 음원 또는 악기의 특정 배열을 포함한다.
도 2는 일 실시예에 따른, 연관 규칙(138)을 생성하는 방법의 개요도를 나타낸다. 연관 규칙(138)은 예를 들어 도 1에 도시된 외부 디바이스에 저장될 수 있다.
오퍼레이터(250)는, 예를 들어 복수의 가상 이미지 및 오디오 데이터의 형태로 3D AR 컨텐츠들(252)을 제공한다. 웹 인터페이스(254)는 3D AR 컨텐츠들(252)에 기초하여 연관 규칙(138)을 생성 또는 업데이트하는데 사용된다. 일 실시예에 따르면, 연관 규칙(138)은 3D AR 컨텐츠들(252)의 각각의 3D AR 컨텐츠(252)에 대해 특정한, 고유 URL에 대한 링크를 포함한다.
도 3은 일 실시예에 따른, 모바일 디바이스(100)의 개략도를 나타낸다. 모바일 디바이스(100)는 예를 들어 도 1에 도시된 모바일 디바이스일 수 있다. 모바일 디바이스(100)는 환경 센서(102, 103), 및 환경 센서(102)에 의해 캡처되는 실제 장면의 재현을 디스플레이하기 위한 디스플레이 디바이스들(104, 105)을 포함한다. 재현에는 가상 이미지 및 오디오 데이터가 오버레이될 수 있다. 본 실시예에 따르면, 모바일 디바이스(100)는 외부 디바이스(130)에 대한 인터페이스(360), 예를 들어 무선 데이터 송신을 위한 인터페이스를 포함한다. 일 실시예에 따르면, 환경 센서(102) 및 디스플레이(104)는 모바일 디바이스(100)의 후면 및 전면에 각각 배치된다.
모바일 디바이스(100)는, 환경 센서들(102, 103)에 커플링되며 원시 데이터 또는 이미 사전 처리된 데이터로서 환경 센서들(102, 103)의 이미지 및 오디오 데이터(364, 365)를 판독하도록 구성되는 판독기(362)를 포함한다. 예를 들어, 판독기(362)는 환경 센서들(102, 103)에 대한 인터페이스이다. 이미지 및 오디오 데이터(364, 365)는 환경 센서들(102, 103)에 의해 캡처되는 실제 장면의 재현을 나타낸다. 판독기(362)에 의해 판독된 이미지 및 오디오 데이터(364, 365)는 모바일 디바이스(100)의 결정기(366)에서 더 처리된다. 특히, 마커 데이터(132) 및 객체 데이터(134)는 예를 들어 이미지 데이터(364)로부터 그리고 선택적으로는 오디오 데이터(365)로부터 추출되어 결정된다. 마커 데이터(132)는 예를 들어 도 1에 도시된 기하학적 마커(112)의 실제 장면에 배치된 마커의 재현 및 포지셔닝을 나타낸다. 객체 데이터(134)는 실제 장면에서 마커의 주변에 배치되는 객체의 객체 부분의 재현 및 포지셔닝을 나타낸다. 예를 들어, 객체 부분은 도 1에 도시된 객체 부분(114)일 수 있으며, 이것은 내추럴 마커로서 사용될 수도 있다. 이를 위해, 결정기(366)는 먼저 실제 장면의 재현에서 마커의 재현을 인식한 다음, 이미지 및 오디오 데이터(364, 365)로부터 마커의 재현과 관련된 마커 데이터를 결정하도록 구성된다. 이에 대응하여, 결정기(366)는 먼저 실제 장면의 재현 중에 있는 객체 부분의 하나 이상의 재현을 인식한 다음, 이미지 및 오디오 데이터(364, 365)로부터 적절한 객체 부분의 재현 또는 재현들과 관련된 객체 데이터를 결정하도록 구성된다. 일 실시예에 따르면, 이것을 위해 이미지 데이터(364)만이 사용되며, 오디오 데이터(365)는 사용되지 않는다.
본 실시예에 따르면, 마커 데이터(132)가 외부 인터페이스(360)에 제공되며, 이 외부 인터페이스(360)(예를 들어 무선 인터페이스)를 통해 예를 들어 외부 전자기기 형태로 이루어진 외부 디바이스(130)로 송신된다. 외부 디바이스(130)는 연관 규칙을 사용하여 복수의 가상 이미지 및 오디오 데이터로부터 마커 데이터(132)와 관련된 가상 이미지 및 오디오 데이터(140)를 선택하여, 모바일 디바이스(100)의 외부 인터페이스(360)에 그것을 제공하도록 구성되는 선택기(368)를 포함한다. 일 대안으로서, 이미지 및 오디오 데이터(132)의 일부 또는 추가 처리된 형태의 이미지 및 오디오 데이터(132)만이 판독기(360) 및/또는 외부 디바이스(130)에 제공될 수 있다. 외부 인터페이스(360)는 가상 이미지 및 오디오 데이터(140)를 결정기(370)에 제공하도록 구성된다. 가상 이미지 및 오디오 데이터(140)는 가상 이미지를 표현하기 위한 표현 명령, 및 가상 이미지 또는 객체의 재현을 포지셔닝하기 위한 포지셔닝 명령, 및 가상 오디오 데이터의 재생 포지셔닝에 대한 명령을 포함한다. 결정기(370)는 또한 마커 데이터(132) 및 객체 데이터(134)를 수신하도록 구성된다. 결정기(370)는 마커 데이터(132), 객체 데이터(134) 및 가상 이미지 및 오디오 데이터(140)를 사용하여 객체 부분의 재현과 관련된 가상 이미지를 포지셔닝하기 위한 포지셔닝 규칙(142)을 결정하도록 구성된다.
본 실시예에 따르면, 모바일 디바이스(100)는 디스플레이 디바이스(104)를 제어하기 위한 제어기(372)를 포함한다. 제어기(372)는 예를 들어 디스플레이 디바이스(104, 105)에 의해 나타나는 디스플레이를 제어하기 위한 제어 신호의 형태로, 오버레이되는 이미지 및 오디오 데이터(376)를 디스플레이(104)에 제공하도록 구성된다. 오버레이되는 이미지 및 오디오 데이터(376)는 여기에서 실제 장면의 추가 재현에 대한 가상 이미지 및 오디오 데이터의 오버레이를 나타낸다. 제어기(372)는 결정기(370)에 의해 제공되는 포지셔닝 규칙(142), 추가 이미지 및 오디오 데이터(376) 그리고 추가 객체 데이터(378)를 사용하여 오버레이되는 이미지 및 오디오 데이터(376)를 생성하도록 구성된다. 추가 이미지 및 오디오 데이터(376)는 환경 센서들(102, 103)에 의해 캡처되는 실제 장면의 추가 재현을 나타낸다. 추가 객체 데이터(378)는 실제 장면의 추가 재현 내에서의 객체 부분의 적어도 하나의 포지셔닝을 포함한다.
일 실시예에 따르면, 포지셔닝 규칙(142)은 가상 이미지 및 오디오 데이터(140)에 의해 구성되는 가상 이미지를 표현하기 위한 표현 명령을 포함한다. 일 대안으로서, 표현 명령은 포지셔닝 규칙(142)과는 별도로 제어기(372)로 송신될 수도 있다.
일 실시예에 따르면, 선택기(368)는 모바일 디바이스(100)의 일부이다. 이 경우, 외부 디바이스(130)는 필요없으며, 외부 인터페이스(360)는 내부 인터페이스로 구현될 수 있다.
도 3에 도시된 디바이스들(360, 362, 366, 370, 372)은 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하기 위한 장치(379)의 디바이스들에 대한 예시적인 배열일뿐이다. 예를 들어, 디바이스들(360, 362, 366, 370, 372)의 일부 또는 전부는 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법의 방법 단계들을 구현하기 위한 더 큰 유닛들을 형성하도록 결합될 수 있다.
도 4는 일 실시예에 따른, 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법의 흐름도를 나타낸다. 본 방법은 이전 도면들에 기초하여 설명된 모바일 디바이스의 디바이스들을 사용하여 실행될 수 있다.
단계(480)에서, 모바일 디바이스의 환경 센서들에 의해 캡처되는 실제 장면의 재현을 나타내는 이미지 및 오디오 데이터가 판독된다. 이미지 및 오디오 데이터는 선택 사항인 이전 단계(482)에서 환경 센서들에 의해 캡처될 수 있다. 단계(484)에서, 실제 장면에 배치된 마커의 재현 및 포지셔닝을 나타내는 마커 데이터가 이미지 및 오디오 데이터로부터 결정된다. 이에 대응하여, 단계(486)에서, 실제 장면에서 마커의 환경에 배치된 객체의 객체 부분의 재현 및 포지셔닝을 나타내는 객체 데이터가 이미지 및 오디오 데이터로부터 결정된다. 단계(488)에서, 마커 데이터를 사용하여 복수의 가상 이미지 및 오디오 데이터로부터 선택된 이미지 및 오디오 데이터를 나타내고, 가상 이미지를 표현하기 위한 표현 명령, 및 가상 이미지를 포지셔닝하고 오디오 데이터를 재생하기 위한 포지셔닝 명령을 포함하는 가상 이미지 및 오디오 데이터가 판독된다. 모바일 디바이스 또는 외부 디바이스에서 실행될 수 있는 선택적 단계(490)에서, 가상 이미지 및 오디오 데이터가 마커 데이터를 사용하여 선택된다. 단계(492)에서, 객체 부분의 재현에 관한 가상 이미지 및 오디오 데이터를 표현하기에 적절한 포지셔닝 규칙이, 마커 데이터, 객체 데이터 및 가상 이미지 및 오디오 데이터를 사용하여, 예를 들어 실제 장면의 추가 재현의 오버레이로서 확정된다.
선택적인 단계(494)에서, 포지셔닝 규칙은 예를 들어 모바일 디바이스의 디스플레이 및 재생 디바이스 상에서, 실제 장면의 추가 재현에 대한 가상 이미지 및 오디오 데이터의 오버레이를 나타내는데 사용된다.
예를 들어, 단계(494)는 실제 장면의 추가 재현을 나타내는 추가 이미지 및 오디오 데이터를 판독하는 단계(496), 추가 이미지 및 오디오 데이터로부터 객체 부분의 추가 재현의 포지셔닝을 결정하는 단계(498), 및 추가 이미지 및 오디오 데이터, 객체 부분의 추가 재현 및 포지셔닝 규칙을 사용하여 오버레이된 이미지 및 오디오 데이터를 생성하는 단계(499)를 포함할 수 있으며, 여기서 오버레이된 이미지 및 오디오 데이터는 실제 장면의 추가 재현에 대한 가상 이미지 및 오디오 데이터의 오버레이를 나타낸다. 포지셔닝을 결정하는 단계에서, 실제 장면의 추가 재현 내에서의 객체 부분의 추가 광학 및 음향 재현의 포지셔닝이 결정될 수 있다. 따라서, 실제 장면의 시간 연속적인 재현들에서 객체 부분의 재현들은 가상 이미지 및 오디오 데이터에 대한 앵커 포인트(anchor point)들로서 이용될 수 있다. 오버레이된 이미지 및 오디오 데이터를 생성하는 단계에서, 가상 이미지 및 오디오 데이터는 표현 명령을 사용하여 표현될 수 있다.
단계(494)는 연속적으로 반복될 수 있으며, 여기서 포지셔닝 규칙은 실제 장면의 추가 재현들에 대하여 가상 이미지 및 오디오 데이터를 연속적으로 오버레이하는데 사용된다. 포지셔닝 규칙을 한 번 결정하는 것으로 충분하기 때문에, 이전의 단계들이 반복적으로 실행할 필요는 없다.
일 실시예에 따르면, 단계(486)에서, 수 개의 객체 부분의 재현 및 포지셔닝을 나타내는 객체 데이터는 이미지 및 오디오 데이터로부터 결정되는 실제 장면에서의 마커의 환경과 관련된 하나 이상의 객체들의 예를 들어 2개, 3개, 4개 또는 그 이상의 객체 부분들이다. 이러한 방식으로, 실제 장면의 추가 재현 또는 추가 재현들에서 가상 이미지를 앵커링하기 위한 앵커 포인트의 수를 증가시킬 수 있다. 이 경우, 단계(492)에서, 객체 부분들의 광학 및 음향 재현들에 대한 실제 장면의 추가 재현에서 가상 이미지 및 오디오 데이터를 나타내기에 적합하도록 포지셔닝 규칙이 확정될 수 있다. 이 표현을 구현하기 위해, 결정 단계(498)에서 추가의 이미지 및 오디오 데이터로부터 객체 부분들의 개별 재현의 포지셔닝이 결정된다. 바람직하게는, 이 경우에, 가상 이미지 및 오디오 데이터는 객체 부분들의 모든 재현들이 추가 이미지 및 오디오 데이터에 의해 구성되지 않더라도 가상 이미지 및 오디오 데이터에 놓여진 요구 사항에 따라 계속 위치될 수도 있다.
일 실시예에 따르면, 단계(492)에서, 포지셔닝 규칙은 측정 디바이스, 특히 가속도 센서, 회전 센서, 자력계, GPS 수신기 또는 모바일 디바이스의 하나 이상의 마이크로폰의 측정된 값을 사용하여 확정된다.
도 5는 일 실시예에 따른 이진 윤곽을 갖는 QR 코드 배치 사각형(500)을 나타내며, 여기서 QR 코드는 마커로서 사용된다.
QR 코드를 인식하기 위해, 먼저, 검사되는 각각의 카메라 이미지에 대하여, 그 이미지의 모든 픽셀들을 단순한 흑백 값으로 변환하는 이진화가 수행된다. 그 다음, 윤곽, 즉 흑색 픽셀과 백색 픽셀 사이의 직선 경계가 결과 이미지에서 검색되고, QR 코드의 3개의 배치 사각형의 시각적 특성들에 대응하는 방식으로 필터링된다. 폐쇄된 백색 윤곽(504) 내에(결국 폐쇄된 흑색 윤곽(506) 내에) 폐쇄된 흑색 윤곽(502)이 존재한다.
QR 코드의 3개의 배치 사각형(502, 504, 506)이 발견되면, 이들 사이의 픽셀들이 판독되며, 궁극적으로 문자열 또는 URL로 변환되는 비트 시퀀스가, 미리 결정된 코딩을 갖는 흑색 및 백색 픽셀들의 분포에 대응하는 방식으로 결정된다.
다음 단계에서는, 카메라와 관련된 QR 코드의 포지션 및 위치가 결정된다. 예를 들어, 본 기술 분야에 공지된 퍼스펙티브 n 포인트 방법(perspective n point method) "RANSAC"이 이 목적에 사용된다. 실질적으로, 대응하는 캘리브레이션이 주어지면, 카메라는 간단한 핀홀 카메라 모델에 의해 근사되며, 이에 따라 카메라의 실제 환경에서의 3-D 포인트들을 2-D 카메라 이미지의 대응 포인트들에 맵핑하는 것이 선형 연립 방정식에 의해 기술될 수 있다. 이러한 연립 방정식은 카메라 이미지 내의 3개의 QR 코드 배치 사각형의 포인트들로 채워지며, 선형 최적화를 통해 해가 구해질 수 있도록 서로에 대한 사각형들의 위치의 알려진 부가 조건들에 의해 확장된다.
이하에서는, 도 1을 참조하여 채용되는 일부 참조 번호들을 사용하여 본 방법에 대하여 더 설명하도록 한다:
예를 들어, 코드의 형태로 이루어지는 마커(112)의 인식 시점과 정확히 동시에, 마커(112) 인접 주변에 있는 현재 환경이 카메라 이미지(108)에 캡처되며, 내추럴 피처들(114)이 그로부터 추출되고, 또한 새로운 내추럴 마커(118)가 제 2 방법에 따라 실시간으로 생성된다. 예를 들어, 2 차원 객체들에서 변환-불변 방식(transformation-invariant manner)으로 피처들을 저장하고, 후속 이미지들에서 이들을 인식할 수 있는, 본 기술 분야에 공지된 "SURF(Speeded Up Robust Features)" 방법이, 이를 위해 사용된다. 생성 시에 SURF에 의해서 식별되는 전체 피처들 및 이들의 서로에 대한 포지셔닝이 연관된 "마커"로 저장된다. 또한, 이 이미지 내의 QR 코드에 대하여 이전에 계산된 포지션이 이 새로 생성된 마커와 관련하여 저장된다.
모든 후속 카메라 이미지들(120) 및 카메라(102) 또는 마커(114)의 움직임들에서, AR 컨텐츠(124)의 3 차원 포지션 결정이 이제는 새로운, 강건한 내추럴 마커(114)에 기초하여 수행될 수가 있다.
이를 위해, SURF 알고리즘이 각 후속 카메라 이미지에서 다시 사용되며, 거기에서 발견된 피처들이 이전에 저장된 피처들과 비교된다. 충분히 매칭되는 경우, 초기 QR 코드에 링크된 이전에 저장된 마커가 후속 이미지에서 인식되는 것으로 간주된다. 또한, 이것의 위치는 퍼스펙티브 n 포인트 방법(상기 참조)에 기초하여 다시 결정될 수 있다.
증강 현실을 표현하기 위해, 예를 들어, QR 코드의 포지션 및 위치에 대해 확정된 데이터를 사용하여 예를 들어 3-D CAD 모델로서 제공되는 가상 객체들의 표현을 대응적으로 변환시킨 다음에, 가상 카메라를 사용하여 이러한 객체들의 2-D 표현을 계산할 수 있다. 마지막 단계에서, 가상 객체의 변형된 2-D 뷰가 실제 카메라 이미지 상에 중첩되며, 이것은 합성된 이미지에서, 실제 환경의 카메라 이미지 내의 QR 코드에 직접 존재하는 가상 객체의 느낌을 제공한다.
본래 식별된 QR 코드와 관련하여 카메라의 거리 또는 회전이 증가함에 따라, 상기 포지셔닝 방법은 실제 환경에서 새로운 "마커들"을 연속적으로 생성하고 QR 코드에 대한 상대 위치를 함께 저장하는데 필요한 만큼 빈번하게 반복될 수 있다. 이러한 연속적인 반복은 본 기술 분야에서 "SLAM(Simultaneous Location and Mapping)"으로 알려져 있다. 예상되는 장면에 따라(예를 들어, 두드러진 표면이나 울퉁불퉁한 구조체들, 반짝이거나 거친 재료들, 정지해 있거나 이동하는 이미지들), 전술한 SURF 방법과는 별도로 몇 가지 다른 피처 디스크립터들을 사용하여, 교란에 대해 불변하는 방식으로 피처들을 확실하게 인식할 수 있다.
따라서, 가상 이미지(124)로서 3 차원 가상 객체들의 연속적으로 안정한 표현 및 이동 그리고 음향적으로 올바른 표현이 가능하거나, 또는 기하학적 마커들과는 달리 소형이면서 눈에 띄지 않는 방식으로 실제 장면(106)에 배치되는 경우에도 이들이 트랙킹될 수 있다.
또한, AR 컨텐츠(124)와의 연관성은 링크된 코드, 즉 마커(112)에 의해 이미 고정되었기 때문에, 새로 생성되는 마커(114)의 광학적 특성은 다른 마커들과 비교하여 완전히 무관하다. 링크된 코드에서 직접 URL을 추출하는 방법을 통해서, 연속적인 검색 및 온라인 피처 데이터베이스가 회피될 수 있으며, 응용 내의 구분 가능한 마커들의 수가 거의 무한대로 증가하게 된다. 또한, 사용 시에 즉시 내추럴 AR 마커(114)를 생성함으로써, 이전의 AR 방법들과는 달리, 그들의 광학적 외관을 빈번하게 변화시키는 객체들(100), 예를 들면, 하루 중 여러 번 또는 년 중 여러 번 변화하는 하우스 프론트들도 내추럴 마커들(114)로 사용될 수 있다.
3-D CAD 데이터가 없고 상이한 원근감의 사진들만이 있는 객체들의 증강 현실 중첩은 확장을 나타낸다. 특히, 3-D CAD 데이터가 없으면 가상 객체들의 변환을 수행할 수 없다는 문제점이 있으며, 정확한 위치를 가지고 실제 환경에서 가상 객체의 포지셔닝 느낌을 주는 가상 2-D 이미지가 종래의 방법으로는 계산될 수가 없다. 이러한 문제에 대한 해결책으로서, 본 명세서에서 제시되는 것은 캡처 시에 알려진 객체에 대한 캡처 카메라의 시야각을 갖는 객체에 대하여 이전에 캡처된 사진들에 기초하여 전적으로 이러한 느낌을 주는 방법이다. 이를 위해, 카메라에 대한 전술한 QR 코드의 포지션 및 위치가 사용된다: 우선, 캡처 시의 시야각이 QR 코드에 대한 증강 현실 카메라의 시야각과 가장 대응하는 이미지가, 그 객체의 이용 가능한 이미지들 중에서 선택된다. 선택적으로, 더욱 양호한 방식으로 시야각에 대응하는 새로운 이미지가 몇몇 이미지들로부터 보간된다. 이제, 이 이미지가 증강 현실 카메라에 대한 QR 코드의 거리에 대응하여 스케일링되어, 카메라 이미지 내의 QR 코드의 포지션에 대응하여 위치되며, 이에 따라 이 두 이미지의 구성은 증강 현실 카메라로 나중에 보게되는 환경에서 이전에 촬영된 객체가 존재하는 느낌을 지속적으로 제공한다.

Claims (17)

  1. 실제 장면의 광학 및 음향 재현에 가상 3 차원 또는 2 차원 이미지 및 오디오 데이터를 오버레이하는 방법으로서,
    모바일 디바이스(100)의 적어도 하나의 환경 센서(102)에 의해 캡처된 실제 장면(106)의 이미지 재현(108)을 나타내는 이미지 데이터(364)를 적어도 나타내는 재현 데이터를 판독하는 단계(480);
    상기 이미지 데이터(364)로부터 마커 데이터(132)를 결정하는 단계(484)로서, 상기 마커 데이터(132)는 상기 실제 장면(106)에 배치되는 마커(112)의 포지셔닝 및 재현(116)을 나타내는, 상기 결정하는 단계(484);
    상기 마커 데이터(132)를 이용하여 복수(252)의 가상 이미지 및 오디오 데이터(140)로부터 선택된 이미지 및 오디오 데이터를 나타내는 가상 이미지 및 오디오 데이터를 판독하는 단계(488)로서, 상기 가상 이미지 및 오디오 데이터(140)는 가상 재현(124)으로서 다양한 각도로부터 캡처된 객체의 3 차원 정의된 객체 및/또는 캡처들의 선택을 표현하기 위한 표현 명령, 상기 가상 재현(124)을 포지셔닝하기 위한 포지셔닝 명령 및 음향 데이터의 재생을 위한 포지셔닝 명령을 포함하는, 상기 판독하는 단계(488);
    상기 재현 데이터(364)로부터 객체 데이터(134)를 결정하는 단계(486)로서, 상기 객체 데이터(134)는 다양한 각도로부터의 3 차원 재현(118) 또는 일련의 2 차원 사진들 및/또는 오디오 레코딩들과, 상기 실제 장면(106) 내의 상기 마커(112)의 환경에 배치되는 객체(110)의 객체 부분(114)의 포지셔닝으로 구성되는, 상기 결정하는 단계(486);
    상기 객체 데이터(134)와 상기 가상 이미지 및 오디오 데이터(140)를 이용하여 상기 객체 부분(114)의 상기 재현(118)을 참조하여 상기 가상 재현(124) 및 상기 음향 데이터를 표현하는 포지셔닝 규칙(positioning rule)(142)을 확정하는 단계(492);
    를 포함하는 방법.
  2. 제 1 항에 있어서,
    상기 판독하는 단계(480)에서, 상기 재현 데이터는 상기 모바일 디바이스(100)의 적어도 하나의 추가 환경 센서(103)에 의해 캡처된 상기 실제 장면(106)의 음향 재현을 나타내는 오디오 데이터(365)를 더 나타내는 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 이미지 데이터(364) 및/또는 상기 오디오 데이터(365)는 실제 이미지 및 오디오 데이터를 나타내고, 상기 객체 데이터(134)는 실제 객체 데이터를 나타내며, 상기 객체 부분(114)은 실제 객체 부분을 나타내는 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 포지셔닝 규칙(142)을 확정하는 단계(492)는 상기 마커 데이터(132) 또는 상기 마커 데이터(132)의 적어도 일부를 사용하여 확정되는 것인 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 판독하는 단계(480, 488), 상기 결정하는 단계(484, 486) 및 상기 확정하는 단계(492)의 연속적인 반복이 짧은 시간 간격으로 수행되며, 특히 초당 수회로 수행되는 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 포지셔닝 규칙(142)을 확정하는 단계(492)는 측정 디바이스의 측정된 값을 사용하여 확정되는 것이며, 특히 모바일 디바이스의 가속도 센서, 회전 센서, 자력계 또는 GPS 수신기의 측정된 값을 사용하여 확정되는 것인 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 마커 데이터(132)의 적어도 일부를 외부 디바이스(130)에 대한 인터페이스(360)에 제공하는 단계를 포함하며, 상기 가상 이미지 및 오디오 데이터(140)를 판독하는 단계(488)에서 상기 가상 이미지 및 오디오 데이터(140)는 상기 외부 디바이스(130)에 대한 상기 인터페이스(360)를 통해 판독되는 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 마커 데이터(132)를 이용하여 상기 복수(252)의 가상 이미지 및 오디오 데이터로부터 상기 가상 이미지 및 오디오 데이터(140)를 선택하는 단계(490)를 포함하는 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 마커(112)는 상기 마커(112)의 아이덴티피케이션(138)를 포함하는 기계 판독 가능 코드를 나타내며, 상기 마커 데이터(132)를 결정하는 단계(484)에서 상기 마커(112)의 상기 아이덴티피케이션(138)이 상기 마커 데이터(132)의 일부로서 결정되는 방법.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 실제 장면(106)의 추가 광학 및 음향 재현(120)에 상기 가상 이미지 및 오디오 데이터(124)를 오버레이하기 위해 상기 포지셔닝 규칙(142)을 사용하는 단계(494)를 포함하는 방법.
  11. 제 10 항에 있어서,
    상기 사용하는 단계(494)는 추가 이미지 및 오디오 데이터(376)를 판독하는 단계(495)로서, 상기 추가 이미지 및 오디오 데이터(376)는 상기 모바일 디바이스(100)의 상기 환경 센서들(102)에 의해 캡처된 상기 실제 장면(106)의 상기 추가 이미지(120)를 나타내는, 상기 판독하는 단계(495)와, 상기 추가 이미지 및 오디오 데이터(376)로부터 상기 객체 부분(114)의 추가 재현(122)의 포지셔닝을 결정하는 단계(496)와, 상기 추가 이미지 및 오디오 데이터(376), 상기 객체 부분(114)의 상기 추가 재현(122)의 포지셔닝 및 상기 포지셔닝 규칙(142)을 이용하여 오버레이된 이미지 및 오디오 데이터(374)를 생성하는 단계(497)를 포함하며, 상기 오버레이된 이미지 및 오디오 데이터(374)는 상기 실제 이미지(106)의 상기 추가 재현(120)에 대한 상기 가상 이미지 및 오디오 데이터(124)의 오버레이를 나타내는 방법.
  12. 제 10 항 또는 제 11 항에 있어서,
    상기 모바일 디바이스(100)의 디스플레이 디바이스(104) 및 재생 디바이스(105)를 이용하여 상기 실제 장면(106)의 상기 추가 재현(120)에 대한 상기 가상 이미지 및 오디오 데이터(124)의 오버레이를 디스플레이하는 단계(498)를 포함하는 방법.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
    상기 모바일 디바이스(100)의 상기 적어도 하나의 환경 센서(102, 103)를 이용하여 상기 재현 데이터(364, 365)를 캡처하는 단계(482)를 포함하는 방법.
  14. 제 1 항 내지 제 13 항 중 어느 한 항에 있어서,
    상기 마커(112)의 상기 재현(116)은 상기 실제 장면(106)의 상기 재현(108)의 1% 미만을 차지하는 방법.
  15. 실제 장면(106)의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 장치(379)로서,
    제 1 항 내지 제 14 항 중 어느 한 항에 따른 방법의 단계들을 구현하기 위한 디바이스들을 포함하는 장치.
  16. 모바일 디바이스(100)로서,
    제 15 항에 따른 장치(379)를 포함하며, 특히 스마트 폰인 모바일 디바이스.
  17. 프로그램 코드를 구비한 컴퓨터 프로그램 제품으로서,
    상기 프로그램 코드는, 상기 컴퓨터 프로그램 제품이 장치 상에서 실행될 때, 제 1 항 내지 제 14 항 중의 어느 한 항에 따른 방법을 수행하는 컴퓨터 프로그램 제품.
KR1020197016326A 2016-11-08 2017-11-07 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법 및 장치, 그리고 모바일 디바이스 KR102210541B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102016121281.4A DE102016121281A1 (de) 2016-11-08 2016-11-08 Verfahren und Vorrichtung zum Überlagern eines Abbilds einer realen Szenerie mit virtuellen Bild- und Audiodaten und ein mobiles Gerät
DE102016121281.4 2016-11-08
PCT/EP2017/078464 WO2018087084A1 (de) 2016-11-08 2017-11-07 Verfahren und vorrichtung zum überlagern eines abbilds einer realen szenerie mit virtuellen bild- und audiodaten und ein mobiles gerät

Publications (2)

Publication Number Publication Date
KR20190094166A true KR20190094166A (ko) 2019-08-12
KR102210541B1 KR102210541B1 (ko) 2021-02-01

Family

ID=60293953

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197016326A KR102210541B1 (ko) 2016-11-08 2017-11-07 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법 및 장치, 그리고 모바일 디바이스

Country Status (6)

Country Link
US (2) US10777015B2 (ko)
EP (1) EP3539086A1 (ko)
JP (1) JP7096569B2 (ko)
KR (1) KR102210541B1 (ko)
DE (1) DE102016121281A1 (ko)
WO (1) WO2018087084A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170061700A1 (en) * 2015-02-13 2017-03-02 Julian Michael Urbach Intercommunication between a head mounted display and a real world object
DE102015115394A1 (de) 2015-09-11 2017-03-16 3Dqr Gmbh Verfahren und Vorrichtung zum Überlagern eines Abbilds einer realen Szenerie mit einem virtuellen Bild und mobiles Gerät
DE102016121281A1 (de) 2016-11-08 2018-05-09 3Dqr Gmbh Verfahren und Vorrichtung zum Überlagern eines Abbilds einer realen Szenerie mit virtuellen Bild- und Audiodaten und ein mobiles Gerät
KR102086012B1 (ko) * 2018-06-21 2020-03-06 전자부품연구원 증강현실 시뮬레이터의 콘텐츠 표현 방법
DE102020004003A1 (de) * 2019-07-22 2021-01-28 Sew-Eurodrive Gmbh & Co Kg Verfahren zum Betreiben eines Systems und System zur Durchführung des Verfahrens
CN111274910B (zh) * 2020-01-16 2024-01-30 腾讯科技(深圳)有限公司 场景互动方法、装置及电子设备
CN113467603B (zh) * 2020-03-31 2024-03-08 抖音视界有限公司 音频处理方法、装置、可读介质及电子设备
CN111638793B (zh) * 2020-06-04 2023-09-01 浙江商汤科技开发有限公司 飞行器的展示方法、装置、电子设备及存储介质
CN114356068B (zh) * 2020-09-28 2023-08-25 北京搜狗智能科技有限公司 一种数据处理方法、装置和电子设备
DE102021121056A1 (de) 2021-08-12 2023-02-16 Cavos Bagatelle Verwaltungs Gmbh & Co. Kg System zur Ausgabe augmentierter Sensordaten und zugeordneter separater Ausgabedaten

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150068489A (ko) * 2011-09-08 2015-06-19 인텔 코포레이션 이미지화된 오브젝트 특성들에 기초한 증강 현실
KR20150125326A (ko) * 2014-04-30 2015-11-09 (주)제이앤씨마케팅커뮤니케이션 인터랙티브 증강현실 서비스 시스템 및 방법

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013141049A (ja) * 2010-03-24 2013-07-18 Hitachi Ltd 世界座標系データベースを利用したサーバ及び端末
SG10201400952WA (en) 2010-03-30 2014-05-29 Ns Solutions Corp Information Processing System, Information Processing Method And Program, Information Processing Apparatus, Vacant Space Guidance System, Vacant Space Guidance Method And Program, Image Display System, Image Display Method And Program
US8384770B2 (en) 2010-06-02 2013-02-26 Nintendo Co., Ltd. Image display system, image display apparatus, and image display method
US9183675B2 (en) * 2010-08-06 2015-11-10 Bizmodeline Co., Ltd. Apparatus and method for augmented reality
KR101269773B1 (ko) * 2010-12-13 2013-05-30 주식회사 팬택 증강 현실 제공 단말기 및 방법
KR101267247B1 (ko) 2011-01-13 2013-05-24 에스케이플래닛 주식회사 증강 현실을 이용한 노래방 시스템 및 장치, 이의 노래방 서비스 방법
JP5948842B2 (ja) * 2011-12-14 2016-07-06 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US9563265B2 (en) * 2012-01-12 2017-02-07 Qualcomm Incorporated Augmented reality with sound and geometric analysis
NL2008490C2 (nl) * 2012-03-15 2013-09-18 Ooms Otto Bv Werkwijze, inrichting en computerprogramma voor het extraheren van informatie over een of meerdere ruimtelijke objecten.
EP2930693B1 (en) * 2012-12-10 2020-06-24 Sony Corporation Display control device, display control method and program
US9430877B2 (en) 2013-01-25 2016-08-30 Wilus Institute Of Standards And Technology Inc. Electronic device and method for selecting augmented content using the same
JP6369461B2 (ja) 2013-05-27 2018-08-08 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
JP6323040B2 (ja) * 2014-02-12 2018-05-16 株式会社リコー 画像処理装置、画像処理方法およびプログラム
JP6237326B2 (ja) 2014-02-25 2017-11-29 富士通株式会社 姿勢推定装置、姿勢推定方法及び姿勢推定用コンピュータプログラム
JP6543924B2 (ja) * 2014-12-17 2019-07-17 富士通株式会社 情報処理方法、情報処理プログラム、及び情報処理装置
DE102016121281A1 (de) 2016-11-08 2018-05-09 3Dqr Gmbh Verfahren und Vorrichtung zum Überlagern eines Abbilds einer realen Szenerie mit virtuellen Bild- und Audiodaten und ein mobiles Gerät

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150068489A (ko) * 2011-09-08 2015-06-19 인텔 코포레이션 이미지화된 오브젝트 특성들에 기초한 증강 현실
KR20150125326A (ko) * 2014-04-30 2015-11-09 (주)제이앤씨마케팅커뮤니케이션 인터랙티브 증강현실 서비스 시스템 및 방법

Also Published As

Publication number Publication date
DE102016121281A1 (de) 2018-05-09
US10777015B2 (en) 2020-09-15
US20210049823A1 (en) 2021-02-18
KR102210541B1 (ko) 2021-02-01
US20190266803A1 (en) 2019-08-29
EP3539086A1 (de) 2019-09-18
WO2018087084A1 (de) 2018-05-17
JP2020513604A (ja) 2020-05-14
JP7096569B2 (ja) 2022-07-06
US11100719B2 (en) 2021-08-24

Similar Documents

Publication Publication Date Title
KR102210541B1 (ko) 실제 장면의 재현에 가상 이미지 및 오디오 데이터를 오버레이하는 방법 및 장치, 그리고 모바일 디바이스
US11470303B1 (en) Two dimensional to three dimensional moving image converter
US11528576B2 (en) Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems
JP4880350B2 (ja) 実マーカオブジェクトを識別する拡張現実システム
US9275302B1 (en) Object detection and identification
CN106062862A (zh) 用于沉浸式和交互式多媒体生成的系统和方法
KR101227237B1 (ko) 복수의 마커를 이용하여 가상 객체간 인터렉션을 구현하는 증강현실 시스템 및 방법
KR101263686B1 (ko) 증강 현실을 이용한 노래방 시스템 및 장치, 이의 노래방 서비스 방법
CN109564760A (zh) 通过3d音频定位来生成虚拟或增强现实呈现的方法和装置
KR102042793B1 (ko) 실제 장면의 화상을 가상 이미지와 오버레이하는 방법 및 장치, 그리고 모바일 디바이스
US10970932B2 (en) Provision of virtual reality content
JP2020520576A (ja) 空間オーディオの提示のための装置および関連する方法
JP2020520576A5 (ko)
JP6656382B2 (ja) マルチメディア情報を処理する方法及び装置
US20130215010A1 (en) Portable electronic equipment and method of visualizing sound
KR20200143293A (ko) 실시간 다원 ar 방송을 위한 증강 현실 영상 생성 방법 및 장치
JP6676785B2 (ja) バーチャル環境表示における視方向の設定方法
JP2005295181A (ja) 音声情報生成装置
JP6763154B2 (ja) 画像処理プログラム、画像処理装置、画像処理システム、及び画像処理方法
US11295531B1 (en) System and method for generating interactive virtual image frames in an augmented reality presentation
JP4185437B2 (ja) 映像合成出力装置及び音声再生出力装置
KR20230164187A (ko) 오디오 신호를 생성하기 위한 장치 및 방법
NZ795232A (en) Distributed audio capturing techniques for virtual reality (1vr), augmented reality (ar), and mixed reality (mr) systems

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant