KR101691903B1

KR101691903B1 - 광학 캐릭터 인식을 사용하여 증강 현실을 제공하기 위한 방법 및 장치

Info

Publication number: KR101691903B1
Application number: KR1020157021036A
Authority: KR
Inventors: 브라드포드 에이치. 니드함; 케빈 씨. 웰스
Original assignee: 인텔 코포레이션
Priority date: 2013-03-06
Filing date: 2013-03-06
Publication date: 2017-01-02
Also published as: JP2016515239A; JP6105092B2; EP2965291A4; EP2965291A1; CN104995663A; KR20150103266A; WO2014137337A1; CN104995663B; US20140253590A1

Abstract

프로세싱 시스템은 광학 캐릭터 인식(OCR)을 사용하여 증강 현실(AR)을 제공한다. 프로세싱 시스템은, 장면의 비디오에 기초하여, 장면이 미리 결정된 AR 타겟을 포함하는지를 자동으로 결정한다. 장면이 AR 타겟을 포함한다고 결정하는 것에 응답하여, 프로세싱 시스템은 AR 타겟과 연관된 OCR 존 정의를 자동으로 검색한다. OCR 존 정의는 OCR 존을 식별한다. 프로세싱 시스템은 자동으로 OCR을 사용하여 OCR 존으로부터 텍스트를 추출한다. 프로세싱 시스템은 OCR의 결과들을 사용하여 OCR 존으로부터의 텍스트에 대응하는 AR 콘텐츠를 획득한다. 프로세싱 시스템은 AR 콘텐츠가 장면과 함께 자동으로 표시되게 한다. 다른 실시예들이 기술되고 청구된다.

Description

광학 캐릭터 인식을 사용하여 증강 현실을 제공하기 위한 방법 및 장치{METHODS AND APPARATUS FOR USING OPTICAL CHARACTER RECOGNITION TO PROVIDE AUGMENTED REALITY}

본원에 기술된 실시예들은 일반적으로는 데이터 프로세싱에 관한 것이고, 구체적으로는 광학 캐릭터 인식을 사용하여 증강 현실을 제공하기 위한 방법 및 장치에 관한 것이다.

데이터 프로세싱 시스템은 데이터 프로세싱 시스템의 사용자가 비디오를 캡쳐 및 디스플레이할 수 있게 하는 특징들을 포함할 수 있다. 비디오가 캡쳐된 이후, 비디오 편집 소프트웨어가, 예를 들어, 제목을 중첩(superimposing)시킴으로써, 비디오의 콘텐츠를 변경하기 위해 사용될 수 있다. 또한, 최근의 개발은 증강 현실(AR)로서 공지된 분야의 출현을 도래시켰다. "WIKIPEDIA" 상표 하에서 제공된 온라인 백과사전에서의 "증강 현실" 입력에 의해 설명된 바와 같이, AR은 "그 엘리먼트들이 사운드, 비디오, 그래픽 또는 GPS 데이터와 같은 컴퓨터-생성된 감지 입력에 의해 증강된 물리적인, 실세계 환경(real-world environment)의 라이브, 직접적 또는 간접적 뷰이다. 통상적으로, AR을 이용하여, 비디오가 실시간으로 수정된다. 예를 들어, 텔레비전(TV) 방송국이 미식 축구 경기의 라이브 비디오를 방송하고 있을 때, TV 방송국은 데이터 프로세싱 시스템을 사용하여 실시간으로 비디오를 수정할 수 있다. 예를 들어, 데이터 프로세싱 시스템은 공격팀이 제1 다운을 얻기 위해 공을 얼마나 멀리 이동시켜야 하는지를 보여주기 위해 축구 필드를 가로질러 황색선을 중첩시킬 수 있다.

추가로, 일부 회사들은 AR이 더 개인적인 레벨에서 사용될 수 있게 하는 기술에 노력을 가하고 있다. 예를 들어, 일부 회사들은 스마트 폰에 의해 캡쳐된 비디오에 기초하여, 스마트 폰이 AR을 제공할 수 있게 하는 기술을 개발 중이다. 이러한 타입의 AR은 모바일 AR의 예로서 간주될 수 있다. 모바일 AR 세계는 크게 2개의 상이한 타입의 경험들, 즉, 지오로케이션-기반(geolocation-based) AR 및 비전-기반(vision-based) AR로 구성된다. 지오로케이션-기반 AR은 글로벌 포지셔닝 시스템(GPS) 센서들, 나침반 센서들, 카메라들, 및/또는 사용자의 모바일 디바이스 내의 다른 센서들을 사용하여 다양한 지오로케이팅된 관심 포인트들을 도시하는 AR 콘텐츠를 "헤드-업(heads-up)" 디스플레이에 제공한다. 비전-기반 AR은 동종의 일부 센서들을 사용하여 실세계 오브젝트들(예를 들어, 잡지, 엽서, 제품 포장)의 시각적 특징들을 추적함으로써 이들 오브젝트들이 있는 상황에서 AR 콘텐츠를 디스플레이할 수 있다. AR 콘텐츠는 또한 디지털 콘텐츠, 컴퓨터-생성 콘텐츠, 가상 콘텐츠, 가상 오브젝트 등으로서 지칭될 수 있다.

그러나, 많은 연관된 도전과제들이 극복되기 이전에는 비전-기반 AR이 흔해질 가능성은 적다.

통상적으로, 데이터 프로세싱 시스템이 비전-기반 AR을 제공할 수 있기 이전에, 데이터 프로세싱 시스템은, 실제로, 현재 비디오 장면이 AR에 대해 적합함을 데이터 프로세싱 시스템에 통지하는 비디오 장면 내의 무언가를 검출해야 한다. 예를 들어, 의도된 AR 경험이, 장면이 특정 물리적 오브젝트 또는 이미지를 포함할 때마다 특정 가상 오브젝트를 비디오 장면에 추가하는 것을 수반하는 경우, 시스템은 먼저 비디오 장면 내의 물리적 오브젝트 또는 이미지를 검출해야 한다. 제1 오브젝트는 "AR-인식가능 이미지" 또는 단순히 "AR 마커" 또는 "AR 타겟"으로서 지칭될 수 있다.

비전-기반 AR 분야에서의 도전과제들 중 하나는 개발자들이 AR 타겟들로서 적합한 이미지들 또는 오브젝트들을 생성하는 것이 여전히 상대적으로 어렵다는 점이다. 효과적인 AR 타겟은 높은 레벨의 시각적 복잡성 및 비대칭성을 포함한다. 그리고, AR 시스템이 하나 초과의 AR 타겟을 지원하는 경우, 각각의 AR 타겟은 다른 AR 타겟들 모두와는 충분히 달라야 한다. 처음에 AR 타겟들로서 사용가능한 것으로 보일 수 있는 많은 이미지들 또는 오브젝트들은 위의 특성들 중 하나 이상이 사실상 부족하다.

또한, AR 애플리케이션이 더 큰 수의 상이한 AR 타겟들을 지원함에 따라, AR 애플리케이션의 이미지 인식 부분은 더 많은 양의 프로세싱 자원들(예를 들어, 메모리 및 프로세서 사이클들)을 요구할 수 있고, 그리고/또는 AR 애플리케이션이 이미지들을 인식하는데 더 많은 시간이 걸릴 수 있다. 따라서, 확장가능성(scalability)이 문제가 될 수 있다.

도 1은 광학 캐릭터 인식을 사용하여 증강 현실(AR)을 제공하는 예시적인 데이터 프로세싱 시스템의 블록도이다.
도 2a는 비디오 이미지 내의 예시적인 OCR 존을 도시하는 개략도이다.
도 2b는 비디오 이미지 내의 예시적인 AR 콘텐츠를 도시하는 개략도이다.
도 3은 AR 시스템을 구성하기 위한 예시적인 프로세스의 흐름도이다.
도 4는 AR을 제공하기 위한 예시적인 프로세스의 흐름도이다.
도 5는 콘텐츠 제공자로부터 AR 콘텐츠를 검색하기 위한 예시적인 프로세스의 흐름도이다.

위에서 나타난 바와 같이, AR 시스템은 AR 타겟을 사용하여 대응하는 AR 오브젝트가 비디오 장면에 추가되어야 함을 결정할 수 있다. AR 시스템이 많은 상이한 AR 타겟들을 인식하게 될 수 있는 경우, AR 시스템은 많은 상이한 AR 오브젝트들을 제공하게 될 수 있다. 그러나, 위에서 나타난 바와 같이, 개발자들이 적합한 AR 타겟들을 생성하는 것이 쉽지 않다. 추가로, 종래의 AR 기술을 이용하면, 충분히 유용한 AR 경험을 제공하기 위해 많은 상이한 고유한 타겟들을 생성하는 것이 필요할 수 있다.

다수의 상이한 AR 타겟들의 생성과 연관된 도전과제들 중 일부가 대중 버스 시스템을 이용하는 사람들에게 정보를 제공하기 위해 AR을 사용하는 가상 애플리케이션의 상황에서 예시될 수 있다. 버스 시스템의 운용자는 수백 개의 버스 정류장 표지판 상에 고유한 AR 타겟들을 배치하기를 원할 수 있고, 운용자는 AR 애플리케이션이 AR을 사용하여 다음 버스가 언제 그 정류장에 도착할 것으로 예상되는지를 각각의 버스 정류장에 있는 승객들에게 통지하기를 원할 수 있다. 추가로, 운용자는 AR 타겟들이 거의 상표와 같이, 승객들에게 인식가능한 마크로서의 역할을 하기를 원할 수 있다. 다시 말해, 운용자는 AR 타겟들이 그 운용자에 대해서는 모든 AR 타겟들에 대해 공통적인 인식가능한 외관을 가지는 동시에 또한 보는 사람(human viewer)에 의해 다른 엔티티들에 의해 사용되는 마크들, 로고들 또는 디자인들과는 쉽게 구별되기를 원할 수 있다.

본 개시내용에 따르면, 각각의 상이한 AR 오브젝트에 대한 상이한 AR 타겟을 요구하는 것 대신, AR 시스템은 광학 캐릭터 인식(OCR; optical character recognition) 존을 AR 타겟과 연관시킬 수 있고, 시스템은 OCR을 사용하여 OCR 존으로부터 텍스트를 추출할 수 있다. 일 실시예에 따르면, 시스템은 AR 타겟 및 OCR로부터의 결과들을 사용하여 비디오에 추가될 AR 오브젝트를 결정한다. OCR에 관한 추가적인 상세항목들은 워드 렌즈(Word Lens)로서 공지되어 있는 애플리케이션에 대해 questvisual.com/us/의 Quest Visual, Inc.에 대한 웹사이트에서 찾을 수 있다. AR에 대한 추가적인 상세항목들은 www.hitl.washington.edu/artoolkit/documentation에 있는 ARToolKit 소프트웨어 라이브러리에 대한 웹사이트에서 찾을 수 있다.

도 1은 증강 현실(AR)을 제공하기 위해 광학 캐릭터 인식을 사용하는 예시적인 데이터 프로세싱 시스템의 블록도이다. 도 1의 실시예에서, 데이터 프로세싱 시스템(10)은 사용자에게 AR 경험을 제공하도록 협력하는 다수의 프로세싱 디바이스들을 포함한다. 그 프로세싱 디바이스들은 사용자 또는 소비자에 의해 동작되는 로컬 프로세싱 디바이스(21), AR 중개자(broker)에 의해 동작되는 원격 프로세싱 디바이스(12), AR 마크 생성자에 의해 동작되는 또다른 원격 프로세싱 디바이스(16), 및 AR 콘텐츠 제공자에 의해 동작되는 또다른 원격 프로세싱 디바이스(18)를 포함한다. 도 1의 실시예에서, 로컬 프로세싱 디바이스(21)는 모바일 프로세싱 디바이스(예를 들어, 스마트 폰, 태블릿 등)이고, 원격 프로세싱 디바이스들(12, 16 및 18)은 랩톱, 데스크톱, 또는 서버 시스템들이다. 그러나 다른 실시예들에서, 임의의 적절한 타입의 프로세싱 디바이스가 전술된 프로세싱 디바이스들 각각에 대해 사용될 수 있다.

본원에서 사용되는 바와 같이, 용어들 "프로세싱 시스템" 및 "데이터 프로세싱 시스템"은 단일 기계, 또는 함께 동작하는 통신상으로 커플링된 기계들 또는 디바이스들을 넓게 포함하도록 의도된다. 예를 들어, 둘 이상의 기계들은 본원에 기술된 기능성 중 일부 또는 모두를 제공하기 위해 피어-투 피어 모델, 클라이언트/서버 모델, 또는 클라우드 컴퓨팅 모델에 대한 하나 이상의 변형들을 사용하여 협력할 수 있다. 도 1의 실시예에서, 프로세싱 시스템(10) 내의 프로세싱 디바이스들은 하나 이상의 네트워크들(14)을 통해 서로 접속하거나 통신할 수 있다. 네트워크들은 로컬 영역 네트워크(LAN)들 및/또는 광역 네트워크(WAN)들(예를 들어, 인터넷)을 포함할 수 있다.

참조의 용이함을 위해, 로컬 프로세싱 디바이스(21)는 "모바일 디바이스", "개인 디바이스", "AR 클라이언트" 또는 단순히 "소비자"로서 지칭될 수 있다. 유사하게, 원격 프로세싱 디바이스(12)는 "AR 중개자"로서 지칭될 수 있고, 원격 프로세싱 디바이스(16)는 "AR 타겟 생성자"로서 지칭될 수 있고, 원격 프로세싱 디바이스(18)는 "AR 콘텐츠 제공자"로서 지칭될 수 있다. 하기에 더욱 상세히 기술되는 바와 같이, AR 중개자는 AR 타겟 생성자, AR 콘텐츠 제공자 및 AR 브라우저가 협력하는 것을 보조할 수 있다. AR 브라우저, AR 중개자, AR 콘텐츠 제공자 및 AR 타겟 생성자는 총체적으로 AR 시스템으로서 지칭될 수 있다. AR 중개자들, AR 브라우저들, 및 하나 이상의 AR 시스템들의 다른 컴포넌트들은 www.layar.com에 있는 Layar사의 웹사이트 및/또는 www.metaio.com에 있는 metaio GmbH/metaio Inc.("metaio사")의 웹사이트에서 찾을 수 있다.

도 1의 실시예에서, 모바일 디바이스(21)는, 프로세서에 응답하거나 커플링된 랜덤 액세스 메모리(RAM)(24), 판독-전용 메모리(ROM)(26), 하드 디스크 드라이브 또는 다른 비휘발성 데이터 저장소(28), 네트워크 포트(32), 카메라(34) 및 디스플레이 패널(23)과 함께, 적어도 하나의 중앙 처리 장치(CPU) 또는 프로세서(22)를 특징으로 한다. 추가적인 입력/출력(I/O) 컴포넌트들(예를 들어, 키보드)이 또한 프로세서에 응답하거나 커플링될 수 있다. 일 실시예에서, 카메라(또는 모바일 디바이스 내의 또다른 I/O 컴포넌트)는 적외선과 같이, 사람 눈으로 검출가능한 것을 초과하는 전자기 파장들을 프로세싱할 수 있다. 그리고 모바일 디바이스는 해당 파장들을 포함하는 비디오를 사용하여 AR 타겟들을 검출할 수 있다.

데이터 저장소는 운영 체제(OS)(40) 및 AR 브라우저(42)를 포함한다. AR 브라우저는 모바일 디바이스가 사용자에게 AR 경험을 제공할 수 있게 하는 애플리케이션일 수 있다. AR 브라우저는 오직 단일 AR 콘텐츠 제공자에 대한 AR 서비스들을 제공하도록 설계된 애플리케이션으로서 구현될 수 있거나, 또는 AR 브라우저는 다수의 AR 콘텐츠 제공자들에 대한 AR 서비스들을 제공할 수 있다. 모바일 디바이스는 특히, AR 브라우저를 사용하여 AR을 제공할 때, 실행을 위해 RAM에 OS의 일부 또는 전부 및 AR 브라우저의 일부 또는 전부를 카피할 수 있다. 추가로, 데이터 저장소는 AR 데이터베이스(44)를 포함하고, 그 중 일부 또는 전부가 RAM에 카피되어 AR 브라우저의 동작을 용이하게 할 수 있다. AR 브라우저는 디스플레이 패널을 사용하여 비디오 이미지(25) 및/또는 다른 출력을 디스플레이할 수 있다. 디스플레이 패널은 또한 터치 감지형일 수 있으며, 이 경우, 디스플레이 패널이 또한 입력을 위해 사용될 수 있다.

AR 중개자, AR 마크 생성자, 및 AR 콘텐츠 제공자에 대한 프로세싱 디바이스들은 모바일 디바이스에 대해 전술된 것과 유사한 특징들을 포함할 수 있다. 추가로, 하기에 더욱 상세히 기술되는 바와 같이, AR 중개자는 AR 중개자 애플리케이션(50) 및 중개자 데이터베이스(51)를 포함할 수 있고, AR 타겟 생성자(TC)는 TC 애플리케이션(52) 및 TC 데이터베이스(53)를 포함할 수 있고, AR 콘텐츠 제공자(CP)는 CP 애플리케이션(54) 및 CP 데이터베이스(55)를 포함할 수 있다. 모바일 컴퓨터 내의 AR 데이터베이스(44)는 또한 클라이언트 데이터베이스(44)로 지칭될 수 있다.

하기에 더욱 상세하게 기술되는 바와 같이, AR 타겟의 생성에 더하여, AR 타겟 생성자는 AR 타겟에 대해, 하나 이상의 OCR 존들 및 하나 이상의 AR 콘텐츠 존들을 정의할 수 있다. 이 개시내용의 목적을 위해, OCR 존은 텍스트가 추출될 비디오 장면 내의 영역 또는 공간이고, AR 콘텐츠 존은 AR 콘텐츠가 표시될 비디오 장면 내의 영역 또는 공간이다. AR 콘텐츠 존은 또한 단순히 AR 존으로 지칭될 수도 있다. 일 실시예에서, AR 타겟 생성자는 AR 존 또는 존들을 정의한다. 또다른 실시예에서, AR 콘텐츠 제공자는 AR 존 또는 존들을 정의한다. 하기에 더 상세히 기술되는 바와 같이, 좌표 시스템이 AR 타겟에 대해 AR 존을 정의하기 위해 사용될 수 있다.

도 2a는 비디오 이미지 내의 예시적인 OCR 존 및 예시적인 AR 타겟을 도시하는 개략도이다. 특히, 예시된 비디오 이미지(25)는 타겟(82)을 포함하며, 그 경계가 예시의 목적으로 점선으로 도시되어 있다. 그리고 이미지는 타겟의 우측 경계에 인접하게 위치되며 타겟의 폭과 거의 동일한 거리만큼 오른쪽으로 확장하는 OCR 존(84)을 포함한다. OCR 존(84)의 경계가 또한 예시의 목적으로 점선으로 도시되어 있다. 비디오(25)는 카메라가 버스 정류장 표지판(90)을 향해 있는 동안 생성된 모바일 디바이스로부터의 출력을 도시한다. 그러나, 적어도 일 실시예에서, 도 2a에 도시된 점선은 실제로 디스플레이 상에는 나타나지 않을 것이다.

도 2b는 비디오 이미지 또는 장면 내의 예시적인 AR 출력을 도시하는 개략도이다. 특히, 하기에 더욱 상세히 기술되는 바와 같이, 도 2b는 AR 존(86) 내의 AR 브라우저에 의해 표시되는 AR 콘텐츠(예를 들어, 다음 버스의 예상 도착 시간)를 도시한다. 따라서, OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠는 자동으로 장면과 함께(예를 들어, 그 안에) 표시되게 될 수 있다. 위에서 나타난 바와 같이, AR 존은 좌표 시스템의 견지에서 정의될 수 있다. 그리고 AR 브라우저는 그 좌표 시스템을 사용하여 AR 콘텐츠를 표시할 수 있다. 예를 들어, 좌표 시스템은 원점(예를 들어, AR 타겟의 상단-좌측 코너), 축들의 세트(예를 들어, AR 타겟의 평면에서의 수평 움직임에 대한 X, 동일 평면에서의 수직 움직임에 대한 Y, 및 AR 타겟의 평면에 수직하는 움직임에 대한 Z), 및 크기(예를 들어, "AR 타겟 폭 = 0.22 미터")를 포함할 수 있다. AR 타겟 생성자 또는 AR 콘텐츠 제공자는 AR 좌표 시스템의 컴포넌트들에 대응하거나 이들을 구성하는 AR 존 파라미터들에 대한 원하는 값들을 특정함으로써 AR 존을 정의할 수 있다. 따라서, AR 브라우저는 AR 존 정의 내의 값들을 사용하여 AR 좌표 시스템에 대한 AR 콘텐츠를 표시할 수 있다. AR 좌표 시스템은 또한 단순히 AR 원점으로 지칭될 수 있다. 일 실시예에서, Z축이 있는 좌표 시스템은 3차원(3D) AR 콘텐츠에 대해 사용되고, Z축이 없는 좌표 시스템은 2차원(2D) AR 콘텐츠에 대해 사용된다.

도 3은 AR 경험(예를 들어, 도 2b에 도시된 경험과 유사함)을 생성하기 위해 사용될 수 있는 정보를 이용하여 AR 시스템을 구성하기 위한 예시적인 프로세스의 흐름도이다. 예시된 프로세스는, 블록(210)에 도시된 바와 같이, 사람이 TC 애플리케이션을 사용하여 AR 타겟을 생성하는 것으로 시작한다. AR 타겟 생성자 및 AR 콘텐츠 제공자는 동일한 프로세싱 디바이스 상에서 동작할 수 있거나, 또는 이들은 동일한 엔티티에 의해 제어될 수 있거나, 또는 AR 타겟 생성자가 AR 콘텐츠 제공자에 대한 타겟들을 생성할 수 있다. TC 애플리케이션은 임의의 적절한 기법들을 사용하여 AR 타겟들을 생성하거나 정의할 수 있다. AR 타겟 정의는, 예를 들어, AR 타겟의 실세계 디멘젼을 포함하는, AR 타겟의 속성들을 특정하기 위한 다양한 값들을 포함할 수 있다. AR 타겟이 생성된 이후, TC 애플리케이션은 AR 중개자에 그 타겟의 카피를 송신할 수 있고, AR 중개자 애플리케이션은 블록(250)에 도시된 바와 같이, 타겟에 대한 영상 데이터를 계산할 수 있다. 영상 데이터는 타겟의 특징들 중 일부에 관한 정보를 포함한다. 특히, 영상 데이터는 AR 브라우저가 타겟이 모바일 디바이스에 의해 캡쳐된 비디오 내에 나타나는지를 결정하기 위해 사용할 수 있는 정보, 뿐만 아니라 AR 좌표 시스템에 대한 카메라의 포즈(예를 들어, 위치 및 배향)를 계산하기 위한 정보를 포함할 수 있다. 따라서, 영상 데이터가 AR 브라우저에 의해 사용될 때, 그것은 미리 결정된 영상 데이터로서 지칭될 수 있다. 영상 데이터는 또한 이미지 인식 데이터로서 지칭될 수 있다. 도 2a에 도시된 AR 타겟에 관해, 영상 데이터는 예를 들어, 이미지 내에 나타나는 더 높은-콘트라스트 에지들 및 코너들(예각들), 및 서로에 대한 이들의 위치들과 같은 특성들을 식별할 수 있다.

또한, 블록(252)에 도시된 바와 같이, AR 중개자 애플리케이션은 라벨 또는 식별자(ID)를 타겟에 할당하여, 향후의 참조를 용이하게 할 수 있다. AR 중개자는 이후, 영상 데이터 및 타겟 ID를 AR 타겟 생성자에게 리턴시킬 수 있다.

블록(212)에 도시된 바와 같이, AR 타겟 생성자는 이후 AR 타겟에 대한 AR 좌표 시스템을 정의할 수 있고, AR 타겟 생성자는 그 좌표 시스템을 사용하여 AR 타겟에 대한 OCR 존의 경계들을 특정할 수 있다. 다시 말해, AR 타겟 생성자는 OCR을 사용하여 인식될 수있는 텍스트를 포함하도록 예상된 영역에 대한 경계들을 정의할 수 있고, OCR의 결과들은 타겟의 상이한 인스턴스들을 구별하기 위해 사용될 수 있다. 일 실시예에서, AR 타겟 생성자는 AR 타겟의 헤드-온 뷰(head-on view)를 모델링하거나 시뮬레이팅하는 모델 비디오 프레임에 대해 OCR 존을 특정한다. OCR 존은 OCR을 사용하여 텍스트가 추출될 비디오 프레임 내의 영역을 구성한다. 따라서, AR 타겟은 관련된 AR 콘텐츠를 식별하기 위한 하이-레벨 분류자로서의 역할을 할 수 있고, OCR 존으로부터의 텍스트는 관련된 AR 콘텐츠를 식별하기 위한 로우-레벨 분류자로서의 역할을 할 수 있다. 도 2a의 실시예는 버스 정류장 번호를 포함하도록 설계된 OCR 존을 도시한다.

AR 타겟 생성자는 타겟의 위치 또는 타겟의 특정 특징들에 대해 OCR 존의 경계들을 특정할 수 있다. 예를 들어, 도 2a에 도시된 타겟에 대해, AR 타겟 생성자는 다음과 같이 OCR 존을 정의할 수 있다: 타겟과 동일한 평면을 공유하며, (a) 타겟의 우측 경계에 인접하게 위치된 좌측 경계, (b) 타겟의 폭과 거의 동일한 거리만큼 우측으로 확장하는 폭, (c) 타겟의 상단 우측 코너 근처의 상단 경계, 및 (d) 타겟의 높이의 거의 15 퍼센트의 거리만큼 아래로 확장하는 높이를 가지는 직사각형. 대안적으로, OCR 존은 AR 좌표 시스템에 대해, 예를 들어, 좌표{X = 0.25m, Y = -0.10m, Z = 0.0m}에서의 상단-좌측 코너 및 좌표{X = 0.25m, Y = - 0.30m, Z = 0.0m}에서의 하단-우측 코너를 가지는 직사각형으로 정의될 수 있다. 대안적으로, OCR 존은 좌표{X = 0.30m, Y = -0.20m}에서 AR 타겟의 평면 내의 중심 및 0.10m의 반경을 가지는 원형 영역으로서 정의될 수 있다. 일반적으로, OCR 존은 AR 좌표 시스템에 대한 표면 내의 폐쇄 영역들의 세트의 임의의 공식적 기재에 의해 정의될 수 있다. TC 애플리케이션은 이후 블록(253)에 도시된 바와 같이, AR 좌표 시스템(ARCS) 및 OCR 존에 대한 타겟 ID 및 사양들을 AR 중개자에게 송신할 수 있다.

블록(254)에 도시된 바와 같이, AR 중개자는 이후 타겟 ID, 영상 데이터, OCR 존 정의, 및 ARCS를 CP애플리케이션에 송신할 수 있다.

AR 콘텐츠 제공자는 이후, 블록(214)에 도시된 바와 같이, AR 콘텐츠가 추가되어야 할 장면 내에 하나 이상의 존들을 특정하기 위해 CP 애플리케이션을 사용할 수 있다. 다시 말해, CP 애플리케이션은 도 2b의 AR 존(86)과 같은 AR 존을 정의하기 위해 사용될 수 있다. OCR 존을 정의하기 위해 사용되는 동종의 접근법이 AR 존을 정의하기 위해 사용될 수 있거나, 또는 임의의 다른 적절한 접근법이 사용될 수 있다. 예를 들어, CP 애플리케이션은 AR 좌표 시스템에 대한 AR 콘텐츠를 디스플레이하기 위한 위치를 특정할 수 있고, 위에서 나타난 바와 같이, AR 좌표 시스템은 예를 들어, 원점을 AR 타겟의 상단-좌측 코너에 위치되도록 정의할 수 있다. 블록(214)에서 블록(256)으로 이어지는 화살표로 나타난 바와 같이, CP 애플리케이션은 이후 타겟 ID를 가지는 AR 존 정의를 AR 중개자에게 송신할 수 있다.

AR 중개자는 블록(256)에 도시된 바와 같이, 타겟 ID, 영상 데이터, OCR 존 정의, AR 존 정의 및 ARCS를 중개자 데이터베이스에 저장할 수 있다. 타겟 ID, 존 정의들, 영상 데이터, ARCS, 및 AR 타겟에 대한 임의의 다른 미리 정의된 데이터는 그 타겟에 대한 AR 구성 데이터로서 지칭될 수 있다. TC 애플리케이션 및 CP 애플리케이션은 또한 AR 구성 데이터의 일부 또는 전부를, 각자 TC 데이터베이스 및 CP 데이터베이스에 저장할 수 있다.

일 실시예에서, 타겟 생성자는 TC 애플리케이션을 사용하여, 카메라 포즈가 타겟에 대해 정면으로 배향된(oriented head on to the target) 것처럼 구성된 모델 비디오 프레임의 상황에서 타겟 이미지 및 OCR 존 또는 존들을 생성한다. 마찬가지로, CP 애플리케이션은 카메라 포즈가 타겟에 대해 정면으로 배향된 것처럼 구성된 모델 비디오 프레임의 상황에서 AR 존 또는 존들을 정의할 수 있다. 영상 데이터는 AR 브라우저에 의해 수신된 라이브 장면이 타겟에 대해 정면으로 배향된 카메라 포즈를 가지지 않는 경우라도 AR 브라우저가 타겟을 검출하도록 할 수 있다.

블록(220)에 도시된 바와 같이, 하나 이상의 AR 타겟들이 생성된 이후, 사람 또는 "소비자"는 이후 AR 브라우저를 사용하여 AR 중개자로부터의 AR 서비스들을 구독할 수 있다. 그 응답으로, AR 중개자는, 블록(260)에 도시된 바와 같이, 자동으로 AR 구성 데이터를 AR 브라우저에 송신할 수 있다. AR 브라우저는 이후, 블록(222)에 도시된 바와 같이, 클라이언트 데이터베이스에 그 구성 데이터를 저장할 수 있다. 소비자가 오직 단일 콘텐츠 제공자로부터의 AR에 대한 액세스를 등록한 경우, AR 중개자는 그 콘텐츠 제공자에 대한 구성 데이터만을 AR 브라우저 애플리케이션에 송신할 수 있다. 대안적으로, 등록은 단일 콘텐츠 제공자에게 제한되지 않을 수 있으며, AR 중개자는 클라이언트 데이터베이스에 저장될 다수의 콘텐츠 제공자들에 대한 AR 구성 데이터를 AR 브라우저에 송신할 수 있다.

추가로, 블록(230)에 도시된 바와 같이, 콘텐츠 제공자는 AR 콘텐츠를 생성할 수 있다. 그리고 블록(232)에 도시된 바와 같이, 콘텐츠 제공자는 그 콘텐츠를 그 타겟과 연관된 특정 AR 타겟 및 특정 텍스트와 링크시킬 수 있다. 특히, 텍스트는 OCR이 그 타겟과 연관된 OCR 존 상에서 수행될 때 획득될 결과들에 대응할 수 있다. 콘텐츠 제공자는 타겟 ID, 텍스트, 및 대응하는 AR 콘텐츠를 AR 중개자에게 송신할 수 있다. AR 중개자는, 블록(270)에 도시된 바와 같이, 그 데이터를 중개자 데이터베이스에 저장할 수 있다. 추가로 또는 대안적으로, 하기에 더욱 상세히 기술되는 바와 같이, 콘텐츠 제공자는, AR 브라우저가 타겟을 검출하고 AR 콘텐츠 제공자에게 접촉한 이후, 가능하게는 AR 중개자를 통해, 동적으로 AR 콘텐츠를 제공할 수 있다.

도 4는 AR 콘텐츠를 제공하기 위한 예시적인 프로세스의 흐름도이다. 프로세스는, 블록(310)에 도시된 바와 같이, 모바일 디바이스가 라이브 비디오를 캡쳐하고 그 비디오를 AR 브라우저에 공급하는 것으로 시작한다. 블록(312)에 나타난 바와 같이, AR 브라우저는 컴퓨터 비전(computer vision)으로서 공지된 기술을 사용하여 그 비디오를 프로세싱한다. 컴퓨터 비전은 AR 브라우저가 표준 또는 모델 이미지에 대해, 라이브 비디오에서 자연스럽게 발생하는 차이를 보상할 수 있게 한다. 예를 들어, 컴퓨터 비전은, 카메라가 타겟에 대해 기울어져 배치된 등의 경우라도, 블록(314)에 도시된 바와 같이, AR 브라우저가 그 타겟에 대한 미리 결정된 영상 데이터에 기초하여, 비디오 내의 타겟을 인식할 수 있게 할 수 있다. 블록(316)에 도시된 바와 같이, AR 타겟이 검출되는 경우, AR 브라우저는 이후, 카메라 포즈(예를 들어, AR 타겟과 연관된 AR 좌표 시스템에 대한 카메라의 위치 및 배향)를 결정할 수 있다. 카메라 포즈를 결정한 이후, AR 브라우저는 OCR 존의 라이브 비디오 내의 위치를 계산할 수 있고, AR 브라우저는, 블록(318)에 도시된 바와 같이, 그 존에 OCR을 적용할 수 있다. 카메라 포즈를 계산하기 위한(예를 들어, AR 이미지에 대한 카메라의 위치 및 배향을 계산하기 위한) 하나 이상의 접근법들에 대한 추가적인 상세항목들은 www.hitl.washington.edu/artoolkit/documentation/tutorialcamera.htm에 있는 "Tutorial 2: Camera and Marker Relationships"라는 명칭의 논문에서 찾을 수 있다. 예를 들어, 변환 행렬이 사용되어 표지판의 현재 카메라 뷰를 동일한 표지판의 헤드-온 뷰로 전환할 수 있다. 변환 행렬은 이후, OCR 존 정의에 기초하여 OCR을 수행하기 위해 전환된 이미지의 영역을 계산하는 데 사용될 수 있다. 이러한 종류의 변환을 수행하는 것에 대한 추가적인 상세항목은 또한 opencv.org에서 찾을 수 있다. 일단 카메라 포즈가 결정되면, code.google.com/p/tesseract-ocr에 있는 Tesseract OCR 엔진에 대한 웹사이트 상에 기술된 것과 유사한 접근법이 사용되어 변환된 헤드-온 뷰 이미지에 대해 OCR을 수행할 수 있다.

블록들(320 및 350)에서 나타난 바와 같이, AR 브라우저는 이후 타겟 ID 및 OCR 결과들을 AR 중개자에게 송신할 수 있다. 예를 들어, 다시 도 2a를 참조하면, AR 브라우저는 텍스트 "9951"과 함께 버스 운용자에 의해 사용되고 있는 타겟에 대한 타겟 ID를 AR 중개자에게 송신할 수 있다.

블록(352)에서 도시된 바와 같이, AR 중개자 애플리케이션은 이후 타겟 ID 및 OCR 결과들을 사용하여 대응하는 AR 콘텐츠를 검색할 수 있다. 대응하는 AR 콘텐츠가 콘텐츠 제공자에 의해 AR 중개자에게 이미 제공된 경우, AR 중개자 애플리케이션은 단순히 그 콘텐츠를 AR 브라우저에 송신할 수 있다. 대안적으로, AR 중개자 애플리케이션은 AR 브라우저로부터 타겟 ID 및 OCR 결과들을 수신하는 것에 응답하여 콘텐츠 제공자로부터 AR 콘텐츠를 동적으로 검색할 수 있다.

도 2b가 텍스트의 형태로 AR 콘텐츠를 기술하지만, AR 콘텐츠는 제한 없이 텍스트, 이미지, 사진, 비디오, 3D 오브젝트, 애니메이팅된 3D 오브젝트, 오디오, 햅틱 출력(예를 들어, 진동 또는 힘 피드백) 등을 포함하는 임의의 매체로 존재할 수 있다. 오디오 또는 햅틱 피드백과 같은 비-시각적 AR 콘텐츠의 경우, 디바이스는 AR 콘텐츠를 비디오 콘텐츠와 병합하기 보다는, 장면과 함께 적절한 매체에 그 AR 콘텐츠를 표시할 수 있다.

도 5는 콘텐츠 제공자로부터의 AR 콘텐츠를 검색하기 위한 예시적인 프로세스의 흐름도이다. 특히, 도 5는 도 4의 블록(352)에 예시된 동작들에 대한 더 많은 상세항목들을 제공한다. 도 5는 블록들(410 및 450)에서 도시된 바와 같이, AR 중개자 애플리케이션이 타겟 ID 및 OCR 결과들을 콘텐츠 제공자에게 송신하는 것으로 시작한다. AR 중개자 애플리케이션은 타겟 ID에 기초하여 어느 콘텐츠 제공자에 접촉할지를 결정할 수 있다. 타겟 ID 및 OCR 결과들을 수신하는 것에 응답하여, CP 애플리케이션은, 블록(452)에 도시된 바와 같이, AR 콘텐츠를 생성할 수 있다. 예를 들어, 버스 정류장 번호 9951을 수신하는 것에 응답하여, CP 애플리케이션은 그 버스 정류장에서의 다음 버스에 대한 예상 도착 시간(ETA; expected time of arrival)을 결정할 수 있고, CP 애플리케이션은, 블록들(454 및 412)에 도시된 바와 같이, 그 ETA를 렌더링 정보와 함께, AR 콘텐츠로서의 사용을 위해 AR 중개자에 리턴시킬 수 있다.

도 4를 다시 참조하면, 일단 AR 중개자 애플리케이션이 AR 콘텐츠를 획득하면, AR 중개자 애플리케이션은, 블록들(354 및 322)에 도시된 바와 같이, 그 콘텐츠를 AR 브라우저에 리턴시킬 수 있다. AR 브라우저는 이후 블록(324)에 도시된 바와 같이, AR 콘텐츠를 비디오와 병합시킬 수 있다. 예를 들어, 렌더링 정보는 폰트, 폰트 색깔, 폰트 크기, 및 텍스트의 제1 캐릭터의 베이스라인의 상대 좌표들을 기재하여, AR 브라우저가 다음 버스의 ETA를 AR 존 내에, 실세계 표지판 상에서 그 존 내에 실제로 있을 수 있는 임의의 콘텐츠 위에 또는 그 자리에 중첩시킬 수 있게 한다. AR 브라우저는 이후, 블록(326)에 그리고 도 2b에 도시된 바와 같이, 이러한 증강된 비디오가 디스플레이 디바이스 상에 보여지도록 할 수 있다. 따라서, AR 브라우저는 AR 타겟, AR 콘텐츠 및 라이브 비디오 프레임들에 대한 카메라의 계산된 포즈를 사용하여 AR 콘텐츠를 비디오 프레임들 내에 배치하고, 이들을 디스플레이에 송신할 수 있다.

도 2b에서, AR 콘텐츠는 2차원(2D) 오브젝트로서 도시되어 있다. 다른 실시예들에서, AR 콘텐츠는 AR 좌표 시스템에 대해 3D로 배치된 평면 이미지들, 유사하게 배치된 비디오, 3D 오브젝트들, 주어진 AR 타겟이 식별될 때 재생될 햅틱 또는 오디오 데이터 등을 포함할 수 있다.

일 실시예의 장점은 개시된 기술이 콘텐츠 제공자가 상이한 상황들에 대해 상이한 AR 콘텐츠를 전달하는 것을 더욱 쉽게 만든다는 점이다. 예를 들어, AR 콘텐츠 제공자가 버스 시스템의 운용자인 경우, 콘텐츠 제공자는 각각의 버스 정류장에 대해 상이한 AR 타겟을 사용하지 않고 각각의 상이한 버스 정류장에 대해 상이한 AR 콘텐츠를 제공할 수 있다. 대신, 콘텐츠 제공자는 타겟에 대한 미리 결정된 존 내에 위치된 텍스트(예를 들어, 버스 정류장 번호)와 함께 단일 AR 타겟을 사용할 수 있다. 결과적으로, AR 타겟은 하이-레벨 분류자로서의 역할을 할 수 있고, 텍스트는 로우-레벨 분류자로서의 역할을 할 수 있고, 분류자들의 레벨들 모두는 임의의 특정 상황에서 제공될 AR 콘텐츠를 결정하기 위해 사용될 수 있다. 예를 들어, AR 타겟은, 하이-레벨 카테고리로서, 특정 장면에 대한 관련 AR 콘텐츠가 특정 콘텐츠 제공자로부터의 콘텐츠임을 나타낼 수 있다. OCR 존 내의 텍스트는, 로우 레벨 카테고리로서, 장면에 대한 AR 콘텐츠가 특정 위치와 관련된 AR 콘텐츠임을 나타낼 수 있다. 따라서, AR 타겟은 AR 콘텐츠의 하이-레벨 카테고리를 식별할 수 있고, OCR 존 상의 텍스트는 AR 콘텐츠의 로우-레벨 카테고리를 식별할 수 있다. 그리고, 콘텐츠 제공자가 새로운 로우-레벨 분류자들을 생성하여, 새로운 상황들 또는 위치들에 대한(예를 들어, 더 많은 버스 정류장들이 시스템에 추가된 경우) 커스터마이즈된 AR 콘텐츠를 제공하는 것이 매우 쉬울 수 있다.

AR 브라우저가 AR 콘텐츠를 획득하기 위해 AR 타겟(또는 타겟 ID) 및 OCR 결과들(예를 들어, OCR 존으로부터의 텍스트의 일부 또는 전부) 모두를 사용하기 때문에, AR 타겟(또는 타겟 ID) 및 OCR 결과들은 총체적으로 멀티-레벨 AR 콘텐츠 트리거로서 지칭될 수 있다.

또다른 장점은 AR 타겟이 또한 콘텐츠 제공자에 대한 상표로서 사용하기에 적합할 수 있으며, OCR 존 상의 텍스트가 또한 콘텐츠 제공자의 소비자들에 대해 적합하며 유용할 수 있다는 점이다.

일 실시에에서, 콘텐츠 제공자 또는 타겟 생성자는 각각의 AR 타겟에 대해 다수의 OCR 존들을 정의할 수 있다. 이러한 OCR 존들의 세트는 예를 들어, 콘텐츠의 상이한 형상들 및/또는 상이한 배열들을 가지는 표지판들의 사용을 가능하게 할 수 있다. 예를 들어, 타겟 생성자는 AR 타겟의 우측에 위치된 제1 OCR 존, 및 AR 타겟의 아래에 위치된 제2 OCR 존을 정의할 수 있다. 따라서, AR 브라우저가 AR 타겟을 검출할 때, AR 브라우저는 이후 자동으로 다수의 존들에 대해 OCR을 수행할 수 있고, AR 브라우저는 AR 콘텐츠를 검색하기 위해 사용될 그 OCR 결과들의 일부 또는 전부를 AR 중개자에게 송신할 수 있다. 또한, AR 좌표 시스템은 콘텐츠 제공자가 AR 타겟에 대해 어떠한 매체 또는 위치에 있는 어떠한 콘텐츠라도 적합하기만 하면 제공할 수 있게 한다.

본원에 기술되고 예시된 원리들 및 예시적인 실시예들의 견지에서, 예시된 실시예들이 이러한 원리들로부터 벗어남이 없이 배열 및 상세항목에 있어서 수정될 수 있다는 점이 인지될 것이다. 예를 들어, 위 문단들 중 일부는 비전-기반 AR을 참조한다. 그러나, 본원의 교시들은 또한 다른 타입들의 AR 경험들을 이용하여 유리하게 하도록 사용될 수도 있다. 예를 들어, 본 교시는 소위 SLAM(Simultaneous Location And Mapping) AR과 함께 사용될 수 있고, AR 마커는 2차원 이미지보다는 3차원 물리적 오브젝트일 수 있다. 예를 들어, 특징적인 출입구 또는 그림(예를 들어, 미키 마우스 또는 아이작 뉴튼의 상반신)이 3차원 AR 타겟으로서 사용될 수 있다. SLAM AR에 관한 추가적인 정보는 http://techcrunch.com/2012/10/18/metaios-new-sdk-allows-slam-mapping-from-1000-feet/에 있는 metaio사에 관한 기사에서 찾을 수 있다.

또한, 위의 문단들 중 일부는 상대적으로 AR 콘텐츠 제공자와는 독립적인 AR 브라우저 및 AR 중개자를 참조한다. 그러나, 다른 실시예들에서, AR 브라우저는 AR 콘텐츠 제공자와 직접 통신할 수 있다. 예를 들어, AR 콘텐츠 제공자는 모바일 디바이스에 커스텀 AR 애플리케이션을 공급할 수 있고, 그 애플리케이션은 AR 브라우저로서의 역할을 할 수 있다. 이후, 그 AR 브라우저는 타겟 ID들, OCR 텍스트 등을 직접 콘텐츠 제공자에게 송신할 수 있고, 콘텐츠 제공자는 AR 콘텐츠를 직접 AR 브라우저에 송신할 수 있다. 커스텀 AR 애플리케이션에 대한 추가적인 상세항목들은 www.t-immersion.com에 있는 Total Immersion 사의 웹사이트에서 찾을 수 있다.

또한, 위의 문단들 중 일부는 상표 또는 로고로서 사용하기에 적합한 AR 타겟을 지칭하는데, 왜냐하면 AR 타겟이 보는 사람에게 의미 있는 인상을 주며, AR 타겟이 보는 사람에게 쉽게 인식가능하고, 보는 사람에 의해 다른 이미지들 또는 심볼들과 쉽게 구별되기 때문이다. 그러나, 다른 실시예들은 제한 없이, www.artoolworks.com/supporl/library/Using_ARToolKit_NFT_with_fiducial_markers_(version_3.x)에서 기술된 것과 같은 기준 마커(fiduciary marker)들을 포함하는 다른 타입들의 AR 타겟들을 사용할 수 있다. 이러한 기준 마커들은 또한 "기점들(fiducials)" 또는 "AR 태그들"로 지칭될 수 있다.

또한, 이전 논의는 특정 실시예들에 초점을 두었지만, 다른 구성들이 참작된다. 또한, "실시예", "일 실시예", "또다른 실시예" 등과 같은 표현들이 본원에 사용되었지만, 이들 구문은 실시예 가능성들을 일반적으로 참조하도록 의도되며, 발명을 특정 실시예 구성들로 제한하도록 의도되지는 않는다. 본원에서 사용되는 바와 같이, 이들 구문은 동일한 실시예 또는 상이한 실시예들을 참조할 수 있으며, 그 실시예들은 다른 실시예들로 결합가능하다.

임의의 적절한 운용 환경 및 프로그래밍 언어(또는 운용 환경과 프로그래밍 언어의 조합)가 본원에 기술된 컴포넌트들을 구현하기 위해 사용될 수 있다. 위에서 나타난 바와 같이, 본 교시들은 많은 상이한 종류의 데이터 프로세싱 시스템들에서 유리하게 하기 위해 사용될 수 있다. 예시적인 데이터 프로세싱 시스템들은, 제한 없이, 분산 컴퓨팅 시스템, 슈퍼컴퓨터, 고-성능 컴퓨팅 시스템, 컴퓨팅 클러스터, 메인프레임 컴퓨터, 미니-컴퓨터, 클라이언트-서버 시스템, 개인용 컴퓨터(PC), 워크스테이션, 서버, 휴대용 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 개인 디지털 보조 단말(PDA), 전화, 핸드헬드 디바이스, 오디오 디바이스, 비디오 디바이스, 오디오/비디오 디바이스(예를 들어, 텔레비전 및 셋톱 박스)와 같은 엔터테인먼트 디바이스, 차량 프로세싱 시스템, 및 정보를 프로세싱하거나 전송하기 위한 다른 디바이스들을 포함한다. 따라서, 달리 명시적으로 특정되거나 문맥에 의해 요구되지 않는 한, 임의의 특정 타입의 데이터 프로세싱 시스템(예를 들어, 모바일 디바이스)에 대한 참조는 또한 다른 타입들의 프로세싱 시스템들을 포함하는 것으로서 이해되어야 한다. 또한, 달리 명시적으로 특정되지 않는 한, 서로 커플링되고, 서로 통신하고, 서로 응답하는 것 등으로서 기재된 컴포넌트들은 서로 연속적으로 통신할 필요가 없으며 서로 직접 커플링될 필요도 없다. 마찬가지로, 하나의 컴포넌트가 데이터를 또다른 컴포넌트로부터 수신하거나 또다른 컴포넌트로 송신하는 것으로서 기재될 때, 달리 명시적으로 특정되지 않는 한, 그 데이터는 하나 이상의 중간 컴포넌트들을 통해 송신되거나 수신될 수 있다. 추가로, 데이터 프로세싱 시스템의 일부 컴포넌트들은 버스와 통신하기 위한 인터페이스들(예를 들어, 커넥터)을 가지는 어댑터 카드들로서 구현될 수 있다. 대안적으로, 디바이스들 또는 컴포넌트들은 프로그래밍가능한 또는 프로그래밍가능하지 않은 로직 디바이스들 또는 어레이들, 주문형 집적 회로(ASIC)들, 내장형 컴퓨터들(embedded computers), 스마트 카드들 등과 같은 컴포넌트들을 사용하여, 내장형 제어기들로서 구현될 수 있다. 이 개시내용의 목적을 위해, 용어 "버스"는 둘 초과의 디바이스에 의해 공유될 수 있는 경로들, 뿐만 아니라 점-대-점 경로들을 포함한다.

이 개시내용은 명령들, 함수들, 프로시져들, 데이터 구조들, 응용 프로그램들, 구성 설정들, 및 다른 종류의 데이터를 참조할 수 있다. 전술된 바와 같이, 데이터가 기계에 의해 액세스될 때, 기계는 작업들을 수행하고, 추상 데이터 타입들 또는 로우-레벨 하드웨어 컨텍스트들을 정의하고, 그리고/또는 다른 동작들을 수행함으로써 응답할 수 있다. 예를 들어, 데이터 저장소, RAM, 및/또는 플래시 메모리는, 실행될 때 다양한 동작들을 수행하는 다양한 명령들의 세트들을 포함할 수 있다. 이러한 명령들의 세트들은 일반적으로 소프트웨어라고 지칭될 수 있다. 추가로, 용어 "프로그램"은, 일반적으로, 애플리케이션들, 루틴들, 모듈들, 드라이버들, 서브프로그램들, 프로세스들, 및 다른 타입들의 소프트웨어 컴포넌트들을 포함하는, 넓은 범위의 소프트웨어 구성들을 커버하는 데 사용될 수 있다. 또한, 일 예시적인 실시예에서 특정 디바이스 상에 상주하는 것으로서 전술된 애플리케이션들 및/또는 다른 데이터는, 다른 실시예들에서, 하나 이상의 다른 디바이스들에 상주할 수 있다. 그리고 일 예시적인 실시예에서 하나의 특정 디바이스 상에서 수행되는 것으로서 전술된 컴퓨팅 동작들은, 다른 실시예들에서, 하나 이상의 다른 디바이스들에 의해 실행될 수 있다.

또한, 본원에 도시된 하드웨어 및 소프트웨어 컴포넌트들이, 각각이 다른 것들에 대해 실질적으로 독립적으로 설계되거나, 구성되거나, 업데이트될 수 있도록 적절히 자가-포함되는(reasonably self-contained) 기능 엘리먼트들을 나타낸다는 점이 이해되어야 한다. 대안적인 실시예들에서, 컴포넌트들 중 다수는 본원에 기술되고 예시된 기능성을 제공하기 위한 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합들로서 구현될 수 있다. 예를 들어, 대안적인 실시예들은 발명의 동작들을 수행하기 위한 기계 액세스가능한 매체 인코딩 명령들 또는 제어 로직을 포함한다. 이러한 실시예들은 또한 프로그램 제품들로서 지칭될 수 있다. 이러한 기계 액세스가능한 매체는 제한 없이, 자기 디스크, 광학 디스크, RAM, ROM 등과 같은 유형(tangible) 저장 매체를 포함할 수 있다. 이 개시내용의 목적을 위해, 용어 "ROM"은 일반적으로 소거가능한 프로그래밍가능 ROM(EPROM), 전기적 소거가능한 프로그래밍가능한 ROM(EEPROM), 플래시 ROM, 플래시 메모리 등과 같은 비휘발성 메모리 디바이스들을 지칭하기 위해 사용될 수 있다. 일부 실시예들에서, 기술된 동작들을 구현하기 위한 제어 로직 중 일부 또는 전부는 하드웨어 로직으로 (예를 들어, 집적 회로 칩, 프로그래밍가능한 게이트 어레이(PGA; programmable gate array), ASIC 등의 일부로서) 구현될 수 있다. 적어도 하나의 실시예에서, 모든 컴포넌트들에 대한 명령들은 하나의 비-일시적 기계 액세스가능한 매체에 저장될 수 있다. 적어도 하나의 다른 실시예에서, 둘 이상의 비-일시적 기계 액세스가능한 매체는 컴포넌트들에 대한 명령들을 저장하기 위해 사용될 수 있다. 예를 들어, 하나의 컴포넌트에 대한 명령들은 하나의 매체에 저장될 수 있고, 또다른 컴포넌트에 대한 명령들은 또다른 매체에 저장될 수 있다. 대안적으로, 하나의 컴포넌트에 대한 명령들의 일부는 하나의 매체에 저장될 수 있고, 그 컴포넌트에 대한 명령들의 나머지(또한 다른 컴포넌트들에 대한 명령들)는 하나 이상의 다른 매체에 저장될 수 있다. 명령들은 또한 분산 환경에서 사용될 수 있고, 단일 또는 다중-프로세서 기계들에 의한 액세스를 위해 로컬로 그리고/또는 원격으로 저장될 수 있다.

또한, 하나 이상의 예시적인 프로세스가 특정 시퀀스로 수행되는 특정 동작들에 관해 기술되었지만, 본 발명의 다수의 대안적인 실시예들을 유도하기 위해 다수의 수정들이 해당 프로세스들에 적용될 수 있다. 예를 들어, 대안적인 실시예들은 개시된 동작들 모두보다 더 적은 동작들을 사용하는 프로세스들, 추가적인 동작들을 사용하는 프로세스, 및 본원에 개시된 개별 동작들이 결합되거나, 세부분할되거나, 재배열되거나, 또는 다른 방식으로 변경되는 프로세스들을 포함할 수 있다.

본원에 기재된 예시적인 실시예들로부터 용이하게 유도될 수 있는 광범위한 유용한 치환들의 견지에서, 이러한 상세한 기재는 단지 예시적인 것으로 의도되며, 커버리지의 범위를 제한하는 것으로서 취해지지 않아야 한다.

후속하는 예들은 추가적인 실시예에 관한 것이다.

예 A1은 AR을 제공하기 위해 OCR을 사용하기 위한 자동화된 방법이다. 이 방법은 장면의 비디오에 기초하여, 장면이 미리 결정된 AR 타겟을 포함하는지를 자동으로 결정하는 것을 포함한다. 장면이 AR 타겟을 포함한다고 결정하는 것에 응답하여, AR 타겟과 연관된 OCR 존 정의가 자동으로 검색된다. OCR 존 정의는 OCR 존을 식별한다. AR 타겟과 연관된 OCR 존 정의를 검색하는 것에 응답하여, OCR은 OCR 존으로부터 텍스트를 추출하기 위해 자동으로 사용된다. OCR의 결과들은 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠를 획득하기 위해 사용된다. OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠는 자동으로 장면과 함께 표시되게 된다.

예 A2는 예 A1의 특징들을 포함하고, OCR 존 정의는 AR 타겟의 적어도 하나의 특징에 대한 OCR 존의 적어도 하나의 특징을 식별한다.

예 A3은 예 A1의 특징들을 포함하고, AR 타겟과 연관된 OCR 존 정의를 자동으로 검색하는 동작은 AR 타겟에 대한 타겟 식별자를 사용하여 로컬 저장 매체로부터 OCR 존 정의를 검색하는 것을 포함한다. 예 A3은 또한 예 A2의 특징들을 포함할 수 있다.

예 A4는 예 A1의 특징들을 포함하고, OCR의 결과들을 사용하여 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠를 결정하는 동작은 (a) AR 타겟에 대한 타겟 식별자 및 OCR 존으로부터의 텍스트 중 적어도 일부를 원격 프로세싱 시스템에 송신하는 것; 및 (b) 타겟 식별자 및 OCR 존으로부터의 텍스트의 적어도 일부를 원격 프로세싱 시스템에 송신한 이후, 원격 프로세싱 시스템으로부터 AR 콘텐츠를 수신하는 것을 포함한다. 예 A4는 또한, 예 A2 또는 예 A3의 특징들, 또는 예 A2 및 예 A3의 특징들을 포함할 수 있다.

예 A5는 예 A1의 특징들을 포함하고, OCR의 결과들을 사용하여 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠를 결정하는 동작은 (a) OCR 정보를 원격 프로세싱 시스템에 송신하는 것 ― OCR 정보는 OCR 존으로부터 추출된 텍스트에 대응함 ― ; 및 (b) OCR 정보를 원격 프로세싱 시스템에 송신한 이후, 원격 프로세싱 시스템으로부터 AR 콘텐츠를 수신하는 것을 포함한다. 예 A5는 또한 예 A2 또는 예 A3의 특징들, 또는 예 A2 및 예 A3의 특징들을 포함할 수 있다.

예 A6은 예 A1의 특징들을 포함하고, AR 타겟은 하이-레벨 분류자로서의 역할을 한다. 또한, OCR 존으로부터의 텍스트 중 적어도 일부는 로우-레벨 분류자로서의 역할을 한다. 예 A6은 또한 (a) 예 A2, A3, A4, 또는 A5의 특징들; (b) 예 A2, A3 및 A4 중 임의의 둘 이상의 특징들; 또는 (c) 예 A2, A3 및 A5 중 임의의 둘 이상의 특징들을 포함할 수 있다.

예 A7은 예 A6의 특징들을 포함하고, 하이-레벨 분류자는 AR 콘텐츠 제공자를 식별한다.

예 A8은 예 A1의 특징들을 포함하고, AR 타겟은 2차원이다. 예 A8은 또한 (a) 예 A2, A3, A4, A5, A6, 또는 A7의 특징들; (b) 예 A2, A3, A4, A6, 및 A7 중 임의의 둘 이상의 특징들; 또는 (c) 예 A2, A3, A5, A6, 및 A7 중 임의의 둘 이상의 특징들을 포함할 수 있다.

예 B1은 AR 콘텐츠에 대한 멀티-레벨 트리거를 구현하기 위한 방법이다. 그 방법은 관련 AR 콘텐츠를 식별하기 위한 하이-레벨 분류자로서의 역할을 하기 위한 AR 타겟을 선택하는 것을 수반한다. 추가로, 선택된 AR 타겟에 대한 OCR 존이 특정된다. OCR 존은 OCR을 사용하여 텍스트가 추출될 비디오 프레임 내에 있는 영역을 구성한다. OCR 존으로부터의 텍스트는 관련 AR 콘텐츠를 식별하기 위한 로우-레벨 분류자로서의 역할을 할 것이다.

예 B2는 예 B1의 특징들을 포함하고, 선택된 AR 타겟에 대한 OCR 존을 특정하는 동작은 AR 타겟의 적어도 하나의 특징에 대해, OCR 존의 적어도 하나의 특징을 특정하는 것을 포함한다.

예 C1은 AR 콘텐츠에 대한 멀티-레벨 트리거를 프로세싱하기 위한 방법이다. 그 방법은 AR 클라이언트로부터 타겟 식별자를 수신하는 것을 수반한다. 타겟 식별자는 미리 정의된 AR 타겟을 AR 클라이언트에 의해 비디오 장면 내에서 검출된 것으로서 식별한다. 추가로, 텍스트는 AR 클라이언트로부터 수신되고, 여기서, 텍스트는 비디오 장면 내의 미리 정의된 AR 타겟과 연관된 OCR 존 상에서 AR 클라이언트에 의해 수행된 OCR로부터의 결과들에 대응한다. AR 콘텐츠는 타겟 식별자 및 AR 클라이언트로부터의 텍스트에 기초하여 획득된다. AR 콘텐츠는 AR 클라이언트에 송신된다.

예 C2는 예 C1의 특징들을 포함하고, 타겟 식별자 및 AR 클라이언트로부터의 텍스트에 기초하여 AR 콘텐츠를 획득하는 동작은, AR 클라이언트로부터의 텍스트에 적어도 부분적으로 기초하여 AR 콘텐츠를 동적으로 생성하는 것을 포함한다.

예 C3은 예 C1의 특징들을 포함하고, 타겟 식별자 및 AR 클라이언트로부터의 텍스트에 기초하여 AR 콘텐츠를 획득하는 동작은 원격 프로세싱 시스템으로부터 AR 콘텐츠를 자동으로 검색하는 것을 포함한다.

예 C4는 예 C1의 특징들을 포함하고, AR 클라이언트로부터 수신된 텍스트는 AR 클라이언트에 의해 수행된 OCR로부터의 결과들 중 적어도 일부를 포함한다. 예 C4는 또한 예 C2 또는 예 C3의 특징들을 포함할 수 있다.

예 D1은 OCR을 이용하여 향상된 AR을 지원하기 위한 컴퓨터 명령들을 포함하는 적어도 하나의 기계 액세스가능한 매체이다. 컴퓨터 명령들은, 데이터 프로세싱 시스템 상에서 실행되는 것에 응답하여, 데이터 프로세싱 시스템이 예들 A1-A7, B1-B2 및 C1-C4 중 임의의 것에 따른 방법을 수행할 수 있게 한다.

예 E1은 OCR을 이용하여 향상된 AR을 지원하는 데이터 프로세싱 시스템이다. 이 데이터 프로세싱 시스템은 프로세싱 엘리먼트, 프로세싱 엘리먼트에 응답하는 적어도 하나의 기계 액세스가능한 매체, 및 적어도 하나의 기계 액세스가능한 매체에 적어도 부분적으로 저장된 컴퓨터 명령들을 포함한다. 실행되는 것에 응답하여, 컴퓨터 명령들은 데이터 프로세싱 시스템이 예들 A1-A7, B1-B2, 및 C1-C4 중 임의의 것에 따른 방법을 수행할 수 있게 한다.

예 F1은 OCR을 이용하여 향상된 AR을 지원하는 데이터 프로세싱 시스템이다. 데이터 프로세싱 시스템은 예들 A1-A7, B1-B2, 및 C1-C4 중 임의의 것에 따른 방법을 수행하기 위한 수단을 포함한다.

예 G1은 OCR을 이용하여 향상된 AR을 지원하기 위한 컴퓨터 명령들을 포함하는 적어도 하나의 기계 액세스가능한 매체이다. 컴퓨터 명령들은, 데이터 프로세싱 시스템 상에서 실행되는 것에 응답하여, 데이터 프로세싱 시스템이, 장면의 비디오에 기초하여, 그 장면이 미리 결정된 AR 타겟을 포함하는지를 자동으로 결정할 수 있게 한다. 컴퓨터 명령들은 또한, 장면이 AR 타겟을 포함한다고 결정하는 것에 응답하여, 데이터 프로세싱 시스템이 AR 타겟과 연관된 OCR 존 정의를 자동으로 검색할 수 있게 한다. OCR 존 정의는 OCR 존을 식별한다. 컴퓨터 명령들은 또한, AR 타겟과 연관된 OCR 존 정의를 검색하는 것에 응답하여, 데이터 프로세싱 시스템이 자동으로 OCR을 사용하여 OCR 존으로부터 텍스트를 추출할 수 있게 한다. 컴퓨터 명령들은 또한 데이터 프로세싱 시스템이 OCR의 결과들을 사용하여 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠를 획득할 수 있게 한다. 컴퓨터 명령들은 또한 데이터 프로세싱 시스템이 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠가 장면과 함께 자동으로 표시되게 하도록 할 수 있다.

예 G2는 예 G1의 특징들을 포함하고, OCR 존 정의는 AR 타겟의 적어도 하나의 특징에 대한 OCR 존의 적어도 하나의 특징을 식별한다.

예 G3은 예 G1의 특징들을 포함하고, AR 타겟과 연관된 OCR 존 정의를 자동으로 검색하는 동작은 AR 타겟에 대한 타겟 식별자를 사용하여 로컬 저장 매체로부터 OCR 존 정의를 검색하는 것을 포함한다. 예 G3은 또한 예 G2의 특징들을 포함할 수 있다.

예 G4는 예 G1의 특징들을 포함하고, OCR의 결과들을 사용하여 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠를 결정하는 동작은 (a) AR 타겟에 대한 타겟 식별자 및 OCR 존으로부터의 텍스트의 적어도 일부를 원격 프로세싱 시스템에 송신하는 것; 및 (b) 타겟 식별자 및 OCR 존으로부터의 텍스트 중 적어도 일부를 원격 프로세싱 시스템에 송신한 이후, 원격 프로세싱 시스템으로부터 AR 콘텐츠를 수신하는 것을 포함한다. 예 G4는 또한 예 G2 또는 예 G3의 특징들, 또는 예 G2 및 예 G3의 특징들을 포함할 수 있다.

예 G5는 예 G1의 특징들을 포함하고, OCR의 결과들을 사용하여 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠를 결정하는 동작은 (a) OCR 정보를 원격 프로세싱 시스템에 송신하는 것 ― OCR 정보는 OCR 존으로부터 추출된 텍스트에 대응함 ― ; 및 (b) OCR 정보를 원격 프로세싱 시스템에 송신한 이후, 원격 프로세싱 시스템으로부터 AR 콘텐츠를 수신하는 것을 포함한다. 예 G5는 예 G2 또는 예 G3의 특징들 또는 예 G2 및 예 G3의 특징들을 포함할 수 있다.

예 G6은 예 G1의 특징들을 포함하고, AR 타겟은 하이-레벨 분류자로서의 역할을 한다. 또한, OCR 존으로부터의 텍스트의 적어도 일부는 로우-레벨 분류자로서의 역할을 한다. 예 G6은 또한 (a) 예 G2, G3, G4, 또는 G5의 특징들; (b) 예 G2, G3, 및 G4 중 임의의 둘 이상의 특징들; 또는 (c) 예들 G2, G3, 및 G5 중 임의의 둘 이상의 특징들을 포함할 수 있다.

예 G7은 예 G6의 특징들을 포함하고, 하이-레벨 분류자는 AR 콘텐츠 제공자를 식별한다.

예 G8은 예 G1의 특징들을 포함하고, AR 타겟은 2차원이다. 예 G8은 또한 (a) 예 G2, G3, G4, G5, G6, 또는 G7의 특징들; (b) 예 G2, G3, G4, G6, 및 G7 중 임의의 둘 이상의 특징들; 또는 (c) 예 G2, G3, G5, G6, 및 G7 중 임의의 둘 이상의 특징들을 포함할 수 있다.

예 H1은 AR 콘텐츠에 대한 멀티-레벨 트리거를 구현하기 위한 컴퓨터 명령들을 포함하는 적어도 하나의 기계 액세스가능한 매체이다. 컴퓨터 명령들은, 데이터 프로세싱 시스템 상에서 실행되는 것에 응답하여, 데이터 프로세싱 시스템이 관련된 AR 콘텐츠를 식별하기 위한 하이-레벨 분류자로서의 역할을 하기 위한 AR 타겟을 선택할 수 있게 한다. 컴퓨터 명령들은 또한 데이터 프로세싱 시스템이 선택된 AR 타겟에 대한 OCR 존을 특정할 수 있게 하고, OCR 존은 OCR을 사용하여 텍스트가 추출될 비디오 프레임 내의 영역을 구성하고, OCR 존으로부터의 텍스트는 관련 AR 콘텐츠를 식별하기 위한 로우-레벨 분류자로서의 역할을 한다.

예 H2는 예 H1의 특징들을 포함하고, 선택된 AR 타겟에 대한 OCR 존을 특정하는 동작은 AR 타겟의 적어도 하나의 특징에 대해, OCR 존의 적어도 하나의 특징을 특정하는 것을 포함한다.

예 I1은 AR 콘텐츠에 대한 멀티-레벨 트리거를 구현하기 위한 컴퓨터 명령들을 포함하는 적어도 하나의 기계 액세스가능한 매체이다. 컴퓨터 명령들은, 데이터 프로세싱 시스템 상에서 실행되는 것에 응답하여, 데이터 프로세싱 시스템이 AR 클라이언트로부터 타겟 식별자를 수신할 수 있게 한다. 타겟 식별자는 미리 정의된 AR 타겟을 AR 클라이언트에 의해 비디오 장면 내에서 검출된 것으로서 식별한다. 컴퓨터 명령들은 또한 데이터 프로세싱 시스템이 AR 클라이언트로부터 텍스트를 수신할 수 있게 하고, 텍스트는 비디오 장면 내의 미리 정의된 AR 타겟과 연관된 OCR 존 상에서 AR 클라이언트에 의해 수행된 OCR로부터의 결과들에 대응한다. 컴퓨터 명령들은 또한 데이터 프로세싱 시스템이, 타겟 식별자 및 AR 클라이언트로부터의 텍스트에 기초하여, AR 콘텐츠를 획득하고, AR 콘텐츠를 AR 클라이언트에 송신할 수 있게 한다.

예 I2는 예 I1의 특징들을 포함하고, 타겟 식별자 및 AR 클라이언트로부터의 텍스트에 기초하여 AR 콘텐츠를 획득하는 동작은 AR 클라이언트로부터의 텍스트에 적어도 부분적으로 기초하여 AR 콘텐츠를 동적으로 생성하는 것을 포함한다.

예 I3은 예 I1의 특징들을 포함하고, 타겟 식별자 및 AR 클라이언트로부터의 텍스트에 기초하여 AR 콘텐츠를 획득하는 동작은 원격 프로세싱 시스템으로부터 AR 콘텐츠를 자동으로 검색하는 것을 포함한다.

예 I4는 예 I1의 특징들을 포함하고, AR 클라이언트로부터 수신된 텍스트는 AR 클라이언트에 의해 수행된 OCR로부터의 결과들 중 적어도 일부를 포함한다. 예 I4는 또한 예 I2 또는 예 I3의 특징들을 포함할 수 있다.

예 J1은 프로세싱 엘리먼트, 프로세싱 엘리먼트에 응답하는 적어도 하나의 기계 액세스가능한 매체, 및 적어도 하나의 기계 액세스가능한 매체에 적어도 부분적으로 저장된 AR 브라우저를 포함하는 데이터 프로세싱 시스템이다. 추가로, AR 데이터베이스는 적어도 하나의 기계 액세스가능한 매체에 적어도 부분적으로 저장된다. AR 데이터베이스는 AR 타겟과 연관된 AR 타겟 식별자 및 AR 타겟과 연관된 OCR 존 정의를 포함한다. OCR 존 정의는 OCR 존을 식별한다. AR 브라우저는, 장면의 비디오에 기초하여, 장면이 AR 타겟을 포함하는지를 자동으로 결정하도록 동작가능하다. AR 브라우저는 또한 장면이 AR 타겟을 포함한다고 결정하는 것에 응답하여, AR 타겟과 연관된 OCR 존 정의를 자동으로 검색하도록 동작가능하다. AR 브라우저는 또한, AR 타겟과 연관된 OCR 존 정의를 검색하는 것에 응답하여, 자동으로 OCR을 사용하여 OCR 존으로부터 텍스트를 추출하도록 동작가능하다. AR 브라우저는 또한 OCR의 결과들을 사용하여 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠를 획득하도록 동작가능하다. AR 브라우저는 또한 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠가 장면과 함께 자동으로 표시되게 하도록 동작가능하다.

예 J2는 예 J1의 특징들을 포함하고, OCR 존 정의는 AR 타겟의 적어도 하나의 특징에 대한 OCR 존의 적어도 하나의 특징을 식별한다.

예 J3은 예 J1의 특징들을 포함하고, AR 브라우저는 AR 타겟에 대한 타겟 식별자를 사용하여 로컬 저장 매체로부터 OCR 존 정의를 검색하도록 동작가능하다. 예 J3은 또한 예 J2의 특징들을 포함할 수 있다.

예 J4는 예 J1의 특징들을 포함하고, OCR의 결과들을 사용하여 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠를 결정하는 동작은 (a) AR 타겟에 대한 타겟 식별자 및 OCR 존으로부터의 텍스트의 적어도 일부를 원격 프로세싱 시스템에 송신하는 것; 및 (b) 타겟 식별자 및 OCR 존으로부터의 텍스트의 적어도 일부를 원격 프로세싱 시스템에 송신한 이후, 원격 프로세싱 시스템으로부터 AR 콘텐츠를 수신하는 것을 포함한다. 예 J4는 또한 예 J2 또는 예 J3의 특징들, 또는 예 J2 및 예 J3의 특징들을 포함할 수 있다.

예 J5는 예 J1의 특징들을 포함하고, OCR의 결과들을 사용하여 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠를 결정하는 동작은 (a) OCR 정보를 원격 프로세싱 시스템에 송신하는 것 ― OCR 정보는 OCR 존으로부터 추출된 텍스트에 대응함 ― ; 및 (b) OCR 정보를 원격 프로세싱 시스템에 송신한 이후, 원격 프로세싱 시스템으로부터 AR 콘텐츠를 수신하는 것을 포함한다. 예 J5는 또한 예 J2 또는 예 J3의 특징들, 또는 예 J2 및 예 J3의 특징들을 포함할 수 있다.

예 J6은 예 J1의 특징들을 포함하고, AR 브라우저는 AR 타겟을 하이-레벨 분류자로서 사용하고, OCR 존으로부터의 텍스트의 적어도 일부를 로우-레벨 분류자로서 사용하도록 동작가능하다. 예 J6은 또한 (a) 예 J2, J3, J4, 또는 J5의 특징들; (b) 예 J2, J3, 및 J4 중 임의의 둘 이상의 특징들; 또는 (c) 예 J2, J3, 및 J5 중 임의의 둘 이상의 특징들을 포함할 수 있다.

예 J7은 예 J6의 특징들을 포함하고, 하이-레벨 분류자는 AR 콘텐츠 제공자를 식별한다.

예 J8은 예 J1의 특징들을 포함하고, AR 타겟은 2차원이다. 예 J8은 또한 (a) 예 J2, J3, J4, J5, J6, 또는 J7의 특징들; (b) 예 J2, J3, J4, J6, 및 J7 중 임의의 둘 이상의 특징들; 또는 (c) 예 J2, J3, J5, J6, 및 J7 중 임의의 둘 이상의 특징들을 포함할 수 있다.

Claims

증강 현실을 지원하기 위한 컴퓨터 명령어들을 포함하는 적어도 하나의 비일시적 기계 액세스가능한 매체로서, 상기 컴퓨터 명령어들은 데이터 프로세싱 시스템 상에서 실행되는 것에 응답하여, 상기 데이터 프로세싱 시스템이,
상기 데이터 프로세싱 시스템에 미리 결정된 증강 현실(AR) 구성 데이터를 저장하는 동작 - 상기 미리 결정된 AR 구성 데이터는 AR 콘텐츠용 멀티-레벨 트리거를 제공하고, 상기 멀티-레벨 트리거는, (a) 하이-레벨 분류자, (b) 상기 하이-레벨 분류자에 기초한 광학 캐릭터 인식(OCR) 존 정의, 및 (c) 상기 OCR 존 정의에 기초한 로우-레벨 분류자를 포함하고, 상기 하이-레벨 분류자는 미리 결정된 AR 타겟의 하나 이상의 그래픽 특징들(features)을 특징으로하는 AR 타겟 정의를 포함하고, 상기 OCR 존 정의는 미리 결정된 OCR 존으로서 기능하도록 폐쇄 영역에 대한 경계들을 식별하고, 상기 OCR 존 정의는 또한 상기 미리 결정된 AR 타겟의 적어도 하나의 그래픽 특징에 대하여, 상기 미리 결정된 OCR 존에 대한 위치를 특정함 -;
상기 데이터 프로세싱 시스템에 상기 미리 결정된 AR 구성 데이터를 저장한 후에, 상기 하이-레벨 분류자를 사용하여 장면의 비디오가 상기 미리 결정된 AR 타겟을 포함하는지를 자동으로 결정하는 동작;
상기 장면이 상기 미리 결정된 AR 타겟을 포함한다고 결정하는 것에 응답하여, 상기 미리 결정된 AR 타겟에 대한 상기 OCR 존 정의를 자동으로 사용하여 상기 OCR 존으로부터 텍스트를 추출하는 동작;
상기 OCR 존으로부터 추출된 텍스트를 상기 로우-레벨 분류자로서 사용하여, 상기 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠를 획득하는 동작; 및
상기 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠가 상기 장면과 함께 자동으로 표시되도록 하는 동작
을 포함하는 동작들을 수행할 수 있게 하는 적어도 하나의 비일시적 기계 액세스가능한 매체.
제1항에 있어서,
상기 장면이 상기 미리 결정된 AR 타겟을 포함하는지의 결정은 OCR을 수행하지 않고 행해지는 적어도 하나의 비일시적 기계 액세스가능한 매체.
제1항에 있어서,
상기 컴퓨터 명령어들은, 상기 데이터 프로세싱 시스템이, 상기 장면이 상기 미리 결정된 AR 타겟을 포함한다고 결정하는 것에 응답하여, 상기 미리 결정된 AR 타겟에 대한 타겟 식별자를 사용하여 로컬 저장 매체로부터 상기 미리 결정된 OCR 존 정의를 검색하는 동작을 포함하는 동작들을 수행할 수 있게 하는 적어도 하나의 비일시적 기계 액세스가능한 매체.
제1항에 있어서,
상기 OCR 존으로부터 추출된 텍스트를 사용하여 상기 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠를 획득하는 동작은:
상기 AR 타겟에 대한 타겟 식별자 및 상기 OCR 존으로부터의 텍스트 중 적어도 일부를 원격 프로세싱 시스템에 송신하는 것; 및
상기 타겟 식별자 및 상기 OCR 존으로부터의 텍스트 중 적어도 일부를 상기 원격 프로세싱 시스템에 송신한 이후, 상기 원격 프로세싱 시스템으로부터 상기 AR 콘텐츠를 수신하는 것
을 포함하는 적어도 하나의 비일시적 기계 액세스가능한 매체.
제1항에 있어서,
상기 OCR 존으로부터 추출된 텍스트를 사용하여 상기 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠를 획득하는 동작은:
원격 프로세싱 시스템에 OCR 정보를 송신하는 것 ― 상기 OCR 정보는 상기 OCR 존으로부터 추출된 텍스트에 대응함 ― ; 및
상기 원격 프로세싱 시스템에 상기 OCR 정보를 송신한 이후, 상기 원격 프로세싱 시스템으로부터 상기 AR 콘텐츠를 수신하는 것
을 포함하는 적어도 하나의 비일시적 기계 액세스가능한 매체.
제1항에 있어서,
상기 미리 결정된 AR 타겟의 상기 하나 이상의 그래픽 특징들은,
상기 AR 타겟의 경계;
상기 AR 타겟의 폭;
상기 AR 타겟의 높이;
상기 AR 타겟의 에지;
상기 AR 타겟의 코너; 및
상기 AR 타겟의 하나의 특징의, 상기 AR 타겟의 다른 특징에 대한 위치
를 포함하는 그룹으로부터의 적어도 하나의 항목을 포함하는 적어도 하나의 비일시적 기계 액세스가능한 매체.
제1항에 있어서,
상기 하이-레벨 분류자는 AR 콘텐츠 제공자를 식별하는 적어도 하나의 비일시적 기계 액세스가능한 매체.
제1항에 있어서,
상기 AR 타겟은 2차원인 적어도 하나의 비일시적 기계 액세스가능한 매체.
증강 현실 콘텐츠(augmented reality content)에 대한 멀티-레벨 트리거(multi-level trigger)를 구현하기 위한 컴퓨터 명령어들을 포함하는 적어도 하나의 비일시적 기계 액세스가능한 매체로서, 상기 컴퓨터 명령어들은 데이터 프로세싱 시스템 상에서 실행되는 것에 응답하여, 상기 데이터 프로세싱 시스템이,
사람(person)이, 관련된 증강 현실(AR) 콘텐츠를 식별하기 위한 하이-레벨 분류자로서의 역할을 하는 AR 타겟을 선택할 수 있게 하는 동작 - 상기 하이-레벨 분류자는 상기 선택된 AR 타겟의 하나 이상의 그래픽 특징들을 특징으로 하는 AR 타겟 정의를 포함함 -; 및
상기 사람이, 상기 선택된 AR 타겟에 대한 광학 캐릭터 인식(OCR) 존 정의를 특정할 수 있게 하는 동작
을 포함하는 동작들을 수행할 수 있게 하고,
상기 OCR 존 정의는, OCR을 사용하여 텍스트가 추출될 비디오 프레임 내의 폐쇄 영역에 대한 경계들을 식별하고, 상기 OCR 존 정의는 또한 상기 선택된 AR 타겟의 적어도 하나의 그래픽 특징에 대하여, 미리 결정된 OCR 존에 대한 위치를 특정하고, 상기 OCR 존으로부터의 텍스트는 관련된 AR 콘텐츠를 식별하기 위한 로우-레벨 분류자로서의 역할을 하는 적어도 하나의 비일시적 기계 액세스가능한 매체.
제9항에 있어서,
상기 선택된 AR 타겟에 대한 OCR 존 정의를 특정하는 동작은:
상기 AR 타겟의 적어도 하나의 특징에 대해, 상기 OCR 존의 적어도 하나의 특징을 특정하는 것을 포함하고,
상기 선택된 AR 타겟의 상기 하나 이상의 그래픽 특징들은,
상기 AR 타겟의 경계;
상기 AR 타겟의 폭;
상기 AR 타겟의 높이;
상기 AR 타겟의 에지;
상기 AR 타겟의 코너; 및
상기 선택된 AR 타겟의 하나의 특징의, 상기 선택된 AR 타겟의 다른 특징에 대한 위치
를 포함하는 그룹으로부터의 적어도 하나의 항목을 포함하는 적어도 하나의 비일시적 기계 액세스가능한 매체.
증강 현실 콘텐츠에 대한 멀티-레벨 트리거를 프로세싱하기 위한 컴퓨터 명령어들을 포함하는 적어도 하나의 비일시적 기계 액세스가능한 매체로서, 상기 컴퓨터 명령어들은 데이터 프로세싱 시스템 상에서 실행되는 것에 응답하여, 상기 데이터 프로세싱 시스템이,
증강 현실(AR; augmented reality) 클라이언트로부터 타겟 식별자를 수신하는 동작 ― 상기 타겟 식별자는 미리 정의된 AR 타겟을 상기 AR 클라이언트에 의해 비디오 장면 내에서 검출된 것으로서 식별함 ― ;
상기 AR 클라이언트로부터 텍스트를 수신하는 동작 ― 상기 텍스트는 상기 비디오 장면 내의 상기 미리 정의된 AR 타겟과 연관된 광학 캐릭터 인식(OCR; optical character recognition) 존(zone) 상에서 상기 AR 클라이언트에 의해 수행된 OCR로부터의 결과들에 대응함 ― ;
상기 타겟 식별자를 하이-레벨 분류자로서 사용하고, 상기 AR 클라이언트로부터의 텍스트를 로우-레벨 분류자로서 사용하여 AR 콘텐츠를 획득하는 동작; 및
상기 AR 클라이언트에 상기 AR 콘텐츠를 송신하는 동작
을 포함하는 동작들을 수행할 수 있게 하는 적어도 하나의 비일시적 기계 액세스가능한 매체.
제11항에 있어서,
상기 타겟 식별자를 하이-레벨 분류자로서 사용하고, 상기 AR 클라이언트로부터의 텍스트를 로우-레벨 분류자로서 사용하는 동작은:
상기 AR 클라이언트로부터의 텍스트에 적어도 부분적으로 기초하여 상기 AR 콘텐츠를 동적으로 생성하는 것을 포함하는 적어도 하나의 비일시적 기계 액세스가능한 매체.
제11항에 있어서,
상기 타겟 식별자를 하이-레벨 분류자로서 사용하고, 상기 AR 클라이언트로부터의 텍스트를 로우-레벨 분류자로서 사용하여 AR 콘텐츠를 획득하는 동작은, 원격 프로세싱 시스템으로부터 상기 AR 콘텐츠를 자동으로 검색하는 것을 포함하는 적어도 하나의 비일시적 기계 액세스가능한 매체.
제11항에 있어서,
상기 AR 클라이언트로부터 수신된 텍스트는 상기 AR 클라이언트에 의해 수행된 OCR로부터의 결과들 중 적어도 일부를 포함하는 적어도 하나의 비일시적 기계 액세스가능한 매체.
데이터 프로세싱 시스템으로서,
프로세싱 엘리먼트;
상기 프로세싱 엘리먼트에 응답하는 적어도 하나의 기계 액세스가능한 매체;
상기 적어도 하나의 기계 액세스가능한 매체 내에 적어도 부분적으로 저장된 증강 현실(AR) 브라우저 ― 상기 AR 브라우저는 장면의 비디오에 기초하여 상기 장면이 미리 결정된 AR 타겟을 포함하는지를 자동으로 결정하도록 동작가능함 ―; 및
상기 적어도 하나의 기계 액세스가능한 매체 내에 적어도 부분적으로 저장된 AR 구성 데이터 ― 상기 AR 구성 데이터는 AR 콘텐츠용 멀티-레벨 트리거를 제공하고, 상기 멀티-레벨 트리거는, (a) 하이-레벨 분류자 (b) 상기 AR 타겟에 대한 광학 캐릭터 인식(OCR) 존 정의; 및 (c) 상기 OCR 존 정의에 기초한 로우-레벨 분류자를 포함하고, 상기 하이-레벨 분류자는 (i) 상기 미리 결정된 AR 타겟과 연관된 AR 타겟 식별자 및 (ii) 상기 미리 결정된 AR 타겟의 하나 이상의 그래픽 특징들을 특징으로하는 AR 타겟 정의를 포함하고, 상기 OCR 존 정의는 미리 결정된 OCR 존으로서 기능하도록 폐쇄 영역에 대한 경계들을 식별하고, 상기 OCR 존 정의는 또한 상기 미리 결정된 AR 타겟의 적어도 하나의 그래픽 특징에 대하여, 상기 미리 결정된 OCR 존에 대한 위치를 특정함 ―
를 포함하고,
상기 AR 브라우저는,
상기 하이-레벨 분류자를 사용하여 장면의 비디오가 상기 미리 결정된 AR 타겟을 포함하는지를 자동으로 결정하는 동작;
상기 AR 타겟에 대한 상기 OCR 존 정의를 사용하여 상기 OCR 존으로부터 텍스트를 추출하는 동작;
상기 OCR 존으로부터 추출된 텍스트를 상기 로우-레벨 분류자로서 사용하여 상기 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠를 획득하는 동작; 및
상기 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠가 상기 장면과 함께 자동으로 표시되도록 하는 동작
을 포함하는 동작들을 수행하도록 동작가능한 데이터 프로세싱 시스템.
제15항에 있어서,
상기 AR 브라우저는 OCR을 수행하지 않고 상기 장면이 상기 미리 결정된 AR 타겟을 포함하는지를 결정하도록 동작가능한 데이터 프로세싱 시스템.
제15항에 있어서,
상기 AR 브라우저는, 상기 미리 결정된 AR 타겟에 대한 타겟 식별자를 사용하여 로컬 저장 매체로부터 상기 OCR 존 정의를 검색하도록 동작가능한 데이터 프로세싱 시스템.
제15항에 있어서,
상기 OCR 존으로부터 추출된 텍스트를 사용하여 상기 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠를 획득하는 동작은:
상기 AR 타겟에 대한 타겟 식별자 및 상기 OCR 존으로부터의 텍스트 중 적어도 일부를 원격 프로세싱 시스템에 송신하는 것; 및
상기 타겟 식별자 및 상기 OCR 존으로부터의 텍스트 중 적어도 일부를 상기 원격 프로세싱 시스템에 송신한 이후, 상기 원격 프로세싱 시스템으로부터 상기 AR 콘텐츠를 수신하는 것
을 포함하는 데이터 프로세싱 시스템.
제15항에 있어서,
상기 OCR 존으로부터 추출된 텍스트를 사용하여 상기 OCR 존으로부터 추출된 텍스트에 대응하는 AR 콘텐츠를 획득하는 동작은:
원격 프로세싱 시스템에 OCR 정보를 송신하는 것 ― 상기 OCR 정보는 상기 OCR 존으로부터 추출된 텍스트에 대응함 ― ; 및
상기 원격 프로세싱 시스템에 상기 OCR 정보를 송신한 이후, 상기 원격 프로세싱 시스템으로부터 상기 AR 콘텐츠를 수신하는 것
을 포함하는 데이터 프로세싱 시스템.
제15항에 있어서,
상기 미리 결정된 AR 타겟의 상기 하나 이상의 그래픽 특징들은,
상기 AR 타겟의 경계;
상기 AR 타겟의 폭;
상기 AR 타겟의 높이;
상기 AR 타겟의 에지;
상기 AR 타겟의 코너; 및
상기 AR 타겟의 하나의 특징의, 상기 AR 타겟의 다른 특징에 대한 위치
를 포함하는 그룹으로부터의 적어도 하나의 항목을 포함하는 데이터 프로세싱 시스템.
제15항에 있어서,
상기 하이-레벨 분류자는 AR 컨텐츠 제공자를 식별하는 데이터 프로세싱 시스템.
제15항에 있어서,
상기 AR 브라우저는 비디오 장면들 내에서 2차원 AR 타겟들을 검출하도록 동작가능한 데이터 프로세싱 시스템.
증강 현실 콘텐츠에 대한 멀티-레벨 트리거를 구현하기 위한 방법으로서,
관련된 증강 현실(AR) 콘텐츠를 식별하기 위한 하이-레벨 분류자로서의 역할을 하는 AR 타겟을 선택하는 단계 - 상기 하이-레벨 분류자는 상기 선택된 AR 타겟의 하나 이상의 그래픽 특징들을 특징으로 하는 AR 타겟 정의를 포함함 -; 및
상기 선택된 AR 타겟에 대한 광학 캐릭터 인식(OCR) 존 정의를 특정하는 단계
를 포함하고, 상기 OCR 존 정의는 OCR을 사용하여 텍스트가 추출될 비디오 프레임 내의 폐쇄 영역에 대한 경계들을 식별하고, 상기 OCR 존 정의는 또한 상기 선택된 AR 타겟의 적어도 하나의 그래픽 특징에 대하여, 미리 결정된 OCR 존에 대한 위치를 특정하고, 상기 OCR 존으로부터의 텍스트는 관련된 AR 콘텐츠를 식별하기 위한 로우-레벨 분류자로서의 역할을 하는 방법.
제23항에 있어서,
상기 선택된 AR 타겟에 대한 OCR 존 정의를 특정하는 단계는:
상기 AR 타겟의 적어도 하나의 특징에 대해, 상기 OCR 존의 적어도 하나의 특징을 특정하는 것을 포함하고,
상기 선택된 AR 타겟의 상기 하나 이상의 그래픽 특징들은,
상기 AR 타겟의 경계;
상기 AR 타겟의 폭;
상기 AR 타겟의 높이;
상기 AR 타겟의 에지;
상기 AR 타겟의 코너; 및
상기 선택된 AR 타겟의 하나의 특징의, 상기 선택된 AR 타겟의 다른 특징에 대한 위치
를 포함하는 그룹으로부터의 적어도 하나의 항목을 포함하는 방법.