KR101469398B1 - 텍스트 기반 3d 증강 현실 - Google Patents

텍스트 기반 3d 증강 현실 Download PDF

Info

Publication number
KR101469398B1
KR101469398B1 KR1020137006370A KR20137006370A KR101469398B1 KR 101469398 B1 KR101469398 B1 KR 101469398B1 KR 1020137006370 A KR1020137006370 A KR 1020137006370A KR 20137006370 A KR20137006370 A KR 20137006370A KR 101469398 B1 KR101469398 B1 KR 101469398B1
Authority
KR
South Korea
Prior art keywords
text
image data
delete delete
features
image
Prior art date
Application number
KR1020137006370A
Other languages
English (en)
Other versions
KR20130056309A (ko
Inventor
형일 구
태원 이
기선 유
영기 백
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20130056309A publication Critical patent/KR20130056309A/ko
Application granted granted Critical
Publication of KR101469398B1 publication Critical patent/KR101469398B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

특정 방법은 이미지 데이터를 이미지 캡처 디바이스로부터 수신하는 단계, 및 이미지 데이터 내에서 텍스트를 검출하는 단계를 포함한다. 텍스트를 검출하는 것에 응답하여, 텍스트와 연관된 적어도 하나의 증강 현실 피처를 포함한 증강 이미지 데이터가 생성된다.

Description

텍스트 기반 3D 증강 현실{TEXT-BASED 3D AUGMENTED REALITY}
본 개시는 일반적으로 이미지 프로세싱에 관한 것이다.
기술에서의 진보는 더 소형이고 더 강력한 컴퓨팅 디바이스들을 발생시켰다. 예를 들어, 소형이고 경량이며 사용자들에 의해 용이하게 휴대되는 휴대형 무선 전화기들, 개인용 디지털 보조기(PDA)들, 및 페이징 디바이스들과 같은 무선 컴퓨팅 디바이스들을 포함한 다양한 휴대형 개인용 컴퓨팅 디바이스들이 현재 존재한다. 더 상세하게는, 셀룰러 전화기들 및 인터넷 프로토콜 (IP) 전화기들과 같은 휴대형 무선 전화기들은 무선 네트워크들을 통해 음성 및 데이터 패킷들을 통신할 수 있다. 또한, 다수의 그러한 무선 전화기들은 본 명세서에 통합된 다른 타입들의 디바이스들을 포함한다. 예를 들어, 무선 전화기는 또한, 디지털 스틸 카메라, 디지털 비디오 카메라, 디지털 레코더, 및 오디오 파일 플레이어를 포함할 수 있다.
텍스트 기반 증강 현실 (AR) 기술이 설명된다. 텍스트 기반 AR 기술은 현실 세계 장면들에서 발생하는 텍스트로부터 정보를 취출하고 관련 컨텐츠를 실제 장면에 임베딩함으로써 관련 컨텐츠를 나타내는데 이용될 수 있다. 예를 들어, 카메라 및 디스플레이 스크린을 갖는 휴대형 디바이스는, 카메라에 의해 캡처된 장면에서 발생하는 텍스트를 검출하고 그 텍스트와 연관된 3차원 (3D) 컨텐츠를 로케이팅(locate)하기 위해 텍스트 기반 AR 을 수행할 수 있다. 3D 컨텐츠에는, 이미지 미리보기 모드에서 스크린에 디스플레이될 경우와 같이 디스플레이될 경우, 장면의 일부로서 나타날 카메라로부터의 이미지 데이터가 임베딩될 수 있다. 디바이스의 사용자는 터치 스크린 또는 키보드와 같은 입력 디바이스를 통해 3D 컨텐츠와 상호작용할 수도 있다.
특정 실시형태에 있어서, 일 방법은 이미지 데이터를 이미지 캡처 디바이스로부터 수신하는 단계, 및 이미지 데이터 내에서 텍스트를 검출하는 단계를 포함한다. 그 방법은 또한, 텍스트를 검출하는 것에 응답하여, 텍스트와 연관된 적어도 하나의 증강 현실 피처 (feature) 를 포함한 증강 이미지 데이터를 생성하는 단계를 포함한다.
다른 특정 실시형태에 있어서, 일 장치는 이미지 캡처 디바이스로부터 수신된 이미지 데이터 내에서 텍스트를 검출하도록 구성된 텍스트 검출기를 포함한다. 그 장치는 또한 증강 이미지 데이터를 생성하도록 구성된 렌더러(renderer)를 포함한다. 증강 이미지 데이터는 텍스트와 연관된 적어도 하나의 증강 현실 피처를 렌더링하기 위한 증강 현실 데이터를 포함한다.
개시된 실시형태들 중 적어도 하나에 의해 제공된 특정 이점들은, 장면 내에서 미리결정된 마커들을 식별하거나 데이터베이스에 등록된 자연 이미지들에 기초한 장면을 식별하는 것에 기초하여 제한된 수의 장면들에서 AR 컨텐츠를 제공하는 것에 비하여, 장면에서의 검출된 텍스트에 기초하여 임의의 장면에서 AR 컨텐츠를 제시하는 능력을 포함한다.
본 개시의 다른 양태들, 이점들, 및 특징들은 다음의 섹션들: 즉, 도면의 간단한 설명, 상세한 설명 및 특허청구범위를 포함한 전체 출원의 검토 후에 명백하게 될 것이다.
도 1a 는 텍스트 기반 3차원 (3D) 증강 현실 (AR) 을 제공하기 위한 시스템의 특정 실시형태를 도시하기 위한 블록 다이어그램이다.
도 1b 는 도 1a 의 시스템의 이미지 프로세싱 디바이스의 제 1 실시형태를 도시하기 위한 블록 다이어그램이다.
도 1c 는 도 1a 의 시스템의 이미지 프로세싱 디바이스의 제 2 실시형태를 도시하기 위한 블록 다이어그램이다.
도 1d 는 도 1a 의 시스템의 텍스트 검출기의 특정 실시형태 및 텍스트 검출기의 텍스트 인식기의 특정 실시형태를 도시하기 위한 블록 다이어그램이다.
도 2 는 도 1a 의 시스템에 의해 수행될 수도 있는 이미지 내에서의 텍스트 검출의 예시적인 실시예를 도시한 다이어그램이다.
도 3 은 도 1a 의 시스템에 의해 수행될 수도 있는 텍스트 배향 검출의 예시적인 실시예를 도시한 다이어그램이다.
도 4 는 도 1a 의 시스템에 의해 수행될 수도 있는 텍스트 영역 검출의 예시적인 실시예를 도시한 다이어그램이다.
도 5 는 도 1a 의 시스템에 의해 수행될 수도 있는 텍스트 영역 검출의 예시적인 실시예를 도시한 다이어그램이다.
도 6 은 도 1a 의 시스템에 의해 수행될 수도 있는 텍스트 영역 검출의 예시적인 실시예를 도시한 다이어그램이다.
도 7 은 도 2 의 이미지 내에서의 검출된 텍스트 영역의 예시적인 실시예를 도시한 다이어그램이다.
도 8 은 원근 왜곡 (perspective distortion) 제거 이후 검출된 텍스트 영역으로부터의 텍스트를 도시한 다이어그램이다.
도 9 는 도 1a 의 시스템에 의해 수행될 수도 있는 텍스트 확인 프로세스의 특정 실시형태를 도시한 다이어그램이다.
도 10 은 도 1a 의 시스템에 의해 수행될 수도 있는 텍스트 영역 추적의 예시적인 실시예를 도시한 다이어그램이다.
도 11 은 도 1a 의 시스템에 의해 수행될 수도 있는 텍스트 영역 추적의 예시적인 실시예를 도시한 다이어그램이다.
도 12 는 도 1a 의 시스템에 의해 수행될 수도 있는 텍스트 영역 추적의 예시적인 실시예를 도시한 다이어그램이다.
도 13 은 도 1a 의 시스템에 의해 수행될 수도 있는 텍스트 영역 추적의 예시적인 실시예를 도시한 다이어그램이다.
도 14 는 도 1a 의 시스템에 의해 수행될 수도 있는 텍스트 영역 추적에 기초하여 카메라 포즈(pose)를 결정하는 예시적인 실시예를 도시한 다이어그램이다.
도 15 는 도 1a 의 시스템에 의해 수행될 수도 있는 텍스트 영역 추적의 예시적인 실시예를 도시한 다이어그램이다.
도 16 은 도 1a 의 시스템에 의해 생성될 수도 있는 텍스트 기반 3차원 (3D) 증강 현실 (AR) 컨텐츠의 예시적인 실시예를 도시한 다이어그램이다.
도 17 은 텍스트 기반 3차원 (3D) 증강 현실 (AR) 을 제공하는 방법의 제 1 특정 실시형태를 도시하기 위한 플로우 다이어그램이다.
도 18 은 이미지 데이터에 있어서 텍스트를 추적하는 방법의 특정 실시형태를 도시하기 위한 플로우 다이어그램이다.
도 19 는 이미지 데이터의 다중의 프레임들에 있어서 텍스트를 추적하는 방법의 특정 실시형태를 도시하기 위한 플로우 다이어그램이다.
도 20 은 이미지 캡처 디바이스의 포즈를 추정하는 방법의 특정 실시형태를 도시하기 위한 플로우 다이어그램이다.
도 21a 는 텍스트 기반 3차원 (3D) 증강 현실 (AR) 을 제공하는 방법의 제 2 특정 실시형태를 도시하기 위한 플로우 다이어그램이다.
도 21b 는 텍스트 기반 3차원 (3D) 증강 현실 (AR) 을 제공하는 방법의 제 3 특정 실시형태를 도시하기 위한 플로우 다이어그램이다.
도 21c 는 텍스트 기반 3차원 (3D) 증강 현실 (AR) 을 제공하는 방법의 제 4 특정 실시형태를 도시하기 위한 플로우 다이어그램이다.
도 21d 는 텍스트 기반 3차원 (3D) 증강 현실 (AR) 을 제공하는 방법의 제 5 특정 실시형태를 도시하기 위한 플로우 다이어그램이다.
도 1a 는 텍스트 기반 3차원 (3D) 증강 현실 (AR) 을 제공하기 위한 시스템 (100) 의 특정 실시형태의 블록 다이어그램이다. 시스템 (100) 은 이미지 프로세싱 디바이스 (104) 에 커플링된 이미지 캡처 디바이스 (102) 를 포함한다. 이미지 프로세싱 디바이스 (104) 는 또한, 디스플레이 디바이스 (106), 메모리 (108), 및 사용자 입력 디바이스 (180) 에 커플링된다. 이미지 프로세싱 디바이스 (104) 는 착신 이미지 데이터 또는 비디오 데이터에 있어서 텍스트를 검출하고, 디스플레이용의 3D AR 데이터를 생성하도록 구성된다.
특정 실시형태에 있어서, 이미지 캡처 디바이스 (102) 는 텍스트 (152) 를 갖는 장면의 이미지 (150) 를 나타내는 착신 광을 이미지 센서 (112) 로 지향시키도록 구성된 렌즈 (110) 를 포함한다. 이미지 센서 (112) 는 검출된 착신 광에 기초하여 비디오 또는 이미지 데이터 (160) 를 생성하도록 구성될 수도 있다. 이미지 캡처 디바이스 (102) 는 하나 이상의 디지털 스틸 카메라들, 하나 이상의 비디오 카메라들, 또는 이들의 임의의 조합을 포함할 수도 있다.
특정 실시형태에 있어서, 이미지 프로세싱 디바이스 (104) 는, 도 1b, 도 1c, 및 도 1d 에 대하여 설명되는 바와 같이, 착신 비디오/이미지 데이터 (160) 에 있어서 텍스트를 검출하고 디스플레이용의 증강 이미지 데이터 (170) 를 생성하도록 구성된다. 이미지 프로세싱 디바이스 (104) 는 이미지 캡처 디바이스 (102) 로부터 수신된 비디오/이미지 데이터 (160) 내에서 텍스트를 검출하도록 구성된다. 이미지 프로세싱 디바이스 (104) 는 검출된 텍스트에 기초하여 증강 현실 (AR) 데이터 및 카메라 포즈 데이터를 생성하도록 구성된다. AR 데이터는 비디오/이미지 데이터 (160) 과 결합되고 증강 이미지 (151) 내에 임베딩되는 바와 같이 디스플레이될 AR 피처 (154) 와 같은 적어도 하나의 증강 현실 피처를 포함한다. 이미지 프로세싱 디바이스 (104) 는 카메라 포즈 데이터에 기초하여 비디오/이미지 데이터 (160) 에 AR 데이터를 임베딩하여, 디스플레이 디바이스 (106) 에 제공되는 증강 이미지 데이터 (170) 를 생성한다.
특정 실시형태에 있어서, 디스플레이 디바이스 (106) 는 증강 이미지 데이터 (170) 를 디스플레이하도록 구성된다. 예를 들어, 디스플레이 디바이스 (106) 는 이미지 미리보기 스크린 또는 다른 시각적 디스플레이 디바이스를 포함할 수도 있다. 특정 실시형태에 있어서, 사용자 입력 디바이스 (180) 는 디스플레이 디바이스 (106) 에서 디스플레이된 3차원 오브젝트의 사용자 제어를 가능케 한다. 예를 들어, 사용자 입력 디바이스 (180) 는 하나 이상의 스위치들, 버튼들, 조이스틱들, 또는 키들과 같은 하나 이상의 물리적 제어장치들을 포함할 수도 있다. 다른 예들로서, 사용자 입력 디바이스 (180) 는 디스플레이 디바이스 (106) 의 터치스크린, 스피치 인터페이스, 에코로케이터 또는 제스처 인식기, 다른 사용자 입력 메커니즘, 또는 이들의 임의의 조합을 포함할 수 있다.
특정 실시형태에 있어서, 이미지 프로세싱 디바이스 (104) 의 적어도 일부는 전용 회로를 통해 구현될 수도 있다. 다른 실시형태들에 있어서, 이미지 프로세싱 디바이스 (104) 의 적어도 일부는, 이미지 프로세싱 디바이스 (104) 에 의해 실행되는 컴퓨터 실행가능 코드의 실행에 의해 구현될 수도 있다. 예시를 위해, 메모리 (108) 는, 이미지 프로세싱 디바이스 (104) 에 의해 실행가능한 프로그램 명령들 (142) 을 저장하는 비-일시적 컴퓨터 판독가능 저장 매체를 포함할 수도 있다. 프로그램 명령들 (142) 은 비디오/이미지 데이터 (160) 내의 텍스트와 같이 이미지 캡처 디바이스로부터 수신된 이미지 데이터 내에서 텍스트를 검출하기 위한 코드, 및 증강 이미지 데이터를 생성하기 위한 코드를 포함할 수도 있다. 증강 이미지 데이터는, 증강 이미지 데이터 (170) 와 같이, 텍스트와 연관된 적어도 하나의 증강 현실 피처를 렌더링하기 위한 증강 현실 데이터를 포함한다.
텍스트 기반 AR 을 위한 방법은 도 1a 의 이미지 프로세싱 디바이스 (104) 에 의해 수행될 수도 있다. 텍스트 기반 AR 은 (a) 현실 세계 장면들에 있어서의 텍스트로부터 정보를 취출하고 (b) 관련 컨텐츠를 실제 장면에 임베딩함으로써 관련 컨텐츠를 나타내기 위한 기술을 의미한다. 마커 기반 AR 과 달리, 이 접근법은 미리 정의된 마커들을 요구하지 않으며, 기존의 딕셔너리들 (영어, 한국어, 위키피디아, ...) 을 이용할 수 있다. 또한, 그 결과들을 다양한 형태들 (오버레이된 텍스트, 이미지들, 3D 오브젝트들, 스피치, 및/또는 애니메이션들) 로 나타냄으로써, 텍스트 기반 AR 은 다수의 어플리케이션들 (예를 들어, 관광, 교육) 에 매우 유용할 수 있다.
이용 케이스의 특정 예시적인 실시형태는 식당 메뉴이다. 외국에서 여행하고 있을 경우, 여행자는 여행자가 딕셔너리에서 검색할 수 없을 수도 있는 외래어들을 볼 수도 있다. 또한, 외래어들이 딕셔너리에서 발견되더라도 외래어들의 의미를 이해하기 어려울 수도 있다.
예를 들어, "자장면" 은 중국 음식 "Zha jjang mian" 으로부터 유래된 대중적인 한국 음식이다. 자장면은 춘장 (짭짤한 흑된장) 으로 만들어진 진한 소스가 토핑된 밀가루 국수, 채썬 고기 및 야채들, 및 때때로 또한 해산물로 이루어진다. 이 설명이 도움이 되지만, 그 음식이 개인의 미각을 충족시킬 것이지 여부를 알기는 여전히 어렵다. 하지만, 준비된 자장면 요리의 이미지를 볼 수 있다면, 개인이 자장면을 이해하는 것은 더 용이할 것이다.
자장면의 3D 정보가 입수가능하다면, 개인은 그 다양한 형상들을 볼 수 있을 것이고, 그러면 자장면을 훨씬 더 잘 이해할 수 있을 것이다. 텍스트 기반 3D AR 시스템은 그 3D 정보로부터 외래어를 이해하는 것을 도울 수 있다.
특정 실시형태에 있어서, 텍스트 기반 3D AR 은 텍스트 영역 검출을 수행하는 것을 포함한다. 텍스트 영역은, 이진화 및 투영 프로파일 분석을 이용함으로써 이미지의 중심 주변의 ROI (관심 영역) 내에서 검출될 수도 있다. 예를 들어, 이진화 및 투영 프로파일 분석은 도 1d 에 대하여 설명되는 바와 같은 텍스트 영역 검출기 (122) 와 같은 텍스트 인식 검출기에 의해 수행될 수도 있다.
도 1b 는 텍스트 검출기 (120), 추적/포즈 추정 모듈 (130), AR 컨텐츠 생성기 (190), 및 렌더러 (134) 를 포함하는 도 1a 의 이미지 프로세싱 디바이스 (104) 의 제 1 실시형태의 블록 다이어그램이다. 이미지 프로세싱 디바이스 (104) 는 착신 비디오/이미지 데이터 (160) 를 수신하고, 이미지 프로세싱 디바이스 (104) 의 모드에 응답하는 스위치 (194) 의 동작을 통해 비디오/이미지 데이터 (160) 를 텍스트 검출기 (120) 에 선택적으로 제공하도록 구성된다. 예를 들어, 검출 모드에 있어서, 스위치 (194) 는 비디오/이미지 데이터 (160) 를 텍스트 검출기 (120) 에 제공할 수도 있고, 추적 모드에 있어서, 스위치 (194) 는 비디오/이미지 데이터 (160) 의 프로세싱이 텍스트 검출기 (120) 를 바이패스하게 할 수도 있다. 그 모드는, 추적/포즈 추정 모듈 (130) 에 의해 제공되는 검출/추적 모드 표시자 (172) 를 통해 스위치 (194) 에 표시될 수도 있다.
텍스트 검출기 (120) 는 이미지 캡처 디바이스 (102) 로부터 수신된 이미지 데이터 내에서 텍스트를 검출하도록 구성된다. 텍스트 검출기 (120) 는, 미리결정된 마커들을 로케이팅하기 위해 비디오/이미지 데이터 (160) 를 검사하지 않고 그리고 등록된 자연 이미지들의 데이터베이스에 액세스하지 않고, 비디오/이미지 데이터 (160) 의 텍스트를 검출하도록 구성될 수도 있다. 도 1d 에 대하여 설명되는 바와 같이, 텍스트 검출기 (120) 는 확인된 텍스트 데이터 (166) 및 텍스트 영역 데이터 (167) 를 생성하도록 구성된다.
특정 실시형태에 있어서, AR 컨텐츠 생성기 (190) 는 확인된 텍스트 데이터 (166) 를 수신하고, 비디오/이미지 데이터 (160) 과 결합하고 증강 이미지 (151) 내에 임베딩되는 바와 같이 디스플레이될 AR 피처 (154) 와 같은 적어도 하나의 증강 현실 피처를 포함하는 증강 현실 (AR) 데이터 (192) 를 생성하도록 구성된다. 예를 들어, AR 컨텐츠 생성기 (190) 는, 도 16 에 도시된 메뉴 번역 이용 케이스에 대하여 설명되는 바와 같이 확인된 텍스트 데이터 (166) 의 의미, 번역 또는 다른 양태에 기초하여 하나 이상의 증강 현실 피처들을 선택할 수도 있다. 특정 실시형태에 있어서, 적어도 하나의 증강 현실 피처는 3차원 오브젝트이다.
특정 실시형태에 있어서, 추적/포즈 추정 모듈 (130) 은 추적 컴포넌트 (131) 및 포즈 추정 컴포넌트 (132) 를 포함한다. 추적/포즈 추정 모듈 (130) 은 텍스트 영역 데이터 (167) 및 비디오/이미지 데이터 (160) 를 수신하도록 구성된다. 추적/포즈 추정 모듈 (130) 의 추적 컴포넌트 (131) 는 추적 모드에 있는 동안 비디오 데이터의 다중의 프레임들 중에 이미지 (150) 에 있어서 적어도 하나의 다른 현저한 피처에 대해 텍스트 영역을 추적하도록 구성될 수도 있다. 추적/포즈 추정 모듈 (130) 의 포즈 추정 컴포넌트 (132) 는 이미지 캡처 디바이스 (102) 의 포즈를 결정하도록 구성될 수도 있다. 추적/포즈 추정 모듈 (130) 은, 포즈 추정 컴포넌트 (132) 에 의해 결정된 이미지 캡처 디바이스 (102) 의 포즈에 적어도 부분적으로 기초하여 카메라 포즈 데이터 (168) 를 생성하도록 구성된다. 텍스트 영역은 3차원으로 추적될 수도 있고, AR 데이터 (192) 는 이미지 캡처 디바이스 (102) 의 포즈 및 추적된 텍스트 영역의 포지션에 따라 다중의 프레임들에 배치될 수도 있다.
특정 실시형태에 있어서, 렌더러 (134) 는 AR 컨텐츠 생성기 (190) 로부터의 AR 데이터 (192) 및 추적/포즈 추정 모듈 (130) 로부터의 카메라 포즈 데이터 (168) 를 수신하고 증강 이미지 데이터 (170) 를 생성하도록 구성된다. 증강 이미지 데이터 (170) 는, 오리지널 이미지 (150) 의 텍스트 (152) 및 증강 이미지 (151) 의 텍스트 (153) 와 연관된 증강 현실 피처 (154) 와 같이, 텍스트와 연관된 적어도 하나의 증강 현실 피처를 렌더링하기 위한 증강 현실 데이터를 포함할 수도 있다. 렌더러 (134) 는 또한, 사용자 입력 디바이스 (180) 로부터 수신된 사용자 입력 데이터 (182) 에 응답하여 AR 데이터 (192) 의 프리젠테이션을 제어할 수도 있다.
특정 실시형태에 있어서, 텍스트 검출기 (120), AR 컨텐츠 생성기 (190), 추적/포즈 추정 모듈 (130), 및 렌더러 (134) 중 하나 이상의 적어도 일부는 전용 회로를 통해 구현될 수도 있다. 다른 실시형태에 있어서, 텍스트 검출기 (120), AR 컨텐츠 생성기 (190), 추적/포즈 추정 모듈 (130), 및 렌더러 (134) 중 하나 이상은, 이미지 프로세싱 디바이스 (104) 에 포함된 프로세서 (136) 에 의해 실행되는 컴퓨터 실행가능 코드의 실행에 의해 구현될 수도 있다. 예시를 위해, 메모리 (108) 는 프로세서 (136) 에 의해 실행가능한 프로그램 명령들 (142) 을 저장하는 비-일시적 컴퓨터 판독가능 저장 매체를 포함할 수도 있다. 프로그램 명령들 (142) 은 비디오/이미지 데이터 (160) 내의 텍스트와 같이 이미지 캡처 디바이스로부터 수신된 이미지 데이터 내에서 텍스트를 검출하기 위한 코드, 및 증강 이미지 데이터 (170) 를 생성하기 위한 코드를 포함할 수도 있다. 증강 이미지 데이터 (170) 는 텍스트와 연관된 적어도 하나의 증강 현실 피처를 렌더링하기 위한 증강 현실 데이터를 포함한다.
동작 동안, 비디오/이미지 데이터 (160) 는 이미지 (150) 를 나타내는 데이터를 포함하는 비디오 데이터의 프레임들로서 수신될 수도 있다. 이미지 프로세싱 디바이스 (104) 는 텍스트 검출 모드에 있어서, 비디오/이미지 데이터 (160) 를 텍스트 검출기 (120) 에 제공할 수도 있다. 텍스트 (152) 가 로케이팅될 수도 있으며, 확인된 텍스트 데이터 (166) 및 텍스트 영역 데이터 (167) 가 생성될 수도 있다. AR 데이터 (192) 는 카메라 포즈 데이터 (168) 에 기초하여 렌더러 (134) 에 의해 비디오/이미지 데이터 (160) 에 임베딩되고, 증강 이미지 데이터 (170) 는 디스플레이 디바이스 (106) 에 제공된다.
텍스트 검출 모드에 있어서 텍스트 (152) 를 검출하는 것에 응답하여, 이미지 프로세싱 디바이스 (104) 는 추적 모드에 진입할 수도 있다. 추적 모드에 있어서, 텍스트 검출기 (120) 는 바이패스될 수도 있고, 도 10 내지 도 15 에 대하여 설명되는 바와 같이, 비디오/이미지 데이터 (160) 의 연속적인 프레임들 간의 관심 포인트들의 모션을 결정하는 것에 기초하여 텍스트 영역이 추적될 수도 있다. 장면에 있어서 텍스트 영역이 더 이상 존재하지 않는다고 텍스트 영역 추적이 나타내는 경우, 검출/추적 모드 표시자 (172) 는 검출 모드를 나타내도록 설정될 수도 있고, 텍스트 검출기 (120) 에서 텍스트 검출이 개시될 수도 있다. 텍스트 검출은 도 1d 에 대하여 설명되는 바와 같이 텍스트 영역 검출, 텍스트 인식, 또는 이들의 조합을 포함할 수도 있다.
도 1c 는 텍스트 검출기 (120), 추적/포즈 추정 모듈 (130), AR 컨텐츠 생성기 (190), 및 렌더러 (134) 를 포함하는 도 1a 의 이미지 프로세싱 디바이스 (104) 의 제 2 실시형태의 블록 다이어그램이다. 이미지 프로세싱 디바이스 (104) 는 착신 비디오/이미지 데이터 (160) 를 수신하고, 비디오/이미지 데이터 (160) 를 텍스트 검출기 (120) 에 제공하도록 구성된다. 도 1b 와 대조적으로, 도 1c 에 도시된 이미지 프로세싱 디바이스 (104) 는 착신 비디오/이미지 데이터 (160) 의 모든 프레임에서 텍스트 검출을 수행할 수도 있으며, 검출 모드와 추적 모드 사이를 천이하지 않는다.
도 1d 는 도 1b 및 도 1c 의 이미지 프로세싱 디바이스 (104) 의 텍스트 검출기 (120) 의 특정 실시형태의 블록 다이어그램이다. 텍스트 검출기 (120) 는 이미지 캡처 디바이스 (102) 로부터 수신된 비디오/이미지 데이터 (160) 내에서 텍스트를 검출하도록 구성된다. 텍스트 검출기 (120) 는, 미리결정된 마커들을 로케이팅하기 위해 비디오/이미지 데이터 (160) 를 검사하지 않고 그리고 등록된 자연 이미지들의 데이터베이스에 액세스하지 않고, 착신 이미지 데이터에서 텍스트를 검출하도록 구성될 수도 있다. 텍스트 검출은 텍스트의 영역을 검출하는 것 및 그 영역 내에서의 텍스트의 인식을 포함할 수도 있다. 특정 실시형태에 있어서, 텍스트 검출기 (120) 는 텍스트 영역 검출기 (122) 및 텍스트 인식기 (125) 를 포함한다. 비디오/이미지 데이터 (160) 는 텍스트 영역 검출기 (122) 및 텍스트 인식기 (125) 에 제공될 수도 있다.
텍스트 영역 검출기 (122) 는 비디오/이미지 데이터 (160) 내에서 텍스트 영역을 로케이팅하도록 구성된다. 예를 들어, 도 2 에 대하여 설명되는 바와 같이, 텍스트 영역 검출기 (122) 는 이미지의 중심 주변의 관심 영역을 탐색하도록 구성될 수도 있고 이진화 기술을 이용하여 텍스트 영역을 로케이팅할 수도 있다. 텍스트 영역 검출기 (122) 는, 예를 들어, 도 3 및 도 4 에 대하여 설명되는 바와 같은 투영 프로파일 분석 또는 상향식 (bottom-up) 클러스터링 방법들에 따라 텍스트 영역의 배향을 추정하도록 구성될 수도 있다. 텍스트 영역 검출기 (122) 는 도 5 내지 도 7 에 대하여 설명되는 바와 같은 하나 이상의 검출된 텍스트 영역들을 표시하는 초기 텍스트 영역 데이터 (162) 를 제공하도록 구성된다. 특정 실시형태에 있어서, 텍스트 영역 검출기 (122) 는, 도 7 에 대하여 설명되는 바와 같은 이진화 기술을 수행하도록 구성된 이진화 컴포넌트를 포함할 수도 있다.
텍스트 인식기 (125) 는 비디오/오디오 데이터 (160) 및 초기 텍스트 영역 데이터 (162) 를 수신하도록 구성된다. 텍스트 인식기 (125) 는, 도 8 에 대하여 설명되는 바와 같은 원근 왜곡을 감소시키기 위해 초기 텍스트 영역 데이터 (162) 에서 식별된 텍스트 영역을 조정하도록 구성될 수도 있다. 예를 들어, 텍스트 (152) 는 이미지 캡처 디바이스 (102) 의 원근감으로 인한 왜곡을 가질 수도 있다. 텍스트 인식기 (125) 는, 텍스트 영역의 바운딩 박스의 코너들을 직사각형의 코너들로 매핑하여 제안된 텍스트 데이터를 생성하는 변환을 적용함으로써 텍스트 영역을 조정하도록 구성될 수도 있다. 텍스트 인식기 (125) 는 제안된 텍스트 데이터를 광학 문자 인식을 통해 생성하도록 구성될 수도 있다.
텍스트 인식기 (125) 는 추가로, 제안된 텍스트 데이터를 확인하기 위해 딕셔너리에 액세스하도록 구성될 수도 있다. 예를 들어, 텍스트 인식기 (125) 는 대표적인 딕셔너리 (140) 와 같이 도 1a 의 메모리 (108) 에 저장된 하나 이상의 딕셔너리들에 액세스할 수도 있다. 제안된 텍스트 데이터는 다중의 텍스트 후보들 및 그 다중의 텍스트 후보들과 연관된 신뢰도 데이터를 포함할 수도 있다. 텍스트 인식기 (125) 는, 도 9 에 대하여 설명되는 바와 같이 텍스트 후보와 연관된 신뢰도 값에 따라 딕셔너리 (140) 의 엔트리에 대응하는 텍스트 후보를 선택하도록 구성될 수도 있다. 텍스트 인식기 (125) 는 추가로, 확인된 텍스트 데이터 (166) 및 텍스트 영역 데이터 (167) 를 생성하도록 구성된다. 도 1b 및 도 1c 에서 설명된 바와 같이, 확인된 텍스트 데이터 (166) 는 AR 컨텐츠 생성기 (190) 에 제공될 수도 있고, 텍스트 영역 데이터 (167) 는 추적/포즈 추정 (130) 에 제공될 수도 있다.
특정 실시형태에 있어서, 텍스트 인식기 (125) 는 원근 왜곡 제거 컴포넌트 (196), 이진화 컴포넌트 (197), 문자 인식 컴포넌트 (198), 및 에러_정정 컴포넌트 (199) 를 포함할 수도 있다. 원근 왜곡 제거 컴포넌트 (196) 는 도 8 에 대하여 설명되는 바와 같이 원근 왜곡을 감소시키도록 구성된다. 이진화 컴포넌트 (197) 는 도 7 에 대하여 설명되는 바와 같이 이진화 기술을 수행하도록 구성된다. 문자 인식 컴포넌트 (198) 는 도 9 에 대하여 설명되는 바와 같이 문자 인식을 수행하도록 구성된다. 에러_정정 컴포넌트 (199) 는 도 9 에 설명되는 바와 같이 에러 정정을 수행하도록 구성된다.
도 1b, 도 1c, 및 도 1d 의 실시형태들 중 하나 이상에 따라 도 1a 의 시스템 (100) 에 의해 인에이블되는 텍스트 기반 AR 은 다른 AR 방식들에 비해 현저한 이점들을 제공한다. 예를 들어, 마커 기반 AR 방식은, 컴퓨터가 이미지에서 식별하고 디코딩하기에 상대적으로 단순한 별개의 이미지들인 "마커들" 의 라이브러리를 포함할 수도 있다. 예시를 위해, 마커는 외관 및 기능 양자에 있어서 QR (Quick Response) 코드와 같은 2차원 바 코드와 유사할 수도 있다. 마커는 이미지에서 용이하게 검출가능하고 다른 마커들로부터 용이하게 구별가능하도록 설계될 수도 있다. 마커가 이미지에서 검출될 경우, 관련 정보가 마커 상에 삽입될 수도 있다. 하지만, 검출가능하도록 설계된 마커들은 장면에 임베딩될 경우에 부자연스럽게 보인다. 일부 마커 방식 구현들에 있어서, 지정된 마커가 장면 내에서 가시적인지 여부를 확인하기 위해 경계 마커들이 또한 요구될 수도 있고, 이는 부가적인 마커들로 장면의 자연적 품질을 더 저하시킨다.
마커 기반 AR 방식들에 대한 다른 단점은 증강 현실 컨텐츠가 디스플레이되는 모든 장면에 마커들이 임베딩되어야 한다는 점이다. 결과적으로, 마커 방식들은 비효율적이다. 또한, 마커들이 미리정의되어야 하고 장면들에 삽입되어야 하기 때문에, 마커 기반 AR 방식들은 상대적으로 유연하지 않다.
텍스트 기반 AR 은 또한 자연 피처들 기반 AR 방식들에 비해 이점들을 제공한다. 예를 들어, 자연 피처들 기반 AR 방식은 자연 피처들의 데이터베이스를 요구할 수도 있다. SIFT (scale-invariant feature transform) 알고리즘이 각각의 타깃 장면을 탐색하는데 사용되어, 데이터베이스 내의 자연 피처들 중 하나 이상이 장면에 있는지 여부를 판정할 수도 있다. 일단 데이터베이스 내의 충분히 유사한 자연 피처들이 타깃 장면에서 검출되면, 관련 정보가 타깃 장면에 대해 오버레이될 수도 있다. 하지만, 그러한 자연 피처들 기반 방식은 전체 이미지들에 기초할 수도 있고 검출할 다수의 타깃들이 존재할 수도 있기 때문에, 매우 큰 데이터베이스가 요구될 수도 있다.
그러한 마커 기반 AR 방식들 및 자연 피처들 기반 AR 방식들에 대조적으로, 본 개시의 텍스트 기반 AR 방식의 실시형태들은 마커들을 삽입하기 위해 어떠한 장면의 사전 변형을 요구하지도 않고 또한 비교를 위한 이미지들의 큰 데이터베이스도 요구하지 않는다. 대신, 텍스트가 장면 내에서 로케이팅되고, 로케이팅된 텍스트에 기초하여 관련 정보가 취출된다.
통상적으로, 장면 내의 텍스트는 장면에 관한 중요 정보를 수록한다. 예를 들어, 영화 포스터에서 자주 등장하는 텍스트는 영화의 제목을 포함하고, 또한, 태그라인, 영화 개봉일, 배우들의 이름들, 감독들, 프로듀서들, 또는 다른 관련 정보를 포함할 수도 있다. 텍스트 기반 AR 시스템에 있어서, 소량의 정보를 저장하는 데이터베이스 (예를 들어, 딕셔너리) 는 영화 포스터에 관련된 정보 (예를 들어, 영화 제목, 배우들/여배우들의 이름들) 를 식별하는데 이용될 수 있다. 대조적으로, 자연 피처들 기반 AR 방식은 수천개의 상이한 영화 포스터들에 대응하는 데이터베이스를 요구할 수도 있다. 부가적으로, 마커를 포함하도록 미리 변경된 장면들에만 효과적인 마커 기반 AR 방식에 대조적으로, 텍스트 기반 AR 시스템은 장면 내에서 검출된 텍스트에 기초하여 관련 정보를 식별하기 때문에, 텍스트 기반 AR 시스템은 임의의 타입의 타깃 장면에 적용될 수 있다. 따라서, 텍스트 기반 AR 은 마커 기반 방식들에 비해 우수한 유용성 및 효율성을 제공할 수 있고, 또한, 자연 피처들 기반 방식들에 비해 더 상세한 타깃 검출 및 감소된 데이터베이스 요건들을 제공할 수 있다.
도 2 는 이미지 내에서의 텍스트 검출의 예시적인 실시예 (200) 를 도시한 것이다. 예를 들어, 도 1d 의 텍스트 검출기 (120) 는 비디오/이미지 데이터 (160) 의 입력 프레임에 대한 이진화를 수행할 수도 있어서, 텍스트가 흑색이 되고 다른 이미지는 백색이 되게 한다. 좌측 이미지 (202) 는 입력 이미지를 도시하고, 우측 이미지 (204) 는 입력 이미지 (202) 의 이진화 결과를 도시한 것이다. 좌측 이미지 (202) 는 컬러 이미지 또는 컬러-스케일 이미지 (예를 들어, 그레이-스케일 이미지) 를 나타낸다. 적응 임계값 기반 이진화 방법들 또는 컬러 클러스터링 기반 방법들과 같은 임의의 이진화 방법이 카메라 캡처된 이미지들에 대한 강인한 이진화를 위해 구현될 수도 있다.
도 3 은 도 1d 의 텍스트 검출기 (120) 에 의해 수행될 수도 있는 텍스트 배향 검출의 예시적인 실시예 (300) 을 도시한 것이다. 이진화 결과가 주어지면, 투영 프로파일 분석을 이용함으로써, 텍스트 배향이 추정될 수도 있다. 투영 프로파일 분석의 기본 아이디어는, 라인 방향이 텍스트 배향과 일치할 경우에 "텍스트 영역 (블랙 픽셀들)" 이 최소 개수의 라인들로 커버될 수 있다는 것이다. 예를 들어, 제 1 배향 (302) 을 갖는 라인들의 제 1 개수는, 하위 텍스트의 배향에 더 근접하게 매칭하는 제 2 배향 (304) 을 갖는 라인들의 제 2 개수보다 더 많다. 수개의 방향들을 테스트함으로써, 텍스트 배향이 추정될 수도 있다.
텍스트의 배향이 주어지면, 텍스트 영역이 발견될 수도 있다. 도 4 는 도 1d 의 텍스트 검출기 (120) 에 의해 수행될 수도 있는 텍스트 영역 검출의 예시적인 실시예 (400) 를 도시한 것이다. 대표적인 라인 (404) 와 같은 도 4 에서의 일부 라인들은 블랙 픽셀들 (텍스트 내 픽셀들) 을 통과하지 않은 라인들이지만, 대표적인 라인 (406) 과 같은 다른 라인들은 블랙 픽셀들을 크로싱하는 라인들이다. 블랙 픽셀들을 통과하지 않는 라인들을 찾음으로써, 텍스트 영역의 수직 한계가 검출될 수도 있다.
도 5 는 도 1a 의 시스템에 의해 수행될 수도 있는 텍스트 영역 검출의 예시적인 실시예를 도시한 다이어그램이다. 텍스트 (502) 와 연관된 바운딩 박스 또는 바운딩 영역을 결정함으로써 텍스트 영역이 검출될 수도 있다. 바운딩 박스는, 텍스트 (502) 를 실질적으로 둘러싸는 복수의 교차 라인들을 포함할 수도 있다. 예를 들어, 텍스트 (502) 의 단어의 상대적으로 타이트한 바운딩 박스를 찾기 위해, 최적화 문제가 해결되고 풀릴 수도 있다. 최적화 문제를 해결하기 위해, 텍스트 (502) 를 형성하는 픽셀들은
Figure 112013021553914-pct00001
로서 나타낼 수도 있다. 바운딩 박스의 상위 라인 (504) 은 제 1 수학식 y=ax+b 에 의해 기술될 수도 있고, 바운딩 박스의 하위 라인 (506) 은 제 2 수학식 y=cx+d 에 의해 기술될 수도 있다. 제 1 및 제 2 수학식들에 대한 값들을 구하기 위해, 다음의 기준이 부과될 수도 있다: 즉,
Figure 112013021553914-pct00002
를 충족하는
Figure 112013021553914-pct00003
,
여기서:
Figure 112013021553914-pct00004
.
특정 실시형태에 있어서, 이 조건은 상위 라인 (504) 및 하위 라인 (506) 이 그 라인들 (504, 506) 사이의 영역을 감소시키는 (예를 들어, 최소화하는) 방식으로 결정됨을 직관적으로 나타낼 수도 있다.
텍스트의 수직 한계들 (예를 들어, 텍스트의 상한 및 하한을 적어도 부분적으로 구분하는 라인들) 이 검출된 후, 수평 한계들 (예를 들어, 텍스트의 좌측 한계와 우측 한계를 적어도 부분적으로 구분하는 라인들) 이 또한 검출될 수도 있다. 도 6 은 도 1a 의 시스템에 의해 수행될 수도 있는 텍스트 영역 검출의 예시적인 실시예를 도시한 다이어그램이다. 도 6 은, 도 5 에 관하여 설명된 방법에 의해서와 같이, 상위 라인 (604) 및 하위 라인 (606) 이 찾아진 이후 바운딩 박스를 완성하기 위해 수평 한계들 (예를 들어, 좌측 라인 (608) 및 우측 라인 (610)) 를 찾기 위한 방법을 도시한 것이다.
좌측 라인 (608) 은 제 3 수학식 y=ex+f 에 의해 기술될 수도 있고, 우측 라인 (610) 은 제 4 수학식 y=gx+h 에 의해 기술될 수도 있다. 바운딩 박스의 좌측 및 우측 상에 상대적으로 적은 개수의 픽셀들이 존재할 수도 있기 때문에, 좌측 라인 (608) 및 우측 라인 (610) 의 기울기들은 고정될 수도 있다. 예를 들어, 도 6 에 도시된 바와 같이, 좌측 라인 (608) 과 상부 라인 (604) 에 의해 형성된 제 1 각 (612) 은 좌측 라인 (608) 과 저부 라인 (606) 에 의해 형성된 제 2 각 (614) 과 동일할 수도 있다. 유사하게, 우측 라인 (610) 과 상부 라인 (604) 에 의해 형성된 제 3 각 (616) 은 우측 라인 (610) 과 저부 라인 (606) 에 의해 형성된 제 4 각 (618) 과 동일할 수도 있다. 상부 라인 (604) 및 저부 라인 (606) 을 찾는데 사용된 접근법과 유사한 접근법이 라인들 (608, 610) 을 찾는데 이용될 수도 있지만, 이러한 접근법은 라인들 (608, 610) 의 기울기들을 불안정하게 할 수도 있음을 유의한다.
바운딩 박스 또는 바운딩 영역은, 정규 바운딩 영역의 원근 왜곡에 적어도 부분적으로 대응하는 왜곡된 바운딩 영역에 대응할 수도 있다. 예를 들어, 정규 바운딩 영역은, 텍스트를 둘러싸고 카메라 포즈로 인해 왜곡되어 도 6 에 도시된 왜곡된 바운딩 영역을 발생시키는 직사각형일 수도 있다. 텍스트가 평면의 오브젝트 상에서 로케이팅되고 직사각형 바운딩 박스를 갖는다고 가정함으로써, 하나 이상의 카메라 파라미터들에 기초하여 카메라 포즈가 결정될 수 있다. 예를 들어, 초점 거리, 주점, 스큐 계수, (반경 왜곡 및 접선 왜곡과 같은) 이미지 왜곡 계수들, 하나 이상의 다른 파라미터들, 또는 이들의 임의의 조합에 적어도 부분적으로 기초하여 카메라 포즈가 결정될 수 있다.
도 4 내지 도 6 에 관하여 설명된 바운딩 박스 또는 바운딩 영역은 단지 독자의 편의를 위해 상부, 저부, 좌측 및 우측 라인들뿐 아니라 수평 및 수직 라인들 또는 경계들에 관하여 설명되었다. 도 4 내지 도 6 에 관하여 설명된 방법들은, 수평적으로 또는 수직적으로 배열된 텍스트에 대한 경계들을 찾는 것에 한정되지 않는다. 또한, 도 4 내지 도 6 에 관하여 설명된 방법들은, 직선들에 의해 용이하게 바운딩되지 않는 텍스트, 예를 들어, 곡선 방식으로 배열된 텍스트와 연관된 바운딩 영역들을 찾기 위해 이용되거나 적응될 수도 있다.
도 7 은 도 2 의 이미지 내에서의 검출된 텍스트 영역 (702) 의 예시적인 실시예 (700) 를 도시한 것이다. 특정 실시형태에 있어서, 텍스트 기반 3D AR 은 텍스트 인식을 수행하는 것을 포함한다. 예를 들어, 텍스트 영역을 검출한 후, 텍스트 영역이 수정될 수도 있어서, 원근으로 인한 텍스트의 하나 이상의 왜곡들이 제거되거나 감소된다. 예를 들어, 도 1d 의 텍스트 인식기 (125) 는 초기 텍스트 영역 데이터 (162) 에 의해 표시된 텍스트 영역을 수정할 수도 있다. 텍스트 영역의 바운딩 박스의 4개의 코너들을 직사각형의 4개의 코너들로 매핑하는 변환이 결정될 수도 있다. (소비자 카메라들에서 공통으로 이용가능한 바와 같은) 렌즈의 초점 거리가 원근 왜곡들을 제거하는데 이용될 수도 있다. 대안적으로, 카메라 캡처된 이미지들의 애스팩트 비가 사용될 수도 있다 (장면이 원근적으로 캡처되면, 접근법들 간의 큰 차이가 존재하지 않을 수도 있음).
도 8 은 원근 왜곡을 감소하기 위해 원근 왜곡 제거를 이용하여 "TEXT" 를 포함한 텍스트 영역을 조정하는 실시예 (800) 를 도시한 것이다. 예를 들어, 텍스트 영역을 조정하는 것은 텍스트 영역의 바운딩 박스의 코너들을 직사각형의 코너들로 매핑하는 변환을 적용하는 것을 포함할 수도 있다. 도 8 에 도시된 실시예 (800) 에 있어서, "TEXT" 는 도 7 의 검출된 텍스트 영역 (702) 으로부터의 텍스트일 수도 있다.
수정된 문자들의 인식을 위해, 하나 이상의 광학 문자 인식 (OCR) 기술들이 적용될 수도 있다. 종래의 OCR 방법들은 카메라 이미지들 대신 스캐닝된 이미지들과 함께 이용하기 위해 설계될 수도 있기 때문에, 그러한 종래의 방법들은 (플랫 스캐너와는 대조적으로) 사용자 작동식 카메라에 의해 캡처된 이미지들에 있어서 외관 왜곡을 충분히 처리하지 못할 수도 있다. 카메라 기반 OCR 을 위한 트레이닝 샘플들이, 도 1d 의 텍스트 인식기 (125) 에 의해 사용될 수도 있는 바와 같이, 외관 왜곡 효과들을 처리하기 위해 수개의 왜곡 모델을 결합함으로써 생성될 수도 있다.
특정 실시형태에 있어서, 텍스트 기반 3D AR 은 딕셔너리 검색을 수행하는 것을 포함한다. OCR 결과들은 잘못될 수도 있으며, 딕셔너리들을 사용함으로써 정정될 수도 있다. 예를 들어, 일반 딕셔너리가 사용될 수도 있다. 하지만, 컨텍스트 정보의 사용은, 더 신속한 검색 및 더 적절한 결과들을 위해 일반 딕셔너리보다 더 작을 수도 있는 적당한 딕셔너리의 선택을 보조할 수 있다. 예를 들어, 사용자가 한국 내 중국 식당에 있는 정보를 이용하는 것은 약 100 단어로 이루어질 수도 있는 딕셔너리의 선택을 가능케 한다.
특정 실시형태에 있어서, OCR 엔진 (예를 들어, 도 1d 의 텍스트 인식기 (125)) 은 각각의 문자에 대한 수개의 후보들, 및 그 후보들 각각과 연관된 신뢰도 값을 나타내는 데이터를 리턴할 수도 있다. 도 9 는 텍스트 확인 프로세스의 실시예 (900) 를 도시한 것이다. 이미지 (902) 내에서의 검출된 텍스트 영역으로부터의 텍스트는 원근 왜곡 제거 동작 (904) 을 경험하여, 수정된 텍스트 (906) 가 발생할 수도 있다. OCR 프로세스는, 제 1 문자에 대응하는 제 1 그룹 (910), 제 2 문자에 대응하는 제 2 그룹 (912), 및 제 3 문자에 대응하는 제 3 그룹 (914) 으로서 도시된, 각각의 문자에 대한 5개의 가장 가능성있는 후보들을 리턴할 수도 있다.
예를 들어, 제 1 문자는 이진화된 결과에서 "자" 이고, 수개의 후보들 (예를 들어, '자', '차', '짜', '쟈', '챠') 이 그 신뢰도에 따라 리턴된다 (상부의 최고 신뢰도 값으로부터 저부의 최저 신뢰도 값까지 그룹 (910) 내의 수직 포지션에 따라 랭크되는 것으로서 도시됨). 딕셔너리 (916) 에서의 검색 동작이 수행된다. 도 9 의 실시예에 있어서, 각각의 문자에 대한 5개의 후보들은 125(=5*5*5)개의 후보 단어들 (예를 들어, "자장민", "자장먼", "자장면", ..., "챠차?") 을 발생시킨다. 후보 단어들 중 하나 이상에 대한 딕셔너리 (916) 에서의 대응하는 단어를 찾기 위해 검색 프로세스가 수행될 수도 있다. 예를 들어, 다중의 후보 단어들이 딕셔너리 (916) 에서 발견될 수도 있을 경우, 확인된 후보 단어 (918) 가 신뢰도 값에 따라 결정될 수도 있다 (예를 들어, 딕셔너리에서 발견된 그 후보 단어들 중 최고 신뢰도 값을 갖는 후보 단어).
특정 실시형태에 있어서, 텍스트 기반 3D AR 은 추적 및 포즈 추정을 수행하는 것을 포함한다. 예를 들어, 휴대형 전자 디바이스 (예를 들어, 도 1a 의 시스템 (100)) 의 미리보기 모드에 있어서, 초당 약 15 내지 30개의 이미지들이 존재할 수도 있다. 모든 프레임에 대해 텍스트 영역 검출 및 텍스트 인식을 적용하는 것은 시간 소모적이고 모바일 디바이스의 프로세싱 리소스들을 과용할 수도 있다. 모든 프레임에 대한 텍스트 영역 검출 및 텍스트 인식은 때때로, 미리보기 비디오에 있어서 일부 이미지들이 정확하게 인식되더라도, 가시적 깜빡거림 효과를 발생시킬 수도 있다.
추적 방법은 관심 포인트들을 추출하는 것, 및 연속적인 이미지들 사이에서 관심 포인트들의 모션들을 산출하는 것을 포함할 수 있다. 산출된 모션들을 분석함으로써, 실제 평면 (예를 들어, 현실 세계에서의 메뉴판) 과 캡처된 이미지들 간의 기하학적 관계가 추정될 수도 있다. 카메라의 3D 포즈가 추정된 지오메트리로부터 추정될 수 있다.
도 10 은 도 1b 의 추적/포즈 추정 모듈 (130) 에 의해 수행될 수도 있는 텍스트 영역 추적의 예시적인 실시예를 도시한 것이다. 대표적인 관심 포인트들의 제 1 세트 (1002) 는 검출된 텍스트 영역에 대응한다. 대표적인 관심 포인트들의 제 2 세트 (1004) 는 검출된 텍스트 영역과 동일한 평면 내에서의 (예를 들어, 메뉴판의 동일면 상에의) 현저한 피처들에 대응한다. 대표적인 포인트들의 제 3 세트 (1006) 는 메뉴판 앞의 용기와 같이 장면 내에서의 다른 현저한 피처들에 대응한다.
특정 실시형태에 있어서, (a) 강인한 오브젝트 추적을 제공하는 코너 포인트들에 기초하여 텍스트 기반 3D AR 에서 텍스트가 추적될 수도 있고 (b) 동일 평면 내 현저한 피처들이 또한 텍스트 기반 3D AR 에서 사용될 수도 있으며 (예를 들어, 텍스트 박스에서의 현저한 피처들 뿐 아니라 대표적인 관심 포인트들의 제 2 세트 (1004) 와 같은 주변 영역들에서의 현저한 피처들도) (c) 현저한 피처들이 업데이트되어 신뢰성없는 현저한 피처들은 폐기되고 새로운 현저한 피처들이 부가되기 때문에, 텍스트 기반 3D AR 에서의 텍스트 추적은 종래의 기술들과는 상이하다. 따라서, 도 1b 의 추적/포즈 추정 모듈 (130) 에서 수행되는 바와 같은 텍스트 기반 3D AR 에서의 텍스트 추적은 뷰포인트 변경 및 카메라 모션에 강인할 수 있다.
3D AR 시스템은 실시간 비디오 프레임들에 대해 동작할 수도 있다. 실시간 비디오에 있어서, 모든 프레임에서 텍스트 검출을 수행하는 구현은 깜빡거림 아티팩트들과 같은 신뢰성없는 결과들을 생성할 수도 있다. 신뢰성 및 성능은 검출된 텍스트를 추적함으로써 개선될 수도 있다. 도 1b 의 추적/포즈 추정 모듈 (130) 과 같은 추적 모듈의 동작은 초기화, 추적, 카메라 포즈 추정, 및 정지 기준을 평가하는 것을 포함할 수도 있다. 추적 동작의 예들은 도 11 내지 제 15 에 대하여 설명된다.
초기화 동안, 추적 모듈은 도 1b 의 텍스트 검출기 (120) 와 같은 검출 모듈로부터의 일부 정보로 시작될 수도 있다. 초기 정보는 검출된 텍스트 영역 및 초기 카메라 포즈를 포함할 수도 있다. 추적에 있어서, 코너, 라인, 얼룩, 또는 다른 피처와 같은 현저한 피처들이 부가 정보로서 사용될 수도 있다. 도 11 및 도 12 에서 설명되는 바와 같이, 추적은 광학 플로우 기반 방법을 먼저 사용하여 추출된 현저한 피처의 모션 벡터들을 산출하는 것을 포함할 수 있다. 현저한 피처들은 광학 플로우 기반 방법을 위해 적용가능한 형태로 변형될 수도 있다. 일부 현저한 피처들은 프레임 대 프레임 매칭 동안 그 대응성을 손실할 수도 있다. 대응성을 손실한 현저한 피처들에 있어서, 그 대응성은 도 13 에 설명되는 바와 같이 복원 방법을 사용하여 추정될 수도 있다. 초기 매칭들 및 정정된 매칭들을 결합함으로써, 최종 모션 벡터들이 획득될 수도 있다. 평면의 오브젝트 가설 하에서 관측된 모션 벡터들을 이용하여, 카메라 포즈 추정이 수행될 수도 있다. 카메라 포즈를 검출하는 것은 3D 오브젝트의 자연적 임베딩을 가능케 한다. 카메라 포즈 추정 및 오브젝트 임베딩은 도 14 및 도 16 에 대하여 설명된다. 정지 기준은, 임계값 미만으로 떨어지는 추적된 현저한 피처들의 대응성의 수 또는 카운트에 응답하여 추적 모듈을 정지시키는 것을 포함할 수도 있다. 검출 모듈은 후속적인 추적을 위해 착신 비디오 프레임들에서 텍스트를 검출하도록 인에이블될 수도 있다.
도 11 및 도 12 는 도 1a 의 시스템에 의해 수행될 수도 있는 텍스트 영역 추적의 특정 실시형태를 도시한 다이어그램들이다. 도 11 은 도 1a 의 이미지 캡처 디바이스 (102) 와 같은 이미지 캡처 디바이스에 의해 캡처된 현실 세계 장면의 제 1 이미지 (1102) 의 일부를 도시한 것이다. 텍스트 영역 (1104) 이 제 1 이미지 (1102) 에서 식별되었다. 카메라 포즈 (예를 들어, 현실 세계 장면의 이미지 캡처 디바이스 및 하나 이상의 엘리먼트들의 상대적인 포지션) 를 결정하는 것을 용이하게 하기 위해, 텍스트 영역은 직사각형인 것으로 가정될 수도 있다. 부가적으로, 관심 포인트들 (1106-1110) 이 텍스트 영역 (1104) 에서 식별되었다. 예를 들어, 관심 포인트들 (1106-1110) 은 신속한 코너 인식 기술을 이용하여 선택된 텍스트의 코너들 또는 다른 윤곽(contour)들과 같은 텍스트의 피처들을 포함할 수도 있다.
제 1 이미지 (1102) 는, 도 1b 에 관하여 설명된 바와 같이 이미지 프로세싱 시스템이 추적 모드로 진입할 경우에 카메라 포즈의 추적을 가능케 하기 위한 기준 프레임으로서 저장될 수도 있다. 카메라 포즈가 변한 이후, 현실 세계 장면의 제 2 이미지 (1202) 와 같은 하나 이상의 후속 이미지들이 이미지 캡처 디바이스에 의해 캡처될 수도 있다. 관심 포인트들 (1206-1210) 이 제 2 이미지 (1202) 에서 식별될 수도 있다. 예를 들어, 관심 포인트들 (1106-1110) 은 코너 검출 필터를 제 1 이미지 (1102) 에 적용함으로써 로케이팅될 수도 있고, 관심 포인트들 (1206-1210) 은 동일한 코너 검출 필터를 제 2 이미지 (1202) 에 적용함으로써 로케이팅될 수도 있다. 도시된 바와 같이, 도 12 의 관심 포인트들 (1206, 1208, 및 1210) 은 각각 도 11 의 관심 포인트들 (1106, 1108, 및 1110) 에 대응한다. 하지만, 포인트 (1207; 글자 "L" 의 상부) 는 포인트 (1107; 글자 "K" 의 중심) 에 대응하지 않고, (글자 "R" 에서의) 포인트 (1209) 는 (글자 "F" 에서의) 포인트 (1109) 에 대응하지 않는다.
카메라 포즈 변경의 결과로서, 제 2 이미지 (1202) 에 있어서의 관심 포인트들 (1206, 1208, 1210) 의 포지션들은 제 1 이미지 (1102) 에 있어서의 대응하는 관심 포인트들 (1106, 1108, 1110) 의 포지션들과는 상이할 수도 있다. 광학 플로우 (예를 들어, 제 2 이미지 (1202) 에 있어서의 관심 포인트들 (1206-1210) 의 포지션들에 비해 제 1 이미지 (1102) 에 있어서의 관심 포인트들 (1106-1110) 의 포지션들 간의 변위 또는 위치 차이) 가 결정될 수도 있다. 광학 플로우는, 제 1 이미지 (1102) 에 비해 제 2 이미지 (1202) 에 있어서 제 1 관심 포인트의 위치 변경 (1106/1206) 과 연관된 제 1 플로우 라인 (1216) 과 같이, 관심 포인트들 (1206-1210) 에 각각 대응하는 플로우 라인들 (1216-1220) 에 의해 도 12 에 도시된다. (예를 들어, 도 3 내지 도 6 에 관하여 설명된 기술들을 이용하여) 제 2 이미지 (1202) 에 있어서의 텍스트 영역의 배향을 계산하는 것보다는, 제 2 이미지 (1202) 에 있어서의 텍스트 영역의 배향이 광학 플로우에 기초하여 추정될 수도 있다. 예를 들어, 관심 포인트들 (1106-1110) 의 상대적인 포지션들에 있어서의 변경이 텍스트 영역의 차원들의 배향을 추정하는데 이용될 수도 있다.
특정 상황에 있어서, 제 1 이미지 (1102) 에서 존재하지 않았던 왜곡들이 제 2 이미지 (1202) 에서 도입될 수도 있다. 예를 들어, 카메라 포즈에 있어서의 변경이 왜곡들을 도입할 수도 있다. 부가적으로, 포인트들 (1107-1207) 및 포인트들 (1109-1209) 와 같이, 제 2 이미지 (1202) 에서 검출된 관심 포인트들이 제 1 이미지 (1102) 에서 검출된 관심 포인트들에 대응하지 않을 수도 있다. 나머지 플로우 라인들에 대해 아웃라이어들인 하나 이상의 플로우 라인들을 식별하기 위해, (랜덤 샘플 컨센서스와 같은) 통계 기술들이 이용될 수도 있다. 예를 들어, 도 12 에 도시된 플로우 라인 (1217) 은, 다른 플로우 라인들의 매핑과는 현저하게 상이하기 때문에 아웃라이어일 수도 있다. 다른 실시예에 있어서, 플로우 라인 (1219) 은, 또한 다른 플로우 라인들의 매핑과는 현저하게 상이하기 때문에 아웃라이어일 수도 있다. 아웃라이어들은 랜덤 샘플 컨센서스를 통해 식별될 수도 있으며, 여기서, 샘플들의 서브세트 (예를 들어, 포인트들 (1206-1210) 의 서브세트) 가 랜덤하게 또는 의사-랜덤하게 선택되고, 선택된 샘플들의 적어도 일부의 변위에 대응하는 테스트 매핑 (예를 들어, 광학 플로우들 (1216, 1218, 1220) 에 대응하는 매핑) 이 결정된다. 매핑에 대응하지 않도록 결정된 샘플들 (예를 들어, 포인트들 (1207 및 1209)) 이 테스트 매핑의 아웃라이어들로서 식별될 수도 있다. 다중의 테스트 매핑이 결정되고 선택된 매핑을 식별하기 위해 비교될 수도 있다. 예를 들어, 선택된 매핑은, 최소 개수의 아웃라이어들을 발생시키는 테스트 매핑일 수도 있다.
도 13 은 윈도우 매칭 접근법에 기초한 아웃라이어들의 정정을 도시한 것이다. 키 프레임 (1302) 은, 현재 프레임 (1304) 와 같은 하나의 또는 후속의 프레임들 (즉, 키 프레임 이후에 캡처, 수신 및/또는 프로세싱되는 하나 이상의 프레임들) 에 있어서 관심 포인트들 및 텍스트 영역을 추적하기 위한 기준 프레임으로서 이용될 수도 있다. 예시적인 키 프레임 (1302) 은 도 11 의 텍스트 영역 (1104) 및 관심 포인트들 (1106-1110) 을 포함한다. 관심 포인트 (1107) 는, 관심 포인트 (1107) 의 예측된 위치 주변의 영역 (1308) 내에서 윈도우 (1310) 와 같이 현재 프레임 (1304) 의 윈도우를 검사함으로써 현재 프레임 (1304) 에서 검출될 수도 있다. 예를 들어, 키 프레임 (1302) 과 현재 프레임 (1304) 간의 호모그래피 (1306) 가, 도 11 및 도 12 에 대하여 설명된 바와 같이 비-아웃라이어 포인트들에 기초하는 매핑에 의해 추정될 수도 있다. 호모그래피는 2개의 평면의 오브젝트들 간의 기하학적 변환이고, 이는 실수 매트릭스 (예를 들어, 3×3 실수 매트릭스) 에 의해 표현될 수도 있다. 관심 포인트 (1107) 에 매핑을 적용하는 것은 현재 프레임 (1304) 내에서 관심 포인트의 예측된 위치를 발생시킨다. 영역 (1308) 내의 윈도우 (즉, 이미지 데이터의 영역들) 가 탐색되어, 관심 포인트가 영역 (1308) 내에 있는지 여부를 판정할 수도 있다. 예를 들어, 정규화된 상호 상관 (NCC) 과 같은 유사도 척도가 사용되어, 키 프레임 (1302) 의 부분 (1312) 을, 도시된 윈도우 (1310) 과 같이 영역 (1308) 내의 현재 프레임 (1304) 의 다중의 부분들과 비교할 수도 있다. NCC 는 기하학적 변형 및 조명 변경을 보상하기 위한 강인한 유사도 척도로서 이용될 수 있다. 하지만, 다른 유사도 척도가 또한 이용될 수도 있다.
따라서, 관심 포인트들 (1107 및 1109) 과 같이 그 대응성을 손실한 현저한 피처들은 윈도우 매칭 접근법을 이용하여 복원될 수도 있다. 결과적으로, 아웃라이어들을 복원하기 위해 관심 포인트들의 변위들 (예를 들어, 모션 벡터들) 의 초기 추정 및 윈도우 매칭을 포함한, 미리정의된 마커들의 사용이 없는 텍스트 영역 추적이 제공될 수도 있다. 그 대응성을 유지하는 추적된 현저한 피처들의 개수가 장면 변경, 줌, 조명 변경, 또는 다른 팩터들로 인해 임계값 미만으로 떨어질 경우와 같이 추적이 실패할 때까지, 프레임 단위 추적이 계속될 수도 있다. 미리정의된 또는 자연적인 마커들보다 더 적은 관심 포인트들 (예를 들어, 더 적은 코너들 또는 다른 별개의 피처들) 을 텍스트가 포함할 수도 있기 때문에, 아웃라이어들의 복원은 추적을 개선시키고 텍스트 기반 AR 시스템의 동작을 향상시킬 수도 있다.
도 14 는 카메라 (1402) 와 같은 이미지 캡처 디바이스의 포즈 (1404) 의 추정을 도시한 것이다. 현재 프레임 (1412) 은, 포인트들 (1207 및 1209) 에 대응하는 아웃라이어들이 도 13 에서 설명된 바와 같이 윈도우 기반 매칭에 의해 정정된 이후 관심 포인트들 (1206-1210) 에 대응하는 관심 포인트들 (1406-1410) 을 갖는 도 12 의 이미지 (1202) 에 대응한다. 포즈 (1404) 는, (도 13 의 키 프레임 (1302) 의 텍스트 영역 (1104) 에 대응하는) 왜곡된 경계 영역이 평면의 정규 바운딩 영역에 매핑되는 수정된 이미지 (1416) 에 대한 호모그래피 (1414) 에 기초하여 결정된다. 정규 바운딩 영역이 직사각형으로서 도시되어 있지만, 다른 실시형태에 있어서, 정규 바운딩 영역은 삼각형, 정사각형, 원형, 타원형, 육각형, 또는 임의의 다른 정규 형상일 수도 있다.
카메라 포즈 (1404) 는 3×3 회전 매트릭스 (R) 및 3×1 병진 매트릭스 (T) 로 이루어진 강체 변환에 의해 표현될 수도 있다. (i) 카메라의 내부 파라미터들 및 (ii) 키 프레임에서의 텍스트 바운딩 박스와 현재 프레임에서의 바운딩 박스 간의 호모그래피를 이용하여, 그 포즈가 다음의 수학식들을 통해 추정될 수 있다:
Figure 112013021553914-pct00005
여기서, 각각의 수 1, 2, 3 은 각각 타깃 매트릭스의 1, 2, 3 컬럼 벡터를 나타내고, H' 은 내부 카메라 파라미터들에 의해 정규화된 호모그래피를 나타낸다. 카메라 포즈 (1404) 를 추정한 후, 3D 컨텐츠가 이미지에 임베딩될 수도 있어서, 3D 컨텐츠가 장면의 자연적인 부분으로서 나타난다.
카메라 포즈의 추적의 정확도는, 프로세싱할 충분한 수의 관심 포인트들 및/또는 정확한 광학 플로우를 가짐으로써 개선될 수도 있다. (예를 들어, 너무 적은 관심 포인트들이 검출되는 결과로서) 프로세싱하도록 이용가능한 관심 포인트들의 수가 임계 개수 미만으로 떨어질 경우, 부가적인 관심 포인트들이 식별될 수도 있다.
도 15 는 도 1a 의 시스템에 의해 수행될 수도 있는 텍스트 영역 추적의 예시적인 실시예를 도시한 다이어그램이다. 특히, 도 15 는 도 11 의 관심 포인트들 (1106-1110) 과 같은 관심 포인트들을 이미지에서 식별하는데 이용될 수도 있는 하이브리드 기술을 도시한 것이다. 도 15 는 텍스트 문자 (1504) 를 포함하는 이미지 (1502) 를 포함한다. 설명의 용이를 위해, 오직 단일의 텍스트 문자 (1504) 가 도시되어 있지만, 이미지 (1502) 는 임의의 수의 텍스트 문자들을 포함할 수 있다.
텍스트 문자 (1504) 의 다수의 관심 포인트들 (박스들로서 표시됨) 이 도 15 에서 강조된다. 예를 들어, 제 1 관심 포인트 (1506) 는 텍스트 문자 (1504) 의 외측 코너와 연관되고, 제 2 관심 포인트 (1508) 는 텍스트 문자 (1504) 의 내측 코너와 연관되고, 제 3 관심 포인트 (1510) 는 텍스트 문자 (1504) 의 곡선부와 연관된다. 관심 포인트들 (1506-1510) 은 신속 코너 검출기와 같은 코너 검출 프로세스에 의해 식별될 수도 있다. 예를 들어, 신속 코너 검출기는, 이미지에서 교차하는 에지들을 식별하기 위해 하나 이상의 필터들을 적용함으로써 코너들을 식별할 수도 있다. 하지만, 예를 들어, 둥글거나 곡선형 문자들에 있어서 텍스트의 코너 포인트들은 종종 드물거나 신뢰성이 없기 때문에, 검출된 코너 포인트들은 강인한 텍스트 추적을 위해 충분하지 않을 수도 있다.
제 2 관심 포인트 (1508) 주변의 영역 (1512) 이 확대되어, 부가적인 관심 포인트들을 식별하기 위한 기술의 상세를 나타낸다. 제 2 관심 포인트 (1508) 는 2개의 라인들의 교점으로서 식별될 수도 있다. 예를 들어, 제 2 관심 포인트 (1508) 근방의 픽셀들의 세트가 2개의 라인들을 식별하기 위해 체크될 수도 있다. 타깃 또는 코너 픽셀 (p) 의 픽셀 값이 결정될 수도 있다. 예시를 위해, 픽셀 값은 픽셀 강도 값들 또는 그레이스케일 값들일 수도 있다. 임계값 (t) 이 타깃 픽셀로부터의 라인들을 식별하는데 이용될 수도 있다. 예를 들어, 라인들의 에지들이 코너 (p; 제 2 관심 포인트 (1508)) 주변의 링 (1514) 에서의 픽셀들을 검사함으로써 구별되어, 링 (1514) 을 따라 I(p)-t 보다 더 어두운 픽셀들과 I(p)+t 보다 더 밝은 픽셀들 간의 변경 포인트들을 식별할 수도 있으며, 여기서, I(p) 는 포지션 (p) 의 강도 값을 나타낸다. 코너 (p; 1508) 를 형성하는 에지들이 링 (1514) 을 교차하는 변경 포인트들 (1516 및 1520) 이 식별될 수도 있다. 제 1 라인 또는 포지션 벡터 (a; 1518) 는 코너 (p; 1508) 에서 유래하고 제 1 변경 포인트 (1516) 를 관통하여 연장하는 것으로서 식별될 수도 있다. 제 2 라인 또는 포지션 벡터 (b; 1522) 는 코너 (p; 1508) 에서 유래하고 제 2 변경 포인트 (1520) 를 관통하여 연장하는 것으로서 식별될 수도 있다.
약한 코너들 (예를 들어, 대략 180도 각도를 형성하기 위해 교차하는 라인들에 의해 형성된 코너들) 은 배제될 수도 있다. 예를 들어, 수학식:
Figure 112013021553914-pct00006
을 이용하여, 2개의 라인들의 내적을 산출하고, 여기서, a, b 및 p ∈ R2 은 비균질 포지션 벡터들을 지칭한다. v 가 임계값보다 더 낮을 경우에 코너들이 배제될 수도 있다. 예를 들어, 2개의 포지션 벡터들 (a, b) 에 의해 형성된 코너는, 2개의 벡터들 간의 각이 약 180도일 경우에 추적 포인트로서 배제될 수도 있다.
특정 실시형태에 있어서, 이미지의 호모그래피 (H) 가 오직 코너들만을 이용하여 산출된다. 예를 들어,
Figure 112013021553914-pct00007
을 이용하고, 여기서, x 는 (도 13 의 키 프레임 (1302) 과 같은) 키 프레임에 있어서 균질 포지션 벡터 ∈ R3 이고, x' 은 (도 13 의 현재 프레임 (1304) 과 같은) 현재 프레임에 있어서 그 대응하는 포인트의 균질 포지션 벡터 ∈ R3 이다.
다른 특정 실시형태에 있어서, 이미지의 호모그래피 (H) 는 코너들, 및 라인들과 같은 다른 피처들을 이용하여 산출된다. 예를 들어, H 는
Figure 112013021553914-pct00008
을 이용하여 산출될 수도 있다.
여기서, l 은 키 프레임에 있어서의 라인 피처이고, l' 은 현재 프레임에 있어서의 그 대응하는 라인 피처이다.
특정 기술은 하이브리드 피처들을 통하여 템플릿 매칭을 이용할 수도 있다. 예를 들어, 윈도우 기반 상관 방법들 (정규화된 상호 상관 (NCC), 제곱 차의 합 (SSD), 절대 차의 합 (SAD) 등) 이,
Figure 112013021553914-pct00009
을 이용하는 비용 함수들로서 이용될 수도 있다.
비용 함수는 x 주변의 (키 프레임에 있어서의) 블록과 x' 주변의 (현재 프레임에 있어서의) 블록 간의 유사도를 나타낼 수도 있다.
하지만, 예시적인 실시예로서,
Figure 112013021553914-pct00010
와 같이, 도 15 에서 식별된 라인 (a; 1518) 및 라인 (b; 1522) 과 같은 부가적인 현저한 피처들의 기하학적 정보를 포함하는 비용함수를 이용함으로써 정확도가 개선될 수도 있다.
일부 실시형태들에 있어서, 부가적인 현저한 피처들 (즉, 라인들과 같은 비-코너 피처들) 은, 키 프레임에 있어서의 검출된 코너들의 수가 코너들의 임계 수보다 더 적을 경우와 같이 적은 코너들이 추적을 위해 이용가능한 경우에 텍스트 추적을 위해 이용될 수도 있다. 다른 실시형태들에 있어서, 부가적인 현저한 피처들은 항상 이용될 수도 있다. 일부 구현들에 있어서, 부가적인 현저한 피처들은 라인들일 수도 있지만, 다른 구현들에 있어서, 부가적인 현저한 피처들은 원, 윤곽, 하나 이상의 다른 피처들, 또는 이들의 임의의 조합을 포함할 수도 있다.
텍스트, 텍스트의 3D 포지션 및 카메라 포즈 정보가 알려지거나 추정되기 때문에, 컨텐츠는 현실적인 방식으로 사용자들에게 제공될 수 있다. 컨텐츠는 자연히 배치될 수 있는 3D 오브젝트들일 수 있다. 예를 들어, 도 16 은 도 1a 의 시스템에 의해 생성될 수도 있는 텍스트 기반 3차원 (3D) 증강 현실 (AR) 컨텐츠의 예시적인 실시예 (1600) 를 도시한 것이다. 카메라로부터의 이미지 또는 비디오 프레임 (1602) 이 프로세싱되고, 증강 이미지 또는 비디오 프레임 (1604) 이 디스플레이용으로 생성된다. 증강 프레임 (1604) 은 영어 번역 (1606) 으로 대체된 이미지의 중심에 위치된 텍스트, 메뉴판의 표면 상에 배치된 3차원 오브젝트 (1608; 찻주전자로 도시됨), 및 상위 코너에 도시된, 검출된 텍스트에 대응하는 준비된 요리의 이미지 (1610) 를 갖는 비디오 프레임 (1602) 을 포함한다. 증강 피처들 (1606, 1608, 1610) 중 하나 이상은, 도 1a 의 사용자 입력 디바이스 (180) 을 통하는 것과 같은 사용자 인터페이스를 통해 사용자 상호작용 또는 제어를 위해 이용가능할 수도 있다.
도 17 은 텍스트 기반 3차원 (3D) 증강 현실 (AR) 을 제공하는 방법 (1700) 의 제 1 특정 실시형태를 도시하기 위한 플로우 다이어그램이다. 특정 실시형태에 있어서, 방법 (1700) 은 도 1a 의 이미지 프로세싱 디바이스 (104) 에 의해 수행될 수도 있다.
1702 에서, 이미지 데이터가 이미지 캡처 디바이스로부터 수신될 수도 있다. 예를 들어, 이미지 캡처 디바이스는 휴대형 전자 디바이스의 비디오 카메라를 포함할 수도 있다. 예시를 위해, 비디오/이미지 데이터 (160) 가 도 1a 의 이미지 캡처 디바이스 (102) 로부터 이미지 프로세싱 디바이스 (104) 에서 수신된다.
1704 에서, 텍스트가 이미지 데이터 내에서 검출될 수도 있다. 텍스트는, 미리결정된 마커들을 로케이팅하기 위해 이미지 데이터를 검사하지 않고도 그리고 등록된 자연 이미지들의 데이터베이스에 액세스하지 않고도 검출될 수도 있다. 텍스트를 검출하는 것은 도 3 및 도 4 에 대하여 설명된 바와 같은 투영 프로파일 분석 또는 상향식 클러스터링 방법들에 따라 텍스트 영역의 배향을 추정하는 것을 포함할 수도 있다. 텍스트를 검출하는 것은 도 5 내지 도 7 에 대하여 설명된 바와 같이, 텍스트의 적어도 일부를 둘러싸는 바운딩 영역 (또는 바운딩 박스) 를 결정하는 것을 포함할 수도 있다.
텍스트를 검출하는 것은 도 8 에 대하여 설명된 바와 같이 원근 왜곡을 감소시키기 위해 텍스트 영역을 조정하는 것을 포함할 수도 있다. 예를 들어, 텍스트 영역을 조정하는 것은 텍스트 영역의 바운딩 박스의 코너들을 직사각형의 코너들로 매핑하는 변환을 적용하는 것을 포함할 수도 있다.
텍스트를 검출하는 것은 제안된 텍스트 데이터를 광학 문자 인식을 통해 생성하는 것, 및 딕셔너리에 액세스하여 제안된 텍스트 데이터를 확인하는 것을 포함할 수도 있다. 제안된 텍스트 데이터는 다중의 텍스트 후보들 및 그 다중의 텍스트 후보들과 연관된 신뢰도 데이터를 포함할 수도 있다. 딕셔너리의 엔트리에 대응하는 텍스트 후보는, 도 9에 대하여 설명된 바와 같이 텍스트 후보와 연관된 신뢰도 값에 따라 확인된 텍스트로서 선택될 수도 있다.
1706 에서, 텍스트를 검출하는 것에 응답하여, 텍스트와 연관된 적어도 하나의 증강 현실 피처를 포함한 증강 이미지 데이터가 생성될 수도 있다. 적어도 하나의 증강 현실 피처는 도 16 의 증강 현실 피처들 (1606 및 1608) 과 같이 이미지 데이터 내에 통합될 수도 있다. 증강 이미지 데이터는 도 1a 의 디스플레이 디바이스와 같이 휴대형 전자 디바이스의 디스플레이 디바이스에 디스플레이될 수도 있다.
특정 실시형태에 있어서, 이미지 데이터는 그 이미지 데이터를 포함하는 비디오 데이터의 프레임에 대응할 수도 있으며, 텍스트를 검출하는 것에 응답하여, 텍스트 검출 모드로부터 추적 모드로 천이가 수행될 수도 있다. 텍스트 영역은, 도 10 내지 도 15 에 관하여 설명된 바와 같이 비디오 데이터의 다중의 프레임들 중에 비디오 데이터의 적어도 하나의 다른 현저한 피처에 대하여 추적 모드에서 추적될 수도 있다. 특정 실시형태에 있어서, 도 14 에 관하여 설명된 바와 같이, 이미지 캡처 디바이스의 포즈가 결정되고 텍스트 영역이 3차원으로 추적된다. 증강 이미지 데이터는 텍스트 영역의 포지션 및 포즈에 따라 다중의 프레임들에 배치된다.
도 18 은 이미지 데이터에서 텍스트를 추적하는 방법의 일 방법 (1800) 의 특정 실시형태를 도시하기 위한 플로우 다이어그램이다. 특정 실시형태에 있어서, 방법 (1800) 은 도 1a 의 이미지 프로세싱 디바이스 (104) 에 의해 수행될 수도 있다.
1802 에서, 이미지 데이터가 이미지 캡처 디바이스로부터 수신될 수도 있다. 예를 들어, 이미지 캡처 디바이스는 휴대형 전자 디바이스의 비디오 카메라를 포함할 수도 있다. 예시를 위해, 비디오/이미지 데이터 (160) 가 도 1a 의 이미지 캡처 디바이스 (102) 로부터 이미지 프로세싱 디바이스 (104) 에서 수신된다.
이미지는 텍스트를 포함할 수도 있다. 1804 에서, 이미지 데이터의 적어도 일부가 프로세싱되어 텍스트의 코너 피처들을 로케이팅할 수도 있다. 예를 들어, 방법 (1800) 은, 텍스트 내에서 코너들을 검출하기 위해 텍스트 영역을 둘러싸는 검출된 바운딩 박스 내에서, 도 15 에 관하여 설명된 바와 같은 코너 식별 방법을 수행할 수도 있다.
1806 에서, 로케이팅된 코너 피처들의 카운트가 임계값을 충족하지 않는 것에 응답하여, 이미지 데이터의 제 1 영역이 프로세싱될 수도 있다. 프로세싱되는 이미지 데이터의 제 1 영역은 제 1 코너 피처를 포함하여, 텍스트의 부가적인 현저한 피처들을 로케이팅할 수도 있다. 예를 들어, 제 1 영역은 제 1 코너 피처에 중심을 둘 수도 있으며, 제 1 영역은, 도 15 의 영역 (1512) 에 관하여 설명된 바와 같이 제 1 영역 내의 에지 및 윤곽 중 적어도 하나를 로케이팅하기 위해 필터를 적용함으로써 프로세싱될 수도 있다. 로케이팅된 코너 피처들 중 하나 이상을 포함하는 이미지 데이터의 영역들은, 로케이팅된 부가적인 현저한 피처들 및 로케이팅된 코너 피처들의 카운트가 임계값을 충족할 때까지 반복적으로 프로세싱될 수도 있다. 특정 실시형태에 있어서, 로케이팅된 코너 피처들 및 로케이팅된 부가적인 현저한 피처들은 이미지 데이터의 제 1 프레임 내에서 로케이팅된다. 도 11 내지 도 15 에 관하여 설명된 바와 같이, 이미지 데이터의 제 2 프레임에 있어서의 텍스트는 로케이팅된 코너 피처들 및 로케이팅된 부가적인 현저한 피처들에 기초하여 추적될 수도 있다. 용어들 "제 1" 및 "제 2" 는, 엘리먼트들을 임의의 특정 순차적인 순서로 제한하지 않고 엘리먼트들 사이를 구별하기 위한 라벨로서 본 명세서에서 사용된다. 예를 들어, 일부 실시형태들에 있어서, 제 2 프레임은 이미지 데이터에 있어서 제 1 프레임을 바로 뒤따를 수도 있다. 다른 실시형태들에 있어서, 이미지 데이터는 제 1 프레임과 제 2 프레임 사이에 하나 이상의 다른 프레임들을 포함할 수도 있다.
도 19 는 이미지 데이터에서 텍스트를 추적하는 방법의 일 방법 (1900) 의 특정 실시형태를 도시하기 위한 플로우 다이어그램이다. 특정 실시형태에 있어서, 방법 (1900) 은 도 1a 의 이미지 프로세싱 디바이스 (104) 에 의해 수행될 수도 있다.
1902 에서, 이미지 데이터가 이미지 캡처 디바이스로부터 수신될 수도 있다. 예를 들어, 이미지 캡처 디바이스는 휴대형 전자 디바이스의 비디오 카메라를 포함할 수도 있다. 예시를 위해, 비디오/이미지 데이터 (160) 가 도 1a 의 이미지 캡처 디바이스 (102) 로부터 이미지 프로세싱 디바이스 (104) 에서 수신된다.
이미지 데이터는 텍스트를 포함할 수도 있다. 1904 에서, 텍스트의 현저한 피처들의 세트가 이미지 데이터의 제 1 프레임에서 식별될 수도 있다. 예를 들어, 현저한 피처들의 세트는 제 1 피처 세트 및 제 2 피처를 포함할 수도 있다. 일 실시예로서 도 11 을 이용하면, 피처들의 세트는 검출된 관심 포인트들 (1106-1110) 에 대응할 수도 있고, 제 1 피처 세트는 관심 포인트들 (1106, 1108, 및 1110) 에 대응할 수도 있으며, 제 2 피처는 관심 포인트들 (1107 및 1109) 에 대응할 수도 있다. 피처들의 세트는 도 11 에 도시된 바와 같이 텍스트의 코너들을 포함할 수도 있고, 도 15 에 관하여 설명된 바와 같이 텍스트의 교차하는 에지들 또는 윤곽들을 옵션적으로 포함할 수도 있다.
1906 에서, 제 1 프레임에 있어서의 제 1 피처 세트에 비해 이미지 데이터의 현재 프레임에 있어서의 제 1 피처 세트의 변위에 대응하는 매핑이 식별될 수도 있다. 예시를 위해, 제 1 피처 세트는 도 11 내지 도 15 에 관하여 설명된 바와 같이 추적 방법을 이용하여 추적될 수도 있다. 일 실시예로서 도 12 를 이용하면, 현재 프레임 (예를 들어, 도 12 의 이미지 (1202)) 은, 제 1 프레임 (예를 들어, 도 11 의 이미지 (1102)) 이 수신된 이후의 어떤 시간에 수신되고 또한 2개의 프레임들 간의 피처 변위를 추적하기 위해 텍스트 추적 모듈에 의해 프로세싱되는 프레임에 대응할 수도 있다. 제 1 피처 세트의 변위는 제 1 피처 세트의 피처들 (1106, 1108, 및 1110) 각각의 변위를 각각 나타내는 광학 플로우들 (1216, 1218, 및 1220) 을 포함할 수도 있다.
1908 에서, 매핑이 제 1 프레임에 있어서의 제 2 피처에 비해 현재 프레임에 있어서의 제 2 피처의 변위에 대응하지 않는다고 결정하는 것에 응답하여, 현재 프레임에 있어서의 제 2 피처의 예측된 위치 주변의 영역이 그 매핑에 따라 프로세싱되어, 제 2 피처가 그 영역 내에 로케이팅되는지 여부를 판정할 수도 있다. 예를 들어, 포인트들 (1106, 1108, 및 1110) 을 포인트들 (1206, 1208, 및 1210) 에 각각 매핑하는 매핑이 포인트 (1107) 를 포인트 (1207) 에 매핑하는데 실패하기 때문에, 도 11 의 관심 포인트 (1107) 는 아웃라이어에 대응한다. 따라서, 매핑에 따른 포인트 (1107) 의 예측된 위치 주변의 영역 (1308) 은 도 13 에 대하여 설명된 바와 같이 윈도우 매칭 기술을 이용하여 프로세싱될 수도 있다. 특정 실시형태에 있어서, 그 영역을 프로세싱하는 것은, 제 1 프레임 (예를 들어, 도 13 의 키 프레임 (1302)) 과 현재 프레임 (예를 들어, 도 13 의 현재 프레임 (1304)) 사이의 기하학적 변형 및 조명 변경 중 적어도 하나를 보상하기 위해 유사도 척도를 적용하는 것을 포함한다. 예를 들어, 유사도 척도는 정규화된 상호 상관을 포함할 수도 있다. 그 매핑은 그 영역 내에서 제 2 피처를 로케이팅하는 것에 응답하여 조정될 수도 있다.
도 20 은 이미지 데이터에서 텍스트를 추적하는 방법의 일 방법 (2000) 의 특정 실시형태를 도시하기 위한 플로우 다이어그램이다. 특정 실시형태에 있어서, 방법 (2000) 은 도 1a 의 이미지 프로세싱 디바이스 (104) 에 의해 수행될 수도 있다.
2002 에서, 이미지 데이터가 이미지 캡처 디바이스로부터 수신될 수도 있다. 예를 들어, 이미지 캡처 디바이스는 휴대형 전자 디바이스의 비디오 카메라를 포함할 수도 있다. 예시를 위해, 비디오/이미지 데이터 (160) 가 도 1a 의 이미지 캡처 디바이스 (102) 로부터 이미지 프로세싱 디바이스 (104) 에서 수신된다.
이미지 데이터는 텍스트를 포함할 수도 있다. 2004 에서, 텍스트의 적어도 일부를 둘러싸는 왜곡된 바운딩 영역이 식별될 수도 있다. 왜곡된 바운딩 영역은 텍스트의 일부를 둘러싸는 정규 바운딩 영역의 원근 왜곡에 적어도 부분적으로 대응할 수도 있다. 예를 들어, 바운딩 영역은 도 3 내지 도 6 에 관하여 설명된 바와 같은 방법을 이용하여 식별될 수도 있다. 특정 실시형태에 있어서, 왜곡된 바운딩 영역을 식별하는 것은 텍스트의 일부에 대응하는 이미지 데이터의 픽셀들을 식별하는 것, 및 식별된 픽셀들을 포함하는 실질적으로 최소 영역을 정의하기 위해 왜곡된 바운딩 영역의 경계들을 결정하는 것을 포함한다. 예를 들어, 정규 바운딩 영역은 직사각형일 수도 있고, 왜곡된 바운딩 영역의 경계들은 사각형을 형성할 수도 있다.
2006 에서, 이미지 캡처 디바이스의 포즈가, 왜곡된 바운딩 영역 및 이미지 캡처 디바이스의 초점거리에 기초하여 결정될 수도 있다. 2008 에서, 디스플레이 디바이스에 디스플레이될 적어도 하나의 증강 현실 피처를 포함한 증강 이미지 데이터가 생성될 수도 있다. 적어도 하나의 증강 현실 피처는 도 16 에 관하여 설명된 바와 같이 이미지 캡처 디바이스의 포즈에 따라 증강 이미지 데이터 내에 배치될 수도 있다.
도 21a 는 텍스트 기반 3차원 (3D) 증강 현실 (AR) 을 제공하는 방법의 제 2 특정 실시형태를 도시하기 위한 플로우 다이어그램이다. 특정 실시형태에 있어서, 도 21a 에 도시된 방법은 검출 모드를 결정하는 것을 포함하고, 도 1b 의 이미지 프로세싱 디바이스 (104) 에 의해 수행될 수도 있다.
입력 이미지 (2104) 가 카메라 모듈 (2102) 로부터 수신된다. 2106 에서, 현재 프로세싱 모드가 검출 모드인지 여부가 판정된다. 현재 프로세싱 모드가 검출 모드라는 것에 응답하여, 2108 에서, 텍스트 영역 검출이 수행되어, 입력 이미지 (2104) 의 대략적인 (coarse) 텍스트 영역 (2110) 을 결정한다. 예를 들어, 텍스트 영역 검출은, 도 2 내지 도 4 에 대하여 설명된 바와 같이 이진화 및 투영 프로파일 분석을 포함할 수도 있다.
2112 에서, 텍스트 인식이 수행된다. 예를 들어, 텍스트 인식은, 도 8 에 대하여 설명된 바와 같은 원근-수정된 텍스트의 광학 문자 인식 (OCR) 을 포함할 수 있다.
2116 에서, 딕셔너리 검색이 수행된다. 예를 들어, 딕셔너리 검색은 도 9 에 대하여 설명된 바와 같이 수행될 수도 있다. 검색 실패에 응답하여, 도 21a 에 도시된 방법은 카메라 모듈 (2102) 로부터 다음 이미지를 프로세싱하도록 리턴한다. 예시를 위해, OCR 엔진에 의해 제공된 신뢰도 데이터에 따라 미리결정된 신뢰도 임계값을 초과하는 딕셔너리에서 어떠한 단어도 발견되지 않을 경우에, 검색 실패가 발생할 수도 있다.
2118 에서, 검색 성공에 응답하여, 추적이 초기화된다. 번역된 텍스트, 3D 오브젝트들, 화상들, 또는 다른 컨텐츠와 같은 AR 컨텐츠가 검출된 텍스트와 관련하여 선택될 수도 있다. 현재 프로세싱 모드는 검출 모드로부터 (예를 들어, 추적 모드로) 천이할 수도 있다.
2120 에서, 카메라 포즈 추정이 수행된다. 예를 들어, 카메라 포즈는, 도 10 내지 도 14 에 대하여 설명된 바와 같이 평면외 관심 포인트들뿐 아니라 평면내 관심 포인트들 및 텍스트 코너들을 추적함으로써 결정될 수도 있다. 카메라 포즈 및 텍스트 영역 데이터는 3D 렌더링 모듈에 의한 렌더링 동작 (2122) 에 제공되어, AR 컨텐츠를 갖는 이미지 (2124) 를 생성하기 위해 AR 컨텐츠를 입력 이미지 (2104) 에 임베딩하거나 그렇지 않으면 부가할 수도 있다. 2126 에서, AR 컨텐츠를 갖는 이미지 (2124) 는 디스플레이 모듈을 통해 디스플레이되고, 도 21a 에 도시된 방법은 카메라 모듈 (2102) 로부터 다음 이미지를 프로세싱하도록 리턴한다.
2106 에서, 후속 이미지가 수신될 경우에 현재 프로세싱 모드가 검출 모드가 아닌 경우, 관심 포인트 추적 (2128) 이 수행된다. 예를 들어, 텍스트 영역 및 다른 관심 포인트들이 추적될 수도 있고, 추적된 관심 포인트들에 대한 모션 데이터가 생성될 수도 있다. 2130 에서, 타깃 텍스트 영역이 손실되었는지 여부가 판정될 수도 있다. 예를 들어, 텍스트 영역이 장면을 퇴장하거나 하나 이상의 다른 오브젝트들에 의해 실질적으로 차단될 경우에 텍스트 영역이 손실될 수도 있다. 키 프레임과 현재 프레임 간의 대응성을 유지하는 추적 포인트들의 수가 임계값 미만인 경우에 텍스트 영역이 손실될 수도 있다. 예를 들어, 하이브리드 추적이 도 15 에 대하여 설명된 바와 같이 수행될 수도 있고, 도 13 에 대하여 설명된 바와 같이 대응성을 손실한 추적 포인트들을 로케이팅하기 위해 윈도우 매칭이 이용될 수도 있다. 추적 포인트들의 수가 임계값 미만으로 떨어질 경우, 텍스트 영역이 손실될 수도 있다. 텍스트 영역이 손실되지 않을 경우, 2120 에서, 프로세싱은 카메라 포즈 추정을 계속한다. 텍스트 영역이 손실된 것에 응답하여, 현재 프로세싱 모드는 검출 모드로 설정되고, 도 21a 에 도시된 방법은 카메라 모듈 (2102) 로부터 다음 이미지를 프로세싱하도록 리턴한다.
도 21b 는 텍스트 기반 3차원 (3D) 증강 현실 (AR) 을 제공하는 방법의 제 3 특정 실시형태를 도시하기 위한 플로우 다이어그램이다. 특정 실시형태에 있어서, 도 21b 에 도시된 방법은 도 1b 의 이미지 프로세싱 디바이스 (104) 에 의해 수행될 수도 있다.
카메라 모듈 (2102) 은 입력 이미지를 수신하고, 2106 에서, 현재 프로세싱 모드가 검출 모드인지 여부가 판정된다. 현재 프로세싱 모드가 검출 모드라는 것에 응답하여, 2108 에서, 텍스트 영역 검출이 수행되어, 입력 이미지의 대략적인 텍스트 영역을 결정한다. 예를 들어, 텍스트 영역 검출은, 도 2 내지 도 4 에 대하여 설명된 바와 같이 이진화 및 투영 프로파일 분석을 포함할 수도 있다.
2109 에서, 텍스트 인식이 수행된다. 예를 들어, 텍스트 인식 (2109) 은, 도 8 에 대하여 설명된 바와 같은 원근-수정된 텍스트의 광학 문자 인식 (OCR) 및 도 9 에 대하여 설명된 바와 같은 딕셔너리 검색을 포함할 수 있다.
2120 에서, 카메라 포즈 추정이 수행된다. 예를 들어, 카메라 포즈는, 도 10 내지 도 14 에 대하여 설명된 바와 같이 평면외 관심 포인트들뿐 아니라 평면내 관심 포인트들 및 텍스트 코너들을 추적함으로써 결정될 수도 있다. 카메라 포즈 및 텍스트 영역 데이터는 3D 렌더링 모듈에 의한 렌더링 동작 (2122) 에 제공되어, AR 컨텐츠를 갖는 이미지를 생성하기 위해 AR 컨텐츠를 입력 이미지에 임베딩하거나 그렇지 않으면 부가할 수도 있다. 2126 에서, AR 컨텐츠를 갖는 이미지는 디스플레이 모듈을 통해 디스플레이된다.
2106 에서, 후속 이미지가 수신될 경우에 현재 프로세싱 모드가 검출 모드가 아닌 경우, 텍스트 추적 (2129) 이 수행된다. 2120 에서, 프로세싱은 카메라 포즈 추정을 계속한다.
도 21c 는 텍스트 기반 3차원 (3D) 증강 현실 (AR) 을 제공하는 방법의 제 4 특정 실시형태를 도시하기 위한 플로우 다이어그램이다. 특정 실시형태에 있어서, 도 21c 에 도시된 방법은 텍스트 추적 모드를 포함하지 않고, 도 1b 의 이미지 프로세싱 디바이스 (104) 에 의해 수행될 수도 있다.
카메라 모듈 (2102) 은 입력 이미지를 수신하고, 2108 에서, 텍스트 영역 검출이 수행된다. 2108 에서의 텍스트 영역 검출의 결과로서, 2109 에서, 텍스트 인식이 수행된다. 예를 들어, 텍스트 인식 (2109) 은, 도 8 에 대하여 설명된 바와 같은 원근-수정된 텍스트의 광학 문자 인식 (OCR) 및 도 9 에 대하여 설명된 바와 같은 딕셔너리 검색을 포함할 수 있다.
텍스트 인식에 후속하여, 2120 에서, 카메라 포즈 추정이 수행된다. 예를 들어, 카메라 포즈는, 도 10 내지 도 14 에 대하여 설명된 바와 같이 평면외 관심 포인트들뿐 아니라 평면내 관심 포인트들 및 텍스트 코너들을 추적함으로써 결정될 수도 있다. 카메라 포즈 및 텍스트 영역 데이터는 3D 렌더링 모듈에 의한 렌더링 동작 (2122) 에 제공되어, AR 컨텐츠를 갖는 이미지를 생성하기 위해 AR 컨텐츠를 입력 이미지 (2104) 에 임베딩하거나 그렇지 않으면 부가할 수도 있다. 2126 에서, AR 컨텐츠를 갖는 이미지는 디스플레이 모듈을 통해 디스플레이된다.
도 21d 는 텍스트 기반 3차원 (3D) 증강 현실 (AR) 을 제공하는 방법의 제 5 특정 실시형태를 도시하기 위한 플로우 다이어그램이다. 특정 실시형태에 있어서, 도 21d 에 도시된 방법은 도 1a 의 이미지 프로세싱 디바이스 (104) 에 의해 수행될 수도 있다.
카메라 모듈 (2102) 은 입력 이미지를 수신하고, 2106 에서, 현재 프로세싱 모드가 검출 모드인지 여부가 판정된다. 현재 프로세싱 모드가 검출 모드라는 것에 응답하여, 2108 에서, 텍스트 영역 검출이 수행되어, 입력 이미지의 대략적인 텍스트 영역을 결정한다. 텍스트 영역 검출 (2108) 의 결과로서, 2109 에서, 텍스트 인식이 수행된다. 예를 들어, 텍스트 인식 (2109) 은, 도 8 에 대하여 설명된 바와 같은 원근-수정된 텍스트의 광학 문자 인식 (OCR) 및 도 9 에 대하여 설명된 바와 같은 딕셔너리 검색을 포함할 수 있다.
텍스트 인식에 후속하여, 2120 에서, 카메라 포즈 추정이 수행된다. 예를 들어, 카메라 포즈는, 도 10 내지 도 14 에 대하여 설명된 바와 같이 평면외 관심 포인트들뿐 아니라 평면내 관심 포인트들 및 텍스트 코너들을 추적함으로써 결정될 수도 있다. 카메라 포즈 및 텍스트 영역 데이터는 3D 렌더링 모듈에 의한 렌더링 동작 (2122) 에 제공되어, AR 컨텐츠를 갖는 이미지를 생성하기 위해 AR 컨텐츠를 입력 이미지 (2104) 에 임베딩하거나 그렇지 않으면 부가할 수도 있다. 2126 에서, AR 컨텐츠를 갖는 이미지는 디스플레이 모듈을 통해 디스플레이된다.
2106 에서, 후속 이미지가 수신될 경우에 현재 프로세싱 모드가 검출 모드가 아닌 경우, 3D 카메라 추적 (2130) 이 수행된다. 2122 에서, 프로세싱은 3D 렌더링 모듈에서 렌더링을 계속한다.
당업자는 본 명세서에 개시된 실시형태들과 관련하여 설명된 다양한 예시적인 논리 블록들, 구성들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 하드웨어 프로세서와 같은 프로세싱 디바이스에 의해 실행되는 컴퓨터 소프트웨어, 또는 이들 양자의 조합으로서 구현될 수도 있음을 또한 인식할 것이다. 다양한 예시적인 컴포넌트들, 블록들, 구성들, 모듈들, 회로들 및 단계들이 일반적으로 그들의 기능의 관점에서 상술되었다. 그러한 기능이 하드웨어로서 구현될지 또는 실행가능한 소프트웨어로서 구현될지는 전체 시스템에 부과된 특정 어플리케이션 및 설계 제약에 의존한다. 당업자는 설명된 기능을 각각의 특정 어플리케이션에 대하여 다양한 방식으로 구현할 수도 있지만, 그러한 구현의 결정이 본 개시의 범위로부터의 일탈을 야기하는 것으로서 해석되지는 않아야 한다.
본 명세서에 개시된 실시형태들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어에서, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 이들 양자의 조합에서 직접 구현될 수도 있다. 소프트웨어 모듈은 랜덤 액세스 메모리 (RAM), 자기저항 랜덤 액세스 메모리 (MRAM), 스핀-토크 전달 MRAM (STT-MRAM), 플래시 메모리, 판독 전용 메모리 (ROM), 프로그램가능 판독 전용 메모리 (PROM), 소거가능한 프로그램가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 프로그램가능 판독 전용 메모리 (EEPROM), 레지스터들, 하드 디스크, 착탈가능 디스크, 컴팩트 디스크 판독 전용 메모리 (CD-ROM), 또는 당업계에 공지된 임의의 다른 형태의 저장 매체와 같은 비-일시적 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있도록 프로세서에 커플링된다. 대안적으로, 저장 매체는 프로세서에 통합될 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 에 상주할 수도 있다. ASIC 은 컴퓨팅 디바이스 또는 사용자 단말기에 상주할 수도 있다. 대안적으로, 프로세서 및 저장 매체는 컴퓨팅 디바이스 또는 사용자 단말기에 별개의 컴포넌트들로서 상주할 수도 있다.
개시된 실시형태들의 상기 설명은 당업자로 하여금 개시된 실시형태들을 제조 또는 이용할 수 있도록 제공된다. 이들 실시형태들에 대한 다양한 변형들은 당업자에게 용이하게 명백할 것이고, 본 명세서에서 정의된 원리들은 본 개시의 범위로부터 일탈함없이 다른 실시형태들에 적용될 수도 있다. 따라서, 본 개시는 본 명세서에서 나타낸 실시형태들에 한정되도록 의도되지 않지만, 다음의 청구항들에 의해 정의된 바와 같은 원리들 및 신규한 특징들과 부합된 가능한 최광의 범위가 부여되도록 의도된다.

Claims (38)

  1. 이미지 데이터에서 텍스트를 추적하는 방법으로서,
    텍스트를 포함하는 이미지 데이터를 이미지 캡처 디바이스로부터 수신하는 단계;
    상기 텍스트의 코너 피처들을 로케이팅하기 위해 상기 이미지 데이터의 적어도 일부를 프로세싱하는 단계; 및
    로케이팅된 상기 코너 피처들의 카운트가 임계값을 충족하지 않는 것에 응답하여, 상기 텍스트의 부가적인 현저한 피처들을 로케이팅하기 위해 제 1 코너 피처를 포함하는 상기 이미지 데이터의 제 1 영역을 프로세싱하는 단계를 포함하는, 텍스트를 추적하는 방법.
  2. 제 1 항에 있어서,
    로케이팅된 상기 부가적인 현저한 피처들의 카운트 및 상기 로케이팅된 코너 피처들의 카운트가 임계값을 충족할 때까지, 상기 로케이팅된 코너 피처들 중 하나 이상을 포함하는 상기 이미지 데이터의 영역들을 반복적으로 프로세싱하는 단계를 더 포함하는, 텍스트를 추적하는 방법.
  3. 제 1 항에 있어서,
    상기 로케이팅된 코너 피처들 및 로케이팅된 상기 부가적인 현저한 피처들은 상기 이미지 데이터의 제 1 프레임 내에서 로케이팅되고,
    상기 로케이팅된 코너 피처들 및 상기 로케이팅된 부가적인 현저한 피처들에 기초하여 상기 이미지 데이터의 제 2 프레임에서 상기 텍스트를 추적하는 단계를 더 포함하는, 텍스트를 추적하는 방법.
  4. 제 1 항에 있어서,
    상기 제 1 영역은 상기 제 1 코너 피처에 중심을 두고,
    상기 제 1 영역을 프로세싱하는 단계는 상기 제 1 영역 내에서 에지 또는 윤곽을 로케이팅하기 위해 필터를 적용하는 단계를 포함하는, 텍스트를 추적하는 방법.
  5. 제 1 항에 있어서,
    추적 모드에서, 텍스트 영역은 비디오 데이터에 대응하는 이미지의 비-텍스트 피처에 대해 상기 비디오 데이터의 다중 프레임들에 걸쳐 추적되는, 텍스트를 추적하는 방법.
  6. 제 5 항에 있어서,
    상기 이미지 캡처 디바이스의 포즈를 결정하는 단계를 더 포함하고,
    상기 텍스트 영역은 3차원으로 추적되고,
    증강 이미지 데이터는 상기 텍스트 영역의 포지션 및 상기 포즈에 따라 상기 다중의 프레임들에 배치되는, 텍스트를 추적하는 방법.
  7. 제 1 항에 있어서,
    상기 이미지 데이터 내에서 텍스트를 인식하는 단계; 및
    상기 텍스트를 인식하는 것에 응답하여, 상기 텍스트에 기초하여 선택된 적어도 하나의 비-텍스트 증강 현실 피처를 포함한 증강 이미지 데이터를 생성하는 단계를 더 포함하는, 텍스트를 추적하는 방법.
  8. 제 7 항에 있어서,
    상기 텍스트를 인식하는 단계는,
    텍스트 영역의 투영 프로파일 분석에 따라 상기 텍스트 영역의 배향을 추정하는 단계; 및
    원근 왜곡을 감소시키기 위해 상기 텍스트 영역을 조정하는 단계를 포함하는, 텍스트를 추적하는 방법.
  9. 제 7 항에 있어서,
    상기 증강 이미지 데이터는 상기 텍스트에 기초하여 선택된 적어도 하나의 텍스트 증강 현실 피처를 더 포함하는, 텍스트를 추적하는 방법.
  10. 제 1 항에 있어서,
    상기 로케이팅된 코너 피처들은 상기 이미지 데이터의 제 1 프레임 내에서 로케이팅되고,
    상기 로케이팅된 코너 피처들의 카운트가 임계값을 충족하는 것에 응답하여, 상기 로케이팅된 코너 피처들에 기초하여 상기 이미지 데이터의 제 2 프레임에서 상기 텍스트를 추적하는 단계를 더 포함하는, 텍스트를 추적하는 방법.
  11. 제 1 항에 있어서,
    상기 이미지 데이터의 제 1 프레임에서 상기 텍스트의 피처들의 세트를 식별하는 단계로서, 상기 피처들의 세트는 제 1 피처 세트 및 제 2 피처를 포함하고, 상기 제 1 피처 세트는 상기 제 1 프레임에서 제 2 프레임으로 제 1 변위만큼 매핑된 피처들을 포함하고, 상기 제 2 피처는 상기 제 1 프레임에서 상기 제 2 프레임으로 제 2 변위만큼 매핑되는, 상기 텍스트의 피처들의 세트를 식별하는 단계;
    상기 제 1 피처 세트의 상기 제 1 변위에 대응하는 매핑을 식별하는 단계; 및
    상기 제 2 피처의 상기 제 2 변위에 상기 매핑이 대응하지 않는다고 결정하는 것에 응답하여, 상기 매핑에 따라 상기 제 2 프레임에서 상기 제 2 피처의 예측된 위치 주변의 영역을 프로세싱하여, 상기 제 2 피처가 상기 영역에 로케이팅되는지 여부를 결정하는 단계를 더 포함하는, 텍스트를 추적하는 방법.
  12. 제 11 항에 있어서,
    상기 영역을 프로세싱하는 것은 상기 제 1 프레임과 현재 프레임 간의 기하학적 변형 또는 조명 변경을 보상하기 위해 유사도 척도 (measure) 를 적용하는 것을 포함하는, 텍스트를 추적하는 방법.
  13. 제 11 항에 있어서,
    상기 제 2 피처의 상기 제 2 변위에 상기 매핑이 대응한다고 결정하는 것에 응답하여, 상기 제 2 프레임에서의 상기 텍스트를 포함하는 텍스트 영역의 차원들의 배향을 추정하기 위해 상기 매핑을 이용하는 단계를 더 포함하는, 텍스트를 추적하는 방법.
  14. 프로세서에 의해 실행가능한 명령들을 저장한 컴퓨터 판독가능 저장 매체로서,
    상기 명령들은, 상기 프로세서로 하여금 제 1 항 내지 제 13 항 중 어느 한 항에 기재된 방법을 실행하게 하는 코드를 포함하는, 명령들을 저장한 컴퓨터 판독가능 저장 매체.
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
KR1020137006370A 2010-10-13 2011-10-06 텍스트 기반 3d 증강 현실 KR101469398B1 (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US39259010P 2010-10-13 2010-10-13
US61/392,590 2010-10-13
US201161432463P 2011-01-13 2011-01-13
US61/432,463 2011-01-13
US13/170,758 2011-06-28
US13/170,758 US20120092329A1 (en) 2010-10-13 2011-06-28 Text-based 3d augmented reality
PCT/US2011/055075 WO2012051040A1 (en) 2010-10-13 2011-10-06 Text-based 3d augmented reality

Publications (2)

Publication Number Publication Date
KR20130056309A KR20130056309A (ko) 2013-05-29
KR101469398B1 true KR101469398B1 (ko) 2014-12-04

Family

ID=45933749

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137006370A KR101469398B1 (ko) 2010-10-13 2011-10-06 텍스트 기반 3d 증강 현실

Country Status (6)

Country Link
US (1) US20120092329A1 (ko)
EP (1) EP2628134A1 (ko)
JP (2) JP2014510958A (ko)
KR (1) KR101469398B1 (ko)
CN (1) CN103154972A (ko)
WO (1) WO2012051040A1 (ko)

Families Citing this family (156)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
EP2159595B1 (en) * 2008-08-28 2013-03-20 Saab Ab A target tracking system and a method for tracking a target
US8493408B2 (en) * 2008-11-19 2013-07-23 Apple Inc. Techniques for manipulating panoramas
US9298007B2 (en) 2014-01-21 2016-03-29 Osterhout Group, Inc. Eye imaging in head worn computing
US9229233B2 (en) 2014-02-11 2016-01-05 Osterhout Group, Inc. Micro Doppler presentations in head worn computing
US9715112B2 (en) 2014-01-21 2017-07-25 Osterhout Group, Inc. Suppression of stray light in head worn computing
US9952664B2 (en) 2014-01-21 2018-04-24 Osterhout Group, Inc. Eye imaging in head worn computing
US9400390B2 (en) 2014-01-24 2016-07-26 Osterhout Group, Inc. Peripheral lighting for head worn computing
US9965681B2 (en) 2008-12-16 2018-05-08 Osterhout Group, Inc. Eye imaging in head worn computing
US8774516B2 (en) 2009-02-10 2014-07-08 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9349046B2 (en) * 2009-02-10 2016-05-24 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
EP2666123A4 (en) * 2011-01-18 2017-03-08 RTC Vision Ltd. System and method for improved character recognition in distorted images
KR101295544B1 (ko) * 2011-01-25 2013-08-16 주식회사 팬택 증강 현실 통합정보 제공 장치와 그 방법 및, 이를 포함하는 시스템
US9104661B1 (en) * 2011-06-29 2015-08-11 Amazon Technologies, Inc. Translation of applications
JP2013038454A (ja) * 2011-08-03 2013-02-21 Sony Corp 画像処理装置および方法、並びにプログラム
US9245051B2 (en) * 2011-09-20 2016-01-26 Nokia Technologies Oy Method and apparatus for conducting a search based on available data modes
KR101193668B1 (ko) * 2011-12-06 2012-12-14 위준성 스마트 기기를 이용한 상황 인식 기반 외국어 습득 및 학습 서비스 제공 방법
US9165188B2 (en) 2012-01-12 2015-10-20 Kofax, Inc. Systems and methods for mobile image capture and processing
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US20130194448A1 (en) 2012-01-26 2013-08-01 Qualcomm Incorporated Rules for merging blocks of connected components in natural images
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US20130215101A1 (en) * 2012-02-21 2013-08-22 Motorola Solutions, Inc. Anamorphic display
JP5702845B2 (ja) * 2012-06-15 2015-04-15 シャープ株式会社 情報配信システム
US9141257B1 (en) 2012-06-18 2015-09-22 Audible, Inc. Selecting and conveying supplemental content
US9299160B2 (en) 2012-06-25 2016-03-29 Adobe Systems Incorporated Camera tracker target user interface for plane detection and object creation
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9014480B2 (en) 2012-07-19 2015-04-21 Qualcomm Incorporated Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9076242B2 (en) * 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
KR102009928B1 (ko) 2012-08-20 2019-08-12 삼성전자 주식회사 협업 구현 방법 및 장치
JP2015529911A (ja) * 2012-09-28 2015-10-08 インテル コーポレイション 拡張現実情報の決定
US20140111542A1 (en) * 2012-10-20 2014-04-24 James Yoong-Siang Wan Platform for recognising text using mobile devices with a built-in device video camera and automatically retrieving associated content based on the recognised text
US9147275B1 (en) 2012-11-19 2015-09-29 A9.Com, Inc. Approaches to text editing
US9043349B1 (en) * 2012-11-29 2015-05-26 A9.Com, Inc. Image-based character recognition
US20140192210A1 (en) * 2013-01-04 2014-07-10 Qualcomm Incorporated Mobile device based text detection and tracking
US9342930B1 (en) 2013-01-25 2016-05-17 A9.Com, Inc. Information aggregation for recognized locations
US10133342B2 (en) * 2013-02-14 2018-11-20 Qualcomm Incorporated Human-body-gesture-based region and volume selection for HMD
CN104995663B (zh) * 2013-03-06 2018-12-04 英特尔公司 用于使用光学字符识别来提供增强现实的方法和装置
KR20140110584A (ko) * 2013-03-08 2014-09-17 삼성전자주식회사 증강 현실 제공 방법, 저장 매체 및 휴대 단말
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
DE202014011407U1 (de) 2013-05-03 2020-04-20 Kofax, Inc. Systeme zum Erkennen und Klassifizieren von Objekten in durch Mobilgeräte aufgenommenen Videos
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
US9406137B2 (en) 2013-06-14 2016-08-02 Qualcomm Incorporated Robust tracking using point and line features
US9245192B2 (en) * 2013-09-20 2016-01-26 Here Global B.V. Ad collateral detection
US9147113B2 (en) * 2013-10-07 2015-09-29 Hong Kong Applied Science and Technology Research Institute Company Limited Deformable surface tracking in augmented reality applications
JP6419421B2 (ja) * 2013-10-31 2018-11-07 株式会社東芝 画像表示装置、画像表示方法およびプログラム
CN105830091A (zh) * 2013-11-15 2016-08-03 柯法克斯公司 使用移动视频数据生成长文档的合成图像的系统和方法
JP2016538783A (ja) * 2013-11-15 2016-12-08 コファックス, インコーポレイテッド モバイル映像データを用いて長尺文書の合成画像を生成するためのシステムおよび方法
KR20150060338A (ko) * 2013-11-26 2015-06-03 삼성전자주식회사 전자장치 및 전자장치의 문자인식 방법
US11227294B2 (en) 2014-04-03 2022-01-18 Mentor Acquisition One, Llc Sight information collection in head worn computing
US9939934B2 (en) 2014-01-17 2018-04-10 Osterhout Group, Inc. External user interface for head worn computing
US20150277118A1 (en) 2014-03-28 2015-10-01 Osterhout Group, Inc. Sensor dependent content position in head worn computing
US20160048019A1 (en) * 2014-08-12 2016-02-18 Osterhout Group, Inc. Content presentation in head worn computing
US10684687B2 (en) 2014-12-03 2020-06-16 Mentor Acquisition One, Llc See-through computer display systems
US9671613B2 (en) 2014-09-26 2017-06-06 Osterhout Group, Inc. See-through computer display systems
US9746686B2 (en) 2014-05-19 2017-08-29 Osterhout Group, Inc. Content position calibration in head worn computing
US10254856B2 (en) 2014-01-17 2019-04-09 Osterhout Group, Inc. External user interface for head worn computing
US10191279B2 (en) 2014-03-17 2019-01-29 Osterhout Group, Inc. Eye imaging in head worn computing
US9529195B2 (en) 2014-01-21 2016-12-27 Osterhout Group, Inc. See-through computer display systems
US11103122B2 (en) 2014-07-15 2021-08-31 Mentor Acquisition One, Llc Content presentation in head worn computing
US20150228119A1 (en) 2014-02-11 2015-08-13 Osterhout Group, Inc. Spatial location presentation in head worn computing
US9575321B2 (en) 2014-06-09 2017-02-21 Osterhout Group, Inc. Content presentation in head worn computing
US9594246B2 (en) 2014-01-21 2017-03-14 Osterhout Group, Inc. See-through computer display systems
US9299194B2 (en) 2014-02-14 2016-03-29 Osterhout Group, Inc. Secure sharing in head worn computing
US9829707B2 (en) 2014-08-12 2017-11-28 Osterhout Group, Inc. Measuring content brightness in head worn computing
US20160019715A1 (en) 2014-07-15 2016-01-21 Osterhout Group, Inc. Content presentation in head worn computing
US9841599B2 (en) 2014-06-05 2017-12-12 Osterhout Group, Inc. Optical configurations for head-worn see-through displays
US9810906B2 (en) 2014-06-17 2017-11-07 Osterhout Group, Inc. External user interface for head worn computing
US10649220B2 (en) 2014-06-09 2020-05-12 Mentor Acquisition One, Llc Content presentation in head worn computing
US20150205135A1 (en) 2014-01-21 2015-07-23 Osterhout Group, Inc. See-through computer display systems
US9529199B2 (en) 2014-01-21 2016-12-27 Osterhout Group, Inc. See-through computer display systems
US9740280B2 (en) 2014-01-21 2017-08-22 Osterhout Group, Inc. Eye imaging in head worn computing
US9836122B2 (en) 2014-01-21 2017-12-05 Osterhout Group, Inc. Eye glint imaging in see-through computer display systems
US11669163B2 (en) 2014-01-21 2023-06-06 Mentor Acquisition One, Llc Eye glint imaging in see-through computer display systems
US9766463B2 (en) 2014-01-21 2017-09-19 Osterhout Group, Inc. See-through computer display systems
US9532714B2 (en) 2014-01-21 2017-01-03 Osterhout Group, Inc. Eye imaging in head worn computing
US11487110B2 (en) 2014-01-21 2022-11-01 Mentor Acquisition One, Llc Eye imaging in head worn computing
US11892644B2 (en) 2014-01-21 2024-02-06 Mentor Acquisition One, Llc See-through computer display systems
US11737666B2 (en) 2014-01-21 2023-08-29 Mentor Acquisition One, Llc Eye imaging in head worn computing
US9651784B2 (en) 2014-01-21 2017-05-16 Osterhout Group, Inc. See-through computer display systems
US9494800B2 (en) 2014-01-21 2016-11-15 Osterhout Group, Inc. See-through computer display systems
US9753288B2 (en) 2014-01-21 2017-09-05 Osterhout Group, Inc. See-through computer display systems
US9846308B2 (en) 2014-01-24 2017-12-19 Osterhout Group, Inc. Haptic systems for head-worn computers
US20150241963A1 (en) 2014-02-11 2015-08-27 Osterhout Group, Inc. Eye imaging in head worn computing
US9852545B2 (en) 2014-02-11 2017-12-26 Osterhout Group, Inc. Spatial location presentation in head worn computing
US9401540B2 (en) 2014-02-11 2016-07-26 Osterhout Group, Inc. Spatial location presentation in head worn computing
AT515595A2 (de) 2014-03-27 2015-10-15 9Yards Gmbh Verfahren zur optischen Erkennung von Zeichen
US20160187651A1 (en) 2014-03-28 2016-06-30 Osterhout Group, Inc. Safety for a vehicle operator with an hmd
CN106170798A (zh) * 2014-04-15 2016-11-30 柯法克斯公司 用于上下文相关的工作流的智能光学输入/输出(i/o)扩展
US9672210B2 (en) 2014-04-25 2017-06-06 Osterhout Group, Inc. Language translation with head-worn computing
US9651787B2 (en) 2014-04-25 2017-05-16 Osterhout Group, Inc. Speaker assembly for headworn computer
US10853589B2 (en) 2014-04-25 2020-12-01 Mentor Acquisition One, Llc Language translation with head-worn computing
US9652893B2 (en) * 2014-04-29 2017-05-16 Microsoft Technology Licensing, Llc Stabilization plane determination based on gaze location
US10663740B2 (en) 2014-06-09 2020-05-26 Mentor Acquisition One, Llc Content presentation in head worn computing
US9536161B1 (en) 2014-06-17 2017-01-03 Amazon Technologies, Inc. Visual and audio recognition for scene change events
US9697235B2 (en) * 2014-07-16 2017-07-04 Verizon Patent And Licensing Inc. On device image keyword identification and content overlay
JP2016045882A (ja) * 2014-08-26 2016-04-04 株式会社東芝 画像処理装置および情報処理装置
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US9804813B2 (en) * 2014-11-26 2017-10-31 The United States Of America As Represented By Secretary Of The Navy Augmented reality cross-domain solution for physically disconnected security domains
US9684172B2 (en) 2014-12-03 2017-06-20 Osterhout Group, Inc. Head worn computer display systems
US9430766B1 (en) 2014-12-09 2016-08-30 A9.Com, Inc. Gift card recognition using a camera
USD751552S1 (en) 2014-12-31 2016-03-15 Osterhout Group, Inc. Computer glasses
USD753114S1 (en) 2015-01-05 2016-04-05 Osterhout Group, Inc. Air mouse
US20160239985A1 (en) 2015-02-17 2016-08-18 Osterhout Group, Inc. See-through computer display systems
US10878775B2 (en) 2015-02-17 2020-12-29 Mentor Acquisition One, Llc See-through computer display systems
US9684831B2 (en) * 2015-02-18 2017-06-20 Qualcomm Incorporated Adaptive edge-like feature selection during object detection
KR102601682B1 (ko) * 2015-06-30 2023-11-13 매직 립, 인코포레이티드 가상 이미지 생성 시스템에서 텍스트를 더 효율적으로 디스플레이하기 위한 기법
JP2017021695A (ja) * 2015-07-14 2017-01-26 株式会社東芝 情報処理装置および情報処理方法
US10467465B2 (en) 2015-07-20 2019-11-05 Kofax, Inc. Range and/or polarity-based thresholding for improved data extraction
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US9652896B1 (en) 2015-10-30 2017-05-16 Snap Inc. Image based tracking in augmented reality systems
JP6379186B2 (ja) * 2016-02-17 2018-08-22 テレフオンアクチーボラゲット エルエム エリクソン(パブル) ビデオピクチャを符号化および復号する方法および装置
US10591728B2 (en) 2016-03-02 2020-03-17 Mentor Acquisition One, Llc Optical systems for head-worn computers
US10667981B2 (en) 2016-02-29 2020-06-02 Mentor Acquisition One, Llc Reading assistance system for visually impaired
CN105869216A (zh) * 2016-03-29 2016-08-17 腾讯科技(深圳)有限公司 目标对象展示方法和装置
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
CN109070803B (zh) * 2016-04-14 2021-10-08 金泰克斯公司 提供深度信息的车辆显示系统
CN109154973B (zh) 2016-05-20 2021-10-26 奇跃公司 执行卷积图像变换估算的方法和系统
CN107886548A (zh) * 2016-09-29 2018-04-06 维优艾迪亚有限公司 混合颜色内容提供系统、方法以及计算机可读记录介质
US10430042B2 (en) * 2016-09-30 2019-10-01 Sony Interactive Entertainment Inc. Interaction context-based virtual reality
US10621747B2 (en) * 2016-11-15 2020-04-14 Magic Leap, Inc. Deep learning system for cuboid detection
US10242503B2 (en) 2017-01-09 2019-03-26 Snap Inc. Surface aware lens
CN107423392A (zh) * 2017-07-24 2017-12-01 上海明数数字出版科技有限公司 基于ar技术的字、词典查询方法、系统及装置
WO2019064233A1 (en) 2017-09-27 2019-04-04 Gentex Corporation COMPLETE DISPLAY MIRROR WITH ACCOMMODATION CORRECTION
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
EP3528168A1 (en) * 2018-02-20 2019-08-21 Thomson Licensing A method for identifying at least one marker on images obtained by a camera, and corresponding device, system and computer program
GB201804383D0 (en) 2018-03-19 2018-05-02 Microsoft Technology Licensing Llc Multi-endpoint mixed reality meetings
CN110555433B (zh) * 2018-05-30 2024-04-26 北京三星通信技术研究有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
KR102092392B1 (ko) * 2018-06-15 2020-03-23 네이버랩스 주식회사 실 공간에서 관심지점 관련 정보를 자동으로 수집 및 업데이트하는 방법 및 시스템
CN108777083A (zh) * 2018-06-25 2018-11-09 南阳理工学院 一种基于增强现实技术的头戴式英语学习设备
CN108877311A (zh) * 2018-06-25 2018-11-23 南阳理工学院 一种基于增强现实技术的英语学习系统
CN108877340A (zh) * 2018-07-13 2018-11-23 李冬兰 一种基于增强现实技术的智能化英语辅助学习系统
US11030813B2 (en) 2018-08-30 2021-06-08 Snap Inc. Video clip object tracking
US11176737B2 (en) 2018-11-27 2021-11-16 Snap Inc. Textured mesh building
US11501499B2 (en) 2018-12-20 2022-11-15 Snap Inc. Virtual surface modification
US11972529B2 (en) 2019-02-01 2024-04-30 Snap Inc. Augmented reality system
US10616443B1 (en) * 2019-02-11 2020-04-07 Open Text Sa Ulc On-device artificial intelligence systems and methods for document auto-rotation
US11189098B2 (en) 2019-06-28 2021-11-30 Snap Inc. 3D object camera customization system
US11232646B2 (en) 2019-09-06 2022-01-25 Snap Inc. Context-based virtual object rendering
KR20210036574A (ko) * 2019-09-26 2021-04-05 삼성전자주식회사 자세 추정 방법 및 장치
CN111026937B (zh) * 2019-11-13 2021-02-19 百度在线网络技术(北京)有限公司 提取poi名称的方法、装置、设备和计算机存储介质
US11263817B1 (en) 2019-12-19 2022-03-01 Snap Inc. 3D captions with face tracking
US11227442B1 (en) 2019-12-19 2022-01-18 Snap Inc. 3D captions with semantic graphical elements
CN111161357B (zh) * 2019-12-30 2023-10-27 联想(北京)有限公司 信息处理方法及装置、增强现实设备和可读存储介质
CN111291742B (zh) * 2020-02-10 2023-08-04 北京百度网讯科技有限公司 对象识别方法和装置、电子设备、存储介质
US11734860B2 (en) * 2020-12-22 2023-08-22 Cae Inc. Method and system for generating an augmented reality image
TWI777801B (zh) * 2021-10-04 2022-09-11 邦鼎科技有限公司 擴增實境的顯示方法
US11417069B1 (en) * 2021-10-05 2022-08-16 Awe Company Limited Object and camera localization system and localization method for mapping of the real world
CN114495103B (zh) * 2022-01-28 2023-04-04 北京百度网讯科技有限公司 文本识别方法、装置、电子设备和介质
US11776206B1 (en) 2022-12-23 2023-10-03 Awe Company Limited Extended reality system and extended reality method with two-way digital interactive digital twins

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080253656A1 (en) * 2007-04-12 2008-10-16 Samsung Electronics Co., Ltd. Method and a device for detecting graphic symbols

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5515455A (en) * 1992-09-02 1996-05-07 The Research Foundation Of State University Of New York At Buffalo System for recognizing handwritten words of cursive script
US6275829B1 (en) * 1997-11-25 2001-08-14 Microsoft Corporation Representing a graphic image on a web page with a thumbnail-sized image
US6937766B1 (en) * 1999-04-15 2005-08-30 MATE—Media Access Technologies Ltd. Method of indexing and searching images of text in video
JP2001056446A (ja) * 1999-08-18 2001-02-27 Sharp Corp ヘッドマウントディスプレイ装置
US7437669B1 (en) * 2000-05-23 2008-10-14 International Business Machines Corporation Method and system for dynamic creation of mixed language hypertext markup language content through machine translation
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US7190834B2 (en) * 2003-07-22 2007-03-13 Cognex Technology And Investment Corporation Methods for finding and characterizing a deformed pattern in an image
JP2007280165A (ja) * 2006-04-10 2007-10-25 Nikon Corp 電子辞書
JP4958497B2 (ja) * 2006-08-07 2012-06-20 キヤノン株式会社 位置姿勢測定装置及び位置姿勢測定方法、複合現実感提示システム、コンピュータプログラム及び記憶媒体
US7912289B2 (en) * 2007-05-01 2011-03-22 Microsoft Corporation Image text replacement
JP4623169B2 (ja) * 2008-08-28 2011-02-02 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
KR101040253B1 (ko) * 2009-02-03 2011-06-09 광주과학기술원 증강 현실 제공을 위한 마커 제작 및 인식 방법
US20110090253A1 (en) * 2009-10-19 2011-04-21 Quest Visual, Inc. Augmented reality language translation system and method
CN102087743A (zh) * 2009-12-02 2011-06-08 方码科技有限公司 条形码扩充实境系统与方法
US20110167350A1 (en) * 2010-01-06 2011-07-07 Apple Inc. Assist Features For Content Display Device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080253656A1 (en) * 2007-04-12 2008-10-16 Samsung Electronics Co., Ltd. Method and a device for detecting graphic symbols

Also Published As

Publication number Publication date
JP2016066360A (ja) 2016-04-28
WO2012051040A1 (en) 2012-04-19
US20120092329A1 (en) 2012-04-19
KR20130056309A (ko) 2013-05-29
EP2628134A1 (en) 2013-08-21
CN103154972A (zh) 2013-06-12
JP2014510958A (ja) 2014-05-01

Similar Documents

Publication Publication Date Title
KR101469398B1 (ko) 텍스트 기반 3d 증강 현실
US11861888B2 (en) Logo recognition in images and videos
KR101722803B1 (ko) 이미지들의 시퀀스에서 물체들의 실시간 표현들의 하이브리드 추적을 위한 방법, 컴퓨터 프로그램 및 디바이스
US7987079B2 (en) Tracking a surface in a 3-dimensional scene using natural visual features of the surface
TWI506563B (zh) A method and apparatus for enhancing reality of two - dimensional code
US11393200B2 (en) Hybrid feature point/watermark-based augmented reality
CN110717489A (zh) Osd的文字区域的识别方法、装置及存储介质
CN104156998A (zh) 一种基于图片虚拟内容融合真实场景的实现方法及系统
US11003963B2 (en) Method and system for identifying targets in scenes shot by a camera
Tian et al. Scene Text Detection in Video by Learning Locally and Globally.
Porzi et al. Learning contours for automatic annotations of mountains pictures on a smartphone
JP6017343B2 (ja) データベース生成装置、カメラ姿勢推定装置、データベース生成方法、カメラ姿勢推定方法、およびプログラム
KR100834905B1 (ko) 마커 패턴 인식 및 자세 추정을 통한 마커 인식 장치 및 방법
JP4550768B2 (ja) 画像検出方法および画像検出装置
KR101357581B1 (ko) 깊이 정보 기반 사람의 피부 영역 검출 방법
JP2016139320A (ja) 情報端末装置
Tybusch et al. Color-based and recursive fiducial marker for augmented reality
JP6717769B2 (ja) 情報処理装置及びプログラム
KR101556937B1 (ko) 오버랩 컷 영상을 이용한 증강현실 영상 인식시스템 및 그 인식방법
Shi Web-based indoor positioning system using QR-codes as mark-ers

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee