KR101667463B1 - 콘텍스트 정보를 이용한 모바일 디바이스 상에서의 광학적 문자 인식 - Google Patents

콘텍스트 정보를 이용한 모바일 디바이스 상에서의 광학적 문자 인식 Download PDF

Info

Publication number
KR101667463B1
KR101667463B1 KR1020147008404A KR20147008404A KR101667463B1 KR 101667463 B1 KR101667463 B1 KR 101667463B1 KR 1020147008404 A KR1020147008404 A KR 1020147008404A KR 20147008404 A KR20147008404 A KR 20147008404A KR 101667463 B1 KR101667463 B1 KR 101667463B1
Authority
KR
South Korea
Prior art keywords
ocr
context
image
graphical
text
Prior art date
Application number
KR1020147008404A
Other languages
English (en)
Other versions
KR20140059834A (ko
Inventor
규웅 황
태원 이
덕훈 김
기선 유
민호 진
태수 김
현묵 조
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20140059834A publication Critical patent/KR20140059834A/ko
Application granted granted Critical
Publication of KR101667463B1 publication Critical patent/KR101667463B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/127Detection or correction of errors, e.g. by rescanning the pattern with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/987Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/247Telephone sets including user guidance or feature selection means facilitating their use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 실시형태들은 콘텍스트 민감 OCR을 수행하는 방법들 및 장치를 설명한다. 디바이스가 그 디바이스에 연결된 카메라를 사용하여 이미지를 획득한다. 디바이스는 그래픽 오브젝트를 포함하는 이미지의 일부를 식별한다. 디바이스는 이미지에 연관된 콘텍스트를 추론하고 이미지에 연관된 콘텍스트에 기초하여 그래픽 오브젝트들의 그룹을 선택한다. 개선된 OCR 결과들이 그래픽 오브젝트들의 그룹을 이용하여 생성된다. 마이크로폰, GPS, 및 카메라를 포함한 다양한 센서들로부터의 입력은, 음성, 터치, 및 사용자 사용 패턴들을 포함하는 사용자 입력들과 함께, 사용자 콘텍스트를 추론하고 추론된 콘텍스트들에 가장 관계가 있는 딕셔너리들을 선택할 시에 이용될 수도 있다.

Description

콘텍스트 정보를 이용한 모바일 디바이스 상에서의 광학적 문자 인식{OPTICAL CHARACTER RECOGNITION ON A MOBILE DEVICE USING CONTEXT INFORMATION}
관련 출원들에 대한 상호참조들
본 출원은, 2011년 8월 29일자로 출원된 발명의 명칭이 "CAMERA OCR WITH CONTEXT INFORMATION"이고 참조로 본원에 통합되는 미국 가출원 제61/528,741호에 대한 우선권을 주장한다.
광학적 문자 인식 (Optical character recognition; OCR) 은 손으로 쓴, 타자로 친 또는 인쇄된 텍스트, 그래픽스 또는 심볼들의 스캔된 이미지들의 머신 인코딩된 텍스트로의 머신 또는 전자 번역이다. OCR은 컴퓨터 비전 및 증강 현실 (augmented reality) 애플리케이션들에서 성장하는 연구 분야이다. 컴퓨터 비전은 디바이스가 그것의 부근의 환경을 인지하는 것을 허용한다. 컴퓨터 비전은 실제 세계를 가상 세계로 연장하여 최종 사용자의 상호작용으로부터의 감각 입력 (sensory input) 을 허용하는 것에 의해 증강 현실에서의 애플리케이션들을 가능하게 한다. 실생활의 예시적인 애플리케이션에서, 컴퓨터 비전 가능 (enabled) OCR은 쓰여진 텍스트 및 심볼들의 인지 시에 스마트 폰과 같은 개인 모바일 디바이스의 카메라의 시야에서 개체들을 시각적으로 디스에이블시키는 것을 도울 수도 있다.
아날로그에서 디지털 세대로의 변환은 또한 OCR의 애플리케이션 및 그 기술에서의 개선을 자극했다. 대부분의 파일 캐비닛들 및 큰 도켓팅 (docketing) 시스템들은 디지털 검색가능 매체들로 변환 중에 있다. OCR 기술에서의 모든 진보들에도, OCR은 제한된 프로세싱 능력을 갖는 모바일 디바이스들에는 여전히 적합하지 않다. 모바일 디바이스에 의해 캡처된 카메라 이미지로부터의 문자들 및 심볼들의 무제한적 인식은 상이한 언어들 및 상이한 문화들에서의 단어들, 문자들, 및 심볼들의 막대한 선택으로 인해 프로세싱하기가 어렵다. OCR이 컴퓨터 비전 및 증강 현실 애플리케이션들을 지원하기 위해 모바일 디바이스 상에서 실시간 또는 실시간에 가깝게 실행하는 것을 필요로 하므로, 계산 복잡도가 또한 문제이다.
본 발명의 실시형태들은 이들 및 다른 문제들을 해결한다.
콘텍스트 민감 OCR을 수행하는 기법들이 제공된다. 본원에서 설명되는 기법들은 제한된 프로세싱 능력을 갖는 모바일 디바이스들에 특히 유용하다. 그러나, 본원에서 설명되는 기법들의 애플리케이션은 모바일 디바이스들로 제한되지 않고, 모든 OCR 애플리케이션들에 적용가능할 수도 있다. 마이크로폰, GPS, 및 카메라를 포함한 다양한 센서들로부터의 입력은, 음성, 터치, 및 사용자 이용 패턴들을 포함한 사용자 입력과 함께, 사용자 콘텍스트를 추론하고 추론된 콘텍스트들에 가장 관계가 있는 딕셔너리 (dictionary) 들을 선택하는데 이용된다.
OCR을 수행하는 방법의 일예는, 디바이스에 연결된 카메라를 사용하여 이미지를 획득하는 단계, 적어도 하나의 그래픽 오브젝트를 포함하는 이미지의 일부를 식별하는 단계, 그 이미지에 연관된 콘텍스트를 추론하는 단계, 그 이미지에 연관된 콘텍스트에 기초하여 그래픽 오브젝트들의 그룹을 선택하는 단계, 및 그래픽 오브젝트들의 그룹을 이용하여 적어도 하나의 그래픽 오브젝트의 OCR 결과를 개선시키는 단계를 포함한다. 일부 실시형태들에서, OCR 결과를 개선시키는 단계는 그래픽 오브젝트들의 그룹을 이용하여 OCR을 수행하는 단계를 포함한다. 다른 실시형태에서, OCR 결과를 개선시키는 단계는, 적어도 하나의 그래픽 오브젝트에 대한 OCR을 수행하는 것에 의해 적어도 하나의 그래픽 오브젝트에 대한 복수의 OCR 후보들을 생성하는 단계, 및 그래픽 오브젝트들의 그룹을 이용하여 복수의 OCR 후보들로부터 OCR 후보를 선택하는 단계를 포함한다. 그 방법은 OCR 결과를 이용하여, 추론된 콘텍스트를 개선시키는 단계를 더 포함할 수도 있다.
이러한 방법의 구현예들은 다음의 특징들 중 하나 이상을 포함할 수도 있다. 그래픽 오브젝트는 심볼들, 문자들, 단어들, 기호 (sign) 들, 및 숫자들 중 하나 이상을 포함할 수도 있다. 그래픽 오브젝트들의 그룹은 공통 특성을 통해 서로 연관된 복수의 그래픽 오브젝트들을 포함할 수도 있고, 딕셔너리 또는 딕셔너리의 정제물 (refinement) 을 나타낼 수도 있다. 본 발명의 일부 양태들에서 이미지의 콘텍스트는 텍스트가 아니다. 다른 양태들에서, 콘텍스트는 그래픽 일러스트레이션들을 이용하여 추론될 수도 있으며, 그래픽 일러스트레이션들은 오브젝트의 제스처들 및 그래픽 표현들을 포함하는 그룹 중 적어도 하나로부터 유래될 수도 있다. 이미지의 콘텍스트는 또한 센서 입력을 이용하여 추론될 수도 있다. 센서 입력은 카메라, 마이크로폰, 광 센서, 시계, 및 GPS 엘리먼트 중 하나 이상에 의해 제공될 수도 있다. 콘텍스트는 또한, 카메라와 적어도 하나의 그래픽 오브젝트 사이의 거리를 추정하고 카메라 및 적어도 하나의 그래픽 오브젝트 사이의 추정된 거리에 기초하여 콘텍스트를 추론하는 것에 의해 추론될 수도 있다. 콘텍스트를 추론하는 단계는 또한 이미지가 획득되는 환경에서 복수의 광선들에 연관된 적어도 하나의 특성을 검출하는 단계, 및 복수의 광선들에 연관된 적어도 하나의 특성에 기초하여 콘텍스트를 추론하는 단계를 포함할 수도 있다. 더욱이, 복수의 광선들에 연관된 적어도 하나의 특성은 밝기일 수도 있으며, 임계 미만의 밝기는 이미지를 실내에서 획득하는 추론을 초래하고, 임계 초과의 밝기는 이미지를 실외에서 획득하는 추론을 초래한다.
다른 구현들에서, 콘텍스트를 추론하는 단계는, 마이크로폰을 사용하여 오디오 입력을 수신하는 단계, 오디오 입력에 대한 패턴 인식을 수행하는 단계, 및 오디오 입력에서 인식된 패턴에 기초하여 콘텍스트를 추론하는 단계를 포함할 수도 있다. 인식된 패턴은 사용자로부터의 음성 커맨드 또는 오디오 입력을 수신하는 때의 카메라의 로케이션에 대한 표시일 수도 있다. 콘텍스트를 추론하는 단계는 또한 사용자로부터 콘텍스트 관련 정보를 수신하는 단계, 및 사용자로부터의 수신된 콘텍스트 관련 정보에 기초하여 콘텍스트를 추론하는 단계를 포함할 수도 있다. 콘텍스트는 또한 디바이스의 로케이션을 추정하는 것, 및 디바이스의 추정된 로케이션에 기초하여 콘텍스트를 추론하는 것을 포함할 수도 있는 디바이스의 로케이션에 기초하여 추론될 수도 있다. 디바이스의 로케이션은 디바이스의 GPS 엘리먼트, 셀 타워에 대한 신호의 세기, 또는 마이크로폰으로부터의 오디오 입력를 이용하여 추정될 수도 있다.
일부 실시형태들에서, 콘텐츠 시맨틱 (semantics) 및 구조 분석이 또한 이미지에 연관된 콘텍스트의 분석에 이용될 수도 있다. 구조적 레이아웃 분석을 위해, 그래픽 오브젝트들 사이의 관계는 서로에게 또는 그래픽 일러스트레이션과 비교될 수도 있다. 그래픽 일러스트레이션은 오브젝트의 제스처 또는 그래픽 표현일 수도 있다. 콘텐츠 시맨틱 분석을 위해, 그래픽 오브젝트들의 서로 간의 또는 그래픽 일러스트레이션들과의 동시발생이 분석될 수도 있다.
더욱이, 콘텐츠 시맨틱은 이미지에서 다수의 언어들로 디스플레이된 텍스트와 같은 그래픽 오브젝트들을 이용하여 분석될 수도 있다. 하나의 실시형태에서, 제 1 언어의 제 1 그래픽 오브젝트 및 제 2 언어의 제 2 그래픽 오브젝트를 포함하는 이미지의 하나 이상의 부분들이 식별되며, 제 1 그래픽 오브젝트 및 제 2 그래픽 오브젝트는 유사한 의미를 가진다. 제 1 그래픽 오브젝트에 대한 제 1 복수의 후보들 및 제 2 그래픽 오브젝트에 대한 제 2 복수의 후보들이 또한 식별되고, 제 2 복수의 후보들 중 적어도 하나와 유사한 의미를 가지는 그래픽 오브젝트가 제 1 복수의 후보들로부터 선택된다. 더욱이, 제 1 복수의 후보들로부터의 그래픽 오브젝트를 선택하는 것은, 제 2 그래픽 오브젝트에 대한 제 2 복수의 후보들을 제 1 언어로 번역하는 것; 및 번역된 제 2 복수의 후보들과 유사한 의미를 갖는 적어도 하나의 그래픽 오브젝트를 제 1 복수의 후보들로부터 찾는 것을 포함할 수도 있다.
OCR을 수행하는 디바이스의 일예는, 프로세서, 이미지들을 획득하는 카메라, 및 프로세서에 연결된 비 일시적 컴퓨터 판독가능 저장 매체를 포함할 수도 있으며, 비 일시적 컴퓨터 판독가능 저장 매체는, 디바이스에 연결된 카메라를 사용하여 이미지를 획득하는 단계, 적어도 하나의 그래픽 오브젝트를 포함하는 이미지의 일부를 식별하는 단계, 이미지에 연관된 콘텍스트를 추론하는 단계, 이미지에 연관된 콘텍스트에 기초하여 그래픽 오브젝트들의 그룹을 선택하는 단계, 및 그래픽 오브젝트들의 그룹을 이용하여 적어도 하나의 그래픽 오브젝트의 OCR 결과를 개선시키는 단계를 포함하는 방법을 구현하기 위해 프로세서에 의해 실행가능한 코드를 포함한다. OCR 결과를 개선시키는 단계는 그래픽 오브젝트들의 그룹을 이용하여 OCR을 수행하는 단계를 포함할 수도 있다. OCR 결과를 개선시키는 단계는 또한, 적어도 하나의 그래픽 오브젝트에 대한 OCR을 수행하는 것에 의해 적어도 하나의 그래픽 오브젝트에 대한 복수의 OCR 후보들을 생성하는 단계, 및 그래픽 오브젝트들의 그룹을 이용하여 복수의 OCR 후보들로부터 OCR 후보를 선택하는 단계를 포함할 수도 있다. 그 디바이스는 OCR 결과를 이용하여, 추론된 콘텍스트를 추가로 개선시킬 수도 있다. 이러한 디바이스의 구현예들은 다른 예들에 관하여 위에서 논의된 특징들 중 하나 이상을 포함할 수도 있다.
본 발명의 실시형태의 부가적인 예는 프로세서에 연결된 비 일시적 컴퓨터 판독가능 저장 매체를 포함하며, 비 일시적 컴퓨터 판독가능 저장 매체는, 디바이스에 연결된 카메라를 사용하여 이미지를 획득하는 단계, 적어도 하나의 그래픽 오브젝트를 포함하는 이미지의 일부를 식별하는 단계, 이미지에 연관된 콘텍스트를 추론하는 단계, 이미지에 연관된 콘텍스트에 기초하여 그래픽 오브젝트들의 그룹을 선택하는 단계, 및 그래픽 오브젝트들의 그룹을 이용하여 적어도 하나의 그래픽 오브젝트의 OCR 결과를 개선시키는 단계를 포함할 수도 있는 방법을 구현하기 위해 프로세서에 의해 실행가능한 코드를 포함한다. OCR 결과를 개선시키는 단계는 그래픽 오브젝트들의 그룹을 이용하여 OCR을 수행하는 단계를 포함한다. OCR 결과를 개선시키는 단계는 또한, 적어도 하나의 그래픽 오브젝트에 대한 OCR을 수행하는 것에 의해 적어도 하나의 그래픽 오브젝트에 대한 복수의 OCR 후보들을 생성하는 단계, 및 그래픽 오브젝트들의 그룹을 이용하여 복수의 OCR 후보들로부터 OCR 후보를 선택하는 단계를 포함할 수도 있다. 이러한 장치의 구현예들은 다른 예들에 관하여 위에서 논의된 특징들 중 하나 이상을 포함할 수도 있다.
OCR에 대한 방법을 수행하는 장치의 또 다른예는, 디바이스에 연결된 카메라를 사용하여 이미지를 획득하는 수단, 적어도 하나의 그래픽 오브젝트를 포함하는 이미지의 일부를 식별하는 수단, 그 이미지에 연관된 콘텍스트를 추론하는 수단, 그 이미지에 연관된 콘텍스트에 기초하여 그래픽 오브젝트들의 그룹을 선택하는 수단, 및 그래픽 오브젝트들의 그룹을 이용하여 적어도 하나의 그래픽 오브젝트의 OCR 결과를 개선시키는 수단을 포함할 수도 있다. OCR 결과를 개선시키는 것은 그래픽 오브젝트들의 그룹을 이용하여 OCR을 수행하는 것을 포함한다. OCR 결과를 개선시키는 것은 또한, 적어도 하나의 그래픽 오브젝트에 대한 OCR을 수행하는 것에 의해 적어도 하나의 그래픽 오브젝트에 대한 복수의 OCR 후보들을 생성하는 것, 및 그래픽 오브젝트들의 그룹을 이용하여 복수의 OCR 후보들로부터 OCR 후보를 선택하는 것을 포함할 수도 있다. 이러한 장치의 구현예들은 다른 예들에 관하여 위에서 논의된 특징들 중 하나 이상을 포함할 수도 있다.
전술한 바는 다음의 상세한 설명이 보다 잘 이해될 수 있도록 하기 위하여 본 개시물에 따른 예들의 특징들 및 기술적 이점들을 상당히 광범위하게 약술하고 있다. 부가적인 특징들 및 이점들은 이하에서 설명될 것이다. 개시된 개념 및 구체적인 예들은 본 개시물의 동일한 목적들을 수행하는 다른 구조들을 수정하거나 또는 설계하기 위한 기초로서 쉽사리 활용될 수 있다. 그런 동등한 구성들은 첨부의 청구항들의 정신 및 범위로부터 벗어나지 않는다. 본원에서 개시된 개념들의 특징이 될 것이라 생각되는 특징부 (feature) 들은, 그것들의 조직 및 방법 양쪽 모두에 관해, 연관된 이점들과 함께, 첨부 도면들에 관련하여 고려되는 경우에 다음의 설명으로부터 보다 잘 이해될 것이다. 도면들의 각각은 예시 및 설명 목적으로만 제공되고 청구항들의 한계의 정의를 의해 제공되는 않았다.
다음의 설명이 도면들을 참조하여 설명되며, 그 도면들에서 유사한 참조 부호들은 전체에 걸쳐 유사한 엘리먼트들을 지칭하는데 사용된다. 하나 이상의 기법들의 다양한 세부사항들이 본원에서 설명되지만, 다른 기법들이 또한 가능하다. 일부 경우들에서, 잘 알려진 구조들 및 디바이스들은 다양한 기법들을 설명하는 것을 용이하게 하기 위하여 블록도 형태로 도시된다.
본 개시물에 의해 제공된 예들의 성질 및 이점들의 추가의 이해는 명세서의 나머지 부분들 및 도면들을 참조하여 실현될 수 있으며, 유사한 참조 번호들은 여러 도면들을 통해 유사한 컴포넌트들을 참조하는데 이용된다. 어떤 경우들에서는, 서브 레이블이 다수의 유사한 컴포넌트들 중 하나를 나타내는 참조 번호와 연관된다. 현존 서브 레이블에 대한 명세 없이 참조 번호가 언급되는 경우, 그 참조 번호는 모든 그러한 유사한 컴포넌트들을 언급한다.
도 1은 본 발명의 실시형태들을 실시할 때에 채용되는 디바이스의 부분들을 통합하는 예시적인 컴퓨터 시스템을 도시한다.
도 2a는 콘텍스트 민감 OCR을 위한 모바일 디바이스에 의해 캡처된 이미지의 예시적인 표현을 도시하는 도면을 묘사한다.
도 2b는 콘텍스트 민감 OCR을 위한 모바일 디바이스에 의해 캡처된 이미지의 예시적인 표현을 도시하는 다른 도면을 묘사한다.
도 3은 OCR을 위한 그래픽 오브젝트들의 그룹들을 선택하기 위해 콘텍스트 정보를 이용하는 비제한적인 예시적 결정 트리를 보여주는 흐름도를 예시한다.
도 4는 콘텍스트 민감 OCR을 위한 예시적인 실시형태를 설명하는 흐름도를 예시한다.
도 5는 콘텍스트 민감 OCR을 위한 방법을 수행하기 위한 또 다른 예시적인 실시형태를 설명하는 흐름도이다.
도 6은 콘텍스트 민감 OCR을 위한 방법을 수행하는 예시적인 실시형태를 설명하는 흐름도이다.
도 7은 광 조건들을 이용하여 콘텍스트 민감 OCR을 위한 다른 예시적인 실시형태를 설명하는 흐름도이다.
도 8은 OCR을 위한 그래픽 오브젝트들의 그룹을 선택하기 위한 콘텍스트가 마이크로폰으로부터의 입력에 기초하는 예시적인 실시형태를 소개하는 흐름도이다.
도 9는 콘텍스트 민감 OCR에 대해 수동 입력을 이용하는 일 실시형태를 설명하는 흐름도이다.
도 10은 이미지가 캡처되는 로케이션을 이용하여 콘텍스트 민감 OCR을 행하는 방법을 수행하기 위한 다른 실시형태를 논의하는 흐름도이다.
도 11은 콘텍스트 민감 OCR을 위한 딕셔너리를 선택하기 위해 마이크로폰을 이용하여 환경을 인식하는 다른 예시적인 실시형태를 설명하는 흐름도이다.
도 12는 콘텐츠 분석을 이용한 콘텍스트 식별을 위한 실시형태를 설명하는 흐름도이다.
도 13은 이미지의 구조적 레이아웃을 분석하는 것에 의해 콘텍스트 식별을 위한 실시형태를 설명하는 흐름도이다.
도 14는 콘텐츠 분석을 이용한 콘텍스트 식별을 위한 실시형태를 설명하는 흐름도이다.
도 15는 거동 엘리먼트들을 이용한 콘텍스트 민감 OCR을 위한 실시형태를 설명하는 흐름도이다.
도 16은 다수의 언어들의 예시적인 교통 표지판 (traffic sign) 의 블록도이다.
도 17은 기호들이 하나를 초과하는 언어로 되어 있는 경우에 OCR 결과들의 정확도 및 속력을 증가시키는 방법을 설명하는 흐름도이다.
도 1에 예시된 바와 같은 컴퓨터 시스템이 이전에 설명된 컴퓨터화된 디바이스의 부분으로서 통합될 수도 있다. 예를 들어, 컴퓨터 시스템 (100) 은 모바일 디바이스의 컴포넌트들의 일부를 나타낼 수 있다. 모바일 디바이스는 카메라와 같은 입력 감각 유닛 (sensory unit) 및 디스플레이 유닛을 갖는 임의의 컴퓨팅 디바이스일 수도 있다. 모바일 디바이스의 예들은 비디오 게임 콘솔들, 테블릿들, 스마트 폰들 및 임의의 다른 핸드헬드 디바이스들을 포함하지만 그것들로 제한되지 않는다. 도 1은, 본원에서 설명되는 바와 같이, 다양한 다른 실시형태들에 의해 제공되는 방법들을 수행할 수 있고 및/또는 호스트 컴퓨터 시스템, 원격 키오스크/단말, 판매시점관리 (point of sale) 디바이스, 모바일 디바이스, 셋톱 박스 및/또는 컴퓨터 시스템으로서 기능할 수 있는 컴퓨터 시스템 (100) 의 하나의 실시형태의 개략적인 예시도를 제공한다. 도 1은 컴포넌트들 중 임의의 것 또는 모두가 적절하게 활용될 수도 있는 다양한 컴포넌트들의 일반화된 예시도를 제공하는 것만을 의미한다. 도 1은 그러므로 어떻게 개개의 시스템 엘리먼트들이 비교적 분리되거나 또는 비교적 더 통합되는 방식으로 구현될 수도 있는지를 광범위하게 예시한다.
컴퓨터 시스템 (100) 은 버스 (105) 를 통해 전기적으로 연결될 수 있는 (또는 그렇지 않으면 적절한 대로 통신될 수도 있는) 하드웨어 엘리먼트들을 포함하는 것으로 도시된다. 하드웨어 엘리먼트들은, 하나 이상의 범용 프로세서들 및/또는 하나 이상의 특수 목적 프로세서들 (이를테면 디지털 시그널 프로세싱 칩들, 그래픽스 가속도 프로세서들 등) 을 제한 없이 포함하는 하나 이상의 프로세서들 (110); 카메라, 센서들 (관성 센서들을 포함함), 마우스, 키보드 등을 제한 없이 포함할 수 있는 하나 이상의 입력 디바이스들 (115); 및 디스플레이 유닛, 프린터 등을 제한 없이 포함할 수 있는 하나 이상의 출력 디바이스들 (120) 을 포함할 수도 있다.
컴퓨터 시스템 (100) 은, 로컬 및/또는 네트워크 액세스가능 스토리지를 제한 없이 포함할 수 있고 및/또는 디스크 드라이브, 드라이브 어레이, 광학적 저장 디바이스, 고체-상태 저장 디바이스 (이를테면 프로그래밍가능, 플래시 업데이트 가능 등일 수 있는 랜덤 액세스 메모리 ("RAM") 및/또는 판독-전용 메모리 ("ROM")) 를 제한 없이 포함할 수 있는 하나 이상의 비 일시적 저장 디바이스들 (125) 을 추가로 구비할 수도 있 (고 및/또는 그것들과 통신할 수도 있) 다. 이러한 저장 디바이스들은 다양한 파일 시스템들, 데이터베이스 구조들 등을 제한 없이 포함하는 임의의 적절한 데이터 스토리지를 구현하도록 구성될 수도 있다.
컴퓨터 시스템 (100) 은 모뎀, 네트워크 카드 (무선 또는 유선), 적외선 통신 디바이스, 무선 통신 디바이스 및/또는 칩셋 (이를테면 블루투스™ 디바이스, 802.11 디바이스, WiFi 디바이스, 와이맥스 디바이스, 셀룰러 통신 설비들 등) 등을 제한 없이 포함할 수 있는 통신 서브시스템 (130) 을 또한 구비할 수도 있다. 통신 서브시스템 (130) 은 데이터가 네트워크 (이를테면, 하나의 예를 거론하자면, 아래에서 설명되는 네트워크), 다른 컴퓨터 시스템들, 및/또는 본원에서 설명되는 임의의 다른 디바이스들과 상호교환되는 것을 허용할 수도 있다. 많은 실시형태들에서, 컴퓨터 시스템 (100) 은 위에서 설명된 바와 같이 RAM 또는 ROM 디바이스를 포함할 수 있는 비 일시적 작업 메모리 (135) 를 더 포함할 것이다.
컴퓨터 시스템 (100) 은 또한, 운영 체제 (140), 디바이스 드라이버들, 실행가능 라이브러리들, 및/또는 다른 코드, 이를테면 하나 이상의 애플리케이션 프로그램들 (145) 을 포함하고, 작업 메모리 (135) 내에 현재 위치되어 있는 것으로서 도시되는 소프트웨어 엘리먼트들을 포함할 수 있으며, 그 소프트웨어 엘리먼트들은, 본원에서 설명되는 바와 같이, 다양한 실시형태들에 의해 제공되는 컴퓨터 프로그램들을 포함할 수 있고 및/또는 다른 실시형태들에 의해 제공되는 방법들을 구현하도록, 및/또는 시스템들을 구성하도록 설계될 수도 있다. 단지 예로서, 위에서 논의된 방법(들)에 관해 설명된 하나 이상의 프로시저들은 컴퓨터 (및/또는 컴퓨터 내의 프로세서) 에 의해 실행가능한 코드 및/또는 명령들로서 구현될 수도 있고; 일 양태에서, 그 다음에, 이러한 코드 및/또는 명령들은 설명된 방법들에 따라 하나 이상의 동작들을 수행하기 위해 범용 컴퓨터 (또는 다른 디바이스) 를 구성 및/또는 적응하는데 이용될 수 있다.
이들 명령들 및/또는 코드의 세트는 컴퓨터 판독가능 저장 매체, 이를테면 위에서 설명된 저장 디바이스(들) (125) 상에 저장될 수도 있다. 일부 경우들에서, 저장 매체는 컴퓨터 시스템, 이를테면 컴퓨터 시스템 (100) 내에 통합될 수도 있다. 다른 실시형태들에서, 저장 매체는 컴퓨터 시스템으로부터 분리되고 (예컨대, 콤팩트 디스크와 같은 착탈식 매체), 및/또는 설치 패키지 내에 제공될 수도 있으므로, 저장 매체는 명령들/코드를 저장하고 있는 범용 컴퓨터를 프로그래밍하며, 구성하고 및/또는 적응시키는데 사용될 수 있다. 이들 명령들은, 컴퓨터 시스템 (100) 에 의해 실행가능한 실행가능 코드의 형태를 취할 수도 있고 소스 및/또는 (예컨대, 다양한 일반적으로 이용가능한 컴파일러들, 설치 프로그램들, 압축/압축해제 유틸리티들 등 중 임의의 것을 사용하여) 컴퓨터 시스템 (100) 상의 컴파일 및/또는 설치 시, 실행가능 코드의 형태를 취하는 설치가능 코드의 형태를 취할 수도 있다.
실질적인 변동들이 특정 요구사항들에 따라 만들어질 수도 있다. 예를 들어, 커스터마이즈된 하드웨어가 또한 사용될 수도 있고, 및/또는 특정한 엘리먼트들은 하드웨어, 소프트웨어 (휴대용 소프트웨어, 이를테면 애플릿들 등을 포함함), 또는 양쪽 모두로 구현될 수도 있다. 게다가, 네트워크 입력/출력 디바이스들과 같은 다른 컴퓨팅 디바이스들에 대한 접속이 채용될 수도 있다.
일부 실시형태들은 본 개시물에 따른 방법들을 수행하는 컴퓨터 시스템 (이를테면 컴퓨터 시스템 (100)) 을 채용할 수도 있다. 예를 들어, 설명된 방법들의 프로시저들의 일부 또는 전부는, 프로세서 (110) 가, 작업 메모리 (135) 에 포함된 (운영 체제 (140) 및/또는 다른 코드, 이를테면 애플리케이션 프로그램 (145) 내에 통합될 수도 있는) 하나 이상의 명령들의 하나 이상의 시퀀스들을 실행하는 것에 응답하여 컴퓨터 시스템 (100) 에 의해 수행될 수도 있다. 그런 명령들은 다른 컴퓨터 판독가능 매체, 이를테면 저장 디바이스(들) (125) 중 하나 이상로부터 작업 메모리 (135) 내로 읽혀질 수도 있다. 단지 예로서, 작업 메모리 (135) 에 포함된 명령들의 시퀀스들의 실행은 프로세서(들) (110) 로 하여금 위에서 설명된 방법들의 하나 이상의 프로시저들을 수행하게 할 수도 있다.
용어들 "머신 판독가능 매체" 및 "컴퓨터 판독가능 매체"는, 본원에서 사용되는 바와 같이, 머신으로 하여금 특정 방식으로 동작하게 하는 데이터의 제공 시에 참여하는 임의의 매체를 말한다. 컴퓨터 시스템 (100) 을 사용하여 구현되는 실시형태에서, 다양한 컴퓨터 판독가능 매체들은 실행을 위해 프로세서(들) (110) 로 명령들/코드의 제공 시에 수반될 수도 있고 및/또는 그런 명령들/코드를 (예컨대, 신호들로서) 저장 및/또는 운반하는데 사용될 수도 있다. 많은 구현예들에서, 컴퓨터 판독가능 매체는 물리적 및/또는 유형의 (tangible) 저장 매체이다. 이러한 매체는 비휘발성 매체들, 휘발성 매체들, 및 송신 매체들을 포함하지만 그것들로 한정되지 않는 많은 형태들을 취할 수도 있다. 비휘발성 매체들은, 예를 들어, 광 및/또는 자기 디스크들, 이를테면 저장 디바이스(들) (125) 를 포함한다. 휘발성 매체들은 동적 메모리, 이를테면 작업 메모리 (135) 를 제한 없이 포함한다. 송신 매체들은, 버스 (105) 를 포함하는 와이어들 뿐만 아니라 통신 서브시스템 (130) 의 다양한 컴포넌트들 (및/또는 통신 서브시스템 (130) 이 다른 디바이스들과 통신을 하게 하는 매체들) 을 포함하는, 동축 케이블들, 구리 선 및 광섬유들을 제한 없이 포함한다. 그런고로, 송신 매체들은 또한 (라디오, 음향 및/또는 광 파들, 이를테면 라디오 파 및 적외선 데이터 통신들 동안에 생성된 것들을 제한 없이 포함한) 파들의 형태를 취할 수 있다.
물리적 및/또는 유형의 컴퓨터 판독가능 매체들의 공통 형태들은, 예를 들어, 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 또는 임의의 다른 자기 매체, CD-ROM, 임의의 다른 광학적 매체, 천공카드들, 종이테이프, 구멍들의 패턴들을 갖는 임의의 다른 물리적 매체, RAM, PROM, EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 이후에 설명되는 바와 같은 반송파, 또는 컴퓨터가 명령들 및/또는 코드를 읽을 수 있는 임의의 다른 매체를 포함한다.
컴퓨터 판독가능 매체들의 다양한 형태들이 하나 이상의 명령들의 하나 이상의 시퀀스들을 실행을 위해 프로세서(들) (110) 에 운반하는 것에 관련될 수도 있다. 단지 예로서, 명령들은 초기에는 원격 컴퓨터의 자기 디스크 및/또는 광 디스크로 운반될 수도 있다. 원격 컴퓨터는 명령들을 그것의 동적 메모리에 로딩하고 그 명령들을 컴퓨터 시스템 (100) 에 의해 수신되고 및/또는 실행되게 송신 매체를 통해 신호들로서 전송할 수도 있다. 전자기 신호들, 음향 신호들, 광 신호들 등의 형태일지도 모르는 이들 신호들은, 명령들이 본 발명의 다양한 실시형태들에 따라 인코딩될 수 있는 반송파들의 모든 예들이다.
통신 서브시스템 (130) (및/또는 그것의 컴포넌트들) 은 일반적으로 신호들을 수신할 것이고, 버스 (105) 는 그 다음에 그 신호들 (및/또는 그 신호들에 의해 운반되는 데이터, 명령들 등) 을 작업 메모리 (135) 로 운반할지도 모르며, 그 작업 메모리로부터 프로세서(들) (110) 는 명령들을 취출하고 실행한다. 작업 메모리 (135) 에 의해 수신된 명령들은 옵션으로 프로세서(들) (110) 에 의한 실행 전 또는 후 중 어느 하나에 비 일시적 저장 디바이스 (125) 상에 저장될 수도 있다.
위에서 논의된 방법들, 시스템들, 및 디바이스들은 예들이다. 다양한 실시형태들이 다양한 프로시저들 또는 컴포넌트들을 적절한 대로 생략, 대체, 또는 추가할 수도 있다. 예를 들면, 대안적 구성들에서, 설명되는 방법들은 설명되는 것과 상이한 순서로 수행될 수도 있고, 및/또는 다양한 스테이지들이 추가되며, 생략되고, 및/또는 조합될 수도 있다. 또한, 특정 실시형태들에 관해 설명되는 특징들이 다양한 다른 실시형태들에 조합될 수도 있다. 실시형태들의 상이한 양태들 및 엘리먼트들이 유사한 방식으로 조합될 수도 있다. 또한, 기술은 진화하고, 그에 따라, 엘리먼트들의 대부분은 본 개시물의 범위를 그들 구체적인 예들로 제한하지 않는 예들이다.
특정 세부사항들이 실시형태들의 철저한 이해를 제공하기 위해 상세한 설명에서 주어진다. 그러나, 실시형태들은 이들 특정 세부사항들 없이 실시될 수도 있다. 예를 들어, 잘 알려진 회로들, 프로세스들, 알고리즘들, 구조들, 및 기법들은 실시형태들을 불분명하게 하는 것을 피하기 위하여 불필요한 세부사항 없이 보여지고 있다. 이 설명은 예의 실시형태들만을 제공하고, 본 발명의 범위, 적용 가능성, 또는 구성을 제한하는 의도는 아니다. 오히려, 실시형태들의 앞서의 설명은 당업자들에게 본 발명의 실시형태들을 구현하기 위한 가능한 설명을 제공할 것이다. 다양한 변경들이 엘리먼트들의 기능 및 배열에서 본 발명의 사상 및 범위로부터 벗어남이 없이 이루어질 수도 있다.
또한, 일부 실시형태들은 흐름도들 또는 블록도들로서 묘사된 프로세스들로서 설명되었다. 비록 각각이 순차적 프로세스로서 동작들을 설명할 수도 있지만, 그 동작들의 다수가 병행하여 또는 동시에 수행될 수 있다. 덧붙여서, 그 동작들의 순서는 재배열될 수도 있다. 프로세스가 도면에 포함되지 않은 부가적인 단계들을 가질 수도 있다. 더욱이, 그 방법들의 실시형태들은 하드웨어, 소프트웨어, 펌웨어, 미들웨어, 마이크로코드, 하드웨어 서술 언어들 또는 그것들의 임의의 조합에 의해 구현될 수도 있다. 소프트웨어, 펌웨어, 미들웨어, 또는 마이크로코드로 구현되는 경우, 연관된 태스크들을 수행하는 프로그램 코드 또는 코드 세그먼트들은 저장 매체와 같은 컴퓨터 판독가능 매체에 저장될 수도 있다. 프로세서들은 연관된 태스크들을 수행할 수도 있다.
여러 실시형태들이 설명되고 있지만, 다양한 수정들, 대안적 구조들, 및 동등물이 본 개시물의 정신으로부터 벗어남이 없이 사용될 수도 있다. 예를 들어, 위의 엘리먼트들은 단지 보다 큰 시스템의 컴포넌트일 수도 있으며, 다른 규칙들은 본 발명의 애플리케이션보다 우선시 되거나 또는 그렇지 않으면 본 발명의 애플리케이션을 수정할 수도 있다. 또한, 다수의 단계들은 위의 엘리먼트들이 고려되기 전, 고려되는 동안, 또는 고려된 후에 착수될 수도 있다. 따라서, 위의 설명은 본 개시물의 범위를 제한하지 않는다.
본원에서 설명되는 바와 같이, 이미지로부터의 그래픽 오브젝트는 OCR에 대한 타겟이고, 하나 이상의 심볼들, 영숫자 문자들, 단어들, 기호들, 숫자들, 또는 텍스트를 포함하지만 그것들로 제한되지 않을 수도 있다. 예를 들어, 이미지에서의 그래픽 오브젝트는 임의의 언어에서의 단어 또는 문장일 수도 있다. 단어가 일부 언어들에서 심볼로서 표현될 수도 있다. 마찬가지로, 하나의 언어 또는 문화에서의 문장은 단지 다른 언어 또는 문화에서의 심볼을 이용하여 표현될 수도 있다. 다른 예에서, 그래픽 오브젝트는 정지, 양보 등과 같은 도로 표지판일 수도 있다. 상이한 그래픽 오브젝트들이 상이한 지역들, 언어들 또는 문화들에서 동일한 의미를 표현하기 위해 사용될 수도 있다. 덧붙여, 그래픽 일러스트레이션들이 또한 이미지로부터 식별될 수도 있다. 그래픽 일러스트레이션은 텍스트 단어, 심볼 등과 같은 오브젝트의 제스처 또는 그래픽 표현을 포함할 수도 있다. 예를 들어, 사과의 이미지는 단어 "사과"의 그래픽 일러스트레이션이다. 일반적으로, 그래픽 일러스트레이션은 그래픽 오브젝트들에 대한 OCR 결과들을 개선하도록 돕는다.
본원에서 설명되는 바와 같이, 그래픽 오브젝트들의 그룹은 공통 특성을 통해 서로 연관되는 복수의 그래픽 오브젝트들을 포함할 수도 있다. 하나의 실시형태에서, 그래픽 오브젝트들의 그룹은 딕셔너리를 나타낸다. 다른 실시형태에서, 그래픽 오브젝트들의 그룹은 딕셔너리의 정제물 (refinement) 을 나타낸다. 또 다른 실시형태에서, 그래픽 오브젝트들의 그룹은 하나 이상의 특성들을 함께 공유하게 그루핑되는 오브젝트들의 인덱스일 수도 있다. 본원에서 설명되는 방법들에서, 일부 실시형태들이 예시 목적으로 딕셔너리를 사용하여 설명되지만, 이들 실시형태들에서의 딕셔너리의 사용은 어떤 방식으로도 제한되지 않고 그래픽 오브젝트들의 임의의 그룹은 활용될 수도 있다.
하나의 구현예에서, 그래픽 오브젝트들의 그룹에 대한 그루핑은 미리 결정되고 미리 분류될 수도 있다. 예를 들면, 그래픽 오브젝트들은 상이한 지역들 및 상이한 언어들로 미리 분류될 수도 있다. 다른 구현예에서, 그래픽 오브젝트들의 그룹에 대한 그루핑은 실시간 또는 실시간에 가깝게 수행될 수도 있다. 그루핑은 연결 리스트 (linked list), 어레이, 데이터베이스 또는 임의의 다른 적합한 수단을 사용하여 조직되고 구현될 수도 있다.
도 2a 및 도 2b는 콘텍스트 민감 OCR을 위한 모바일 디바이스를 사용하여 획득된 이미지들의 예시적인 표현들을 갖는 도면들을 묘사한다. 콘텍스트 민감 OCR은 OCR을 위해 선택되는 그래픽 오브젝트들의 그룹을 좁히는 것에 의해 더 정확하고 더 빠른 OCR 결과들을 허용한다. 하나의 양태에서, 그래픽 오브젝트들의 그룹은 심볼들 또는 단어들의 딕셔너리일 수도 있다. 일단 OCR이 수행되면, 다수의 적합한 단어들이 검출된 콘텍스트를 이용하여 생성되거나 또는 선택될 수도 있다. OCR 결과들은 검출된 콘텍스트에 대한 올바른 단어를 찾는데 이용가능한 딕셔너리들과 일치될 수도 있다. 콘텍스트 민감 OCR은 OCR에 대한 가장 적합한 딕셔너리들 또는 딕셔너리들의 정제물을 선택하기 위해, 본원에서 설명되는 본 발명의 수많은 상이한 실시형태들을 단독으로 또는 서로 조합하여 사용할 수 있다.
도 2a는 한국 식당에서의 메뉴이다. 예를 들면, 모바일 디바이스의 사용자의 로케이션은 모바일 디바이스에 연결된 GPS 엘리먼트 또는 마이크로폰을 통해 획득될 수도 있고 언어와 어쩌면 또한 특정 식당을 식별하는 것을 도울 수 있다. 문서의 구조, 조명, 카메라 렌즈로부터 메뉴의 텍스트의 초점 거리 및 하루 중의 시간 (time of day) 은 모두 사용자가 저녁 메뉴에 집중하고 있다고 결정하는 것을 도울 수 있다. 이는 모바일 디바이스가 가능한 한 좁혀진 딕셔너리를 선택하거나 또는 딕셔너리를 추가로 정제하는 것을 허용한다. 콘텍스트 정보를 일치시키는 것은 OCR의 정확도 및 속력을 증가시키고, 또한 잠재적으로는 OCR을 위해 필요한 프로세싱 파워를 감소시킨다. 더욱이, 도 2a에서, 메뉴 아이템들은 또한 영어가 더 작은 폰트로 기재되어 있다. 본 발명에 대한 양태들은 또한 이미지의 영어 부분들에 대한 OCR을 수행하며, 영어 OCR 결과들을 한국어로 번역하고 한국어 OCR 및 영어 OCR로부터의 잠재적 후보들을 비교하여 한국어 OCR에 대한 최상의 일치물을 선택할 수도 있다.
마찬가지로, 도 2b는 일본 대중교통 시스템의 이미지이다. 로케이션, 언어, 조명, 문서의 구조, 환경, 노이즈 조건들 및 많은 다른 유사한 입력이 콘텍스트를 결정하는 것과 사용자를 위해 이미지에서 텍스트 및 기호들을 인식하기 위한 OCR 프로시저들을 가속화하는 것을 도울 수 있다.
도 3은 OCR을 위한 그래픽 오브젝트들의 그룹을 선택하기 위해 콘텍스트 정보를 이용하는 비제한적인 예시적 결정 트리를 도시하는 흐름도이다. 그래픽 오브젝트들의 그룹은 딕셔너리, 또는 딕셔너리의 정제물일 수도 있다. 도 3에 관해 설명된 실시형태에서, 딕셔너리들은 가장 넓은 기준들부터 가장 좁은 또는 가장 집중된 기준들로 좁혀진다. 다른 실시형태들에서, 오직 하나의 소스 또는 감각 입력이 콘텍스트 및 연관된 딕셔너리들의 선택에 도달하는 데 사용될 수도 있다. 또, 다른 실시형태들에서, 딕셔너리들의 선택을 좁힐 시에 취해진 결정들의 시퀀스는 순서가 상이할 수도 있다. 방법 (300) 은 하드웨어 (회로, 전용 로직 등), 소프트웨어 (이를테면 범용 컴퓨팅 시스템 또는 전용 머신 상에서 실행됨), 펌웨어 (임베디드 소프트웨어), 또는 그것들의 임의의 조합을 포함하는 프로세싱 로직에 의해 수행된다. 하나의 실시형태에서, 방법 (300) 은 도 1의 디바이스 (100) 에 의해 수행된다.
도 3을 참조하면, 블록 302에서, 모바일 디바이스는 다양한 센서 입력들, 이를테면 마이크로폰으로부터의 오디오 입력, 지리적 로케이션, 또는 이미지로부터 몇몇 그래픽 오브젝트들을 인식하는 것에 기초하여 언어를 결정할 수도 있다. 언어를 결정하는 것은 OCR이 OCR 결과들을 생성하는 올바른 단어를 위한 검색 공간을 상당히 좁히는 것을 허용한다.
블록 304에서, 모바일 디바이스는 로케이션 식별자로부터의 입력에 기초하여 로케이션을 결정할 수 있다. 그 로케이션은 모바일 디바이스 상의 GPS 엘리먼트로부터의 입력, 셀 전화기 타워에 대한 신호 강도, 마이크로폰 입력 또는 사용자에 의한 수동 선택을 사용하여 도출될 수도 있다. 로케이션 정보는 상이한 세분도 (granularity) 들로 제공되고 이용될 수도 있다. 예를 들면, 그 로케이션은 사람이 도시에 있는지 또는 외곽들에 있는지를 결정하는 것을 도울 수 있다. 로케이션 정보는 또한 식당 또는 길거리 이름처럼 특정적인 것일 수도 있다. 일 예로서, 로케이션이 길거리라고 모바일 디바이스가 결정하면, 그 특정한 도시의 모든 길거리 이름들을 포함하는 딕셔너리 또는 정제된 딕셔너리는 보다 빠른 OCR을 위해 이용될 수도 있다.
블록 306에서, 그래픽 오브젝트들의 그룹을 위한 도메인이 선택된다. 도메인은 콘텍스트의 하위 분류일 수도 있다. 예를 들면, 하나의 로케이션이 다수의 도메인들을 가질 수도 있다. 블록 304에서, 로케이션이 길거리라면, 도메인은 도로 표지판들일 수도 있다. 마찬가지로, 로케이션이 식당이면, 도메인은 신용 카드 또는 저녁 메뉴일 수 있다. 나중에 더 상세히 설명되는, 문서 구조 분석 및 콘텐츠 시맨틱 분석과 같은 다수의 기법들이 또한 도메인을 결정하기 위해 이용될 수도 있다.
블록 308에서, 검색은 도메인에서 관심 초점을 발견하는 것에 의해 더욱 좁혀질 수도 있다. 예를 들면, 신용 카드 상의 관심 초점은 사람의 이름 또는 신용 카드 번호일 수도 있다. 사용자는 관심 초점을 선택하기 위해 음성 커맨드를 제공할 수도 있거나 또는 관심 초점을 선택하기 위해 이미지에서의 텍스트를 터치할 수도 있다.
본 발명의 다양한 실시형태들에서, 상이한 콘텍스트 소스들이, 콘텍스트를 결정하고 OCR에 대한 그래픽 오브젝트들의 가장 적합한 그룹을 선택하기 위해, 단독으로 또는 서로 연계하여 이용될 수도 있다. 콘텍스트 소스들의 적은 예들은 로케이션, 사용자, 시계, 카메라, 및 사용자 패턴들을 포함할 수도 있다. 각각의 콘텍스트 소스는 센서 입력 디바이스들에 추가로 연관될 수도 있다. 예를 들면, 로케이션은 모바일 디바이스에 존재하는 GPS 엘리먼트, 셀 전화기 타워에 대한 신호 강도를 이용하여 또는 오디오 입력을 통해 결정될 수도 있다. 사용자는 또한 모바일 디바이스 상에 디스플레이된 메뉴로부터 콘텍스트 또는 딕셔너리를 수동으로 선택하는 것에 의해 또는 디바이스에 대한 음성 커맨드를 통해 콘텍스트 소스를 제공할 수 있다. 더욱이, 사용자 거동 패턴들은 사용자로부터 유래하는 콘텍스트를 구축하는데 이용될 수도 있다. 마찬가지로, 시간 및 날짜가 밤 또는 낮 환경 또는 계절에 관한 중요한 정보를 제공할 수도 있다. 카메라는 또한 콘텍스트의 중요한 소스인데, 이는 카메라가 거리, 문자 사이즈, 광 조건들 등에 대한 콘텍스트를 제공할 수 있어서이다. 카메라 외에도, 모바일 디바이스는 또한 광 조건들을 양호하게 측정하기 위해 광 센서들을 가질 수도 있다.
도 3에 예시된 구체적인 단계들은 본 발명의 일 실시형태에 따라 동작의 모드들 간을 스위칭하는 특정 방법을 제공한다는 것이 이해되어야 한다. 단계들의 다른 시퀀스들이 또한 그에 따라 대체 실시형태들에서 수행될 수도 있다. 예를 들어, 본 발명의 대안적 실시형태들은 위에서 약술된 단계들을 상이한 순서로 수행할 수도 있다. 예시를 위해, 사용자가 동작의 제 3 모드로부터 동작의 제 1 모드로, 제 4 모드에서 제 2 모드로, 또는 그것들 사이의 임의의 조합으로 변경할 것을 선택할 수도 있다. 더구나, 도 3에 예시된 개개의 단계들은 개개의 단계에 적절한 대로 다양한 시퀀스들에서 수행될 수도 있는 다수의 서브단계들을 포함할 수도 있다. 더욱이, 부가적인 단계들은 특정 애플리케이션들에 의존하여 추가되거나 또는 제거될 수도 있다. 당업자는 방법 (300) 의 많은 변형예들, 수정예들, 및 대체예들을 인식하고 이해할 것이다.
도 4는 콘텍스트 민감 OCR을 위한 방법을 수행하는 예시적인 실시형태를 설명하는 흐름도이다. 방법 (400) 은 하드웨어 (회로, 전용 로직 등), 소프트웨어 (이를테면 범용 컴퓨팅 시스템 또는 전용 머신 상에서 실행됨), 펌웨어 (임베디드 소프트웨어), 또는 그것들의 임의의 조합을 포함하는 프로세싱 로직에 의해 수행된다. 하나의 실시형태에서, 방법 (400) 은 도 1의 디바이스 (100) 에 의해 수행된다.
도 4를 참조하면, 이미지가 블록 402에서 획득된다. 하나의 실시형태에서, 그 이미지는 모바일 디바이스에 연결된 카메라를 사용하여 획득된다. 일단 이미지가 획득되면, 블록 404에서, 그래픽 오브젝트를 포함하는 이미지의 일부가 식별된다. 이미지에서의 그래픽 오브젝트는 하나 이상의 심볼들, 영숫자 문자들, 단어들, 기호들, 또는 숫자들을 포함할 수도 있지만 그것들로 제한되지 않는다. 하나의 구현예에서, 사각형 텍스트 박스가 그래픽 오브젝트 주변에 배치된다. 블록 406에서, 그래픽 오브젝트들이 부분적으로 또는 완전히 인식된다. 하나의 양태에서, OCR이 그래픽 오브젝트들을 인식하는데 활용된다. 블록 408에서, 그래픽 오브젝트들 (이를테면 하나 이상의 딕셔너리들) 의 그룹이 식별된다. 하나의 양태에서, 그래픽 오브젝트들의 그룹은 딕셔너리 또는 딕셔너리의 정제물일 수도 있고 이미지의 콘텍스트에 기초하여 생성된다.
하나의 실시형태에서, 이미지의 콘텍스트에 기초한 딕셔너리는 이미지의 프로세싱과 병행하여 선택되므로, OCR로부터의 결과들이 그래픽 오브젝트들의 그룹에 질의 (query) 할 준비가 되기 전에, 콘텍스트와, 그래픽 오브젝트들의 그룹이 준비되거나 또는 거의 준비된다. 블록 410에서, 콘텍스트 선택기는 상이한 센서들로부터의 입력 및 가능한 사용자 입력에 기초하여 콘텍스트를 결정할 수도 있다. 그 콘텍스트는 다른 팩터들 중에서 로케이션, 카메라 입력, 시간 입력, 및 이력에 기초할 수도 있다. 블록 412에서, 일단 적절한 콘텍스트들이 선택되면, 적절한 딕셔너리들 또는 딕셔너리들의 정제물은 선택된 콘텍스트들에 연관되고 블록 408로 전해질 수도 있다. 블록 408에서, 검색이 이미지의 콘텍스트에 기초하여 선택된 딕셔너리 또는 딕셔너리의 정제물을 사용하여 수행된다. 블록 414에서, OCR 결과들이 출력된다.
다른 실시형태에서, 카메라 렌즈로부터의 텍스트의 거리 및 물리적 문자 사이즈는 텍스트의 콘텍스트의 결정 시에 이용될 수도 있다. 모바일 디바이스로부터의 기호들의 거리의 지식은 그래픽 오브젝트 선택들의 그룹을 좁히기 위해 사용될 수 있는 전망 (perspective) 을 가능하게 한다. 예를 들면, 길거리 상의 기호들은 멀리 떨어져 있다. 식당에서의 메뉴는 가까운 범위 내에 있다. 책에서 텍스트는 어쩌면 훨씬 더 가깝다. 실시형태의 이러한 구현예에 대해, 카메라로부터의 텍스트의 정확한 거리는 요구되지 않을 수도 있다. 대신, 거리는 가까운 방-사이즈 및 더 먼 것과 같은 보다 넓은 카테고리들로 분할될 수 있다. 다른 예시적인 분류에서, 거리는 카메라가 자동 초점 맞추어지는 경우에 초점 거리로부터 근접, 노말 및 무한과 같은 별개의 카테고리들로 근사화될 수도 있다. 더욱이, 다수의 단어들의 그루핑은 또한 주제의 힌트들을 생성하는 것을 도울 수 있다. 예를 들어, 도로 표지판은 약 2 내지 4 개의 단어들을 가질 수도 있다. 그 반면, 텍스트 북은 20 내지 30 개 단어들의 더 큰 그루핑들을 가질 수도 있다. 투영된 텍스트 사이즈는 OCR이 고려하는 것이 필요할 수도 있는 텍스트 블록 사이즈를 제한하는 것을 도울 수 있다.
도 4에 예시된 특정 단계들은 본 발명의 일 실시형태에 따라 동작의 모드들 간을 스위칭하는 특정 방법을 제공한다는 것이 이해되어야 한다. 단계들의 다른 시퀀스들이 또한 그에 따라 대체 실시형태들에서 수행될 수도 있다. 예를 들어, 본 발명의 대안적 실시형태들은 위에서 약술된 단계들을 상이한 순서로 수행할 수도 있다. 예시를 위해, 사용자가 동작의 제 3 모드로부터 동작의 제 1 모드로, 제 4 모드에서 제 2 모드로, 또는 그것들 사이의 임의의 조합으로 변경할 것을 선택할 수도 있다. 더구나, 도 4에 예시된 개개의 단계들은 개개의 단계에 적절한 대로 다양한 시퀀스들에서 수행될 수도 있는 다수의 서브단계들을 포함할 수도 있다. 더욱이, 부가적인 단계들은 특정 애플리케이션들에 의존하여 추가되거나 또는 제거될 수도 있다. 당업자는 방법 (400) 의 많은 변형예들, 수정예들, 및 대체예들을 인식하고 이해할 것이다.
도 5는 콘텍스트 민감 OCR을 위한 방법을 수행하기 위한 또 다른 예시적인 실시형태를 설명하는 흐름도이다. 방법 (500) 은 하드웨어 (회로, 전용 로직 등), 소프트웨어 (이를테면 범용 컴퓨팅 시스템 또는 전용 머신 상에서 실행됨), 펌웨어 (임베디드 소프트웨어), 또는 그것들의 임의의 조합을 포함하는 프로세싱 로직에 의해 수행된다. 하나의 실시형태에서, 방법 (500) 은 도 1의 디바이스 (100) 에 의해 수행된다.
도 5를 참조하면, 이미지가 블록 502에서 획득된다. 하나의 실시형태에서, 그 이미지는 모바일 디바이스에 연결된 카메라를 사용하여 획득된다. 일단 이미지가 획득되면, 블록 504에서, 그래픽 오브젝트를 포함하는 이미지의 일부가 식별된다. 이미지에서의 그래픽 오브젝트는 하나 이상의 심볼들, 영숫자 문자들, 단어들, 기호들, 또는 숫자들을 포함할 수도 있지만 그것들로 제한되지 않는다. 하나의 구현예에서, 사각형 텍스트 박스가 그래픽 오브젝트 주변에 배치된다. 블록 506에서, 그래픽 오브젝트들이 부분적으로 또는 완전히 인식된다. 하나의 양태에서, OCR이 그래픽 오브젝트들을 인식하는데 활용된다. 블록 508에서, 하나 이상의 OCR 후보들이 그래픽 오브젝트에 대해 OCR을 수행하는 것으로 생성된다. 블록 510에서, OCR 후보가 그래픽 오브젝트들의 그룹를 이용하여 복수의 OCR 후보들로부터 선택된다. 예를 들면, OCR을 수행하는 것은 10 개의 OCR 후보들을 생성할 수도 있다. 병행하여, 디바이스는 또한 콘텍스트를 구축하고 그 콘텍스트에 기초하여 그래픽 오브젝트들의 그룹 (이를테면 하나 이상의 딕셔너리들) 을 선택할 수도 있다. 하나의 실시형태에서, 최상의 후보 또는 그래픽 오브젝트들의 그룹으로부터의 그래픽 오브젝트들 중 하나와 일치하는 후보는 OCR 결과로서 간주될 수도 있다.
하나의 실시형태에서, 이미지의 콘텍스트에 기초한 딕셔너리는 이미지의 프로세싱과 병행하여 선택되므로, OCR로부터의 결과들이 그래픽 오브젝트들의 그룹에 질의할 준비가 되기 전에, 콘텍스트와, 그래픽 오브젝트들의 그룹이 준비되거나 또는 거의 준비된다. 블록 512에서, 콘텍스트 선택기는 상이한 센서들로부터의 입력 및 가능한 사용자 입력에 기초하여 콘텍스트를 결정할 수도 있다. 그 콘텍스트는 다른 팩터들 중에서 로케이션, 카메라 입력, 시간 입력, 및 이력에 기초할 수도 있다. 블록 514에서, 일단 적절한 콘텍스트들이 선택되면, 적절한 딕셔너리들 또는 딕셔너리들의 정제물은 선택된 콘텍스트들에 연관되고 블록 510으로 전해질 수도 있다. 블록 510에서, 위에서 설명된 바와 같이 최상의 후보가 그래픽 오브젝트들의 그룹을 이용하여 선택된다. 블록 516에서, OCR 결과들이 출력된다.
도 5에 예시된 구체적인 단계들은 본 발명의 일 실시형태에 따라 동작의 모드들 간을 스위칭하는 특정 방법을 제공한다는 것이 이해되어야 한다. 단계들의 다른 시퀀스들이 또한 그에 따라 대체 실시형태들에서 수행될 수도 있다. 예를 들어, 본 발명의 대안적 실시형태들은 위에서 약술된 단계들을 상이한 순서로 수행할 수도 있다. 예시를 위해, 사용자가 동작의 제 3 모드로부터 동작의 제 1 모드로, 제 4 모드에서 제 2 모드로, 또는 그것들 사이의 임의의 조합으로 변경할 것을 선택할 수도 있다. 더구나, 도 5에 예시된 개개의 단계들은 개개의 단계에 적절한 대로 다양한 시퀀스들에서 수행될 수도 있는 다수의 서브단계들을 포함할 수도 있다. 더욱이, 부가적인 단계들은 특정 애플리케이션들에 의존하여 추가되거나 또는 제거될 수도 있다. 당업자는 방법 (500) 의 많은 변형예들, 수정예들, 및 대체예들을 인식하고 이해할 것이다.
도 6은 콘텍스트 민감 OCR을 위한 방법을 수행하는 예시적인 실시형태를 설명하는 흐름도이다. 방법 (600) 은 하드웨어 (회로, 전용 로직 등), 소프트웨어 (이를테면 범용 컴퓨팅 시스템 또는 전용 머신 상에서 실행됨), 펌웨어 (임베디드 소프트웨어), 또는 그것들의 임의의 조합을 포함하는 프로세싱 로직에 의해 수행된다. 하나의 실시형태에서, 방법 (600) 은 도 1의 디바이스 (100) 에 의해 수행된다.
도 6을 참조하면, 블록 602에서, 그래픽 오브젝트에 대한 콘텍스트가 본원에서 설명되는 메커니즘들을 이용하여 추론될 수도 있다. 일단 OCR 콘텍스트가 추론되면, OCR 결과들은, 블록 604에서, 추론된 콘텍스트를 이용하여 개선될 수도 있다. 더구나, 블록 606에서, 추론된 콘텍스트는 OCR 결과들을 이용하는 것에 의해 추가로 개선될 수도 있다.
도 6에 예시된 구체적인 단계들은 본 발명의 일 실시형태에 따라 동작의 모드들 간을 스위칭하는 특정 방법을 제공한다는 것이 이해되어야 한다. 단계들의 다른 시퀀스들이 또한 그에 따라 대체 실시형태들에서 수행될 수도 있다. 예를 들어, 본 발명의 대안적 실시형태들은 위에서 약술된 단계들을 상이한 순서로 수행할 수도 있다. 예시를 위해, 사용자가 동작의 제 3 모드로부터 동작의 제 1 모드로, 제 4 모드에서 제 2 모드로, 또는 그것들 사이의 임의의 조합으로 변경할 것을 선택할 수도 있다. 더구나, 도 6에 예시된 개개의 단계들은 개개의 단계에 적절한 대로 다양한 시퀀스들에서 수행될 수도 있는 다수의 서브단계들을 포함할 수도 있다. 더욱이, 부가적인 단계들은 특정 애플리케이션들에 의존하여 추가되거나 또는 제거될 수도 있다. 당업자는 방법 (600) 의 많은 변형예들, 수정예들, 및 대체예들을 인식하고 이해할 것이다.
도 7은 이미지가 획득되는 경우에 광 조건들에 기초하여 OCR에 대한 콘텍스트를 선택하는 본 발명의 실시형태를 예시하는 흐름도이다. 방법 (700) 은 하드웨어 (회로, 전용 로직 등), 소프트웨어 (이를테면 범용 컴퓨팅 시스템 또는 전용 머신 상에서 실행됨), 펌웨어 (임베디드 소프트웨어), 또는 그것들의 임의의 조합을 포함하는 프로세싱 로직에 의해 수행된다. 하나의 실시형태에서, 방법 (700) 은 도 1의 디바이스 (100) 에 의해 수행된다.
도 7을 참조하면, 하나의 실시형태에서, OCR을 위한 딕셔너리에 대한 콘텍스트를 선택하는 것은 이미지가 획득되었을 경우에 광 조건들에 기초한다. 딕셔너리는 도 7을 설명하는 동안에 예시 목적으로 이용되는 그래픽 오브젝트들의 그룹의 일 예이다. 이미지가 블록 702에서 획득된다. 하나의 실시형태에서, 그 이미지는 모바일 디바이스에 연결된 카메라를 사용하여 획득된다. 일단 이미지가 획득되면, 블록 704에서, 그래픽 오브젝트 (이를테면 단어) 를 포함하는 이미지의 일부가 식별된다. 이미지에서의 그래픽 오브젝트는 하나 이상의 심볼들, 영숫자 문자들, 단어들, 기호들, 또는 숫자들을 포함할 수도 있지만 그것들로 제한되지 않는다. 하나의 구현예에서, 사각형 텍스트 박스가 그래픽 오브젝트 주변에 배치된다. 블록 706에서, 그래픽 오브젝트들이 부분적으로 또는 완전히 인식된다. 하나의 양태에서 OCR이 그래픽 오브젝트들을 인식하는데 활용된다. 블록 708에서, 그래픽 오브젝트들의 그룹이 식별된다. 하나의 양태에서, 그래픽 오브젝트들의 그룹은 딕셔너리 또는 딕셔너리의 정제물일 수도 있고 이미지의 콘텍스트에 기초하여 생성될 수도 있다.
블록 710에서, 모바일 디바이스는 광 센서들로부터 입력을 수신한다. 하나의 구현예에서, 포토셀들이 광 센서들로서 사용될 수도 있다. 광 센서들로부터의 입력에 기초하여 모바일 디바이스는 화상이 옥외에서 취해졌는지 또는 실내에서 취해졌는지를 결정할 수도 있다. 예를 들면, 복수의 광선들에 연관된 밝기는 광 센서들의 출력을 이용하여 결정될 수도 있다. 하나의 실시형태에서, 임계 미만 밝기는 실내에서 이미지를 획득하는 추론의 결과가 되고 임계 초과 밝기는 옥외에서 이미지를 획득하는 추론의 결과가 된다. 광선들의 밝기는 휘도, 색온도 또는 양쪽 모두를 말할 수도 있다. 더욱이, 일부 실시형태들에서, 결정의 품질을 증가시키기 위해, 모바일 디바이스는 또한 단지 매우 잘 조명된 (lit) 실내 환경과는 구별되는 햇빛의 특성들을 검출할 수도 있다. 예를 들면, 방은 형광등을 사용하여 잘 조명될 수 있다. 블록 712에서, 모바일 디바이스는 이미지가 실내에서 캡처되고 있는지 또는 외부에서 캡처되고 있는지를 결정한다. 딕셔너리들의 선택은 이미지가 캡처되는 곳을 아는 것에 의해 상당히 좁혀진다. 예를 들면, 실내에서 획득된 이미지에 대한 OCR은 식당 메뉴들 또는 책들과 같은 보다 작은 인쇄물을 일반적으로 가질 딕셔너리들 또는 딕셔너리들의 정제물을 타겟으로 한다. 한편, 이미지들의 옥외 캡처를 위한 OCR은, 보다 큰 인쇄물을 가질 것이고 일반적으로 길거리 이름들 및 가게 간판들과 같이 옥외에서 발견되는 딕셔너리들을 대상으로 할 것이다. 블록 714에서, 딕셔너리들은 선택되고 블록 708로 제공된다. 블록 708에서, 적절한 단어들이 딕셔너리들로부터 선택된다. 블록 716에서, OCR 결과들이 출력된다.
도 7에 예시된 구체적인 단계들은 본 발명의 일 실시형태에 따라 동작의 모드들 간을 스위칭하는 특정 방법을 제공한다는 것이 이해되어야 한다. 단계들의 다른 시퀀스들이 또한 그에 따라 대체 실시형태들에서 수행될 수도 있다. 예를 들어, 본 발명의 대안적 실시형태들은 위에서 약술된 단계들을 상이한 순서로 수행할 수도 있다. 예시를 위해, 사용자가 동작의 제 3 모드로부터 동작의 제 1 모드로, 제 4 모드에서 제 2 모드로, 또는 그것들 사이의 임의의 조합으로 변경할 것을 선택할 수도 있다. 더구나, 도 7에 예시된 개개의 단계들은 개개의 단계에 적절한 대로 다양한 시퀀스들에서 수행될 수도 있는 다수의 서브단계들을 포함할 수도 있다. 더욱이, 부가적인 단계들은 특정 애플리케이션들에 의존하여 추가되거나 또는 제거될 수도 있다. 당업자는 방법 (700) 의 많은 변형예들, 수정예들, 및 대체예들을 인식하고 이해할 것이다.
도 8은 OCR을 위한 딕셔너리를 선택하는 콘텍스트가 마이크로폰으로부터의 입력에 기초하는 하나의 실시형태를 소개하는 흐름도이다. 방법 (800) 은 하드웨어 (회로, 전용 로직 등), 소프트웨어 (이를테면 범용 컴퓨팅 시스템 또는 전용 머신 상에서 실행됨), 펌웨어 (임베디드 소프트웨어), 또는 그것들의 임의의 조합을 포함하는 프로세싱 로직에 의해 수행된다. 하나의 실시형태에서, 방법 (800) 은 도 1의 디바이스 (100) 에 의해 수행된다.
도 8을 참조하면, 이미지가 블록 802에서 획득된다. 하나의 실시형태에서, 그 이미지는 모바일 디바이스에 연결된 카메라를 사용하여 획득된다. 일단 이미지가 획득되면, 블록 804에서, 그래픽 오브젝트를 포함하는 이미지의 일부가 식별된다. 이미지에서의 그래픽 오브젝트는 하나 이상의 심볼들, 영숫자 문자들, 단어들, 기호들, 또는 숫자들을 포함할 수도 있지만 그것들로 제한되지 않는다. 하나의 구현예에서, 사각형 텍스트 박스가 그래픽 오브젝트 주변에 배치된다. 블록 806에서, 그래픽 오브젝트들이 부분적으로 또는 완전히 인식된다. 하나의 양태에서, OCR이 그래픽 오브젝트들을 인식하는데 활용된다.
블록 810에서, 마이크로폰은 마이크로폰을 통해 오디오 입력을 수신하고 그 오디오를 기록한다. 블록 812에서, 모바일 디바이스는 오디오 레코딩에 대한 스피치 인식을 수행한다. 일부 실시형태들에서, 사용자는 블록 802에서 캡처된 이미지의 콘텍스트를 구두로 선택할 수도 있다. 예를 들면, 사용자는 딕셔너리들이 선택되어야 하는 언어를 특정할 수 있다. 다른 실시형태들에서, 사용자는 또한 사용자가 관심있어 하는 특정 필드들을 이미지로부터 구두로 선택할 수 있다. 예를 들면, 사용자는 이미지에서 볼 수 있는 적절한 이름들 또는 디지트들을 선택할 수도 있거나, 또는 사용자는 OCR 프로세싱을 위한 아이템의 신용 카드 번호 또는 비용을 선택하기 위해 보다 특정적인 구두 커맨드를 제공할 수도 있다. 블록 814에서, 하나의 실시형태에서, 키워드들은 인식된 오디오 패턴들로부터 검출될 수도 있다. 다른 실시형태에서, 콘텍스트는 인식된 오디오 패턴들에 기초하여 추론된다. 블록 808에서, 블록 814로부터의 검출된 키워드들 및 추론된 콘텍스트는, OCR 결과들을 개선 시에 추가로 사용될 수도 있다. 하나의 실시형태에서는, 블록 808에서, 디스플레이가 선택된 단어들을 사용자에 의해 스크린 상에 오버레이한다. 블록 816에서, OCR 결과들이 출력될 수도 있다.
도 8에 예시된 구체적인 단계들은 본 발명의 일 실시형태에 따라 동작의 모드들 간을 스위칭하는 특정 방법을 제공한다는 것이 이해되어야 한다. 단계들의 다른 시퀀스들이 또한 그에 따라 대체 실시형태들에서 수행될 수도 있다. 예를 들어, 본 발명의 대안적 실시형태들은 위에서 약술된 단계들을 상이한 순서로 수행할 수도 있다. 예시를 위해, 사용자가 동작의 제 3 모드로부터 동작의 제 1 모드로, 제 4 모드에서 제 2 모드로, 또는 그것들 사이의 임의의 조합으로 변경할 것을 선택할 수도 있다. 더구나, 도 8에 예시된 개개의 단계들은 개개의 단계에 적절한 대로 다양한 시퀀스들에서 수행될 수도 있는 다수의 서브단계들을 포함할 수도 있다. 더욱이, 부가적인 단계들은 특정 애플리케이션들에 의존하여 추가되거나 또는 제거될 수도 있다. 당업자는 방법 (800) 의 많은 변형예들, 수정예들, 및 대체예들을 인식하고 이해할 것이다.
도 9는 콘텍스트 민감 OCR에 대해 수동 입력을 이용하는 일 실시형태를 설명하는 흐름도이다. 방법 (900) 은 하드웨어 (회로, 전용 로직 등), 소프트웨어 (이를테면 범용 컴퓨팅 시스템 또는 전용 머신 상에서 실행됨), 펌웨어 (임베디드 소프트웨어), 또는 그것들의 임의의 조합을 포함하는 프로세싱 로직에 의해 수행된다. 하나의 실시형태에서, 방법 (900) 은 도 1의 디바이스 (100) 에 의해 수행된다.
도 9를 참조하면, 이미지가 블록 902에서 획득된다. 하나의 실시형태에서, 그 이미지는 모바일 디바이스에 연결된 카메라를 사용하여 획득된다. 일단 이미지가 획득되면, 블록 904에서, 그래픽 오브젝트를 포함하는 이미지의 일부가 식별된다. 이미지에서의 그래픽 오브젝트는 하나 이상의 심볼들, 영숫자 문자들, 단어들, 기호들, 또는 숫자들을 포함할 수도 있지만 그것들로 제한되지 않는다. 하나의 구현예에서, 사각형 텍스트 박스가 그래픽 오브젝트 주변에 배치된다. 블록 906에서, 그래픽 오브젝트들이 부분적으로 또는 완전히 인식된다. 하나의 양태에서, OCR이 그래픽 오브젝트들을 인식하는데 활용된다.
도 9에서의 실시형태는 본원에서 논의되는 다른 실시형태들에 연계하여 사용될 수도 있다. 하나의 실시형태에서, 상이한 딕셔너리들이 상이한 콘텍스트 소스들을 사용하여 선택될 수도 있고 최종 선택을 위해 사용자에게 제시될 수도 있다. 또 다른 실시형태에서, 사용자는 콘텍스트에서 사용될 딕셔너리를 모바일 디바이스에 의해 제공된 사용자 인터페이스를 통해 사용자에 의해 수동으로 선택할 수도 있다. 블록 910에서, 다양한 소스들로부터의 후보 딕셔너리들이 최종 선택을 위해 선택되고 사용자에게 제시된다. 블록 912에서, 사용자가 딕셔너리를 선택한다. 블록 914에서, 사용자들의 입력으로부터의 피드백은 딕셔너리의 선택 시에 고려된다. 일부 실시형태들에서, 사용자는 딕셔너리 자체가 아니라 딕셔너리에 대한 콘텍스트를 선택할 수도 있다. 다른 실시형태들에서, 사용자는 딕셔너리들의 그루핑 또는 카테고리를 선택할 수도 있다. 블록 908에서, 그래픽 오브젝트들이 사용자 선택에 기초하여 인식되고 OCR의 최종 결과들이 출력된다 (블록 916).
도 9에 예시된 구체적인 단계들은 본 발명의 일 실시형태에 따라 동작의 모드들 간을 스위칭하는 특정 방법을 제공한다는 것이 이해되어야 한다. 단계들의 다른 시퀀스들이 또한 그에 따라 대체 실시형태들에서 수행될 수도 있다. 예를 들어, 본 발명의 대안적 실시형태들은 위에서 약술된 단계들을 상이한 순서로 수행할 수도 있다. 예시를 위해, 사용자가 동작의 제 3 모드로부터 동작의 제 1 모드로, 제 4 모드에서 제 2 모드로, 또는 그것들 사이의 임의의 조합으로 변경할 것을 선택할 수도 있다. 더구나, 도 9에 예시된 개개의 단계들은 개개의 단계에 적절한 대로 다양한 시퀀스들에서 수행될 수도 있는 다수의 서브단계들을 포함할 수도 있다. 더욱이, 부가적인 단계들은 특정 애플리케이션들에 의존하여 추가되거나 또는 제거될 수도 있다. 당업자는 방법 (900) 의 많은 변형예들, 수정예들, 및 대체예들을 인식하고 이해할 것이다.
도 10은 이미지가 획득되는 로케이션을 이용하여 콘텍스트 민감 OCR을 행하는 방법을 위한 다른 실시형태를 논의하는 흐름도이다. 예를 들면, 사용자가 특정 식당 내부에 있다면, 선택된 딕셔너리는 그 식당에 특정될 수 있다. 방법 (1000) 은 하드웨어 (회로, 전용 로직 등), 소프트웨어 (이를테면 범용 컴퓨팅 시스템 또는 전용 머신 상에서 실행됨), 펌웨어 (임베디드 소프트웨어), 또는 그것들의 임의의 조합을 포함하는 프로세싱 로직에 의해 수행된다. 하나의 실시형태에서, 방법 (1000) 은 도 1의 디바이스 (100) 에 의해 수행된다.
도 10을 참조하면, 이미지가 블록 1002에서 획득된다. 하나의 실시형태에서, 그 이미지는 모바일 디바이스에 연결된 카메라를 사용하여 획득된다. 일단 이미지가 획득되면, 블록 1004에서, 그래픽 오브젝트를 포함하는 이미지의 일부가 식별된다. 이미지에서의 그래픽 오브젝트는 하나 이상의 심볼들, 영숫자 문자들, 단어들, 기호들, 또는 숫자들을 포함할 수도 있지만 그것들로 제한되지 않는다. 하나의 구현예에서, 사각형 텍스트 박스가 그래픽 오브젝트 주변에 배치된다. 블록 1006에서, 그래픽 오브젝트들이 부분적으로 또는 완전히 인식된다. 하나의 양태에서, OCR이 그래픽 오브젝트들을 인식하는데 활용된다.
블록 1010에서, 데이터에 대한 로케이션이 획득된다. 하나의 실시형태에서, 이미지를 캡처하는 사람의 로케이션은 모바일 디바이스에서의 GPS 엘리먼트를 사용하여 확정될 수 있다. 대안으로, 사용자 로케이션은 셀 타워에 대한 신호의 세기를 이용하여 또는 WiFi와 같은 무선 액세스 포인트 접속 또는 임의의 다른 적합한 수단을 통해 결정될 수도 있다. 블록 1012에서, 모바일 디바이스는 로케이션에 대한 상세특성 (specifics) 을 결정하기 위해 로케이션 데이터를 프로세싱한다. 로케이션의 세분도는 또한 선택된 딕셔너리들의 세분도를 결정할 수도 있다. 블록 1014에서, 로케이션에 기초한 딕셔너리가 선택된다. 블록 1012에서 선택된 로케이션이 국가 또는 국가의 특정 지역이면, 그 지역에 대한 적절한 언어 딕셔너리가 블록 1014에서 선택될 수도 있다. 예를 들어, 한국에서의 사용자의 경우, 한국어가 선택될 수도 있다
블록 1012에서 확정된 로케이션의 세분도의 증가로, 추가의 정제된 딕셔너리들이 블록 1014에서 선택될 수도 있다. 다른 실시형태에서, 모바일 디바이스는 특정한 로케이션에 대해 더 많은 정보를 획득하기 위해 네트워크에 액세스할 수도 있다. 예를 들면, 하나의 실시형태에서, 일단 모바일 디바이스의 GPS 좌표들이 획득되면, 모바일 디바이스는 그 로케이션에 연관된 세부사항들을 확정하기 위해 로컬로 또는 원격으로 위치된 데이터베이스에 질의할 수도 있다. 하나의 예에서는, 블록 1012에서, 특정 로케이션에 대한 GPS 좌표들이 그리스 레스토랑과 연관된다. 블록 1014에서, OCR을 위해 선택된 딕셔너리는 그 레스토랑에 대해 특정될 수도 있다. 그 레스토랑에 특정적인 딕셔너리가 이용가능하지 않으면, 그리스 음식에 관련있는 더 일반적인 딕셔너리가 선택될 수도 있다. 블록 1008에서, 식별된 그래픽 오브젝트가 블록 1014로부터의 로케이션 콘텍스트에 기초하여 그래픽 오브젝트들의 그룹으로부터 선택된다. 블록 1018에서, 선택된 OCR 그래픽 오브젝트가 출력될 수도 있다.
마이크로폰 센서들은, 블록 1016에서, 또한 특정 로케이션을 결정하기 위해 블록 1012에서의 로케이션 정보를 제공할 수도 있다. 하나의 예에서, 식당은 그 로케이션에 연관되는 시그너쳐 톤을 가질 수도 있다. 모바일 디바이스는 그 톤을 기록하고 분석하며 그 톤에 연관된 로케이션을 모바일 디바이스 상 또는 원격 서버 상 중 어느 하나에서 국소적으로 결정한다. 관련된 특허 출원인 특허출원 제12/898,647호의 "Mobile device location estimation using environmental information"은 레스토랑을 결정하기 위한 이러한 실시형태를 더 상세히 기재한다.
도 10에 예시된 구체적인 단계들은 본 발명의 일 실시형태에 따라 동작의 모드들 간을 스위칭하는 특정 방법을 제공한다는 것이 이해되어야 한다. 단계들의 다른 시퀀스들이 또한 그에 따라 대체 실시형태들에서 수행될 수도 있다. 예를 들어, 본 발명의 대안적 실시형태들은 위에서 약술된 단계들을 상이한 순서로 수행할 수도 있다. 예시를 위해, 사용자가 동작의 제 3 모드로부터 동작의 제 1 모드로, 제 4 모드에서 제 2 모드로, 또는 그것들 사이의 임의의 조합으로 변경할 것을 선택할 수도 있다. 더구나, 도 10에 예시된 개개의 단계들은 개개의 단계에 적절한 대로 다양한 시퀀스들에서 수행될 수도 있는 다수의 서브단계들을 포함할 수도 있다. 더욱이, 부가적인 단계들은 특정 애플리케이션들에 의존하여 추가되거나 또는 제거될 수도 있다. 당업자는 방법 (1000) 의 많은 변형예들, 수정예들, 및 대체예들을 인식하고 이해할 것이다.
도 11은 콘텍스트 민감 OCR을 위한 그래픽 오브젝트들의 그룹을 선택하기 위해 마이크로폰을 이용하여 환경을 인식하는 다른 예시적인 실시형태를 설명하는 흐름도이다. 딕셔너리는 도 11을 설명하는 동안에 예시 목적으로 이용되는 그래픽 오브젝트들의 그룹의 일 예이다. 방법 (1100) 은 하드웨어 (회로, 전용 로직 등), 소프트웨어 (이를테면 범용 컴퓨팅 시스템 또는 전용 머신 상에서 실행됨), 펌웨어 (임베디드 소프트웨어), 또는 그것들의 임의의 조합을 포함하는 프로세싱 로직에 의해 수행된다. 하나의 실시형태에서, 방법 (1100) 은 도 1의 디바이스 (100) 에 의해 수행된다.
도 11을 참조하면, 이미지가 블록 1102에서 획득된다. 하나의 실시형태에서, 그 이미지는 모바일 디바이스에 연결된 카메라를 사용하여 획득된다. 일단 이미지가 획득되면, 블록 1004에서, 그래픽 오브젝트를 포함하는 이미지의 일부가 식별된다. 이미지에서의 그래픽 오브젝트는 하나 이상의 심볼들, 영숫자 문자들, 단어들, 기호들, 또는 숫자들을 포함할 수도 있지만 그것들로 제한되지 않는다. 하나의 구현예에서, 사각형 텍스트 박스가 그래픽 오브젝트 주변에 배치된다. 블록 1106에서, 그래픽 오브젝트들이 부분적으로 또는 완전히 인식된다. 하나의 양태에서, OCR이 그래픽 오브젝트들을 인식하는데 활용된다.
블록 1110에서, 마이크로폰이 주변환경으로부터의 입력을 수신한다. 블록 1112에서, 블록 1110으로부터 수신된 오디오 입력이 분석된다. 사용자의 환경은 오디오 입력에 기초하여 인식된다. 예를 들면, 블록 1112에서, 모바일 디바이스는 환경이 식당, 거리 또는 사무실이라고 결정할 수도 있다. 블록 1114에서, 모바일 디바이스는 마이크로폰으로부터 입력된 오디오를 이용하여 검출된 환경에 기초하여 적절한 딕셔너리를 선택하고 그 딕셔너리를 블록 1108 로 출력할 수도 있다. 블록 1108에서, 적절한 그래픽 오브젝트가 추론된 콘텍스트에 기초하여 딕셔너리로부터 선택되고 블록 1116에서 출력된다. 관련된 특허가출원인 특허출원 제61/449,475호의 "Recognizing environmental sound on local device and server"는 환경 팩터들을 검출하기 위한 이러한 실시형태를 더 상세히 기재한다.
도 11에 예시된 구체적인 단계들은 본 발명의 일 실시형태에 따라 동작의 모드들 간을 스위칭하는 특정 방법을 제공한다는 것이 이해되어야 한다. 단계들의 다른 시퀀스들이 또한 그에 따라 대체 실시형태들에서 수행될 수도 있다. 예를 들어, 본 발명의 대안적 실시형태들은 위에서 약술된 단계들을 상이한 순서로 수행할 수도 있다. 예시를 위해, 사용자가 동작의 제 3 모드로부터 동작의 제 1 모드로, 제 4 모드에서 제 2 모드로, 또는 그것들 사이의 임의의 조합으로 변경할 것을 선택할 수도 있다. 더구나, 도 11에 예시된 개개의 단계들은 개개의 단계에 적절한 대로 다양한 시퀀스들에서 수행될 수도 있는 다수의 서브단계들을 포함할 수도 있다. 더욱이, 부가적인 단계들은 특정 애플리케이션들에 의존하여 추가되거나 또는 제거될 수도 있다. 당업자는 방법 (1100) 의 많은 변형예들, 수정예들, 및 대체예들을 인식하고 이해할 것이다.
도 12는 콘텐츠 분석을 이용한 콘텍스트 식별을 위한 실시형태를 설명하는 흐름도이다. 이 실시형태에서, 최종 OCR 결과는 OCR 결과들을 출력하기 전에 문서 구조 분석, 콘텐츠 시맨틱 분석 및 전통적인 OCR 결과들을 고려한다. 방법 (1200) 은 하드웨어 (회로, 전용 로직 등), 소프트웨어 (이를테면 범용 컴퓨팅 시스템 또는 전용 머신 상에서 실행됨), 펌웨어 (임베디드 소프트웨어), 또는 그것들의 임의의 조합을 포함하는 프로세싱 로직에 의해 수행된다. 하나의 실시형태에서, 방법 (1200) 은 도 1의 디바이스 (100) 에 의해 수행된다.
도 12를 참조하면, 이미지가 블록 1202에서 획득된다. 하나의 실시형태에서, 그 이미지는 모바일 디바이스에 연결된 카메라를 사용하여 획득된다. 일단 이미지가 획득되면, 블록 1204에서, 텍스트와 같은 그래픽 오브젝트를 포함하는 이미지의 일부가 식별된다. 이미지에서의 그래픽 오브젝트는 하나 이상의 심볼들, 영숫자 문자들, 단어들, 텍스트, 기호들, 또는 숫자들을 포함할 수도 있지만 그것들로 제한되지 않는다. 텍스트는 도 12를 설명하는 동안 예시 목적으로 이용되는 그래픽 오브젝트의 일 예이지만, 임의의 그래픽 오브젝트가 유사한 방법에 연계하여 이용될 수도 있다. 덧붙여, 그래픽 일러스트레이션들이 또한 블록 1204에서 식별될 수도 있다. 그래픽 일러스트레이션은 텍스트 단어, 심볼 등과 같은 오브젝트의 제스처 또는 그래픽 표현을 포함할 수도 있다. 예를 들어, 사과의 이미지는 단어 "사과"의 그래픽 일러스트레이션이다. 일반적으로, 그래픽 일러스트레이션은 그래픽 오브젝트들에 대한 OCR 결과들을 개선하도록 돕는다. 하나의 구현예에서, 사각형 텍스트 박스가 텍스트 주변에 배치된다. 일단 텍스트 지역들이 블록 1204에서에서 검출되면, 텍스트 지역들의 문서 구조 분석 및 콘텐츠 시맨틱 분석이 블록 1206에서 병렬로 시작할 수도 있다.
문서 구조 분석이 블록 1208에서 시작한다. 문서 구조 분석은 그래픽 오브젝트들의 콘텍스트를 결정하기 위해 텍스트와 같은 그래픽 오브젝트들의 구조 및 레이아웃, 및 임의의 식별된 그래픽 일러스트레이션들에 집중한다. 예를 들면, 레스토랑에서의 저녁 메뉴는 책 표지와는 상당히 상이한 텍스트 레이아웃을 가진다. 문서 구조 분석은 폰트 높이와 같은 텍스트 지역들의 단일의 특징들과 또한 텍스트 지역들 사이의 이진 (binary) 특징들에 집중할 수도 있다. 이진 특징들은 공통선형성과 수평 및 수직 중복 정도와 같은 특수한 배열들의 분석을 포함할 수도 있다.
일단 텍스트를 갖는 부분들이 검출되면, 문서의 콘텐츠 시맨틱 분석이 또한 시작할 수도 있다. 블록 1210에서, 예비 OCR이 수행된다. OCR로부터 출력되는 인식된 텍스트 (블록 1212) 는 콘텐츠 시맨틱 분석을 위해 이용된다. 예를 들면, 일단 몇몇 단어들이 OCR을 이용하여 부분적으로 인식되면, 그들 단어들을 이용하여 콘텍스트를 추론하는 다양한 방식들이 구현될 수도 있다 (블록 1214). 하나의 실시형태에서, 가장 빈번하게 검출되는 카테고리에 속한 단어들이 콘텍스트를 구축하는데 사용되는 경우에 다수결 투표 방식이 사용된다. 다른 실시형태에서, 도메인 특정 콘텍스트가 콘텍스트에 기초하여 추론될 수도 있다. 일부 실시형태들에서, 콘텐츠 시맨틱 분석은 콘텍스트를 추론하기 위해 문서 구조 분석과 연계하여 작업한다. 예를 들면, 레스토랑 메뉴에서, 음식 이름들 및 가격이 함께 보여진다. 마찬가지로, 책 제목에서 사람의 이름은 비교적 작은 폰트로 보여진다.
블록 1216에서, 문서 구조 분석 및 콘텐츠 시맨틱 분석으로부터의 콘텍스트가 딕셔너리를 정제하기 위해 이용된다. 딕셔너리는 도 12에서 예시 목적으로 이용되는 그래픽 오브젝트들의 그룹의 일 예이지만, 그래픽 오브젝트들의 임의의 그룹을 이용하는 다른 방법들이 활용될 수도 있다. 블록 1218에서, 다른 OCR이 수행된다. OCR로부터의 결과들이 블록 1216에서 생성된 문서 구조 분석 및 콘텐츠 시맨틱 분석으로부터의 딕셔너리를 이용한다. OCR은, 일단 텍스트 지역들이 블록 1206에서 검출되면, 블록 1218에서, 문서 구조 분석 및 콘텐츠 시맨틱 분석에 대해 병렬로 시작될 수도 있다. 블록 1220에서, 콘텍스트 민감 OCR에 대한 출력 텍스트가 생성된다.
도 12에 예시된 구체적인 단계들은 본 발명의 일 실시형태에 따라 동작의 모드들 간을 스위칭하는 특정 방법을 제공한다는 것이 이해되어야 한다. 단계들의 다른 시퀀스들이 또한 그에 따라 대체 실시형태들에서 수행될 수도 있다. 예를 들어, 본 발명의 대안적 실시형태들은 위에서 약술된 단계들을 상이한 순서로 수행할 수도 있다. 예시를 위해, 사용자가 동작의 제 3 모드로부터 동작의 제 1 모드로, 제 4 모드에서 제 2 모드로, 또는 그것들 사이의 임의의 조합으로 변경할 것을 선택할 수도 있다. 더구나, 도 12에 예시된 개개의 단계들은 개개의 단계에 적절한 대로 다양한 시퀀스들에서 수행될 수도 있는 다수의 서브단계들을 포함할 수도 있다. 더욱이, 부가적인 단계들은 특정 애플리케이션들에 의존하여 추가되거나 또는 제거될 수도 있다. 당업자는 방법 (1200) 의 많은 변형예들, 수정예들, 및 대체예들을 인식하고 이해할 것이다.
도 13은 이미지의 구조적 레이아웃을 분석하는 것에 의해 콘텍스트 식별을 위한 실시형태를 설명하는 흐름도이다. 하나의 실시형태에서, 최종 OCR 결과는 OCR 결과들을 출력하기 전에 문서 구조 분석 및 전통적인 OCR 결과들을 고려한다. 방법 (1300) 은 하드웨어 (회로, 전용 로직 등), 소프트웨어 (이를테면 범용 컴퓨팅 시스템 또는 전용 머신 상에서 실행됨), 펌웨어 (임베디드 소프트웨어), 또는 그것들의 임의의 조합을 포함하는 프로세싱 로직에 의해 수행된다. 하나의 실시형태에서, 방법 (1300) 은 도 1의 디바이스 (100) 에 의해 수행된다.
도 13을 참조하면, 이미지가 블록 1302에서 획득된다. 하나의 실시형태에서, 그 이미지는 모바일 디바이스에 연결된 카메라를 사용하여 획득된다. 일단 이미지가 획득되면, 블록 1304에서, 텍스트와 같은 그래픽 오브젝트를 포함하는 이미지의 일부가 식별된다. 이미지에서의 그래픽 오브젝트는 하나 이상의 심볼들, 영숫자 문자들, 단어들, 텍스트, 기호들, 또는 숫자들을 포함할 수도 있지만 그것들로 제한되지 않는다. 텍스트는 도 13을 설명하는 동안 예시 목적으로 이용되는 그래픽 오브젝트의 일 예이지만, 임의의 그래픽 오브젝트가 유사한 방법에 연계하여 이용될 수도 있다. 덧붙여, 그래픽 일러스트레이션들은 또한 블록 1304에서 식별될 수도 있다 (미도시). 그래픽 일러스트레이션은 텍스트 단어, 심볼 등과 같은 오브젝트의 제스처 또는 그래픽 표현을 포함할 수도 있다. 예를 들어, 사과의 이미지는 단어 "사과"의 그래픽 일러스트레이션이다. 일반적으로, 그래픽 일러스트레이션은 그래픽 오브젝트들에 대한 OCR 결과들을 개선하도록 돕는다. 하나의 구현예에서, 사각형 텍스트 박스가 그래픽 오브젝트 주변에 배치된다. 일단 그래픽 오브젝트들을 갖는 이미지의 하나 이상의 부분들 및/또는 그래픽 일러스트레이션들이 블록 1304에서 검출되면, 문서 구조 분석이 블록 1308에서 병렬로 시작될 수도 있다.
문서 구조 분석은 블록 1308에서 시작된다. 문서 구조 분석은 그래픽 오브젝트들의 콘텍스트를 결정하기 위해 텍스트와 같은 그래픽 오브젝트들의 구조 및 레이아웃, 및 임의의 식별된 그래픽 일러스트레이션들에 집중한다. 예를 들면, 레스토랑에서의 저녁 메뉴는 책 표지와는 상당히 상이한 텍스트 레이아웃을 가진다. 문서 구조 분석은 폰트 높이와 같은 텍스트 지역들의 단일의 특징들과 또한 그래픽 오브젝트들 또는 그래픽 오브젝트들과 그래픽 일러스트레이션들 사이의 이진 특징들에 집중할 수도 있다. 마진들 및 표들과 같은 문서의 부가적인 특징들이 또한 문서 구조 분석이 일어나게 하는 동안 고려될 수도 있다. 이진 특징들은 공통선형성과 수평 및 수직 중복 정도와 같은 특수한 배열들의 분석을 포함할 수도 있다.
블록 1310에서, 문서 구조 분석으로부터의 콘텍스트가 딕셔너리를 정제하기 위해 이용된다. 딕셔너리는 도 13에서 예시 목적으로 이용되는 그래픽 오브젝트들의 그룹의 일 예이지만, 그래픽 오브젝트들의 임의의 그룹을 이용하는 다른 방법들이 활용될 수도 있다. 블록 1306에서, 이미지로부터의 그래픽 오브젝트들이 식별된다. 다른 OCR이 그래픽 오브젝트들을 식별하기 위해 수행될 수도 있다. 그래픽 오브젝트들의 식별 시, 방법은 블록 1310에서 생성된 문서 구조 분석으로부터의 정제된 딕셔너리를 이용할 수도 있다. 블록 1312에서, 콘텍스트 민감 OCR에 대한 출력 텍스트가 생성된다.
도 13에 예시된 구체적인 단계들은 본 발명의 일 실시형태에 따라 동작의 모드들 간을 스위칭하는 특정 방법을 제공한다는 것이 이해되어야 한다. 단계들의 다른 시퀀스들이 또한 그에 따라 대체 실시형태들에서 수행될 수도 있다. 예를 들어, 본 발명의 대안적 실시형태들은 위에서 약술된 단계들을 상이한 순서로 수행할 수도 있다. 예시를 위해, 사용자가 동작의 제 3 모드로부터 동작의 제 1 모드로, 제 4 모드에서 제 2 모드로, 또는 그것들 사이의 임의의 조합으로 변경할 것을 선택할 수도 있다. 더구나, 도 13에 예시된 개개의 단계들은 개개의 단계에 적절한 대로 다양한 시퀀스들에서 수행될 수도 있는 다수의 서브단계들을 포함할 수도 있다. 더욱이, 부가적인 단계들은 특정 애플리케이션들에 의존하여 추가되거나 또는 제거될 수도 있다. 당업자는 방법 (1300) 의 많은 변형예들, 수정예들, 및 대체예들을 인식하고 이해할 것이다.
도 14는 콘텐츠 분석을 이용한 콘텍스트 식별을 위한 실시형태를 설명하는 흐름도이다. 하나의 실시형태에서, 최종 OCR 결과는 OCR 결과들을 출력하기 전에 콘텐츠 시맨틱 분석 및 전통적인 OCR 결과들을 고려한다. 방법 (1400) 은 하드웨어 (회로, 전용 로직 등), 소프트웨어 (이를테면 범용 컴퓨팅 시스템 또는 전용 머신 상에서 실행됨), 펌웨어 (임베디드 소프트웨어), 또는 그것들의 임의의 조합을 포함하는 프로세싱 로직에 의해 수행된다. 하나의 실시형태에서, 방법 (1400) 은 도 1의 디바이스 (100) 에 의해 수행된다.
도 14를 참조하면, 이미지가 블록 1402에서 획득된다. 하나의 실시형태에서, 그 이미지는 모바일 디바이스에 연결된 카메라를 사용하여 획득된다. 일단 이미지가 획득되면, 블록 1404에서, 텍스트와 같은 그래픽 오브젝트를 포함하는 이미지의 일부가 식별된다. 이미지에서의 그래픽 오브젝트는 하나 이상의 심볼들, 영숫자 문자들, 단어들, 텍스트, 기호들, 또는 숫자들을 포함할 수도 있지만 그것들로 제한되지 않는다. 텍스트는 도 14를 설명하는 동안 예시 목적으로 이용되는 그래픽 오브젝트의 일 예이지만, 임의의 그래픽 오브젝트는 유사한 방법에 연계하여 이용될 수도 있다. 덧붙여, 그래픽 일러스트레이션들이 또한 블록 1404에서 식별될 수도 있다. 그래픽 일러스트레이션은 텍스트 단어, 심볼 등과 같은 오브젝트의 제스처 또는 그래픽 표현을 포함할 수도 있다. 예를 들어, 사과의 이미지는 단어 "사과"의 그래픽 일러스트레이션이다. 일반적으로, 그래픽 일러스트레이션은 그래픽 오브젝트들에 대한 OCR 결과들을 개선하도록 돕는다. 하나의 구현예에서, 사각형 텍스트 박스가 그래픽 오브젝트들 주변에 배치된다. 일단 그래픽 오브젝트 지역들이 블록 1404에서 검출되면, 텍스트 지역들의 콘텐츠 시맨틱 분석이 블록 1408에서 시작될 수도 있다.
일단 그래픽 오브젝트들을 갖는 부분들이 검출되면, 문서의 콘텐츠 시맨틱 분석은 그래픽 오브젝트들을 식별하는 것에 의해 시작할 수도 있다 (블록 1408). 블록 1410에서, 예비 OCR이 수행될 수도 있다. OCR로부터 출력되는 인식된 그래픽 오브젝트 (블록 1410) 는, 블록 1412에서 콘텐츠 시맨틱 분석을 위해 이용된다. 예를 들면, 일단 몇몇 단어들이 OCR을 이용하여 부분적으로 인식되면, 그들 단어들을 이용하여 콘텍스트를 추론하는 다양한 방식들이 구현될 수도 있다. 하나의 실시형태에서, 가장 빈번하게 검출되는 카테고리에 속한 단어들이 콘텍스트를 구축하는데 사용되는 경우에 다수결 투표 방식이 사용된다. 다른 실시형태에서, 도메인 특정 콘텍스트가 콘텍스트에 기초하여 추론될 수도 있다. 일부 실시형태들에서, 콘텐츠 시맨틱 분석은 콘텍스트를 추론하기 위해 문서 구조 분석과 연계하여 작업된다. 예를 들면, 레스토랑 메뉴에서, 음식 이름들 및 가격이 함께 보여진다.
하나의 실시형태에서는, 블록 1412에서, 콘텐츠 시맨틱을 분석하는 것은 그래픽 오브젝트들 중에서의 동시발생의 확률을 분석하는 것에 기초한다. 본 발명의 하나의 양태에서, 콘텍스트는 이미지에서 발견된 단어들과 같은 그래픽 오브젝트들의 연관에 기초하여 결정될 수도 있다. 예를 들어, 이태리 메뉴 아이템은 종종 다른 이태리 메뉴 아이템들과 함께 보여진다. 마찬가지로, 지하철 역 이름들이 함께 보여진다. 이들 그룹들에서의 단어들 사이의 상관성은 비교적 매우 높다. 높은 상관성의 단어들 및 텍스트 블록들을 갖는 동시발생 매트릭스가 사전 생성될 수도 있거나 또는 디바이스의 훈련에 의해 생성 또는 업데이트될 수도 있다.
하나의 실시형태에서, 동시발생 매트릭스에 대한 최대화된 총 동시발생 레이트는 다음의 수학식에 의해 표현될 수도 있다:
Figure 112014030293017-pct00001
, 여기서
C는 동시발생 매트릭스를 나타내며, W는 단어들을 나타내며, TB는 텍스트 블록들을 나타낸다. 보통 OCR은 각각의 텍스트 블록에 대해 N-최상 후보들을 생성한다. 일단 OCR이 텍스트 블록에 대한 N-최상 후보들을 선택하면, 동시발생 매트릭스는 총 동시발생 레이트를 최대화하는 텍스트 블록을 선택하기 위해 참고될 수도 있다.
덧붙여, 그래픽 일러스트레이션들이 또한, 블록 1412에서, 이미지에서 콘텐츠 시맨틱의 분석에 이용될 수도 있다. 그래픽 일러스트레이션은 텍스트 단어, 심볼 등과 같은 오브젝트의 제스처 또는 그래픽 표현을 포함할 수도 있다. 예를 들어, 사과의 이미지는 단어 "사과"의 그래픽 일러스트레이션이다. 예를 들어, 단어 "사과"가 "오렌지"보다는 "사과"를 나타내는 이미지와 함께 발생할 확률이 더 높다.
더욱이, 블록 1412에서, 콘텐츠 시맨틱은 다수의 언어들에 기초하여 분석된다. 다수의 언어들을 논의하는 본 발명의 실시형태들이 도 16 및 도 17에서 추가로 설명된다. 콘텐츠 시맨틱은 다수의 언어들에 기초하여 분석된다.
블록 1414에서, 콘텐츠 시맨틱 분석으로부터의 콘텍스트는 딕셔너리를 정제하기 위해 이용된다. 딕셔너리는 도 14에서 예시 목적으로 이용되는 그래픽 오브젝트들의 그룹의 일 예이지만, 그래픽 오브젝트들의 임의의 그룹을 이용하는 다른 방법들이 활용될 수도 있다. 블록 1406에서, 다른 OCR이 수행될 수도 있고 그래픽 오브젝트들이 식별된다. OCR로부터의 결과들은 블록 1414에서 생성된 콘텐츠 시맨틱 분석으로부터의 정제된 딕셔너리를 이용한다. 블록 1416에서, 콘텍스트 민감 OCR에 대한 출력 텍스트가 생성된다.
도 14에 예시된 구체적인 단계들은 본 발명의 일 실시형태에 따라 동작의 모드들 간을 스위칭하는 특정 방법을 제공한다는 것이 이해되어야 한다. 단계들의 다른 시퀀스들이 또한 그에 따라 대체 실시형태들에서 수행될 수도 있다. 예를 들어, 본 발명의 대안적 실시형태들은 위에서 약술된 단계들을 상이한 순서로 수행할 수도 있다. 예시를 위해, 사용자가 동작의 제 3 모드로부터 동작의 제 1 모드로, 제 4 모드에서 제 2 모드로, 또는 그것들 사이의 임의의 조합으로 변경할 것을 선택할 수도 있다. 더구나, 도 14에 예시된 개개의 단계들은 개개의 단계에 적절한 대로 다양한 시퀀스들에서 수행될 수도 있는 다수의 서브단계들을 포함할 수도 있다. 더욱이, 부가적인 단계들은 특정 애플리케이션들에 의존하여 추가되거나 또는 제거될 수도 있다. 당업자는 방법 (1400) 의 많은 변형예들, 수정예들, 및 대체예들을 인식하고 이해할 것이다.
도 15는 거동 엘리먼트들을 이용한 콘텍스트 민감 OCR을 위한 실시형태를 설명하는 흐름도이다. 이 실시형태는 사용자의 거동 엘리먼트들을 이용하여 딕셔너리를 정제하기 위한 사용자의 콘텍스트를 정제한다. 딕셔너리는 도 15에서 예시 목적으로 이용되는 그래픽 오브젝트들의 그룹의 일 예이지만, 그래픽 오브젝트들의 임의의 그룹을 이용하는 다른 방법들이 활용될 수도 있다. 방법 (1500) 은 하드웨어 (회로, 전용 로직 등), 소프트웨어 (이를테면 범용 컴퓨팅 시스템 또는 전용 머신 상에서 실행됨), 펌웨어 (임베디드 소프트웨어), 또는 그것들의 임의의 조합을 포함하는 프로세싱 로직에 의해 수행된다. 하나의 실시형태에서, 방법 (1500) 은 도 1의 디바이스 (100) 에 의해 수행된다.
도 15를 참조하면, 이미지가 블록 1502에서 획득된다. 하나의 실시형태에서, 그 이미지는 모바일 디바이스에 연결된 카메라를 사용하여 획득된다. 일단 이미지가 획득되면, 블록 1504에서, 그래픽 오브젝트를 포함하는 이미지의 일부가 식별된다. 이미지에서의 그래픽 오브젝트는 하나 이상의 심볼들, 영숫자 문자들, 단어들, 기호들, 또는 숫자들을 포함할 수도 있지만 그것들로 제한되지 않는다. 하나의 구현예에서, 사각형 텍스트 박스가 그래픽 오브젝트 주변에 배치된다. 블록 1506에서, 그래픽 오브젝트들이 부분적으로 또는 완전히 인식된다. 하나의 양태에서, OCR이 그래픽 오브젝트들을 인식하는데 활용된다.
블록 1510에서, 센서 입력이 다양한 입력 소스들, 이를테면 GPS, 마이크로폰, 및 카메라로부터 수신된다. 하루 중의 시간과 같은 다른 파라미터들이 또한 검색을 추가로 정제하기 위해 고려될 수도 있다. 블록 1512에서, 유사한 콘텍스트를 갖는 사용자의 이전의 액션들이 거동 데이터베이스 또는 테이블을 사용하여 검색된다 (블록 1518). 거동 데이터베이스는 사용자에 의해 가장 빈번하게 이용되는 콘텍스트 및 그 콘텍스트에 관해서 사용자에게 특정된 연관된 정보의 컬렉션이다. 블록 1514에서, 충분한 수의 액션들이 생성되거나 또는 특정 콘텍스트에 연관되는 정보가 수집되면, 콘텍스트가 선택되고 대응하는 콘텍스트를 나타내는 하나 이상의 딕셔너리들이 선택된다. 일부 실시형태들에서, 일단 OCR이 수행되고 결과들이 생성되면 (블록 1508), 사용자는 OCR 결과들에서의 임의의 실수들을 검증하고 바로잡는 능력을 가질 수도 있다 (블록 1516). 흐름도에서 도시된 바와 같이, 사용자로부터의 이 피드백은 블록 1518에서 거동 테이블을 업데이트 시에 활용될 수도 있다.
아래의 테이블 (표 1) 은 일상적으로 사람이 마주치는 거동 활동들의 예시적인 리스팅을 설명한다. 표 1은 또한 예시적인 거동 데이터베이스 또는 테이블의 부분 표현을 나타낼 수도 있다 (블록 1518).
이력
로케이션
(GPS)
로케이션
(오디오)
음성 커맨드 시간 초점 거리
(텍스트 물리
적 사이즈)
광 조건 사용자 액션
1 다운타운 A 레스토랑 시끄러움 오후 6 시 30 cm 형광등 저녁 메뉴 선택
2 환승(버스) 자동차 시끄러움 오전 8 시 30 cm (작음) 햇빛 스크린 확대 및 단어 선택
3 교외 옥외 고요 오후 10 시 Inf 어두움 HDR 기능성 활성화
표 1은 또한 본 발명의 다수의 상이한 실시형태들이 정확도를 증가시키고 선택된 딕셔너리를 추가로 정제하기 위해 어떻게 함께 사용될 수도 있는지의 일 예이다. 사용자로부터의 피드백은 딕셔너리들의 보다 우수한 선택을 할 때에 모바일 디바이스를 훈련하는 것을 돕는다.
표 1을 참조하면, 이력 1은 하루의 특정 시간에 거동 입력과 함께 센서들에 의해 감지된 조건들을 나타낸다. 제 1 테이블 엔트리에서, GPS는 모바일 디바이스의 로케이션을 결정한다. 덧붙여, 마이크로폰의 입력은 모바일 디바이스가 특정 레스토랑 내부에 있다고 결정하는데 도움이 된다. 하루 중의 시간은 모바일 디바이스의 사용자가 저녁 식사를 위해 레스토랑에 가장 있음직하다고 결정하는데 도움이 된다. 모바일 디바이스의 컴포넌트들은 환경 팩터들과 사용자에 대한 통상의 패턴들을 비교하는 것에 의해 이 선택을 추가로 정제할 수도 있다. 예를 들면, 사용자가 매일 저녁 오후 6 시에 저녁식사를 한다면, 로케이션, 광, 노이즈 레벨들과 같은 환경 팩터들이 이력 1에 대한 일상적인 환경 입력에 대해 유사한 한, 사용자가 오늘 밤도 저녁식사를 할 강한 확률이 있다. 사용자로부터 읽을 자료의 거리는 또한 텍스트를 추가로 한정하는데 도움이 된다. 이 경우, 읽을 자료는 사용자로부터 약 30 cms 떨어져 있는 저녁식사 메뉴이다.
그 테이블에서의 이력 2는 주말 아침의 오전 약 8 시에 사용자의 거동 액션의 이력이다. 사용자 로케이션은 GPS 및 마이크로폰에 의해 결정된다. 사용자는 보통 하루 중의 대략 이 시간에 버스들을 환승하고 있다. 센서 입력은 또한 햇빛이 많은 시끄러운 환경을 검출한다. 이들 조건들 하에서, 모바일 디바이스가 이미지를 획득하는 경우, 사용자는 버스들을 환승하는 프로세스에 있고 그것이 콘텍스트이다. 그 콘텍스트에 따르면, 사용자는 스크린을 확대하고 단어들을 선택하는 것을 수반하는 부가적인 기능들을 수행할 수도 있다.
그 테이블에서의 이력 3은 오후 10 시의 사용자의 이력이다. GPS 및 오디오 입력은 사용자가 도시의 외곽에 있고 매우 고요한 환경에서 옥외에 있음을 나타낸다. 광 조건들은 어둡고 뷰에서 가시적인 텍스트는 없다. 이들 조건들 하의 사용자의 일상의 액션은 그들의 모바일 디바이스 상의 HDR (high dynamic ranging) 기능을 활성화하는 것이다.
사용자 활동도의 이력은 거동 데이터베이스를 훈련시키는데 이용된다. 사용자가 특정 환경적 상황 하에서 액션들의 특정 세트를 계속 반복하면, 모바일 디바이스는 그들 환경적 조건들과 사용자 활동도를 연관시키는 것을 시작하고 획득된 정보는 장래의 유사한 환경적 자극에 반응하는데 사용될 수도 있다.
도 15에 예시된 구체적인 단계들은 본 발명의 일 실시형태에 따라 동작의 모드들 간을 스위칭하는 특정 방법을 제공한다는 것이 이해되어야 한다. 단계들의 다른 시퀀스들이 또한 그에 따라 대체 실시형태들에서 수행될 수도 있다. 예를 들어, 본 발명의 대안적 실시형태들은 위에서 약술된 단계들을 상이한 순서로 수행할 수도 있다. 예시를 위해, 사용자가 동작의 제 3 모드로부터 동작의 제 1 모드로, 제 4 모드에서 제 2 모드로, 또는 그것들 사이의 임의의 조합으로 변경할 것을 선택할 수도 있다. 더구나, 도 15에 예시된 개개의 단계들은 개개의 단계에 적절한 대로 다양한 시퀀스들에서 수행될 수도 있는 다수의 서브단계들을 포함할 수도 있다. 더욱이, 부가적인 단계들은 특정 애플리케이션들에 의존하여 추가되거나 또는 제거될 수도 있다. 당업자는 방법 (1500) 의 많은 변형예들, 수정예들, 및 대체예들을 인식하고 이해할 것이다.
도 16은 예시적인 교통 표지판의 블록도이다. 길거리들의 이름들은 서로 바로 옆에 있는 2 개 이상의 초과하는 언어표현이다. 다국어 교통 표지판들, 메뉴들 및 인기있는 관광 명소들은 다언어 국가들에서 그리고 또 외국인 관광객들의 상당한 유동이 있는 도시들에서 일반적이다. 동일한 관심사를 설명하는 유사한 의미를 갖는 2 개의 상이한 언어들로 되어 있는 2 개의 단어들의 존재는 도 17에서 추가로 설명되는 바와 같이 OCR을 수행하는 정확도 및 속력을 증가시키는데 사용될 수도 있다.
도 17은 기호들이 하나를 초과하는 언어로 되어 있는 경우에 OCR 결과들의 정확도 및 속력을 증가시키는 방법을 설명하는 흐름도이다. 방법 (1700) 은 하드웨어 (회로, 전용 로직 등), 소프트웨어 (이를테면 범용 컴퓨팅 시스템 또는 전용 머신 상에서 실행됨), 펌웨어 (임베디드 소프트웨어), 또는 그것들의 임의의 조합을 포함하는 프로세싱 로직에 의해 수행된다. 하나의 실시형태에서, 방법 (1700) 은 도 1의 디바이스 (100) 에 의해 수행된다.
도 17을 참조하면, 이미지가 블록 1702에서 획득된다. 하나의 실시형태에서, 그 이미지는 모바일 디바이스에 연결된 카메라를 사용하여 획득된다. 일단 이미지가 획득되면, 블록 1704에서, 그래픽 오브젝트를 포함하는 이미지의 일부가 식별된다. 이미지에서의 그래픽 오브젝트는 하나 이상의 심볼들, 영숫자 문자들, 단어들, 기호들, 또는 숫자들을 포함할 수도 있지만 그것들로 제한되지 않는다. 하나의 구현예에서, 사각형 텍스트 박스가 그래픽 오브젝트 주변에 배치된다. 블록 1706에서, 그래픽 오브젝트들이 부분적으로 또는 완전히 인식된다. 하나의 양태에서, OCR이 그래픽 오브젝트들을 인식하는데 활용된다. 모바일 디바이스는 이미지로부터 하나 이상의 상이한 언어들 (도 17의 A 및 B) 을 검출한다.
프레임이 2 개를 초과하는 언어들을 가지면, 더 많은 프로세스들이 각각의 언어를 위해 이용가능한 딕셔너리들에서 언어를 검출하기 위해 분기될 수도 있다. 블록 1708에서, 언어 A에서 최고 신뢰 수준으로 감지된 단어들이 검출된다. 마찬가지로, 블록 1710에서, 언어 B에서 최고 신뢰 수준으로 감지된 단어들이 검출된다. 블록 1708 및 1710에서의 단어들의 검출은 전통적인 OCR 메커니즘들을 이용하여 수행될 수도 있다. 단어는 도 17을 논의하는 동안에 예시 목적으로 이용되는 그래픽 오브젝트의 일 예이지만, 다른 그래픽 오브젝트들이 제한 없이 이용될 수도 있다. 예를 들면, 상이한 문화들에서의 심볼은 상이하게 보일 수도 있지만 동일한 대상을 말한다. 블록 1712에서, 언어 B에서 검출된 단어들이 언어 A로 번역된다. 블록 1714에서, 1708 및 1712로부터의 입력들은 상이한 언어들을 이용하여 동일한 단어들의 양쪽의 OCR 검출들로부터 최상의 결과를 선택하기 위해 조합된다. 하나의 실시형태에서, 검출된 공통 단어들은 직접 출력되고, 2 개의 OCR 결과들 간에 충돌이 있는 단어들은 추가로 프로세싱된다.
도 17에 예시된 구체적인 단계들은 본 발명의 일 실시형태에 따라 동작의 모드들 간을 스위칭하는 특정 방법을 제공한다는 것이 이해되어야 한다. 단계들의 다른 시퀀스들이 또한 그에 따라 대체 실시형태들에서 수행될 수도 있다. 예를 들어, 본 발명의 대안적 실시형태들은 위에서 약술된 단계들을 상이한 순서로 수행할 수도 있다. 예시를 위해, 사용자가 동작의 제 3 모드로부터 동작의 제 1 모드로, 제 4 모드에서 제 2 모드로, 또는 그것들 사이의 임의의 조합으로 변경할 것을 선택할 수도 있다. 더구나, 도 17에 예시된 개개의 단계들은 개개의 단계에 적절한 대로 다양한 시퀀스들에서 수행될 수도 있는 다수의 서브단계들을 포함할 수도 있다. 더욱이, 부가적인 단계들은 특정 애플리케이션들에 의존하여 추가되거나 또는 제거될 수도 있다. 당업자는 방법 (1700) 의 많은 변형예들, 수정예들, 및 대체예들을 인식하고 이해할 것이다.

Claims (80)

  1. 광학적 문자 인식 (OCR) 을 수행하는 방법으로서,
    디바이스에 연결된 카메라에 의해 생성된 이미지를 획득하는 단계;
    적어도 하나의 그래픽 오브젝트를 포함하는 상기 이미지의 일부를 식별하는 단계;
    상기 이미지와 연관된 텍스트가 아닌 (non-textual) 콘텍스트를 추론하는 단계;
    상기 이미지와 연관된 상기 텍스트가 아닌 콘텍스트에 기초하여 하나 이상의 그래픽 오브젝트들의 그룹을 선택하는 단계; 및
    그래픽 오브젝트들의 상기 그룹을 이용하여 상기 적어도 하나의 그래픽 오브젝트의 OCR 결과를 결정하는 단계를 포함하는, OCR 을 수행하는 방법.
  2. 제 1 항에 있어서,
    상기 OCR 결과를 결정하는 단계는 상기 그래픽 오브젝트들의 그룹을 이용하여 OCR 을 수행하는 단계를 포함하는, OCR 을 수행하는 방법.
  3. 제 1 항에 있어서,
    상기 OCR 결과를 결정하는 단계는 :
    상기 적어도 하나의 그래픽 오브젝트에 대해 OCR 을 수행하는 것에 의해 상기 적어도 하나의 그래픽 오브젝트에 대한 복수의 OCR 후보들을 생성하는 단계; 및
    상기 그래픽 오브젝트들의 그룹을 이용하여 상기 복수의 OCR 후보들로부터 OCR 후보를 선택하는 단계를 포함하는, OCR 을 수행하는 방법.
  4. 제 1 항에 있어서,
    상기 OCR 결과를 이용하여 추론된 상기 텍스트가 아닌 콘텍스트를 수정하는 단계를 더 포함하는, OCR 을 수행하는 방법.
  5. 제 1 항에 있어서,
    상기 적어도 하나의 그래픽 오브젝트는 심볼들, 문자들, 단어들, 기호들, 및 숫자들 중 하나 이상을 포함하는, OCR 을 수행하는 방법.
  6. 제 1 항에 있어서,
    상기 하나 이상의 그래픽 오브젝트들의 그룹은 공통 특성을 통해 서로 연관된 복수의 그래픽 오브젝트들을 포함하는, OCR 을 수행하는 방법.
  7. 제 1 항에 있어서,
    상기 하나 이상의 그래픽 오브젝트들의 그룹은 딕셔너리 (dictionary) 를 나타내는, OCR 을 수행하는 방법.
  8. 제 1 항에 있어서,
    상기 하나 이상의 그래픽 오브젝트들의 그룹은 딕셔너리의 정제물 (refinement) 을 나타내는, OCR 을 수행하는 방법.
  9. 제 1 항에 있어서,
    상기 텍스트가 아닌 콘텍스트는 그래픽 일러스트레이션을 이용하여 추론되며, 상기 그래픽 일러스트레이션은 오브젝트의 하나 이상의 그래픽 표현들, 하나 이상의 제스처들, 또는 이들의 일부 조합을 포함하는, OCR 을 수행하는 방법.
  10. 제 1 항에 있어서,
    상기 이미지의 상기 텍스트가 아닌 콘텍스트는 센서 입력을 이용하여 추론되는, OCR 을 수행하는 방법.
  11. 제 10 항에 있어서,
    상기 센서 입력은 상기 카메라, 마이크로폰, 광 센서, 시계, GPS 엘리먼트, 또는 이들의 일부 조합에 의해 제공되는, OCR 을 수행하는 방법.
  12. 제 1 항에 있어서,
    상기 텍스트가 아닌 콘텍스트를 추론하는 단계는 :
    상기 카메라와 상기 적어도 하나의 그래픽 오브젝트 사이의 거리를 추정하는 단계; 및
    상기 카메라와 상기 적어도 하나의 그래픽 오브젝트 사이의 추정된 상기 거리에 기초하여 상기 텍스트가 아닌 콘텍스트를 추론하는 단계를 포함하는, OCR 을 수행하는 방법.
  13. 제 1 항에 있어서,
    상기 텍스트가 아닌 콘텍스트를 추론하는 단계는 :
    상기 이미지가 획득되는 환경에서 복수의 광선들과 연관된 적어도 하나의 특성을 검출하는 단계; 및
    상기 복수의 광선들과 연관된 상기 적어도 하나의 특성에 기초하여 상기 텍스트가 아닌 콘텍스트를 추론하는 단계를 포함하는, OCR 을 수행하는 방법.
  14. 제 13 항에 있어서,
    상기 복수의 광선들과 연관된 상기 적어도 하나의 특성은 밝기이며, 임계값보다 낮은 밝기는 상기 이미지를 실내에서 획득하는 추론을 초래하고, 상기 임계값을 초과하는 밝기는 상기 이미지를 실외에서 획득하는 추론을 초래하는, OCR 을 수행하는 방법.
  15. 제 1 항에 있어서,
    상기 텍스트가 아닌 콘텍스트를 추론하는 단계는 :
    마이크로폰을 이용하여 오디오 입력을 수신하는 단계;
    상기 오디오 입력에 대한 패턴 인식을 수행하는 단계; 및
    상기 오디오 입력에서 인식된 패턴에 기초하여 상기 텍스트가 아닌 콘텍스트를 추론하는 단계를 포함하는, OCR 을 수행하는 방법.
  16. 제 15 항에 있어서,
    상기 인식된 패턴은 사용자로부터의 음성 커맨드를 포함하는, OCR 을 수행하는 방법.
  17. 제 15 항에 있어서,
    상기 인식된 패턴은 상기 오디오 입력을 수신하는 때의 상기 카메라의 로케이션에 대한 표시를 포함하는, OCR 을 수행하는 방법.
  18. 제 1 항에 있어서,
    상기 텍스트가 아닌 콘텍스트를 추론하는 단계는 :
    사용자로부터 콘텍스트 관련 정보를 수신하는 단계; 및
    상기 사용자로부터의 수신된 상기 콘텍스트 관련 정보에 기초하여 상기 텍스트가 아닌 콘텍스트를 추론하는 단계를 포함하는, OCR 을 수행하는 방법.
  19. 제 1 항에 있어서,
    상기 텍스트가 아닌 콘텍스트를 추론하는 단계는 :
    상기 디바이스의 로케이션을 추정하는 단계; 및
    상기 디바이스의 추정된 상기 로케이션에 기초하여 상기 텍스트가 아닌 콘텍스트를 추론하는 단계를 포함하는, OCR 을 수행하는 방법.
  20. 제 19 항에 있어서,
    상기 디바이스의 상기 로케이션은 상기 디바이스의 GPS 엘리먼트를 이용하여 추정되는, OCR 을 수행하는 방법.
  21. 제 19 항에 있어서,
    상기 디바이스의 상기 로케이션은 셀 타워에 대한 신호의 세기를 이용하여 추정되는, OCR 을 수행하는 방법.
  22. 제 19 항에 있어서,
    상기 디바이스의 상기 로케이션은 마이크로폰으로부터의 오디오 입력을 이용하여 추정되는, OCR 을 수행하는 방법.
  23. 제 1 항에 있어서,
    텍스트 (textual) 콘텍스트를 추론하는 단계를 더 포함하며,
    상기 텍스트 콘텍스트를 추론하는 단계는 상기 이미지와 연관된 복수의 콘텐츠 시맨틱들을 분석하는 단계를 포함하는, OCR 을 수행하는 방법.
  24. 제 23 항에 있어서,
    상기 복수의 콘텐츠 시맨틱들을 분석하는 단계는 복수의 그래픽 오브젝트들 간의 동시발생의 확률을 분석하는 단계에 기초하는, OCR 을 수행하는 방법.
  25. 제 23 항에 있어서,
    상기 복수의 콘텐츠 시맨틱들을 분석하는 단계는 적어도 하나의 그래픽 오브젝트 및 적어도 하나의 그래픽 일러스트레이션 간의 관계를 분석하는 단계에 기초하는, OCR 을 수행하는 방법.
  26. 제 25 항에 있어서,
    상기 적어도 하나의 그래픽 일러스트레이션은 오브젝트의 그래픽 표현, 제스처, 또는 양자를 포함하는, OCR을 수행하는 방법.
  27. 제 23 항에 있어서,
    상기 복수의 콘텐츠 시맨틱들을 분석하는 단계는 다수의 언어들에 기초하여 상기 복수의 콘텐츠 시맨틱들을 분석하는 단계에 기초하는, OCR 을 수행하는 방법.
  28. 제 27 항에 있어서,
    상기 다수의 언어들에 기초하여 상기 복수의 콘텐츠 시맨틱들을 분석하는 단계는 :
    제 1 언어의 제 1 그래픽 오브젝트 및 제 2 언어의 제 2 그래픽 오브젝트를 포함하는 상기 이미지의 하나 이상의 부분들을 식별하는 단계로서, 상기 제 1 그래픽 오브젝트 및 상기 제 2 그래픽 오브젝트는 유사한 의미를 갖는, 상기 이미지의 하나 이상의 부분들을 식별하는 단계;
    상기 제 1 그래픽 오브젝트에 대한 제 1 복수의 후보들 및 상기 제 2 그래픽 오브젝트에 대한 제 2 복수의 후보들을 식별하는 단계; 및
    상기 제 2 복수의 후보들 중 적어도 하나와 유사한 의미를 갖는 그래픽 오브젝트를 상기 제 1 복수의 후보들로부터 선택하는 단계를 포함하는, OCR 을 수행하는 방법.
  29. 제 28 항에 있어서,
    상기 그래픽 오브젝트를 상기 제 1 복수의 후보들로부터 선택하는 단계는 :
    상기 제 1 언어로 상기 제 2 그래픽 오브젝트에 대한 상기 제 2 복수의 후보들을 번역하는 단계; 및 번역된 상기 제 2 복수의 후보들과 유사한 의미를 갖는 적어도 하나의 그래픽 오브젝트를 상기 제 1 복수의 후보들로부터 찾는 단계를 포함하는, OCR 을 수행하는 방법.
  30. 제 23 항에 있어서,
    상기 텍스트 콘텍스트를 추론하는 단계는 :
    복수의 그래픽 오브젝트들로부터 적어도 하나의 그래픽 오브젝트를 식별하는 단계; 및
    상기 복수의 그래픽 오브젝트들로부터의 식별된 상기 적어도 하나의 그래픽 오브젝트에 기초하여 상기 텍스트 콘텍스트를 추론하는 단계를 포함하는, OCR 을 수행하는 방법.
  31. 제 23 항에 있어서,
    상기 텍스트 콘텍스트를 추론하는 단계는 상기 이미지의 구조적 레이아웃을 분석하는 것에 기초하여 상기 텍스트 콘텍스트를 추론하는 단계를 포함하는, OCR 을 수행하는 방법.
  32. 제 1 항에 있어서,
    상기 텍스트가 아닌 콘텍스트를 추론하는 단계는 :
    적어도 하나의 센서로부터의 입력을 이용하여 환경 팩터를 검출하는 단계;
    유사한 환경 팩터의 존재 동안에 사용자에 의한 과거 거동 응답을 취출하는 단계; 및
    상기 과거 거동 응답을 이용하여 상기 텍스트가 아닌 콘텍스트를 추론하는 단계를 포함하는, OCR 을 수행하는 방법.
  33. 제 32 항에 있어서,
    상기 환경 팩터는 시간, 로케이션, 사운드, 상기 사용자로부터 상기 이미지의 피사체의 거리, 또는 이들의 일부 조합에 대응하는, OCR 을 수행하는 방법.
  34. 메모리; 및
    상기 메모리에 연결된 프로세서를 포함하며,
    상기 프로세서는 :
    상기 메모리로부터 이미지를 획득하고;
    적어도 하나의 그래픽 오브젝트를 포함하는 상기 이미지의 일부를 식별하고;
    상기 이미지와 연관된 텍스트가 아닌 (non-textual) 콘텍스트를 추론하고;
    상기 이미지와 연관된 상기 텍스트가 아닌 콘텍스트에 기초하여 그래픽 오브젝트들의 그룹을 선택하며;
    상기 그래픽 오브젝트들의 그룹을 이용하여 상기 적어도 하나의 그래픽 오브젝트의 광학적 문자 인식 (OCR) 결과를 결정하도록 구성되는, 디바이스.
  35. 제 34 항에 있어서,
    상기 OCR 결과를 결정하는 것은 하나 이상의 그래픽 오브젝트들의 상기 그룹을 이용하여 OCR 을 수행하는 것을 포함하는, 디바이스.
  36. 제 34 항에 있어서,
    상기 OCR 결과를 결정하는 것은 :
    상기 적어도 하나의 그래픽 오브젝트에 대해 OCR 을 수행하는 것에 의해 상기 적어도 하나의 그래픽 오브젝트에 대한 복수의 OCR 후보들을 생성하고;
    하나 이상의 그래픽 오브젝트들의 상기 그룹을 이용하여 상기 복수의 OCR 후보들로부터 OCR 후보를 선택하도록
    추가 구성된 상기 프로세서를 포함하는, 디바이스.
  37. 제 34 항에 있어서,
    상기 OCR 결과를 이용하여 추론된 상기 텍스트가 아닌 콘텍스트를 수정하는 것을 더 포함하는, 디바이스.
  38. 제 34 항에 있어서,
    상기 적어도 하나의 그래픽 오브젝트는 심볼들, 문자들, 단어들, 기호들, 및 숫자들 중 하나 이상을 포함하는, 디바이스.
  39. 제 34 항에 있어서,
    하나 이상의 그래픽 오브젝트들의 상기 그룹은 공통 특성을 통해 서로 연관된 복수의 그래픽 오브젝트들을 포함하는, 디바이스.
  40. 제 34 항에 있어서,
    하나 이상의 그래픽 오브젝트들의 상기 그룹은 딕셔너리 (dictionary) 를 나타내는, 디바이스.
  41. 제 34 항에 있어서,
    하나 이상의 그래픽 오브젝트들의 상기 그룹은 딕셔너리의 정제물 (refinement) 을 나타내는, 디바이스.
  42. 제 34 항에 있어서,
    상기 텍스트가 아닌 콘텍스트는 그래픽 일러스트레이션을 이용하여 추론되며, 상기 그래픽 일러스트레이션은 오브젝트의 하나 이상의 그래픽 표현들, 하나 이상의 제스처들, 또는 이들의 일부 조합을 포함하는, 디바이스.
  43. 제 34 항에 있어서,
    상기 이미지의 상기 텍스트가 아닌 콘텍스트는 센서 입력을 이용하여 추론되는, 디바이스.
  44. 제 43 항에 있어서,
    상기 센서 입력은 카메라, 마이크로폰, 광 센서, 시계, GPS 엘리먼트, 또는 이들의 일부 조합에 의해 제공되는, 디바이스.
  45. 제 34 항에 있어서,
    상기 텍스트가 아닌 콘텍스트를 추론하는 것은 :
    카메라와 상기 적어도 하나의 그래픽 오브젝트 사이의 거리를 추정하고;
    상기 카메라와 상기 적어도 하나의 그래픽 오브젝트 사이의 추정된 상기 거리에 기초하여 상기 텍스트가 아닌 콘텍스트를 추론하도록
    추가 구성된 상기 프로세서를 포함하는, 디바이스.
  46. 제 34 항에 있어서,
    상기 텍스트가 아닌 콘텍스트를 추론하는 것은 :
    상기 이미지가 획득되는 환경에서 복수의 광선들과 연관된 적어도 하나의 특성을 검출하고;
    상기 복수의 광선들과 연관된 상기 적어도 하나의 특성에 기초하여 상기 텍스트가 아닌 콘텍스트를 추론하도록
    추가 구성된 상기 프로세서를 포함하는, 디바이스.
  47. 제 46 항에 있어서,
    상기 복수의 광선들과 연관된 상기 적어도 하나의 특성은 밝기이며, 임계값보다 낮은 밝기는 상기 이미지를 실내에서 획득하는 추론을 초래하고, 상기 임계값을 초과하는 밝기는 상기 이미지를 실외에서 획득하는 추론을 초래하는, 디바이스.
  48. 제 34 항에 있어서,
    상기 텍스트가 아닌 콘텍스트를 추론하는 것은 :
    마이크로폰을 이용하여 오디오 입력을 수신하고;
    상기 오디오 입력에 대한 패턴 인식을 수행하며;
    상기 오디오 입력에서 인식된 패턴에 기초하여 상기 텍스트가 아닌 콘텍스트를 추론하도록
    추가 구성된 상기 프로세서를 포함하는, 디바이스.
  49. 제 48 항에 있어서,
    상기 인식된 패턴은 사용자로부터의 음성 커맨드를 포함하는, 디바이스.
  50. 제 48 항에 있어서,
    상기 인식된 패턴은 상기 오디오 입력을 수신하는 때의 카메라의 로케이션에 대한 표시를 포함하는, 디바이스.
  51. 제 50 항에 있어서,
    상기 텍스트가 아닌 콘텍스트를 추론하는 것은 :
    사용자로부터 콘텍스트 관련 정보를 수신하고;
    상기 사용자로부터의 수신된 상기 콘텍스트 관련 정보에 기초하여 상기 텍스트가 아닌 콘텍스트를 추론하도록
    추가 구성된 상기 프로세서를 포함하는, 디바이스.
  52. 제 51 항에 있어서,
    상기 디바이스의 상기 로케이션은 셀 타워에 대한 신호의 세기를 이용하여 추정되는, 디바이스.
  53. 제 34 항에 있어서,
    상기 텍스트가 아닌 콘텍스트를 추론하는 것은 :
    상기 디바이스의 로케이션을 추정하고;
    상기 디바이스의 추정된 상기 로케이션에 기초하여 상기 텍스트가 아닌 콘텍스트를 추론하도록
    추가 구성된 상기 프로세서를 포함하는, 디바이스.
  54. 제 53 항에 있어서,
    상기 디바이스의 상기 로케이션은 상기 디바이스의 GPS 엘리먼트를 이용하여 추정되는, 디바이스.
  55. 제 53 항에 있어서,
    상기 디바이스의 상기 로케이션은 마이크로폰으로부터의 오디오 입력을 이용하여 추정되는, 디바이스.
  56. 제 34 항에 있어서,
    텍스트 (textual) 콘텍스트를 추론하는 것을 더 포함하며,
    상기 텍스트 콘텍스트를 추론하는 것은 상기 이미지와 연관된 복수의 콘텐츠 시맨틱들을 분석하는 것을 포함하는, 디바이스.
  57. 제 56 항에 있어서,
    상기 복수의 콘텐츠 시맨틱들을 분석하는 것은 복수의 그래픽 오브젝트들 간의 동시발생의 확률을 분석하는 것에 기초하는, 디바이스.
  58. 제 56 항에 있어서,
    상기 복수의 콘텐츠 시맨틱들을 분석하는 것은 적어도 하나의 그래픽 오브젝트 및 적어도 하나의 그래픽 일러스트레이션 간의 관계를 분석하는 것에 기초하는, 디바이스.
  59. 제 58 항에 있어서,
    상기 적어도 하나의 그래픽 일러스트레이션은 오브젝트의 그래픽 표현, 제스처, 또는 양자를 포함하는, 디바이스.
  60. 제 58 항에 있어서,
    다수의 언어들에 기초하여 상기 복수의 콘텐츠 시맨틱들을 분석하는 것은 :
    제 1 언어의 제 1 그래픽 오브젝트 및 제 2 언어의 제 2 그래픽 오브젝트를 포함하는 상기 이미지의 하나 이상의 부분들을 식별하는 것으로서, 상기 제 1 그래픽 오브젝트 및 상기 제 2 그래픽 오브젝트는 유사한 의미를 갖는, 상기 이미지의 하나 이상의 부분들을 식별하는 것;
    상기 제 1 그래픽 오브젝트에 대한 제 1 복수의 후보들 및 상기 제 2 그래픽 오브젝트에 대한 제 2 복수의 후보들을 식별하는 것; 및
    상기 제 2 복수의 후보들 중 적어도 하나와 유사한 의미를 갖는 그래픽 오브젝트를 상기 제 1 복수의 후보들로부터 선택하는 것을 포함하는, 디바이스.
  61. 제 60 항에 있어서,
    상기 그래픽 오브젝트를 상기 제 1 복수의 후보들로부터 선택하는 것은 :
    상기 제 1 언어로 상기 제 2 그래픽 오브젝트에 대한 상기 제 2 복수의 후보들을 번역하는 것; 및
    번역된 상기 제 2 복수의 후보들과 유사한 의미를 갖는 적어도 하나의 그래픽 오브젝트를 상기 제 1 복수의 후보들로부터 찾는 것을 포함하는, 디바이스.
  62. 제 56 항에 있어서,
    상기 복수의 콘텐츠 시맨틱들을 분석하는 것은 다수의 언어들에 기초하여 상기 복수의 콘텐츠 시맨틱들을 분석하는 것에 기초하는, 디바이스.
  63. 제 56 항에 있어서,
    상기 텍스트 콘텍스트를 추론하는 것은 :
    복수의 그래픽 오브젝트들로부터 적어도 하나의 그래픽 오브젝트를 식별하고;
    상기 복수의 그래픽 오브젝트들로부터의 식별된 상기 적어도 하나의 그래픽 오브젝트에 기초하여 상기 텍스트 콘텍스트를 추론하도록
    추가 구성된 상기 프로세서를 포함하는, 디바이스.
  64. 제 56 항에 있어서,
    상기 텍스트 콘텍스트를 추론하는 것은 : 상기 이미지의 구조적 레이아웃을 분석하는 것에 기초하여 상기 텍스트 콘텍스트를 추론하는 것을 포함하는, 디바이스.
  65. 제 34 항에 있어서,
    상기 텍스트가 아닌 콘텍스트를 추론하는 것은 :
    적어도 하나의 센서로부터의 입력을 이용하여 환경 팩터를 검출하고;
    유사한 환경 팩터의 존재 동안에 사용자에 의한 과거 거동 응답을 취출하며;
    상기 사용자에 의한 상기 과거 거동 응답을 이용하여 상기 텍스트가 아닌 콘텍스트를 추론하도록
    추가 구성된 상기 프로세서를 포함하는, 디바이스.
  66. 제 65 항에 있어서,
    상기 환경 팩터는 시간, 로케이션, 사운드, 사용자로부터 상기 이미지의 피사체의 거리, 또는 이들의 일부 조합에 대응하는, 디바이스.
  67. 저장된 코드를 포함하는 비 일시적 컴퓨터 판독가능 저장 매체로서,
    상기 코드는, 디바이스의 프로세서에 의해, 상기 프로세서로 하여금,
    카메라에 의해 생성된 이미지를 획득하게 하고;
    적어도 하나의 그래픽 오브젝트를 포함하는 상기 이미지의 일부를 식별하게 하고;
    상기 이미지와 연관된 텍스트가 아닌 (non-textual) 콘텍스트를 추론하게 하고;
    상기 이미지와 연관된 상기 텍스트가 아닌 콘텍스트에 기초하여 그래픽 오브젝트들의 그룹을 선택하게 하며;
    상기 그래픽 오브젝트들의 그룹을 이용하여 상기 적어도 하나의 그래픽 오브젝트의 광학적 문자 인식 (OCR) 결과를 결정하게 하도록
    실행가능한, 비 일시적 컴퓨터 판독가능 저장 매체.
  68. 제 67 항에 있어서,
    상기 OCR 결과를 개선하는 것은 상기 그래픽 오브젝트들의 그룹을 이용하여 OCR 을 수행하도록 추가 실행가능한 상기 코드를 포함하는, 비 일시적 컴퓨터 판독가능 저장 매체.
  69. 제 67 항에 있어서,
    상기 OCR 결과를 개선하는 것은 :
    상기 적어도 하나의 그래픽 오브젝트에 대해 OCR 을 수행하는 것에 의해 상기 적어도 하나의 그래픽 오브젝트에 대한 복수의 OCR 후보들을 생성하고;
    상기 그래픽 오브젝트들의 그룹을 이용하여 상기 복수의 OCR 후보들로부터 OCR 후보를 선택하도록
    추가 실행가능한 상기 코드를 포함하는, 비 일시적 컴퓨터 판독가능 저장 매체.
  70. 광학적 문자 인식 (OCR) 을 수행하는 장치로서,
    디바이스에 연결된 카메라에 의해 생성된 이미지를 획득하는 수단;
    적어도 하나의 그래픽 오브젝트를 포함하는 상기 이미지의 일부를 식별하는 수단;
    상기 이미지와 연관된 텍스트가 아닌 (non-textual) 콘텍스트를 추론하는 수단;
    상기 이미지와 연관된 상기 텍스트가 아닌 콘텍스트에 기초하여 그래픽 오브젝트들의 그룹을 선택하는 수단; 및
    상기 그래픽 오브젝트들의 그룹을 이용하여 상기 적어도 하나의 그래픽 오브젝트의 OCR 결과를 결정하는 수단을 포함하는, OCR 을 수행하는 장치.
  71. 제 70 항에 있어서,
    상기 OCR 결과를 결정하는 것은 하나 이상의 그래픽 오브젝트들의 상기 그룹을 이용하여 OCR 을 수행하는 수단을 포함하는, OCR 을 수행하는 장치.
  72. 제 70 항에 있어서,
    상기 OCR 결과를 결정하는 것은 :
    상기 적어도 하나의 그래픽 오브젝트에 대해 OCR 을 수행하는 것에 의해 상기 적어도 하나의 그래픽 오브젝트에 대한 복수의 OCR 후보들을 생성하는 수단;
    하나 이상의 그래픽 오브젝트들의 상기 그룹을 이용하여 상기 복수의 OCR 후보들로부터 OCR 후보를 선택하는 수단; 및
    상기 OCR 결과의 개선 시, 선택된 상기 OCR 후보를 이용하는 수단을 포함하는, OCR 을 수행하는 장치.
  73. 삭제
  74. 삭제
  75. 삭제
  76. 삭제
  77. 삭제
  78. 삭제
  79. 삭제
  80. 삭제
KR1020147008404A 2011-08-29 2012-08-06 콘텍스트 정보를 이용한 모바일 디바이스 상에서의 광학적 문자 인식 KR101667463B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161528741P 2011-08-29 2011-08-29
US61/528,741 2011-08-29
US13/450,016 2012-04-18
US13/450,016 US9082035B2 (en) 2011-08-29 2012-04-18 Camera OCR with context information
PCT/US2012/049786 WO2013032639A2 (en) 2011-08-29 2012-08-06 Camera ocr with context information

Publications (2)

Publication Number Publication Date
KR20140059834A KR20140059834A (ko) 2014-05-16
KR101667463B1 true KR101667463B1 (ko) 2016-10-18

Family

ID=46642660

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147008404A KR101667463B1 (ko) 2011-08-29 2012-08-06 콘텍스트 정보를 이용한 모바일 디바이스 상에서의 광학적 문자 인식

Country Status (6)

Country Link
US (1) US9082035B2 (ko)
EP (1) EP2751741A2 (ko)
JP (2) JP6148235B2 (ko)
KR (1) KR101667463B1 (ko)
CN (1) CN103765440B (ko)
WO (1) WO2013032639A2 (ko)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9292498B2 (en) * 2012-03-21 2016-03-22 Paypal, Inc. Device orientation based translation system
US9519641B2 (en) * 2012-09-18 2016-12-13 Abbyy Development Llc Photography recognition translation
JP5708689B2 (ja) * 2013-03-13 2015-04-30 株式会社デンソー 物体検出装置
US9367811B2 (en) * 2013-03-15 2016-06-14 Qualcomm Incorporated Context aware localization, mapping, and tracking
US9727535B2 (en) 2013-06-11 2017-08-08 Microsoft Technology Licensing, Llc Authoring presentations with ink
US10769362B2 (en) 2013-08-02 2020-09-08 Symbol Technologies, Llc Method and apparatus for capturing and extracting content from documents on a mobile device
US10140257B2 (en) 2013-08-02 2018-11-27 Symbol Technologies, Llc Method and apparatus for capturing and processing content from context sensitive documents on a mobile device
KR101520389B1 (ko) * 2014-01-10 2015-05-14 윤창수 검색정보 획득방법, 이를 실행하기 위한 프로그램을 저장한 기록매체 및 휴대용 단말기
JP2015153342A (ja) * 2014-02-19 2015-08-24 三菱電機株式会社 設備点検装置および設備点検管理システム
US9355336B1 (en) * 2014-04-23 2016-05-31 Amazon Technologies, Inc. Recognizing text from frames of image data using contextual information
US9436682B2 (en) * 2014-06-24 2016-09-06 Google Inc. Techniques for machine language translation of text from an image based on non-textual context information from the image
JP6027580B2 (ja) * 2014-08-27 2016-11-16 京セラドキュメントソリューションズ株式会社 情報表示システムおよび情報表示プログラム
JP2016076167A (ja) * 2014-10-08 2016-05-12 ソニー株式会社 情報処理装置および情報処理方法
IL235565B (en) * 2014-11-06 2019-06-30 Kolton Achiav Position-based optical character recognition
US10530720B2 (en) * 2015-08-27 2020-01-07 Mcafee, Llc Contextual privacy engine for notifications
US10943398B2 (en) * 2016-07-15 2021-03-09 Samsung Electronics Co., Ltd. Augmented reality device and operation thereof
US10579741B2 (en) 2016-08-17 2020-03-03 International Business Machines Corporation Proactive input selection for improved machine translation
US10311330B2 (en) 2016-08-17 2019-06-04 International Business Machines Corporation Proactive input selection for improved image analysis and/or processing workflows
US20200026766A1 (en) * 2016-09-28 2020-01-23 Systran International Co., Ltd. Method for translating characters and apparatus therefor
KR20180079759A (ko) * 2017-01-02 2018-07-11 삼성전자주식회사 텍스트를 인식하는 방법 및 단말기
US11263399B2 (en) * 2017-07-31 2022-03-01 Apple Inc. Correcting input based on user context
CN110532571B (zh) * 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
KR102478396B1 (ko) * 2017-11-29 2022-12-19 삼성전자주식회사 이미지에서 텍스트를 인식할 수 있는 전자 장치
EP4172805A1 (en) * 2020-06-25 2023-05-03 Pryon Incorporated Document processing and response generation system
CN115809672A (zh) * 2021-09-14 2023-03-17 北京小米移动软件有限公司 翻译方法、装置、ar眼镜、存储介质及计算机程序产品

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0520300A (ja) * 1991-07-15 1993-01-29 Sharp Corp 文書処理装置
CA2155891A1 (en) * 1994-10-18 1996-04-19 Raymond Amand Lorie Optical character recognition system having context analyzer
JP2000348142A (ja) 1999-06-08 2000-12-15 Nippon Telegr & Teleph Corp <Ntt> 文字認識装置,文字認識方法,および文字認識方法を実行するプログラムを記録した記録媒体
JP2002209262A (ja) 2001-01-09 2002-07-26 Casio Comput Co Ltd 携帯通信装置
JP2003108551A (ja) 2001-09-28 2003-04-11 Toshiba Corp 携帯型機械翻訳装置、翻訳方法及び翻訳プログラム
JP2003178067A (ja) 2001-12-10 2003-06-27 Mitsubishi Electric Corp 携帯端末型画像処理システム、携帯端末およびサーバ
JP4269811B2 (ja) * 2003-07-09 2009-05-27 株式会社日立製作所 携帯電話
JP4591353B2 (ja) 2004-01-08 2010-12-01 日本電気株式会社 文字認識装置、移動通信システム、移動端末装置、固定局装置、文字認識方法および文字認識プログラム
US7565139B2 (en) 2004-02-20 2009-07-21 Google Inc. Image-based search engine for mobile phones with camera
US7840033B2 (en) * 2004-04-02 2010-11-23 K-Nfb Reading Technology, Inc. Text stitching from multiple images
US8036895B2 (en) 2004-04-02 2011-10-11 K-Nfb Reading Technology, Inc. Cooperative processing for portable reading machine
US7499588B2 (en) * 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents
JP2006065477A (ja) 2004-08-25 2006-03-09 Fuji Xerox Co Ltd 文字認識装置
WO2006105108A2 (en) * 2005-03-28 2006-10-05 United States Postal Service Multigraph optical character reader enhancement systems and methods
US7826665B2 (en) * 2005-12-12 2010-11-02 Xerox Corporation Personal information retrieval using knowledge bases for optical character recognition correction
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
US20070257934A1 (en) 2006-05-08 2007-11-08 David Doermann System and method for efficient enhancement to enable computer vision on mobile devices
US8041555B2 (en) 2007-08-15 2011-10-18 International Business Machines Corporation Language translation based on a location of a wireless device
JP2009086349A (ja) 2007-09-28 2009-04-23 Fujifilm Corp 撮影装置及び撮影制御方法
US8000956B2 (en) 2008-02-08 2011-08-16 Xerox Corporation Semantic compatibility checking for automatic correction and discovery of named entities
JP2009199102A (ja) * 2008-02-19 2009-09-03 Fujitsu Ltd 文字認識プログラム、文字認識装置及び文字認識方法
JP2009258871A (ja) 2008-04-15 2009-11-05 Casio Comput Co Ltd 翻訳装置及びプログラム
US8406531B2 (en) 2008-05-15 2013-03-26 Yahoo! Inc. Data access based on content of image recorded by a mobile device
JP4759638B2 (ja) 2009-12-25 2011-08-31 株式会社スクウェア・エニックス リアルタイムなカメラ辞書
US8803908B2 (en) * 2010-01-15 2014-08-12 Apple Inc. Digital image transitions

Also Published As

Publication number Publication date
US20130108115A1 (en) 2013-05-02
WO2013032639A3 (en) 2013-07-18
JP2014529822A (ja) 2014-11-13
WO2013032639A2 (en) 2013-03-07
JP2016146187A (ja) 2016-08-12
EP2751741A2 (en) 2014-07-09
KR20140059834A (ko) 2014-05-16
JP6138305B2 (ja) 2017-05-31
JP6148235B2 (ja) 2017-06-14
CN103765440B (zh) 2018-04-03
CN103765440A (zh) 2014-04-30
US9082035B2 (en) 2015-07-14

Similar Documents

Publication Publication Date Title
KR101667463B1 (ko) 콘텍스트 정보를 이용한 모바일 디바이스 상에서의 광학적 문자 인식
US20170109615A1 (en) Systems and Methods for Automatically Classifying Businesses from Images
WO2020232861A1 (zh) 命名实体识别方法、电子装置及存储介质
US9092674B2 (en) Method for enhanced location based and context sensitive augmented reality translation
CN107656922A (zh) 一种翻译方法、装置、终端及存储介质
US20150286629A1 (en) Named entity recognition
US20120083294A1 (en) Integrated image detection and contextual commands
CN109189879B (zh) 电子书籍显示方法及装置
TW201712600A (zh) 用於自影像偵測與辨認文字之方法與系統
JP2014102669A (ja) 情報処理装置、情報処理方法およびプログラム
CN103914539A (zh) 信息查询方法和装置
CN102779140A (zh) 一种关键词获取方法及装置
US20220100789A1 (en) Method and apparatus for retrieving intelligent information from electronic device
CN111465918A (zh) 在预览界面中显示业务信息的方法及电子设备
CN107608618B (zh) 一种用于可穿戴设备的交互方法、装置和可穿戴设备
CN110659346B (zh) 表格提取方法、装置、终端及计算机可读存储介质
US20160103915A1 (en) Linking thumbnail of image to web page
CN110032734B (zh) 近义词扩展及生成对抗网络模型训练方法和装置
EP2806336A1 (en) Text prediction in a text input associated with an image
US11550754B2 (en) Electronic apparatus and control method thereof
JP5484113B2 (ja) 文書画像関連情報提供装置、及び文書画像関連情報取得システム
CN111382744A (zh) 商铺信息获取方法、装置、终端设备及存储介质
JP2017182646A (ja) 情報処理装置、プログラム及び情報処理方法
US20110294522A1 (en) Character recognizing system and method for the same
CN110543238A (zh) 基于人工智能的桌面交互方法

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant