KR20150020065A

KR20150020065A - 최적 문자 인식을 위한 모바일 문서 획득 지원

Info

Publication number: KR20150020065A
Application number: KR20140099844A
Authority: KR
Inventors: 바라 라자
Original assignee: 제록스 코포레이션
Priority date: 2013-08-16
Filing date: 2014-08-04
Publication date: 2015-02-25
Also published as: US9697431B2; KR101808015B1; DE102014216235B4; DE102014216235A1; US20150049948A1

Abstract

모바일 기기에 문자 영상을 개선하기 위한 시각적 정보를 제공하는 기기 및 방법. 본 방법은 모바일 기기로 획득되는 영상의 정확한 광학 문자 인식 (OCR)을 위하여 최소 문자 크기를 결정하는 단계, 인쇄체의 영상 스트림을 수신하는 단계, 영상 스트림과 영상 스트림에 중첩되는 시각적 정보를 표시하는 단계로 구성되고, 상기 시각적 정보는 최소 문자 크기의 표시자 이다. 상기 방법은 영상 스트림의 디지털 영상을 획득하는 단계를 더욱 포함하고, 상기 디지털 영상은 시각적 정보를 포함하지 않는다. 또한, 상기 방법은 영상 스트림에 표시되는 문자가 적어도 최소 문자 크기일 때 모바일 기기 사용자에게 통지하는 단계를 더욱 포함한다.

Description

최적 문자 인식을 위한 모바일 문서 획득 지원{MOBILE DOCUMENT CAPTURE ASSIST FOR OPTIMIZED TEXT RECOGNITION}

본 발명은 최적 문자 인식을 위한 모바일 문서 획득 지원에 관한 것이다.

모바일 기기들, 예컨대 스마트 폰, 태블릿 컴퓨터들, 및 기타 유사한 컴퓨팅 디바이스들이 데이터 예컨대 영상들 및 문자 획득 및 처리에 점차 사용되고 있다. 전형적으로, 모바일 기기는 인쇄물 영상 획득에 사용될 수 있는 고품질 카메라를 포함한다. 예를들면, 고객이 서식을 인쇄하여 채운 후, 완성된 서식의 디지털 복제물을 더욱 처리하기 위하여 특정 벤더로 전송하기를 요청 받을 수 있다. 사용자는 서식 영상을 모바일 기기로 획득할 수 있다. 기기에 설치된 소프트웨어는 이후 획득된 영상을 더욱 처리한다. 예를들면, 소프트웨어는 인쇄물 영상을 향상, 인식, 저장 및 공유할 수 있다. 상기 예를 계속하자면, 사용자는 획득 서식 영상을 저장하고 영상을 벤더로 전송한다.

인쇄물 영상 획득에 사용되는 모바일 기기는 기기 내의 소프트웨어 및 하드웨어 요소들에 의해 제한된다. 예를들면, 모바일 기기의 카메라는 단거리에서 렌즈가 정확하게 사물에 초점에 맞추어질 수 없는 초점거리를 가지는 카메라 렌즈를 가진다. 이러한 제한으로 인하여 인쇄물에 너무 가까이에서 기기 소유자는 인쇄물에 적절하게 초점을 맞출 수 없다.

반대로, 문자 품질 목적상, 사용자가 인쇄물로부터 너무 멀리 있으면, 문자는 왜곡되고 해상도가 충분하지 않고, 또는 달리 독해할 수 없어, 획득 문자의 전체 품질이 저하된다. 이러한 저급 품질은 광학적 문자 인식 (OCR) 및 기타 인식 알고리즘에 악영향을 미친다. 획득 후 품질 교정이 이루어질 수 있지만; 불량 영상 품질 결과로 인하여 본질적으로 상실된 해상도는 영상이 획득된 후 디지털 처리를 통해 완전히 회복될 수 없다.

하나의 포괄적 양태에서, 실시태양들은 모바일 기기에서 문자 영상화 개선을 위한 시각 정보 (visual cue) 제공 방법을 개시한다. 상기 방법은 모바일 기기로 획득된 영상의 정확한 광학적 문자 인식 (OCR)을 위한 최소 문자 크기를 결정하는 단계, 피인쇄체의 영상 스트림을 수신하는 단계, 및 영상 스트림 및 영상 스트림 상에 겹쳐지는 시각적 정보를 표시하는 단계로 구성되고, 상기 시각적 정보는 최소 문자 크기의 표시자 이다.

다른 포괄적 양태에서, 실시태양들은 모바일 기기를 개시한다. 모바일 기기는 처리장치, 처리장치와 작동적으로 연결되고 관련 표시 해상도를 가지는 표시장치, 처리장치와 작동적으로 연결되고 관련된 영상 획득 해상도를 가지는 촬상장치, 및 처리장치와 통신할 수 있는 컴퓨터 판독 가능한 매체를 포함한다. 컴퓨터 판독 가능한 매체는 처리장치로 하여금 모바일 기기에 의해 획득될 영상의 정확한 광학적 문자 인식 (OCR)을 위한 최소 문자 크기를 결정하고, 촬상장치에 의해 획득되는 피인쇄체의 영상 스트림을 수신하고, 영상 스트림 및 영상 스트림에 겹쳐지는 시각적 정보를 표시장치에 표시하도록 하는 하나 이상의 프로그램 명령들로 구성되고, 상기 시각적 정보는 최소 문자 크기의 표시자이다.

도 1은 실시태양에 따라 영상을 획득하도록 구성되는 카메라를 포함하는 모바일 기기의 제1 또는 정면을 도시한다.
도 2는 실시태양에 따라 영상을 획득하도록 구성되는 카메라를 포함하는 모바일 기기의 제2 또는 배면을 도시한다.
도 3은 실시태양에 따라 획득되는 인쇄물의 예를 도시한 것이다.
도 4A는 실시태양에 따라 예시적인 시각적 마커 (visual marker)를 포함한 표시 문서의 스크린숏 (스크린shot)의 예를 도시한 것이다.
도 4B는 실시태양에 따라 시각적 마커를 포함한 표시 문서의 스크린숏의 제2 예시이다.
도 5는 실시태양에 따라 문자 인식을 최적화하기 위하여 시각적 마커들을 이용하여 인쇄물 영상을 보고 획득하는 예시적 과정의 흐름도를 도시한 것이다.
도 6은 본원에 기재된 다양한 방법 및 프로세스를 구현하기 위한 컴퓨팅 디바이스의 다양한 실시태양들을 도시한 것이다.

본 발명은 특정 시스템, 기기 및 방법이 다양하게 구현될 수 있으므로 특정하게 제한되지 않는다. 본원에 기재된 용어들은 특정 형태들 또는 실시태양들만을 기술할 목적이고 범위를 한정할 의도는 아니다.

본원에 사용되는, 단수 형태 “a”, “an” 및 “the”는 문맥에서 달리 명기하지 않는 한 복수의 피지시어를 포함한다. 달리 정의되지 않는 한, 모든 기술적 및 과학적 용어는 본 분야의 기술자에 의해 통상 이해되는 것과 같은 의미로 사용된다. 본원에 사용되는, "구성하는"이라는 용어는 "포함하지만 이에 국한되지 않는다"라는 의미이다.

본원의 목적상, “인쇄물” 또는 “문서”란 문자 및/또는 그림들의 조합을 포함하는 피인쇄체들의 하나 이상의 부분들의 하드카피를 의미한다. 예를들면, 문서는 서식, 책의 페이지 또는 기타 공개문서, 포스트, 광고판 또는 기타 유사한 광고 서식, 및 임의의 기타 인쇄표면일 수 있다.

“모바일 기기”란 촬상장치, 처리기 및 유형의, 컴퓨터-판독 가능한 메모리를 포함하는 휴대용 컴퓨팅 디바이스를 의미한다. 메모리는 소프트웨어 어플리케이션 형태의 프로그램 명령들을 포함하고 처리기에 의해 실행되면, 프로그램 명령들에 따라 기기는 하나 이상의 영상 획득 및 처리 조작들을 수행한다. 예시적으로 적합한 디바이스로는 휴대용 전자기기들 예컨대 스마트 폰, 개인 휴대 정보단말기, 카메라, 태블릿 장치, 전자판독기, 개인용 컴퓨터들, 미디어 플레이어, 위성항법장치 및 기타 등을 포함한다.

“촬상장치”란 사물을 광학적으로 보고 그 사물의 형상을 전자신호로 전환할 수 있는 임의의 장치를 의미한다. 이러한 촬상장치의 예시는 카메라이다. “영상 획득 모듈”이란 영상들 획득에 사용되는 소프트웨어 어플리케이션 및/또는 전자 장치의 영상 감지 하드웨어를 의미한다.

“광학적 문자 인식 (OCR) 엔진”이란 획득된 문자 영상들을 기계-부호화 문자로 디지털적으로 전환하도록 구성되는 하나 이상의 소프트웨어 어플리케이션들을 의미한다.

“증강현실” (AR)이란 현실 화면에 추가적인 유용 정보를 증강시키기 위하여 사용자에 의해 관찰되는 현실 화면과 가상 화면을 컴퓨팅 디바이스에 의해 겹치도록 조합하는 개념을 의미한다.

인쇄물들을 스캐닝 하기 위하여 모바일 기기들을 사용하는 것은 특유한 도전일 뿐 아니라 특유한 기회를 제공한다. 이점들로는 저렴한 것, 휴대성, 보편성, 계산력 증가, 및 다중 촬상장치들 및 영상 획득 모듈들을 단일 모바일 기기로 통합하는 것이다. 문제점으로는 획득 조건들의 다양성, 예컨대 획득되는 사물에 대한 조명 편차, 기하 구조 및 공간성, 흔들림 유발 움직임, 및 영상 품질에 영향을 미치는 기타 인자들을 포함한다. 본원에 기재된 바와 같이, AR와 관련된 다양한 개념들은 모바일 기기에 의한 영상 획득 프로세스에 통합되어 모바일 기기에 의해 획득되는 인쇄물 영상들의 품질을 개선하여 획득 영상으로부터의 문자 인식을 개선시킨다.

다양한 AR 양태들이 영상 획득 프로세스에 통합되어 OCR 및 기타 인식 어플리케이션들에서 사용되는 인쇄물 영상 품질에 크게 영향을 미칠 수 있는 낮은 품질 문자 획득과 관련된 문제점들을 감소시킨다. AR 기술을 사용함으로써, 문자 또는 기타 유사한 시각적 정보는 모바일 기기 사용자에게 표시되고, 시각적 정보는 정확한 OCR 처리를 위한 적합한 문자 크기에 대한 시각적 기준을 제공한다.

영상 획득에서, 촬상장치에 통합되어 있는 소정의 센서/광학 구성에 대하여, 획득 거리 (또는 광학 줌) 및 영상 해상도 (예를들면, 평균 문자 폭의 픽셀들로 측정) 사이에는 선형 관계가 존재한다. 따라서, 문자 영상을 획득할 때, 영상 문자가 작을수록 문자 해상도가 낮아진다. 다시, 영상 해상도 및 소정의 OCR 엔진에 의해 얻어지는 OCR 정확성 사이에는(비선형적이지만) 비례 관계가 존재한다.

전형적으로, 문자 해상도가 소정의 한계치 아래로 떨어지면 OCR 성능 및 정확성은 급격하게 낮아진다. 최신 OCR 엔진들 예컨대 ABBYY 또는 Nuance로 수행한 실험들에서, 이러한 한계치 해상도는 문자 당 대략 16 픽셀들이다. 전형적인 최신 스마트 폰으로, 대략 12 인치 거리에서12 폰트 크기의 인쇄 문자를 획득할 때 이러한 해상도가 얻어진다. 따라서, 아주 정확한 OCR을 달성하기 위한 충분한 문자 해상도를 획득하기 위하여, 최소 문자 크기는 문자 당16 픽셀들 이상이 바람직하다.

문자 당16 픽셀들은 단지 예시적이라는 것에 주목하여야 한다. 최소 크기 요건들은 문자 영상 획득에 사용되는 장치 유형 뿐 아니라 적용되는 OCR 엔진 및 OCR 엔진과 관련된 임의의 조작 변수들에 따라 달라진다. 그러나, 시각적 정보는 영상 센서 및 OCR 엔진 성능과는 무관하게 본원에 기재된 방법에 따라 문자 인식을 위한 최소 허용가능한 크기 요건들에 기초하여 결정된다.

도 1은 포괄적으로 도면부호 100으로 지정되는 예시적 모바일 기기를 도시한 것이다. 모바일 기기 (100)는 정면 (102) 및 디스플레이 (104)를 포함한다. 디스플레이 (104)는 영상들을 표시하는 임의의 적합한 요소이고, 제한적이지 않지만, 전자발광식 표시장치, 전자종이 표시장치, 진공 형광 표시장치, 발광 다이오드 (LED) 표시장치, 음극선 관 (CRT) 표시장치, 액정 (LCD) 표시장치, 플라즈마 디스플레이 패널, 디지털 라이트 프로세싱 (DLP) 표시장치, 및 유기 발광 다이오드 (OLED) 표시장치를 포함한다. 디스플레이 (104)는 접촉 감지 스크린을 포함하고 예컨대 감압식 터치스크린, 정전식 터치스크린, 적외선 터치스크린을 포함하지만 이에 국한되지 않는다.

도 2는 모바일 기기 (100) 배면 (202)을 도시한 것이다. 배면 (202)은 촬상장치 (204)를 포함한다. 촬상장치 (204)는 광학 영상을 수신하고 정보를 기타 처리 요소들로 전송하기에 적합한 임의의 요소이다.

촬상장치는 초점거리 및 조리개 (aperture)를 조절하여 줌이 가능하고 촬영 사물에 적합하게 초점을 맞출 수 있는 성능을 가진다. 이러한 조절은 “최적 초점 거리” 또는 거리 범위를 규정하고 여기에서 모바일 기기 (100)는 촬영 사물로부터 적당히 떨어서 깨끗한 영상을 얻을 수 있다.

촬상장치 (204)가 본 실시예에서는 배면에 장착된 것으로 도시되지만, 당업자는 촬상장치 (204)는 모바일 기기 (100)의 임의의 표면에 임의의 위치에 배치될 수 있고, 또는 심지어 모바일 기기 (100) 외부에 있을 수 있어, 제한되지는 않지만 물리적 케이블 통신 예컨대 범용 직렬 버스 (USB), 무선 통신, 무선 광 통신, 또는 근거리 무선 통신 기술을 포함한 임의의 전자 통신 수단으로 연결될 수 있다.

일부 실시태양들에서, 디스플레이 (104)는 모바일 기기 (100) 내에 위치할 수 있고, 촬상장치 (204)의 출력을 실시간으로 표시하여사용자는 디스플레이 (104)를 보고 디스플레이에서 촬상장치 (204)의 출력을 관찰할 수 있도록 구성된다.

따라서, 도 1 및 2에 도시된 모바일 기기 (100) 구성은 단지 예시이고, 당업자는 전체적으로 유사한 결과를 달성할 수 있는 기타 구성들을 상정할 수 있을 것이다.

모바일 기기 (100)는 도 3에 도시된 바와 같이 인쇄물 (300) 영상을 획득하기 위하여 사용된다. 촬상장치 (204)가 촬영 대상 인쇄물 (300)과 대면하도록 모바일 기기 (100)가 배치된다. 바람직하게는, 필수적이지는 않지만, 도 3에 도시된 바와 같이 인쇄물 (300)은 평탄 표면 (그러나 수평일 필요는 없다)에 놓인다. 인쇄물 (300)을 볼 수 있도록 촬상장치 (204)가 활성되고, 모바일 기기 (100)는 영상 획득 모듈을 적용하여 인쇄물 (300) 영상을 획득하고 디스플레이 (104)에 표시한다.

본 발명에 의하면, 고품질 문자 영상 획득을 보장하기 위하여 시각적 정보가 획득될 문자 문서 영상에 겹쳐진다. 도 4A에 도시된 바와 같이, 영상 획득 모듈 또는 기타 유사한 소프트웨어 모듈은 획득될 문자 (404)의 디스플레이 (400) 상에 중첩되는 시각적 정보 (402)를 포함한다. 본원에서 사용되는, 용어 “문자”란 임의의 영숫자들을 의미한다. 시각적 정보 (402)를 활성화시키기 위하여, 모바일 기기 (100) 사용자는 문자 영상 획득을 위한 전용 어플리케이션을 실행하거나 접근할 수 있다. 어플리케이션은 시각적 정보 (402)를 디스플레이 (400)에 중첩시킨다. 달리, 영상 획득 어플리케이션은 영상이 문자를 포함하고 있다는 것을 확인하고, 추가적인 사용자 입력 없이도 자동으로 시각적 정보 (402)를 중첩시킨다.

도 4A (및 하기되는 도 4B)에 도시된 바와 같이, 시각적 정보 (402)는 “TEXT SIZE GUIDE”라는 문자열이다. 이는 단지 예시이고, 추가적인 시각적 정보들이 사용될 수 있다. 예를들면, 시각적 정보는 기하적 형상 예컨대 획득될 문자에 대한 최소 높이 또는 폭 표기 경계를 가지는 사각형일 수 있다. 달리, 시각적 정보는 사용자 동작에 따라 변하는 대화식 정보일 수 있다. 예를들면, 정보는 디스플레이 코너에 있는 칼러 원형일 수 있다. 문자가 허용가능한 크기가 될 때까지 정보는 적색으로 유지된다. 일단 문자가 허용가능한 크기 (즉, 각각의 문자에 대한 픽셀들 단위의 최소 폭 또는 높이 이상)라고 판단되면, 정보는 변색 예를들면 적색에서 녹색으로 변한다.

도 4A를 다시 참조하면, 사용자가 기기 (100)를 이동시키거나, 또는 기기 줌을 변경시키면, 시각적 정보 (402)는 임의의 획득될 문자의 품질이 OCR에 적합한 허용가능한 문자 크기에 대한 기준을 제공한다. 도 4B에 도시된 바와 같이, 기기 (100)를 문서에 더욱 가까이 이동시키거나 또는 광학 줌 기능을 이용하여 문자 (404)를 줌인 (zoom in)하면, 문자 (404) 크기는 커진다. 그러나, 시각적 정보 (402)는 일정한 크기로 유지되므로, 사용자에게 적합한 문자 (404) 크기에 대한 기준을 제공할 수 있다.

도 4A 및 4B에 도시된 바와 같이, 시각적 정보 (402)는 디스플레이 최상부 중앙에 위치한다. 그러나, 이는 단지 예시적으로 도시된 것이다. 시각적 정보 (402) 위치는 사용자 취향에 따라 영상 획득 어플리케이션 성능에 따라 변할 수 있다. 예를들면, 영상 획득 어플리케이션은 문서에서 빈 공백을 검출할 수 있는 성능을 가질 수 있다. 이러한 실시예에서, 획득될 문자 표시를 방해하지 않도록 시각적 정보는 문서의 빈 공간에 표시된다. 빈 공백이 검출되지 않으면, 시각적 정보는 도 4A 및 4B에 도시된 바와 같이 디폴트 위치에 배치될 수 있다.

도 5는 본원에서 논의된 개념들 및 사상들을 이용하여 문자 영상을 획득하는 프로세스 흐름도를 도시한 것이다. 처리장치, 예컨대 모바일 기기 (100)는, 상기된 영상 획득 어플리케이션 또는 문자-전용 영상-획득 어플리케이션과 함께 사용되는 모바일 기기에 대한 문자 해상도의 함수로서 영상 센서 해상도 및 OCR 엔진 성능을 판단한다 (500). 이러한 값들에 기초하여, 모바일 기기는 정확한 OCR 성능을 위한 최소 문자 크기를 계산한다 (502). 예를들면, 계산된 최소 문자 크기는 폭이 16 픽셀들일 수 있다. 그러나, 고품질을 보장하기 위하여, 더 큰 최소 문자 폭, 예를들면, 20 픽셀들이 적용될 수 있다.

또한 모바일 기기는 높은 OCR 성능 및 정확성을 위한 최소 문자 크기를 나타내도록 정확히 크기가 모바일 기기의 스크린에 표시되는 시각적 정보를 결정한다 (504). 시각적 정보 크기를 결정하기 위하여 특정 식들이 적용될 수 있다.

영상 센서 해상도에 기초하여, 획득될 영상 크기는 M1 × N1로 표기되고, 모바일 기기에 대한 디스플레이 스크린 해상도는 M2 × N2로 표기된다. 전형적으로, M1<<M2 및 N2<<N1이다. 다음으로 디스플레이 해상도 및 획득될 영상 해상도의 비율, r = max(M2/M1, N2/N1)이 계산된다. 최소 허용가능한 문자 크기 (예를들면, 상기된 바와 같이 20 픽셀들)는 L1로 표기될 수 있다. 다음, 모바일 기기 스크린에 보이는 문자 폭은 L2 = r*L1로 정의될 수 있다. 이러한 식의 결과에 기초하여, 모바일 기기는 정확하게 모바일 기기 스크린에 표시되는 시각적 정보 크기를 결정한다 (504).

모바일 기기는 인쇄물의 영상 스트림 또는 비디오 획득을 수신하고, 영상 스트림을 모바일 기기의 디스플레이에 표시한다 (506). 영상 스트림은 모바일 기기와 관련하여 현재 정렬되고 배향되므로 인쇄물의 라이브 뷰 (live view)일 수 있다. 동시에 또는 거의 동시에, 모바일 기기는 영상 스트림에 시각적 정보를 중첩시킨다 (508). 상기된 바와 같이, 사용자는 시각적 정보를 영상 스트림에 중첩시키는 전용 문자 획득 어플리케이션에 접근할 수 있고, 또는 모바일 기기에 설정된 표준 영상 획득 소프트웨어는 사용자가 문자 영상을 촬영하고 있다는 것을 인식하고, 자동으로 시각적 정보를 영상 스트림에 겹치도록 구성될 수 있다 (508). 달리, 사용자는 획득 과정에서 문자 크기 안내를 표시하는 옵션을 선택할 수 있다.

상기된 바와 같이, 시각적 정보는 허용가능한 OCR 정확성이 유지되기 위하여 사용자가 획득하여야 하는 최소 크기 문자를 나타낸다. 시각적 정보는 (도 4A 및 4B에 도시된 바와 같이) 적합한 크기의 문자들을 포함한 문자열, 최소 문자 크기를 표기하는 기하적 형상, 또는 영상 스트림에 표시되는 문자가 허용가능한 크기라는 표현 (예를들면, 가시적 변화, 음향적 정보 또는 촉각적 전달)을 제공하는 동적 정보일 수 있다.

선택적으로, 모바일 기기는 사용자 주위를 주목시키고 획득될 문자 내용을 방해하지 않도록 영상 스트림 내에서 시각적 정보의 적합한 위치를 결정한다 (510). 예를들면, 모바일 기기는 영상 스트림 내에 빈 공백이 있는지를 결정하고 (510) 시각적 정보를 그 위치에 중첩시켜 (508) 사용자가 획득될 문자를 보는데 방해 받지 않는다. 또한, 모바일 기기는 모바일 기기 및 획득될 문서의 위치에 기초하여 시각적 정보 방향을 판단한다 (510). 예를들면, 도 4A 및 4B에 도시된 바와 같이, 모바일 기기가 풍경 모드에 있다면, 사용자가 읽을 수 있도록 시각적 정보는 회전된다. 달리, 모바일 기기 위치와 무관하게 시각적 정보는 획득될 문자와 유사한 방식으로 배향되도록 시각적 정보가 배치된다.

사용자가 모바일 기기를 이동시키면 모바일 기기는 영상 스트림을 계속하여 갱신하고, 사용자는 시각적 정보 및 획득될 문자의 크기를 비교한다 (512). 달리, 모바일 기기가 동적 정보를 이용하면, 영상 스트림 문자에 있는 픽셀들 수와 정확한 OCR용 고품질 영상 생성을 위한 픽셀들 최소 수를 비교함으로써 모바일 기기는 시각적 정보 및 문자를 자동으로 비교한다 (512).

모바일 기기가 시각적 정보 및 문서 문자를 자동으로 비교하면 (512), 모바일 기기는 모바일 기기가 허용가능한 거리 또는 문자 획득 설정 줌에 있는지를 결정한다 (514).

모바일 기기가 허용가능한 거리 및 문자 획득 줌에 있다고 처리기가 판단하면 (514), 처리기는 시각적 정보 (예를들면, 시각적 정보의 변색), 음향 발생, 촉각적 피드백 예컨대 진동 유발, 또는 달리 스크린 출력 변경을 통해 사용자에게 알린다 (516).

이후 사용자는 인쇄물 영상을 획득한다 (518). 예를들면, 사용자는 입력장치 예컨대 버튼 또는 디스플레이 활성화 부분을 이용하여 영상을 획득한다 (518). 달리, 모바일 기기는 문자 영상을 자동으로 획득하도록 구성된다 (518). 예를들면, 모바일 기기가 영상 스트림의 문자 크기가 시각적 정보에 의해 표기되는 최소 크기와 일치하거나 초과하면, 모바일 기기는 자동으로 영상을 획득한다 (518). 유사하게, 영상 스트림의 문자 크기가 시각적 정보에 의해 표기되는 최소 크기와 일치하거나 초과한 후 사용자가 모바일 기기를 일정 시간 (예를들면, 1 초) 고정시키면, 모바일 기기는 자동으로 영상을 획득한다 (518). 모바일 기기 및 영상 획득 어플리케이션의 가용 특징부들에 기초하여, 사용자는 자동 영상 획득과 같은 다양한 영상 획득 특징부들을 선택할 수 있고, 어플리케이션 개시 전, 또는 어플리케이션 작동 중에 어떠한 자동 특징부를 활성화할 것인지를 선택할 수 있다.

영상이 획득되면 (518), 획득된 영상에 대한 후속-처리가 진행된다 (520). 후속 처리 (520)는 OCR 또는 기타 유사한 인식 알고리즘 실행, 획득된 영상과 관련된 메타-데이터 갱신, 획득된 영상 품질 개선, 및 기타 유사한 후속-처리 기술을 포함한다.

상기된 바와 같이, 시각적 정보 표시 및 문자 획득 방법 및 프로세스는 모바일 기기 조작자에 의해 수행되고 구현된다. 도 6은 다양한 컴퓨터 프로세스를 포함하거나 구현하기 위한 내부 하드웨어 및 시스템을 예시한 것이다. 예를들면, 상기된 모바일 기기 (100)는 도 6에 도시된 것과 유사한 내부 하드웨어 구조를 가진다. 전기적 버스 (600)는 도시된 하드웨어의 다른 요소들을 상호 연결하는 주 정보 하이웨이로서 기능한다. CPU (605)는 시스템의 중앙처리장치이고, 프로그램 실행에 필요한 계산 및 논리 연산들을 수행한다. CPU (605)는, 단독 또는 도 6에 도시된 하나 이상의 다른 요소들과 함께, 처리장치, 컴퓨팅 디바이스 또는 처리기이다. 읽기 전용 메모리 (ROM) (610) 및 임의 접근 메모리 (RAM) (615)는 예시적 메모리 장치들을 구성한다.

제어기 (620)는 시스템 버스 (600)를 통하여 하나 이상의 선택적 메모리 장치 (625)와 상호작용한다. 이러한 메모리 장치 625)는, 예를들면, 외부 DVD 드라이브 또는 CD ROM 드라이브, 하드 드라이브, 플래시 메모리, USB 드라이브 또는 기타 등을 포함한다. 전기된 바와 같이, 이러한 다양한 드라이브들 및 제어기들은 선택적 장치들이다. 또한, 메모리 장치(625)는 임의의 소프트웨어 모듈들 또는 명령들, 보조 데이터, 입력 데이터 저장 개별 파일들, 분할표 그룹 및/또는 회귀 모델에 대한 공통 파일들, 또는 상기된 정보들 저장을 위한 하나 이상의 데이터베이스를 포함하도록 구성된다.

상기된 프로세스와 관련된 임의의 기능적 단계들 수행을 위한 프로그램 명령들, 소프트웨어 또는 상호작용 모듈들은 ROM (610) 및/또는 RAM (615)에 저장된다. 선택적으로, 프로그램 명령들은 유형의 컴퓨터 판독 가능한 매체 예컨대 콤팩트 디스크, 디지털 디스크, 플래시 메모리, 메모리 카드, USB 드라이브, 광학 디스크 저장 매체, 예컨대 Blu-ray™ 디스크, 및/또는 기타 기록 매체에 저장된다.

디스플레이 인터페이스 (630)로 인하여 버스 (600)로부터의 정보는 디스플레이 (635)에서 음향, 시각, 그래픽 또는 영숫자 형태로 표시된다. 외부 장치들과의 통신은 다양한 통신 포트 (640)가 이용한다. 통신 포트 (640)눈 통신망, 예컨대 인터넷, 근거리통신망 또는 이동전화 데이터 네트워크에 연결된다.

하드웨어는 인터페이스 (645)를 더욱 포함하여 입력 장치들 예컨대 키보드 (650) 또는 기타 입력 장치 (655) 예컨대 원격 콘트롤, 포인팅 장치, 비디오 입력 장치 및/또는 오디오 입력 장치로부터 데이터를 수신할 수 있다.

상기 특징부들 및 기능들뿐 아니라 대안들이 많은 상이한 다른 시스템들 또는 어플리케이션들에 조합될 수 있다. 다양한 현재 미-예측 또는 미-예상 대안들, 변형들, 변경들 또는 개선점들이 당업자에 의해 이루어질 수 있고, 이들 각각은 또한 개시된 실시태양들에 의해 포괄되는 것이다.

Claims

모바일 전자 기기에 있어서, 상기 모바일 전자 기기는,
처리장치;
상기 처리장치와 동작 가능하게 연결되고 관련 표시 해상도를 가지는 디스플레이;
상기 처리장치와 동작 가능하게 연결되고 관련 영상 획득 해상도를 가지는 영상 획득 장치; 및
상기 처리장치와 통신하는 비-일시적인 컴퓨터 판독 가능한 매체로서, 상기 컴퓨터 판독 가능한 매체는 상기 처리장치가:
모바일 기기에 의해 획득될 영상의 정확한 광학 문자 인식 (OCR)을 위한 최소 텍스트 크기를 결정하고,
상기 영상 획득 장치에 의해 획득될 피인쇄체(printed substrate)의 영상 스트림을 수신하고,
상기 디스플레이 상에 영상 스트림 및 상기 영상 스트림과 중첩되는 시각적 정보를 표시하도록 하는 하나 이상의 프로그램 명령들로 구성되고, 상기 시각적 정보는 최소 텍스트 크기의 표시자 (indicative)인, 모바일 전자 기기.
제1항에 있어서, 상기 하나 이상의 명령들은, 상기 영상 스트림 내에 표시된 텍스트가 적어도 상기 최소 텍스트 크기일 때, 상기 처리장치가 상기 모바일 기기 사용자에서 통지를 출력하도록 명령하는 명령들을 더욱 포함하는, 모바일 전자 기기.
제2항에 있어서, 상기 통지는 시각적 정보 변경, 음향 발생, 촉각 피드백 유발, 및 영상 스트림 변경 중 적어도 하나를 포함하는, 모바일 전자 기기.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 하나 이상의 명령들은 상기 처리장치가 상기 영상 획득 해상도, 상기 표시 해상도, 및 OCR 엔진 작동 요건들에 기초하여 상기 시각적 정보 크기를 결정하도록 명령하는 명령들을 더 포함하는, 모바일 전자 기기.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 하나 이상의 명령들은 상기 처리장치가 상기 영상 스트림의 디지털 영상을 획득하도록 하는 명령들을 더 포함하고, 상기 디지털 영상은 상기 시각적 정보를 포함하지 않는, 모바일 전자 기기.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 시각적 정보는 문자열, 기하적 형상, 바운딩 박스(bounding box), 및 상호작용 정보 (interactive cue) 중 적어도 하나를 포함하는, 모바일 전자 기기.
제1항 내지 제6항 중 어느 한 항에 있어서, 상기 하나 이상의 명령들은 상기 처리장치가 상기 획득장치에 의해 획득되는 상기 영상 스트림 분석에 기초하여 상기 영상 스트림 내에 상기 시각적 정보의 위치를 결정하도록 하는 명령들을 더 포함하는, 모바일 전자 기기.
제7항에 있어서, 상기 처리장치가 상기 영상 스트림을 분석하도록 하는 명령들은 상기 처리장치가 상기 시각적 정보 및 획득되는 인쇄 콘텐트 간의 간섭을 최소화 하도록 하는 명령들을 더 포함하는, 모바일 전자 기기.
제8항에 있어서, 상기 처리장치가 상기 간섭을 최소화 하도록 하는 명령들은, 처리장치가:
텍스트 콘텐트가 없는 상기 영상 스트림의 부분을 결정하고; 및
상기 시각적 정보를 상기 텍스트 콘텐트가 없는 부분에 배치하도록 하는 명령들을 포함하는, 모바일 전자 기기.