KR20140091760A - 화상 내의 텍스트의 검출을 용이하게 하기 위한 방법 및 장치 - Google Patents

화상 내의 텍스트의 검출을 용이하게 하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR20140091760A
KR20140091760A KR1020147016841A KR20147016841A KR20140091760A KR 20140091760 A KR20140091760 A KR 20140091760A KR 1020147016841 A KR1020147016841 A KR 1020147016841A KR 20147016841 A KR20147016841 A KR 20147016841A KR 20140091760 A KR20140091760 A KR 20140091760A
Authority
KR
South Korea
Prior art keywords
text
alpha value
image
value
gamma value
Prior art date
Application number
KR1020147016841A
Other languages
English (en)
Other versions
KR101602591B1 (ko
Inventor
바스데브 파라메스와란
샹-수안 차이
라덱 그르제스크주크
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20140091760A publication Critical patent/KR20140091760A/ko
Application granted granted Critical
Publication of KR101602591B1 publication Critical patent/KR101602591B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

화상 내의 텍스트의 검출을 용이하게 하기 위한 방법 및 장치가 제공된다. 방법은 가설 텍스트 단편을 포함하는 화상 영역에 관련된 알파값을 산출하는 것을 포함할 수 있다. 알파값은 가설 텍스트 단편에 대한 곡선의 문자 길이 분포, 문자 폭 분포 및 문자간의 간격 분포의 함수로서 정의될 수 있다. 방법은 또한 가설 텍스트 단편에 대하여 결정된 간격 길이 분포에 적어도 부분적으로 근거하여 감마값을 산출하는 것을 포함할 수 있다. 방법은 또한 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하는 것을 포함할 수 있다. 대응하는 장치도 제공된다.

Description

화상 내의 텍스트의 검출을 용이하게 하기 위한 방법 및 장치{METHODS AND APPARATUSES FOR FACILITATING DETECTION OF TEXT WITHIN AN IMAGE}
본 발명의 실시형태는 일반적으로 화상 처리 기술에 관한 것이고, 보다 구체적으로는, 화상 내의 텍스트의 검출을 용이하게 하기 위한 방법 및 장치에 관한 것이다.
현대의 컴퓨팅 시대는 연산 능력에 있어서의 급속한 발전을 초래하여, 적당한 가격의 강력한 연산 장치의 개발을 가능하게 한다. 현대의 연산 장치의 사용은 사회 경제적 배경의 범위에 걸쳐 소비자의 사이에서 거의 유비쿼터스가 되었다. 이들 현대의 연산 장치는, 예컨대 증강 현실 어플리케이션, 관심 지점 내비게이션 서비스 및/또는 사용자의 주위의 화상이 캡처되어 화상을 처리하는 것에 의해 도출될 수 있는 추가의 콘텍스트 정보로 증강되는 것이 가능한 다른 어플리케이션을 포함하는 여러 가지 화상 기반 서비스를 행할 수 있다. 다른 예로서, 3차원 매핑 기술은, 3차원 위치 정보 및 화상 콘텍스트로부터 도출될 수 있는 관심 지점에 관련된 콘텐츠를 포함하는 3차원 맵을 생성하기 위해, 캡처된 현실 세계의 화상을 사용할 수 있다.
그러한 화상 기반 서비스는 캡처된 현실 세계의 화상 내의 텍스트의 검출을 필요로 할 수 있고, 또한/또는 이것에 의해 강화될 수 있다. 이와 관련하여, 현실 세계의 화상 내에서 인식된 텍스트는, 관심 지점 인식을 용이하게 하고, 캡처된 음성 리드백(audio read back)을 제공하고, 외국인 여행자를 위한 언어 번역 서비스 등을 제공하는 데에 사용될 수 있다. 그러나, 화상 내의 텍스트 검출은 계속 문제가 되고 있다. 이와 관련하여, 화상 내의 텍스트 검출은 문서 인식 영역에서 사용되었지만, 옥외의 장면 등과 같은 자연계의 화상에서의 텍스트 검출은 다양한 텍스트 폰트 및 스타일, 카메라 시점(viewpoint), 화상의 콘트라스트 및 캡처된 자연계의 화상 내의 텍스트의 가시성에 영향을 주는 다른 요인으로 인해 발생하는 과제 때문에 매우 어렵다는 것이 판명되었다. 또한, 문서의 텍스트는 문서 인식 영역에서 캡처된 화상 내의 주된 초점인 것에 비하여, 또한, 자연계의 화상 내의 텍스트 풋프린트(footprint)는 전형적으로는 화상의 극히 일부이다(보통 수십 메가 픽셀의 화상에서 수백 픽셀을 차지한다).
방법, 장치 및 컴퓨터 프로그램 제품이 화상 내의 텍스트 검출을 용이하게 하기 위해 본 명세서에 제공된다. 다양한 실시형태에 따른 방법, 장치 및 컴퓨터 프로그램 제품은 연산 장치, 연산 장치의 사용자, 및 서비스 제공자에게 몇몇의 이점을 제공할 수 있다. 보다 구체적으로, 몇몇의 실시형태는 다양한 폰트 스타일과 사이즈가 존재할 수 있고 배경의 콘트라스트가 텍스트 검출을 방해할 수 있는 옥외의 화상과 같은 자연계의 화상 내의 텍스트의 검출에 특히 유익할 수 있는 화상에서의 텍스트의 검출을 제공한다. 이와 관련하여, 몇몇의 실시형태는 자연계의 화상 내의 텍스트의 폰트, 글자체, 언어 및 방향에 의존하지 않는 텍스트 검출을 제공한다. 보다 구체적으로, 몇몇의 예시적인 실시형태는 텍스트의 암묵적인 특성의 모델에 근거하여 보다 신속하게 실행될 수 있는 산출의 사용을 통해 이전의 방법보다 빠른 검출을 제공할 수 있는 폰트, 글자체 및 언어에 의존하지 않을 수 있는 텍스트의 특성을 이용한다. 또한, 몇몇의 예시적인 실시형태에 의해 제공되는 모델 기반의 텍스트 검출의 접근법은 종래의 체험 기반의 접근법보다 신뢰성이 높을 수 있다. 몇몇의 예시적인 실시형태는 또한 특정한 검출률이 텍스트 모델에 의해 정의될 수 있는 기지의 텍스트 특성에 따라 제공될 수 있도록 텍스트 검출을 위한 성능 한계를 지정하는 기능을 제공함으로써, 사용자가 소망하는 성능 한계를 만족시키도록 텍스트 검출을 조정 가능하게 한다.
제 1 실시형태에서는, 가설 텍스트 단편(hypothesized text fragment)을 포함하는 화상 영역과 관련된 알파값을 산출하는 것을 포함할 수 있는 방법이 제공된다. 알파값은 가설 텍스트 단편에 대한 곡선의 문자 길이 분포, 문자 폭 분포 및 문자간의 간격 분포에 따라 정의될 수 있다. 이 예시적인 실시형태의 방법은 또한 가설 텍스트 단편에 대하여 결정된 간격 길이 분포에 적어도 부분적으로 근거하여 감마값을 산출하는 것을 포함할 수 있다. 이 예시적인 실시형태의 방법은 또한 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하는 것을 포함할 수 있다.
다른 예시적인 실시형태에서는, 장치가 제공된다. 이 예시적인 실시형태의 장치는 적어도 하나의 프로세서 및 컴퓨터 프로그램 코드를 저장하는 적어도 하나의 메모리를 포함할 수 있다. 적어도 하나의 메모리 및 저장된 컴퓨터 프로그램 코드는, 이 예시적인 실시형태의 장치가 가설 텍스트 단편을 포함하는 화상 영역에 관련된 알파값을 적어도 산출하게 하도록, 적어도 하나의 프로세서로 구성될 수 있다. 알파값은 가설 텍스트 단편에 대한 곡선의 문자 길이 분포, 문자 폭 분포 및 문자간의 간격 분포에 따라 정의될 수 있다. 적어도 하나의 메모리 및 저장된 컴퓨터 프로그램 코드는, 또한 이 예시적인 실시형태의 장치가 가설 텍스트 단편에 대하여 결정된 간격 길이 분포에 적어도 부분적으로 근거하여 감마값을 산출하게 하도록, 적어도 하나의 프로세서로 구성될 수 있다. 적어도 하나의 메모리 및 기억된 컴퓨터 프로그램 코드는, 또한 이 예시적인 실시형태의 장치가 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하게 하도록, 적어도 하나의 프로세서로 구성될 수 있다.
다른 예시적인 실시형태에서는, 컴퓨터 프로그램 제품이 제공된다. 이 실시형태의 컴퓨터 프로그램 제품은 내부에 저장된 컴퓨터 판독 가능한 프로그램 명령을 갖는 적어도 하나의 컴퓨터 판독 가능 기억 매체를 포함한다. 이 예시적인 실시형태의 프로그램 명령은 가설 텍스트 단편을 포함하는 화상 영역에 관련된 알파값을 산출하도록 구성된 프로그램 명령을 포함할 수 있다. 알파값은 가설 텍스트 단편에 대한 곡선의 문자 길이 분포, 문자 폭 분포 및 문자간의 간격 분포에 따라 정의될 수 있다. 이 예시적인 실시형태의 프로그램 명령은 또한 가설 텍스트 단편에 대하여 결정된 간격 길이 분포에 적어도 부분적으로 근거하여 감마값을 산출하도록 구성된 프로그램 명령을 포함할 수 있다. 이 예시적인 실시형태의 프로그램 명령은 또한 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하도록 구성된 프로그램 명령을 포함할 수 있다.
또 다른 예시적인 실시형태에서는, 가설 텍스트 단편을 포함하는 화상 영역에 관련된 알파값을 산출하기 위한 수단을 포함할 수 있는 장치가 제공된다. 알파값은 가설 텍스트 단편에 대한 곡선의 문자 길이 분포, 문자 폭 분포 및 문자간의 간격 분포에 따라 정의될 수 있다. 이 예시적인 실시형태의 장치는 또한 가설 텍스트 단편에 대하여 결정된 간격 길이 분포에 적어도 부분적으로 근거하여 감마값을 산출하기 위한 수단을 포함할 수 있다. 이 예시적인 실시형태의 장치는 또한 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하기 위한 수단을 포함할 수 있다.
상기 요약은 본 발명의 몇몇의 측면의 기본적인 이해를 제공하도록 단지 본 발명의 몇몇의 예시적인 실시형태를 요약할 목적을 위해서만 제공된다. 따라서, 상술한 예시적인 실시형태는 단지 예이고, 어떠한 의미에 있어서도 본 발명의 범위 또는 정신을 좁히는 것으로 해석되어서는 안 되는 것이 이해될 것이다. 본 발명의 범위는 여기서 요약된 것에 더하여 몇몇이 이하에 설명되는 많은 잠재적인 실시형태를 포함하는 것이 이해될 것이다.
이와 같이 일반적인 용어로 본 발명의 실시형태를 설명했고, 반드시 일정한 축척으로 그려져 있지는 않은 첨부 도면에 대한 참조가 이루어진다.
도 1은 몇몇의 예시적인 실시형태에 따른 화상 내의 텍스트의 검출을 용이하게 하기 위한 텍스트 검출 장치의 블록도를 나타낸다.
도 2는 몇몇의 예시적인 실시형태에 따른 이동 단말의 개략적인 블록도이다.
도 3은 몇몇의 예시적인 실시형태에 따른 텍스트 검출을 행하기 위한 시스템을 나타낸다.
도 4는 캡처된 화상 내의 텍스트에 대한 영향 변수 및 효과를 설명하기 위해 사용될 수 있는 몇몇의 실시형태에 따른 언어 생성을 위한 예시적인 베이지안 네트워크(Bayesian network)를 나타낸다.
도 5는 몇몇의 예시적인 실시형태에 따른 가설 텍스트 단편을 가로지르는 주사선의 인가를 나타낸다.
도 6은 몇몇의 예시적인 실시형태에 따른 가설 텍스트 단편을 분류하기 위한 모델로서 사용될 수 있는 트레이닝 데이터(training data)의 세트에 대하여 산출되는 알파값 및 감마값을 나타낸다.
도 7은 알파값 및 감마값에 대한 예시적인 산포도를 나타낸다.
도 8은 몇몇의 예시적인 실시형태에 따른 샘플의 분류 결과를 나타낸다.
도 9는 몇몇의 예시적인 실시형태에 따른 화상 내의 텍스트의 검출을 가능하게 하는 예시적인 방법에 따른 플로차트를 나타낸다.
도 10은 몇몇의 예시적인 실시형태에 따른 화상 내의 텍스트의 검출을 가능하게 하는 다른 예시적인 방법에 따른 플로차트를 나타낸다.
본 발명의 몇몇의 실시형태가 본 발명의 실시형태의 전부는 아니지만 일부가 도시되는 첨부 도면을 참조하여 이하에 보다 충분히 설명된다. 실제로, 본 발명은 많은 다른 형태로 구현될 수 있고 본 명세서에 기재된 실시형태로 한정된다고 해석되어서는 안 된다. 더 정확히 말하면, 이들 실시형태는 본 개시가 적용 가능한 법적 요건을 만족하도록 제공된다. 전체에 걸쳐서 동일한 참조 번호는 동일한 요소를 가리킨다.
본 명세서에서 이용되는 바와 같이, 용어 "데이터", "콘텐츠", "정보" 및 유사한 용어는 다양한 예시적인 실시형태에 따라 송신, 수신, 표시 및/또는 저장될 수 있는 데이터를 가리키기 위해 호환적으로 사용될 수 있다. 따라서, 그와 같은 용어의 사용은 본 개시의 정신 및 범위를 한정하는 것으로 해석되어서는 안 된다. 또한, 연산 장치가 다른 연산 장치로부터 데이터를 수신한다고 본 명세서에 기재되는 경우, 데이터는 다른 연산 장치로부터 직접적으로 수신될 수 있거나 또는 예컨대 하나 이상의 서버, 중계기, 라우터, 네트워크 액세스 포인트, 기지국 및/또는 그밖에 유사한 것 등과 같은 하나 이상의 중간 연산 장치를 거쳐서 간접적으로 수신될 수 있는 것이 이해될 것이다.
본 명세서에서 사용되는 용어 "컴퓨터 판독 가능한 매체"는 실행을 위한 명령을 포함하는 정보를 프로세서에 제공하는 것에 관여하도록 구성된 모든 매체를 가리킨다. 그러한 매체는 비일시적인 컴퓨터 판독 가능한 기억 매체(예컨대, 비휘발성 매체, 휘발성 매체) 및 전송 매체를 포함하지만 이것으로 한정되지 않는 많은 형태를 취할 수 있다. 전송 매체는, 예컨대 동축 케이블, 구리선, 광파이버 케이블, 및 전파, 광파 및 적외선파를 포함하는 음파 및 전자기파 등의 와이어 또는 케이블을 사용하지 않고서 공간을 지나서 이동하는 반송파를 포함한다. 비일시적인 컴퓨터 판독 가능한 매체의 예는 플로피디스크, 하드디스크, 자기 테이프, 다른 모든 비일시적인 자기 매체, 콤팩트디스크 리드 온리 메모리(CD-ROM), 재기록 가능 콤팩트디스크(CD-RW), 디지털 다기능 디스크(DVD), 블루레이, 다른 모든 비일시적인 광학 매체, 랜덤 액세스 메모리(RAM), 프로그램 가능한 리드 온리 메모리(PROM), 소거가 가능하고 프로그램이 가능한 리드 온리 메모리(EPROM), FLASH-EPROM, 다른 모든 메모리칩 또는 카트리지, 또는 컴퓨터가 판독할 수 있는 다른 모든 비일시적 매체를 포함한다. 용어 "컴퓨터 판독 가능한 기억 매체"는 전송 매체를 제외한 모든 컴퓨터 판독 가능한 매체를 가리키기 위해 본 명세서에서 사용된다. 그렇지만, 실시형태가 컴퓨터 판독 가능한 기억 매체를 이용하는 것이 기재되어 있는 경우, 컴퓨터 판독 가능한 매체의 다른 형태는 대안적인 실시형태에 있어서의 컴퓨터 판독 가능한 기억 매체를 대신하거나 또는 이것에 더하여 사용될 수 있는 것이 이해될 것이다.
또한, 본 명세서에서 사용되는 용어 "회로"는 (a) 하드웨어만의 회로의 구현(예컨대, 아날로그 회로 및/또는 디지털 회로의 구현), (b) 회로 및 본 명세서에 기재된 하나 이상의 기능을 장치에 실행시키기 위해 함께 동작하는 하나 이상의 컴퓨터 판독 가능한 메모리에 저장된 소프트웨어 및/또는 펌웨어 명령을 포함하는 컴퓨터 프로그램 제품(들)의 조합, (c) 예컨대 소프트웨어 또는 펌웨어가 물리적으로 존재하지 않는 경우에도 동작을 위해 소프트웨어 또는 펌웨어를 필요로 하는 마이크로프로세서(들) 또는 마이크로프로세서(들)의 일부와 같은 회로를 가리킨다. "회로"의 정의는 모든 청구항을 포함한 본 명세서에서의 이 용어의 모든 사용에 적용된다. 다른 예로서, 본 명세서에서 사용되는 용어 "회로"는 또한 하나 이상의 프로세서 및/또는 그 부분(들)을 포함하고 소프트웨어 및/또는 펌웨어를 동반한 구현을 포함한다. 다른 예로서, 본 명세서에서 사용되는 용어 "회로"는, 예컨대 휴대 전화의 베이스밴드 집적 회로 또는 어플리케이션 프로세서 집적 회로, 또는 서버, 셀룰러 네트워크 장치, 다른 네트워크 장치, 및/또는 다른 연산 장치 내의 유사한 집적 회로를 포함한다.
도 1은 몇몇의 예시적인 실시형태에 따른 화상 내의 텍스트의 검출을 용이하게 하기 위한 텍스트 검출 장치(102)의 블록도를 나타낸다. 텍스트 검출 장치(102)는 몇몇의 실시형태의 예로서 제공되고, 어떠한 의미에 있어서도 본 개시의 범위 또는 정신을 좁히도록 해석되어서는 안 되는 것이 이해될 것이다. 이와 관련하여, 본 개시의 범위는 본 명세서에 도시되고 설명된 것에 더하여 많은 잠재적인 실시형태를 포함한다. 그와 같은 것으로서, 도 1은 화상 내의 텍스트의 검출을 용이하게 하기 위한 장치의 구성의 일례를 나타내고 있지만, 다른 구성도 본 개시의 범위 내의 실시형태를 구현하기 위해 사용될 수 있다.
텍스트 검출 장치(102)는 데스크톱 컴퓨터, 랩톱 컴퓨터, 이동 단말, 모바일 컴퓨터, 휴대 전화, 이동 통신 장치, 태블릿 연산 장치, 하나 이상의 서버, 하나 이상의 네트워크 노드, 게임기, 디지털 카메라/캠코더, 오디오/비디오 플레이어, 텔레비전 장치, 무선 수신기, 디지털 비디오 레코더, 위치 결정 장치, 칩셋, 칩셋을 포함하는 장치, 그들의 모든 조합, 및/또는 그 밖의 것으로서 구현될 수 있다. 예시적인 실시형태에서는, 텍스트 검출 장치(102)는, 도 2에 나타내는 바와 같이, 이동 단말로서 구현될 수 있다.
이와 관련하여, 도 2는 텍스트 검출 장치(102)의 한 실시형태를 대표하는 이동 단말(10)의 블록도를 나타낸다. 그러나, 도시되고 이하에 기재되는 이동 단말(10)은 다양한 실시형태를 구현하고 또한/또는 다양한 실시형태로부터 이익을 얻을 수 있는 텍스트 검출 장치(102)의 한 타입의 단순한 예시이고, 따라서 본 개시의 범위를 한정한다고 해석되어서는 안 되는 것이 이해되어야 한다. 전자 장치의 몇몇의 실시형태가 도시되고 이하에서 예시의 목적으로 설명될 것이지만, 휴대 전화, 모바일 컴퓨터, 휴대용 디지털 보조 장치(PDA), 무선 호출기, 랩톱 컴퓨터, 데스크톱 컴퓨터, 게임기, 텔레비전, 및 다른 타입의 전자 시스템 등의 다른 타입의 전자 장치가 본 발명의 실시형태를 채용할 수 있다.
도시한 바와 같이, 이동 단말(10)은 송신기(14) 및 수신기(16)와 통신하는 안테나(12)(또는 복수의 안테나(12))를 포함할 수 있다. 또한 이동 단말(10)은 송신기에 신호를 제공하고 수신기로부터 신호를 수신하도록 구성된 프로세서(20)를 포함할 수 있다. 프로세서(20)는, 예컨대 회로, 디지털 신호 프로세서(들)를 동반하는 하나 이상의 마이크로프로세서, 디지털 신호 프로세서를 동반하지 않는 하나 이상의 프로세서(들), 하나 이상의 코프로세서, 하나 이상의 멀티 코어 프로세서, 하나 이상의 제어 장치, 처리 회로, 하나 이상의 컴퓨터, 예컨대 ASIC(특정 용도용 집적 회로) 또는 FPGA(필드 프로그래머블 게이트 어레이)와 같은 집적 회로를 포함하는 다양한 다른 처리 요소, 또는 그들의 몇몇의 조합을 포함하는 다양한 수단으로서 구현될 수 있다. 따라서, 하나의 프로세서로서 도 2에 도시되지만, 몇몇의 실시형태에서 프로세서(20)는 복수의 프로세서를 포함한다. 프로세서(20)에 의해 송신되고 수신된 이들 신호는 적용 가능한 셀룰러 시스템의 무선 인터페이스 규격 및/또는 Wi-Fi, 전기 전자 기술자 협회(IEEE) 802.11, 802.16과 같은 무선 로컬 액세스 네트워크(WLAN) 기술 및/또는 그 밖의 것을 포함하지만 이것으로 한정되지 않는 다수의 상이한 유선 또는 무선 네트워킹 기술에 따른 시그널링 정보를 포함할 수 있다. 또한, 이들 신호는 음성 데이터, 사용자에 의해 생성된 데이터, 사용자에 의해 요구된 데이터 및/또는 그 밖의 것을 포함할 수 있다. 이와 관련하여, 이동 단말은 하나 이상의 무선 인터페이스 규격, 통신 프로토콜, 변조 타입, 액세스 타입 및/또는 그 밖의 것으로 동작 가능할 수 있다. 보다 구체적으로, 이동 단말은 다양한 제 1 세대(1G), 제 2 세대(2G), 2.5G, 제 3 세대(3G) 통신 프로토콜, 제 4 세대(4G) 통신 프로토콜, 인터넷 프로토콜 멀티미디어 서브시스템(IMS) 통신 프로토콜(예컨대, 세션 초기화 프로토콜(SIP)), 장래에 개발될 수 있는 프로토콜 및/또는 그 밖의 것에 따라 동작 가능할 수 있다. 예컨대, 이동 단말은 2G 무선 통신 프로토콜 IS-136(시간 분할 다중 액세스(TDMA)), 이동 통신용 글로벌 시스템(GSM), IS-95(코드 분할 다중 접속(CDMA)) 및/또는 그 밖의 것에 따라 동작 가능할 수 있다. 또한, 예컨대 이동 단말은 2.5G 무선 통신 프로토콜 범용 패킷 무선 서비스(GPRS), 강화된 데이터 GSM 환경(EDGE) 및/또는 그 밖의 것에 따라 동작 가능할 수 있다. 또한, 예컨대 이동 단말은 유니버설 모바일 텔레커뮤니케이션 시스템(UMTS), 코드 분할 다중 액세스 2000(CDMA 2000), 광대역 코드 분할 다중 액세스(WCDMA), 시간 분할-동기 코드 분할 다중 액세스(TD-SCDMA) 및/또는 그 밖의 것과 같은 3G 무선 통신 프로토콜에 따라 동작 가능할 수 있다. 이동 단말은 또한 롱 텀 에볼루션(LTE), LTE 어드밴스드(LTE-A), 진화된 유니버설 지상 무선 액세스 네트워크(E-UTRAN) 및/또는 그 밖의 것과 같은 4G 무선 통신 프로토콜에 따라 동작 가능할 수 있다.
TACS(Total Access Communication System)뿐 아니라, 몇몇의 NAMPS(Narrow-band Advanced Mobile Phone System)에서, 이동 단말은 또한 듀얼 또는 고차 모드의 전화(예컨대, 디지털/아날로그 또는 TDMA/CDMA/아날로그 전화)에서와 같이 본 발명의 실시형태로부터 이익을 얻을 수 있다. 또한, 이동 단말(10)은 와이파이(Wi-Fi) 또는 와이맥스(WiMAX) 프로토콜에 따라 동작 가능할 수 있다.
프로세서(20)는 이동 단말(10)의 오디오/비디오 및 논리 기능을 구현하기 위한 회로를 구비할 수 있는 것이 이해된다. 예컨대, 프로세서(20)는 디지털 신호 프로세서 장치, 마이크로프로세서 장치, 아날로그-디지털 변환기, 디지털-아날로그 변환기 및/또는 그 밖의 것을 포함할 수 있다. 이동 단말의 제어 및 신호 처리 기능은 그 각각의 능력에 따라 이들 장치 사이에 할당될 수 있다. 프로세서는 또한 내부 음성 코더(VC)(20a), 내부 데이터 모뎀(DM)(20b) 및/또는 그 밖의 것을 포함할 수 있다. 또한, 프로세서는 메모리에 저장될 수 있는 하나 이상의 소프트웨어 프로그램을 동작시키는 기능을 포함할 수 있다. 예컨대, 프로세서(20)는 웹브라우저와 같은 접속 프로그램을 동작시키는 것이 가능할 수 있다. 접속 프로그램은 이동 단말(10)이 무선 어플리케이션 프로토콜(WAP), 하이퍼텍스트 전송 프로토콜(HTTP) 및/또는 그 밖의 것과 같은 프로토콜에 따라 위치 기반 콘텐츠와 같은 웹 콘텐츠를 송신 및 수신하는 것을 가능하게 한다. 이동 단말(10)은 인터넷 또는 다른 네트워크를 통해 웹 콘텐츠를 송신 및 수신하기 위해 전송 제어 프로토콜/인터넷 프로토콜(TCP/IP)을 사용하는 것이 가능할 수 있다.
이동 단말(10)은 또한 프로세서(20)에 동작 가능하게 결합될 수 있는, 예컨대 이어폰 또는 스피커(24), 링어(ringer)(22), 마이크로폰(26), 디스플레이(28), 사용자 입력 인터페이스 및/또는 그 밖의 것을 포함하는 사용자 인터페이스를 포함할 수 있다. 이와 관련하여, 프로세서(20)는, 예컨대 스피커(24), 링어(22), 마이크로폰(26), 디스플레이(28) 및/또는 그 밖의 것과 같은 사용자 인터페이스의 하나 이상의 요소의 적어도 몇몇의 기능을 제어하도록 구성된 사용자 인터페이스 회로를 포함할 수 있다. 프로세서(20) 및/또는 프로세서(20)를 포함하는 사용자 인터페이스 회로는 프로세서(20)에 접속할 수 있는 메모리(예컨대, 휘발성 메모리(40), 비휘발성 메모리(42) 및/또는 그 밖의 것)에 저장된 컴퓨터 프로그램 명령(예컨대, 소프트웨어 및/또는 펌웨어)을 통해 사용자 인터페이스의 하나 이상의 요소의 하나 이상의 기능을 제어하도록 구성될 수 있다. 도시하지 않지만, 이동 단말은, 이동 단말에 관련되는 다양한 회로, 예컨대 검출 가능한 출력으로서 기계적 진동을 제공하기 위한 회로에 전력을 공급하기 위한 전지를 포함할 수 있다. 사용자 입력 인터페이스는 키패드(30), 터치 디스플레이(도시하지 않음), 조이스틱(도시하지 않음) 및/또는 다른 입력 장치와 같은 이동 단말이 데이터를 수신할 수 있도록 하는 장치를 포함할 수 있다. 키패드를 포함하는 실시형태에서는, 키패드는 숫자(0-9) 및 관련 키(#, *) 및/또는 이동 단말을 동작시키기 위한 다른 키를 포함할 수 있다.
도 2에 나타낸 바와 같이, 이동 단말(10)은 또한 데이터를 공유 및/또는 획득하기 위한 하나 이상의 수단을 포함할 수 있다. 예컨대, 이동 단말은 RF 기술에 따라 데이터에 대한 전자 기기와의 공유 및/또는 전자 기기로부터의 획득이 행해질 수 있도록 단거리 무선 주파수(RF) 송수신기 및/또는 질문기(64)를 포함할 수 있다. 이동 단말은, 예컨대 적외선(IR) 송수신기(66), 블루투스™ 특정 이익 집단에 의해 개발된 블루투스™ 브랜드의 무선 기술을 사용하여 동작하는 블루투스™(BT) 송수신기(68), 무선 유니버설 시리얼 버스(USB) 송수신기(70) 및/또는 그 밖의 것과 같은 다른 단거리 송수신기를 포함할 수 있다. 블루투스™ 송수신기(68)는 극도로 낮은 전력의 블루투스™ 기술(예컨대, Wibree™)의 무선 규격에 따라 동작하는 것이 가능할 수 있다. 이와 관련하여, 이동 단말(10) 및 특히 단거리 송수신기는, 예컨대 10미터 이내와 같은 이동 단말의 근방 내의 전자 기기에 대한 데이터의 송신 및/또는 데이터의 수신이 가능할 수 있다. 도시하지 않지만, 이동 단말은 와이파이(Wi-Fi), IEEE 802.11 기술, IEEE 802.15 기술, IEEE 802.16 기술과 같은 WLAN 기술 및/또는 그 밖의 것을 포함하는 다양한 무선 네트워킹 기술에 따라 전자 장치에 대한 데이터의 송신 및/또는 데이터의 수신이 가능할 수 있다.
이동 단말(10)은 프로세서(20)와 통신하는 카메라, 비디오 및/또는 오디오 모듈과 같은 매체 캡처 소자를 포함할 수 있다. 매체 캡처 소자는 저장, 표시 또는 송신을 위한 화상, 비디오 및/또는 오디오를 캡처하기 위한 모든 수단을 포함할 수 있다. 예컨대, 매체 캡처 소자가 카메라 모듈(36)을 포함하는 몇몇의 예시적인 실시형태에 있어서, 카메라 모듈(36)은 캡처된 화상으로부터 디지털 화상 파일을 형성하도록 구성된 디지털 카메라를 포함할 수 있다. 또한, 카메라 모듈(36)의 디지털 카메라는 비디오 클립을 캡처하도록 구성될 수 있다. 이와 같이, 카메라 모듈(36)은 렌즈 또는 다른 광학 부품(들)과 같은 모든 하드웨어 및 캡처된 화상으로부터의 디지털 화상 파일과 캡처된 비디오 클립으로부터의 디지털 비디오 파일을 생성하기 위해 필요한 소프트웨어를 포함할 수 있다. 혹은, 카메라 모듈(36)은 화상을 보기 위해 필요한 하드웨어만을 포함할 수 있고, 이동 단말(10)의 메모리 장치는 프로세서(20)에 의한 실행을 위한 명령을 캡처된 화상으로부터 디지털 화상 파일을 생성하기 위해 필요한 소프트웨어의 형태로 저장한다. 또 다른 대안으로서, 물체 또는 카메라 모듈(36)의 시야 내의 물체는 사용자가 소망하는 경우에 캡처될 수 있는 현재 표시 중인 화상의 표시를 나타내기 위해 이동 단말(10)의 디스플레이(28)에 표시될 수 있다. 이와 같이, 캡처된 화상은, 예컨대 카메라 모듈(36)에 의해 캡처되어 화상 파일에 저장된 화상을 포함할 수 있다. 다른 예로서, 캡처된 화상은 물체 또는 이동 단말(10)의 디스플레이 또는 뷰파인더에 의해 현재 표시되는 물체를 포함할 수 있지만, 반드시 화상 파일에 저장되지 않는다. 몇몇의 예시적인 실시형태에서는, 카메라 모듈(36)은 또한 화상 데이터를 처리할 때에 프로세서(20)를 지원하도록 구성된 코프로세서 및 화상 데이터를 압축 및/또는 신장하기 위한 인코더 및/또는 디코더와 같은 처리 요소를 포함할 수 있다. 인코더 및/또는 디코더는, 예컨대 공동 영상 전문가 그룹(JPEG) 규격, 동화상 전문가 그룹(MPEG) 규격, 또는 다른 포맷에 따라 부호화 및/또는 복호화를 행할 수 있다.
이동 단말(10)은 이동 가입자에 관련되는 정보 요소를 저장할 수 있는 가입자 식별 모듈(SIM)(38), 이동 가능 사용자 식별 모듈(R-UIM) 및/또는 그 밖의 것과 같은 메모리를 포함할 수 있다. SIM에 더하여, 이동 단말은 다른 이동 가능 및/또는 고정 메모리를 포함할 수 있다. 이동 단말(10)은 휘발성 메모리(40) 및/또는 비휘발성 메모리(42)를 포함할 수 있다. 예컨대, 휘발성 메모리(40)는 동적 및/또는 정적 RAM, 온칩 또는 오프칩 캐시 메모리 및/또는 그 밖의 것을 포함하는 등의 랜덤 액세스 메모리(RAM)를 포함할 수 있다. 내장 및/또는 이동 가능 비휘발성 메모리(42)는, 예컨대 리드 온리 메모리, 플래시 메모리, 자기 기억 장치(예컨대, 하드디스크, 플로피디스크 드라이브, 자기 테이프 등), 광학 디스크 드라이브 및/또는 매체, 비휘발성 랜덤 액세스 메모리(NVRAM) 및/또는 그 밖의 것을 포함할 수 있다. 휘발성 메모리(40)와 마찬가지로 비휘발성 메모리(42)는 데이터의 일시 저장을 위한 캐시 영역을 포함할 수 있다. 메모리는 이동 단말의 기능을 실행하기 위해 이동 단말에 의해 사용될 수 있는 하나 이상의 소프트웨어 프로그램, 명령, 정보의 조각, 데이터 및/또는 그 밖의 것을 기억할 수 있다. 예컨대, 메모리는 이동 단말(10)을 독자적으로 식별할 수 있는 국제 모바일 기기 식별(IMEI) 코드와 같은 식별자를 포함할 수 있다.
도 1로 되돌아가서, 몇몇의 예시적인 실시형태에서는, 텍스트 검출 장치(102)는 본 명세서에 기재된 다양한 기능을 실행하기 위한 다양한 수단을 포함한다. 이들 수단은 하나 이상의 프로세서(110), 메모리(112), 통신 인터페이스(114), 사용자 인터페이스(116), 화상 캡처 회로(118), 또는 검출 회로(120)를 포함할 수 있다. 본 명세서에 기재된 텍스트 검출 장치(102)의 수단은, 예컨대 회로, 하드웨어 요소(예컨대, 적절하게 프로그램된 프로세서, 조합 논리 회로 및/또는 그 밖의 것), 적절하게 구성된 처리 장치(예컨대, 프로세서(110))에 의해 실행될 수 있는 컴퓨터 판독 가능한 프로그램 명령(예컨대, 소프트웨어 또는 펌웨어)을 기억하는 컴퓨터 판독 가능한 매체(예컨대, 메모리(112))를 포함하는 컴퓨터 프로그램 제품, 또는 그들의 몇몇의 조합으로서 구현될 수 있다.
몇몇의 예시적인 실시형태에서는, 도 3에 도시된 수단의 1개 이상이 칩 또는 칩셋으로서 구현될 수 있다. 다시 말해서, 통신 장치(102)는 구조 어셈블리(예컨대, 베이스보드)상의 재료, 성분 및/또는 와이어를 포함하는 하나 이상의 물리 패키지(예컨대, 칩)를 포함할 수 있다. 구조 어셈블리는 물리적 강도, 사이즈의 보존 및/또는 그것에 포함되는 컴포넌트 회로의 전기적 상호 작용의 제한을 제공할 수 있다. 이와 관련하여, 프로세서(110), 메모리(112), 통신 인터페이스(114), 사용자 인터페이스(116), 화상 캡처 회로(118) 및 검출 회로(120)의 1개 이상, 또는 그들의 몇몇의 조합은 그 칩 또는 칩셋으로서 구현될 수 있다. 따라서, 텍스트 검출 장치(102)는, 몇몇의 예시적인 실시형태에서, 본 발명의 실시형태를 하나의 칩에 또는 하나의 "시스템 온 칩"으로서 구현하도록 구성될 수 있다. 다른 예로서, 몇몇의 예시적인 실시형태에서, 텍스트 검출 장치(102)는 본 발명의 실시형태를 하나의 칩에 또는 하나의 "시스템 온 칩"으로서 구현하도록 구성된 부품(들)을 포함할 수 있다. 이와 같이, 몇몇의 경우에는, 칩 또는 칩셋은 본 명세서에 기재된 기능을 제공하기 위한 하나 이상의 동작의 실행 및/또는 본 명세서에 기재된 기능 및/또는 서비스에 대한 사용자 인터페이스 내비게이션의 인에이블링을 위한 수단을 구성할 수 있다.
프로세서(110)는, 예컨대 디지털 신호 프로세서(들)를 동반하는 하나 이상의 마이크로프로세서, 디지털 신호 프로세서를 동반하지 않는 하나 이상의 프로세서(들), 하나 이상의 코프로세서, 하나 이상의 멀티 코어 프로세서, 하나 이상의 제어 장치, 처리 회로, 하나 이상의 컴퓨터, 예컨대 ASIC(특정 용도용 집적 회로) 또는 FPGA(필드 프로그래머블 게이트 어레이)와 같은 집적 회로를 포함하는 다양한 다른 처리 요소, 또는 그 몇몇의 조합을 포함하는 다양한 수단으로서 구현될 수 있다. 따라서, 하나의 프로세서로서 도 1에 도시되지만, 몇몇의 실시형태에 있어서 프로세서(110)는 복수의 프로세서를 포함한다. 복수의 프로세서는 서로 동작적으로 통신할 수 있고, 본 명세서에 기재된 바와 같이 텍스트 검출 장치(102)의 하나 이상의 기능을 실행하도록 집합적으로 구성될 수 있다. 복수의 프로세서는 하나의 연산 장치에 구현될 수 있고 또는 텍스트 검출 장치(102)로서 기능하도록 집합적으로 구성된 복수의 연산 장치에 걸쳐 분산될 수 있다. 텍스트 검출 장치(102)가 이동 단말(10)로서 구현되는 실시형태에서는, 프로세서(110)는 프로세서(20)로서 구현될 수 있거나 또는 프로세서(20)를 포함할 수 있다. 몇몇의 예시적인 실시형태에서, 프로세서(110)는 메모리(112)에 저장된 명령을 실행하도록 구성될 수 있거나 또는 프로세서(110)에 액세스 가능할 수 있다. 이들 명령은, 프로세서(110)에 의해 실행되면, 텍스트 검출 장치(102)가 본 명세서에 기재된 바와 같이 텍스트 검출 장치(102)의 기능의 1개 이상을 실행하게 한다. 이와 같이, 하드웨어 또는 소프트웨어 방법에 의해 구성되든지, 또는 그 조합에 의해 구성되든지, 프로세서(110)는 적절하게 설정되면서 본 발명의 실시형태에 따른 동작을 행하는 것이 가능한 개체를 포함할 수 있다. 따라서, 예컨대, 프로세서(110)가 ASIC, FPGA 등으로서 구현되는 경우, 프로세서(110)는 본 명세서에 기재되는 하나 이상의 동작을 행하기 위해 특별히 구성되는 하드웨어를 포함할 수 있다. 혹은, 다른 예로서, 프로세서(110)가, 예컨대 메모리(112)에 저장될 수 있는 명령의 실행기로서 구현되는 경우, 명령은 본 명세서에 기재되는 하나 이상의 알고리즘 및 동작을 실행하는 프로세서(110)를 특별히 구성할 수 있다.
메모리(112)는, 예컨대 휘발성 메모리, 비휘발성 메모리, 또는 그들의 조합을 포함할 수 있다. 이와 관련하여, 메모리(112)는 비일시적인 컴퓨터 판독 가능한 기억 매체를 포함할 수 있다. 하나의 메모리로서 도 1에 도시되지만, 메모리(112)는 복수의 메모리를 포함할 수 있다. 복수의 메모리는 하나의 연산 장치에 구현될 수 있거나, 또는 텍스트 검출 장치(102)로서 기능하도록 집합적으로 구성된 복수의 연산 장치에 걸쳐 분산될 수 있다. 다양한 예시적인 실시형태에서, 메모리(112)는, 예컨대 하드디스크, 랜덤 액세스 메모리, 캐시 메모리, 플래시 메모리, 콤팩트디스크 리드 온리 메모리(CD-ROM), 디지털 다기능 디스크 리드 온리 메모리(DVD-ROM), 광학 디스크, 정보를 저장하도록 구성된 회로, 또는 이들의 몇몇의 조합을 포함할 수 있다. 텍스트 검출 장치(102)가 이동 단말(10)로서 구현되는 실시형태에 있어서, 메모리(112)는 휘발성 메모리(40) 및/또는 비휘발성 메모리(42)를 포함할 수 있다. 메모리(112)는 텍스트 검출 장치(102)가 다양한 예시적인 실시형태에 따라 다양한 기능을 실행하게 하기 위해 정보, 데이터, 어플리케이션, 명령 등을 저장하도록 구성될 수 있다. 예컨대, 적어도 몇몇의 실시형태에서, 메모리(112)는 프로세서(110)에 의한 처리를 위해 입력 데이터를 버퍼링하도록 구성된다. 추가적 또는 대체적으로, 적어도 몇몇의 실시형태에서, 메모리(112)는 프로세서에 의한 실행을 위한 프로그램 명령을 저장하도록 구성될 수 있다(110). 메모리(112)는 정적 및/또는 동적 정보의 형식으로 정보를 저장할 수 있다. 저장된 정보는, 예컨대 얼굴 검출, 화상, 비디오, 비디오 프레임 및/또는 그 밖의 것을 위해 사용되는 모델을 포함할 수 있다. 이 저장된 정보는 그 기능을 실행하는 과정 중에 화상 캡처 회로(118) 및/또는 검출 회로(120)에 의해 저장 및/또는 사용될 수 있다.
통신 인터페이스(114)는 회로, 하드웨어, 적절하게 구성된 처리 장치(예컨대, 프로세서(110))에 의해 실행될 수 있는 컴퓨터 판독 가능한 프로그램 명령(예컨대, 소프트웨어 또는 펌웨어)을 저장하는 컴퓨터 판독 가능한 매체(예컨대 메모리(112))를 포함하는 컴퓨터 프로그램 제품, 또는 다른 연산 장치로부터의 데이터의 수신 및/또는 다른 연산 장치로의 데이터의 송신을 행하도록 구성되는 그들의 조합에 구현되는 모든 장치 또는 수단으로서 구현될 수 있다. 예컨대, 통신 인터페이스(114)는 네트워크를 통해 화상 또는 비디오를 나타내는 데이터를 수신하도록 구성될 수 있다. 이와 관련하여, 텍스트 검출 장치(102)가 서버, 네트워크 노드 등을 포함하는 실시형태에 있어서, 통신 인터페이스(114)는 하나 이상의 예시적인 실시형태에 따라 화상 내의 텍스트를 검출하기 위해 텍스트 검출 장치(102)에 의해 처리될 수 있는 화상을 수신하기 위해 원격 화상 소스(예컨대, 화상 소스(304))와 통신하도록 구성될 수 있다. 몇몇의 예시적인 실시형태에서, 통신 인터페이스(114)는 프로세서(110)로서 적어도 부분으로서 구현될 수 있거나 또는 프로세서(110)에 의해 제어될 수 있다. 이와 관련하여, 통신 인터페이스(114)는, 예컨대 버스를 통해 프로세서(110)와 통신할 수 있다. 통신 인터페이스(114)는, 예컨대 안테나, 송신기, 수신기, 송수신기 및/또는 하나 이상의 리모트 연산 장치와의 통신을 가능하게 하기 위한 지원 하드웨어 또는 소프트웨어를 포함할 수 있다. 통신 인터페이스(114)는 연산 장치 사이의 통신을 위해 사용될 수 있는 모든 프로토콜을 사용하여 데이터를 수신 및/또는 송신하도록 구성될 수 있다. 이와 관련하여, 통신 인터페이스(114)는 텍스트 검출 장치(102) 및 하나 이상의 연산 장치가 통신할 수 있는 무선 네트워크, 유선 네트워크, 그들의 몇몇의 조합 등을 통해 데이터의 송신을 위해 사용될 수 있는 모든 프로토콜을 사용하여 데이터를 수신 및/또는 송신하도록 구성될 수 있다. 통신 인터페이스(114)는 또한 예컨대 버스(들)를 통해 메모리(112), 사용자 인터페이스(116), 화상 캡처 회로(118) 및/또는 검출 회로(120)와 통신할 수 있다.
사용자 인터페이스(116)는 사용자 입력의 표시를 수신하고 또한/또는 청각적, 시각적, 기계적, 또는 다른 출력을 사용자에게 제공하기 위해 프로세서(110)와 통신할 수 있다. 이와 같이, 사용자 인터페이스(116)는, 예컨대 키보드, 마우스, 조이스틱, 디스플레이, 터치스크린 디스플레이, 마이크로폰, 스피커 및/또는 다른 입력/출력 기구를 포함할 수 있다. 사용자 인터페이스(116)가 터치스크린 디스플레이(116)를 포함하는 실시형태에서는, 사용자 인터페이스는 또한 터치 제스처의 표시 또는 터치스크린 디스플레이로의 다른 입력을 검출 및/또는 수신하도록 구성될 수 있다. 텍스트 검출 장치(102)가 하나 이상의 서버로서 구현되는 실시형태에서는, 사용자 인터페이스(116)의 측면은 저감될 수 있거나 또는 사용자 인터페이스(116)는 제거될 수도 있다. 사용자 인터페이스(116)는, 예컨대 버스(들)를 통해 메모리(112), 통신 인터페이스(114), 화상 캡처 회로(118) 및/또는 검출 회로(120)와 통신할 수 있다.
몇몇의 예시적인 실시형태에서, 텍스트 검출 장치(102)는 화상 캡처 회로(118)를 포함할 수 있다. 하지만, 몇몇의 예시적인 실시형태에서, 화상 캡처 회로(118)는 제외될 수 있는 것이 이해될 것이다. 화상 캡처 회로(118)는 회로, 하드웨어, 적절하게 구성된 처리 장치(예컨대, 프로세서(110))에 의해 실행될 수 있는 컴퓨터 판독 가능한 프로그램 명령(예컨대, 소프트웨어 또는 펌웨어)을 저장하는 컴퓨터 판독 가능한 매체(예컨대 메모리(112))를 포함하는 컴퓨터 프로그램 제품, 또는 그들의 몇몇의 조합과 같은 다양한 수단으로서 구현될 수 있고, 또한 한 실시형태에서는 프로세서(110)로서 구현되거나 또는 프로세서(110)에 의해 제어된다. 화상 캡처 회로(118)가 프로세서(110)와 별도로 구현되는 실시형태에서, 화상 캡처 회로(118)는 프로세서(110)와 통신할 수 있다. 화상 캡처 회로(118)는 또한 예컨대 버스(들)를 통해 메모리(112), 통신 인터페이스(114), 사용자 인터페이스(116), 또는 검출 회로(120)의 1개 이상과 통신할 수 있다.
화상 캡처 회로(118)는 화상 및/또는 비디오를 캡처하도록 구성된 하드웨어를 포함할 수 있다. 이와 관련하여, 화상 캡처 회로(118)는 디지털 화상을 캡처하기 위한 카메라 렌즈 및/또는 다른 광학 부품을 포함할 수 있다. 다른 예로서, 화상 캡처 회로(118)는 회로, 하드웨어, 컴퓨터 프로그램 제품 또는 텍스트 검출 장치(102)에 구현될 수 있거나 또는 텍스트 검출 장치(102)에 동작 가능하게 연결될 수 있는 별개의 카메라 모듈에 의해 화상의 캡처를 지시하도록 구성되는 그들의 몇몇의 조합을 포함할 수 있다. 텍스트 검출 장치(102)가 이동 단말(10)로서 구현되는 실시형태에서, 화상 캡처 회로(118)는 카메라 모듈(36)을 포함할 수 있고 또한/또는 카메라 모듈(36)에 의해 화상의 캡처를 제어하도록 구성될 수 있다.
검출 회로(120)는 회로, 하드웨어, 적절하게 구성된 처리 장치(예컨대, 프로세서(110))에 의해 실행될 수 있는 컴퓨터 판독 가능한 프로그램 명령(예컨대, 소프트웨어 또는 펌웨어)을 저장하는 컴퓨터 판독 가능한 매체(예컨대, 메모리(112))를 포함하는 컴퓨터 프로그램 제품, 또는 그들의 몇몇의 조합과 같은 다양한 수단으로서 구현될 수 있고, 또한 한 실시형태에서는, 프로세서(110)로서 구현되거나 또는 프로세서(110)에 의해 제어된다. 검출 회로(120)가 프로세서(110)와 별개로 구현되는 실시형태에서, 검출 회로(120)는 프로세서(110)와 통신할 수 있다. 검출 회로(120)는 또한 예컨대 버스(들)를 통해 예컨대 메모리(112), 통신 인터페이스(114), 사용자 인터페이스(116) 또는 화상 캡처 회로(118)의 1개 이상과 통신할 수 있다.
도 3은 몇몇의 예시적인 실시형태에 따른 텍스트 검출을 실행하기 위한 시스템(300)을 나타낸다. 시스템(300)은 네트워크(306)를 통해 통신하도록 구성된 텍스트 검출 장치(302) 및 화상 소스(304)를 포함한다. 텍스트 검출 장치(302)는, 예컨대 텍스트 검출 장치(102)의 실시형태를 포함할 수 있고, 텍스트 검출 장치(102)는 화상 내의 텍스트를 검출하기 위해 네트워크(306)를 통해 화상을 수신하고 또한/또는 화상 소스(304)로부터의 화상에 액세스하도록 구성될 수 있다. 네트워크(306)는 유선 네트워크, 무선 네트워크(예컨대, 셀룰러 네트워크, 무선 근거리 네트워크, 무선 광역 네트워크, 그들의 조합 등), 또는 그들의 조합을 포함할 수 있고, 몇몇의 예시적인 실시형태에서는 인터넷을 포함할 수 있다.
화상 소스(304)는 텍스트 검출 장치(302)에 화상을 제공하기 위해 네트워크(306)에 액세스하고 텍스트 검출 장치(302)와 통신하도록 구성된 모든 연산 장치를 포함할 수 있다. 이와 관련하여, 화상 소스(304)는 화상을 캡처 및/또는 저장하도록 구성될 수 있는 모든 장치를 포함할 수 있다. 예컨대, 화상 소스(304)는, 예컨대 데스크톱 컴퓨터, 랩톱 컴퓨터, 이동 단말, 모바일 컴퓨터, 휴대 전화, 이동 통신 장치, 태블릿 연산 장치, 이동 단말(10), 게임기, 디지털 카메라/캠코더, 오디오/비디오 플레이어, 텔레비전 장치, 카메라 장치, 디지털 비디오 레코더, 네트워크 접속 기억 장치, 그들의 임의의 조합 및/또는 그 밖의 것으로서 구현될 수 있다.
이와 같이, 도 3에 도시된 예시적인 시스템에서, 텍스트 검출 장치(302)는 화상 소스(304)로부터의 화상(예컨대, 정지 화상, 비디오 클립, 비디오 프레임 및/또는 그 밖의 것)으로의 액세스 및/또는 그것의 수신을 행하도록 구성될 수 있다. 텍스트 검출 장치(302)(예컨대, 검출 회로(120))는 텍스트 검출 장치(102)에 관하여 본 명세서에서 이하에 설명되는 실시형태의 하나에 따라서 수신된 화상 내의 텍스트를 검출하기 위해 텍스트 검출 동작을 실행하도록 구성될 수 있다. 몇몇의 예시적인 실시형태에서, 텍스트 검출 장치(302)(예컨대, 검출 회로(120) 및/또는 통신 인터페이스(114))는 또한 텍스트 검출 장치(302)에 의해 실행되는 텍스트 검출의 결과를 화상 소스(304)에 송신하도록 구성될 수 있다.
몇몇의 예시적인 실시형태에서, 화상 소스(304)는 텍스트 검출 장치(302)에 의해 제공될 수 있는 텍스트 검출 기능에 액세스하도록 구성될 수 있는 사용자 단말을 포함할 수 있다. 이와 관련하여, 몇몇의 예시적인 실시형태에 따라 실행될 수 있는 적어도 몇몇의 화상 처리 동작은 서버에 의해 실행되는 클라우드 기반의 동작을 포함할 수 있다. 따라서, 예컨대, 몇몇의 예시적인 실시형태에서, 텍스트 검출 서비스는 실제의 텍스트 검출 동작이 최종 사용자의 장치에서 실행되는 것을 필요로 하는 일 없이 몇몇의 예시적인 실시형태에 따라 최종 사용자에게 제공될 수 있다.
다른 예로서, 시스템(300)의 몇몇의 예시적인 실시형태에서, 검출 회로(120)의 측면은 화상 소스(304)와 텍스트 검출 장치(302)의 사이에 분산될 수 있다. 이와 관련하여, 하나 이상의 예시적인 실시형태에 따라서 화상 내의 텍스트 검출을 실행하기 위한 작업은 분할될 수 있고 또한/또는 텍스트 검출 장치(302)와 화상 소스(304)의 사이에 분산될 수 있다.
따라서, 텍스트 검출 장치(102)가, 화상 내의 텍스트를 검출하는 것, 화상의 영역이 텍스트를 포함하는 영역인지 여부를 분류하는 것 및/또는 그 밖의 것으로 기재되는 경우, 화상은 예컨대 텍스트 검출 장치(102)에 의해(예컨대, 화상 캡처 회로(118)에 의해) 캡처된 화상, 텍스트 검출 장치(102)에 액세스 가능한 국소적으로 저장된 화상(예컨대, 메모리(112)에 저장된 화상), 네트워크를 통해 원격 화상 소스로부터(예컨대, 화상 소스(304)로부터) 수신 및/또는 액세스될 수 있는 화상 및/또는 그 밖의 것을 포함할 수 있는 것이 이해될 것이다.
몇몇의 예시적인 실시형태에서, 텍스트 검출 장치(102)는 화상 내의 텍스트의 인식에 영향을 미칠 수 있는 폰트, 스타일, 시점, 배경 콘트라스트 및/또는 다른 인자와는 무관할 수 있는 텍스트의 특성을 캡처하는 모델에 따라 화상(예컨대, 정지화상, 영상, 비디오 프레임 및/또는 그 밖의 것) 내의 텍스트를 검출하도록 구성될 수 있다. 이와 관련하여, 몇몇의 예시적인 실시형태는 다양한 폰트, 텍스트 스타일, 텍스트와 화상 배경 사이의 콘트라스트, 또는 화상에서 텍스트가 캡처된 시점의 사이에서 실질적으로 변화하지 않을 수 있는 텍스트의 일반적 특성에 입각할 수 있는 모델에 적어도 부분적으로 근거하는 텍스트 검출을 제공할 수 있다. 이들 특성은 예컨대 다음과 같은 것을 포함할 수 있다.
ㆍ획 폭(stroke width)은 텍스트 전체에서 전반적으로 상당히 일정하다.
ㆍ문자 높이는 텍스트 전체에서 전반적으로 상당히 일정하다.
ㆍ문자 간격은 전반적으로 상당히 일정하다.
ㆍ가독성은, 주어진 텍스트 높이에 대하여, 획 폭 및 문자 간격이 너무 크거나 너무 작지 않도록, 대응하는 획 폭 및 문자 간격이 높이에 비례할 수 있는 것에 영향을 준다.
ㆍ화상 내의 텍스트를 둘러싸는 경계 영역(예컨대, 박스)은, 텍스트 아래에 있는 배경의 몇몇의 타입의 존재를 상정하여, 강도에 있어서 2가지 모드가 있을 수 있다.
도 4를 참조하면, 도 4는 캡처된 화상 내의 텍스트에 대한 영향 변수 및 효과를 설명하기 위해 사용될 수 있는 몇몇의 예시적인 실시예예 따른 언어 생성을 예시적인 베이지안 네트워크를 나타낸다. 도 4에 도시된 바와 같이, 변수(402~418) 중 하나 이상의 모든 조합은 텍스트 형상(text geometry)(320)에 영향을 줄 수 있다. 보다 구체적으로, 텍스트 형상(320)에 영향을 주는 변수는 텍스트에 사용되는 알파벳(402)(예컨대, 로마자, 중국어 문자, 키릴 문자 및/또는 그 밖의 것), 텍스트의 스타일(404)(예컨대, 볼드, 이탤릭 및/또는 그 밖의 것), 텍스트에 사용되는 폰트(406), 텍스트를 포함하는 텍스트 박스 또는 다른 영역의 높이(408)(예컨대, 텍스트의 문자의 높이), 텍스트의 문자를 포함하는 획(410)의 길이, 텍스트의 문자의 크기 변경된 획 폭(412), 텍스트의 문자 사이의 간격(414), 문자에 대한 문자 폭(416), 텍스트 단편 내의 문자의 수(418)를 포함할 수 있다.
배경색(422) 및 텍스트색(424)과 같은 텍스트 외관 인자에 덧붙여, 텍스트 형상(420)은, 그것이 현실 세계에 존재할 수 있기 때문에, 결국 3차원(3D) 텍스트 단편(426)의 특성에 영향을 줄 수 있다. 결국, 3D 텍스트 단편(426)의 화상에서 캡처될 수 있는 2차원(2D) 텍스트 단편(434)의 생성은 3D 텍스트 단편(426)의 현실 세계의 외관 및 화상이 캡처되는 화상 처리에 영향을 줄 수 있는 변수(428~432)와 같은 변수에 영향을 받을 수 있다. 보다 구체적으로는, 화상 처리에 영향을 줄 수 있는 변수는 화상이 캡처된 시점(428), 카메라 측광 특성(430), 캡처된 화상의 장면의 조명(432) 및/또는 그 밖의 것을 포함할 수 있다.
상술한 베이지안 네트워크를 고려해 볼 때, 몇몇의 랜덤 변수는 텍스트의 고유의 형상적 특성을 서술할 수 있는 몇몇의 예시적인 실시형태에 따라서 정의될 수 있다. 이들 변수는 다음과 같은 것을 포함할 수 있다.
H=문자의 높이(예컨대, 도 4의 노드(408))
L=λH=문자의 골격의 총 곡선의 길이로서 정의될 수 있는 문자의 1차원(1D) 길이(예컨대, 도 4의 노드(410))
B=βΗ=문자의 폭(예컨대, 도 4의 노드(416))
S=ψΗ=문자의 획 폭(예컨대, 도 4의 노드(412))
D=δΗ=인접 문자 사이의 간격(예컨대, 도 4의 노드(414))
m=단어 또는 다른 텍스트 단편 내의 문자의 수(예컨대, 도 4의 노드(418))
상술한 정의에서의 수량 λ, β, ψ, δ는 각각의 텍스트 특성을 나타내는 확률 변수로서 정의될 수 있다. 이와 관련하여, λ는 텍스트 높이에 대한 문자 길이를 나타낼 수 있다. β는 텍스트 높이에 대한 문자 길이를 나타낼 수 있다. ψ는 텍스트 높이에 대한 문자 폭을 나타낼 수 있다. δ는 텍스트 높이에 대한 문자간의 간격을 나타낼 수 있다. 알파벳(예컨대, 영어, 중국어 등), 스타일(즉, 볼드, 이탤릭, 보통 모양) 및 폰트(예컨대, 에어리얼, 쿠리어 등)의 선택을 고려해 볼 때, 선택은 λ, β, ψ, δ에 대한 확률 분포에 맵핑한다. 따라서, 문자의 수 m을 고려해 볼 때, m개의 경우가 단어에 대한 문자의 세트를 생성하기 위해 4개의 확률 분포로부터 도출될 수 있다. 따라서, 몇몇의 예시적인 실시형태는 배경색(422) 및 텍스트색(424)과 같은 텍스트 외관 영향 변수 및 시점(428), 카메라 측광(430), 조명(432)과 같은 화상 처리 영향 변수에 대하여 로버스트(robust)한 방식의 텍스트의 검출을 제공하기 위해 이와 같은 텍스트의 형상적 특성을 사용할 수 있다.
이와 관련하여, 몇몇의 예시적인 실시형태에 따르면, 화상 내의 텍스트 단편은, 도 4의 문맥에서 설명된 바와 같이, 특정한 알파벳, 폰트, 스타일을 고려해 볼 때 텍스트의 고유의 특성일 수 있는 곡선의 문자 길이 분포(λ), 문자 폭 분포(β), 문자간의 간격 분포(δ)의 함수인 확률 변수로서 정의될 수 있는 알파값(α)을 이용하여 모델화될 수 있다. 알파값의 도출은 다음과 같이 입증될 수 있다.
화상 내의 단어 또는 다른 텍스트 단편을 고려해 볼 때, 텍스트 단편(예컨대, 텍스트 박스)을 포함하는 화상 영역 내의 텍스트 단편의 문자에 의해 점유되는 면적은 이하와 같이 정의될 수 있다.
Figure pct00001
텍스트 단편(예컨대, 텍스트 박스)을 포함하는 총 화상 영역에 의해 점유되는 면적은 이하와 같이 정의될 수 있다.
Figure pct00002
텍스트 단편을 포함하는 화상 영역에 의해 점유되는 면적의 텍스트 단편에 의해 점유되는 면적에 대한 비율은 점유율(ω)로 불릴 수 있다. 점유율은 이하와 같이 정의될 수 있다.
Figure pct00003
검출 회로(120)는 텍스트 단편으로부터의 점유율을 자명하게 산출하도록 구성될 수 있다. 예컨대, 검출 회로(120)는 텍스트 단편의 화소에 의해 점유되는 면적 및 텍스트 단편을 포함하는 화상 영역(예컨대, 텍스트 박스)의 화소에 의해 점유되는 면적을 카운트하도록 구성될 수 있다. 따라서, 점유율은 수량 λ, β, ψ, δ를 직접 산출하지 않고서 산출될 수 있다.
따라서, 점유율 및 획 폭 ψ를 고려해 볼 때, 알파값은 이하와 같이 정의될 수 있다.
Figure pct00004
따라서, 보여진 바와 같이, 알파값은, 특정한 알파벳, 폰트, 스타일을 고려해 볼 때 텍스트의 고유의 특성인 곡선의 문자 길이 분포(λ), 문자 폭 분포(β), 문자간의 간격 분포(δ)의 함수로서 정의될 수 있다. 알파값은 보다 유의한 변동을 보일 수 있는 획 폭에 대하여 변함이 없다. 몇몇의 예시적인 실시형태에 따르면, 소정의 알파벳 내의 서로 다른 폰트나 스타일에 걸쳐, 가독성의 제약이 α의 확산을 제한하는 것이 예상된다. 따라서, 본 명세서에서 이하에 더 설명되는 바와 같이, 알파값은 화상 내의 텍스트의 검출을 용이하게 하기 위해 몇몇의 예시적인 실시형태에 있어서의 검출 회로(120)에 의해 사용될 수 있다.
하지만, 식 [4]에 의해 보여진 바와 같이, 검출 회로(120)가 곡선의 문자 길이 분포(λ), 문자 폭 분포(β), 문자간의 간격 분포(δ)를 산출할 필요 없이 점유율 및 획 폭에 근거하여 알파값을 산출할 수 있도록, 산출의 복잡성이 감소될 수 있다고 하는 것이 주목될 것이다. 이와 관련하여, 전술한 바와 같이 점유율은 검출 회로에 의해 자명하게 산출될 수 있다. 검출 회로(120)는 알파값을 산출하기 위해 다양한 방법 중 하나로 소정의 텍스트 단편 또는 가설 텍스트 단편에 대하여 획 폭 ψ를 산출하도록 구성될 수 있다. 예컨대, 소정의 텍스트 단편에 대한 획 폭은 텍스트 단편에 걸쳐 인가될 수 있는 하나 이상의 주사선에 적어도 부분적으로 근거하여 결정될 수 있다. 몇몇의 예시적인 실시형태에서, 획 폭은 그 가장 가까운 배경 화소까지의 거리를 갖는 각 전경 화소(예컨대, 가설 텍스트 화소)를 분류하기 위해 화상 영역의 2치 화상에 유클리드 거리 변환을 적용하는 것에 의해 산출될 수 있다. 거리값은 획의 중심선을 따라서 최대에 도달할 수 있다. 이와 같이, 최대치는 획의 폭의 절반에 대응할 수 있다. 따라서, 획 폭은 이 최대치에 적어도 부분적으로 근거하여 결정될 수 있다. 예컨대, 몇몇의 예시적인 실시형태에서, 획 폭 정보는 획 폭의 결정을 가능하게 하기 위해, "비탈 아래(downhill)" 방향을 따라 최대치 화소로부터 가설 텍스트의 경계에 전파될 수 있다. 따라서 검출 회로(120)는 몇몇의 예시적인 실시형태에서 식 [4]에서와 같이 텍스트 단편에 대한 점유율을 텍스트 단편에 대한 획 폭으로 나누는 것에 의해 알파값을 산출하도록 구성될 수 있다.
텍스트를 모델화하기 위해 사용될 수 있는 알파값을 결정하기 위해 텍스트의 형상적 속성이 어떻게 적용될 수 있는지 설명했지만, 몇몇의 예시적인 실시형태에 따라 화상 내의 텍스트의 검출을 가능하게 하기 위한 알파값의 적용이 설명될 것이다. 몇몇의 예시적인 실시형태에서, 검출 회로(120)는 가설 텍스트 단편을 포함하는 화상 영역을 결정하도록 구성될 수 있다. 화상 영역은, 예컨대 텍스트 박스를 포함할 수 있다. 하지만, 가설 텍스트 단편을 포함하는 화상 내의 모든 기하학 영역은 몇몇의 예시적인 실시형태에 따라서 결정될 수 있는 것이 이해될 것이다.
몇몇의 예시적인 실시형태에서, 검출 회로(120)는 화상 내의 텍스트 문자 및 그 위치를 검출할 가능성이 있는 텍스트 가설 생성기를 구현하도록 구성된 별도의 텍스트 가설 생성기에 의해 식별되는 화상 영역을 수신하는 것에 의해 화상 영역을 결정하도록 구성될 수 있다. 이와 관련하여, 텍스트 가설 생성기는 화상 영역 내의 가설 텍스트 단편이 텍스트인지 여부를 분류하기 위한 검출 회로(120)에 가설 텍스트 단편을 포함하는 식별된 화상 영역을 제공하도록 구성될 수 있다. 별도의 텍스트 가설 생성기는, 예컨대 텍스트 검출 장치(102)에 구현될 수 있고, 프로세서(110)에 의해 구현될 수 있다. 혹은, 텍스트 가설 생성기는 텍스트 검출 장치(102)로부터 떨어져 있을 수 있는 화상 소스(304)와 같은 별도의 개체에 구현될 수 있다.
추가적 또는 대체적으로, 몇몇의 예시적인 실시형태에서, 검출 회로(120)는 화상을 해석하고 텍스트 단편을 포함하도록 가설이 세워진 화상 내의 화상 영역을 식별하도록 구성될 수 있다. 이와 관련하여, 몇몇의 예시적인 실시형태에서, 검출 회로(120)는 가설 텍스트가 실제로 텍스트인지 여부를 분류하기 위해 화상 내의 가설 텍스트 문자 및 그들의 위치를 식별할 수 있는 텍스트 가설 생성기를 구현하도록 구성될 수 있다. 화상 영역을 식별할 때에, 검출 회로(120)는, 예컨대 화상에 슬라이딩 윈도우를 적용하고 윈도우 내의 화상 영역이 가설 텍스트 단편을 포함하는지 여부를 식별하는 것 등에 의해 영역 기반의 텍스트 검출 기술을 화상에 적용하도록 구성될 수 있다. 추가적 또는 대체적으로, 검출 회로(120)는 접속된 요소 기반의 텍스트 검출 기술을 이용하는 것에 의해 가설 텍스트 단편을 포함하는 화상 영역을 식별하도록 구성될 수 있다.
몇몇의 예시적인 실시형태에서, 검출 회로(120)는 2치 화상을 도출하기 위해 가설 텍스트 단편을 포함하는 화상 영역을 2치화하도록 구성될 수 있다. 검출 회로(120)는 화상을 2치화하기 위한 임의의 기술을 사용하여 화상 영역을 2치화할 수 있다. 몇몇의 예시적인 실시형태에서, 검출 회로(120)는 오츠의 방법(Otus's method)을 사용하도록 구성될 수 있다. 그렇지만, 다양한 예시적인 실시형태에 따라서 오츠의 방법에 추가적으로 또는 오츠의 방법 대신에 다른 기술이 사용될 수 있는 것이 이해될 것이다.
검출 회로(120)는 2치 화상에 적어도 부분적으로 근거하여 가설 텍스트 단편을 포함하는 화상 영역이 2개 또한 오직 2개의 확률 분포를 사용하여 묘사 가능한지 여부를 결정하도록 구성될 수 있다. 이와 관련하여, 검출 회로(120)는, 예컨대 가설 텍스트를 포함하는 화상 영역이 2치 신호로부터 발생하는 것을 확인할 수 있다. 검출은, 가설 텍스트 문자의 변화 및 배경의 변화를 별도로 산출하고 화상 영역에 대하여 추정된 센서 노이즈에 대하여 변화를 텍스팅(texting)하는 것에 의해 화상 영역 박스 내의 화상 콘텐츠가 2치 신호로부터 발생하는 것을 확인하도록 구성될 수 있다. 검출 회로(120)는 모든 이용 가능한 기술을 사용하여 화상 영역으로부터 센서 노이즈를 산출하도록 구성될 수 있다. 예컨대, 검출 회로(120)는 화상을 몇몇의 코히런트 영역으로 구분하고 각 영역으로부터 센서 노이즈 추정치를 취득하고, 추정치를 함께 결합한다. 가설 문자(들)와 배경의 사이의 연결 지점의 영역은 양쪽의 신호가 혼합된 것을 가질 수 있고 변화 산출에 대해서는 신뢰할 수 없을 수 있다. 따라서, 몇몇의 예시적인 실시형태에서, 문자의 변화를 산출하기 위해, 검출 회로(120)는 그들의 분산을 산출하기 전에 가설 텍스트 문자를 형태적으로 약화시키도록 구성될 수 있다. 또한, 배경 변화를 산출하기 위해, 검출 회로(120)는 배경 변화를 산출하기 전에 형태적으로 문자를 확장하고 화상 영역(예컨대, 텍스트 박스)으로부터 그들을 감산하도록 구성될 수 있다.
가설 텍스트를 포함하는 화상 영역이 2개의 확률 분포만을 사용하여 묘사할 수 없다고 결정된 경우에 있어서, 검출 회로(120)는 텍스트를 포함하지 않는 영역으로서 화상 영역을 분류하도록 구성될 수 있다. 이와 관련하여, 검출 회로(120)는 가설 텍스트를 화상 내에서 포착된 텍스트가 아닌 물체로서 간주할 수 있고 화상 영역의 더 이상의 텍스트 검출 분석을 행하는 것을 보류할 수 있다.
그러나, 가설 텍스트를 포함하는 화상 영역이 2개의 확률 분포만을 사용하여 묘사할 수 있다고 결정된 경우, 검출 회로(120)는 화상 영역이 텍스트를 포함하는 영역인지 여부(예컨대, 가설 텍스트는 실제로 텍스트인지 여부)를 분류하기 위해 사용될 수 있는 값을 산출하기 위해 화상 영역의 2치화 화상을 사용할 수 있다. 이와 관련하여, 검출 회로(120)는 2치 화상 내의 가설 텍스트 단편에 걸쳐 적어도 하나의 주사선을 인가할 수 있다. 이와 관련하여, 가설 문자는 가설 텍스트와 실질적으로 같은 방향으로 배향될 수 있는 하나 이상의 주사선과 교차할 수 있다. 예컨대, 도 5는 몇몇의 예시적인 실시형태에 따른 가설 텍스트 단편을 가로지르는 주사선의 인가를 나타낸다. 이와 관련하여, 도 5는 가설 텍스트 단편("TEXT")을 포함하는 화상 영역(502)을 나타낸다. 도시한 바와 같이, 가설 텍스트 단편은 백색으로 도시되지만, 배경은 흑색으로 도시되도록 화상 영역(502)이 2치화되었다. 주사선(504)은 가설 텍스트 단편을 가로질러 인가된다.
검출 회로(120)는 인가되는 적어도 하나의 주사선에 적어도 부분적으로 근거하여 가설 텍스트 단편의 적어도 하나의 특성을 결정하도록 구성될 수 있다. 검출 회로(120)는 가설 텍스트 단편이 실제로 텍스트인지 여부를 분류하기 위해 사용될 수 있는 하나 이상의 값을 결정하기 위해 결정된 적어도 하나의 특성을 사용하도록 구성될 수 있다.
일례로서, 몇몇의 예시적인 실시형태에서, 검출 회로(120)는 가설 텍스트 단편에 대하여, 획 폭 ψ를 산출하기 위해 인가되는 적어도 하나의 주사선을 사용하도록 구성될 수 있다. 검출 회로(120)는 식 [4]에 따라서 가설 텍스트 단편에 대한 알파값을 결정하기 위해 산출된 획 폭을 사용할 수 있다. 이와 관련하여, 검출 회로(120)는 가설 텍스트 단편에 의해 점유되는 화상 영역의 면적의 결정된 영역의 총면적에 대한 비율을 규정하는 점유율을 산출할 수 있고, 알파값을 결정하기 위해 점유율을 산출된 획 폭으로 나눌 수 있다.
몇몇의 예시적인 실시형태에서, 검출 회로(120)는 획 폭을 산출하는 일 없이 알파값을 산출하도록 구성될 수 있다. 이와 관련하여, 이미 말한 바와 같이, 알파값은 곡선의 문자 길이 분포 λ의 함수로서 설명될 수 있다. 문자의 곡선의 길이는 그것을 골격화하고 골격의 화소의 수를 카운트하는 것에 의해 산출될 수 있다. 그러나, 골격화는 일반적으로 특히 복잡한 형상에 대하여 직관적으로 예상되는 골격을 생성하지 않는다. 하지만, 문자 획은 문자의 골격을 따라 소정의 두께(예컨대, 획 폭)의 "펜"을 이동시키는 것에 의해 생성되는 것이 관찰될 수 있다. 획 폭이 거의 일정한 것을 고려해 볼 때, 곡선의 길이(λΗ)는 문자의 둘레의 절반이다(획 폭이 둘레에 비하여 작다고 가정하는 경우). 따라서 둘레의 산출은 교차점의 수 N을 취득하기 위한 간격 d의 대략 평행한 주사선의 랜덤화된 컬렉션을 사용하여 가설 텍스트 문자를 교차시키는 것에 의해 행해질 수 있다. 따라서 가설 텍스트 단편 내의 모든 문자의 곡선의 길이는 다음과 같이 정의될 수 있다.
Figure pct00005
식 [5]의 관점으로부터, 알파값은 다음과 같이 표현될 수 있다.
Figure pct00006
따라서, 몇몇의 예시적인 실시형태에서, 검출 회로(120)는 가설 텍스트 문자에 교차하는 실질적으로 평행한 주사선의 몇몇 난수의 교차점의 수 N을 산출하도록 구성될 수 있다. 교차하는 라인은 그들 라인 사이의 간격 d에 의해 특징지어질 수 있다. 검출 회로(120)는 가설 텍스트 단편을 포함하는 화상 영역의 전체 둘레를 산출하도록 구성될 수 있다. 이와 같은 임의의 수의 라인이 사용될 수 있지만, 몇몇의 예시적인 실시형태에서는, 화상 영역을 실질적으로 채우기에(예컨대, 덮기에) 충분한 라인 사이의 간격 d를 갖는 라인의 수가 사용될 수 있다. 예컨대, 몇몇의 예시적인 실시형태에서, 10개 이상의 라인이 가설 텍스트 단편에 교차하기 위해 사용될 수 있다. 따라서 검출 회로(120)는, 식 [6]에 따라서 알파값을 산출하기 위해, 산출된 교차점의 수 및 산출된 화상 영역의 총면적을 사용할 수 있다.
다른 예로서, 몇몇의 예시적인 실시형태에서, 검출 회로(120)는 가설 텍스트 단편에 대한 간격 길이 분포를 결정하기 위해 화상 영역의 2치 화상에 인가된 적어도 하나의 주사선을 사용하도록 구성될 수 있다. 예컨대, 도 5를 다시 참조하면, 간격 길이 분포(506)는 주사선(504)을 이용하여 가설 텍스트 단편에 대하여 결정될 수 있는 예시적인 간격 길이 분포를 나타낸다. 검출 회로(120)는 가설 텍스트 단편에 대하여 결정된 간격 길이 분포에 적어도 부분적으로 근거하여 감마값(γ)을 산출하도록 구성될 수 있다. 예컨대, 몇몇의 예시적인 실시형태에서, 검출 회로(120)는, "μ"로 표기될 수 있고 이하와 같이 도출될 수 있는, 텍스트 높이(H)로 나누어지는 간격 길이의 분포의 평균을 결정하도록 구성된다.
μ=(간격 길이/텍스트 높이) 분포의 평균 [7]
검출 회로는 또한, "σ"로 표기될 수 있고 이하와 같이 도출될 수 있는, 텍스트의 높이(H)로 나누어지는 간격 길이의 분포의 표준편차를 산출하도록 구성될 수 있다.
σ=(간격 길이/텍스트 높이) 분포의 표준편차 [8]
검출 회로(120)는 산출된 μ 및 σ를 사용하여 다음과 같이 감마값을 산출하도록 구성될 수 있다.
Figure pct00007
이와 관련하여, 감마값은, 간격 길이의 신호 대 잡음비를 포착할 수 있는, 간격 길이 분포의 평균의 간격 길이 분포의 표준편차에 대한 비율을 포함할 수 있다.
검출 회로(120)는 화상 영역이 텍스트를 포함하는 영역인지 여부(예컨대, 가설 텍스트가 실제의 텍스트인지 여부)를 분류하기 위해 산출된 알파값 및 감마값을 사용하도록 구성될 수 있다. 이와 관련하여, 알파값 및 감마값은 비 텍스트(non-text)로부터 텍스트를 구별하기 위해 사용될 수 있는 텍스트의 모델로서 사용될 수 있다. 도 6에 도시된 바와 같이, 알파값 및 감마값은 서로 다른 폰트, 스타일, 간격 및 사이즈에 광범위하게 걸친 샘플을 포함하는 트레이닝 데이터 텍스트의 세트에 대한 비 텍스트에 비하여 텍스트에 대한 실질적으로 작은 분포를 나타낸다. 이와 관련하여, 산포도(602) 및 히스토그램(604)은 트레이닝 데이터 세트 내의 텍스트 샘플에 대하여 산출된 알파값이 약 α=0.5에서 실질적으로 무리를 이루고, 트레이닝 데이터 세트의 비 텍스트 샘플에 대하여 산출된 알파값이 넓게 분산되고 빈번하게 0.5에 가깝지 않은 것을 나타낸다. 마찬가지로, 산포도(606) 및 히스토그램(608)은 트레이닝 데이터 세트 내의 텍스트 샘플에 대하여 산출된 감마값이 약 γ=0.5에서 실질적으로 무리를 이루고, 트레이닝 데이터 세트의 비 텍스트 샘플에 대하여 산출된 감마값이 넓게 분산되고 빈번하게 0.5에 가깝지 않은 것을 나타낸다.
넓은 범위의 텍스트를 포함하는 트레이닝 데이터 세트에 대한 이들 결과를 고려해 볼 때, 가설 텍스트 단편에 대하여 산출된 알파값 및 감마값은 가설 텍스트 단편을 포함하는 화상 영역이 실제의 텍스트를 포함하는 영역인지 여부를 분류하기 위해 사용될 수 있다. 예컨대, 검출 회로(120)는 가설 텍스트 단편에 대하여 산출된 알파값 및 감마값이 예상된 알파값 및 감마값에 대하여 정의된 임계치 관계를 만족시키는지 여부를 결정하도록 구성될 수 있다. 임계치 관계는, 예컨대 예상치보다 작은 몇몇의 임계치로부터 예상치보다 큰 임계치까지의 값의 범위를 정의할 수 있는 허용 범위를 정의할 수 있다. 이와 관련하여, 산출된 알파값 및 감마값이 예상되는 알파값 및 감마값에 대한 허용 범위 내에 들어가는 경우에는, 가설 텍스트 단편을 포함하는 화상 영역은 텍스트를 포함하는 영역으로서 분류될 수 있다. 혹은, 산출된 알파값 및/또는 산출된 감마값이 허용 범위 내에 들어가지 않는 경우, 가설 텍스트 단편을 포함하는 화상 영역은 텍스트 미포함 영역으로서 분류될 수 있다. 따라서, 허용 범위는 얼마나 많은 긍정 오류(false positive)가 허용되는 것으로 생각되는지에 따라 조정될 수 있다. 예컨대, 보다 큰 긍정 오류의 수(예컨대, 긍정 오류의 백분율)가 허용되는 경우, 보다 큰 허용 범위가 사용될 수 있다. 그러나, 보다 적은 긍정 오류의 수(예컨대, 긍정 오류의 백분율)가 허용되는 경우, 보다 작은 허용 범위가 사용될 수 있다.
몇몇의 예시적인 실시형태에서, 가우스 분포 함수(예컨대, 2차원 가우스 분포 함수)는 텍스트에 대하여 예상된 알파값 및 감마값을 나타내기 위해 트레이닝 데이터 세트로부터 도출될 수 있다. 검출 회로(120)는 가우스 분포 함수를 가설 텍스트 단편에 대하여 산출된 알파값 및 감마값에 적용하도록 구성될 수 있다. 가우스 분포 함수가 산출된 알파값 및 감마값의 세트에 적합한 경우, 가설 텍스트 단편을 포함하는 화상 영역은 텍스트를 포함하는 영역으로서 분류될 수 있다. 그렇지만, 산출된 알파 및/또는 산출된 감마값이 가우스 분포 함수에 적합하지 않을 수 있는 범위 밖의 값인 경우, 가설 텍스트 단편을 포함하는 화상 영역은 텍스트 미포함 영역으로서 분류될 수 있다.
도 7은 트레이닝 데이터 세트 내의 텍스트 및 비 텍스트 샘플에 대한 α 및 γ의 예시적인 산포도를 나타낸다. 각 수량은 정규분포에 의해 합리적으로 잘 묘사되고, 이 산포도는 그들의 평균의 주위의 타원이 텍스트 단편의 대응 부분을 둘러싸는 것을 의미한다. 따라서, 그 검출률에 대한 α 및 γ값의 허용 범위를 정의하는 허용 검출률(예컨대, 0.9)이 선택될 수 있다. 따라서, 몇몇의 예시적인 실시형태에서, 이 특성은, 알파값 및 감마값의 허용 범위, 산출된 알파값 및 감마값이 적합할 수 있는 분포 함수의 확장, 및/또는 텍스트로서 긍정적으로 분류될 수 있는 가설 텍스트 단편에 대한 알파값 및 감마값의 범위를 정의하기 위해 사용될 수 있는 다른 품질을 정의하기 위해 사용될 수 있는 긍정 오류에 대한 허용률을 설정하기 위해 사용할 수 있다. 검출률이 낮은 값으로 설정되는 경우, 보다 적은 긍정 오류가 검출될 수 있지만, 몇몇의 텍스트를 포함하는 영역을 텍스트 미포함 영역으로서 분류한다는 희생이 따른다. 그러나, 검출률이 높은 값으로 설정되는 경우, 큰 비율의 실제의 텍스트 영역이 텍스트를 포함하는 영역으로서 분류될 것이지만, 긍정 오류 결과가 보다 많다는 희생이 따른다.
도 8은 몇몇의 예시적인 실시형태에 따른 샘플의 분류 결과를 나타낸다. 이와 관련하여, 화상 영역(802, 804, 806, 808)은 최초로 가설 텍스트 단편을 포함하는 화상 영역으로서 식별될 수 있다. 알파값 및 감마값은 화상 영역(802~808)에 대하여 산출될 수 있고 예시적인 실시형태에 따라 화상 영역을 분류하기 위해 사용될 수 있다. 도 8에 도시된 예시적인 화상에서, 화상 영역(802, 804, 806)은 텍스트를 포함하는 영역으로서 분류될 수 있지만, 화상 영역(808)은 텍스트 미포함 영역으로서 분류될 수 있다.
따라서, 몇몇의 예시적인 실시형태에서, 트레이닝 데이터 세트에 대하여 산출된 알파값 및 감마값은 화상 내의 가설 텍스트 단편의 분류를 위한 모델로서 사용될 수 있다. 상기의 예의 몇몇은 다양한 서로 다른 폰트, 스타일, 간격, 사이즈를 포함하는 트레이닝 데이터 세트로부터 생성된 일반적인 텍스트 모델에 관하여 설명했지만, 도 6~7에 도시되는 바와 같이, 몇몇의 예시적인 실시형태에서는, 보다 조정된 모델이 특정한 타깃 폰트, 타깃 폰트 스타일, 그들의 몇몇의 조합 등을 위해 개발될 수 있다. 이와 관련하여, 알파값 및 감마값의 모델은 보다 좁게 조정된 데이터 세트를 사용하여 개발될 수 있다. 이러한 보다 조정된 모델은 화상 내의 특정한 타깃 폰트 타입, 스타일, 텍스트 사이즈 및/또는 그 밖의 것을 검출하기 위해 사용될 수 있다. 그렇지만, 상술한 예로부터 이해되는 바와 같이, 몇몇의 예시적인 실시형태는, 도 4에 대하여 도시되고 설명된 바와 같이, 서로 다른 폰트 타입, 스타일, 텍스트 사이즈에 대하여 실질적으로 변하지 않을 수 있는 텍스트의 일반적인 특성에 근거하여 텍스트를 검출하기 위해 일반적 텍스트 모델을 이용할 수 있다.
몇몇의 예시적인 실시형태에서, 검출 회로(120)는 3D 화상 내의 텍스트 검출을 행하도록 구성될 수 있다. 3D 화상은, 예컨대 2D 화상 및 대응하는 깊이 화상(depth image)을 포함할 수 있다. 검출 회로(120)는 화상 영역 내의 가설 텍스트 단편의 분류를 가능하게 하도록 화상 내의 화상 영역의 시점을 조종하기 위해 깊이 화상을 사용하도록 구성될 수 있다.
도 9는 몇몇의 예시적인 실시형태에 따른 화상 내의 텍스트의 검출을 용이하게 하는 예시적인 방법에 따른 플로차트를 나타낸다. 이와 관련하여, 도 9는 통신 장치(102)에서 실행될 수 있는 동작을 나타낸다. 도 9에 대하여 도시되고 설명된 동작은, 예컨대 하나 이상의 프로세서(110), 메모리(112), 통신 인터페이스(114), 사용자 인터페이스(116), 화상 캡처 회로(118) 또는 검출 회로(120)의 지원을 받아서 또한/또는 이것들의 제어 아래에서 행해질 수 있다. 동작(900)은 가설 텍스트 단편을 포함하는 화상 영역에 관련된 알파값을 산출하는 것을 포함할 수 있다. 프로세서(110), 메모리(112) 및/또는 검출 회로(120)는, 예컨대 동작(900)을 실행하기 위한 수단을 제공할 수 있다. 동작(910)은 가설 텍스트 단편에 대한 간격 길이의 분포에 적어도 부분적으로 근거하여 감마값을 산출하는 것을 포함할 수 있다. 프로세서(110), 메모리(112) 및/또는 검출 회로(120)는, 예컨대 동작(910)을 실행하기 위한 수단을 제공할 수 있다. 동작(920)은 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하는 것을 포함할 수 있다. 프로세서(110), 메모리(112) 및/또는 검출 회로(120)는, 예컨대 동작(920)을 실행하기 위한 수단을 제공할 수 있다.
도 10은 몇몇의 예시적인 실시형태에 따른 화상 내의 텍스트의 검출을 용이하게 하는 다른 예시적인 방법에 따른 플로차트를 나타낸다. 이와 관련하여, 도 10은 통신 장치(102)에서 실행될 수 있는 동작을 나타낸다. 도 10에 대하여 도시되고 설명된 동작은, 예컨대 하나 이상의 프로세서(110), 메모리(112), 통신 인터페이스(114), 사용자 인터페이스(116), 화상 캡처 회로(118) 또는 검출 회로(120)의 지원을 받아서 또한/또는 이것들의 제어 아래에서 행해질 수 있다. 동작(1000)은 가설 텍스트 단편을 포함하는 화상 영역을 2치화하는 것을 포함할 수 있다. 프로세서(110), 메모리(112) 및/또는 검출 회로(120)는, 예컨대 동작(1000)을 실행하기 위한 수단을 제공할 수 있다. 동작(1010)은 화상 영역이 2개 또한 오직 2개의 확률 분포에 의해 묘사 가능한지 여부를 확인하는 것을 포함할 수 있다. 프로세서(110), 메모리(112) 및/또는 검출 회로(120)는, 예컨대 동작(1010)을 실행하기 위한 수단을 제공할 수 있다. 동작(1020)은 하나 이상의 주사선을 가설 텍스트 단편에 인가하는 것을 포함할 수 있다. 프로세서(110), 메모리(112) 및/또는 검출 회로(120)는, 예컨대 동작(1020)을 실행하기 위한 수단을 제공할 수 있다. 동작(1030)은 알파값 및 감마값의 산출을 가능하게 하기 위해 가설 텍스트 단편의 특성을 산출하기 위한 기초로서 주사선(들)을 사용하는 것을 포함할 수 있다. 프로세서(110), 메모리(112) 및/또는 검출 회로(120)는, 예컨대 동작(1030)을 실행하기 위한 수단을 제공할 수 있다. 동작(1040)은 주사선(들)에 근거하여 산출된 특성에 적어도 부분적으로 근거하여 가설 텍스트 단편에 대한 알파값 및 감마값을 산출하는 것을 포함할 수 있다. 프로세서(110), 메모리(112) 및/또는 검출 회로(120)는, 예컨대 동작(1040)을 실행하기 위한 수단을 제공할 수 있다. 동작(1050)은 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하는 것을 포함할 수 있다. 프로세서(110), 메모리(112) 및/또는 검출 회로(120)는, 예컨대 동작(1050)을 실행하기 위한 수단을 제공할 수 있다.
도 9~10은 본 발명의 예시적인 실시형태에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 플로차트이다. 플로차트의 각 블록 및 플로차트의 블록의 조합은 하드웨어 및/또는 컴퓨터 판독 가능한 프로그램 명령이 저장된 하나 이상의 컴퓨터 판독 가능한 매체를 포함하는 컴퓨터 프로그램 제품과 같은 다양한 수단에 의해 구현될 수 있는 것이 이해될 것이다. 예컨대, 본 명세서에 기재된 하나 이상의 절차는 컴퓨터 프로그램 제품의 컴퓨터 프로그램 명령에 의해 구현될 수 있다. 이와 관련하여, 본 명세서에 기재된 절차를 구현하는 컴퓨터 프로그램 제품(들)은 이동 단말, 서버 또는 다른 연산 장치의 하나 이상의 메모리 장치에 의해(예컨대, 메모리(112)에) 저장될 수 있고 연산 장치 내의 프로세서(예컨대, 프로세서(110)에 의해)에 의해 실행될 수 있다. 몇몇의 실시형태에서, 상술한 절차를 구현하는 컴퓨터 프로그램 제품(들)을 포함하는 컴퓨터 프로그램 명령은 복수의 연산 장치의 메모리 장치에 의해 저장될 수 있다. 이해되는 바와 같이, 그와 같은 모든 컴퓨터 프로그램 제품은 컴퓨터 또는 다른 프로그램 가능한 장치(예컨대, 텍스트 검출 장치(102))에 기계를 생성하기 위해 로드될 수 있기 때문에, 컴퓨터 또는 다른 프로그램 가능한 장치에서 실행하는 명령을 포함하는 컴퓨터 프로그램 제품은 플로차트 블록(들)에서 명시된 기능을 구현하기 위한 수단을 생성한다. 또한, 컴퓨터 프로그램 제품은 컴퓨터 프로그램 명령이 저장될 수 있는 하나 이상의 컴퓨터 판독 가능한 메모리를 포함할 수 있기 때문에, 하나 이상의 컴퓨터 판독 가능한 메모리는 컴퓨터 또는 다른 프로그램 가능한 장치가 특정한 방식으로 기능하도록 지시할 수 있고, 컴퓨터 프로그램 제품은 플로차트 블록(들)에서 명시된 기능을 구현하는 제조품을 포함한다. 하나 이상의 컴퓨터 프로그램 제품의 컴퓨터 프로그램 명령은 또한 컴퓨터로 구현되는 처리를 생성하기 위해 컴퓨터 또는 다른 프로그램 가능한 장치에서 실행되는 일련의 동작을 일으키기 위해 컴퓨터 또는 다른 프로그램 가능한 장치(예컨대, 텍스트 검출 장치(102))에 로드될 수 있기 때문에, 컴퓨터 또는 다른 프로그램 가능한 장치에서 실행하는 명령은 플로차트 블록(들)에서 명시된 기능을 구현한다.
따라서, 플로차트의 블록은 명시된 기능을 실행하기 위한 수단의 조합을 지원한다. 또한 플로차트의 하나 이상의 블록 및 플로차트의 블록의 조합은 명시된 기능을 실행하는 특수 목적 하드웨어 기반의 컴퓨터 시스템 또는 및 특수 목적 하드웨어와 컴퓨터 프로그램 제품(들)의 조합에 의해 구현될 수 있는 것이 이해될 것이다.
상술한 기능은 많은 방식으로 실시될 수 있다. 예컨대, 상술한 기능의 각각을 실시하기 위한 모든 적절한 수단이 다양한 실시형태를 실시하기 위해 채용될 수 있다. 몇몇의 실시형태에서, 적절하게 구성된 프로세서(예컨대, 프로세서(110))는 요소의 전부 또는 일부를 제공할 수 있다. 다른 실시형태에서는, 요소의 전부 또는 일부는 컴퓨터 프로그램 제품에 의해 구성되어 그 제어 아래에서 동작할 수 있다. 본 발명의 실시형태의 방법을 실행하기 위한 컴퓨터 프로그램 제품은 비휘발성 기억 매체와 같은 컴퓨터 판독 가능한 기억 매체(예컨대, 메모리(112)), 및 컴퓨터 판독 가능한 기억 매체에 있어서 구현되는 일련의 컴퓨터 명령과 같은 컴퓨터 판독 가능한 프로그램 코드 부분을 포함한다.
본 명세서에 기재된 본 발명의 많은 수정 및 다른 실시형태는 상술한 설명 및 관련되는 도면에 제시된 교시의 이익을 갖는다는 것이 이들 발명과 관계되는 당업자에게 생각날 것이다. 따라서, 본 발명의 실시형태가 개시된 특정한 실시형태로 제한되어서는 안 되고 변경 및 다른 실시형태가 본 발명의 범위 내에 포함되도록 의도되는 것이 이해되어야 한다. 또한, 상술한 설명 및 관련되는 도면은 요소 및/또는 기능의 임의의 예시적인 조합의 문맥으로 예시적인 실시형태를 기재하지만, 요소 및/또는 기능의 다른 조합이 본 발명의 범위를 일탈하는 일 없이 대체적인 실시형태에 의해 제공될 수 있는 것이 이해되어야 한다. 이와 관련하여, 예컨대, 명시적으로 상술한 것 이외의 요소 및/또는 기능의 다른 조합도 본 발명의 범위 내라고 생각된다. 특정한 용어가 본 명세서에 채용되지만, 그들은 오직 포괄적이고 서술적인 의미로만 사용되고 한정의 목적을 위해 사용되지 않는다.

Claims (38)

  1. 가설 텍스트 단편(hypothesized text fragment)을 포함하는 화상 영역에 관련된 알파값을 산출하는 단계-상기 알파값은 상기 가설 텍스트 단편에 대한 곡선의 문자 길이 분포, 문자 폭 분포 및 문자간의 간격 분포의 함수로서 정의됨-와,
    상기 가설 텍스트 단편에 대하여 결정된 간격 길이 분포에 적어도 부분적으로 근거하여 감마값을 산출하는 단계와,
    상기 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 상기 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하는 단계를 포함하는
    방법.
  2. 제 1 항에 있어서,
    상기 알파값을 산출하는 단계는 상기 가설 텍스트 단편에 대한 상기 곡선의 문자 길이 분포, 상기 문자 폭 분포 또는 상기 문자간의 간격 분포를 직접 산출하는 일 없이 상기 알파값을 산출하는 단계를 포함하는
    방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 알파값을 산출하는 단계는 상기 가설 텍스트 단편에 의해 점유되는 상기 결정된 화상 영역의 면적의 상기 결정된 화상 영역의 총면적에 대한 비율을 규정하는 점유율 및 상기 가설 텍스트 단편에 대한 획 폭(stroke-width)에 적어도 부분적으로 근거하여 상기 알파값을 산출하는 단계를 포함하는
    방법.
  4. 제 1 항 또는 제 2 항에 있어서,
    상기 알파값을 산출하는 단계는 상기 결정된 화상 영역의 총면적 및 상기 가설 텍스트 단편의 적어도 하나의 가설 문자를 지나는 라인간의 간격에 의해 특징지어지는 복수의 실질적으로 평행한 라인의 교차점의 수에 적어도 부분적으로 근거하여 상기 알파값을 산출하는 단계를 포함하는
    방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 간격 길이 분포에 적어도 부분적으로 근거하여 상기 감마값을 산출하는 단계는, 텍스트 높이로 나누어진 상기 간격 길이의 분포의 표준편차에 대한, 텍스트 높이로 나누어진 상기 간격 길이의 분포의 평균의 비율을 산출하는 단계를 포함하는
    방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 가설 텍스트 단편을 가로질러 적어도 하나의 주사선을 인가하는 단계와,
    상기 인가된 적어도 하나의 주사선에 적어도 부분적으로 근거하여 상기 가설 텍스트 단편의 적어도 하나의 특성을 결정하는 단계를 더 포함하고,
    상기 알파값 및 감마값을 산출하는 것은 상기 가설 텍스트 단편의 상기 결정된 적어도 하나의 특성에 적어도 부분적으로 근거하여 상기 알파값 및 감마값을 산출하는 것을 포함하는
    방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 결정된 화상 영역을 2치화하는(binarizing) 것에 의해 2치 화상(a binary image)을 도출하는 단계와,
    상기 2치 화상에 적어도 부분적으로 근거하여 상기 화상 영역이 2개의 확률 분포만을 사용하여 묘사 가능한지 여부를 결정하는 단계와,
    상기 화상 영역이 2개의 확률 분포만을 사용하여 묘사 가능하다고 결정된 경우에만 상기 2치 화상을 사용하여 상기 알파값을 산출하고 상기 감마값을 산출하는 단계와,
    상기 화상 영역이 2개의 확률 분포만을 사용하여 묘사 가능하지 않은 경우에 상기 화상 영역을 텍스트 미포함(non-text-containing) 영역으로서 분류하는 단계를 더 포함하는
    방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 상기 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하는 단계는,
    상기 산출된 알파값 및 감마값이 예상된 알파값 및 감마값에 대하여 규정된 임계치 관계를 만족시키는지 여부를 결정하는 단계와,
    상기 산출된 알파값 및 감마값이 예상된 알파값 및 감마값에 대하여 상기 임계치 관계를 만족시킨다고 결정된 경우에 상기 화상 영역을 텍스트를 포함하는 영역으로서 분류하는 단계와,
    상기 산출된 알파값 및 감마값이 예상된 알파값 및 감마값에 대하여 상기 임계치 관계를 만족시키지 않는다고 결정된 경우에 상기 화상 영역을 텍스트 미포함 영역으로서 분류하는 단계를 포함하는
    방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 상기 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하는 단계는,
    가우스 분포 함수를 적용하는 단계와,
    상기 산출된 알파값 및 감마값이 상기 가우스 분포 함수에 대하여 임계치 관계를 만족시키는 경우 상기 화상 영역을 텍스트를 포함하는 영역으로서 분류하는 단계와,
    상기 산출된 알파값 및 감마값이 상기 가우스 분포 함수에 대하여 임계치 관계를 만족시키지 않는 경우 상기 화상 영역을 텍스트 미포함 영역으로서 분류하는 단계를 포함하는
    방법.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 기재된 방법을 장치가 실행하게 하도록 구성된 명령을 포함하는 컴퓨터 프로그램.
  11. 적어도 하나의 프로세서 및 컴퓨터 프로그램 코드를 저장하는 적어도 하나의 메모리를 포함하는 장치로서,
    상기 적어도 하나의 메모리 및 저장된 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서에 의해 상기 장치로 하여금 적어도,
    가설 텍스트 단편을 포함하는 화상 영역에 관련된 알파값을 산출하는 단계-상기 알파값은 상기 가설 텍스트 단편에 대한 곡선의 문자 길이 분포, 문자 폭 분포 및 문자간의 간격 분포의 함수로서 정의됨-와,
    상기 가설 텍스트 단편에 대하여 결정된 간격 길이 분포에 적어도 부분적으로 근거하여 감마값을 산출하는 단계와,
    상기 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 상기 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하는 단계를 행하게 하도록 구성되는
    장치.
  12. 제 11 항에 있어서,
    상기 적어도 하나의 메모리 및 저장된 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서에 의해 상기 장치가 상기 가설 텍스트 단편에 대한 상기 곡선의 문자 길이 분포, 상기 문자 폭 분포 또는 상기 문자간의 간격 분포를 직접 산출하는 일 없이 상기 알파값을 산출하게 하도록 구성되는
    장치.
  13. 제 11 항 또는 제 12 항에 있어서,
    상기 적어도 하나의 메모리 및 저장된 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서에 의해 상기 장치가 상기 가설 텍스트 단편에 의해 점유되는 상기 결정된 화상 영역의 면적의 상기 결정된 화상 영역의 총면적에 대한 비율을 규정하는 점유율 및 상기 가설 텍스트 단편에 대한 획 폭에 적어도 부분적으로 근거하여 상기 알파값을 산출하게 하도록 구성되는
    장치.
  14. 제 11 항 또는 제 12 항에 있어서,
    상기 적어도 하나의 메모리 및 저장된 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서에 의해 상기 장치가 상기 결정된 화상 영역의 총면적 및 상기 가설 텍스트 단편의 적어도 하나의 가설 문자를 지나는 라인간의 간격에 의해 특징지어지는 복수의 실질적으로 평행한 라인의 교차점의 수에 적어도 부분적으로 근거하여 상기 알파값을 산출하게 하도록 구성되는
    장치.
  15. 제 11 항 내지 제 14 항 중 어느 한 항에 있어서,
    상기 적어도 하나의 메모리 및 저장된 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서에 의해 상기 장치가, 텍스트 높이로 나누어진 상기 간격 길이의 분포의 표준편차에 대한, 텍스트 높이로 나누어진 상기 간격 길이의 분포의 평균의 비율을 적어도 부분적으로 산출하는 것에 의해 상기 간격 길이 분포에 적어도 부분적으로 근거하여 상기 감마값을 산출하게 하도록 구성되는
    장치.
  16. 제 11 항 내지 제 15 항 중 어느 한 항에 있어서,
    상기 적어도 하나의 메모리 및 저장된 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서에 의해 상기 장치가,
    상기 가설 텍스트 단편을 가로질러 적어도 하나의 주사선을 인가하는 단계와,
    상기 인가된 적어도 하나의 주사선에 적어도 부분적으로 근거하여 상기 가설 텍스트 단편의 적어도 하나의 특성을 결정하는 단계와,
    상기 가설 텍스트 단편의 상기 결정된 적어도 하나의 특성에 적어도 부분적으로 근거하여 상기 알파값 및 감마값을 적어도 부분적으로 산출하는 것에 의해 상기 알파값 및 감마값을 산출하는 단계를 행하게 하도록 더 구성되는
    장치.
  17. 제 11 항 내지 제 16 항 중 어느 한 항에 있어서,
    상기 적어도 하나의 메모리 및 저장된 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서에 의해 상기 장치가,
    상기 결정된 화상 영역을 2치화하는 것에 의해 2치 화상을 도출하는 단계와,
    상기 2치 화상에 적어도 부분적으로 근거하여 상기 화상 영역이 2개의 확률 분포만을 사용하여 묘사 가능한지 여부를 결정하는 단계와,
    상기 화상 영역이 2개의 확률 분포만을 사용하여 묘사 가능하다고 결정된 경우에만 상기 2치 화상을 사용하여 상기 알파값을 산출하고 상기 감마값을 산출하는 단계와,
    상기 화상 영역이 2개의 확률 분포만을 사용하여 묘사 가능하지 않은 경우에 상기 화상 영역을 텍스트 미포함 영역으로서 분류하는 단계를 행하게 하도록 더 구성되는
    장치.
  18. 제 11 항 내지 제 17 항 중 어느 한 항에 있어서,
    상기 적어도 하나의 메모리 및 저장된 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서에 의해 상기 장치가 적어도 부분적으로,
    상기 산출된 알파값 및 감마값이 예상된 알파값 및 감마값에 대하여 규정된 임계치 관계를 만족시키는지 여부를 결정하는 단계와,
    상기 산출된 알파값 및 감마값이 예상된 알파값 및 감마값에 대하여 상기 임계치 관계를 만족시킨다고 결정된 경우에 상기 화상 영역을 텍스트를 포함하는 영역으로서 분류하는 단계와,
    상기 산출된 알파값 및 감마값이 예상된 알파값 및 감마값에 대하여 상기 임계치 관계를 만족시키지 않는다고 결정된 경우에 상기 화상 영역을 텍스트 미포함 영역으로서 분류하는 단계
    를 행하는 것에 의해 상기 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 상기 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하게 하도록 더 구성되는
    장치.
  19. 제 11 항 내지 제 18 항 중 어느 한 항에 있어서,
    상기 적어도 하나의 메모리 및 저장된 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서에 의해 상기 장치가 적어도 부분적으로,
    가우스 분포 함수를 적용하는 단계와,
    상기 산출된 알파값 및 감마값이 상기 가우스 분포 함수에 대하여 임계치 관계를 만족시키는 경우 상기 화상 영역을 텍스트를 포함하는 영역으로서 분류하는 단계와,
    상기 산출된 알파값 및 감마값이 상기 가우스 분포 함수에 대하여 임계치 관계를 만족시키지 않는 경우 상기 화상 영역을 텍스트 미포함 영역으로서 분류하는 단계
    를 행하는 것에 의해 상기 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 상기 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하게 하도록 더 구성되는
    장치.
  20. 제 11 항 내지 제 19 항 중 어느 한 항에 있어서,
    상기 장치는 이동 연산 장치를 포함하거나 또는 이동 연산 장치에 구현되고,
    상기 이동 연산 장치는 사용자 인터페이스 회로 및 하나 이상의 상기 적어도 하나의 메모리에 저장된 사용자 인터페이스 소프트웨어를 포함하고,
    상기 사용자 인터페이스 회로 및 상기 사용자 인터페이스 소프트웨어는,
    디스플레이의 사용을 통해 상기 이동 연산 장치의 적어도 몇몇의 기능의 사용자 제어를 용이하게 하고,
    상기 이동 연산 장치의 적어도 몇몇의 기능의 사용자 제어를 용이하게 하기 위하여 상기 이동 연산 장치의 사용자 인터페이스의 적어도 일부가 상기 디스플레이에 표시되도록 구성되는
    장치.
  21. 컴퓨터 판독 가능한 프로그램 명령이 저장된 적어도 하나의 컴퓨터 판독 가능한 기억 매체를 포함하는 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 판독 가능한 프로그램 명령은,
    가설 텍스트 단편을 포함하는 화상 영역에 관련된 알파값을 산출하도록 구성된 프로그램 명령-상기 알파값은 상기 가설 텍스트 단편에 대한 곡선의 문자 길이 분포, 문자 폭 분포 및 문자간의 간격 분포의 함수로서 정의됨-과,
    상기 가설 텍스트 단편에 대하여 결정된 간격 길이 분포에 적어도 부분적으로 근거하여 감마값을 산출하도록 구성된 프로그램 명령과,
    상기 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 상기 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하도록 구성된 프로그램 명령을 포함하는
    컴퓨터 프로그램 제품.
  22. 제 21 항에 있어서,
    상기 알파값을 산출하도록 구성된 상기 프로그램 명령은 상기 가설 텍스트 단편에 대한 상기 곡선의 문자 길이 분포, 상기 문자 폭 분포 또는 상기 문자간의 간격 분포를 직접 산출하는 일 없이 상기 알파값을 산출하도록 구성된 프로그램 명령을 포함하는
    컴퓨터 프로그램 제품.
  23. 제 21 항 또는 제 22 항에 있어서,
    상기 알파값을 산출하도록 구성된 상기 프로그램 명령은 상기 가설 텍스트 단편에 의해 점유되는 상기 결정된 화상 영역의 면적의 상기 결정된 화상 영역의 총면적에 대한 비율을 규정하는 점유율 및 상기 가설 텍스트 단편에 대한 획 폭에 적어도 부분적으로 근거하여 상기 알파값을 산출하도록 구성된 프로그램 명령을 포함하는
    컴퓨터 프로그램 제품.
  24. 제 21 항 또는 제 22 항에 있어서,
    상기 알파값을 산출하도록 구성된 상기 프로그램 명령은 상기 결정된 화상 영역의 총면적 및 상기 가설 텍스트 단편의 적어도 하나의 가설 문자를 지나는 라인간의 간격에 의해 특징지어지는 복수의 실질적으로 평행한 라인의 교차점의 수에 적어도 부분적으로 근거하여 상기 알파값을 산출하도록 구성된 프로그램 명령을 포함하는
    컴퓨터 프로그램 제품.
  25. 제 21 항 내지 제 24 항 중 어느 한 항에 있어서,
    상기 간격 길이 분포에 적어도 부분적으로 근거하여 상기 감마값을 산출하도록 구성된 상기 프로그램 명령은, 텍스트 높이로 나누어진 상기 간격 길이의 분포의 표준편차에 대한, 텍스트 높이로 나누어진 상기 간격 길이의 분포의 평균의 비율을 산출하도록 구성된 프로그램 명령을 포함하는
    컴퓨터 프로그램 제품.
  26. 제 21 항 내지 제 25 항 중 어느 한 항에 있어서,
    상기 가설 텍스트 단편을 가로질러 적어도 하나의 주사선을 인가하도록 구성된 프로그램 명령과,
    상기 인가된 적어도 하나의 주사선에 적어도 부분적으로 근거하여 상기 가설 텍스트 단편의 적어도 하나의 특성을 결정하도록 구성된 프로그램 명령
    을 더 포함하고,
    상기 알파값 및 감마값을 산출하도록 구성된 상기 프로그램 명령은 상기 가설 텍스트 단편의 상기 결정된 적어도 하나의 특성에 적어도 부분적으로 근거하여 상기 알파값 및 감마값을 산출하도록 구성된 프로그램 명령을 포함하는
    컴퓨터 프로그램 제품.
  27. 제 21 항 내지 제 26 항 중 어느 한 항에 있어서,
    상기 결정된 화상 영역을 2치화하는 것에 의해 2치 화상을 도출하도록 구성된 프로그램 명령과,
    상기 2치 화상에 적어도 부분적으로 근거하여 상기 화상 영역이 2개의 확률 분포만을 사용하여 묘사 가능한지 여부를 결정하도록 구성된 프로그램 명령과,
    상기 화상 영역이 2개의 확률 분포만을 사용하여 묘사 가능하다고 결정된 경우에만 상기 2치 화상을 사용하여 상기 알파값을 산출하고 상기 감마값을 산출하도록 구성된 프로그램 명령과,
    상기 화상 영역이 2개의 확률 분포만을 사용하여 묘사 가능하지 않은 경우에 상기 화상 영역을 텍스트 미포함 영역으로서 분류하도록 구성된 프로그램 명령을 더 포함하는
    컴퓨터 프로그램 제품.
  28. 제 21 항 내지 제 27 항 중 어느 한 항에 있어서,
    상기 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 상기 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하도록 구성된 상기 프로그램 명령은,
    상기 산출된 알파값 및 감마값이 예상된 알파값 및 감마값에 대하여 규정된 임계치 관계를 만족시키는지 여부를 결정하도록 구성된 프로그램 명령과,
    상기 산출된 알파값 및 감마값이 예상된 알파값 및 감마값에 대하여 상기 임계치 관계를 만족시킨다고 결정된 경우에 상기 화상 영역을 텍스트를 포함하는 영역으로서 분류하도록 구성된 프로그램 명령과,
    상기 산출된 알파값 및 감마값이 예상된 알파값 및 감마값에 대하여 상기 임계치 관계를 만족시키지 않는다고 결정된 경우에 상기 화상 영역을 텍스트 미포함 영역으로서 분류하도록 구성된 프로그램 명령을 포함하는
    컴퓨터 프로그램 제품.
  29. 제 21 항 내지 제 28 항 중 어느 한 항에 있어서,
    상기 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 상기 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하도록 구성된 상기 프로그램 명령은,
    가우스 분포 함수를 적용하도록 구성된 프로그램 명령과,
    상기 산출된 알파값 및 감마값이 상기 가우스 분포 함수에 대하여 임계치 관계를 만족시키는 경우 상기 화상 영역을 텍스트를 포함하는 영역으로서 분류하도록 구성된 프로그램 명령과,
    상기 산출된 알파값 및 감마값이 상기 가우스 분포 함수에 대하여 임계치 관계를 만족시키지 않는 경우 상기 화상 영역을 텍스트 미포함 영역으로서 분류하도록 구성된 프로그램 명령을 포함하는
    컴퓨터 프로그램 제품.
  30. 가설 텍스트 단편을 포함하는 화상 영역에 관련된 알파값을 산출하기 위한 수단-상기 알파값은 상기 가설 텍스트 단편에 대한 곡선의 문자 길이 분포, 문자 폭 분포 및 문자간의 간격 분포의 함수로서 정의됨-과,
    상기 가설 텍스트 단편에 대하여 결정된 간격 길이 분포에 적어도 부분적으로 근거하여 감마값을 산출하기 위한 수단과,
    상기 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 상기 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하기 위한 수단을 포함하는
    장치.
  31. 제 30 항에 있어서,
    상기 알파값을 산출하기 위한 상기 수단은 상기 가설 텍스트 단편에 대한 상기 곡선의 문자 길이 분포, 상기 문자 폭 분포 또는 상기 문자간의 간격 분포를 직접 산출하는 일 없이 상기 알파값을 산출하기 위한 수단을 포함하는
    장치.
  32. 제 30 항 또는 제 31 항에 있어서,
    상기 알파값을 산출하기 위한 상기 수단은 상기 가설 텍스트 단편에 의해 점유되는 상기 결정된 화상 영역의 면적의 상기 결정된 화상 영역의 총면적에 대한 비율을 규정하는 점유율 및 상기 가설 텍스트 단편에 대한 획 폭에 적어도 부분적으로 근거하여 상기 알파값을 산출하기 위한 수단을 포함하는
    장치.
  33. 제 30 항 또는 제 31 항에 있어서,
    상기 알파값을 산출하기 위한 상기 수단은 상기 결정된 화상 영역의 총면적 및 상기 가설 텍스트 단편의 적어도 하나의 가설 문자를 지나는 라인간의 간격에 의해 특징지어지는 복수의 실질적으로 평행한 라인의 교차점의 수에 적어도 부분적으로 근거하여 상기 알파값을 산출하기 위한 수단을 포함하는
    장치.
  34. 제 30 항 내지 제 33 항 중 어느 한 항에 있어서,
    상기 간격 길이 분포에 적어도 부분적으로 근거하여 상기 감마값을 산출하기 위한 상기 수단은, 텍스트 높이로 나누어진 상기 간격 길이의 분포의 표준편차에 대한, 텍스트 높이로 나누어진 상기 간격 길이의 분포의 평균의 비율을 산출하기 위한 수단을 포함하는
    장치.
  35. 제 30 항 내지 제 34 항 중 어느 한 항에 있어서,
    상기 가설 텍스트 단편을 가로질러 적어도 하나의 주사선을 인가하기 위한 수단과,
    상기 인가된 적어도 하나의 주사선에 적어도 부분적으로 근거하여 상기 가설 텍스트 단편의 적어도 하나의 특성을 결정하기 위한 수단
    을 더 포함하고,
    상기 알파값 및 감마값을 산출하기 위한 상기 수단은 상기 가설 텍스트 단편의 상기 결정된 적어도 하나의 특성에 적어도 부분적으로 근거하여 상기 알파값 및 감마값을 산출하기 위한 수단을 포함하는
    장치.
  36. 제 30 항 내지 제 35 항 중 어느 한 항에 있어서,
    상기 결정된 화상 영역을 2치화하는 것에 의해 2치 화상을 도출하기 위한 수단과,
    상기 2치 화상에 적어도 부분적으로 근거하여 상기 화상 영역이 2개의 확률 분포만을 사용하여 묘사 가능한지 여부를 결정하기 위한 수단과,
    상기 화상 영역이 2개의 확률 분포만을 사용하여 묘사 가능하다고 결정된 경우에만 상기 2치 화상을 사용하여 상기 알파값을 산출하고 상기 감마값을 산출하는 수단과,
    상기 화상 영역이 2개의 확률 분포만을 사용하여 묘사 가능하지 않은 경우에 상기 화상 영역을 텍스트 미포함 영역으로서 분류하기 위한 수단을 더 포함하는
    장치.
  37. 제 30 항 내지 제 36 항 중 어느 한 항에 있어서,
    상기 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 상기 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하기 위한 상기 수단은,
    상기 산출된 알파값 및 감마값이 예상된 알파값 및 감마값에 대하여 규정된 임계치 관계를 만족시키는지 여부를 결정하기 위한 수단과,
    상기 산출된 알파값 및 감마값이 예상된 알파값 및 감마값에 대하여 상기 임계치 관계를 만족시킨다고 결정된 경우에 상기 화상 영역을 텍스트를 포함하는 영역으로서 분류하기 위한 수단과,
    상기 산출된 알파값 및 감마값이 예상된 알파값 및 감마값에 대하여 상기 임계치 관계를 만족시키지 않는다고 결정된 경우에 상기 화상 영역을 텍스트 미포함 영역으로서 분류하기 위한 수단을 포함하는
    장치.
  38. 제 30 항 내지 제 37 항 중 어느 한 항에 있어서,
    상기 산출된 알파값 및 감마값에 적어도 부분적으로 근거하여 상기 화상 영역이 텍스트를 포함하는 영역인지 여부를 분류하기 위한 상기 수단은,
    가우스 분포 함수를 적용하기 위한 수단과,
    상기 산출된 알파값 및 감마값이 상기 가우스 분포 함수에 대하여 임계치 관계를 만족시키는 경우 상기 화상 영역을 텍스트를 포함하는 영역으로서 분류하기 위한 수단과,
    상기 산출된 알파값 및 감마값이 상기 가우스 분포 함수에 대하여 임계치 관계를 만족시키지 않는 경우 상기 화상 영역을 텍스트 미포함 영역으로서 분류하기 위한 수단을 포함하는
    장치.
KR1020147016841A 2011-11-21 2012-10-08 화상 내의 텍스트의 검출을 용이하게 하기 위한 방법 및 장치 KR101602591B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/300,972 US8494284B2 (en) 2011-11-21 2011-11-21 Methods and apparatuses for facilitating detection of text within an image
US13/300,972 2011-11-21
PCT/FI2012/050961 WO2013076356A1 (en) 2011-11-21 2012-10-08 Methods and apparatuses for facilitating detection of text within an image

Publications (2)

Publication Number Publication Date
KR20140091760A true KR20140091760A (ko) 2014-07-22
KR101602591B1 KR101602591B1 (ko) 2016-03-10

Family

ID=48427028

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147016841A KR101602591B1 (ko) 2011-11-21 2012-10-08 화상 내의 텍스트의 검출을 용이하게 하기 위한 방법 및 장치

Country Status (6)

Country Link
US (1) US8494284B2 (ko)
EP (1) EP2783326A4 (ko)
JP (1) JP5832656B2 (ko)
KR (1) KR101602591B1 (ko)
CN (1) CN103946865B (ko)
WO (1) WO2013076356A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440486A (zh) * 2013-08-29 2013-12-11 方正国际软件有限公司 一种图像中标牌尺度的检测方法及系统
US9460357B2 (en) * 2014-01-08 2016-10-04 Qualcomm Incorporated Processing text images with shadows
US10372981B1 (en) 2015-09-23 2019-08-06 Evernote Corporation Fast identification of text intensive pages from photographs
CN107403179B (zh) * 2016-05-20 2020-10-23 株式会社理光 一种物品包装信息的注册方法及装置
WO2020097909A1 (zh) * 2018-11-16 2020-05-22 北京比特大陆科技有限公司 文本检测方法、装置及存储介质
CN112380899A (zh) * 2020-09-30 2021-02-19 深圳点猫科技有限公司 一种广告图像内的文本识别方法、装置及设备
CN112232345B (zh) * 2020-10-10 2022-10-04 安徽淘云科技股份有限公司 配置信息确定和图像有效区域提取方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090285482A1 (en) * 2008-05-19 2009-11-19 Microsoft Corporation Detecting text using stroke width based text detection

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3361124B2 (ja) 1991-07-30 2003-01-07 ゼロックス・コーポレーション テキストを含む2次元画像上での画像処理方法と画像処理装置
JPH05210759A (ja) * 1992-01-30 1993-08-20 Omron Corp 文字認識装置
JP3236732B2 (ja) * 1994-03-28 2001-12-10 松下電器産業株式会社 文字認識装置
JP2005038137A (ja) * 2003-07-18 2005-02-10 Ricoh Co Ltd 画像処理方法、プログラム及び記録媒体
JP4788106B2 (ja) * 2004-04-12 2011-10-05 富士ゼロックス株式会社 画像辞書作成装置、符号化装置、画像辞書作成方法及びそのプログラム
JP5088329B2 (ja) * 2007-02-13 2012-12-05 日本電気株式会社 細胞特徴量算出装置および細胞特徴量算出方法
JP5146190B2 (ja) * 2008-08-11 2013-02-20 オムロン株式会社 文字認識装置、文字認識プログラム、および文字認識方法
US8320674B2 (en) 2008-09-03 2012-11-27 Sony Corporation Text localization for image and video OCR

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090285482A1 (en) * 2008-05-19 2009-11-19 Microsoft Corporation Detecting text using stroke width based text detection

Also Published As

Publication number Publication date
EP2783326A4 (en) 2016-08-10
JP5832656B2 (ja) 2015-12-16
US20130129222A1 (en) 2013-05-23
CN103946865B (zh) 2017-03-29
EP2783326A1 (en) 2014-10-01
US8494284B2 (en) 2013-07-23
KR101602591B1 (ko) 2016-03-10
CN103946865A (zh) 2014-07-23
WO2013076356A1 (en) 2013-05-30
JP2014535101A (ja) 2014-12-25

Similar Documents

Publication Publication Date Title
KR101602591B1 (ko) 화상 내의 텍스트의 검출을 용이하게 하기 위한 방법 및 장치
US10572754B2 (en) Area of interest boundary extracting method and apparatus, device and computer storage medium
US10373380B2 (en) 3-dimensional scene analysis for augmented reality operations
CN108229353B (zh) 人体图像的分类方法和装置、电子设备、存储介质、程序
US9076056B2 (en) Text detection in natural images
CN105046254A (zh) 字符识别方法及装置
WO2019128254A1 (zh) 图像分析方法、装置、电子设备及可读存储介质
CN109285181B (zh) 用于识别图像的方法和装置
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN108182457B (zh) 用于生成信息的方法和装置
CN111738252B (zh) 图像中的文本行检测方法、装置及计算机系统
CN109960959B (zh) 用于处理图像的方法和装置
US9824289B2 (en) Exploiting color for license plate recognition
CN114511041A (zh) 模型训练方法、图像处理方法、装置、设备和存储介质
US10631050B2 (en) Determining and correlating visual context on a user device with user behavior using digital content on the user device
CN110895811A (zh) 一种图像篡改检测方法和装置
CN114332809A (zh) 一种图像识别方法、装置、电子设备和存储介质
CN115330803B (zh) 一种表面缺陷数据增强方法、装置、电子设备及存储介质
Vidhyalakshmi et al. Text detection in natural images with hybrid stroke feature transform and high performance deep Convnet computing
CN112749293A (zh) 一种图像分类方法、装置及存储介质
CN112102145A (zh) 图像处理方法及装置
CN106991684B (zh) 前景提取方法及装置
US11863995B2 (en) Method for generating wireless access point information, device, and computer readable medium
CN111950356B (zh) 印章文本定位方法、装置及电子设备
CN113760686A (zh) 用户界面的测试方法、装置、终端和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee