KR20110056380A - 이미지 및 비디오 ocr을 위한 텍스트 로컬화 - Google Patents

이미지 및 비디오 ocr을 위한 텍스트 로컬화 Download PDF

Info

Publication number
KR20110056380A
KR20110056380A KR1020117005003A KR20117005003A KR20110056380A KR 20110056380 A KR20110056380 A KR 20110056380A KR 1020117005003 A KR1020117005003 A KR 1020117005003A KR 20117005003 A KR20117005003 A KR 20117005003A KR 20110056380 A KR20110056380 A KR 20110056380A
Authority
KR
South Korea
Prior art keywords
text
feature
area
threshold
region
Prior art date
Application number
KR1020117005003A
Other languages
English (en)
Other versions
KR101452562B1 (ko
Inventor
쟝 피에르 길로우
양 유
Original Assignee
소니 주식회사
소니 일렉트로닉스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사, 소니 일렉트로닉스 인코포레이티드 filed Critical 소니 주식회사
Publication of KR20110056380A publication Critical patent/KR20110056380A/ko
Application granted granted Critical
Publication of KR101452562B1 publication Critical patent/KR101452562B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

본 발명에 따른 실시예에 따르면, 이미지 및 비디오로부터 텍스트를 인식하는 데 있어서의 첫번째 동작은 이미지 및 비디오에서 텍스트의 위치를 정확하게 찾아내는 것이다. 그 후에, 찾아낸 어쩌면 저해상도인 텍스트가 추출되고 향상되며 이진화될 수 있다. 마지막으로, 기존의 OCR 기술이 인식을 위해 이진화된 텍스트에 적용될 수 있다. 다른 실시예들이 이 요약에 기술된 특징들로부터 벗어날 수 있기 때문에, 이 요약이 제한하는 것으로 생각되어서는 안 된다.

Description

이미지 및 비디오 OCR을 위한 텍스트 로컬화{TEXT LOCALIZATION FOR IMAGE AND VIDEO OCR}
<관련 문서의 상호 참조>
본 출원은 Yu 등의 2008년 9월 30일자로 출원된 미국 가특허 출원 제61/190,992호에 관한 것으로서 이를 기초로 우선권을 주장하며, 이 출원은 본 명세서에 참조되어 포함된다. 본 출원은 모두 Candelore의, 2007년 2월 14일자로 출원된 미국 특허 출원 제11/706,919호, 2007년 2월 14일자로 출원된 제11/706,890호, 2007년 3월 8일자로 출원된 제11/715,856호 및 2007년 2월 14일자로 출원된 제11/706,529호에 관한 것이며, 이들은 본 명세서에 참조되어 포함된다.
<저작권 및 상표권 고지>
이 특허 문서의 개시 내용의 일부분이 저작권 보호를 받는 내용을 포함하고 있다. 저작권 소유자는 특허청 특허 파일 또는 기록에 나와 있는 그대로 특허 문서 또는 특허 명세서를 팩시밀리 재현하는 것에 대해서는 이의를 제기하지 않지만, 그렇지 않은 어떤 경우에도 모든 저작권을 보유한다. 상표는 그 각자의 소유자의 자산이다.
TV 비디오에서, 광고된 제품의 이름, 관련 정보의 URL(Universal Resource Locator), 연설자 또는 선수의 이름, 행사의 위치 및 날짜 등과 같은 중요한 콘텐츠 정보를 제공할 수 있는 텍스트가 종종 존재한다. 캡션으로서 인위적으로 추가되거나 장면에 삽입된 텍스트가 이미지 및 비디오를 인덱싱 및 검색하는 데, 비디오 콘텐츠에 대한 시청자의 관심을 분석하는 데, 또는 인터넷으로부터 액세스될 수 있는 관련 콘텐츠를 시청자에게 제공하는 데 이용될 수 있다. 그러나, 보통의 텔레비전 또는 비디오 이미지에 삽입된 텍스트는 종래의 문서에서 텍스트 인식이 수행될 때 존재하지 않는 텍스트 식별 및 인식에서의 특별한 문제점을 제기한다.
목적 및 이점과 함께, 동작의 구성 및 방법을 설명하는 예시적인 특정 실시예가 첨부 도면과 관련하여 기술된 이하의 상세한 설명을 참조함으로써 가장 잘 이해될 수 있을 것이다.
도 1은 본 발명의 특정 실시예에 따른, 텍스트 로컬화 프로세스의 예시적인 흐름도이다.
도 2는, 도 2a 및 도 2b로 이루어져 있고, 본 발명의 특정 실시예에 따른 방식으로의 처리 전후의 예시적인 이미지이다.
도 3은 본 발명의 특정 실시예에 따른 예시적인 구현의 병합 그룹에서 사용되는 파라미터를 나타낸 도면이다.
도 4는 본 발명의 특정 실시예에 따른 방식으로 도 2b의 세그먼트화된 이미지의 처리 후의 추출된 영역의 일부를 나타낸 도면이다.
도 5는, 도 5a 및 도 5b로 이루어져 있고, 본 발명의 특정 실시예에 따른 방식으로 사용되는 스트로크 폭 파라미터를 나타낸 도면이다.
도 6은, 도 6a 내지 도 6f로 이루어져 있고, 본 발명의 특정 실시예에 따른 몇가지 예에 대한 이진화 결과를 나타낸 도면.
<참고 문헌>
하기의 문헌이 이하의 상세한 설명에서 참조된다:
[1] Rainer Lienhart. Video OCR: A survey and practitioner's guide, In Video Mining, Kluwer Academic Publisher, pp. 155-184, Oct. 2003.
[2] Keechul Jung, Kwang In Kim, and Anil K. Jain, Text information extraction in images and video: a survey, Pattern Recognition, 37, pp. 977-997, 2004.
[3] Jian Liang, David Doermann, and Huiping Li. Camera-based analysis of text and documents: a survey, IJDAR, vol 7, No 2-3, 2005.
[4] Anil K. Jain and Bin Yu. Automatic text location in images and video frames, Pattern Recognition, Vol. 31, No 12, 1998.
[5] Shio J. Ohya and S. Akamatsu. Recognizing characters in scene images, IEEE Trans. On Pattern Analysis and Machine Intelligence, VoI 16, No 2, 1994, pp 214-220.
[6] CM. Lee, A. Kankanhalli, Automatic extraction of characters in complex images, Int. J. Pattern Recognition Artif. Intell. 9(1), 1995, pp67-82.
[7] M.A. Smith, T. Kanade, Video skimming for quick browsing based on audio and image characterization, Technical Report CMU-CS-95-186, Carnegie Mellon University, July 1995.
[8] D. Chen, K. Shearer and H. Bourlard, Text enhancement with asymmetric filter for video OCR. Proceedings of International Conference on Image Analysis and Processing, Palermo, Italy, 2001, pp. 192-197.
[9] H. Li, D. Doermann, O. Kia, Automatic text detection and tracking in digital video, IEEE Trans. Image Process. 9(1), 2001, pp. 147-156.
[10] D. Chen, H. Boulard, J-P. Thiran. Text identification in complex background using SVM, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Vol. 2, 2001, pp. 621-626.
[11] Xiangrong Che, Alan L. Yuille, Detecting and reading text in natural scenes, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Vol. 2, 2004, pp. 366-373.
[12] Edward K. Wong and Minya Chen, A new robust algorithm for video text extraction, Pattern Recognition. No. 36, 2003, pp. 1398-1406.
[13] K. Subramanian, P. Natarajan, M. Decerbo and D. Castanon, Character-stroke detection for text-localization and extraction, Proceedings of IEEE Document Analysis and Recognition. Vo. 1, 2007, pp. 23-26.
[14] Richard Nock and Frank Nielsen, Statistical Region Merging, IEEE Trans. On Pattern Analysis and Machine Intelligence, Vol. 26, No. 11, 2004, pp. 1452-1458.
[15] V. Vapnik, "Statistical learning theory", John Wiley and Sons, 1998.
[16] Chih-Chung Chang and Chih-Jen Lin, LIBSVM : a library for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsv.
[17] W. Niblack. An Introduction to Digital Image Processing, pp. 115-116, Prentice Hall, 1986.
[18] N. Otsu. A threshold selection method from gray-level histograms. IEEE Trans. On Systems, Man and Cybernetics, Vol. 9, No. 1, pp. 62-66, 1979.
[19] S.D. Yanowitz and A.M. Bruckstein, A new method for image segmentation, Computer Vision, Graphics and Image Prcoessing CVGIP, Vol. 46, no. 1, pp. 82-95, 1989.
[20] S.M. Lucas, A. Panaretos, L. Sosa, A. Tang, S. Wong and R. Young. ICDAR 2003 robust reading competitions, In 7th International Conference on Document Analysis and Recognition-ICDAR2003, 2003.
[21] S.M. Lucas, ICDAR 2005 Text locating competition results, ICDAR 2005, pp. 80-84.
본 발명이 많은 서로 다른 형태로 실시될 수 있지만, 특정의 실시예가 도면에 도시되고 본 명세서에 상세히 기술될 것이며, 이러한 실시예에 대한 본 개시 내용이 원리의 예로서 간주되어야 하고 본 발명을 도시되고 설명된 특정의 실시예로 제한하려는 것이 아니라는 것을 잘 알 것이다. 이하의 설명에서, 몇개의 도면에서 동일하거나 유사하거나 대응하는 부분을 설명하는 데 동일한 참조 번호가 사용된다.
본 명세서에서 사용되는 "한" 또는 "하나"라는 용어는 '하나 또는 둘 이상'으로서 정의된다. 본 명세서에서 사용되는 "복수"라는 용어는 '둘 또는 셋 이상'으로서 정의된다. 본 명세서에서 사용되는 "다른"이라는 용어는 '적어도 제2 또는 추가의'로서 정의된다. 본 명세서에서 사용되는 "구비하는" 및/또는 "갖는"이라는 용어는 '포함하는'(즉, 개방형 문언)으로서 정의된다. 본 명세서에서 사용되는 "결합된"이라는 용어는 '연결된'으로서 정의되지만, 반드시 직접 연결될 필요가 없고 또한 반드시 기계적으로 연결될 필요가 없다. 본 명세서에서 사용되는 "프로그램" 또는 "컴퓨터 프로그램"이라는 용어 또는 유사한 용어는 컴퓨터 시스템 상에서 실행되도록 설계된 '명령어 시퀀스'로서 정의된다. "프로그램" 또는 "컴퓨터 프로그램"은 서브루틴, 함수, 프로시저, 객체 메서드, 객체 구현, 실행가능 응용 프로그램, 애플릿, 서블릿, 소스 코드, 오브젝트 코드, 공유 라이브러리/DLL(dynamic load library) 및/또는 컴퓨터 시스템 상에서 실행되도록 설계된 기타 명령어 시퀀스를 포함할 수 있다. 본 명세서에서 사용되는 "프로그램"이라는 용어는 또한 제2 문맥으로도 사용될 수 있다(상기한 정의는 제1 문맥에 대한 것임). 제2 문맥에서, 이 용어는 "텔레비전 프로그램"의 의미로 사용된다. 이 문맥에서, 이 용어는, 콘텐츠가 영화, 스포츠 경기, 여러 편의 시리즈(multi-part series) 중 단편, 뉴스 방송 등인지에 상관없이, 하나의 텔레비전 프로그램으로서 해석되고 EPG(electronic program guide)에서 하나의 텔레비전 프로그램으로서 보고되는 것과 같은 임의의 일관성있는 오디오 비디오 콘텐츠 시퀀스를 의미하는 데 사용된다. 이 용어는 또한 EPG(electronic program guide)에서 프로그램으로서 보고되지 않을 수 있는 광고 스팟(commercial spot) 및 기타 프로그램-유사 콘텐츠를 포괄하도록 해석될 수 있다.
본 문서 전반에 걸쳐 "일 실시예", "특정 실시예", "실시예", 또는 유사한 용어는 그 실시예와 관련하여 기술된 특정의 특징, 구조 또는 특성이 본 발명의 적어도 하나의 실시예에 포함된다는 것을 의미한다. 따라서, 본 명세서 전반에 걸쳐 여러 곳에서 나오는 이러한 문구가 모두 동일한 실시예를 말하는 것은 아니다. 게다가, 특정의 특징, 구조 또는 특성이 하나 이상의 실시예에서 임의의 적절한 방식으로 결합될 수 있지만, 이들로 제한되지 않는다.
본 명세서에서 사용되는 "또는"이라는 용어는 포함적이거나 임의의 하나 또는 임의의 조합을 의미하는 것으로 해석되어야 한다. 따라서, "A, B 또는 C"는 A, B, C, A와 B, A와 C, B와 C, A와 B와 C 중 어느 것이라도 의미한다. 요소, 기능, 단계 또는 동작의 조합이 어떤 면에서 본질적으로 상호 배타적일 때에만 이 정의에 대한 예외가 될 것이다. 본 문서 전체에 걸쳐, 특정 프로세스에서 비교를 위해 다양한 임계값이 사용된다. 본 명세서에 개시되고 상기 참고 자료를 참조하는 임계값은 여기에 제시되는 예시적인 실시예와 관련하여 참조하기 위한 것이며 다른 구현에 따른 다른 프로세스를 제한하기 위한 것이 아니다.
TV 비디오에서, 광고된 제품의 이름, 관련 정보의 URL(Universal Resource Locator), 연설자 또는 선수의 이름, 행사의 위치 및 날짜 등과 같은 중요한 콘텐츠 정보를 제공할 수 있는 텍스트가 종종 존재한다. 캡션으로서 인위적으로 추가되거나 장면에 삽입된 텍스트가 이미지 및 비디오를 인덱싱 및 검색하는 데, 비디오 콘텐츠에 대한 시청자의 관심을 분석하는 데, 또는 인터넷으로부터 액세스될 수 있는 관련 콘텐츠를 시청자에게 제공하는 데 이용될 수 있다. 그러나, 보통의 텔레비전 또는 비디오 이미지에 삽입된 텍스트는 종래의 문서에서 텍스트 인식이 수행될 때 존재하지 않는 텍스트 식별 및 인식에서의 특별한 문제점을 제기한다. 비교적 고선명 비디오에서도, 텍스트가 종종 종래의 광학 문자 인식을 사용하여 인쇄 텍스트에서 통상적인 것보다도 기계에 의해 인식하기가 더 어려운 비교적 저해상도로 제시될 수 있다.
광학 문자 인식(OCR) 기술은 텍스트 문서로부터 텍스트를 자동으로 인식하는 데 사용될 수 있으며, 여기서 해상도는 충분히 높고(예를 들어, 300dpi 초과), 전경 텍스트가 바람직하게는 간단한 구조화된 백색 배경 상에 흑색으로 되어 있다. 그러나, 이미지 또는 비디오에서, 해상도가 일반적으로 훨씬 더 낮다(예를 들어, 50dpi 또는 훨씬 더 낮음). 좋지 않은 이미지 품질은 센서로 인한 노이즈, 불균일한 조명 또는 압축 등으로부터 온 것이다. 또한, 원근법, 광각 렌즈, 비평면인 표면, 조명 등에 의해 왜곡이 생긴다. 마지막으로, 텍스트가 이리저리 움직이는 물체를 가지는 복잡한 배경 상에 있을 수 있다. 요약하면, 비디오 이미지 또는 그로부터의 프레임 등의 이미지를 처리할 때 종래의 OCR 기술이 고려하지 않는 많은 변수가 있다. 이들 문제점 모두는 종종 OCR 기술을 이미지 및 비디오 데이터에 직접 적용하는 것을 어렵게 만들거나 심지어 불가능하게 만든다.
본 발명에 따른 실시예에 따르면, 이미지 및 비디오로부터 텍스트를 인식하는 데 있어서의 첫번째 동작은 이미지 및 비디오에서 텍스트의 위치를 정확하게 찾아내는 것이다. 이것은 아주 복잡한 문제인 것으로 밝혀졌다. 그 후에, 찾아낸 어쩌면 저해상도인 텍스트가 추출되고 향상되며 이진화될 수 있다. 마지막으로, 기존의 OCR 기술이 인식을 위해 이진화된 텍스트에 적용될 수 있다.
이미지 및 비디오 데이터에서 텍스트를 찾아내는 문제는 다수의 방식으로 해결되었다. 상기 참고 문헌에서 텍스트 로컬화 및 추출 알고리즘에 대해 광범위하게 검토하고 있다. 상기한 [1], [2] 및 [3] 문헌이 이하의 상세한 설명에서 참조된다. 종종 방법이 영역-기반 방법, 에지-기반 방법 및 텍스처-기반 방법으로 분류된다.
참고 문헌 [4], [5], [6]에 기술된 바와 같은 영역-기반 방법에서, 텍스트 내의 문자가 동일한 컬러를 갖는 것으로 가정된다. 연결 성분 분석, 클러스터링 또는 세그먼트화 알고리즘에 의해 영역이 발생된다. 이어서, 영역의 크기, 높이/폭 비 또는 기준선 등의 추론이 비텍스트 영역을 필터링 제거하는 데 이용된다. 마지막으로, 나머지 영역이 추론 제약조건(heuristic constraint) 또는 학습된 분류기에 의해 텍스트 또는 비텍스트로서 분류된다.
참고 문헌 [7] 및 [8]에 기술된 에지-기반 방법은 텍스트가 배경에 대해 강한 에지를 나타내므로 텍스트 영역이 에지의 클러스터라는 관찰에 기초하며 따라서 첫번째 단계가 에지 검출이다. 이어서, 평탄화(smoothing) 및 병합에 의해, 에지가 클러스터링된다. 마지막으로, 이들 클러스터가 추론 제약조건 또는 학습된 분류기에 의해 텍스트 또는 비텍스트로서 분류된다.
텍스처-기반 방법은 텍스처 특징을 사용하여 픽셀 또는 영역이 텍스트에 속하는지 여부를 결정한다. 로컬 공간 분산, 수평 분산, 2차 통계, 주파수 특징, 웨이블릿 변환의 로컬 에너지 또는 고차 모멘트 등과 같은 텍스처 특징을 추출하기 위해 전체 이미지가 픽셀별로 또는 블록별로 스캔된다. 픽셀 또는 블록을 텍스트 또는 비텍스트로 분류하기 위해 특징이 이어서 분류기(신경망 [9], 지지 벡터 기계 [10], 또는 아다부스팅(adaboosting) [11])에 피드된다. 마지막으로, 픽셀 또는 블록이 병합되어 최종 텍스트 영역을 발생한다.
본 명세서에 기술된 기술은 광의적으로 영역-기반 텍스트 로컬화 방법이라고 할 수 있다. 빠르고 효과적인 이미지 세그먼트화 알고리즘이 먼저 유사한 컬러의 영역을 추출하기 위해 이용된다. 텍스트인 것으로 생각되지 않는 영역을 필터링 제거하기 위해 추론이 적용되는 전처리 후에, 각각의 영역의 특징이 분석된다. 텍스트에서의 스트로크가 유사한 폭을 가지는 경향이 있다는 관찰에 기초하여, 스트로크 특징이 추출된다. 또한, 중요한 에지 특징 및 필 팩터(fill factor) 특징이 차감된다. 마지막으로, 지지 벡터 기계(SVM) 분류기(분류기는 서로 다른 그룹을 가지는 객체를 분리함)는 영역을 텍스트 및 비텍스트로 분류하도록 학습된다. SVM은 텍스트와 비텍스트 간의 차를 최대화하는 데 사용된다.
텍스트를 식별하는 것을 돕기 위해 스트로크 특징이 이용된다. 유의할 점은, 일반적으로 텍스트에서의 스트로크의 폭이 수평으로도 수직으로도 유사하다는 것이다. 참고 문헌 [12] 및 [13]에서, 스트로크 폭도 역시 사용되지만, 텍스트 검출을 위해 수평 스트로크 폭만이 검사된다. 여기서, 수평 및 수직 방향 둘다에서의 스트로크 폭의 특징이 추출된다. 또한, 에지 및 기타 중요한 특징이 분류를 위해 결합된다.
1. 시스템 및 처리 개요
도 1은 104에서 시작하는 특정 실시예에 따른 비디오 OCR 프로세스(100)의 예시적인 흐름도이다. 동 도면은 또한 시스템 다이어그램으로도 볼 수 있으며, 동 도면의 각각의 블록이 프로그램된 프로세서 및/또는 상태 기계 및/또는 전용 하드웨어를 사용하여 구현될 수 있는 시스템의 기능 블록을 나타낸다. 108에서, 시스템은 입력 이미지 또는 키 프레임을 수신한다. 이어서, 112에서 이미지가 유사한 컬러의 영역으로 세그먼트화된다. 이들 영역에 대표적인 컬러가 할당되면, 얻어진 이미지는 제한된 수의 컬러로 렌더링되는 것과 비슷하고, 이미지는 컬러 영역의 경계에서 농담이 고르지 않은 모습을 가진다. 이들 영역이 전처리 블록(116)에서 크기, 종횡비, 필 팩터 등과 같은 추론 제약조건에 의해 필터링된다. 120에서, 나머지 영역의 특징이 추출된다. 124에서, 이들 특징이 영역을 텍스트 영역과 비텍스트 영역으로 분류하는 SVM 분류기에 피드된다. 128에서, 그 텍스트 영역이 향상되고 이진화된다. 마지막으로, 132에서, 프로그램된 프로세서의 형태로 구현될 수 있는 OCR 엔진에서 OCR 처리가 수행된다. OCR 엔진은 이진화된 영역에 대해 동작하고 인식된 텍스트의 형태로 인식 결과를 출력하고, 프로세스가 136에서 종료한다. 도 1의 다양한 요소에 대해 이하에서 더 상세히 설명한다.
II. SVM에 의한 텍스트 로컬화
A. 세그먼트화
특정 구현에 따르면, 참고 문헌 [14]에 기술된 통계적 영역 병합 알고리즘이 입력 이미지에 적용되어 유사한 컬러의 영역을 얻지만, 다른 알고리즘도 사용될 수 있다. 본 문서의 목적상, "유사한 컬러"라는 용어는, 본 명세서에서 사용되는 바와 같이, 한 예시적인 구현에서, 2개의 영역(여기서 한 영역은 프라임 부호로 표시되어 있고 윗줄은 평균값을 나타냄)의 평균 적색, 녹색, 청색(R, G, B) 값의 절대 차가 하기의 식으로 표현될 수 있는 병합 임계값 내에 있다는 것을 의미한다:
Figure pct00001
여기서 Tdev는 참고 문헌 [14]에 제공된 것과 같은 병합 임계값이다. 다른 구현에서 유사한 컬러의 다른 병합 임계값 및 다른 정의도 또한 적절할 수 있다. 분포에 대해 다소 제한적인 가정을 사용하는 대부분의 다른 공지된 세그먼트화 알고리즘과 달리, 이 알고리즘이 현재 바람직한 이유는 가정이 거의 없는 이미지 발생 모델에 기초하며 이는 모든 종류의 시나리오에서 알고리즘을 효과적으로 만들기 때문이다. 알고리즘은 3 단계로 수행된다. 제1 단계는 이웃 픽셀의 컬러 차를 계산하는 것이다. 제2 단계는 픽셀의 컬러 차에 따라 픽셀을 정렬하는 것을 포함한다. 제3 단계는 영역이 발생되도록 임계값보다 작은 컬러 차를 가지는 픽셀을 병합하는 것을 포함한다. 알고리즘이 과잉-병합 오류만을 겪고 세그먼트화에서 높은 확률로 낮은 오류를 달성하도록 되어 있다. 마지막으로, 알고리즘이 선형 시간/공간에서 효율적으로 근사화될 수 있고, 그로써 고속 세그먼트화 알고리즘이 얻어진다. 참조된 상기 미국 가특허 출원 제61/190,992호의 도 2는 세그먼트화 알고리즘의 예시적인 출력을 나타내며, 여기서는 도 2a 및 도 2b로서 나타내어져 있다.
B. 전처리
세그먼트화 후에, 유사한 컬러의 영역이 얻어진다. 목표는 그 영역을 텍스트 영역 및 비텍스트 영역으로 분류하는 것이다. 분류의 효율성을 향상시키기 위해, 텍스트일 가능성이 거의 없는 영역이 먼저 제거된다. 따라서, 한 구현에서 하기의 조건이 검사된다:
(1) region_height가 어떤 임계값 T_low보다 작거나 region_height가 어떤 임계값 T_high보다 큰 경우, 영역이 버려진다.
(2) region_area이 어떤 임계값 T_area보다 작은 경우, 영역이 버려진다.
(3) 영역이 이미지 경계의 4개의 측면 중 하나와 접촉하고 그의 높이가 임계값 T보다 큰 경우, 영역이 버려진다.
(4) 수학식 1로서 정의된 fill_factor가
Figure pct00002
임계값 T_fill보다 작은 경우, 버려진다.
이상의 임계값들은 경험적으로 선택된다. 이 예시적인 구현에서, 사용된 값들은 다음과 같다:
T_low=10
T_high=HEIGHT*0.9 (HEIGHT는 이미지 크기의 높이임)
T_area=12
T=HEIGHT/2
T_fill=0.1
다른 값들이 다른 구현에 적당할 수 있고, 현재의 값이 경험적으로 추가로 최적화될 수 있다.
문자들이 클러스터를 이루어 나타나는 경향이 있으며, 문자들의 클러스터를 분류하는 것이 더 쉽다. 동일한 단어 내의 문자들이 보통 동일한 컬러를 가지며, 대체로 수평으로 정렬되어 있다. 이상의 사실로 인해, 영역의 크기 및 컬러가 유사하고 영역의 수평 위치가 임계값 내에 있는 경우 영역이 그룹화된다. 도 3은 다음과 같이 이 예시적인 구현에서 영역을 병합 또는 그룹화하는 데 사용되는 파라미터 Dregion, Dtop 및 Dbottom을 나타내고 있다.
예시적인 구현에서 사용되는 병합 또는 그룹화 규칙은 다음과 같다:
규칙 1. (높이 유사성)
여기서 HEIGHT1 및 HEIGHT2는 2개의 영역의 높이이다.
규칙 2. (컬러 유사성)
Figure pct00004
여기서
Figure pct00005
Figure pct00006
은 2개의 영역의 평균 컬러이다.
규칙 3. (영역 거리)
Figure pct00007
여기서 Dregion은 2개의 영역의 수평 거리이다.
규칙 4. (수평 정렬)
Figure pct00008
또는
Figure pct00009
여기서 Dtop 및 Dbottom은 상부 경계 및 하부 경계 사이의 수직 거리이다. Dregion, Dtop 및 Dbottom의 정의에 대해서는 도 3을 참조하기 바란다. 임계값은 다음과 같이 경험적으로 설정되지만, 다른 구현, 규칙 및 규칙 수정에 대해 다른 설정이 적당할 수 있고, 이들 임계값이 추가로 최적화될 수 있다:
Figure pct00010
도 4는 미국 가특허 출원의 도 2(도 2)에서의 세그먼트화된 이미지의 전처리 후의 추출된 영역의 일부를 나타낸 것이다. 도 4에서, 박스는 각각의 예시적인 영역을 둘러싸는 박스의 경계를 나타내고, 흑색 영역은 전경 영역이며, 백색 영역은 배경 영역이다. 그 다음 작업은 그 영역을 텍스트 영역 및 비텍스트 영역으로 분류하는 것이다.
C. 특징 추출
나머지 영역의 특징이 이어서 추출된다. 사용되는 특징은 스트로크 폭 특징, 에지 특징 및 필 팩터 특징이며, 이하에서 상세히 설명한다.
스트로크 폭 특징
도 5는 도 5a 및 도 5b로 이루어져 있으며, 스트로크 폭의 개념을 나타내고 있다. 본 문서의 목적상, 스트로크 폭은 스트로크의 2개의 에지 사이의 수평 방향에서의 픽셀 단위의 폭으로 간주된다. 스트로크 폭의 분산이 임계값 내에 있는 이웃의 퍼센트를 사용하는 본 방법에서 실제 폭이 특별히 중요하지는 않다.
스트로크 폭 특징은 텍스트 요소 내의 스트로크 폭이 수직 방향 및 수평 방향 둘다에서 유사한 경향이 있다는 관찰(도 5에 나타내어져 있음)에 기초한다. 도 5a는 글자 "F"에서의 예시적인 스트로크의 폭이 브라켓(140)으로 정의된 수직 이웃에서 대략 일정하다는 것을 나타내고 있다. 화살표는 문자 F의 이 영역에서의 폭을 나타낸다. 도 5b는 수평으로 스트로크가 유사한 폭을 가지거나(즉, 대략 동일하거나) 유사한 폭을 가지는 그룹으로 클러스터링될 수 있다는 것을 나타내고 있다. 동 도면에서, 참조 번호(144, 148, 152, 156) 각각은 대략 공통의 폭을 나타낸다.
이와 관련하여 사용되는 "이웃"이라는 용어는 스트로크를 포함하는 수직 거리의 범위이며, 텍스트 요소가 수직 방향으로 유사하다고 말할 때, 이는 폭이 수직 이웃 내에 있다는 것을 의미한다. 수평 방향의 경우, 스트로크 폭은 동일한 행에서 또는 동일한 y 좌표에서 비교된다.
대략 일정한 수직 스트로크 폭을 반영하는 특징이 다음과 같이 계산된다. 먼저, 수직 이웃에서의 스트로크 폭의 표준 편차가 계산된다. 본 명세서에서 사용되는 바와 같이, 수직 이웃은 좌표 (x,y)를 갖는 픽셀로서 정의되며, 여기서 영역
Figure pct00011
내의 모든 픽셀에 대해
Figure pct00012
이다. 특징 값 s1은 스트로크 폭의 표준 편차가 임계값 내에 있는 전체 영역에서의 이웃의 퍼센트이다.
유사하게, 수평 스트로크 폭의 특징도 계산된다. 행에서의 스트로크 폭이 계산되고 클러스터링되며, 여기서 "행"은 동일한 y 좌표를 가지는 픽셀로서 정의된다. 그 클러스터는 이 예에서 멤버 수가 3 미만이며, 여기서 멤버 수는 클러스터 내의 멤버의 수이거나 유사한 스트로크 폭을 가지는 스트로크의 수인데, 그 이유는 클러스터가 스트로크 폭의 유사성에 따라 얻어지기 때문이다. 멤버가 거의 없는 클러스터 또는 환언하면 유사한 스트로크 폭이 거의 없는 스트로크는 잡음이 많거나 이상치인 것으로 간주되고 고려 대상에서 배제되며, 따라서 고려되지 않는다. 이와 같이, 이상치가 배제되고, 여기서 이상치는 멤버가 거의 없는 클러스터(여기서 3개 미만의 멤버 또는 유사한 스트로크 폭을 가지는 3개 미만의 스트로크를 가지는 스트로크 클러스터)로서 정의된다. 클러스터링하는 다른 이유는 행에 서로 다른 스트로크가 있을 수 있기 때문이다. 예를 들어, 도 5b의 상부 행에서, 148, 152 및 156으로 표시된 서로 다른 스트로크 폭의 3개의 클러스터가 있다. 일정한 수평 스트로크 폭을 반영하는 특징 값 s2는 수평 스트로크 폭의 표준 편차가 임계값 내에 있거나, 그룹으로 클러스터링될 수 있고 각각의 그룹에서의 수평 스트로크 폭의 표준 편차가 임계값 내에 있는 행의 퍼센트이다.
텍스트의 스트로크 간에 어떤 거리가 있다는 관찰에 기초하여, 특징 값 s3는 현재 스트로크 폭과 현재 스트로크에서 그 다음 이웃 스트로크까지의 거리의 평균 비로서 추출된다.
마지막 스트로크 특징 s4는 가장 자주 나오는 2개의 스트로크 폭의 비이다.
이하는 스트로크 폭 특징을 추출하는 예시적인 구현에서 사용되는 프로세스에 대한 의사-코드의 예이다:
스트로크 폭 특징 s1 , s2 , s3 , s4 을 추출하는 의사-코드
특징 s1 : 일정한 수직 스트로크 폭의 측정
s1=VerticalConstStrokeWidth(img)
입력:
img: 텍스트 또는 비텍스트로서 분류될 이진 이미지: 전경은 흑색이고 배경은 백색이며, 즉 img(foreground)=0, img(background)=1이며, 이미지에서의 행의 수는 HEIGHT이고, 이미지에서의 열의 수는 WIDTH이다.
출력:
s1: 일정한 수직 스트로크 폭을 측정하는 특징 값
1. img 내의 각각의 픽셀 (x,y)에 대해, 스트로크 폭 어레이 StrokeWidthMap를 계산한다.
a. 배경 내의 픽셀 (x,y)에 대해, 스트로크 폭은 0이다:
StrokeWidthMap (x,y)=0;
b. 전경 내의 픽셀에 대해, 스트로크 폭은 현재의 스트로크의 에지 사이의 거리이다. 예를 들어, 도 A에서, 적색 라인에 있는 픽셀 모두는 30-10=20의 스트로크 폭을 가질 것이다. 즉
StrokeWidthMap(10:30, 60)=20. (유의: 10:30은 10 내지 30의 좌표를 의미한다)
2. 각각의 픽셀 (x,y)에 대한 스트로크 폭 맵의 어레이 StrokeWidthMap이 얻어진다.(유의: StrokeWidthMapimg와 동일한 차원을 가진다)
3.
Figure pct00013
에 대해, (환언하면, 각각의 열 x에 대해 또한 Tn개의 행의 각각의 이웃에 대해 [여기서 Tn은
Tn=max(2, ceil(HEIGHT/10))로서 정의됨]
a. 스트로크 폭의 메디안(median)을 계산함:
medianW=median(StrokeWidthMap(x, r:r+Tn)
b. 스트로크 폭의 표준 편차를 계산함
stdW=std(StrokeWidthMap(x, r:r+Tn)).
c. 하기의 조건이 만족되는 경우
medianW<WIDTH/3 (메디안 스트로크 폭이 그다지 크지 않음)
stdW<medianW*0.5 (표준 편차가 작음)
이 이웃은 일정한 수직 스트로크 폭을 가지며, 따라서 constStrokeNum=constStrokeNum+ 1이다.
4. 특징 s1은 일정한 수직 스트로크 폭을 가지는 이웃의 비이다:
s1=constStrokeNum/total,
여기서 total은 스트로크를 가지는 이웃의 수이다.
특징 s2: 일정한 수평 스트로크 폭의 측정
s2=HorizontalConstStrokeWidth(img)
입력:
img: 텍스트 또는 비텍스트로서 분류될 이진 이미지: 전경은 흑색이고 배경은 백색임, 즉 img(foreground)=0, img(background)=1임. 이미지에서의 행의 수가 HEIGHT이고, 이미지에서의 열의 수가 WIDTH이다.
출력:
s2: 일정한 수직 스트로크 폭을 측정하는 특징 값
1. img,에서의 각각의 행 y에 대해, 현재의 행에 대한 스트로크 폭을 계산하고 어레이 StrokeWidth를 얻음(StrokeWidthimg와 동일한 수의 행을 가지며, 각각의 행은 현재의 행에 있는 스트로크에 대한 스트로크 폭을 가짐);
2. StrokeWidth에서의 각각의 행 y에 대해:
a. StrokeWidth의 메디안을 계산함:
medianW=median(StrokeWidth(y));
b. StrokeWidth의 표준 편차를 계산함:
stdW=std(StrokeWidth(y));
c. 표준 편차와 스트로크 폭의 메디안의 비가 임계값보다 작은 경우, 즉
stdW/medianW<WidthStdT (threshold WidthStdT=0.5)인 경우
이는 일정한 수평 스트로크 폭을 가지는 행으로서 카운트된다. 즉
constStrokeNum=constStrokeNum+ 1
d. 그렇지 않은 경우, StrokeWidth(y)를 클러스터링한다. 임의의 클러스터가 3개 초과의 멤버(이상치가 아님)을 가지고 이들의 메디안 및 표준 편차가 다음을 만족하는 경우,
stdW/medianW<WidthStdT
이는 일정한 수평 스트로크 폭을 가지는 행으로 카운트된다, 즉
constStrokeNum=constStrokeNum+ 1 ;
3. 특징 s2
s1=constStrokeNum/total이고,
여기서 total은 1개 초과의 스트로크를 가지는 이미지에서의 행의 수이다.
특징 s3: 현재의 스트로크부터 그 다음 이웃 스트로크까지의 거리와 스트로크 폭의 비
s3=RatioStrokeDistWidth(img)
입력:
img: 텍스트 또는 비텍스트로서 분류될 이진 이미지: 전경은 흑색이고 배경은 백색이며, 즉 img(foreground)=0, img(background)=1이며, 이미지에서의 행의 수는 HEIGHT이고, 이미지에서의 열의 수는 WIDTH이다.
출력:
s3: 현재의 스트로크부터 그 다음 이웃 스트로크까지의 거리와 스트로크 폭의 비
1. 스트로크 폭 StrokeWidth을 계산함(이는 특징 s2를 추출할 때와 동일함);
2. 현재의 스트로크부터 그 다음 이웃 스트로크까지의 거리StrokeDist를 계산함;
3. ratio를 계산함
ratio=StrokeDist/StrokeWidth;
4. ratio를 어레이 StrokeDistWidthRatio에 넣음
5. 특징 s3=median(StrokeDistWidthRatio)
특징 s4 : 가장 흔한 스트로크 폭의 비
s4=RatioMostStrokeWidth(img)
입력:
img: 텍스트 또는 비텍스트로서 분류될 이진 이미지: 전경은 흑색이고 배경은 백색임, 즉 img(foreground)=0, img(background)=1임. 이미지에서의 행의 수가 HEIGHT이고, 이미지에서의 열의 수가 WIDTH이다.
출력:
s4: 가장 흔한 스트로크 폭의 비
1. 스트로크 폭 어레이 StrokeWidth의 히스토그램 H을 계산함: [H, Xw]=hist(StrokeWidth, 10), 여기서 10은 히스토그램을 계산하는 빈 수이고, H는 빈의 히스토그램 또는 주파수이며, Xw는 빈 위치이다;
2. 히스토그램을 정렬함 [sH, sI]=sort(H), 여기서 sH는 정렬된 히스토그램이고, sI는 인덱스이다, 즉 sH=H( sI )이다;
3. sH(1)/sum(sH)==1인(단지 하나의 스트로크 폭이 있는) 경우, s4=0;
4. 그렇지 않은 경우, s4=Xw(sI(1))/Xw(sI(2))이고, sI(1) 및 sI(2)는 가장 흔한 스트로크 폭의 인덱스이다.
상기한 각각의 경우에, 텍스트 폭이 픽셀 단위로 측정되지만, 다른 측정 증분이 가능할 수 있다.
에지 특징
일련의 에지 특징 (e1, e2, e3)은 또한 예시적인 구현에서 사용된다. 텍스트에는, 많은 에지가 있다. 따라서, 텍스트 로컬화를 돕기 위해 에지 특징이 사용될 수 있다. 제1 에지 특징 e1은 텍스트 문자가 일반적으로 평탄한 에지를 가진다는 사실에 기초한다. 특징 값 e1은 동일한 방향을 가지는 5x5 이웃, 즉 평탄한 방향을 가지는 블록의 비로서 계산된다. 에지 특징 e2는 텍스트 문자가 보통 모든 방향의 에지를 가진다는 관찰에 기초한다. 특징 값 e2는 가장 자주 나오는 에지 방향의 주파수이다. 주파수가 아주 큰 경우, 텍스트가 아닐 가능성이 많은데, 그 이유는 보통 텍스트 문자가 모든 방향의 에지를 가지기 때문이다. 그 때문에 특징 e2가 텍스트 영역과 비텍스트 영역을 구분하는 특징으로서 선택된다. 마지막으로, 텍스트가 가지는 에지의 양을 나타낼 수 있는 총 에지의 길이 대 영역의 면적의 비이다.
이하는 예시적인 구현에서 에지 특징을 추출하는 데 사용되는 의사-코드이다:
에지 특징( e1 , e2 , e3 )을 추출하는 의사 코드
특징 e1 : 에지 평탄성
e1=EdgeSmoothness(img)
입력:
img: 텍스트 또는 비텍스트로서 분류될 이진 이미지: 전경은 흑색이고 배경은 백색임, 즉 img(foreground)=0, img(background)=1임. 이미지에서의 행의 수가 HEIGHT이고, 이미지에서의 열의 수가 WIDTH이다.
출력:
e1: 에지의 평탄성을 측정하는 특징
1. 에지 추출: Sobel 에지 검출을 사용하여 8개 방향(0, π/4, π/2, 3π/4, π, 5π/4, 3π/2, 7π/4)의 에지를 검출함:
Edge=SobelEdge(img)
여기서 Edgeimg와 동일한 차원을 가지며, 에지의 위치에서 에지의 방향에 따라 1 내지 8의 값을 가지고, 비에지의 위치에서 0의 값을 가진다.
2. Edge(x,y)≠0을 만족시키는 (x,y)에 대해,
a. neighborhood을 정의함: neighborhood=edge([x-w: x+w], [y-w: y+w]), 여기서
img의 높이가 25미만인 경우: w = 1이고,
그렇지 않은 경우: w = 2임
b. 현재의 방향을 가져옴: curDir=Edge(x,y)
c. 현재의 방향을 가지는 픽셀의 수를 가져옴 curDirNum
d. 이웃에 있는 에지 픽셀의 수를 가져옴, 즉 neighborEdgeNum=Length(neighborhood≠0)
e. 동일한 방향을 가지는 에지 픽셀의 비를 계산함:
R(x,y)= curDirNum/ neighborEdgeNum;
3. 에지 평탄성 특징을 계산함
e1=length(R>T)/length(Edge≠0).
특징 e2 : 에지 방향의 균일성
e2=EdgeUniformity(img)
입력:
img: 텍스트 또는 비텍스트로서 분류될 이진 이미지: 전경은 흑색이고 배경은 백색임, 즉 img(foreground)=0, img(background)=1임. 이미지에서의 행의 수가 HEIGHT이고, 이미지에서의 열의 수가 WIDTH이다.
출력:
e1: 에지의 균일성을 측정하는 특징
1. 특징 e1의 단계 1에서 추출된 8개의 에지 방향을 4개의 방향 Edge4으로 양자화함, 즉 Edge에서의 (5π/4, 3π/2, 7π/4)는 Edge4에서의 (π/4, π/2, 3π/4)로 됨;
2. 4개의 방향의 히스토그램을 계산함: H=hist(Edge4(Edge4≠0));
3. H: maxH=max(H)의 최대를 계산하고, 따라서 maxH는 방향이 나타나는 최대 횟수이다;
4. 에지 균일성 특징을 계산함
e2=maxH/sum(H)
특징 e3 : 에지의 양
e3=EdgeAmount(img)
입력:
img: 텍스트 또는 비텍스트로서 분류될 이진 이미지: 전경은 흑색이고 배경은 백색임, 즉 img(foreground)=0, img(background)=1임. 이미지에서의 행의 수가 HEIGHT이고, 이미지에서의 열의 수가 WIDTH이다.
출력:
e2: 에지의 양을 측정하는 특징
1. 에지 추출: Sobel 에지 검출을 사용하여 8개 방향(0, π/4, π/2, 3π/4, π, 5π/4, 3π/2, 7π/4)의 에지를 검출함:
Edge=SobelEdge(img)
여기서 Edgeimg와 동일한 차원을 가지며, 에지의 위치에서 에지의 방향에 따라 1 내지 8의 값을 가지고, 비에지의 위치에서 0의 값을 가진다.
2. 에지의 길이를 계산함: EdgeLength=length(Edge≠0);
3. img의 전경 면적을 계산함:
4. ForeArea=length(img(foreground));
5. 필 팩터 AreaFill를 계산함:
6. AreaFill=ForeArea/(WIDTH*HEIGHT);
7. 특징 e3=EdgeLength/AreaFill을 계산함.
필 특징
일련의 필 팩터 특징 (f1, f2)이 또한 이 예시적인 구현에서 사용된다. 이 그룹의 특징은 텍스트의 전경이 경계 상자를 채운다는 사실에 기초한다. 이는 경계 상자 전체를 채우는 것은 아니거나 경계 상자를 거의 채우지 않는다. 또한, 작은 이웃에서, 이는 전경이 이웃 전체를 채우지는 않는다는 속성을 가진다.
제1 필 팩터 특징 f1은 전체 영역의 채움 특징을 나타낸다. 따라서, 이는 전경 면적과 영역의 경계 상자의 면적의 비로서 계산된다. 제2 필 팩터 특징 f2는 로컬 이웃의 채움 특징을 나타낸다. 이웃에서의 전경 면적의 비가 먼저 계산된다. 특징 값 f2는 전경 면적의 비가 임계값보다 큰 이웃의 퍼센트이다.
이하는 예시적인 구현에서 사용되는 바와 같이 필 팩터 특징을 추출하는 의사-코드이다:
팩터 특징 f1 , f2 를 추출하는 의사 코드
특징 f1 : 전체 영역의 채움 특징
f1=FillFactorWhole(img)
img: 텍스트 또는 비텍스트로서 분류될 이진 이미지: 전경은 흑색이고 배경은 백색임, 즉 img(foreground)=0, img(background)=1임. 이미지에서의 행의 수가 HEIGHT이고, 이미지에서의 열의 수가 WIDTH이다.
출력:
f1: 후보 이미지의 필 팩터를 측정하는 특징
1. img의 전경 면적을 계산함:
2. ForeArea=length(img(foreground));
3. img의 전체 면적을 계산함: WholeArea=WIDTHxHEIGHT;
4. 특징 f1=ForeArea/WholeArea을 계산함
특징 f2 : 로컬 이웃의 채움 특징
f2=FillFactorNeighborhood(img)
img: 텍스트 또는 비텍스트로서 분류될 이진 이미지: 전경은 흑색이고 배경은 백색임, 즉 img(foreground)=0, img(background)=1임. 이미지에서의 행의 수가 HEIGHT이고, 이미지에서의 열의 수가 WIDTH이다.
출력:
f2: 후보 이미지의 로컬 이웃에서의 필 팩터를 측정하는 특징
1. x,ystepSize=HEIGHT/3씩 증가하는 (x,y)에 대해
a. 현재의 이웃을 가져옴: curN=img (x:x+ stepSize , y:y+ stepSize );
b. 현재의 이웃에서의 전경의 면적을 계산함:
AreaN=length(curN(foreground));
c. 이웃의 필 팩터를 계산함:
FillFactorN(j)=AreaN/Area(curN) 여기서 j는 현재의 이웃에 대한 인덱스임;
2. 큰 필 팩터를 가지는 이웃의 수를 가져옴
N= length (FillFactorN>T)
3. 특징 f2는 큰 필 팩터를 가지는 블록의 퍼센트이다:
f2=N/length(FillFactorN)
D. SVM-기반 분류
SVM은 참고 문헌 [15]에 기술되어 있고, 통계적 학습 이론에 의해 동기 부여된 기술로서 수많은 분류 작업에 성공적으로 적용되었다. 핵심 개념은 최대 마진을 가지는 결정 표면을 갖는 2개의 클래스를 분리하는 것이다. 이는 학습 오차보다는 고차원 공간에서의 모델의 일반화 오차에 관한 범위를 최소화한다. SVM에서, 학습 작업은 긍정 클래스(positive class) 및 부정 클래스(negative class)에서의 학습 예제의 상대 수에 영향을 받지 않는다(여기서의 검출 작업에서, 부정 클래스는 긍정 클래스보다 더 많은 샘플을 가진다). 따라서, SVM이 이 예시적인 구현에 바람직한 분류기로서 선택된다.
분류 문제는 m개의 번호가 부여된 학습 샘플 (x1, y1), (x2, y2), ..., (xm, ym)에서의 이진 분류 문제이며, 여기서
Figure pct00014
이고 각각의 성분은 섹션 C.에 정의되어 있으며, 9차원 특징 벡터인 (i = 1, 2, ..., m)은 긍정 클래스(텍스트) 및 부정 클래스(비텍스트)를 나타낸다. SVM은 다음과 같은 문제를 풀려고 시도한다:
Figure pct00016
단,
Figure pct00017
이다. 그의 쌍대는 하기와 같다:
Figure pct00018
단,
Figure pct00019
이고, 여기서 e는 모든 1의 벡터이고, C > 0는 상한이며 교차 유효성 검사에 의해 결정되고, Q는 1x 1 반한정 행렬(semi-definite matrix)이며,
Figure pct00020
Figure pct00021
은 커널(kernel)이고, w, αb는 분리 평면을 결정하는 파라미터이고 최적화 프로세스에 의해 해가 구해져야 한다. 비선형 커널 함수를 선택함으로써, 특징 벡터 xi는 함수 φ에 의해 고차 공간으로 매핑될 수 있다. 사용하는 커널은 하기의 반경 기반 함수 커널(radial basis function kernel)이며,
Figure pct00022
여기서 커널 대역폭 σ는 교차 유효성 검사를 통해 결정되었다. 파라미터 w, αb가 결정되면, 이하의 결정 함수가 영역을 분류하는 데 사용될 수 있다.
Figure pct00023
LIBSVM [16]이라고 하는 소프트웨어 패키지를 사용하여, 텍스트 또는 비텍스트로 표시된 일련의 샘플로 SVM이 학습되었다. 커널 대역폭 σ 및 C를 결정하기 위해 교차 유효성 검사가 사용된다. 학습 및 테스트 결과가 다음 섹션에서 보고될 것이다.
E. 향상 및 이진화
텍스트 영역이 식별된 후에, OCR 소프트웨어가 텍스트를 쉽게 인식할 수 있도록 텍스트 영역이 향상되고 이진화되어야 한다. 대부분의 OCR 소프트웨어는 충분히 큰 해상도를 가지는 텍스트만을 인식할 수 있다. 따라서, 텍스트의 높이가 약 75 픽셀(현재) 미만인 경우, 해상도 증가가 필요할 수 있다. 해상도 증가 전에, 히스토그램 평활화, 선명화 등과 같은 어떤 향상이 적용될 수 있다.
이어서, 향상된 이미지에 이진화가 적용된다. Niblack의 적응적 이진화 알고리즘 [17], Otsu의 방법 [18], 및 Yanowitz-Bruchstein의 방법 [19] 등과 같은 여러 종류의 이진화 알고리즘이 있다. 이 방법들 중에서, Niblack의 방법 및 Otsu의 방법이 널리 사용되지만, 다른 이진화 방법이 본 발명에 따른 구현에 적응될 수 있다. Niblack'의 방법에서, 임계값 T가 크기 r의 로컬 창 내에서의 세기 통계로부터 각각의 픽셀에 대해 적응적으로 결정된다.
Figure pct00024
여기서 μ 및 σ는 창 내의 픽셀 세기의 평균 및 표준 편차이다. 스칼라 파라미터 k는 -0.2로 설정되는 가중치이다. 창 크기 r은 고정된 값이거나 적응적으로 선택될 수 있다. [11]에서, 창 크기 r이 다음과 같이 선택되는 것이 제안된다.
Figure pct00025
여기서 Tσ는 고정된 임계값이다. Tσ 미만의 표준 편차를 가지는 창이 평탄한 영역이도록 Tσ의 값이 선택된다. 여기서 Tσ를 검출된 텍스트 영역의 배경 영역의 표준 편차로서 설정한다. Otsu의 방법 [18]에서, 이진화 임계값은 판별 기준, 즉 클래스간 분산의 최대화 및 클래스내 분산의 최소화에 의해 구해진다. Otsu의 방법은 수학식 9에서와 같이 전체 텍스트 영역 또는 고정-크기 창 또는 적응적으로 적용될 수 있다. 이미지에서 배경이 복잡하다는 사실로 인해, 이진화가 전체 이미지에 적용되는 경우, 배경 내의 비텍스트 객체도 이진화된 최종 이미지에 나타날 수 있다. 이를 피하기 위해, 이진화가 또한 검출된 텍스트 영역 내의 연결 성분에도 적용된다.
도 6은 도 6a 내지 도 6f로 이루어져 있으며, Otsu의 방법 및 Niblack의 방법이 개별 성분, 고정된 창, 적응적 창 및 전체 경계 상자에 적용될 때의 이진화 결과를 나타내고 있다. 검출된 텍스트는 도 2의 하단에 도시된 예로부터의 것이다. 도 6a는 검출된 영역 내의 각각의 연결 성분에 대한 Otsu의 이진화를 나타낸 것이다. 도 6b는 적응적 창에서의 Niblack의 이진화를 나타낸 것이다. 도 6c는 적응적 창에서의 Otsu의 이진화를 나타낸 것이다. 도 6d는 전체 경계 상자에서의 Otsu의 이진화를 나타낸 것이다. 도 6e는 고정된 창에서의 Niblack의 이진화를 나타낸 것이다. 도 6f는 고정된 창에서의 Otsu의 이진화를 나타낸 것이다.
도 6으로부터, 서로 다른 이진화 방법의 성능이 서로 다르다는 것을 알 수 있고, 전체 경계 상자에 적용되는 Otsu의 방법이 이 예에서 가장 낫다는 것을 보여준다. 이들 방법이 서로 다른 이미지에서 시도되었으며, 하나의 방법이 모든 이미지에 대해 최상의 결과를 제공할 수 없는 것으로 판정되었다. 따라서, 실제로, 하나의 가능한 해결책은 서로 다른 이진화 방법의 결과를 OCR 소프트웨어에 피드한 다음에 인식 결과를 결합하는 것이다.
III. 실험 및 결과
2개의 데이터 집합에 대해 본 알고리즘이 테스트되었다. 하나는 ICDAR2003의 텍스트 로컬화 경쟁 데이터 집합이다[20]. ICDAR2003의 데이터 집합에서, 학습 집합에 248개 이미지가 있고 테스트 집합에 251개 이미지가 있다. 각각의 집합에, 약 1000개의 텍스트 세그먼트가 있다. 데이터 집합 내의 대부분의 이미지가 핸드헬드 장치로 외부에서 찍은 것이다. 다른 데이터 집합은 뉴스, 상업 광고, 스포츠 경기 등으로부터의 이미지를 비롯하여 TV 프로그램으로부터 수집되었다. 데이터 집합 내의 489개 이미지가 거의 5000개의 텍스트 세그먼트를 가지고 있었다.
ICDAR2003의 데이터 집합에 대해 먼저 알고리즘이 적용되었다. 이미지가 먼저 세그먼트화되고 전처리되었다. 학습 데이터 집합에서, 세그먼트화 및 전처리 후에, 841개의 텍스트 영역 세그먼트 및 3373개의 비텍스트 영역 세그먼트가 있었다. 텍스트 세그먼트의 수가 검증 자료(ground-truth)보다 작다는 것을 알았다. 이것이 일부는 일부 텍스트 세그먼트가 정확하게 세그먼트화되지 않은 세그먼트화 오류로 인한 것이고, 일부는 어떤 텍스트 세그먼트가 서로 병합되는 전처리로 인한 것이다. 처리된 데이터 집합에 대해 SVM이 학습되었다. SVM의 파라미터를 선택하기 위해 교차 유효성 검사가 사용되었다. 수학식 6에서의 최적의 대역폭 σ가 0.5이고 수학식 2에서의 파라미터 C가 32이다. 학습된 SVM 모델이 테스트 데이터 집합에 적용되었다. 테스트 텍스트 샘플로부터 올바르게 검출하는 비율이 90.02%이고 거짓 양성이 6.45%이었다. 다른 텍스트 로컬화 알고리즘과 비교하기 위해, 텍스트 로컬화 성능을 측정하는 데 정밀도 및 재현율 척도 [21]이 사용되었다. 표 1에 본 알고리즘의 성능 및 ICDAR 2003와 ICDAR 2005의 승자의 성능이 요약되어 있다. 본 알고리즘은 3위에 올랐다. 우리의 알고리즘에서 파라미터를 주의깊게 조정하면, 성능이 추가로 향상될 수 있다고 생각된다. 표 1에서,
Figure pct00026
Figure pct00027
으로서 정의되고, 여기서 p는 정밀도이고 r은 재현율이다. 정밀도 및 재현율의 상세한 정의에 대해서는 [20] 및 [21]을 참조하기 바란다.
시스템 정밀도 재현율 f
Hinnerk Becker 0.62 0.67 0.62
Alex Chen 0.60 0.60 0.58
본 발명의 알고리즘 0.58 0.45 0.51
Ashida 0.55 0.46 0.50
ICDAR2003 [20]와 ICDAR2005 [21]의 승자와의 비교.
그 다음에, 알고리즘이 TV 데이터 집합에 적용되었다. 데이터 집합이 2개의 집합으로 분할되었으며, 하나는 학습용(245개 이미지를 가짐)이고, 다른 하나는 테스트용(244개 이미지를 가짐)이다. 세그먼트화 및 전처리 후에, 학습 집합에, 1100개의 텍스트 영역 세그먼트 및 7200개의 비텍스트 영역 세그먼트가 있었다. 학습 집합에 대해 SVM이 학습되었다. SVM의 파라미터를 선택하기 위해 교차 유효성 검사가 사용되었다. 수학식 6에서의 최적의 대역폭 σ가 1이고 수학식 2에서의 파라미터 C가 16이다. 학습된 SVM 모델이 약 850개의 텍스트 영역 세그먼트 및 6500개의 비텍스트 영역 세그먼트가 있는 테스트 데이터 집합에 적용되었다. 텍스트의 검출 비율이 88.29%이었고, 거짓 양성이 9.34%이었다. 상기한 가특허 출원의 도 7은 TV 데이터 집합에서의 이미지에 대한 예시적인 검출 결과를 나타내고 있다.
상기한 바와 같이, 검출된 텍스트 영역이 향상되고 이진화되었다. 이어서, 이진화된 이미지가 인식을 위해 OCR 소프트웨어에 피드되었다. 예를 들어, 도 6의 이진화된 이미지는 인식을 위해 Scansoft의 Omnipage™ Pro 12에 피드되었다. 인식된 결과가 이하의 표 2에 열거되어 있다. 표 2는 OCR 소프트웨어가 거의 모든 텍스트를 인식할 수 있다는 것을 보여준다. 서로 다른 이진화 방식으로부터의 인식 결과를 결합하고 사전에서 결과를 탐색함으로써, 올바른 인식 결과가 얻어질 수 있는 것이 보통이다.
도면 인식된 결과
도 6a
Figure pct00028
도 6b
Figure pct00029
도 6c
Figure pct00030
도 6d
Figure pct00031
도 6e
Figure pct00032
도 6f
Figure pct00033
Scansoft의 Omnipage Pro 12의 인식 결과
상기한 바와 같이, 영역-기반 방식은 이미지 또는 비디오에서 텍스트를 로컬화하는 데 사용된다. 서로 다른 컬러의 영역을 가져오기 위해 세그먼트화가 사용된다. 각각의 영역의 특징이 추출된다. 여기서 추출된 특징은 스트로크 특징, 에지 특징 및 필 팩터 특징이다. 이들 특징은 텍스트를 검출하는 데 아주 효과적이다. 추출된 특징 벡터는 영역을 텍스트 영역 또는 비텍스트 영역으로 분류하는 SVM 모델을 학습시키는 데 사용된다. 이 알고리즘은 공개적으로 이용가능한 데이터 집합 및 기타 데이터 집합 모두에 대해 아주 잘 동작하는 것으로 밝혀졌다.
따라서, 특정의 예시적인 구현에 따르면, 비디오 이미지에서의 텍스트 검출 방법은 이미지 프로세서에서, 어쩌면 텍스트를 포함하는 비디오 프레임을 수신하는 단계, 이미지를 유사한 컬러를 가지는 영역으로 세그먼트화하는 단계, 유사한 컬러를 가지는 영역으로부터 가능성이 높은 비텍스트 영역을 식별하고 가능성이 높은 비텍스트 영역을 버리는 단계, 크기 및 컬러와 수평 위치의 정렬의 유사성에 기초하여 나머지 영역을 병합하는 단계, 병합된 영역 상의 스트로크 특징, 에지 특징, 및 필 팩터 특징을 추출하기 위해 특징 추출 프로세스를 수행하는 단계, 및 어느 영역이 텍스트이고 어느 영역이 비텍스트인지를 결정하기 위해 각각의 영역의 추출된 특징 벡터를 학습된 이진 분류기를 통과시키는 단계를 포함한다.
특정 구현에서, 이 방법은 이진화된 분류된 텍스트 영역을 광학 문자 판독기를 통과시키는 단계를 추가로 포함한다. 특정 구현에서, 이미지를 유사한 컬러의 영역으로 세그먼트화하는 단계는 2개의 영역의 평균 적색, 녹색, 청색(R, G, B) 값의 절대 차 각각이 병합 임계값 미만인지를 판정하는 단계에 의해 수행된다. 특정 구현에서, 세그먼트화하는 단계는 이웃 픽셀의 컬러 차를 계산하는 단계, 픽셀의 컬러 차에 따라 픽셀을 정렬하는 단계, 및 영역이 발생되도록 임계값보다 작은 컬러 차를 가지는 픽셀을 병합하는 단계를 포함한다. 특정 구현에서, 이진 분류기는 지지 벡터 기계(SVM) 기반 분류기를 포함한다. 특정 구현에서, 스트로크 폭 값이 임계값 내에 있는 경우 스트로크 폭이 유사한 것으로 간주된다. 특정 구현에서, 스트로크 폭 특징은 스트로크 폭의 표준 편차가 임계값 내에 있는 이미지 내의 이웃의 퍼센트를 나타내는 특징 값을 포함하며, 스트로크 폭 값이 임계값 내에 있는 경우 스트로크 폭 값이 유사한 것으로 간주된다. 특정 구현에서, 스트로크 폭 특징은 수평 스트로크 폭의 표준 편차가 임계값 내에 있거나, 그룹으로 클러스터링될 수 있고 각각의 그룹에서의 수평 스트로크 폭의 표준 편차가 임계값 내에 있는 행의 퍼센트 또는 유사한 스트로크 폭을 갖는 스트로크를 가지는 행의 퍼센트를 포함한다. 특정 구현에서, 스트로크 폭 특징은 현재의 스트로크 폭과 현재의 스트로크로부터 이웃 스트로크까지의 거리의 평균 비를 포함한다. 특정 구현에서, 스트로크 폭 특징은 가장 빈번하게 나오는 2개의 스트로크 폭의 비를 포함한다. 특정 구현에서, 에지 특징은 후보 이미지에서의 에지의 평탄성, 에지의 균일성 및 에지의 양의 측정치이고, 여기서 에지의 평탄성은 동일한 방향을 가지는 이웃의 퍼센트로 표현되고, 에지의 균일성은 가장 자주 나오는 에지 방향의 주파수로서 계산되며, 에지의 수는 총 에지의 길이 대 영역의 면적의 비에 의해 측정된다. 특정 구현에서, 필 팩터 특징은 후보 이미지 전체에서 및 이웃끼리 둘다에서 추출된다.
특정 구현에서, 전처리 프로세스는
(1) region_height가 어떤 임계값 T_low보다 작거나 region_height가 어떤 임계값 T_high보다 큰지, 또는
(2) region_area이 어떤 임계값 T_area보다 작은지, 또는
(3) 영역이 이미지 경계의 4개의 측면 중 하나와 접촉하고 그의 높이가 임계값 T보다 큰지, 또는
(4)
Figure pct00034
으로서 정의된 fill_factor가 임계값보다 낮은지를 판정하는 동작을 하며, 그러한 경우 영역이 가능성이 높은 비텍스트 영역으로 간주된다. 특정 구현에서, 복수의 이진화 방법을 사용하여 이진화가 수행되며, 각각의 이진화된 출력은 광학 문자 판독기에 의해 처리되어, 결합되는 다수의 출력을 생성한다.
특정 구현에 따른 다른 텍스트 검출 프로세스는, 통계적 영역 병합을 사용하여 세그먼트화하고, 명확히 텍스트가 아닌 영역을 제거하며, 하기와 같이 정의되는 높이 유사성, 컬러 유사성, 영역 거리 및 수평 정렬의 기준에 기초하여 영역을 그룹화하는 것에 의해 이미지를 전처리하는 단계 -
높이 유사성은
Figure pct00035
로서 정의되고
여기서 HEIGHT1 및 HEIGHT2는 2개의 영역의 높이이며;
컬러 유사성은
Figure pct00036
로서 정의되며,
여기서
Figure pct00037
Figure pct00038
은 2개의 영역의 평균 컬러이고;
영역 거리는 Dregion < Tregion로서 정의되고,
여기서 Dregion은 2개의 영역의 수평 거리이며;
수평 정렬은 Dtop < Talign 또는 Dbottom < Talign으로서 정의되고, 여기서 Dtop 및 Dbottom은 상부 경계 및 하부 경계 사이의 수직 거리임 -;
각각의 나머지 영역을 기술하기 위해 특징 추출 프로세스를 수행하는 단계 - 각각의 특징은 영역의 스트로크 특징, 에지 특징 및 필 팩터 특징으로 표현됨 -; 및
분류 출력을 획득하기 위해
Figure pct00039
을 사용하여 영역이 텍스트인지 여부를 출력하는 지지 벡터 기계(SVM) 분류기 엔진을 사용하여 특징 벡터를 분류하는 단계 - 여기서 1은 텍스트의 존재를 나타내고, -1은 텍스트의 부존재를 나타냄 - 를 포함한다.
특정 구현에서, 스트로크 특징은 유사한 스트로크 폭을 가지는 수직 이웃 및 행의 퍼센트를 포함한다. 특정 구현에서, 필 팩터 특징은 후보 이미지 전체에서 및 이웃끼리 둘다에서 추출된다. 특정 구현에서, 전처리는
(1) region_height가 어떤 임계값 T_low보다 작거나 region_height가 어떤 임계값 T_high보다 큰지, 또는
(2) region_area이 어떤 임계값 T_area보다 작은지, 또는
(3) 영역이 이미지 경계의 4개의 측면 중 하나와 접촉하고 그의 높이가 임계값 T보다 큰지, 또는
(4) 하기 식으로서 정의된 fill_factor가
Figure pct00040
임계값보다 낮은지를 판정하는 동작을 하며, 그러한 경우 영역이 가능성이 높은 비텍스트 영역으로 간주된다. 특정 구현에서, 복수의 이진화 방법을 사용하여 이진화가 수행되며, 각각의 이진화된 출력은 광학 문자 판독기에 의해 처리되어, 결합되는 다수의 출력을 생성한다.
당업자라면, 상기 개시 내용을 고려하여, 상기 예시적인 실시예들 중 일부가 도 1에 도시된 바와 같이 배열될 수 있는 다양한 소프트웨어 모듈을 실행하는 하나 이상의 프로그램된 프로세서의 사용에 기초한다는 것을 잘 알 것이다. 그러나, 본 발명이 이러한 예시적인 실시예로 제한되지 않는데, 그 이유는 특수 목적 하드웨어 및/또는 전용 프로세서 또는 상태 기계 등의 하드웨어 구성요소 등가물을 사용하여 다른 실시예가 구현될 수 있기 때문이다. 마찬가지로, 범용 컴퓨터, 마이크로프로세서-기반 컴퓨터, 마이크로제어기, 광 컴퓨터, 아날로그 컴퓨터, 전용 프로세서, 주문형 반도체(application specific circuit) 및/또는 전용의 하드 와이어드 논리(dedicated hard wired logic)가 대안의 등가 실시예를 구성하는 데 사용될 수 있다.
특정 예시적인 실시예가 기술되어 있지만, 이상의 설명을 바탕으로 많은 대안, 수정, 치환 및 변동이 당업자에게는 자명하게 될 것임이 명백하다.

Claims (18)

  1. 비디오 이미지에서 텍스트를 검출하는 방법으로서,
    이미지 프로세서에서, 어쩌면 텍스트를 포함하는 비디오 프레임을 수신하는 단계;
    이미지를 유사한 컬러를 가지는 영역으로 세그먼트화하는 단계;
    유사한 컬러를 가지는 영역으로부터 가능성이 높은 비텍스트 영역을 식별하고 가능성이 높은 비텍스트 영역을 버리는 단계;
    나머지 영역에서 크기 및 컬러가 유사하고 수평 위치가 임계값 내에 있는 영역을 병합하는 단계;
    특징 추출 프로세스를 수행하여 스트로크 특징, 에지 특징 및 필 팩터 특징을 추출함으로써 특징을 사용하여 영역을 기술하는 단계; 및
    이진화되어 OCR 소프트웨어에 의해 인식될 수 있는 최종 텍스트 영역을 획득하기 위해 나머지 영역을 학습된 이진 분류기를 통과시키는 단계
    를 포함하는 방법.
  2. 제1항에 있어서, 이진화된 가능성이 가장 높은 텍스트 영역을 광학 문자 판독기를 통과시키는 단계를 더 포함하는 방법.
  3. 제1항에 있어서, 이미지를 유사한 컬러의 영역으로 세그먼트화하는 단계가 2개의 영역의 평균 적색, 녹색, 청색(R, G, B) 값의 절대 차 각각이 병합 임계값 미만인지를 판정하는 단계에 의해 수행되는 방법.
  4. 제1항에 있어서, 세그먼트화하는 단계가, 이웃 픽셀의 컬러 차를 계산하는 단계, 픽셀의 컬러 차에 따라 픽셀을 정렬하는 단계, 및 영역이 발생되도록 임계값보다 작은 컬러 차를 가지는 픽셀을 병합하는 단계를 포함하는 방법.
  5. 제1항에 있어서, 이진 분류기가 지지 벡터 기계(SVM) 기반 분류기를 포함하는 방법.
  6. 제1항에 있어서, 스트로크 폭이 임계값 내에 있는 경우 스트로크 폭 값이 유사한 것으로 간주되는 방법.
  7. 제1항에 있어서, 스트로크 폭 특징이 스트로크 폭의 표준 편차가 임계값 내에 있는 이미지에서의 이웃의 퍼센트 또는 수직으로 유사한 스트로크 폭을 가지는 이웃의 퍼센트를 나타내는 특징 값을 포함하는 방법.
  8. 제1항에 있어서, 스트로크 폭 특징이 수평 스트로크 폭의 표준 편차가 임계값 내에 있거나, 그룹으로 클러스터링될 수 있고 각각의 그룹에서의 수평 스트로크 폭의 표준 편차가 임계값 내에 있는 행의 퍼센트 또는 유사한 스트로크 폭을 갖는 행 또는 유사한 스트로크 폭의 클러스터의 퍼센트를 표현하는 특징 값을 포함하는 방법.
  9. 제1항에 있어서, 스트로크 폭 특징이 현재의 스트로크 폭과 현재의 스트로크로부터 이웃 스트로크까지의 거리의 평균 비를 포함하는 방법.
  10. 제1항에 있어서, 스트로크 폭 특징이 가장 빈번하게 나오는 2개의 스트로크 폭의 비를 포함하는 방법.
  11. 제1항에 있어서, 에지 특징이 후보 이미지에서의 에지의 평탄성, 에지의 균일성 및 에지의 양의 측정치이고, 여기서 에지의 평탄성이 동일한 방향을 가지는 이웃의 퍼센트로 표현되고, 에지의 균일성이 가장 자주 나오는 에지 방향의 주파수로서 계산되며, 에지의 양이 총 에지의 길이 대 영역의 면적의 비에 의해 측정되는 방법.
  12. 제1항에 있어서, 필 팩터 특징이 후보 이미지 전체에서 및 이웃끼리 둘다에서 추출되는 방법.
  13. 제1항에 있어서, 비텍스트일 가능성이 높은 영역이,
    (1) region_height가 어떤 임계값 T_low보다 작거나 region_height가 어떤 임계값 T_high보다 큰 경우, 또는
    (2) region_area이 어떤 임계값 T_area보다 작은 경우, 또는
    (3) 영역이 이미지 경계의 4개의 측면 중 하나와 접촉하고 그의 높이가 임계값 T보다 큰 경우, 또는
    (4)
    Figure pct00041
    으로서 정의된 fill_factor가 임계값보다 낮은 경우,
    영역이 가능성이 높은 비텍스트 영역으로 간주되는 것에 의해 결정되는 방법.
  14. 제1항에 있어서, 복수의 이진화 방법을 사용하여 이진화가 수행되며, 각각의 이진화된 출력이 광학 문자 판독기에 의해 처리되어, 결합되는 다수의 출력을 생성하는 방법
  15. 텍스트 검출 프로세스로서,
    통계적 영역 병합을 사용하여 세그먼트화하고, 명확히 텍스트가 아닌 영역을 제거하며, 하기와 같이 정의되는 높이 유사성, 컬러 유사성, 영역 거리 및 수평 정렬의 기준에 기초하여 영역을 그룹화하는 것에 의해 이미지를 전처리하는 단계 -
    높이 유사성은
    Figure pct00042
    로서 정의되며,
    여기서 HEIGHT1 및 HEIGHT2는 2개의 영역의 높이이고;
    컬러 유사성은
    Figure pct00043
    로서 정의되며,
    여기서
    Figure pct00044
    Figure pct00045
    은 2개의 영역의 평균 컬러이고;
    영역 거리는 Dregion < Tregion로서 정의되고,
    여기서 Dregion은 2개의 영역의 수평 거리이며;
    수평 정렬은 Dtop < Talign 또는 Dbottom < Talign으로서 정의되고, 여기서 Dtop 및 Dbottom은 상부 경계 및 하부 경계 사이의 수직 거리임 -;
    각각의 나머지 영역을 기술하기 위해 특징 추출 프로세스를 수행하는 단계 - 각각의 특징은 영역의 스트로크 특징, 에지 특징 및 필 팩터 특징으로 표현됨 -; 및
    분류 출력을 획득하기 위해
    Figure pct00046
    을 사용하여 영역이 텍스트인지 여부를 출력하는 지지 벡터 기계(SVM) 분류기 엔진을 사용하여 특징 벡터를 분류하는 단계 -
    여기서 (xi, yi)는 학습 샘플의 특징 벡터 및 검증 자료 라벨(groundtruth label)이고, x는 분류될 영역의 특징 벡터이며, αi 및 b는
    Figure pct00047
    [단,
    Figure pct00048
    이고
    Figure pct00049
    임]으로서 정의되는 최적화 문제의 해를 구함으로써 얻어지는 파라미터이고, K는 분류 출력을 획득하는
    Figure pct00050
    으로서 정의되며, 여기서 1은 텍스트의 존재를 나타내고, -1은 텍스트의 부존재를 나타냄 - 를 포함하는 텍스트 검출 프로세스.
  16. 제15항에 있어서, 필 팩터 특징이 후보 이미지 전체에서 및 이웃끼리 둘다에서 추출되는 텍스트 검출 프로세스.
  17. 제15항에 있어서, 전처리하는 단계가,
    (1) region_height가 어떤 임계값 T_low보다 작거나 region_height가 어떤 임계값 T_high보다 큰 경우, 또는
    (2) region_area이 어떤 임계값 T_area보다 작은 경우, 또는
    (3) 영역이 이미지 경계의 4개의 측면 중 하나와 접촉하고 그의 높이가 임계값 T보다 큰 경우, 또는
    (4)
    Figure pct00051
    로서 정의된 fill_factor가 임계값보다 낮은 경우,
    영역이 가능성이 높은 비텍스트 영역으로 간주되고 추가적으로 처리되지 않도록 배제되는 것에 의해, 영역을 제거하는 동작을 하는 텍스트 검출 프로세스.
  18. 제15항에 있어서, 복수의 이진화 방법을 사용하여 이진화가 수행되며, 각각의 이진화된 출력이 광학 문자 판독기에 의해 처리되어, 결합되는 다수의 출력을 생성하는 텍스트 검출 프로세스.
KR1020117005003A 2008-09-03 2009-08-31 비디오 이미지에서 텍스트를 검출하는 방법 KR101452562B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US19099208P 2008-09-03 2008-09-03
US61/190,992 2008-09-03
US12/380,394 2009-02-26
US12/380,394 US8320674B2 (en) 2008-09-03 2009-02-26 Text localization for image and video OCR
PCT/US2009/055496 WO2010027933A1 (en) 2008-09-03 2009-08-31 Text localization for image and video ocr

Publications (2)

Publication Number Publication Date
KR20110056380A true KR20110056380A (ko) 2011-05-27
KR101452562B1 KR101452562B1 (ko) 2014-10-21

Family

ID=41725535

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117005003A KR101452562B1 (ko) 2008-09-03 2009-08-31 비디오 이미지에서 텍스트를 검출하는 방법

Country Status (8)

Country Link
US (1) US8320674B2 (ko)
EP (1) EP2321767A1 (ko)
JP (1) JP5588987B2 (ko)
KR (1) KR101452562B1 (ko)
CN (1) CN102144236B (ko)
CA (1) CA2735824A1 (ko)
MX (1) MX2011002293A (ko)
WO (1) WO2010027933A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150013040A (ko) * 2013-07-25 2015-02-04 아날로그 디바이시즈 테크놀로지 이미지 객체 및 윤곽 특징 추출을 위한 시스템, 방법, 및 매체
CN109271999A (zh) * 2018-09-06 2019-01-25 北京京东尚科信息技术有限公司 图像的处理方法、装置和计算机可读存储介质

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8306327B2 (en) * 2008-12-30 2012-11-06 International Business Machines Corporation Adaptive partial character recognition
JP4998496B2 (ja) * 2009-03-16 2012-08-15 富士ゼロックス株式会社 画像処理装置、情報処理装置および画像読取装置
US20110082735A1 (en) * 2009-10-06 2011-04-07 Qualcomm Incorporated Systems and methods for merchandising transactions via image matching in a content delivery system
CN102511048B (zh) * 2009-12-31 2015-08-26 塔塔咨询服务有限公司 一种用于预处理包括文本的视频区域的方法及系统
US8526732B2 (en) * 2010-03-10 2013-09-03 Microsoft Corporation Text enhancement of a textual image undergoing optical character recognition
US8509534B2 (en) * 2010-03-10 2013-08-13 Microsoft Corporation Document page segmentation in optical character recognition
US8660371B2 (en) * 2010-05-06 2014-02-25 Abbyy Development Llc Accuracy of recognition by means of a combination of classifiers
US9076068B2 (en) * 2010-10-04 2015-07-07 Datacolor Holding Ag Method and apparatus for evaluating color in an image
KR101506446B1 (ko) * 2010-12-15 2015-04-08 에스케이 텔레콤주식회사 움직임정보 병합을 이용한 부호움직임정보생성/움직임정보복원 방법 및 장치와 그를 이용한 영상 부호화/복호화 방법 및 장치
CN102622724A (zh) * 2011-01-27 2012-08-01 鸿富锦精密工业(深圳)有限公司 外观专利图像切割方法及系统
EP2734956A4 (en) * 2011-07-20 2014-12-31 Tata Consultancy Services Ltd METHOD AND SYSTEM FOR DIFFERENTIATION OF TEXT INFORMATION INTEGRATED IN VIDEO CONTENT INTERNET INFORMATION
JP5842441B2 (ja) 2011-07-29 2016-01-13 ブラザー工業株式会社 画像処理装置およびプログラム
JP5776419B2 (ja) * 2011-07-29 2015-09-09 ブラザー工業株式会社 画像処理装置、画像処理プラグラム
JP5796392B2 (ja) 2011-07-29 2015-10-21 ブラザー工業株式会社 画像処理装置、および、コンピュータプラグラム
JP5853470B2 (ja) 2011-07-29 2016-02-09 ブラザー工業株式会社 画像処理装置、画像処理プラグラム
FI20115821A0 (fi) * 2011-08-24 2011-08-24 Syslore Oy Laite ja menetelmä kuljetusobjektissa olevien kiinnostusalueiden havaitsemiseen
US8494284B2 (en) 2011-11-21 2013-07-23 Nokia Corporation Methods and apparatuses for facilitating detection of text within an image
US9349066B2 (en) 2012-01-06 2016-05-24 Qualcomm Incorporated Object tracking and processing
WO2013106346A1 (en) * 2012-01-09 2013-07-18 Qualcomm Incorporated Ocr cache update
RU2609069C2 (ru) * 2012-01-31 2017-01-30 Хьюлетт-Паккард Дивелопмент Компани, Л.П. Обнаружение текста в изображениях графических пользовательских интерфейсов
US20130205213A1 (en) * 2012-02-06 2013-08-08 edX Inc. Caption-based navigation for a video player
US8897565B1 (en) 2012-06-29 2014-11-25 Google Inc. Extracting documents from a natural scene image
CN103577817B (zh) * 2012-07-24 2017-03-01 阿里巴巴集团控股有限公司 表单识别方法与装置
US20140193029A1 (en) * 2013-01-08 2014-07-10 Natalia Vassilieva Text Detection in Images of Graphical User Interfaces
CN103049750B (zh) * 2013-01-11 2016-06-15 广州广电运通金融电子股份有限公司 字符识别方法
US8712566B1 (en) * 2013-03-14 2014-04-29 Zazzle Inc. Segmentation of a product markup image based on color and color differences
KR101449257B1 (ko) * 2013-03-26 2014-10-08 현대자동차주식회사 각인 문자 인식 장치 및 그 방법과 이를 이용한 문자의 각인 깊이 검출 시스템
US9148675B2 (en) * 2013-06-05 2015-09-29 Tveyes Inc. System for social media tag extraction
US9070183B2 (en) 2013-06-28 2015-06-30 Google Inc. Extracting card data with linear and nonlinear transformations
US9171224B2 (en) * 2013-07-04 2015-10-27 Qualcomm Incorporated Method of improving contrast for text extraction and recognition applications
US9076056B2 (en) * 2013-08-20 2015-07-07 Adobe Systems Incorporated Text detection in natural images
US9762950B1 (en) 2013-09-17 2017-09-12 Amazon Technologies, Inc. Automatic generation of network pages from extracted media content
KR20150037061A (ko) 2013-09-30 2015-04-08 삼성전자주식회사 디스플레이장치 및 그 제어방법
US10297287B2 (en) 2013-10-21 2019-05-21 Thuuz, Inc. Dynamic media recording
CN103595861A (zh) * 2013-10-23 2014-02-19 南京邮电大学 一种终端识别电话号码自动拨号或发送短信的方法
US9560449B2 (en) 2014-01-17 2017-01-31 Sony Corporation Distributed wireless speaker system
US9288597B2 (en) 2014-01-20 2016-03-15 Sony Corporation Distributed wireless speaker system with automatic configuration determination when new speakers are added
US9866986B2 (en) 2014-01-24 2018-01-09 Sony Corporation Audio speaker system with virtual music performance
US9369801B2 (en) 2014-01-24 2016-06-14 Sony Corporation Wireless speaker system with noise cancelation
US9426551B2 (en) 2014-01-24 2016-08-23 Sony Corporation Distributed wireless speaker system with light show
US9232335B2 (en) 2014-03-06 2016-01-05 Sony Corporation Networked speaker system with follow me
US9483997B2 (en) 2014-03-10 2016-11-01 Sony Corporation Proximity detection of candidate companion display device in same room as primary display using infrared signaling
US9496922B2 (en) 2014-04-21 2016-11-15 Sony Corporation Presentation of content on companion display device based on content presented on primary display device
US9583149B2 (en) 2014-04-23 2017-02-28 Daniel Stieglitz Automated video logging methods and systems
US9696414B2 (en) 2014-05-15 2017-07-04 Sony Corporation Proximity detection of candidate companion display device in same room as primary display using sonic signaling
US10070291B2 (en) 2014-05-19 2018-09-04 Sony Corporation Proximity detection of candidate companion display device in same room as primary display using low energy bluetooth
US9036083B1 (en) * 2014-05-28 2015-05-19 Gracenote, Inc. Text detection in video
CN104036292A (zh) * 2014-06-12 2014-09-10 西安华海盈泰医疗信息技术有限公司 一种医学影像数字胶片中文字区域提取方法及提取系统
US9342830B2 (en) 2014-07-15 2016-05-17 Google Inc. Classifying open-loop and closed-loop payment cards based on optical character recognition
US9235757B1 (en) * 2014-07-24 2016-01-12 Amazon Technologies, Inc. Fast text detection
US11863848B1 (en) 2014-10-09 2024-01-02 Stats Llc User interface for interaction with customized highlight shows
US10433030B2 (en) 2014-10-09 2019-10-01 Thuuz, Inc. Generating a customized highlight sequence depicting multiple events
US10536758B2 (en) 2014-10-09 2020-01-14 Thuuz, Inc. Customized generation of highlight show with narrative component
US10419830B2 (en) 2014-10-09 2019-09-17 Thuuz, Inc. Generating a customized highlight sequence depicting an event
US9830508B1 (en) 2015-01-30 2017-11-28 Quest Consultants LLC Systems and methods of extracting text from a digital image
CN104657468B (zh) * 2015-02-12 2018-07-31 中国科学院自动化研究所 基于图像与文本的视频的快速分类方法
CN104751142B (zh) * 2015-04-01 2018-04-27 电子科技大学 一种基于笔划特征的自然场景文本检测方法
US9864734B2 (en) * 2015-08-12 2018-01-09 International Business Machines Corporation Clickable links within live collaborative web meetings
CN105095899B (zh) * 2015-08-23 2018-10-09 华南理工大学 一种图片中相关文本的自动框选方法
US9552527B1 (en) * 2015-08-27 2017-01-24 Lead Technologies, Inc. Apparatus, method, and computer-readable storage medium for determining a rotation angle of text
HK1210371A2 (en) 2015-11-20 2016-04-15 衍利行資產有限公司 A method and system for analyzing a piece of text
US9693168B1 (en) 2016-02-08 2017-06-27 Sony Corporation Ultrasonic speaker assembly for audio spatial effect
US9501696B1 (en) 2016-02-09 2016-11-22 William Cabán System and method for metadata extraction, mapping and execution
US9826332B2 (en) 2016-02-09 2017-11-21 Sony Corporation Centralized wireless speaker system
US9826330B2 (en) 2016-03-14 2017-11-21 Sony Corporation Gimbal-mounted linear ultrasonic speaker assembly
US9693169B1 (en) 2016-03-16 2017-06-27 Sony Corporation Ultrasonic speaker assembly with ultrasonic room mapping
US9794724B1 (en) 2016-07-20 2017-10-17 Sony Corporation Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating
US9854362B1 (en) 2016-10-20 2017-12-26 Sony Corporation Networked speaker system with LED-based wireless communication and object detection
US9924286B1 (en) 2016-10-20 2018-03-20 Sony Corporation Networked speaker system with LED-based wireless communication and personal identifier
US10075791B2 (en) 2016-10-20 2018-09-11 Sony Corporation Networked speaker system with LED-based wireless communication and room mapping
US10652592B2 (en) 2017-07-02 2020-05-12 Comigo Ltd. Named entity disambiguation for providing TV content enrichment
US10417516B2 (en) 2017-08-24 2019-09-17 Vastec, Inc. System and method for preprocessing images to improve OCR efficacy
US10572760B1 (en) * 2017-11-13 2020-02-25 Amazon Technologies, Inc. Image text localization
US11373404B2 (en) 2018-05-18 2022-06-28 Stats Llc Machine learning for recognizing and interpreting embedded information card content
US11264048B1 (en) 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
US11025985B2 (en) 2018-06-05 2021-06-01 Stats Llc Audio processing for detecting occurrences of crowd noise in sporting event television programming
US10623859B1 (en) 2018-10-23 2020-04-14 Sony Corporation Networked speaker system with combined power over Ethernet and audio delivery
CN109284751A (zh) * 2018-10-31 2019-01-29 河南科技大学 基于频谱分析和svm的文字定位的非文本滤除方法
GB2596452A (en) * 2019-02-17 2021-12-29 Vizetto Inc Systems and methods for generating documents from video content
US11176410B2 (en) * 2019-10-27 2021-11-16 John Snow Labs Inc. Preprocessing images for OCR using character pixel height estimation and cycle generative adversarial networks for better character recognition
US11521400B2 (en) 2019-12-06 2022-12-06 Synamedia Limited Systems and methods for detecting logos in a video stream
CN111062365B (zh) * 2019-12-30 2023-05-26 上海肇观电子科技有限公司 识别混合排版文字的方法、设备、芯片电路和计算机可读存储介质
US20230145252A1 (en) * 2020-01-24 2023-05-11 Oswego Innovations Two Inc. Portable tire scanners and related methods and systems
CN111798542B (zh) * 2020-09-10 2020-12-22 北京易真学思教育科技有限公司 模型训练方法、数据处理方法及装置、设备、存储介质
US11544828B2 (en) 2020-11-18 2023-01-03 Disney Enterprises, Inc. Automatic occlusion detection
US11494944B2 (en) 2020-11-18 2022-11-08 Disney Enterprises, Inc. Automatic low contrast detection
JP2022092119A (ja) * 2020-12-10 2022-06-22 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
CN112949755B (zh) * 2021-03-29 2022-09-13 中国科学院合肥物质科学研究院 一种基于图像结构信息的ocr数据合成方法
CN113362319A (zh) * 2021-06-30 2021-09-07 深圳市创想三维科技股份有限公司 基于图像处理的激光打印方法和装置、激光打印机、计算机可读存储介质
US12008829B2 (en) 2022-02-16 2024-06-11 Vastec, Inc. System and method for improved OCR efficacy through image segmentation
US20240046669A1 (en) * 2022-08-08 2024-02-08 Capital One Services, Llc Systems and methods for extracting in-video moving text in live video streams

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3361124B2 (ja) 1991-07-30 2003-01-07 ゼロックス・コーポレーション テキストを含む2次元画像上での画像処理方法と画像処理装置
US6400996B1 (en) 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
WO1993019441A1 (en) * 1992-03-20 1993-09-30 Commonwealth Scientific And Industrial Research Organisation An object monitoring system
US5262860A (en) 1992-04-23 1993-11-16 International Business Machines Corporation Method and system communication establishment utilizing captured and processed visually perceptible data within a broadcast video signal
EP0720114B1 (en) 1994-12-28 2001-01-24 Siemens Corporate Research, Inc. Method and apparatus for detecting and interpreting textual captions in digital video signals
JP2007058882A (ja) * 1996-09-27 2007-03-08 Fujitsu Ltd パターン認識装置
US6175844B1 (en) * 1997-05-29 2001-01-16 Adobe Systems Incorporated Ordering groups of text in an image
US6587586B1 (en) 1997-06-12 2003-07-01 Siemens Corporate Research, Inc. Extracting textual information from a video sequence
US6658662B1 (en) 1997-06-30 2003-12-02 Sun Microsystems, Inc. Retrieving information from a broadcast signal
US6249283B1 (en) 1997-07-15 2001-06-19 International Business Machines Corporation Using OCR to enter graphics as text into a clipboard
US6219453B1 (en) 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6100941A (en) 1998-07-28 2000-08-08 U.S. Philips Corporation Apparatus and method for locating a commercial disposed within a video data stream
US6204842B1 (en) 1998-10-06 2001-03-20 Sony Corporation System and method for a user interface to input URL addresses from captured video frames
US6614930B1 (en) * 1999-01-28 2003-09-02 Koninklijke Philips Electronics N.V. Video stream classifiable symbol isolation method and system
GB2352915A (en) 1999-08-06 2001-02-07 Television Monitoring Services A method of retrieving text data from a broadcast image
US6469749B1 (en) 1999-10-13 2002-10-22 Koninklijke Philips Electronics N.V. Automatic signature-based spotting, learning and extracting of commercials and other video content
US8528019B1 (en) 1999-11-18 2013-09-03 Koninklijke Philips N.V. Method and apparatus for audio/data/visual information
US6470094B1 (en) * 2000-03-14 2002-10-22 Intel Corporation Generalized text localization in images
EP1205075A2 (en) 2000-03-21 2002-05-15 Koninklijke Philips Electronics N.V. System and method for automatic content enhancement of multimedia output device
US6674900B1 (en) * 2000-03-29 2004-01-06 Matsushita Electric Industrial Co., Ltd. Method for extracting titles from digital images
JP3923243B2 (ja) * 2000-07-24 2007-05-30 独立行政法人科学技術振興機構 カラー文書画像からの文字抽出方法
WO2002025575A2 (en) 2000-09-22 2002-03-28 Sri International Method and apparatus for portably recognizing text in an image sequence of scene imagery
US20020083464A1 (en) 2000-11-07 2002-06-27 Mai-Ian Tomsen System and method for unprompted, context-sensitive querying during a televison broadcast
US6778700B2 (en) 2001-03-14 2004-08-17 Electronics For Imaging, Inc. Method and apparatus for text detection
JP2003101774A (ja) * 2001-09-25 2003-04-04 Ricoh Co Ltd 画像処理装置
WO2003051031A2 (en) 2001-12-06 2003-06-19 The Trustees Of Columbia University In The City Of New York Method and apparatus for planarization of a material by growing and removing a sacrificial film
US7073193B2 (en) 2002-04-16 2006-07-04 Microsoft Corporation Media content descriptions
KR100483451B1 (ko) 2002-05-27 2005-04-15 주식회사 아이큐브 컨텐츠 파일과 네비게이션 정보의 편집처리방법 및 그 방법에 의하여 정보가 기록된 기록매체
WO2004019187A2 (en) 2002-08-26 2004-03-04 Siftology, Inc. Relating media to information in a workflow system
AU2003274563A1 (en) 2002-11-22 2004-06-18 Koninklijke Philips Electronics N.V. Device for receiving a signal containing text information that can be used for programming the reception
RU2234734C1 (ru) 2002-12-17 2004-08-20 Аби Софтвер Лтд. Способ многоэтапного анализа информации растрового изображения
JP4112968B2 (ja) * 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
US7139033B2 (en) 2003-02-19 2006-11-21 Sharp Laboratories Of America, Inc. System and method for television frame capture and display
US8285727B2 (en) 2003-03-06 2012-10-09 Thomson Licensing S.A. Simplified searching for media services using a control device
EP1463301A1 (en) * 2003-03-19 2004-09-29 Thomson Licensing S.A. Method for identification of tokens in video sequences
US7921449B2 (en) 2003-03-27 2011-04-05 Sony Corporation Smooth still image capture
US20050246747A1 (en) 2003-03-31 2005-11-03 Matsushita Electric Industrial Co., Ltd. Utilization of data broadcasting technology with handheld control apparatus
KR100487538B1 (ko) 2003-05-01 2005-05-03 주식회사 알티캐스트 Tv 플라자 기능을 갖는 셋톱박스를 이용한 정보브라우징 방법
US20070028282A1 (en) 2003-09-12 2007-02-01 Koninklijke Philips Electronics N.V. Start up method for a television apparatus
US20060008260A1 (en) 2004-01-12 2006-01-12 Yu-Chi Chen Disk player, display control method thereof, data analyzing method thereof
US8132204B2 (en) 2004-04-07 2012-03-06 Visible World, Inc. System and method for enhanced video selection and categorization using metadata
US20060053470A1 (en) 2004-04-30 2006-03-09 Vulcan Inc. Management and non-linear presentation of augmented broadcasted or streamed multimedia content
US20060047704A1 (en) 2004-08-31 2006-03-02 Kumar Chitra Gopalakrishnan Method and system for providing information services relevant to visual imagery
US7716714B2 (en) 2004-12-01 2010-05-11 At&T Intellectual Property I, L.P. System and method for recording television content at a set top box
US20060179453A1 (en) 2005-02-07 2006-08-10 Microsoft Corporation Image and other analysis for contextual ads
US7570816B2 (en) * 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
US7607582B2 (en) 2005-04-22 2009-10-27 Microsoft Corporation Aggregation and synchronization of nearby media
US7734092B2 (en) * 2006-03-07 2010-06-08 Ancestry.Com Operations Inc. Multiple image input for optical character recognition processing systems and methods
JP2008079190A (ja) 2006-09-25 2008-04-03 Olympus Corp テレビジョン画像キャプチャシステム
US20080091713A1 (en) * 2006-10-16 2008-04-17 Candelore Brant L Capture of television metadata via OCR
TWI351877B (en) 2006-11-28 2011-11-01 Mstar Semiconductor Inc System and method for tv frame capture and printin

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150013040A (ko) * 2013-07-25 2015-02-04 아날로그 디바이시즈 테크놀로지 이미지 객체 및 윤곽 특징 추출을 위한 시스템, 방법, 및 매체
CN109271999A (zh) * 2018-09-06 2019-01-25 北京京东尚科信息技术有限公司 图像的处理方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
WO2010027933A9 (en) 2010-11-04
CN102144236B (zh) 2013-08-21
JP5588987B2 (ja) 2014-09-10
JP2012502359A (ja) 2012-01-26
US20100054585A1 (en) 2010-03-04
US8320674B2 (en) 2012-11-27
CN102144236A (zh) 2011-08-03
MX2011002293A (es) 2011-05-24
CA2735824A1 (en) 2010-03-11
EP2321767A1 (en) 2011-05-18
WO2010027933A1 (en) 2010-03-11
KR101452562B1 (ko) 2014-10-21

Similar Documents

Publication Publication Date Title
KR101452562B1 (ko) 비디오 이미지에서 텍스트를 검출하는 방법
Gllavata et al. A robust algorithm for text detection in images
Zhang et al. Extraction of text objects in video documents: Recent progress
Wong et al. A new robust algorithm for video text extraction
US7379594B2 (en) Methods and systems for automatic detection of continuous-tone regions in document images
Yang et al. A framework for improved video text detection and recognition
Anthimopoulos et al. Detection of artificial and scene text in images and video frames
Zhang et al. A novel text detection system based on character and link energies
Phan et al. Recognition of video text through temporal integration
Lu et al. Video text detection
Sanketi et al. Localizing blurry and low-resolution text in natural images
Wu et al. Contour restoration of text components for recognition in video/scene images
JP5796107B2 (ja) テキスト検出の方法及び装置
Karanje et al. Survey on text detection, segmentation and recognition from a natural scene images
Cózar et al. Logotype detection to support semantic-based video annotation
Song et al. Text region extraction and text segmentation on camera-captured document style images
Liu et al. Detection and segmentation text from natural scene images based on graph model
Aghajari et al. A text localization algorithm in color image via new projection profile
Alaei et al. Logo detection using painting based representation and probability features
Arai et al. Text extraction from TV commercial using blob extraction method
Nor et al. Image segmentation and text extraction: application to the extraction of textual information in scene images
Chen et al. Video-text extraction and recognition
Al-Asadi et al. Arabic-text extraction from video images
Samuel et al. Automatic Text Segmentation and Recognition in Natural Scene Images Using Msocr
Xu et al. Extracting text information for content-based video retrieval

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee