KR20100099005A - 히스토그램 분석을 이용한 영상 분류 방법 및 장치, 이를 이용한 문자 인식 방법 및 장치 - Google Patents

히스토그램 분석을 이용한 영상 분류 방법 및 장치, 이를 이용한 문자 인식 방법 및 장치 Download PDF

Info

Publication number
KR20100099005A
KR20100099005A KR1020090017764A KR20090017764A KR20100099005A KR 20100099005 A KR20100099005 A KR 20100099005A KR 1020090017764 A KR1020090017764 A KR 1020090017764A KR 20090017764 A KR20090017764 A KR 20090017764A KR 20100099005 A KR20100099005 A KR 20100099005A
Authority
KR
South Korea
Prior art keywords
image
histogram
peaks
character
threshold value
Prior art date
Application number
KR1020090017764A
Other languages
English (en)
Other versions
KR101566196B1 (ko
Inventor
김승훈
강태훈
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020090017764A priority Critical patent/KR101566196B1/ko
Priority to US12/715,459 priority patent/US8774514B2/en
Publication of KR20100099005A publication Critical patent/KR20100099005A/ko
Application granted granted Critical
Publication of KR101566196B1 publication Critical patent/KR101566196B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/40062Discrimination between different image types, e.g. two-tone, continuous tone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Character Input (AREA)

Abstract

본 발명은 영상 처리에 관한 것으로, 본 발명의 일 실시 예에 따른 영상 분류 방법은 히스토그램 영상의 특성을 분석하고, 분석 결과를 기초로 입력 영상을 분류함으로써, 히스토그램 특성 분석을 위한 계산의 복잡성 및 처리시간을 줄이고, 영상 분류를 간단하게 할 수 있다.
영상 처리, 분류, 히스토그램, 문자

Description

히스토그램 분석을 이용한 영상 분류 방법 및 장치, 이를 이용한 문자 인식 방법 및 장치{Method and apparatus for classifying an image using histogram analysis, and method and apparatus for recognizing text image using thereof}
본 발명은 영상 처리에 관한 것으로, 더 상세하게는 히스토그램을 이용한 영상 분류 방법 및 장치, 및 이를 이용한 문자 인식 방법 및 장치에 관한 것이다.
영상 히스토그램은 영상 안에서 픽셀들에 대한 명암 값의 분포를 나타낸 것으로 밝은 픽셀과 어두운 픽셀이 분포할 때 그 범위와 값을 표현한 것이다. 이것을 그래프로 나타낸 것을 히스토그램 그래프라고 하며 256 그레이 레벨 영상에서 명암 값의 범위는 0~255 값을 갖고, 각 명암 값(level)의 빈도 수를 조사하여 그래프의 높이로 나타낸다. 이러한 히스토그램은 영상의 많은 정보를 갖고 있으며, 영상 처리에 다양하게 이용된다. 또한, 히스토그램을 분석하여 영상의 특성을 파악하는 가능하다.
한국특허공개 2001-0055492호는 영상 히스토그램을 이용한 영상 검색 시스템 과 그 방법에 관한 것으로, 각각의 히스토그램의 빈들의 컬러에 대한 양 정보만이 아니라 영상으로부터의 중심점과 분산 값 정보를 구하여 이를 영상 검색을 위한 매핑 정보로 사용하는 기술을 개시하고 있다.
하지만, 영상 히스토그램을 이용하는데 있어서 분산 값 등을 구하는 계산량이 많고 특징 벡터를 추출하기 때문에 처리시간이 길어진다는 문제점이 있다.
한편, 디지털 카메라로 간판, 책자 등을 찍으면 그 내용을 즉시 문자 정보로 변환시키는 기술들은 카메라 폰, 휴대형 디지털 카메라의 대중화와 함께 다양한 분야에서 응용이 가능하기 때문에 핵심기술로서 각광받고 있는 분야이다. 이러한 문자 인식을 위해서, 촬영한 영상이 문자 영상인지 아닌지, 촬영한 영상에서 문자 영역만을 정확하게 인식할 수 있는 기술들이 필요하다.
종래의 문자 인식, 서명 인식 등에서 문자 영역을 판별하기 위한 다양한 종래 기술들이 있다.
하지만, 문자 인식을 위한 종래기술들은 이미 획득한 영상에 키워드를 입력하여 지정된 키워드와 일치하는 문자를 인식하여 사용자에게 알려주거나, 주파수 성분으로 문자를 인식하는 기술들로서, 영상 자체가 텍스트인지 아닌지 구분하는 기술에 관해서는 개시하고 있지 않다. 또한, 영상에 문자가 있다는 가정하에 문자를 인식하거나, 문자일 것 같은 영역을 추출하여 문자인식 하는데, 실제로 영상이 텍스트인지 아닌지 구분하는데 불필요한 처리들이 많다. 따라서 처리 속도가 늦고, 문자 가능성 영역 또는 키워드를 지정함으로써 자동 문자 인식이 불가능하며, 사용자가 편의성이 떨어진다는 문제점이 있었다.
본 발명은 전술한 종래기술의 문제점을 해결하기 위한 것으로, 영상 히스토그램의 특성을 분석함으로써 간단하게 입력 영상을 분류할 수 있는 영상 분류 방법 및 장치를 제공하는 데 목적이 있다.
또한, 영상 히스토그램의 특성을 분석함으로써 영상 자체가 문자 영상인지 아닌지를 인식할 수 있는 문자 인식 방법 및 장치를 제공하는 데 다른 목적이 있다.
상기 기술적 과제를 달성하기 위한, 본 발명의 일 실시 예에 따른 영상 분류 방법은 입력 영상을 그레이 레벨의 히스토그램 영상으로 변환하고, 상기 변환한 히스토그램 영상의 특성을 분석하는 단계; 및 상기 분석 결과를 기초로 상기 입력 영상을 분류하는 단계를 포함한다.
바람직하게, 상기 히스토그램 영상의 특성은, 상기 히스토그램 영상의 빈도수, 피크 갯수, 피크 거리 및 피크 폭 중 적어도 하나 이상을 포함하는 것을 특징으로 한다.
바람직하게, 상기 분석 단계는, 상기 히스토그램 영상의 그레이 레벨에 대한 개수를 나타내는 빈도수를 소정의 값으로 설정하는 단계를 더 포함하고,
상기 분류 단계는, 상기 설정한 빈도수 이상을 나타내는 피크들의 유무에 따 라 상기 입력 영상을 분류하는 것을 특징으로 한다.
바람직하게, 상기 분석 단계는, 상기 설정한 빈도수 이상을 나타내는 피크들 사이의 갯수를 판단하는 단계를 더 포함하고,
상기 분류 단계는, 상기 판단한 피크들 사이의 갯수에 따라 상기 입력 영상을 분류하는 것을 특징으로 한다.
바람직하게, 상기 분석 단계는, 상기 피크들 사이의 갯수가 1 이상인 경우, 상기 피크들 사이의 거리 값에 대한 제1 임계값을 설정하고, 상기 거리 값이 상기 제1 임계값 이상인지를 판단하는 단계를 더 포함하고,
상기 분류 단계는, 상기 거리 값이 상기 제1 임계값 이상인지에 따라 상기 입력 영상을 분류하는 것을 특징으로 한다.
바람직하게, 상기 분석 단계는, 상기 설정한 빈도수를 지나는 그레이 레벨의 갯수를 나타내는 상기 피크의 폭 또는 피크들의 폭에 대한 제2 임계값을 설정하고, 상기 피크의 폭 또는 피크들의 폭의 합이 상기 제2 임계값 이하인지를 판단하는 단계를 더 포함하고,
상기 분류 단계는, 상기 피크의 폭 또는 상기 피크들의 폭의 합이 상기 제2 임계값 이하인지에 따라 상기 입력 영상을 분류하는 것을 특징으로 한다.
바람직하게, 상기 빈도수, 상기 제1 임계값, 상기 제2 임계값은 상기 입력 영상의 종류에 따라 미리 설정되는 것을 특징으로 한다.
바람직하게, 상기 분석 단계는, 상기 변환한 히스토그램 영상을 정규화하는 단계를 더 포함하는 것을 특징으로 한다.
바람직하게, 상기 영상의 종류는, 문자 영상을 포함하는 것을 특징으로 한다.
상기 다른 기술적 과제를 달성하기 위한, 본 발명의 다른 실시 예에 따른 영상 분류 장치는 입력 영상을 그레이 레벨의 히스토그램 영상으로 변환하고, 상기 변환한 히스토그램 영상의 특성을 분석하는 히스토그램 분석부; 및 상기 분석 결과를 기초로 상기 입력 영상을 분류하는 영상 분류부를 포함한다.
바람직하게, 상기 히스토그램 영상의 특성은, 상기 히스토그램 영상의 빈도수, 피크 갯수, 피크 거리 및 피크 폭 중 적어도 하나 이상을 포함하는 것을 특징으로 한다.
바람직하게, 상기 히스토그램 분석부는, 상기 히스토그램 영상의 그레이 레벨에 대한 개수를 나타내는 빈도수를 소정의 값으로 설정하는 빈도수 설정부; 상기 설정한 빈도수 이상을 나타내는 피크들 사이의 갯수를 판단하는 피크 갯수 판단부; 상기 피크들 사이의 갯수가 1 이상인 경우, 상기 피크들 사이의 거리 값에 대한 제1 임계값을 설정하고, 상기 거리 값이 상기 제1 임계값 이상인지를 판단하는 단계를 피크 거리 판단부; 및 상기 설정한 빈도수를 지나는 그레이 레벨의 갯수를 나타내는 상기 피크의 폭 또는 상기 피크들의 폭에 대한 제2 임계값을 설정하고, 상기 피크의 폭 또는 피크들의 폭의 합이 상기 제2 임계값 이하인지를 판단하는 피크 폭 판단부를 포함하는 것을 특징으로 한다.
바람직하게, 상기 영상 분류부는, 상기 설정한 빈도수 이상을 나타내는 피크들의 유무, 상기 판단한 피크들 사이의 갯수, 상기 거리 값이 상기 제1 임계값 이 상인지, 상기 피크의 폭 또는 피크들의 폭의 합이 상기 제2 임계값 이하인지 중 적어도 하나 이상에 따라 상기 입력 영상을 분류하는 것을 특징으로 한다.
바람직하게, 상기 빈도수, 상기 제1 임계값 또는 상기 제2 임계값은 상기 입력 영상의 종류에 따라 미리 설정되는 것을 특징으로 한다.
바람직하게, 상기 히스토그램 분석부는, 상기 변환한 히스토그램 영상을 정규화하는 정규화부를 더 포함하는 것을 특징으로 한다.
바람직하게, 상기 영상의 종류는, 문자 영상을 포함하는 것을 특징으로 한다.
상기 또 다른 기술적 과제를 달성하기 위한, 본 발명의 또 다른 실시 예에 따른 문자 인식 방법은 입력 영상을 그레이 영상으로 변환하고, 그레이 영상으로부터 에지 성분을 포함한 픽셀들을 검출하는 단계; 상기 그레이 영상을 소정 갯수의 블록으로 영역 분할하는 단계; 상기 분할한 각각의 블록에 대해, 상기 검출한 픽셀들이 소정 레벨 이상인 에지 픽셀수가 제1 임계값 이상인 블록을 판단하는 단계; 상기 에지 픽셀수가 상기 제1 임계값 이상인 각각의 블록에 대해, 그레이 영상에 대한 히스토그램 영상의 특성을 분석함으로써 해당 블록이 문자인지를 판단하는 단계; 및 상기 각각의 블록이 문자인지 판단한 결과를 기초로 상기 입력 영상을 문자 영상으로 인식하는 단계를 포함한다.
바람직하게, 상기 히스토그램 영상의 특성은, 상기 히스토그램 영상의 빈도수, 피크 갯수, 피크 거리 및 피크 폭 중 적어도 하나 이상을 포함하는 것을 특징으로 한다.
바람직하게, 상기 인식 단계는, 상기 영역 분할한 전체 블록과 문자라고 판단한 문자 블록의 비율이 제2 임계값 이상인 경우, 상기 입력 영상을 문자 영상으로 인식하는 것을 특징으로 한다.
바람직하게, 상기 인식 단계는, 상기 영역 분할한 전체 블록과 문자라고 판단한 문자 블록의 비율에 상기 문자 블록의 분산 정도를 나타내는 가중치를 부여한 값이 제3 임계값 이상인 경우, 상기 입력 영상을 문자 영상으로 인식하는 것을 특징으로 한다.
바람직하게, 상기 각각의 블록을 문자로 판단하는 단계는, 상기 히스토그램 영상의 그레이 레벨에 대한 개수를 나타내는 빈도수를 소정의 값으로 설정하는 단계; 상기 설정한 빈도수 이상을 나타내는 피크들 사이의 갯수를 판단하는 단계; 상기 피크들 사이의 갯수가 1 이상인 경우, 상기 피크들 사이의 거리 값에 대한 제4 임계값을 설정하고, 상기 거리 값이 상기 제4 임계값 이상인지를 판단하는 단계; 상기 설정한 빈도수를 지나는 그레이 레벨의 갯수를 나타내는 상기 피크의 폭 또는 상기 피크들의 폭에 대한 제5 임계값을 설정하고, 상기 피크의 폭 또는 상기 피크들의 폭의 합이 상기 제5 임계값 이하인지를 판단하는 단계; 및 상기 설정한 빈도수 이상을 나타내는 피크들의 유무, 상기 판단한 피크들 사이의 갯수, 상기 거리 값이 상기 제4 임계값 이상인지, 상기 피크의 폭 또는 상기 피크들의 폭의 합이 상기 제5 임계값 이하인지 중 적어도 하나 이상에 따라 해당 블록을 문자로 판단하는 단계를 포함하는 것을 특징으로 한다.
상기 또 다른 기술적 과제를 달성하기 위한, 본 발명의 또 다른 실시 예에 따른 문자 인식 장치는 그레이 영상으로부터 에지 성분을 포함한 픽셀을 검출하는 에지 검출부; 상기 그레이 영상을 소정 갯수의 블록으로 영역 분할하는 영역 분할부; 상기 분할한 각각의 블록에 대해, 상기 검출한 픽셀들 중 소정 레벨 이상의 에지 픽셀수가 제1 임계값 이상인 블록을 판단하는 에지 픽셀 판단부; 상기 에지 픽셀수가 상기 제1 임계값 이상인 각각의 블록에 대해, 상기 그레이 영상에 대한 히스토그램 영상의 특성을 분석함으로써 해당 블록이 문자인지 판단하는 히스토그램 분석부; 및 상기 각각의 블록이 문자인지 판단한 결과를 기초로 상기 입력 영상을 문자 영상으로 인식하는 문자 인식부를 포함한다.
바람직하게, 상기 히스토그램 영상의 특성은, 상기 히스토그램 영상의 빈도수, 피크 갯수, 피크 거리 및 피크 폭 중 적어도 하나 이상을 포함하는 것을 특징으로 한다.
바람직하게, 상기 문자 인식부는, 상기 영역 분할한 전체 블록과 문자라고 판단한 문자 블록의 비율이 제2 임계값 이상인 경우, 상기 입력 영상을 문자 영상으로 인식하는 것을 특징으로 한다.
바람직하게, 상기 문자 인식부는, 상기 영역 분할한 전체 블록과 문자라고 판단한 문자 블록의 비율에 상기 문자 블록의 분산 정도를 나타내는 가중치를 부여한 값이 제3 임계값 이상인 경우, 상기 입력 영상을 문자 영상으로 인식하는 것을 특징으로 한다.
바람직하게, 상기 히스토그램 분석부는, 상기 히스토그램 영상의 그레이 레벨에 대한 개수를 나타내는 빈도수를 소정의 값으로 설정하는 빈도수 설정부; 상기 설정한 빈도수 이상을 나타내는 피크들 사이의 갯수를 판단하는 피크 갯수 판단부; 상기 피크들 사이의 갯수가 1 이상인 경우, 상기 피크들 사이의 거리값에 대한 제1 임계값을 설정하고, 상기 거리 값이 상기 제4 임계값 이상인지를 판단하는 단계를 피크 거리 판단부; 및 상기 설정한 빈도수를 지나는 그레이 레벨의 갯수를 나타내는 상기 피크의 폭 또는 상기 피크들의 폭에 대한 제5 임계값을 설정하고, 상기 피크의 폭 또는 상기 피크들의 폭의 합이 상기 제5 임계값 이하인지를 판단하는 피크 폭 판단부; 및 상기 설정한 빈도수 이상을 나타내는 피크들의 유무, 상기 판단한 피크들 사이의 갯수, 상기 거리 값이 상기 제4 임계값 이상인지, 상기 피크의 폭 또는 상기 피크들의 폭의 합이 상기 제5 임계값 이하인지 중 적어도 하나 이상에 따라 해당 블록을 문자로 판단하는 영상 분류부를 포함하는 것을 특징으로 한다.
상기 또 다른 기술적 과제를 달성하기 위한 상기 영상 분류 방법 또는 문자 인식 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체를 포함한다.
본 발명의 일 실시 예에 따른 영상 분류 방법은 히스토그램 영상의 특성을 분석하고, 분석 결과를 기초로 입력 영상을 분류함으로써, 히스토그램 특성 분석을 위한 계산의 복잡성 및 처리시간을 줄이고, 영상 분류를 간단하게 할 수 있다.
본 발명의 다른 실시 예에 따른 문자 인식 방법은 영상 안에 존재하는 에지 픽셀 수와 히스토그램 특성을 분석함으로써 영상이 문자인지 아닌지를 복잡한 계산과정을 거치지 않고 간단하게 구할 수 있다.
이하, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시 예들을 상세히 설명한다. 하기의 설명에서는 본 발명에 따른 동작을 이해하는데 필요한 부분만이 설명되며 그 이외 부분의 설명은 본 발명의 요지를 흩트리지 않도록 생략될 수 있다.
또한, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 본 발명을 가장 적절하게 표현할 수 있도록 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.
도 1은 본 발명의 일 실시 예에 따른 영상 분류 장치(100)의 개략적인 블록도이다.
도 1을 참조하면, 영상 분류 장치(100)는 히스토그램 분석부(110) 및 영상 분류부(120)를 포함하여 구성된다.
히스토그램 분석부(110)는 그레이 레벨의 히스토그램 영상을 입력받아, 히스토그램 영상의 특성을 분석한다. 여기서, 히스토그램 영상의 특성은 히스토그램 영상의 빈도수, 피크 갯수, 피크 거리, 피크 폭을 포함한다. 일반적으로 히스토그램은 영상 안에서 픽셀들에 대한 명암 값의 분포를 나타낸 것으로, 밝은 픽셀과 어두운 픽셀이 분포할 때 그 범위와 값을 표현한 것으로, 이것을 그래프로 나타낸 것을 히스토그램 그래프라고 하며, 예를 들면 256 그레이 레벨 영상에서 명암 값의 범위는 0 내지 255의 값을 갖고, 각 명암 값, 즉 레벨의 빈도수가 그래프의 높이로 나타낸다. 히스토그램은 영상의 많은 정보를 갖고 있으며, 다양한 영상 처리에 이용된다. 또한, 본 발명의 바람직한 실시 예에서, 히스토그램을 분석하여 영상의 특성을 알 수 있다.
도 4 및 5는 다양한 영상의 히스토그램을 도시한 것이다.
먼저, 도 4a 내지 4d를 참조하면, 도 4a 및 도 4c에는 문자 영상이 도시되어 있고, 도 4b 및 4d에는 도 4a 및 도 4c에 도시된 문자 영상들에 대한 히스토그램이 각각 도시되어 있다.
도 4b 및 도 4d에 도시된 것처럼, 문자 영상은 일반적으로 A4 용지 또는 책에 프린트된 텍스트를 나타내며, 단색 배경에 존재하기 때문에 문자 영상 안에서 픽셀들에 대한 레벨 값의 분포는 일정한 피크 값을 갖는 것으로 나타난다. 즉, 문자 영상일 때 히스토그램의 피크 특성이 있다. 이는 문자 영상의 특성상 배경위에 텍스트가 있기 때문에 영상 픽셀의 강도(intensity) 값이 특징을 갖는 형태이기 때문이다. 반면, 일반 영상일 때 히스토그램의 피크는 1-2개 이상을 갖는 특성이 있다. 이는 문자가 아닌 일반 영상, 예를 들면 그림 영상은 그레이 영상으로 변환시 256 레벨에 대해 다양한 강도 분포를 갖기 때문이다.
전술한 문자 영상의 히스토그램의 특성은 도 5a 내지 5f에 도시되어 있는 다양한 문자 영상(도 5a, 5c, 5e)과 이에 대한 각각의 히스토그램 영상(도 5b, 5d, 5e)들을 통해 확인할 수 있다.
히스토그램 분석부(110)의 구체적인 구성은 도 2를 참조하여 후술한다.
영상 분류부(120)는 히스토그램 분석부(110)의 분석 결과를 기초로 입력 영상을 분류한다. 영상 분류부(120)는 전술한 히스토그램 영상의 특성에 따라 입력 영상이 문자 영상인지 아닌지를 분류한다. 즉, 히스토그램 영상의 피크의 갯수, 피크의 폭, 피크의 변화 등에 대한 정보를 가지고 입력 영상을 분류한다.
도 2는 도 1에 도시된 히스토그램 분석부(110)의 개략적인 블록도이다.
도 2를 참조하면, 히스토그램 분석부(110)는 정규화부(111), 빈도수 설정부(112), 피크 갯수 판단부(113), 피크 거리 판단부(114), 피크 폭 판단부(115)를 포함하여 구성된다.
정규화부(111)는 히스토그램 영상을 정규화한다. 여기서, 정규화는 히스토그램에서 변환된 Y값, 즉 영상에서 해당 명암 값, 즉 그레이 레벨 값에 해당하는 픽셀들의 갯수(빈도수)가 일정 범위 값을 넘을 때, 이러한 값들을 원하는 일정 범위 안에서 재매핑시키기 위해 재조정하는 것을 의미한다.
도 3a 및 3b는 히스토그램 정규화를 설명하기 위한 도면이다.
도 3a는 히스토그램 영상이고, 도 3b는 도 3a의 히스토그램 영상을 정규화시킨 정규화된 히스토그램 영상이다. 도 3a 및 3b에 도시된 것처럼, Y축, 즉 빈도수 값이 원하는 범위의 값들로 재조정된다.
빈도수 설정부(112)는 히스토그램 영상의 그레이 레벨에 대한 개수를 나타내는 빈도수를 소정의 값으로 설정한다. 여기서, 소정의 값은 영상의 종류, 즉 문자 영상인지 그림 영상인지에 따라 임의로 설정할 수 있는 값이고, 빈도수는 해당 그레이 레벨에 속하는 픽셀들의 수를 의미한다.
도 6은 본 발명의 다른 실시 예에 따른 히스토그램 분석 방법을 설명하기 위한 도면이다.
도 6을 참조하면, 입력 영상의 히스토그램 영상이 도시되어 있다. X축은 그레이 레벨이고, Y축은 정규화된 빈도수이다. 도면번호 600으로 표시된 선이 임의로 설정된 빈도수이다. 여기서, 빈도수가 100으로 설정된다. 빈도수 설정부(112)는 분류하고 하는 영상의 종류에 따라 빈도수를 다르게 설정할 수 있다.
피크 갯수 판단부(113)는 빈도수 설정부(112)가 설정한 빈도수 이상을 나타내는 피크들 사이의 갯수를 판단한다. 다시 도 6을 참조하면, 빈도수 100 이상의 피크들 사이의 갯수가 도면번호 610으로 표시되어 있다.
피크 거리 판단부(114)는 피크들 사이의 갯수가 1 이상인 경우, 피크들 사이의 거리값에 대한 제1 임계값을 설정하고, 거리 값이 제1 임계값 이상인지를 판단한다. 다시 도 6을 참조하면, 피크들 사이의 갯수가 2개이므로, 피크들 사이의 거리 값, 즉 도면번호 620으로 표시된 거리 값들에 대해서, 제1 임계값을 설정하고, 해당 거리 값(620)이 제1 임계값 이상인지를 판단한다. 여기서, 제1 임계값은 임의로 설정할 수 있는 값이다.
피크 폭 판단부(115)는 빈도수 설정부(111)가 설정한 빈도수를 지나는 그레이 레벨의 갯수를 나타내는 피크의 폭 또는 피크들의 폭에 대한 제2 임계값을 설정하고, 피크의 폭 또는 피크들의 폭의 합이 제2 임계값 이하인지를 판단한다. 다시 도 6을 참조하면, 빈도수 100 이상을 지나는 제1 피크의 폭(A), 제2 피크의 폭(B), 제3 피크의 폭(C)이 도면번호 640으로 도시되어 있다. 그리고 각각의 폭들의 합, 즉 A+B+C가 제2 임계값 이하인지를 판단한다. 여기서, 제2 임계값은 임의로 설정할 수 있는 값이다.
영상 분류부(120)는 빈도수 설정부(112)가 설정한 빈도수 이상을 나타내는 피크들의 유무, 피크 갯수 판단부(113)가 판단한 피크들 사이의 갯수, 피크 거리 판단부(114)가 판단한 거리 값이 제1 임계값 이상인지 여부, 피크 폭 판단부(115)가 판단한 피크의 폭 또는 피크들의 폭의 합이 상 제2 임계값 이하인지 에 따라 입력 영상을 분류한다.
도 7은 본 발명의 또 다른 실시 예에 따른 히스토그램 분석 방법을 설명하기 위한 도면이다.
도 7을 참조하여 전술한 히스토그램 분석과 영상 분류를 구체적으로 설명한다. 도 7을 참조하면, 도 4a에 도시된 문자 영상에 대한 히스토그램 영상, 즉 도 4b의 히스토그램 영상을 정규화한 히스토그램 영상에 대한 분석 방법이다.
도 7을 참조하면, 빈도수를 108로 설정하고, 피크들 사이의 갯수를 2개 이하, 피크들 사이의 거리값에 대한 임계값은 최소값 4, 최대값 128로 설정하고, 설정한 빈도수를 지나는 피크의 폭은 60 이하로 설정한다.
도면번호 700으로 표시된 빈도수를 지나는 피크의 갯수는 1개이고, 따라서, 피크들 사이의 갯수는 0개이다. 따라서, 2개 이하의 조건을 만족한다. 또한, 피크들 사이의 갯수가 0개이므로 피크들 사이의 거리 값은 판단하지 않는다. 또한, 설정한 빈도수, 즉 108을 지나는 피크의 폭은 도면에 표시된 것처럼 14개이다. 따라서, 설정한 피크 폭의 임계값 60 이하를 만족한다. 이상과 같은 조건들을 모두 만족함으로, 도 7에 도시된 히스토그램 영상의 특성에 대한 분석으로부터 입력 영상은 문자 영상이라고 분류할 수 있다.
도 8은 본 발명의 또 다른 실시 예에 따른 히스토그램 분석 방법을 설명하기 위한 도면이다.
도 8을 참조하면, 미지의 히스토그램 영상에 대해, 빈도수를 108로 설정하고, 피크들 사이의 갯수를 2개 이하, 피크들 사이의 거리값에 대한 임계값은 최소값 4, 최대값 128로 설정하고, 설정한 빈도수를 지나는 피크의 폭은 60 이하로 설정한다. 상기와 같은 조건들을 도 8에 도시된 히스토그램 영상이 모두 만족한다면, 입력 영상을 문자 영상으로 분류할 수 있다.
도면번호 800으로 빈도수가 108로 설정되고, 빈도수 이상의 피크는 3개이다. 따라서, 도면번호 810으로 표시된 피크들 사이의 갯수는 2개로 조건을 만족한다. 또한, 피크들 사이의 거리의 최소값 4와 최대값 128에 대해, 첫번째 피크와 두번째 피크 사이의 거리는 105이고, 두번째 피크와 세번째 피크 사이의 거리는 26이므로, 거리에 대한 조건은 만족한다. 하지만, 피크의 폭 또는 피크들의 폭의 합에 대한 조건을 살펴보면, 첫번째 피크의 폭은 4이고, 두번째 피크의 폭은 48이고, 세번째 피크의 폭은 21이다. 따라서, 피크들의 폭의 합은 73이므로, 피크의 폭에 대한 조건 60 이하를 만족하지 않으므로, 입력 영상은 문자 영상이 아니라고 분류한다.
도 9는 본 발명의 또 다른 실시 예에 따른 문자 인식 장치(200)의 개략적인 블록도이다.
도 9를 참조하면, 문자 인식 장치(200)는 에지 검출부(210), 영역 분할 부(220), 에지 픽셀 판단부(230), 히스토그램 분석부(240) 및 문자 인식부(250)를 포함하여 구성된다.
에지 검출부(210)는 그레이 영상으로부터 에지 성분을 포함한 픽셀을 검출한다. 영상에서 에지란 영상 안의 영역의 경계를 나타내며 픽셀 밝기의 불연속점을 나타낸다. 즉 물체와 배경과의 경계를 사이에 두고 밝기 차가 나타난다. 이것은 물체의 윤곽에 대응되고 물체의 위치, 모양, 크기 등의 많은 정보를 준다. 에지에 해당하는 픽셀을 검출하는 것을 에지 검출(edge detection)이라고 하며, 에지를 검출하기 위해서는 수학적으로 편미분 연산자 계산을 통해 수행한다. 1차 미분 값의 크기는 영상에서 에지의 존재 여부를 나타내고, 2차 미분 값의 부호는 픽셀의 밝고 어두운 부분의 위치를 나타낸다.
본 발명의 바람직한 실시 예에서, 라플라시안 3×3 마스크를 이용하여 에지 픽셀을 검출한다. 하지만, 이에 한정되지 않고 다른 미분 연산자를 이용해서 에지 픽셀을 검출할 수 있음은 물론이다.
영역 분할부(220)는 그레이 영상을 소정 갯수의 블록으로 영역 분할한다. 여기서, 입력 영상을 일정한 크기, 예를 들면 32×32, 64×64 픽셀 크기의 블록들로 분할할 수 있다.
에지 검출과 영역 분할과 관련하여 도 10a 내지 10c를 참조하면, 도 10a는 원 영상이고, 도 10b는 그레이 영상, 도 10c는 영역 분할한 에지 맵 블록들을 도시하고 있다. 또한, 본 발명의 바람직한 실시 예에서는, 에지 검출 후, 영역 분할하는 것으로 설명하고 있지만, 영역 분할 후에, 영역별 에지 검출을 수행할 수 있음 은 물론이다.
에지 픽셀 판단부(230)는 영역 분할한 각각의 블록에 대해서 검출한 픽셀들 중 소정 레벨 이상의 에지 픽셀수가 제1 임계값 이상인 블록을 판단한다. 에지 영상의 각각의 블록에 대해 일정 레벨, 예를 들면 64 레벨 이상의 에지 픽셀들의 수가 제1 임계값 이상인지에 따라 문자 영상인지 아닌지를 판단한다. 예를 들면 64 레벨 이상의 에지 픽셀들의 수가 제1 임계값 이하인 경우에는 해당 블록은 다음 히스토그램 분석을 하지 않고도 문자 블록이 아니라고 판단하고, 에지 픽셀들의 수가 제1 임계값 이상인 경우에는 해당 블록은 1차적으로 문자 블록의 가능성이 있으므로 다음 히스토그램 분석을 하도록 한다. 여기서, 제1 임계값은 한 블록의 에지 픽셀들의 수에 따라 임의로 결정할 수 있는 값이다. 에지 픽셀 판단과 관련하여 도 10c와 11을 함께 참조하면, 도 10c에 도시된 에지 맵 블록(10×7)들 모두에 대해 일정 레벨 이상의 에지 픽셀들의 수가 도 11에 도시되어 있다. 도 11에 도시된 각각의 블록들 모두에 대해서, 에지 픽셀들의 수가 제1 임계값 이상인 블록들에 대해서만 1차적으로 문자 블록에 해당한다고 판단하고, 다음 히스토그램 분석을 수행한다. 따라서, 에지 픽셀 판단으로부터 문자 블록이 아니라고 판단된 블록들은 다음 히스토그램 분석을 수행하지 않음으로써 전체 영상에 대한 문자 인식 속도를 향상시킬 수 있다. 이러한 에지 픽셀 판단은 문자 영상의 특성, 즉 배경과 사물이 단조로운 명암을 가지고, 작은 사물들이 가로와 세로로 일정한 순서대로 놓여있는 특성이 있기 때문이다.
히스토그램 분석부(240)는 에지 픽셀수가 제1 임계값 이상인 각각의 블록에 대해, 그레이 영상에 대한 히스토그램 영상의 특성을 분석함으로써 해당 블록이 문자인지 판단한다. 즉, 이진화된 에지 맵의 각각의 블록에 대한 히스토그램에서 n개 이상의 빈도를 갖는 그레이 레벨의 종류의 개수와 레벨 간의 거리를 참조하여 문자나 표, 즉 문자 영상인지 아니면 그림이나 사진인지를 판단한다. 히스토그램 분석부(240)는 도 2를 참조하여 설명한 히스토그램 분석과 동일하며, 도 2에서는 전체 영상의 히스토그램을 분석하여 입력 영상을 문자 영상으로 분류했지만, 여기서, 각각의 블록에 대해서 문자 블록인지 아닌지를 분석한다는 차이점이 있다.
도 12에는 각각의 블록(10×7)에 대한 히스토그램이 도시되어 있다. 여기서는 전체 블록에 대한 히스토그램이 도시되어 있지만, 전술한 것처럼, 에지 픽셀들의 수가 제1 임계값 이상인 블록들에 대해서만 히스토그램 분석이 수행되는 것은 전술한 바와 같다. 도 12를 참조하면, 파란색으로 표시된 히스토그램은 전술한 히스토그램 분석 방법을 통해 분석한 결과 문자 블록이라고 판단된 것이고, 검은색은 문자 블록이 아니라고 판단된 블록이다. 또한, 회색으로 표시된 블록은 에지 픽셀수가 적거나 히스토그램 분석을 할 수 없는 블록을 나타낸다.
문자 인식부(250)는 히스토그램 분석부(240)가 각각의 블록이 문자인지 판단한 결과를 기초로 입력 영상을 문자 영상으로 인식한다. 또한, 문자 인식부(250)는 히스토그램 분석부(240)가 문자로 인식한 문자 블록들의 분산도, 즉 얼마만큼 뭉쳐있는지에 대한 가중치를 주고, 이값이 특정 임계값 이상인지에 따라 전체 영상이 문자 영상인지 인식할 수도 있다. 일반적으로 글자나 표는 가로나 세로방향으로 이어서 쓰다가 세로나 가로방향으로 줄을 바꾸게 되는데, 에지 맵의 블록에서 보면 고주파성분에 단조로운 명암을 가진 블록들이 이어져 있는 것처럼 보이므로, 문자 영상으로 판단된 블록들이 붙어있는 경우에는 가중치를 두고, 글자가 아닌 고주파성분을 갖는 사물들이 놓여있는 경우와 구분한다. 여기서, 특정 임계값은 입력 영상이 문자인지 아닌지 판단하기 위한 경계값으로 임의로 설정할 수 있는 값이다.
도 13 내지 15는 본 발명의 또 다른 실시 예에 따른 문자 인식을 설명하기 위한 도면들이다.
도 13a 내지 13c를 참조하면, 도 13a에는 원 영상이 도시되어 있으며, 도 13b에는 그레이 영상 블록이 도시되어 있으며, 도 13c에는 에지 맵 블록이 도시되어 있다.
도 14를 참조하면, 각각의 블록들에 대한 에지 픽셀들의 수가 블록별로 도시되어 있다. 본 발명의 바람직한 실시 예에서, 에지 픽셀 판단을 통해 동일 블록에서 소정의 레벨이상의 에지 픽셀들의 수가 소정의 임계값이상인지를 판단하여 다음 히스토그램 분석을 수행한다. 즉, 에지 픽셀들의 수가 임계값 이상인 경우에만 히스토그램 분석을 수행한다.
도 15를 참조하면, 각각의 블록들에 대한 히스토그램이 도시되어 있으며, 파란색으로 표시된 블록은 문자 블록으로 판단된 것이고, 검은색으로 표시된 블록은 그림 영상으로 판단된 것이고, 회색 블록은 원 영상에서 여백과 같이 에지 갯수가 적어서 문자인지 판별할 수 없는 블록을 나타낸다.
따라서, 도 15에 도시된 히스토그램 분석 결과, 즉 문자 블록으로 인식된 블 록이 매우 적음으로부터 원 영상은 문자 영상이 아니라고 판단할 수 있다.
도 16은 본 발명의 또 다른 실시 예에 따른 영상 분류 방법을 설명하기 위한 흐름도이다.
도 16을 참조하면, 단계 1600에서, 히스토그램 영상을 입력한다. 여기서, 히스토그램 영상은 입력 영상을 그레이 레벨의 히스토그램으로 변환한 영상이다.
단계 1602에서, 히스토그램 영상을 일정 범위 내의 빈도수를 갖도록 정규화한다. 단계 1604에서, 히스토그램의 특정 빈도수를 설정한다. 여기서, 빈도수는 입력 영상의 종류에 따라 다르게 설정할 수 있다.
단계 1606에서, 특정 빈도수 이상의 피크를 갖는 피크들 사이의 갯수를 판단한다. 단계 1608에서, 피크들 사이의 갯수가 1 이상인 경우에, 해당 피크들 사이의 거리에 대한 특정 임계값을 설정하고, 거리 값이 임계값의 범위 내인지를 판단한다.
단계 1610에서, 단계 1604에서 설정한 빈도수를 지나는 피크 폭 또는 피크들의 폭의 합이 특정 임계값 이하인지를 판단한다.
단계 1612에서, 상기 단계 1606 내지 1608에서 판단한 피크 갯수, 피크 거리, 피크 폭에 대한 판단 결과로부터 입력 영상을 분류한다.
도 17은 본 발명의 또 다른 실시 예에 따른 문자 인식 방법을 설명하기 위한 흐름도이다.
도 17을 참조하면, 단계 1700에서, 그레이 영상을 입력받아 에지 픽셀을 검출한다. 여기서, 에지 검출은 다양한 미분 연산자를 이용하여 에지를 검출할 수 있다. 단계 1702에서, 소정 갯수, 즉 n개의 블록으로 영역 분할한다. 단계 1700과 단계 1702의 순서에 한정되지 않는다.
단계 1704에서, 각각의 블록에 대해 일정 레벨 이상의 에지 픽셀수를 계산한다. 단계 1706에서, 첫번째 블록에 대해서 에지 픽셀수를 판단한다. 단계 1708에서, 제1 블록의 에지 픽셀수가 제1 임계값 이상인지를 판단한다. 단계 1708의 판단 결과, 제1 블록의 에지 픽셀수가 제1 임계값 이상인 경우에는 단계 1710에서, 제1 블록의 히스토그램을 분석한다. 단계 1712에서, 제1 블록에 대한 히스토그램 분석 결과, 문자 블록에 해당하는 경우에는 단계 1714에서 제1 블록을 문자 블록으로 카운팅하고, 단계 1716에서 다음 블록, 즉 제2 블록으로 진행한다.
하지만, 단계 1708에서, 제1 블록의 에지 픽셀수가 제1 임계값 이하인 경우에는 단계 1716으로 진행하여 다음 블록, 즉 제2 블록으로 진행한다. 단계 1718에서, 제2 블록이 마지막 블록이 아닌 경우에는 단계 1708로 돌아가 제2 블록에 대한 에지 픽셀수 판단과 히스토그램 분석을 수행한다. 전술한 과정을 통해 제n 블록에 대한 에지 픽셀수 판단과 히스토그램 분석을 모두 수행한 경우에는 단계 1720으로 진행하여, 전체 블록에서 문자라고 인식된 문자 블록의 비율, 즉 전체 블록에서 문자 블록이 차지하는 비율과 문자 블록의 분산도를 기초로 입력 영상이 문자 영상인지 판단한다. 여기서, 분산도는 문자 블록이 어느 정도 뭉쳐 있는지에 대한 정도를 의미한다.
전술한 것처럼, 본 발명의 바람직한 실시 예에 따른 문자 인식 방법 및 장치들을 이용해서 입력 영상을 문자 영상이라고 판단한 경우에, 영상에 에지 성분을 보강하는 에지 강조(Edge enhancement) 처리 등을 통해 더욱 선명한 문자 영상을 획득할 수 있다.
본 발명은 다양한 이미지 처리 디바이스, 예를 들면 디지털 카메라, 카메라가 장착된 휴대폰, 디지털 캠코더 등에 적용할 수 있다.
한편, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
이제까지 본 발명에 대하여 바람직한 실시 예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명을 구현할 수 있음을 이해할 것이다. 그러므로 상기 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 한다.
도 1은 본 발명의 일 실시 예에 따른 영상 분류 장치(100)의 개략적인 블록도이다.
도 2는 도 1에 도시된 히스토그램 분석부(110)의 개략적인 블록도이다.
도 3a 및 3b는 히스토그램 정규화를 설명하기 위한 도면이다.
도 4a 내지 4d는 다양한 영상의 히스토그램을 설명하기 위한 도면이다.
도 5a 내지 5f는 다양한 영상의 히스토그램을 설명하기 위한 도면이다.
도 6은 본 발명의 다른 실시 예에 따른 히스토그램 분석 방법을 설명하기 위한 도면이다.
도 7은 본 발명의 또 다른 실시 예에 따른 히스토그램 분석 방법을 설명하기 위한 도면이다.
도 8은 본 발명의 또 다른 실시 예에 따른 히스토그램 분석 방법을 설명하기 위한 도면이다.
도 9는 본 발명의 또 다른 실시 예에 따른 문자 인식 장치(200)의 개략적인 블록도이다.
도 10a 내지 10c는 본 발명의 또 다른 실시 예에 따른 영상 변환을 설명하기 위한 도면이다.
도 11은 도 9에 도시된 에지 픽셀 판단부(230)를 설명하기 위한 도면이다.
도 12는 도 9에 도시된 히스토그램 분석부(240)를 설명하기 위한 도면이다.
도 13a 내지 13c는 본 발명의 또 다른 실시 예에 따른 영상 변환을 설명하기 위한 도면이다.
도 14는 도 9에 도시된 에지 픽셀 판단부(230)를 설명하기 위한 도면이다.
도 15는 도 9에 도시된 히스토그램 분석부(240)를 설명하기 위한 도면이다.
도 16은 본 발명의 또 다른 실시 예에 따른 영상 분류 방법을 설명하기 위한 흐름도이다.
도 17은 본 발명의 또 다른 실시 예에 따른 문자 인식 방법을 설명하기 위한 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
100: 영상 분류 장치 110,240: 히스토그램 분석부
120, 250: 영상 분류부 111: 정규화부
112: 빈도수 설정부 113: 피크 갯수 판단부
114: 피크 거리 판단부 115: 피크 폭 판단부
200: 문자 인식 장치 210: 에지 검출부
220: 영역 분할부 230: 에지 픽셀 판단부

Claims (27)

  1. 입력 영상을 그레이 레벨의 히스토그램 영상으로 변환하고, 상기 변환한 히스토그램 영상의 특성을 분석하는 단계; 및
    상기 분석 결과를 기초로 상기 입력 영상을 분류하는 단계를 포함하는 히스토그램 분석을 이용한 영상 분류 방법.
  2. 제 1 항에 있어서,
    상기 히스토그램 영상의 특성은,
    상기 히스토그램 영상의 빈도수, 피크 갯수, 피크 거리 및 피크 폭 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 히스토그램 분석을 이용한 영상 분류 방법.
  3. 제 2 항에 있어서,
    상기 분석 단계는,
    상기 히스토그램 영상의 그레이 레벨에 대한 개수를 나타내는 빈도수를 소정의 값으로 설정하는 단계를 더 포함하고,
    상기 분류 단계는,
    상기 설정한 빈도수 이상을 나타내는 피크들의 유무에 따라 상기 입력 영상을 분류하는 것을 특징으로 하는 히스토그램 분석을 이용한 영상 분류 방법.
  4. 제 3 항에 있어서,
    상기 분석 단계는,
    상기 설정한 빈도수 이상을 나타내는 피크들 사이의 갯수를 판단하는 단계를 더 포함하고,
    상기 분류 단계는,
    상기 판단한 피크들 사이의 갯수에 따라 상기 입력 영상을 분류하는 것을 특징으로 하는 히스토그램 분석을 이용한 영상 분류 방법.
  5. 제 4 항에 있어서,
    상기 분석 단계는,
    상기 피크들 사이의 갯수가 1 이상인 경우, 상기 피크들 사이의 거리값에 대한 제1 임계값을 설정하고, 상기 거리 값이 상기 제1 임계값 이상인지를 판단하는 단계를 더 포함하고,
    상기 분류 단계는,
    상기 거리 값이 상기 제1 임계값 이상인지에 따라 상기 입력 영상을 분류하는 것을 특징으로 하는 히스토그램 분석을 이용한 영상 분류 방법.
  6. 제 5 항에 있어서,
    상기 분석 단계는,
    상기 설정한 빈도수를 지나는 그레이 레벨의 갯수를 나타내는 상기 피크 또는 피크들의 폭에 대한 제2 임계값을 설정하고, 상기 피크의 폭 또는 피크들의 폭의 합이 상기 제2 임계값 이하인지를 판단하는 단계를 더 포함하고,
    상기 분류 단계는,
    상기 피크의 폭 또는 상기 피크들의 폭의 합이 상기 제2 임계값 이하인지에 따라 상기 입력 영상을 분류하는 것을 특징으로 하는 히스토그램 분석을 이용한 영상 분류 방법.
  7. 제 6 항에 있어서,
    상기 빈도수, 상기 제1 임계값, 상기 제2 임계값은 상기 입력 영상의 종류에 따라 설정되는 것을 특징으로 하는 히스토그램 분석을 이용한 영상 분류 방법.
  8. 제 2 항에 있어서,
    상기 분석 단계는,
    상기 변환한 히스토그램 영상을 정규화하는 단계를 더 포함하는 것을 특징으로 하는 히스토그램 분석을 이용한 영상 분류 방법.
  9. 제 7 항에 있어서,
    상기 영상의 종류는,
    문자 영상을 포함하는 것을 특징으로 하는 히스토그램 분석을 이용한 영상 분류 방법.
  10. 입력 영상을 그레이 레벨의 히스토그램 영상으로 변환하고, 상기 변환한 히스토그램 영상의 특성을 분석하는 히스토그램 분석부; 및
    상기 분석 결과를 기초로 상기 입력 영상을 분류하는 영상 분류부를 포함하는 히스토그램 분석을 이용한 영상 분류 장치.
  11. 제 10 항에 있어서,
    상기 히스토그램 영상의 특성은,
    상기 히스토그램 영상의 빈도수, 피크 갯수, 피크 거리 및 피크 폭 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 히스토그램 분석을 이용한 영상 분류 장치.
  12. 제 11 항에 있어서,
    상기 히스토그램 분석부는,
    상기 히스토그램 영상의 그레이 레벨에 대한 개수를 나타내는 빈도수를 소정의 값으로 설정하는 빈도수 설정부;
    상기 설정한 빈도수 이상을 나타내는 피크들 사이의 갯수를 판단하는 피크 갯수 판단부;
    상기 피크들 사이의 갯수가 1 이상인 경우, 상기 피크들 사이의 거리값에 대 한 제1 임계값을 설정하고, 상기 거리 값이 상기 제1 임계값 이상인지를 판단하는 단계를 피크 거리 판단부; 및
    상기 설정한 빈도수를 지나는 그레이 레벨의 갯수를 나타내는 상기 피크 또는 피크들의 폭에 대한 제2 임계값을 설정하고, 상기 피크의 폭 또는 피크들의 폭의 합이 상기 제2 임계값 이하인지를 판단하는 피크 폭 판단부를 포함하는 것을 특징으로 하는 히스토그램 분석을 이용한 영상 분류 장치.
  13. 제 12 항에 있어서,
    상기 영상 분류부는,
    상기 설정한 빈도수 이상을 나타내는 피크들의 유무, 상기 판단한 피크들 사이의 갯수, 상기 거리 값이 상기 제1 임계값 이상인지, 상기 피크의 폭 또는 상기 피크들의 폭의 합이 상기 제2 임계값 이하인지 중 적어도 하나 이상에 따라 상기 입력 영상을 분류하는 것을 특징으로 하는 히스토그램 분석을 이용한 영상 분류 장치.
  14. 제 13 항에 있어서,
    상기 빈도수, 상기 제1 임계값 또는 상기 제2 임계값은 상기 입력 영상의 종류에 따라 설정되는 것을 특징으로 하는 히스토그램 분석을 이용한 영상 분류 방법.
  15. 제 12 항에 있어서,
    상기 히스토그램 분석부는,
    상기 변환한 히스토그램 영상을 정규화하는 정규화부를 더 포함하는 것을 특징으로 하는 히스토그램 분석을 이용한 영상 분류 장치.
  16. 제 14 항에 있어서,
    상기 영상의 종류는,
    문자 영상을 포함하는 것을 특징으로 하는 히스토그램 분석을 이용한 영상 분류 장치.
  17. 입력 영상을 그레이 영상으로 변환하고, 그레이 영상으로부터 에지 성분을 포함한 픽셀들을 검출하는 단계;
    상기 그레이 영상을 소정 갯수의 블록으로 영역 분할하는 단계;
    상기 분할한 각각의 블록에 대해, 상기 검출한 픽셀들이 소정 레벨 이상인 에지 픽셀수가 제1 임계값 이상인 블록을 판단하는 단계;
    상기 에지 픽셀수가 상기 제1 임계값 이상인 각각의 블록에 대해, 그레이 영상에 대한 히스토그램 영상의 특성을 분석함으로써 해당 블록이 문자인지를 판단하는 단계; 및
    상기 각각의 블록이 문자인지 판단한 결과를 기초로 상기 입력 영상을 문자 영상으로 인식하는 단계를 포함하는 히스토그램 분석을 이용한 문자 인식 방법.
  18. 제 17 항에 있어서,
    상기 히스토그램 영상의 특성은,
    상기 히스토그램 영상의 빈도수, 피크 갯수, 피크 거리 및 피크 폭 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 히스토그램 분석을 이용한 문자 인식 방법.
  19. 제 17 항에 있어서,
    상기 인식 단계는,
    상기 영역 분할한 전체 블록과 문자라고 판단한 문자 블록의 비율이 제2 임계값 이상인 경우, 상기 입력 영상을 문자 영상으로 인식하는 것을 특징으로 하는 히스토그램 분석을 이용한 문자 인식 방법.
  20. 제 17 항에 있어서,
    상기 인식 단계는,
    상기 영역 분할한 전체 블록과 문자라고 판단한 문자 블록의 비율에 상기 문자 블록의 분산 정도를 나타내는 가중치를 부여한 값이 제3 임계값 이상인 경우, 상기 입력 영상을 문자 영상으로 인식하는 것을 특징으로 하는 히스토그램 분석을 이용한 문자 인식 방법.
  21. 제 20 항에 있어서,
    상기 각각의 블록을 문자로 판단하는 단계는,
    상기 히스토그램 영상의 그레이 레벨에 대한 개수를 나타내는 빈도수를 소정의 값으로 설정하는 단계;
    상기 설정한 빈도수 이상을 나타내는 피크들 사이의 갯수를 판단하는 단계;
    상기 피크들 사이의 갯수가 1 이상인 경우, 상기 피크들 사이의 거리값에 대한 제4 임계값을 설정하고, 상기 거리 값이 상기 제4 임계값 이상인지를 판단하는 단계;
    상기 설정한 빈도수를 지나는 그레이 레벨의 갯수를 나타내는 상기 피크의 폭 또는 피크들의 폭에 대한 제5 임계값을 설정하고, 상기 피크의 폭 또는 상기 피크들의 폭의 합이 상기 제5 임계값 이하인지를 판단하는 단계; 및
    상기 설정한 빈도수 이상을 나타내는 피크들의 유무, 상기 판단한 피크들 사이의 갯수, 상기 거리 값이 상기 제4 임계값 이상인지, 상기 피크의 폭 또는 상기 피크들의 폭의 합이 상기 제5 임계값 이하인지 중 적어도 하나 이상에 따라 해당 블록을 문자로 판단하는 단계를 포함하는 것을 특징으로 하는 히스토그램 분석을 이용한 문자 인식 방법.
  22. 그레이 영상으로부터 에지 성분을 포함한 픽셀을 검출하는 에지 검출부;
    상기 그레이 영상을 소정 갯수의 블록으로 영역 분할하는 영역 분할부;
    상기 분할한 각각의 블록에 대해, 상기 검출한 픽셀들 중 소정 레벨 이상의 에지 픽셀수가 제1 임계값 이상인 블록을 판단하는 에지 픽셀 판단부;
    상기 에지 픽셀수가 상기 제1 임계값 이상인 각각의 블록에 대해, 상기 그레이 영상에 대한 히스토그램 영상의 특성을 분석함으로써 해당 블록이 문자인지 판단하는 히스토그램 분석부; 및
    상기 각각의 블록이 문자인지 판단한 결과를 기초로 상기 입력 영상을 문자 영상으로 인식하는 문자 인식부를 포함하는 히스토그램 분석을 이용한 문자 인식 장치.
  23. 제 22 항에 있어서,
    상기 히스토그램 영상의 특성은,
    상기 히스토그램 영상의 빈도수, 피크 갯수, 피크 거리 및 피크 폭 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 히스토그램 분석을 이용한 문자 인식 장치.
  24. 제 22 항에 있어서,
    상기 문자 인식부는,
    상기 영역 분할한 전체 블록과 문자라고 판단한 문자 블록의 비율이 제2 임계값 이상인 경우, 상기 입력 영상을 문자 영상으로 인식하는 것을 특징으로 하는 히스토그램 분석을 이용한 문자 인식 장치.
  25. 제 22 항에 있어서,
    상기 문자 인식부는,
    상기 영역 분할한 전체 블록과 문자라고 판단한 문자 블록의 비율에 상기 문자 블록의 분산 정도를 나타내는 가중치를 부여한 값이 제3 임계값 이상인 경우, 상기 입력 영상을 문자 영상으로 인식하는 것을 특징으로 하는 히스토그램 분석을 이용한 문자 인식 장치.
  26. 제 23 항에 있어서,
    상기 히스토그램 분석부는,
    상기 히스토그램 영상의 그레이 레벨에 대한 개수를 나타내는 빈도수를 소정의 값으로 설정하는 빈도수 설정부;
    상기 설정한 빈도수 이상을 나타내는 피크들 사이의 갯수를 판단하는 피크 갯수 판단부;
    상기 피크들 사이의 갯수가 1 이상인 경우, 상기 피크들 사이의 거리값에 대한 제4 임계값을 설정하고, 상기 거리 값이 상기 제4 임계값 이상인지를 판단하는 단계를 피크 거리 판단부; 및
    상기 설정한 빈도수를 지나는 그레이 레벨의 갯수를 나타내는 상기 피크의 폭 또는 상기 피크들의 폭에 대한 제5 임계값을 설정하고, 상기 피크의 폭 또는 상기 피크들의 폭의 합이 상기 제5 임계값 이하인지를 판단하는 피크 폭 판단부; 및
    상기 설정한 빈도수 이상을 나타내는 피크들의 유무, 상기 판단한 피크들 사 이의 갯수, 상기 거리 값이 상기 제4 임계값 이상인지, 상기 피크의 폭 또는 상기 피크들의 폭의 합이 상기 제5 임계값 이하인지 중 적어도 하나 이상에 따라 해당 블록을 문자로 판단하는 영상 분류부를 포함하는 것을 특징으로 하는 히스토그램 분석을 이용한 문자 인식 장치.
  27. 제 1 항 내지 제 9 항, 제 17 항 내지 제 21 항 중 어느 한 항에 따른 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 기록매체.
KR1020090017764A 2009-03-02 2009-03-02 히스토그램 분석을 이용한 영상 분류 방법 및 장치, 이를 이용한 문자 인식 방법 및 장치 KR101566196B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020090017764A KR101566196B1 (ko) 2009-03-02 2009-03-02 히스토그램 분석을 이용한 영상 분류 방법 및 장치, 이를 이용한 문자 인식 방법 및 장치
US12/715,459 US8774514B2 (en) 2009-03-02 2010-03-02 Method of and apparatus for classifying image using histogram analysis, and method of and apparatus for recognizing text image using the histogram analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090017764A KR101566196B1 (ko) 2009-03-02 2009-03-02 히스토그램 분석을 이용한 영상 분류 방법 및 장치, 이를 이용한 문자 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20100099005A true KR20100099005A (ko) 2010-09-10
KR101566196B1 KR101566196B1 (ko) 2015-11-05

Family

ID=42667123

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090017764A KR101566196B1 (ko) 2009-03-02 2009-03-02 히스토그램 분석을 이용한 영상 분류 방법 및 장치, 이를 이용한 문자 인식 방법 및 장치

Country Status (2)

Country Link
US (1) US8774514B2 (ko)
KR (1) KR101566196B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150064931A (ko) * 2013-12-04 2015-06-12 엘지전자 주식회사 디스플레이 장치 및 그 동작 방법
US9779294B2 (en) 2014-12-31 2017-10-03 Xiaomi Inc. Methods and devices for classifying pictures
US9865267B2 (en) 2015-06-30 2018-01-09 Baidu Online Network Technology (Beijing) Co., Ltd. Communication method, apparatus and system based on voiceprint
KR102252286B1 (ko) 2020-02-21 2021-05-14 주식회사 더방픽 이미지형 문서의 변화 감지 및 인식 장치 및 방법
KR20230027652A (ko) * 2021-08-19 2023-02-28 부경대학교 산학협력단 히스토그램을 이용한 3차원 필름 영상 분류 장치 및 방법

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5796392B2 (ja) * 2011-07-29 2015-10-21 ブラザー工業株式会社 画像処理装置、および、コンピュータプラグラム
JP5776419B2 (ja) * 2011-07-29 2015-09-09 ブラザー工業株式会社 画像処理装置、画像処理プラグラム
KR101450949B1 (ko) * 2011-10-04 2014-10-16 엘지디스플레이 주식회사 유기발광 표시장치
US9251144B2 (en) * 2011-10-19 2016-02-02 Microsoft Technology Licensing, Llc Translating language characters in media content
JP5974589B2 (ja) * 2012-03-30 2016-08-23 ブラザー工業株式会社 画像処理装置およびプログラム
JP5874497B2 (ja) * 2012-03-30 2016-03-02 ブラザー工業株式会社 画像処理装置および画像処理プログラム
JP5958023B2 (ja) 2012-03-30 2016-07-27 ブラザー工業株式会社 画像処理装置および画像処理プログラム
JP5935454B2 (ja) * 2012-03-30 2016-06-15 ブラザー工業株式会社 画像処理装置および画像処理プログラム
CN103366170B (zh) * 2012-04-02 2018-02-06 周口师范学院 图像二值化处理装置及其方法
US8855430B1 (en) 2012-05-30 2014-10-07 Google Inc. Refining image annotations
KR102008912B1 (ko) 2013-04-22 2019-08-09 삼성디스플레이 주식회사 표시 장치 및 그 구동 방법
US9696950B2 (en) 2013-07-30 2017-07-04 Hewlett-Packard Development Company, L.P. Analysing image content
US9329692B2 (en) 2013-09-27 2016-05-03 Microsoft Technology Licensing, Llc Actionable content displayed on a touch screen
CN104615656B (zh) * 2014-12-31 2018-07-31 小米科技有限责任公司 图片分类方法及装置
US9704066B2 (en) 2015-03-20 2017-07-11 Microsoft Technology Licensing, Llc Multi-stage image classification
US9807339B2 (en) * 2015-06-12 2017-10-31 Sharp Laboratories Of America, Inc. Frame rate conversion system
US10372981B1 (en) * 2015-09-23 2019-08-06 Evernote Corporation Fast identification of text intensive pages from photographs
US10178280B2 (en) * 2017-03-29 2019-01-08 Xerox Corporation Paper type dependent automatic background suppression
US10599945B2 (en) 2017-08-15 2020-03-24 International Business Machines Corporation Image cataloger based on gridded color histogram analysis
CN110705546B (zh) * 2019-09-06 2023-12-19 平安科技(深圳)有限公司 文本图像角度纠偏方法、装置及计算机可读存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5546474A (en) * 1993-12-21 1996-08-13 Hewlett-Packard Company Detection of photo regions in digital images
US5883973A (en) * 1996-02-20 1999-03-16 Seiko Epson Corporation Method and apparatus for processing a document by segmentation into text and image areas
US6694051B1 (en) * 1998-06-24 2004-02-17 Canon Kabushiki Kaisha Image processing method, image processing apparatus and recording medium
US6625312B1 (en) * 2000-02-28 2003-09-23 Xerox Corporation Document classification using segmentation tag statistics
JP4167097B2 (ja) * 2003-03-17 2008-10-15 株式会社沖データ 画像処理方法および画像処理装置
JP2005073015A (ja) * 2003-08-26 2005-03-17 Canon Inc 画像処理装置及び画像処理方法及びコンピュータプログラム
JP2005135210A (ja) 2003-10-31 2005-05-26 Hitachi Ltd 文字認識機能を有する携帯機器
KR100537520B1 (ko) * 2004-02-18 2005-12-19 삼성전자주식회사 동영상의 자막 검출 방법 및 장치
JP4135656B2 (ja) 2004-02-20 2008-08-20 コニカミノルタビジネステクノロジーズ株式会社 画像領域判定方法、画像処理装置およびプログラム
JP4501696B2 (ja) 2005-01-20 2010-07-14 富士ゼロックス株式会社 画像処理装置及びプログラム
US7433516B2 (en) * 2005-03-02 2008-10-07 Primax Electronics Ltd. Method of extracting a textual area in a digital image
KR101128185B1 (ko) 2005-04-01 2012-03-23 엘지전자 주식회사 카메라 폰에서의 문자 인식 장치 및 방법
US7586653B2 (en) * 2005-04-22 2009-09-08 Lexmark International, Inc. Method and system for enhancing an image using luminance scaling
JP4618185B2 (ja) * 2006-04-07 2011-01-26 富士ゼロックス株式会社 故障診断システム及び故障診断プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150064931A (ko) * 2013-12-04 2015-06-12 엘지전자 주식회사 디스플레이 장치 및 그 동작 방법
US9779294B2 (en) 2014-12-31 2017-10-03 Xiaomi Inc. Methods and devices for classifying pictures
US9865267B2 (en) 2015-06-30 2018-01-09 Baidu Online Network Technology (Beijing) Co., Ltd. Communication method, apparatus and system based on voiceprint
KR102252286B1 (ko) 2020-02-21 2021-05-14 주식회사 더방픽 이미지형 문서의 변화 감지 및 인식 장치 및 방법
KR20230027652A (ko) * 2021-08-19 2023-02-28 부경대학교 산학협력단 히스토그램을 이용한 3차원 필름 영상 분류 장치 및 방법

Also Published As

Publication number Publication date
US20100220927A1 (en) 2010-09-02
US8774514B2 (en) 2014-07-08
KR101566196B1 (ko) 2015-11-05

Similar Documents

Publication Publication Date Title
KR20100099005A (ko) 히스토그램 분석을 이용한 영상 분류 방법 및 장치, 이를 이용한 문자 인식 방법 및 장치
JP5050075B2 (ja) 画像判別方法
KR100745753B1 (ko) 영상의 문자 영역 검출장치 및 방법
Shivakumara et al. New Fourier-statistical features in RGB space for video text detection
US8867828B2 (en) Text region detection system and method
JP5775225B2 (ja) マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出
KR20040010540A (ko) 영상들내의 관심있는 영역들을 결정하고 영상 전송을 하기위한 방법 및 장치
Aggarwal et al. A robust method to authenticate car license plates using segmentation and ROI based approach
Li et al. Automatic text location in natural scene images
US9667880B2 (en) Activating flash for capturing images with text
KR20150092546A (ko) 무해 프레임 필터 및 이를 포함하는 유해 영상 차단 장치, 무해 프레임을 필터링하는 방법
Xue et al. Curved text detection in blurred/non-blurred video/scene images
Qin et al. Traffic sign segmentation and recognition in scene images
Raghunandan et al. New sharpness features for image type classification based on textual information
Dhar et al. Bangladeshi license plate recognition using adaboost classifier
Jain et al. A hybrid approach for detection and recognition of traffic text sign using MSER and OCR
Grover et al. Text extraction from document images using edge information
Lue et al. A novel character segmentation method for text images captured by cameras
Arai et al. Text extraction from TV commercial using blob extraction method
KR20140112869A (ko) 문자 인식 장치 및 방법
CN113989481A (zh) 一种合同文本图像印章检测和去除方法
JP2017228297A (ja) テキスト検出方法および装置
Yang et al. Text detection in video images using adaptive edge detection and stroke width verification
KR20190143525A (ko) 에이다부스트 학습을 이용한 문자 데이터 검출 방법
Zhu et al. Robust text segmentation in low quality images via adaptive stroke width estimation and stroke based superpixel grouping

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20180921

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190927

Year of fee payment: 5