KR20160148563A - 가버 함수를 이용한 패턴 인식 시스템 및 방법 - Google Patents

가버 함수를 이용한 패턴 인식 시스템 및 방법 Download PDF

Info

Publication number
KR20160148563A
KR20160148563A KR1020167030903A KR20167030903A KR20160148563A KR 20160148563 A KR20160148563 A KR 20160148563A KR 1020167030903 A KR1020167030903 A KR 1020167030903A KR 20167030903 A KR20167030903 A KR 20167030903A KR 20160148563 A KR20160148563 A KR 20160148563A
Authority
KR
South Korea
Prior art keywords
matrix
vector
image
function
normalized
Prior art date
Application number
KR1020167030903A
Other languages
English (en)
Other versions
KR102268174B1 (ko
Inventor
프레데릭 콜렛
조르디 오또뜨
미셀 다우
뮐레내어 삐에르 드
올리비에 뒤퐁
군터 헨스게
Original Assignee
아이.알.아이.에스.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아이.알.아이.에스. filed Critical 아이.알.아이.에스.
Publication of KR20160148563A publication Critical patent/KR20160148563A/ko
Application granted granted Critical
Publication of KR102268174B1 publication Critical patent/KR102268174B1/ko

Links

Images

Classifications

    • G06K9/0053
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F17/2765
    • G06F17/30247
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2136Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06K9/00503
    • G06K9/00536
    • G06K9/46
    • G06K9/4614
    • G06K9/4619
    • G06K9/4623
    • G06K9/6249
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/446Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • G06F2218/10Feature extraction by analysing the shape of a waveform, e.g. extracting parameters relating to peaks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06K2209/01
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

이미지 벡터를 희소 행렬과 곱함으로써 특징 벡터를 생성하는 패턴 인식 시스템 및 방법. 상기 희소 행렬은 가우스 함수에 의해 곱해진 사인파인 가버 함수로부터 생성된다. 이러한 가버 함수는 사인파의 방향과 관련된 파라미터, 가버 함수의 중심과 관련된 파라미터, 및 사인파의 파장과 관련된 파라미터를 포함하는 파라미터의 세트의 함수이다. 상기 파장은 제1 파장 값이 가버 함수의 2개의 인접한 중심 사이의 거리 보다 낮거나 거의 같고 제1 파장 값이 제2 파장 값 보다 낮고 이러한 제2 파장 값의 절반 보다 높거나 거의 같은, 적어도 2개의 값을 취한다.

Description

가버 함수를 이용한 패턴 인식 시스템 및 방법{PATTERN RECOGNITION SYSTEM AND METHOD USING GABOR FUNCTIONS}
본 발명은 패턴 인식 시스템에 관한 것이다. 보다 구체적으로, 본 발명은 가버 함수(Gabor function)를 이용한 패턴 인식 시스템에 관한 것이다.
패턴 인식 시스템은 광학 문자 인식(OCR) 시스템일 수 있다. OCR 시스템이 알려져 있다. 이들은 문자 인식 프로세스를 사용함으로써 텍스트의 이미지를 기계 판독가능 코드로 전환한다. OCR 시스템에서, 문자일 수도 있는 이미지가 격리되고 문자 인식 프로세스가 사용되어 문자를 식별한다.
알려진 광학 문자 인식 프로세스는 일반적으로 다음을 포함한다.
- 입력 이미지로부터 정규화된 행렬을 생성하는 정규화 단계;
- 특징 추출 단계; 및
- 문자를 식별하는 분류 단계.
이러한 특징 추출 단계는 입력 이미지를 특성화하는 특징 벡터를 생성하고 분류 단계는 이러한 특징 벡터로부터 시작하는 문자를 식별한다. 일부 OCR 프로세스에서, 이러한 특징 추출 단계는 가버 필터로 여과하는 단계를 포함한다. 이러한 가버 필터의 선택은 OCR 프로세스의 핵심인데, 그 이유는 가버 필터가 문자를 식별하는 특징 벡터를 결정하기 때문이다. 이러한 특징 벡터는 높은 정확도로 문자를 식별하기 위해 필요 정보를 포함해야 한다. 너무 많은 특징 벡터는 계산이 느려지게 하고 너무 작은 특징 벡터는 문자 식별의 정확도를 감소시킨다. 가버 필터를 사용하는 공지된 OCR 프로세스는 너무 느리거나 너무 낮은 정확도를 갖고 있다. 이것은 특히 아시아 문자의 식별과 관련되어 있는데 그 이유는 극히 많은 수의 아시아 문자 때문이다. 공지된 가버 필터의 다른 단점은 이들이 후속 분류 단계와 함께 충분히 작동하지 않는다는 것이다.
US7174044B2는 문자의 특정 방향의 정보를 추출하는 가버 필터에 기초한 문자 인식을 위한 공지된 방법을 개시하고 있다. 이러한 방법은 가버 필터의 영역에 대한 평균을 사용하고 많은 계산량 및 많은 특징 벡터를 수반한다. 이로 인해 이러한 방법을 사용하는 OCR 프로세스가 너무 느려진다.
Qiang Huo, Yong Ge와 Zhi-Dan Feng in the Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, 2001 , Volume 3으로부터의 논문 "High performance Chinese OCR based on Gabor features, discriminative feature extraction and model training"은 한자를 위한 공지된 OCR 프로세스를 기술하고 있다. 이러한 방법은 빠르지만 인식 정확도가 극히 높지 않다.
Shanghai Jiaotong University의 DaiWei로부터의 "Chinese OCR System Based on Gabor Features and SVM"로 불리는 논문은 다른 OCR 프로세스를 기술하고 있다. SVM은 데이터 분석을 위한 연관 학습 알고리즘 및 인식 알고리즘을 사용하는 수퍼바이즈 학습 모델인 "서포트 벡터 머신"을 의미한다. 이러한 SVM 시스템은 비현실적 또는 부정확하게 되도록 하는 매우 큰 학습 세트를 필요로 한다.
본 발명의 목표는 빠르고 정확한 패턴 식별을 제공하는 패턴 인식 방법을 제공하는 것이다.
본 발명의 다른 목표는 상기 패턴 인식 시스템을 실행하기 위한 컴퓨터 프로그램 제품을 제공하는 것이다.
이러한 목표는 본 발명의 실시예에 따라 달성된다.
실시예에서, 입력 이미지에서 패턴을 식별하기 위한 방법은,
a) 상기 입력 이미지를 정규 이미지를 나타내는 정규화된 행렬로 정규화하는 단계,
b) 상기 정규화된 행렬로부터 이미지 벡터를 생성하는 단계,
c) 특징 벡터를 생성하기 위해 행렬 벡터 곱셈을 사용하여 상기 이미지 벡터를 희소 행렬과 곱하는 단계로서, 상기 희소 행렬은 가우스 함수에 의해 곱해진 사인파인 가버 함수로부터 생성되고 상기 가버 함수는 상기 정규화된 행렬 내의 위치를 나타내는 적어도 하나의 변수 및, 상기 사인파의 방향과 관련된 파라미터, 상기 가버 함수의 중심과 관련된 파라미터, 및 상기 사인파의 파장과 관련된 파라미터를 포함하는 파라미터의 세트의 함수인 단계,
d) 상기 특징 벡터에 의해 모델의 사전결정된 리스트를 위한 확률의 밀도를 생성하는 단계,
e) 최고 확률의 밀도를 가진 모델을 최상의 모델로서 선택하는 단계, 및
f) 상기 최상의 모델을 상기 입력 이미지의 패턴으로서 분류하는 단계를 포함하고,
적어도 2개의 가버 함수의 중심이 존재하고,
상기 파장은 제1 파장 값이 상기 가버 함수의 2개의 인접한 중심 사이의 거리 보다 낮거나 거의 동일한 적어도 2개의 값을 취하고, 상기 제1 파장 값은 제2 파장 값 보다 낮고 상기 제2 파장 값의 절반 보다 높거나 거의 동일하다.
이러한 단계의 조합에 의해 빠르고 정확한 패턴 인식 방법을 얻을 수 있다는 것을 발견하였다. 특히, 단계 c)에서 생성된 특징 벡터가 패턴 인식을 정확하게 할 만큼 충분히 크고 패턴 인식 방법의 계산을 빠르게 할 만큼 작기 때문이다. 또한, 보다 짧은 것이 2개의 가버 함수 중심 사이의 거리의 절반 보다 높거나 동일하고 2개의 가버 함수 중심 사이의 거리 보다 낮거나 동일한 2개의 파장을 선택하는 것은 파장의 수(그래서 특징 벡터의 크기)를 낮게 유지하면서 특징 벡터를 경미하게 중복되도록 하는데 유리한 균형이다. 이러한 특징 벡터의 중복성에 의해 문자는 특징 벡터의 주어진 요소의 값이 손상되었을지라도 여전히 인식될 수 있다.
본 발명의 실시예에서, 상기 모델은 공분산 행렬 및 평균 벡터에 의해 특징지어지고, 상기 확률의 밀도는 아래의 공식
Figure pct00001
에 의해 계산되고,
상기 심볼 r은 상기 특징 벡터를 나타내고, 심볼 Σ는 공분산 행렬을 나타내고, 심볼 μ는 평균 벡터를 나타내고 k는 상기 특징 벡터의 요소의 수이다.
다른 실시예에서, 공분산 행렬이 근사화된다. 실시예에서, 모든 모델의 공분산 행렬의 트레이스는 동일하다.
실시예에서, 공분산 행렬의 모든 비대각선(non-diagonal) 원소는 제로 설정되어 있다. 이러한 공분산 행렬 및 평균 벡터에 의한 모델의 특징화 및 이러한 공식에 의한 확률의 밀도의 계산은 상술된 방법과 함께 패턴 인식을 정확하게 하고 특히 빠르게 한다.
본 발명의 실시예에서, 사인파의 방향과 관련된 파라미터는 상기 사인파의 가능한 방향 사이의 각도가 거의 동일하도록 되어 있다.
본 발명의 실시예에서, 상기 사인파의 방향과 관련된 파라미터는 각도이다. 다른 실시예에서, 이러한 각도의 최고값과 최저값의 합은 π 라디안이다. 실시예에서, 이러한 각도는 6개의 값을 취한다.
상기 사인파의 방향과 관련된 파라미터에 대한 값의 선택은 정규화된 이미지의 충분한 각도 샘플링을 달성하고 특징 벡터의 크기를 이러한 방법의 고속 계산을 얻을 만큼 충분히 작게 유지하는 양호한 균형을 제공한다.
본 발명의 다른 실시예에서, 가버 함수는 상기 가버 함수의 중심과 관련된 적어도 2개의 파라미터의 함수이고, 실시예에서, 상기 가버 함수의 중심과 관련된 파라미터는 상기 가버 함수의 중심이 규칙적으로 이격되도록 되어 있다.
본 발명의 실시예에서, 가버 함수의 중심과 관련된 하나의 파라미터는 정규화된 행렬에서 수직 방향에 상응하고 이러한 가버 함수의 중심과 관련된 하나의 파라미터는 정규화된 행렬에서 수평 방향에 상응할 수 있다. 실시예에서, 정규화된 행렬의 에지로의 가버 함수의 제1 중심의 거리는 가버 함수의 2개의 인접한 중심 사이의 거리의 절반과 거의 동일할 수 있다.
이러한 가버 함수의 중심의 선택은 정규화된 이미지의 양호한 샘플링을 제공하고 특징 벡터의 크기를 이러한 방법의 고속 계산을 얻을 만큼 충분히 작게 유지한다.
본 발명에 따른 다르 실시예에서, 이러한 가버 함수는 가우스 함수의 표준 편차일 수 있는, 가우스 함수의 폭과 관련된 파라미터를 포함하고 있다. 실시예에서, 가우스 함수의 표준 편차는 가버 함수의 2개의 인접한 중심 사이의 거리 보다 낮고 가버 함수의 2개의 인접한 중심 사이의 거리의 절반 보다 높다. 이러한 가우스 함수의 폭의 선택은 정규화된 이미지의 양호한 샘플링을 제공하고 특징 벡터의 크기를 이러한 방법의 고속 계산을 얻을 만큼 충분히 작게 유지한다.
본 발명에 따른 실시예에서, 패턴은 2-컬러 패턴, 문자, 아시아 문자, 문자의 그룹, 로고, 그림, 디자인, 일련의 사운드, 일련의 필름 또는 3차원 패턴이다.
본 발명에 따른 다른 실시예에서, 정규화된 행렬은 정규화된 행렬의 각각의 원소가 정규화된 이미지 상의 위치에 상응하는 정규화된 이미지를 나타낸다. 이러한 정규화된 이미지는 식별할 패턴을 포함하고 이러한 정규화된 행렬은 정규화된 이미지를 나타내는 수학적 대상이다. 이러한 정규화된 행렬은 패턴의 식별을 가능하게 하는 정규화된 이미지의 특징을 추출하기 위해 수학적 방법에 의해 처리될 수 있다.
본 발명에 따른 실시예에서, 상기 입력 이미지를 정규화된 행렬로 정규화하는 단계는 스케일링, 임계화, 스무딩, 보간, 및 필터링을 포함하고, 상기 정규화된 행렬에 상응하는 정규화된 이미지는 사전결정된 포맷을 갖고 있다. 상기 입력 이미지를 정규화된 행렬로 정규화하는 단계는 식별할 패턴을 갖는 입력 이미지를 가공가능한 포맷으로 전환한다. 이러한 가공가능한 포맷은 특정 특징을 갖는 행렬이다. 이러한 특정 특징은 정규화된 행렬이 2진수이고, 정규화된 이미지에서, 주어진 컬러의 픽셀을 나타내는 값의 중심으로부터의 거리의 표준 편차가 일정하도록 할 수 있다.
본 발명에 따른 실시예에서, 이미지 벡터의 요소는 정규화된 행렬의 원소와 같다. 정규화된 행렬을 이미지 벡터로 변환하는 단계에서, 이미지 벡터의 요소는 보통 정규화된 행렬의 원소와 동일하다. 본 발명의 실시예에서, 정규화된 행렬의 원소가 2진수이기 때문에, 이미지 벡터의 요소는 2진수일 수 있다.
본 발명에 따른 실시예에서, 정규화된 행렬의 원소에 대한 정보는 특징 벡터에서 중복성을 갖는다. 이러한 중복성은 패턴 식별의 정확도를 향상시키고 파라미터의 선택에 의해, 특히, 본 발명의 실시예에서, 보다 짧은 파장이 2개의 인접한 중심 사이의 거리 보다 짧고 보다 긴 파장이 2개의 인접한 중심 사이의 거리 보다 길다는 사실에 의해 달성될 수 있다.
본 발명의 실시예에서, 이러한 특징 벡터는 근사화된다. 이것은 패턴 식별 방법의 계산 속도를 증가시킬 수도 있다. 중요한 점은 패턴의 식별의 정확도이고, 특징 벡터의 정확도는 덜 중요하다.
본 발명에 따른 실시예에서, 정규화된 행렬은 64x64 행렬이고, 이미지 벡터는 4096개의 요소를 갖고 있고, 희소 행렬은 300x4096 행렬이고, 공분산 행렬은 300x300 행렬이고, 평균 벡터는 300개의 요소를 갖고 있고, 특징 벡터는 300개의 요소를 갖고 있고, 사인파의 방향과 관련된 각도는 0, 0.523598, 1.0472, 1.5708, 2.09439 및 2.61799 라디안의 값을 취하고, 가버 함수의 중심은 (6,6), (6,18), (6,30), (6,42), (6,54), (18,6), (18,18), (18,30), (18,42), (18,54), (30,6), (30,18), (30,30), (30,42), (30,54), (42,6), (42,18), (42,30), (42,42), (42,54), (54,6), (54,18), (54,30), (54,42), (54,54) 위치에 위치되어 있고, 제1 파장 값은 11이고, 제2 파장 값은 22이고, 가버 함수의 표준 편차는 8이다. 이러한 실시예는 매우 양호한 정확도를 제공하는 것으로 발견되었고 상응하는 계산은 빠르다.
본 발명의 다른 실시예에서, 컴퓨터 프로그램 제품은 컴퓨팅 장치가 입력 이미지에서 패턴을 식별하도록 하기 위한 컨트롤 로직을 갖는 비임시 컴퓨터 판독가능 매체를 포함한다. 상기 컨트롤 로직은,
a) 상기 입력 이미지를 정규화된 이미지를 나타내는 정규화된 행렬로 정규화하기 위한 제1 컴퓨터 판독가능 프로그램 코드 수단,
b) 상기 정규화된 행렬로부터 이미지 벡터를 생성하기 위한 제2 컴퓨터 판독가능 프로그램 코드 수단,
c) 특징 벡터를 생성하기 위해 행렬 벡터 곱셈을 사용하여 상기 이미지 벡터를 희소 행렬과 곱하기 위한 제3 컴퓨터 판독가능 프로그램 코드 수단으로서, 상기 희소 행렬은 가우스 함수에 의해 곱해진 사인파인 가버 함수로부터 생성되고 상기 가버 함수는 상기 정규화된 행렬 내의 위치를 나타내는 적어도 하나의 변수 및, 상기 사인파의 방향과 관련된 파라미터, 상기 가버 함수의 중심과 관련된 파라미터, 및 상기 사인파의 파장과 관련된 파라미터를 포함하는 파라미터의 세트의 함수인 제3 컴퓨터 판독가능 프로그램 코드 수단,
d) 상기 특징 벡터에 의해 모델의 사전결정된 리스트를 위한 확률의 밀도를 생성하기 위한 제4 컴퓨터 판독가능 프로그램 코드 수단,
e) 최고 확률의 밀도를 가진 모델을 최상의 모델로서 선택하기 위한 제5 컴퓨터 판독가능 프로그램 코드 수단, 및
f) 상기 최상의 모델을 상기 입력 이미지의 패턴으로서 분류하기 위한 제6 컴퓨터 판독가능 프로그램 코드 수단을 포함하고,
적어도 2개의 가버 함수의 중심이 존재하고,
상기 파장은 제1 파장 값이 상기 가버 함수의 2개의 인접한 중심 사이의 거리 보다 낮거나 거의 동일한 적어도 2개의 값을 취하고, 상기 제1 파장 값은 제2 파장 값 보다 낮고 상기 제2 파장 값의 절반 보다 높거나 거의 동일하다.
본 발명의 실시예에서, 입력 이미지에서 패턴을 식별하기 위한 방법은,
a) 상기 입력 이미지를 정규화된 이미지를 나타내는 정규화된 행렬로 정규화하는 단계,
b) 가버 함수에 의해 상기 정규화된 행렬로부터 특징 벡터를 생성하는 단계로서, 상기 가버 함수는 가우스 함수에 의해 곱해진 사인파이고, 정규화된 이미지 상의 위치와 관련된 적어도 하나의 변수 및, 사인파의 방향과 관련된 파라미터, 가버 함수의 중심과 관련된 적어도 하나의 파라미터, 및 사인파의 파장과 관련된 파라미터를 포함하는 파라미터의 세트에 의존하는 단계,
c) 상기 특징 벡터 및 모델(108)의 사전결정된 리스트로부터 각각의 모델의 확률의 밀도를 생성하는 단계,
d) 최고 확률의 밀도를 가진 모델을 입력 이미지의 패턴으로서 식별하는 단계를 포함하고,
적어도 2개의 가버 함수의 중심이 존재하고, 상기 파장은,
a. 적어도 하나의 값의 제1 세트가 가버 함수의 2개의 인접한 중심 사이의 거리 보다 낮거나 거의 동일하고,
b. 적어도 하나의 값의 제1 세트가 적어도 하나의 값의 제2 세트의 값의 절반 보다 높거나 거의 동일한,
적어도 하나의 값의 제1 세트 및 적어도 하나의 제2 세트의 값을 취한다.
이러한 단계의 조합에 의해, 빠르고 정확한 패턴 인식 방법을 얻을 수 있다는 것이 발견되었다. 특히, 먼저, 단계 c)에서 생성된 특징 벡터는 패턴 인식을 정확하게 하기에 충분히 크고 패턴 인식 방법의 계산이 빠르게 할 만큼 충분히 작다. 또한, 보다 짧은 것이 2개의 가버 함수 중심 사이의 거리의 절반 보다 높거나 동일하고 이러한 거리 보다 낮거나 동일한 2개의 파장을 선택하는 것은 파장의 수(그래서 특징 벡터의 크기)를 낮게 유지하면서 특징 벡터를 경미하게 중복성을 갖도록 하는 양호한 균형이다.
본 발명의 실시예에서, 상기 모델은 공분산 행렬 및 평균 벡터에 의해 특징지어진다. 상기 확률의 밀도는 아래의 공식
Figure pct00002
에 의해 계산되고,
상기 심볼 r은 상기 특징 벡터를 나타내고, 심볼 Σ는 공분산 행렬을 나타내고, 심볼 μ는 평균 벡터를 나타내고 k는 상기 특징 벡터의 요소의 수이다. 본 발명의 실시예에서, 공분산 행렬의 모든 비대각선 원소는 제로로 설정될 수 있고, 공분산 행렬은 근사화될 수 있고, 모든 모델의 공분산 행렬의 트레이스는 동일할 수 있다. 이러한 공분산 행렬 및 평균 벡터에 의한 모델의 특징화 및 이러한 공식에 의한 확률의 밀도의 계산은 상술된 방법과 함께 패턴 인식을 특별히 빠르고 정확하게 한다는 것을 발견하였다.
본 발명에 따른 실시예에서, 사인파의 방향과 관련된 파라미터는 사인파의 가능한 방향 사이의 각도가 거의 동일하도록 되어 있다.
본 발명에 따른 실시예에서, 사인파의 방향과 관련된 파라미터는 각도이고 그 최고 값과 그 최저 값의 합은 π 라디안이다. 이러한 각도는 6개의 값을 취할 수 있다. 이러한 사인파의 방향과 관련된 파라미터를 위한 값의 선택은 정규화된 이미지의 충분한 각도 샘플링을 달성하고 특징 벡터의 크기를 이러한 방법의 고속 계산을 얻도록 충분히 작게 유지하는 양호한 균형을 제공한다.
본 발명에 따른 실시예에서, 적어도 2개의 파라미터는 가버 함수의 중심과 관련되어 있고, 가버 함수의 중심이 규칙적으로 이격되도록 될 수 있다. 가버 함수의 중심과 관련된 하나의 파라미터는 정규화된 행렬의 수직 방향에 해당하고 가버 함수의 중심과 관련된 하나의 파라미터는 정규화된 행렬의 수평 방향에 해당할 수 있다. 가버 함수의 제1 중심의 정규화된 행렬의 에지까지의 거리는 가버 함수의 2개의 인접한 중심 사이의 거리의 절반과 거의 동일할 수 있다. 이러한 가버 함수의 중심의 선택은 정규화된 이미지의 양호한 샘플링을 제공하고 특징 벡터의 크기를 이러한 방법의 고속 계산을 얻도록 충분히 작게 유지한다.
본 발명에 따른 실시예에서, 파라미터는 가우스 함수의 표준 편차일 수 있는, 가우스 함수의 폭과 관련되어 있다. 이러한 가우스 함수의 표준 편차는 가버 함수의 2개의 인접한 중심 사이의 거리 보다 낮을 수 있고 가버 함수의 2개의 인접한 함수 사이의 거리의 절반 보다 높을 수 있다. 이러한 가우스 함수의 폭의 선택은 정규화된 이미지의 양호한 샘플링을 제공하고, 특징 벡터가 경미한 중복성을 갖도록 하고 특징 벡터의 크기를 이러한 방법의 고속 계산을 얻도록 충분히 작게 유지한다.
본 발명에 따른 실시예에서, 패턴은 2-컬러 패턴, 문자, 아시아 문자, 문자의 그룹, 로고, 그림, 디자인, 일련의 사운드, 일련의 필름 또는 3차원 패턴이다.
본 발명에 따른 실시예에서, 정규화된 행렬은 정규화된 행렬의 각각의 원소가 정규화된 이미지 상의 위치에 상응하는 정규화된 이미지를 나타낸다. 이러한 정규화된 이미지는 식별할 패턴을 포함하고 정규화된 행렬은 정규화된 이미지를 나타내는 수학적 대상이다. 이러한 정규화된 행렬은 패턴의 식별을 가능하게 하는 정규화된 이미지의 특징을 추출하기 위해 수학적 방법에 의해 처리될 수 있다.
본 발명에 따른 실시예에서, 상기 입력 이미지를 정규화된 행렬로 정규화하는 단계는 스케일링, 임계화, 스무딩, 보간, 및 필터링을 포함하고, 상기 정규화된 행렬에 상응하는 정규화된 이미지는 사전결정된 포맷을 갖고 있다. 상기 입력 이미지를 정규화된 행렬로 정규화하는 단계는 식별할 패턴을 갖는 입력 이미지를 가공가능한 포맷으로 전환한다. 이러한 가공가능한 포맷은 특정 특징을 갖는 행렬이다. 이러한 특정 특징은 정규화된 행렬이 2진수이고, 정규화된 이미지에서, 주어진 컬러의 픽셀을 나타내는 값의 중심으로부터 거리의 표준 편차가 일정한 것일 수 있다.
본 발명에 따른 실시예에서, 이미지 벡터의 요소는 정규화된 행렬의 원소와 같다. 정규화된 행렬을 이미지 벡터로 변환하는 단계에서, 이미지 벡터의 요소는 보통 정규화된 행렬의 원소와 동일하다. 본 발명의 실시예에서, 정규화된 행렬의 원소가 2진수이기 때문에, 이미지 벡터의 요소는 2진수일 수 있다.
본 발명에 따른 실시예에서, 정규화된 행렬의 원소에 대한 정보는 특징 벡터에서 중복성을 갖는다. 이러한 중복성은 패턴 식별의 정확도를 향상시키고 파라미터의 선택에 의해, 특히, 본 발명의 실시예에서, 보다 짧은 파장이 2개의 인접한 중심 사이의 거리 보다 짧고 보다 긴 파장이 2개의 인접한 중심 사이의 거리 보다 길다는 사실에 의해 달성될 수 있다. 가버 함수의 가우스 함수의 표준 편차는 2개의 인접한 중심 사이의 거리 보다 낮고 2개의 인접한 중심 사이의 거리의 절반 보다 높다.
본 발명의 실시예에서, 이러한 특징 벡터는 근사화된다. 이것은 패턴 식별 방법의 계산 속도를 증가시킬 수도 있다. 중요한 점은 패턴의 식별의 정확도이고, 특징 벡터의 정확도는 덜 중요하다.
본 발명에 따른 실시예에서, 정규화된 행렬은 64x64 행렬이고, 이미지 벡터는 4096개의 요소를 갖고 있고, 특징 벡터의 생성의 단계에서 사용되는 희소 행렬은 300x4096 행렬이고, 공분산 행렬은 300x300 행렬이고, 평균 벡터는 300개의 요소를 갖고 있고, 특징 벡터는 300개의 요소를 갖고 있고, 사인파의 방향과 관련된 각도는 0, 0.523598, 1.0472, 1.5708, 2.09439 및 2.61799 라디안의 값을 취하고, 가버 함수의 중심은 (6,6), (6,18), (6,30), (6,42), (6,54), (18,6), (18,18), (18,30), (18,42), (18,54), (30,6), (30,18), (30,30), (30,42), (30,54), (42,6), (42,18), (42,30), (42,42), (42,54), (54,6), (54,18), (54,30), (54,42), (54,54) 위치에 위치되어 있고, 제1 파장 값은 11이고, 제2 파장 값은 22이고, 가버 함수의 표준 편차는 8이다. 이러한 실시예는 매우 양호한 정확도를 제공하는 것으로 발견되었고 상응하는 계산은 빠르다.
본 발명의 다른 실시예에서, 컴퓨터 프로그램 제품은 컴퓨팅 장치가 입력 이미지에서 패턴을 식별하도록 하기 위한 컨트롤 로직을 갖는 비임시 컴퓨터 판독가능 매체를 포함한다. 상기 컨트롤 로직은,
a) 상기 입력 이미지를 정규화된 이미지를 나타내는 정규화된 행렬로 정규화하기 위한 제1 컴퓨터 판독가능 프로그램 코드 수단,
b) 가버 함수에 의해 상기 정규화된 행렬로부터 이미지 벡터를 생성하기 위한 제2 컴퓨터 판독가능 프로그램 코드 수단으로서, 상기 가버 함수는 가우스 함수에 의해 곱해진 사인파이고, 정규화된 이미지 상의 위치와 관련된 적어도 하나의 변수 및, 사인파의 방향과 관련된 파라미터, 가버 함수의 중심과 관련된 적어도 하나의 파라미터, 및 사인파의 파장과 관련된 파라미터를 포함하는 파라미터의 세트에 의존하기 위한 제2 컴퓨터 판독가능 프로그램 코드 수단,
c) 상기 특징 벡터 및 모델의 사전결정된 리스트로부터 각각의 모델의 확률의 밀도를 생성하여 최상의 모델을 입력 이미지의 패턴으로서 식별하기 위한 제3 컴퓨터 판독가능 프로그램 코드 수단,
d) 최고 확률의 밀도를 가진 모델을 입력 이미지의 패턴으로서 식별하기 위한 제4 컴퓨터 판독가능 프로그램 코드 수단을 포함하고,
적어도 2개의 가버 함수의 중심이 존재하고, 상기 파장은,
a. 적어도 하나의 값의 제1 세트가 가버 함수의 2개의 인접한 중심 사이의 거리 보다 낮거나 거의 동일하고,
b. 적어도 하나의 값의 제1 세트가 적어도 하나의 값의 제2 세트의 값의 절반 보다 높거나 거의 동일한,
적어도 하나의 값의 제1 세트 및 적어도 하나의 제2 세트의 값을 취한다.
본 발명을 보다 잘 이해하기 위해, 다음의 첨부된 도면을 예로서 설명할 것이다.
도 1은 본 발명에 따른 광학 문자 인식 프로세스의 순서도이다.
도 2는 본 발명에 따른 광학 문자 인식 프로세스의 정규화 단계를 개략적으로 설명하는 도면이다.
도 3은 본 발명에 따른 광학 문자 인식 프로세스의 특징 추출 단계의 순서도이다.
도 4는 본 발명에 따른 광학 문자 인식 프로세스에서 희소 행렬 원소가 어떻게 생성되지는를 설명하는 순서도이다.
도 5a는 본 발명에 따른 광학 문자 인식 프로세스에서 사용된 이미지 벡터와 희소 행렬 사이의 행렬 곱셈의 설명하는 도면이다.
도 5b는 본 발명에 따른 광학 문자 인식 프로세스에서 사용된 임계값 행렬을 설명하는 도면이다.
도 6은 본 발명에 따른 광학 문자 인식 프로세스의 분류 단계의 순서도이다.
본 발명은 특정 실시예 및 특정 도면을 참조하여 설명될 것이지만, 본 발명은 이에 제한되지 않는다. 제시된 도면은 개략적인 것이고 제한을 위한 것이 아니다. 도면에서, 일부 요소의 크기는 설명을 위해 강조될 수 있고 비율에 따라 도시된 것은 아니다.
또한, 본 명세서 및 청구범위의 용어 제1, 제2, 제3등은 유사한 부재 사이를 구별하기 위한 것이고 반드시 순서를 설명하는 것은 아니다. 이러한 용어는 적절한 환경에서 상호교환될 수 있고 본 발명의 실시예는 여기에 기술되거나 설명된 것 이외의 순서로 동작할 수 있다.
또한, "바람직한"으로 불리는 다양한 실시예는 본 발명의 범위를 제한하는 것이 아니고 본 발명이 구현될 수 있는 예로서 설명하는 것이다.
청구범위에서 사용된 용어 "포함하는"은 나열된 요소 또는 단계로 제한되지 않고 다른 요소 또는 단계를 제외하지 않는다. 그것은 언급되는 바와 같이, 기술된 특징, 완전체, 단계 또는 구성요소의 존재를 특정하는 것으로 해석될 필요가 있지만, 하나 이상의 특징, 완전체, 단계 또는 구성요소, 또는 그 그룹의 존재 또는 추가를 제외하는 것은 아니다. 따라서, "A 및 B를 포함하는 장치"라는 표현의 범위는 구성요소 A 및 B로만 구성되는 장치로 제한되는 것이 아니고, 본 발명에 있어서, 이러한 장치의 열거된 구성요소가 단지 A 및 B이라는 것이고, 청구범위는 이러한 구성요소의 등가물을 포함하는 것으로 해석되어야 한다.
2진수, 벡터 및 행렬은 0과 1로 기록되는 것으로 여기에 가정되어 있지만, 참과 거직, 흑과 백 또는 2진 상태를 나타내는 임의의 다른 수단으로 기록될 수도 있다는 것은 당업자에게 분명하다.
본 발명의 실시예에서, 2진 이미지가 처리된다. 2진 이미지는 각각의 픽셀에 대해 오직 2개의 가능한 컬러를 갖는 디지털 이미지이다. 보통 흑과 백인 이러한 2개의 컬러는 참과 거짓 값 또는 1과 0 값으로서 표현될 수 있다. 1과 0을 갖는 표현은 특히 수학적 이미지 처리를 실행하는데 사용될 수 있다. 이러한 2진 이미지의 처리는 자주 예를 들어, 이러한 이미지의 일부 특성을 강화하기 위해 또는 이러한 이미지에 대해 형태학 동작을 실행하기 위한 필터링 단계를 포함하고 있다. 필터는 보통 행렬에 의해 수학적으로 기술되고 2진 이미지에 필터를 적용하는 것은 필터 행렬과 2진 이미지 행렬의 행렬 곱셈에 의해 기술된다. 이러한 종류의 동작은 예를 들어, 광학 문자를 인식하는 관점에서 이미지 특징을 추출하는 이미지 처리의 단계로서, 광학 문자 인식에서 사용될 수 있다.
광학 문자 인식 시스템은 문자 인식 프로세스를 사용함으로써 텍스트의 이미지를 기계 판독가능 코드로 전환한다. OCR 시스템에서, 문자일 수도 있는 것의 이미지는 격리되고 문자 인식 프로세스가 사용되어 문자를 식별한다.
본 발명의 실시예는 문자 또는 다른 패턴을 나타내는 입력 이미지로부터 시작하는 광학 문자 인식과 관련되어 있다. 본 발명의 바람직한 실시예에서 광학 문자 인식은 아시아 문자를 나타내는 입력 이미지로부터 시작한다. 이러한 입력 이미지는 본 발명의 실시예에서 2개의 컬러 이미지이다. 본 발명의 바람직한 실시예에서, 입력 이미지는 흑과 백 이미지이다. 본 발명의 실시예에서, 입력 이미지는 2차원 이미지이다. 본 발명의 실시예에서, 입력 이미지는 인식 시스템에 의해 인식되는, 문자, 로고, 그림 또는 디자인을 포함하는 패턴을 나타낸다. 본 발명의 다른 실시예에서, 이러한 패턴은 인식 시스템에 의해 인식되는 일련의 사운드, 일련의 필름 또는 3차원 패턴이다.
도 1에 도시된 본 발명의 실시예에 따른 광학 문자 인식 프로세스(101)는 다음을 포함한다.
- 입력 이미지(102)로부터, 정규화된 행렬(104)을 생성하는 정규화 단계(103);
- 이러한 정규화된 행렬(104)로부터 특징 벡터(106)를 생성하는 특징 추출의 단계(105);
- 일련의 가능한 모델(108)중에서 입력 이미지(107)에 대한 최상의 모델(109)을 계산하는 분류화 단계(107). 이러한 분류화 단계(107)는 또한 각각의 모델의 확률의 밀도(110)를 보내, 분류화 단계(107)의 정확도의 측정값을 제공한다.
정규화 단계(103)에서, 입력 이미지(102)는 픽셀(201)로 하위 분할된다. 입력 이미지(102)의 각각의 픽셀(201)은 도 2에 도시된 바와 같이, 중간 행렬(203)의 요소(202)에 의해 표현된다. 중간 행렬(203)은 본 발명의 실시예에서 2진 행렬이다. 이러한 중간 행렬(203)은 스케일링, 임계화, 스무딩, 보간, 필터링...을 포함할 수 있는 단계들의 조합을 거친다. 이러한 단계들의 조합의 출력은 정규화된 이미지(206)에 상응하는 정규화된 행렬(104)이다. 본 발명의 실시예에서, 정규화된 이미지(206)는 사전결정된 포맷을 갖고 있고 센터링되어 있다.
정규화된 행렬(104)의 모든 원소(207)는 정규화된 이미지(206)의 사전결정된 포맷의 픽셀(28)에 상응한다.
본 발명의 실시예에서, 정규화된 행렬(104)은 2-컬러 정규화된 이미지(206)에 상응하는, 2진 행렬이다. 정규화된 행렬(104)의 모든 원소는 정규화된 이미지(206) 상의 위치에 상응하는, 그 행 x (204) 및 그 열 y (205)에 의해 특징지어진다. 본 발명의 실시예에서, 정규화된 행렬(104)은 64x64 행렬이다. 본 발명의 실시예에서, 정규화된 이미지(206)에서, 주어진 컬러의 픽셀을 나타내는 값의 중심으로부터 거리의 표준 편차는 일정하다. 본 발명의 바람직한 실시예에서, 정규화된 이미지(206)에서, 주어진 컬러의 픽셀을 나타내는 값의 중심으로부터의 거리의 표준 편차는 16개의 픽셀이다. 본 발명의 실시예에서, 패턴 또는 문자의 높이 폭 애스펙트 비는 정규화 단계(103) 동안 보존된다.
정규화된 행렬(104)로부터 특징 벡터(106)를 생성하는 특징 추출 단계(105)는 행렬 벡터 곱셈(304)을 포함한다. 이것은 도 3에서 상세하게 설명될 수 있다. 치수의 정규화된 행렬(104) AxB는 길이 A*B의 이미지 벡터(301)로 변환된다. 이러한 변환 동안, 이미지 벡터(301)의 각각의 원소는 정규화된 행렬(104)의 모든 원소가 이미지 벡터(301)에서 오직 한 번 복사되는 방식으로 정규화된 행렬(104)의 원소와 동일하도록 설정된다. 본 발명의 실시예에서, 이미지 벡터(301)는 2진 벡터이다. 이미지 벡터(301)는 정규화된 이미지(206) 정보를 포함하고 있다. 정규화된 이미지(206)의 위치에 상응하는, 정규화된 행렬(104)의 행 x (204) 및 열 y (205)의 원소의 위치는 또한 이미지 벡터(301)의 j번째 원소를 나타내는 인덱스(index) j(302)의 특정 값에 상응한다. 본 발명의 실시예에서, 이미지 벡터(301)는 4096개의 원소를 갖고 있고 인덱스 j는 1과 4096 사이의 모든 정수 값을 취할 수 있다. 이것은 64x64 정규화된 행렬(104)에 상응한다(64*64=4096).
본 발명의 실시예에서, 행렬 벡터 곱셈(304)은 근사치이고 특징 벡터(106)는 희소 행렬(303)과 이미지 벡터(301) 사이의 행렬 곱셈의 정확한 수학적 결과의 근사치이다. 인덱스 i(401)는 특징 벡터(106)의 i번째 원소를 특정하는데 사용된다. 형용사 본 발명의 실시예에서 "희소"는 행렬에 주로 제로가 분포되어 있다는 것을 나타낸다.
도 4는 희소 행렬(303)의 행 i(401) 및 열 j(302)에 위치된 원소(406)의, 가버 함수(404)에 의한, 생성을 설명하고 있다. 희소 행렬(303)의 모든 원소(406)는 동일한 방식으로 생성된다. 가버 함수(404)는 가우스 함수에 의해 곱셈된 평면 사인파(plane sinusoidal wave)이다. 가버 함수(404)는 입력으로서, 인덱스 i에 상응하는 파라미터(402), 및 인덱스 j에 상응하는 변수 x(204) 및 y(205)를 갖고 있다.
계산되는 희소 행렬 원소(406)의 행 인덱스 i(401)는 가버 함수(404)에서 사용되는 파라미터(402)에 의해 취해진 값을 특정한다. 본 발명의 실시예에서, 파라미터(402)는 심볼 αi, σi, λi, Cxi 및 Cyi에 의해 표현된다.
- αi는 가버 함수(404)의 평면 사인파의 방향과 관련된 각도이다.
- σi는 가버 함수(404)의 가우스 함수의 표준 편차이다.
- λi는 가버 함수(404)의 평면 사인파의 웨이블렛이다.
- Cxi는 수직 방향으로, 정규화된 이미지(206) 상의 가버 함수(404)의 중심이다.
- Cyi는 수평 방향으로, 정규화된 이미지(206) 상의 가버 함수(404)의 중심이다.
본 발명의 실시예에서, 파라미터는 다음과 같이 선택된다.
- Cxi 값은 규칙적으로 이격되어 있다.
- 2개의 Cxi 값 사이의 거리를 dCx로 부르면, 제1 Cxi, Cx1은 dCx/2이다.
- Cyi 값은 규칙적으로 이격되어 있다.
- 2개의 Cyi 값 사이의 거리를 dCy로 부르면, 제1 Cyi, Cy1은 dCy/2이다.
- 각도 αi는 규칙적으로 이격되어 있다.
- αi의 최고 값과 αi의 최저값의 합은 π 라디안이다.
- σi의 값은 dCx 보다 낮다.
- σi의 값은 dCx/2 보다 높다.
- σi의 값은 dCy 보다 낮다.
- σi의 값은 dCy/2 보다 높다.
- 적어도 하나의 값의 값들중 제1 세트에서, λi의 값은 dCx 보다 낮고 dCy 보다 낮다.
- 적어도 하나의 값의 값들의 제2 세트의 λi의 값들은 제1 세트의 값들의 값들이 제2 세트의 갑들의 값들 절반 보다 높거나 거의 같도록 되어 있다.
본 발명의 다른 실시예에서, 파라미터는 다음의 조건중 하나 또는 다수를 충족한다.
- dCx 및 dCy는 서로 같다.
- Cxi는 5개의 값을 취한다.
- Cyi는 5개의 값을 취한다.
- αi는 6개의 값을 취한다.
- αi는 값 0, 0.523598, 1.0472, 1.5708, 2.09439 및 2.61799 라디안을 취한다.
- σi는 하나의 값을 취한다.
- λi는 2개의 값: λ1 및 λ2를 취한다.
- λ1은 dCx 보다 낮다.
- λ1은 dCy 보다 낮다.
- λ2는 λ1 보다 높고 2*λ1 보다 낮거나 같다.
64x64 정규화된 행렬(104)의 바람직한 실시예에서, 위치 Cxi는 6, 18, 30, 42 및 54이고, 위치 Cyi는 6, 18, 30, 42 및 54이고, 표준 편차 σi는 8이고, 파장 λi는 11 및 22이다. 본 발명의 실시예의 파라미터의 값은 표 1에서 주어져 있다.
파라미터(402)를 위한 값의 세트의 수는 (Cx의 값들의 수*Cy의 값들의 수*αi의 값들의 수*σi의 값들의 수*λi의 값들의 수)이다. 바람직한 실시예에서, 파라미터 세트들의 수는 300=5*5*6*1*2이고 행 인렉스 i(401)는 1 내지 300의 정수값을 취한다.
계산되는 희소 행렬 원소(406)의 열 인덱스 j(302)는 가버 함수(404)에 의해 사용되는 변수 x(204) 및 y(205)의 값들을 특정한다.
가버 함수(404)는 다음과 같이 표현된다.
Figure pct00003
- 인덱스 i(401)에 상응하는 파라미터(402)의 값들의 주어진 세트로부터,
- 인덱스 j(302)에 상응하는 정규화된 이미지(206)의 행 x(204) 및 열 y(205)의 주어진 위치에서
계산된 가버 함수(404)의 출력은 희소 행렬(303)의 행 i(401) 및 열 j(302)의 원소(406)이다. 희소 행렬(303)의 열들의 수는 이미지 벡터(301)의 원소들의 수이다. 본 발명의 바람직한 실시예에서, 희소 행렬(303)은 300x4096 행렬이다.
본 발명의 실시예에서, 희소 행렬의 원소(i,j)(406)는 다음에 의해 주어진다.
Figure pct00004
심볼 %는 모듈로 연산을 나타내고 *와 / 연산 보다 우선하고, 심볼 //는 정수 사이의 분할의 결과의 전체 파트를 제공하고 * 및 / 연산자에 우선한다. 이러한 파라미터는 다음의 값을 취한다.
Figure pct00005
nbSteps은 Cxi 및 Cyi가 64보다 낮거나 같도록 되어 있다.
행렬 벡터 곱셈(304)은 도 5에 도시된 바와 같이 이러한 곱셈의 제1 팩터인 희소 행렬(303)과 이러한 곱셈의 제2 팩터인 이미지 벡터(301)를 곱하도록 실행된다. 희소 행렬(3300과 이미지 벡터(301)의 곱셈의 벡터 결과는 특징 벡터(106)이다. 특징 벡터(106)의 요소들의 수는 희소 행렬(303)의 행들의 수이다. 본 발명의 바람직한 실시예에서, 특징 벡터(106)의 요소들의 수는 300이다.
본 발명의 바람직한 실시예에서, 특징 벡터(106)는 패턴 인식의 관점에서 중요한 이미지 특징과 관련된, 입력 이미지(102)에 대한 특정 정보를 포함한다. 이러한 파라미터의 선택, 및 특히, 본 발명의 실시예에서, 가버 함수의 가우스 함수의 표준 편차가 2개의 인접한 중심 사이의 거리 보다 낮지만 2개의 인접한 중심 사이의 거리의 절반 보다 높다는 사실은 특징 벡터(106)에 포함된 정보가 경미한 중복성을 갖게 한다. 이러한 특징 벡터(106)의 정보의 중복성은 분류 단계(107)의 정확도를 증가시킨다.
특징 벡터(106)를 산출하는 희소 행렬(303)과 이미지 벡터(301) 사이의 행렬 곱셈은 도 5a에 도시되어 있다. 희소 행렬(303)의 원소는 Mij로 부른다. i는 행 수를 제공하는 인덱스이고 1과 m 사이의 모든 정수값을 취한다. j는 열 수를 제공하는 인덱스이고 1과 n 사이의 모든 정수값을 취한다. 이미지 벡터(301)는 vj로 부르는 n개의 원소의 하나의 열을 갖고 있다. 이러한 특징 벡터(106)는 ri로 부르는 m개의 원소의 하나의 열을 갖고 있다. 이러한 행렬 곱셈은 특징 벡터(106) 원소 ri가 다음과 같이 계산되도록 되어 있다.
Figure pct00006
(등식 1)
일부 항은 등식 1의 합에서 무시될 수 있다. 예를들어, vj는 제로인 항 Mij 역시 0이다. 또한, vj가 1인 경우에, 그리고 희소 행렬(303) 원소 Mij가 작은 경우에, 항 Mij vj 역시 무시될 수 있다. "작다"를 제어하기 위해, 도 5b에 도시된, 원소 Tij를 갖는 임계값 행렬(501)이 본 발명의 실시예에서 사용된다. 본 발명의 실시예에서, 항 Mij vj는 항 Mij가 Tij 보다 낮은 경우에 무시될 수 있다. 본 발명의 다른 실시예에서, 임계값 행렬(501)의 원소 Tij 모두는 동일한 값을 갖고 있다. 가버 함수(404)가 가우스 함수에 의해 곱셈된 평면 사인파이기 때문에, 희소 행렬(303)의 원소의 다수는 매우 작다.
OCR 프로세스(101)의 분류 단계(107)는 도 6를 참조하여 설명될 수 있다. 본 발명의 실시예에서, 분류 단계(107)는 각각의 클래스에 대해 가중치가 상이한, 가중치 부여된 유클리드 거리를 사용하는 최근방 이웃 분류기 방법의 변형이다. 분류 단계(107)는 특징 벡터(106) 및 모델(108)을 입력으로서 사용한다. 본 발명의 실시예에서, 모델(108)은 문자, 문자의 그룹 또는 주어진 폰트 패밀리의 문자에 상응한다. 본 발명의 실시예에서, 모델(108)은 아시아 문자, 아시아 문자의 그룹 또는 주어진 폰트 패밀리의 아시아 문자에 해당한다. 본 발명의 실시예에서, 모델(108)은 일련의 사운드, 일련의 필름 또는 3차원 패턴에 해당한다.
본 발명의 실시예에서, 모델(108)은 공분산 행렬 Σ 및 평균 벡터 μ에 의해 규정된다. 본 발명의 실시예에서, Σ의 모든 비대각선 원소는 제로로 설정되어 있다. 본 발명의 실시예에서, 공분산 행렬 Σ은 모든 모델의 공분산 행렬 Σ의 트레이스가 동일한 방식으로 상수 (각각의 모델에 대해 상이한 상수)에 의해 곱해진다. 본 발명의 실시예에서, 공분산 행렬이 근사화된다. 본 발명의 실시예에서, Σ는 300x300 행렬이고 μ는 300개의 원소의 벡터이다.
특징 벡터(106)에 상응하는 입력 이미지(102)에 가장 잘 상응하는 모델을 선택하기 위해, 각각의 모델(108)에 대해, 확률의 밀도(110)는 다음과 같이 계산된다.
Figure pct00007
여기에서, 심볼 r은 특징 벡터(106)를 나타낸다.
심볼
Figure pct00008
는 행렬 Σ의 계수를 나타내고 (r - μ)t의 t는 벡터 (r - μ)의 이항(transposition)을 나타낸다. k는 특징 벡터(106)의 요소의 수이다. 본 발명의 실시예에서, k는 300이다. 프로덕트 (r - μ)tΣ(r - μ)는 보통의 수학적 규약을 따르는 행렬 곱셈이다.
일단 각각의 모델(108)의 확률(601)의 밀도가 계산 단계 601에서 계산되면, 최상의 모델(109)가 선택 단계(602)에서 선택된다. 최상의 모델(109)은 최고의 확률의 밀도(110)를 갖는 모델이다. 본 발명의 실시예에서, 분류 단계(107)는 최상의 모델(109) 및 각각의 모델의 확률의 밀도(110)를 내놓아, 분류 단계의 정확도의 측정값을 제공한다. 대안의 실시예에서, 분류 단계(107)는 최상의 모델(109)만을 내놓는다. 대안의 실시예에서, 분류 단계(107)는 각각의 모델의 확률의 밀도(110)만을 내놓는다.
본 발명의 실시예는 다음의 조합을 포함한다.
- 상술된 바와 같은 파라미터(402)를 갖는 특징 추출 단계(105), 및
- 공분산 행렬 Σ의 모든 비대각선 원소가 제로로 설정되고 모든 모델의 공분산 행렬 Σ의 트레이스가 동일한, 가중치 부여된 유클리드 거리에 기초한 분류 단계(107).
이러한 OCR 시스템은 이미지 재구성이 가능하도록 하고, 효율적으로 계산될 수 있고 OCR 정확도를 극히 높게 한다.
표 1
Figure pct00009
Figure pct00010
Figure pct00011
Figure pct00012
Figure pct00013
Figure pct00014
Figure pct00015
Figure pct00016

Claims (6)

  1. 입력 이미지에서 패턴을 식별하기 위한 방법에 있어서,
    a) 상기 입력 이미지를 정규 이미지를 나타내는 정규화된 행렬로 정규화하는 단계,
    b) 상기 정규화된 행렬로부터 이미지 벡터를 생성하는 단계,
    c) 특징 벡터를 생성하기 위해 행렬 벡터 곱셈을 사용하여 상기 이미지 벡터를 희소 행렬과 곱하는 단계로서, 상기 희소 행렬은 가우스 함수에 의해 곱해진 사인파인 가버 함수로부터 생성되고 상기 가버 함수는 상기 정규화된 행렬 내의 위치를 나타내는 적어도 하나의 변수 및, 상기 사인파의 방향과 관련된 파라미터, 상기 가버 함수의 중심과 관련된 파라미터, 및 상기 사인파의 파장과 관련된 파라미터를 포함하는 파라미터의 세트의 함수인 단계,
    d) 상기 특징 벡터에 의해 모델의 사전결정된 리스트를 위한 확률의 밀도를 생성하는 단계,
    e) 최고 확률의 밀도를 가진 모델을 최상의 모델로서 선택하는 단계, 및
    f) 상기 최상의 모델을 상기 입력 이미지의 패턴으로서 분류하는 단계를 포함하고,
    적어도 2개의 가버 함수의 중심이 존재하고,
    상기 파장은 제1 파장 값이 상기 가버 함수의 2개의 인접한 중심 사이의 거리 보다 낮거나 거의 동일한 적어도 2개의 값을 취하고, 상기 제1 파장 값은 제2 파장 값 보다 낮고 상기 제2 파장 값의 절반 보다 높거나 거의 동일하고,
    상기 모델은 공분산 행렬 및 평균 벡터에 의해 특징지어지고,
    상기 확률의 밀도는 아래의 공식
    Figure pct00017

    에 의해 계산되고,
    상기 심볼 r은 상기 특징 벡터를 나타내고, 심볼 Σ는 공분산 행렬을 나타내고, 심볼 μ는 평균 벡터를 나타내고 k는 상기 특징 벡터의 요소의 수이고,
    상기 가버 함수의 파라미터의 세트는 상기 가버 함수의 2개의 인접한 중심 사이의 거리 보다 낮고 상기 가버 함수의 2개의 인접한 중심 사이의 거리의 절반 보다 높은 값을 취하는 가우스 함수의 표준 편차를 포함하는 것을 특징으로 하는 패턴 식별 방법.
  2. 제1항에 있어서, 모든 비대각선 원소는 제로인 것을 특징으로 하는 패턴 식별 방법.
  3. 제1항에 있어서, 상기 사인파의 방향과 관련된 파라미터는 각도인 것을 특징으로 하는 패턴 식별 방법.
  4. 제1항에 있어서, 상기 가버 함수의 중심과 관련된 적어도 2개의 파라미터를 갖고 있고, 상기 가버 함수의 중심과 관련된 파라미터는 상기 가버 함수의 중심이 규칙적으로 이격되도록 되어 있는 것을 특징으로 하는 패턴 식별 방법.
  5. 제1항에 있어서, 상기 특징 벡터는 근사화된 것을 특징으로 하는 패턴 식별 방법.
  6. 컴퓨팅 장치가 입력 이미지에서 패턴을 식별하도록 하기 위한 컨트롤 로직을 갖는 비임시 컴퓨터 판독가능 매체를 포함하는 컴퓨터 프로그램 제품에 있어서, 상기 컨트롤 로직은,
    a) 상기 입력 이미지를 정규화된 이미지를 나타내는 정규화된 행렬로 정규화하기 위한 제1 컴퓨터 판독가능 프로그램 코드 수단,
    b) 상기 정규화된 행렬로부터 이미지 벡터를 생성하기 위한 제2 컴퓨터 판독가능 프로그램 코드 수단,
    c) 특징 벡터를 생성하기 위해 행렬 벡터 곱셈을 사용하여 상기 이미지 벡터를 희소 행렬과 곱하기 위한 제3 컴퓨터 판독가능 프로그램 코드 수단으로서, 상기 희소 행렬(303)은 가우스 함수에 의해 곱해진 사인파인 가버 함수로부터 생성되고 상기 가버 함수는 상기 정규화된 행렬 내의 위치를 나타내는 적어도 하나의 변수 및, 상기 사인파의 방향과 관련된 파라미터, 상기 가버 함수의 중심과 관련된 파라미터, 및 상기 사인파의 파장과 관련된 파라미터를 포함하는 파라미터의 세트의 함수인 제3 컴퓨터 판독가능 프로그램 코드 수단,
    d) 상기 특징 벡터에 의해 모델의 사전결정된 리스트를 위한 확률의 밀도를 생성하기 위한 제4 컴퓨터 판독가능 프로그램 코드 수단,
    e) 최고 확률의 밀도를 가진 모델을 최상의 모델로서 선택하기 위한 제5 컴퓨터 판독가능 프로그램 코드 수단, 및
    f) 상기 최상의 모델을 상기 입력 이미지의 패턴으로서 분류하기 위한 제6 컴퓨터 판독가능 프로그램 코드 수단을 포함하고,
    적어도 2개의 가버 함수의 중심이 존재하고,
    상기 파장은 제1 파장 값이 상기 가버 함수의 2개의 인접한 중심 사이의 거리 보다 낮거나 거의 동일한 적어도 2개의 값을 취하고, 상기 제1 파장 값은 제2 파장 값 보다 낮고 상기 제2 파장 값의 절반 보다 높거나 거의 동일하고,
    상기 모델은 공분산 행렬 및 평균 벡터에 의해 특징지어지고,
    상기 확률의 밀도는 아래의 공식
    Figure pct00018

    에 의해 계산되고,
    상기 심볼 r은 상기 특징 벡터를 나타내고, 심볼 Σ는 공분산 행렬을 나타내고, 심볼 μ는 평균 벡터를 나타내고 k는 상기 특징 벡터의 요소의 수이고,
    상기 가버 함수의 파라미터의 세트는 상기 가버 함수의 2개의 인접한 중심 사이의 거리 보다 낮고 상기 가버 함수의 2개의 인접한 중심 사이의 거리의 절반 보다 높은 값을 취하는 가우스 함수의 표준 편차를 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
KR1020167030903A 2014-04-16 2015-04-15 가버 함수를 이용한 패턴 인식 시스템 및 방법 KR102268174B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/254,039 2014-04-16
US14/254,039 US9058517B1 (en) 2014-04-16 2014-04-16 Pattern recognition system and method using Gabor functions
PCT/EP2015/058177 WO2015158778A1 (en) 2014-04-16 2015-04-15 Pattern recognition system and method using gabor functions

Publications (2)

Publication Number Publication Date
KR20160148563A true KR20160148563A (ko) 2016-12-26
KR102268174B1 KR102268174B1 (ko) 2021-06-24

Family

ID=53039857

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167030903A KR102268174B1 (ko) 2014-04-16 2015-04-15 가버 함수를 이용한 패턴 인식 시스템 및 방법

Country Status (6)

Country Link
US (1) US9058517B1 (ko)
JP (1) JP6609267B2 (ko)
KR (1) KR102268174B1 (ko)
CN (1) CN106462773B (ko)
BE (1) BE1025502B1 (ko)
WO (1) WO2015158778A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3483795B1 (en) 2015-01-28 2021-03-10 Google LLC Batch normalization layers
CN107133622B (zh) * 2016-02-29 2022-08-26 阿里巴巴集团控股有限公司 一种单词的分割方法和装置
JP6545740B2 (ja) * 2017-03-08 2019-07-17 株式会社東芝 生成装置、プログラム、認識システムおよび生成方法
CN108304885A (zh) * 2018-02-28 2018-07-20 宜宾学院 一种Gabor小波CNN图像分类方法
CN108629297A (zh) * 2018-04-19 2018-10-09 北京理工大学 一种基于空域自然场景统计的遥感图像云检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040017944A1 (en) * 2002-05-24 2004-01-29 Xiaoging Ding Method for character recognition based on gabor filters
US20050025337A1 (en) * 2003-07-29 2005-02-03 Wei Lu Techniques and systems for embedding and detecting watermarks in digital data
US20100329562A1 (en) * 2009-06-30 2010-12-30 Feng Drake Zhu Statistical Online Character Recognition

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4159794B2 (ja) * 2001-05-02 2008-10-01 本田技研工業株式会社 画像処理装置及び方法
JP4161659B2 (ja) * 2002-02-27 2008-10-08 日本電気株式会社 画像認識システム及びその認識方法並びにプログラム
JP2005044330A (ja) * 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
US8509538B2 (en) * 2007-12-20 2013-08-13 Intel Corporation Method and apparatus for obtaining and processing Gabor image features
CN101866421B (zh) * 2010-01-08 2013-05-01 苏州市职业大学 基于离散度约束非负稀疏编码的自然图像特征提取方法
CN102915436B (zh) * 2012-10-25 2015-04-15 北京邮电大学 基于类内变化字典和训练图像的稀疏表示人脸识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040017944A1 (en) * 2002-05-24 2004-01-29 Xiaoging Ding Method for character recognition based on gabor filters
US20050025337A1 (en) * 2003-07-29 2005-02-03 Wei Lu Techniques and systems for embedding and detecting watermarks in digital data
US20100329562A1 (en) * 2009-06-30 2010-12-30 Feng Drake Zhu Statistical Online Character Recognition

Also Published As

Publication number Publication date
JP6609267B2 (ja) 2019-11-20
BE1025502B1 (fr) 2019-03-27
KR102268174B1 (ko) 2021-06-24
WO2015158778A1 (en) 2015-10-22
JP2017515221A (ja) 2017-06-08
BE1025502A1 (fr) 2019-03-20
US9058517B1 (en) 2015-06-16
CN106462773A (zh) 2017-02-22
CN106462773B (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
US9418283B1 (en) Image processing using multiple aspect ratios
Coates et al. Text detection and character recognition in scene images with unsupervised feature learning
Imani et al. Band clustering-based feature extraction for classification of hyperspectral images using limited training samples
KR102268174B1 (ko) 가버 함수를 이용한 패턴 인식 시스템 및 방법
Chen et al. Page segmentation for historical handwritten document images using color and texture features
Sagheer et al. Holistic Urdu handwritten word recognition using support vector machine
Shrivastava et al. Artificial neural network based optical character recognition
US9311558B2 (en) Pattern recognition system
KR20150137752A (ko) 문자 인식 방법 및 그 장치
Cai et al. Traffic sign recognition algorithm based on shape signature and dual-tree complex wavelet transform
Chen et al. Robust text line segmentation for historical manuscript images using color and texture
JP2017102622A (ja) 画像処理装置、画像処理方法及びプログラム
Yadav et al. A robust approach for offline English character recognition
Arafat et al. Two stream deep neural network for sequence-based Urdu ligature recognition
Aravinda et al. Template matching method for Kannada handwritten recognition based on correlation analysis
KR20190107480A (ko) 얼굴 인식 장치 및 방법
KR101066343B1 (ko) 상호 정보 최대화 기반의 국부 이진 패턴 코드를 이용한 패턴 인식 방법, 장치 및 그 기록 매체
Subbuthai et al. Identifying the character by applying PCA method using Matlab
Ali et al. UOCR: A ligature based approach for an Urdu OCR system
JP2017084006A (ja) 画像処理装置およびその方法
Qiu et al. An optimized license plate recognition system for complex situations
Alajel et al. Face detection based on skin color modeling and modified Hausdorff distance
Ramanathan et al. Tamil font recognition using gabor filters and support vector machines
Vo et al. Recognizing vietnamese sign language based on rank matrix and alphabetic rules
KR101937859B1 (ko) 360도 이미지에서의 공통 객체 탐색 시스템 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant