KR20030076620A - 영상 인식 방법 및 그 방법을 위한 장치 - Google Patents

영상 인식 방법 및 그 방법을 위한 장치 Download PDF

Info

Publication number
KR20030076620A
KR20030076620A KR10-2003-7009646A KR20037009646A KR20030076620A KR 20030076620 A KR20030076620 A KR 20030076620A KR 20037009646 A KR20037009646 A KR 20037009646A KR 20030076620 A KR20030076620 A KR 20030076620A
Authority
KR
South Korea
Prior art keywords
image
character
composite image
composite
recognition method
Prior art date
Application number
KR10-2003-7009646A
Other languages
English (en)
Other versions
KR100567362B1 (ko
Inventor
하시모토요시히토
이케다가즈타카
Original Assignee
마츠시다 덴코 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마츠시다 덴코 가부시키가이샤 filed Critical 마츠시다 덴코 가부시키가이샤
Publication of KR20030076620A publication Critical patent/KR20030076620A/ko
Application granted granted Critical
Publication of KR100567362B1 publication Critical patent/KR100567362B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Image Processing (AREA)

Abstract

적어도 하나의 문자가 복수의 요소로 이루어져 있을 때 정확하게 원래 영상에 포함된 글자와 숫자와 같은 문자를 효율적으로 인식할 수 있는 성능을 갖는 영상 인식 방법이 제공된다. 이 방법에서, 이 원래 영상의 요소가 추출되어, 각 요소가 직사각형 프레임으로 둘러싸여져 있는 제2 영상을 얻는다. 그런 다음 합성 영상이 제2 영상에서 직사각형 프레임 조합에 대해 준비된다. 합성 영상에 포함된 요소의 특징량을 산출한 후, 이 특징량은 영상에 포함될 기준 문자에 대한 학습을 이미 마친 백 프로파게이션 네트워크에 입력되어, 합성 영상의 특징량과 기준 문자 간의 일치 정도가 얻어진다. 이들 특징량과 기준 문자 간의 가장 큰 일치 정도를 갖는 합성 영상은 제2 영상에서 직사각형 프레임의 상이한 조합에 대해 백 프로파게이션 네트워크에 의해 제공된 결과로부터 정해져, 이 합성 영상을 인식 데이터로서 출력된다.

Description

영상 인식 방법 및 그 방법을 위한 장치 {IMAGE RECOGNITION METHOD AND APPARATUS FOR THE SAME METHOD}
종래에, 목적 영상(object image)을 메모리에 기억된 참조 영상과 비교하여 목적 영상에서 글자를 인식하였다. 예를 들면, 일본 특허 출원 번호[고카이(kokai)]제8-212290호에 기재되어 있는 것처럼, 식별될 문자를 2진화하는 단계, 얻어진 2진화 영상에 규격화 처리(normalization treatment)를 실행하는 단계, 및 규격화된 데이터를 뉴럴 네트워크(neural network)에 입력하는 단계를 포함하는 원래 영상(original image)에 포함된 글자를 식별하는 방법이 존재한다. 이 방법에 의하여, 이동하는 자동차의 숫자판에서도 글자 및/또는 숫자를 정확하게 식별할 수 있다.
그러나 이 방법에는 원래 영상에 어떤 노이즈 및/또는 얼룩(blur)이 끼어 있을 경우 정확한 인식 결과를 얻지 못하는 경우가 존재한다. 특히, 원래 영상의 질이 상대적으로 낮을 때, 예를 들면, 도 1A에 도시한 바와 같이, 원래 영상이 복수 개로 이루어져 있는 숫자와 같은 문자, 및/또는 숫자 주변의 배경에 원치 않은 점들을 포함할 때, 인식의 정확도가 떨어짐에도 불구하고 상대적으로 문자를 식별할 때 요구되는 시간이 늘어날 우려가 있다.
본 발명은 불명확한 영상이나 노이즈를 포함하는 영상에서 정확하게 글자(letter), 숫자(numerical characters) 및 부호(symbols)와 같은 문자(character)를 효율적으로 인식하는 영상 인식 방법 및 그 방법을 위한 장치에 관한 것이다.
도 1A 내지 1D는 본 발명의 제1 실시예에 따른 영상 인식 방법을 보여주는 영상들이다.
도 2는 도 1B에서 점선으로 이루어진 원안에 있는 내부 직사각형 프레임(rectangular inner frame) 배열을 예시하는 개략적인 도면이다.
도 3A 및 3B는 외부 직사각형 프레임(rectangular outer frame)의 예를 예시하는 개략적인 도면이다.
도 4는 영역 체크 단계(area check step)(II)를 통해 제공된 제1 혼합 영상(first composite image)의 한 예를 나타내는 영상이다.
도 5는 본 발명의 제1 실시예에 따른 영상 인식 방법의 제1 단계(stage)에 대한 순서도이다.
도 6A 및 6B는 본 발명의 제1 실시예에 따른 영상 인식 방법의 제2 단계의 예를 나타내는 개략도이다.
도 7은 영상 인식 방법의 제2 단계에 대한 순서도이다.
도 8은 본 발명의 제1 실시예에 따른 영상 인식 방법의 제3 단계에 대한 순서도이다.
도 9는 영상 인식 방법의 제2 단계를 통해 제공된 제1 합성 영상의 한 예를 나타내는 영상이다.
도 10A 및 10B는 제2 합성 영상의 예를 예시하는 개략도이다.
도 11A 내지 11F는 제2 합성 영상에서 뉴럴 네트워크용 데이터의 준비를 예시하는 개략도이다.
도 12는 본 발명의 제1 실시예에 따른 영상 인식 방법의 인식 결과에 대한 한 예를 나타내는 영상이다.
도 13A 내지 13E는 본 발명의 제2 실시예에 따른 영상 인식 방법 이전에 실행되는 사전 처리를 나타내는 영상이다.
도 14A 및 14B는 사전 처리를 예시하는 개략도이다.
도 15는 양호하지 않은 질(poor quality)을 갖는 원래 영상(original image)이다.
도 16A 내지 도 16D는 본 발명의 제3 실시예에 따른 영상 인식 방법 이전에 실행되는 사전 처리를 나타내는 영상이다.
도 17A 내지 도 17D는 본 발명의 제3 실시예에 따른 영상 인식 방법 이전에 실행되는 사전 처리를 나타내는 영상이다.
그러므로, 본 발명의 개념은 원래 영상에 포함된 문자 중 적어도 하나가 복수의 요소로 이루어져 있을 경우에도 정확하게 원래 영상에 포함된 문자, 숫자 및 기호와 같은 문자를 효율적으로 인식할 수 있는 성능을 갖는 영상 인식 방법을 제공하는 것이다.
즉, 본 발명의 이 영상 인식 방법은 (I) 복수의 요소(element)로 구성된 문자(character)를 포함하는 제1 영상을 취하는 단계; (II) 상기 복수의 요소 각각이 직사각형 프레임으로 둘러싸여져 있는 제2 영상을 얻도록 상기 제1 영상에서 상기 복수의 요소를 추출하는 단계; (III) 상기 제2 영상에서 상기 직사각형 프레임의 조합에 대한 합성 영상(composite image)을 형성하는 단계; (IV) 상기 합성 영상에 포함된 상기 요소의 특징량(characteristic amount)을 산출하는 단계; (V) 상기 합성 영상의 상기 특징량과 상기 제1 영상에 포함될 기준 문자 사이의 일치 정도를 제공하기 위해 상기 기준 문자에 대한 학습을 이미 마친 백 프로파게이션 네트워크에 상기 특징량을 입력하는 단계; (VI) 상기 제2 영상에서 상기 직사각형 프레임의 상이한 조합에 대해 상기 단계(III) 내지 (V)를 반복하여 얻어진 결과로부터 상기 합성 영상의 특징량과 상기 기준 문자 간의 가장 큰 일치 정도를 갖는 상기 합성영상을 인식 데이터로서 출력하도록 상기 합성 영상을 정하는 단계를 포함한다.
이 영상 인식 방법에서, 제1 영상이 서로 연결되어 있는 적어도 두 개의 문자를 포함할 때 다음에 기재되는 사전 처리를 실행하는 것이 바람직하다. 즉, 이 사전 처리는 상기 적어도 두 개의 문자를 포함하는 2진 영상을 준비하는 단계; 상기 2진 영상에서부터 상기 적어도 두 개의 문자의 정렬 방향으로 분포 강도를 나타내는 프로파일을 정하는 단계; 상기 미리 정한 분포 강도를 갖는 임계선을 상기 프로파일에 설정하는 단계; 상기 분포 강도가 상기 임계선보다 낮을 때, 상기 적어도 두 개의 문자가 서로 분리되는 보상된 영상(compensated image)을 얻기 위해, 상기 프로파일의 제1 부분을 상기 프로파일로부터 제거하는 단계: 및 상기 보상된 영상을 상기 제1 영상으로서 이용하는 단계를 포함한다.
특히, 위에서 기재한 사전 처리는 상기 프로파일에서부터 상기 제1 부분을 제거한 후, 상기 제1 부분 내의 상기 프로파일 중 최소 분포 강도를 갖는 위치에서 상기 제1 부분을 두 개의 영역으로 나누는 단계; 및 상기 분포 강도가 상기 임계선보다 클 경우, 상기 보상된 영상을 얻기 위해 는 상기 두 개의 영역 각각을 상기 제1 부분의 양 옆(side)에 위치한 상기 프로파일 중 한 쌍의 제2 부분에 더하는 단계를 포함하는 것이 바람직하다.
또한, 본 영상 인식 방법은, 제1 영상이 복수의 점으로 이루어진 문자를 포함할 때 다음에 기재되는 사전 처리를 실행하는 것이 바람직하다. 즉, 이 사전 처리는 상기 점으로 이루어진 상기 문자를 포함하는 2진 영상을 준비하는 단계; 보상된 영상을 얻기 위해 상기 2진 영상에서 상기 문자의 점 각각을 각 확장된 점이 인접한 확장된 점과 연결되도록 가로 방향으로 확장하는 단계; 및 상기 보상된 영상을 상기 제1 영상으로서 이용하는 단계를 포함한다.
특히, 이 사전처리는 상기 점으로 이루어진 상기 문자를 포함하는 2진 영상을 준비하는 단계; 보상된 영상을 얻기 위해 상기 2진 영상에서 상기 문자의 점 각각을 각 확장된 점이 인접한 확장된 점과 연결되도록 가로 방향과 세로 방향으로 확장하는 단계; 및 상기 보상된 영상을 상기 제1 영상으로서 이용하는 단계를 포함하는 것이 바람직하다.
본 발명의 다른 특징은 이미 기재된 영상 인식 방법의 탁월한 효능을 달성하는 성능을 구비한 영상 인식 장치를 제공하는 것이다. 본 발명의 영상 인식 장치는 제1 영상을 취하는 영상 촬상 장치(image pickup device); 상기 제1 영상에 포함된 문자를 구성하는 복수의 요소를 추출하여, 상기 요소 각각이 직사각형 프레임으로 둘러싸여져 있는 제2 영상을 얻는 영상 요소 분할부(image-element divider); 상기 제2 영상에서 상기 직사각형 프레임의 조합에 대한 합성 영상(composite image)을 형성하는 합성 영상 생성부(composite-image generator); 상기 합성 영상에 포함된 상기 요소의 특징량(characteristic amount)을 정하는 특징량 산출부(characteristic amount calculator); 상기 제1 영상에 포함될 기준 문자에 대한 학습을 이미 마치고, 상기 특징량이 입력될 때 상기 합성 영상의 상기 특징량과 상기 기준 문자 사이의 일치 정도를 제공하는 백 프로파게이션 네트워크; 및 상기 제2 영상에서 상기 직사각형 프레임의 상이한 조합에 대해 상기 백 프로파게이션 네트워크에 의해 제공된 결과로부터, 상기 합성 영상의 특징량과 상기 기준 문자 간의 가장 큰 일치 정도를 갖는 상기 합성 영상을 정하여, 상기 합성 영상을 인식 데이터(recognition data)로서 출력하는 영상 분석기(image analyzer)를 포함한다.
본 발명의 이러한 목적 및 장점과 다른 목적 및 장점은 첨부한 도면을 참조하여 다음에 설명되는 본 발명을 실행하는 최상의 모드로부터 자명해질 것이다.
<제1 실시예>
본 발명의 영상 인식 방법의 바람직한 실시예로서, TV 카메라나 디지털 카메라와 같은 영상 촬상 장치(image pick-up unit)를 이용하여 얻은 도 1A에 도시한 원래 영상으로부터 정확하게 숫자 배열을 효율적으로 인식하는 방법을 아래에 상세하게 설명한다.
도 1A의 원래 영상에서, 예를 들면, 숫자 "1"은 숫자 "1"의 중심부가 없어졌기 때문에 상부 요소(upper elements)(11)와 하부 요소(lower elements)(12)로 이루어진다. 유사하게, 숫자 "2"는 네 개의 요소(21, 22, 23, 24)로 이루어져 있으며, 숫자 "2"의 상부측 면과 하부측 면에 노이즈와 같은 원치 않은 점(25, 26)이 존재한다.
본 실시예의 영상 인식 방법에서, 원래 영상에 포함된 각 요소, 즉 각각의 숫자 요소("1", "2", ...)를 만드는 각 요소(11, 12, 21, 22,...)와 원래 영상에 노이즈로 포함된 원치 않은 점(25, 26, ...)이 추출된 후, 내부 직사각형 프레임(30)으로 둘러싸여져 도 1B 및 도 2에 도시한 제2 영상을 얻는다. 즉, 제2 영상에서, 각 직사각형 프레임(30)은 각 요소나 점의 주위를 둘러싸도록 배열된다. 제2 영상은 원래 영상에서 문자를 구성하는 복수의 요소를 추출하고 내부 직사각형 프레임(30)을 배열하기 위한 프레임 분류 유닛(frame distributing unit)에 의해 얻어질 수 있어, 내부 직사각형 프레임 각각은 각 요소를 둘러싼다.
다음, 제2 영상에서 내부 직사각형 프레임(30)의 조합(combination)은 임의로 선택되고, 이 조합으로 프레임 합성기(frame synthesizer)는 제1 합성 영상(composite image)(100)을 준비한다. 예를 들면, 도 3A에 도시한 것처럼, 숫자 "1"의 요소(11, 12)를 에워싸는 두 개의 직사각형 프레임(30)에 대해 제1 합성영상(100)이 준비될 수 있고, 도 3B에 도시한 것처럼, 숫자 "2"의 요소(21 내지 24)와 원치 않은 점(24)을 에워싸는 다섯 개의 직사각형 프레임(30)에 대해 다른 제1 합성 영상(100)이 준비될 수 있다. 그래서, 이 제1 합성 영상(100)은 복수 개인 내부 직사각형 프레임(30)을 에워싸는 외부 직사각형 프레임(40)에 의해 한정된다. 제2 영상에서, X축은 숫자 배열 방향으로 정의되고, Y축은 숫자의 높이 방향으로 정의된다.
다음, 제1 합성 영상(100)의 외부 직사각형 프레임(40)에 대한 영역이 산출된다. 예를 들면, 도 3A에 도시한 것처럼, 외부 직사각형 프레임(40)의 영역은 외부 직사각형 프레임의 왼쪽 상부 모서리(x1, y1)와 오른쪽 하부 모서리(x2, y2)의 좌표에 따라 쉽게 산출될 수 있다. 그런 다음, 외부 직사각형 프레임(40)의 산출된 영역은 백 프로파게이션 네트워크에 미리 기억된 요구값(required value), 예를 들면 백 프로파게이션 네트워크에 기억된 숫자 폭 평균의 2배와 비교된다. 이 산출된 영역이 요구값과 같거나 적을 경우, 영상 인식 방법은 다음 단계로 넘어간다. 한편, 산출된 영역이 요구값보다 클 경우, 제1 합성 영상은 삭제되고, 제2 영상에서 내부 직사각형 프레임(30)에 대한 다른 조합이 선택되어 다른 제1 합성 영상(100)을 생성한다. 다른 제1 합성 영상의 외부 직사각형 프레임에 대한 영역은 이미 기재한 방식에 따라서 체크된다. 이 실시예에서, 이 단계를 영역 체크 단계(area check step)(I)라고 부른다.
영역 체크 단계(I) 후, 제1 합성 영상에서 내부 직사각형 프레임들간의 거리가 산출된다. 예를 들면, 도 3에 도시한 것처럼, 거리(d)는 두 개의 내부 직사각형 프레임(30)의 왼쪽 상부 모서리(x1, y1)(x3, y3)의 좌표에 따라 쉽게 정해진다. 그런 다음, 이 산출된 거리는 백 프로파게이션 네트워크에 미리 기억된 요구값, 예를 들면 백 프로파게이션 네트워크에 기억된 숫자들간의 간격 폭(gap widths)에 대한 평균의 40%와 비교된다. 이 거리가 요구값과 같거나 작을 경우, 영상 인식 방법은 다음 단계로 넘어간다. 한편, 이 거리가 요구값보다 클 경우, 제1 합성 영상(100)은 삭제되고, 제2 영상에서 내부 직사각형 프레임에 대한 다른 조합이 선택되어 다른 제1 합성 영상을 생성한다. 다른 제1 합성 영상에서 내부 직사각형 프레임들간의 거리는 이미 기재한 방식에 따라서 체크된다. 이 실시예에서, 이 단계를 거리 체크 단계(I)라고 부른다.
이 거리 체크 단계(I) 후, 제1 합성 영상(100)의 외부 직사각형 프레임(40)에 대한 영역은 백 프로파게이션 네트워크에 미리 기억된 요구값, 예를 들면 백 프로파게이션 네트워크에 기억된 숫자들 폭에 대한 평균값의 1/2과 비교된다. 이 영역이 요구값과같거나 클 경우, 영상 인식 방법은 다음 단계로 넘어간다. 한편, 이 영역이 요구값보다클 경우, 제2 영상에서 다른 내부 직사각형 프레임이 선택되고 제1 합성 영상에 더해지므로, 증가된 영역을 갖는 다른 제1 합성 영상이 생성된다. 다른 제1 합성 영상의 외부 직사각형 프레임(100)에 대한 영역은 이미 기재한 방식에 따라서 체크된다. 그래서, 위의 조건을 만족할 때까지 이 과정을 반복하여, 복수 개의 내부 직사각형 프레임은, 도 3B에 도시한 것처럼, 하나의 외부 직사각형 프레임에 둘러싸여진다. 본 실시예에서, 이 단계를 영역 체크 단계(II)라고 부른다.
도 1C에 도시한 것처럼, 영역 체크 단계(II)를 통해 제공된 제1 합성 영상(100)은 메모리에 신뢰성 있는 후보 영상으로 기억된다. 영역 체크 단계(II)를 통해 제공된 제1 합성 영상(100)의 한 예가 도 4에 도시되어 있다. 도 4에서, 복수개의 요소와 점들이 제1 합성 영상(100)에 포함되어 있더라도, 숫자 "3"을 구성하는 모든 요소가 제1 합성 영상(100)에 포함되어 있다는 것을 주목해야 한다. 그러나 숫자를 구성하는 모든 요소가 제1 합성 영상에 포함되지 않는 경우도 있다. 따라서 이런 쓸모 없는 제1 합성 영상이 본 발명의 영상 인식 방법의 중요한 후속 단계 이전에 발견되어 삭제될 수 있다면, 제1 합성 영상의 전체 개수를 줄여 영상 인식을 보다 효율적으로 수행하는 것이 가능하다. 그러므로, 본 실시예에 따른 영상 인식 방법의 제2 단계(stage)는 이러한 목적, 즉 "데이터 삭감"을 실현하기 위한 선택적인 단계이다. 따라서, 필요한 경우, 이 제2 단계는 생략될 수 있다.
이 제2 단계를 설명하기 이전에, 이미 설명된 본 실시예에 따른 영상 인식 방법의 제1 단계는 도 5에 도시한 순서도에 의해 요약된다. 즉, 제2 영상에서 각 요소나 점을 에워싸는 내부 직사각형 프레임(30) 각각은 차례로 기본 조합 요소(combination base element)로 선택된다(단계 50). 또한, 이 기본 조합 요소와 조합될 다른 내부 직사각형 프레임(30)이 선택되어, 이들 선택된 내부 직사각형 프레임(30)을 에워싸는 외부 직사각형 프레임(40)을 갖는 제1 합성 영상(100)이 준비된다.
그런 다음, 제1 합성 영상(100)의 외부 직사각형 프레임(40)에 대한 영역이 산출되고(단계 53), 영역 체크 단계(I), 거리 체크 단계(I)와 영역 체크 단계(II)가 차례로 실행된다(단계 54-56). 제1 합성 영상(100)이 영역 체크 단계(I)나 거리 체크 단계(I)에서 "양호하지 않음"(NG, no good)(이하, "NG"라고 칭함)으로 간주되면, 이 제1 합성 영상(100)은 삭제되고, 기본 조합 요소의 내부 직사각형 프레임과 조합될 새로운 내부 직사각형 프레임이 선택되어(단계 51), 다른 제1 합성 영상을 생성한다. 한편, 제1 합성 영상(100)이 영역 체크 단계(II)에서 "NG"라고 간주되면, 부가적인 내부 직사각형 프레임(30)이 선택되고 제1 합성 영상(30)에 더해져 제1 합성 영상(30)의 영역이 증가한다. 따라서 제1 합성 영상(100)이 영역 체크 단계(II)에서 "NG"라고 간주되더라도, 이 제1 합성 영상(100)은 삭제되지 않는다.
위에서 기재한 것처럼, 영역 체크 단계(I), 거리 체크 단계(I) 및 영역 체크 단계(II) 모두를 통해 제공된 제1 합성 영상(100)(예를 들면, 도 4)은 메모리에 신뢰성 있는 후보 영상으로서 기억된다(단계 57). 그런데, 제1 합성 영상(100)이 메모리에 신뢰성있는 데이터로서 기억되면, 새로운 기본 조합 요소로서 선택된 다른 내부 직사각형 프레임을 기본 조합 요소로서 이미 이용되는 내부 직사각형 프레임이외의 나머지 내부 직사각형 프레임들 중 적어도 하나와 조합시켜 다음 제1 합성 영상을 준비한다. 이러한 방식에 따라서, 제2 영상의 모든 내부 직사각형 프레임이 기본 조합 요소로서 이용되면(단계 58), 본 발명의 영상 인식 방법은, 도 6의 순서도에 도시한 것처럼, 데이터 삭감 처리인 제2 단계(stage)로 넘어간다.
본 실시예에 따른 영상 인식 방법의 제2 단계는 인식 속도를 향상시키기 위해 중첩하는(overlapping) 제1 합성 영역을 삭제하는 데이터 삭감 처리이다. 즉,도 7의 순서도에 도시한 것처럼, 메모리에 기억된 제1 합성 영역들 중 하나가 선택되고, 선택된 제1 합성 영상 중 하나와 비교될 다른 제1 합성 영상이 선택되어, 이들 영상간의 비교가 이루어진다. 예를 들어, 도 6A에 도시한 것처럼, 제1 합성 영상(100')이 다른 제1 합성 영상(100)에 완전히 둘러싸여지면(단계 60), 제1 합성 영상(100')은 삭제된다(단계 62).
한편, 도 6B에 도시한 것처럼, 제1 합성 영상(100)이 다른 제1 합성 영상(100')과 부분적으로 중첩되면, 이들 제1 합성 영상(100, 100')들간의 중첩 영역이 산출된다. 중첩 영역이 제1 합성 영상들(100, 100') 중 하나의 80% 이상일 경우, 제1 합성 영상(100, 100')을 서로 결합시켜 새로운 제1 합성 영상(100'')을 생성한다(단계 64). 중첩 영역이 80% 미만일 경우, 각 제1 합성 영상은 다른 제1 합성 영상과 결합되지 않고 그 상태를 유지한다. 메모리에 있는 모든 제1 합성 영상이 제2 단계에서 체크되면(단계 65), 본 실시예의 영상 인식 방법은 제3 단계(stage)로 넘어간다.
영상 인식 방법의 제3 단계에서, 도 8의 순서도에 도시한 것처럼, 제1 단계의 영역 체크 단계(I), 거리 체크 단계(I) 및 영역 체크 단계(11)와 유사한 단계들이 제2 단계에서 제공된 제1 합성 영상(100)의 외부 직사각형 프레임(40)에 포함된 복수의 내부 직사각형 프레임(30)에 대해서 실질적으로 반복된다. 환언하면, 제1 단계는 인식될 숫자 요소를 포함하는 거친(넓은) 영역(coarse region)(=제1 합성 영상)을 정하는 것이고, 반대로 제3 단계는 인식될 숫자 요소만을 실질적으로 포함하는 미세(좁은) 영역(fine region)(=다음에 기재될 제2 합성 영상)을 정하여 제2합성 영상에 따라서 영상 인식을 실현하는 것이다.
제3 단계에서, 도 9 및 도 10A에 도시한 것처럼, 제1 합성 영상(100)에서 내부 직사각형 프레임(30)의 조합은 임의로(voluntarily) 선택되고, 제2 합성 영상(200)은 제1 단계와 실질적으로 동일한 방식에 의해 이 조합에 따라서 준비된다. 제2 합성 영상(200)은 선택된 내부 직사각형 프레임(30)을 에워싸는 외부 직사각형 프레임(70)에 의해 정해진다.
다음, 이 제2 합성 영상(200)에 대해서, 외부 직사각형 프레임(70)의 영역이 예를 들면 제1 단계와 실질적으로 동일한 방식에 의해 산출된다. 외부 직사각형 프레임(70)의 산출된 영역은 백 프로파게이션 네트워크에 미리 기억된 요구값, 예를 들면 백 프로파게이션 네트워크에 기억된 숫자 폭의 평균에 대한 1.2배와 비교된다. 제3 단계에서, 이 비교는 제1 단계보다는 좀더 엄격한 조건(예를 들면, 백 프로파게이션 네트워크에 기억된 숫자 폭의 평균에 대한 2배)하에서 실행된다. 이 산출된 영역이 요구값보다 같거나 작을 경우에, 영상 인식 방법은 제3 단계의 다음 단계로 넘어간다. 한편, 산출된 영역이 요구값보다 클 경우엔, 제2 합성 영상은 삭제되고, 제1 합성 영상(100)에서 내부 직사각형 프레임(30)의 다른 조합이 선택되어 다른 제2 합성 영상(200)을 생성한다. 다른 제2 합성 영상의 외부 직사각형 프레임(70)에 대한 영역은 이미 기술한 방식에 따라서 체크된다. 본 실시예에서, 이 단계를 영역 체크 단계(III)로 부른다.
이 영역 체크 단계(III) 이후에, 제2 합성 영상(200)에서 내부 직사각형 프레임(30)들간의 거리가 예를 들면 제1 단계와 실질적으로 같은 방식에 의해 산출된다. 그런 다음, 이 산출된 거리는 백 프로파게이션 네트워크에 미리 기억된 요구값, 예를 들면 백 프로파게이션 네트워크에 기억된 숫자들간의 간격 폭에 대한 평균의 40%와 비교된다. 이 거리가 요구값과 같거나 작을 경우, 영상 인식 방법은 제3 단계의 다음 단계로 넘어간다. 한편, 이 거리가 요구값보다 클 경우, 제2 합성 영상(200)은 삭제되고, 제1 합성 영상(100)에서 내부 직사각형 프레임(30)의 다른 조합이 선택되어 다른 제2 합성 영상(200)을 생성한다. 다른 제2 합성 영상(200)에서 내부 직사각형 프레임(30)들간의 거리는 이미 기재한 방식에 따라서 체크된다. 이 실시예에서, 이 단계를 거리 체크 단계(II)라고 부른다.
이 거리 체크 단계(II) 후, 제2 합성 영상(200)의 외부 직사각형 프레임(70)에 대한 영역은 백 프로파게이션 네트워크에 미리 기억된 요구값, 예를 들면 백 프로파게이션 네트워크에 기억된 숫자들의 폭에 대한 평균값의 0.8배와 비교된다. 제3 단계에서, 이 비교는 제1 단계보다는 좀더 엄격한 조건(예를 들면, 백 프로파게이션 네트워크에 기억된 숫자 폭의 평균에 대한 1/2)하에서 실행된다. 이 영역이 요구값과같거나 클 경우, 본 발명의 영상 인식 방법은 제3 단계의 다음 단계로 넘어간다. 한편, 이 영역이 요구값보다클 경우, 제1 합성 영상(100)에서 다른 내부 직사각형 프레임(30)이 선택되고 제2 합성 영상에 더해지므로, 증가된 영역을 갖는 새로운 제2 합성 영상이 생성된다. 이 새로운 제2 합성 영상(200)의 외부 직사각형 프레임(70)에 대한 영역은 이미 기재한 방식에 따라서 체크된다. 그래서, 위의 조건을 만족할 때까지 이 절차를 반복하여, 제1 합성 영상(100)에서 복수 개의 내부 직사각형 프레임(30)은 도 10B에 도시한 것처럼 제2 합성 영상(200)의 한외부 직사각형 프레임(70)에 의해 둘러싸여질 수 있다. 본 실시예에서, 이 단계를 영역 체크 단계(IV)라고 부른다.
도 8에 도시한 순서도는 본 실시예의 영상 인식 방법의 제3 단계를 요약한 것이다. 즉, 제1 합성 영상(100)에서 요소나 점을 에워싸는 내부 직사각형 프레임(30) 각각은 차례로 기본 조합 요소(combination base element)로 선택된다(단계 80). 또한, 이 기본 조합 요소의 내부 직사각형 프레임과 조합될 다른 내부 직사각형 프레임(30)이 선택되어(단계 81), 도 10A에 도시한 것처럼, 이들 선택된 내부 직사각형 프레임(30)을 에워싸는 외부 직사각형 프레임(70)을 구비한 제2 합성 영상(200)이 얻어진다(단계 82).
그런 다음, 제2 합성 영상(200)의 외부 직사각형 프레임(70)에 대한 영역이 산출되고(단계 83), 영역 체크 단계(III), 거리 체크 단계(II)와 영역 체크 단계(IV)가 차례로 실행된다(단계 85-87). 제2 합성 영상(200)이 영역 체크 단계(III)나 거리 체크 단계(II)에서 "NG"로 간주되면, 이 제1 합성 영상(100)은 삭제되고, 기본 조합 요소의 내부 직사각형 프레임과 조합될 다른 내부 직사각형 프레임(30)이 선택되어(단계 81), 다른 제2 합성 영상(200)을 생성한다(단계 82). 한편, 제2 합성 영상(200)이 영역 체크 단계(IV)에서 "NG"라고 간주되면, 부가적인 내부 직사각형 프레임(30)이 선택되고 "NG"로서 간주된 제2 합성 영상(30)에 더해져, 증가된 영역을 갖는 새로운 제2 합성 영상(200)이 생성된다. 그러므로, 영역 체크 단계(II)에서 "NG"로서 간주된 제2 합성 영상(100)은 삭제되지 않는다. 그런데, 제3 단계는 후속의 처리, 예를 들면 영역 체크 단계(III)가 제2 합성영상(200)에 대해 이미 실행되었는지의 여부를 체크하는 단계(84)를 포함한다. 만약 영역 체크 단계(III)가 제2 합성 영상(200)에 대해 이미 실행되었다면(예), 제2 합성 영상은 삭제되어 같은 처리를 불필요하게 반복하는 것을 피한다.
종횡비(aspect ratio), 즉 영역 체크 단계(IV)를 통해 제공된 제2 합성 영상(200)의 외부 직사각형 프레임(70)에 대한 세로폭/가로폭이 산출되고, 백 프로파게이션 네트워크에 기억된 미리 정해진 값과 비교된다(단계 88). 본 실시예에서, 종횡비 체크 단계(I)라고 불리는 이 단계는 백 프로파게이션 네트워크에 기억된 숫자의 종횡비에 대한 최소값의 0.5배 내지 1.5배의 범위 내에 존재하는지를 체크한다. 이 종횡비가 이 범위 내에 존재할 경우, 영상 인식 방법은 제3 단계의 다음 단계로 넘어간다. 종횡비가 이 범위를 벗어날 경우, 제2 합성 영상은 삭제되고 제1 합성 영상(100)에서 다른 내부 직사각형 프레임(30)이 선택되어 새로운 제2 합성 영상(200)이 생성된다.
다음, 뉴럴 네트워크에 입력되는 데이터는 종횡비 체크 단계(I)에서 "OK"로 간주된 제2 합성 영상(200)으로부터 준비된다(단계 90). 먼저, 제2 합성 영상(200)에 포함된 요소가 추출된다. 본 실시예에서, 예를 들면, 도 11A에 도시한 것처럼, 숫자 "4"를 구성하는 두 개의 요소가 제2 합성 영상(200)으로부터 추출된다. 다음, 이 추출된 영상의 크기를 규격화한다. 예를 들면, 규격화(normalization)가 실행되어 추출된 영상의 X축과 Y축의 길이(Lx, Ly)중 긴 것(도 11A에서 "Ly")은40개의 화소(pixel)이다.
다음, 규격화된 영상 요소의 가장자리(edge)선 상의 화소 각각에 대하여, 외향선 방향(outline direction)이 산출된다. 본 실시예에서, 도 11B에 도시한 것처럼, 네 개의 외향선 방향(D1 내지 D4)이 정해진다. 예를 들면, 도 11B의 원으로 표시된 영역에서, 목표 화소(target pixel)(Pt)의 외향선이 목표 화소(Pt)와 단지 한 개의 화소만큼 목표 화소(Pt)의 뒤쪽에 위치한 기준 화소(Ps) 사이에 연장하는 직선의 방향으로 정해질 때, 목표 화소(Pt)가 사선 방향인 외향성 방향(D2)을 갖는다고 간주된다. 그러나 이 결과는 목표 화소(Pt)의 정확한 외향선 방향이 D3으로 간주된다는 사실과는 일치하지 않는다. 본 실시예에서, 목표 화소(Pt)의 외향성 방향이 목표 화소(Pt)와 6개의 화소만큼 목표 화소로부터 뒤쪽에 위치한 기준 화소(Ps') 사이를 연장하는 직선의 방향으로 정의되기 때문에, 목표 화소(Pt)가 세로 방향인 외향성 방향(D3)을 갖는다는 것으로 간주된다. 이 결과는, 이미 기재한 것처럼, 정확한 외향선 방향이 D3이라는 사실과는 일치하지 않는다.
다음, 도 11E에 도시한 것처럼, 격자 패턴(grid pattern)(45)이 배치되어 규격화된 영상의 요소가 이 격자 패턴(45)에 포함된다. 이 실시예에서, 이 격자 패턴(45)은 40×40 화소의 사각형 형상으로 배열된다. 격자 패턴(45)의 격자 개수는 36개이다. 도 11F에 도시한 것처럼, 각 격자에 포함된 가장자리선 상의 화소에 대해서, 외향성 방향의 막대 그래프가 준비된다. 외향성 방향의 최대 높이만큼 외향성 방향 각각의 높이를 분할하는 처리가 각 막대 그래프에 대해서 실행된 후, 결과 데이터는 뉴럴 네트워크로 입력된다(단계 91). 이 실시예에서, 뉴럴 네트워크로의 입력 크기(dimensions)는 외향성 방향의 개수(=크기 4)에 격자의 개수(= 크기 36)를 곱해 얻어진 값인 144이다. 뉴럴 네트워크의 산출은 제2 합성 영상(200)에 포함된 숫자가 "4"라는 인식 결과는 나타낸다(단계 92).
가장 정확한 인식 결과를 얻기 위해, 인식된 숫자(예를 들면 "4")의 종횡비를 산출하고, 백 프로파게이션 네트워크에 기억된 기준 종횡비(예를 들면, "4"의 기준 종횡비)와 비교하여, 이들 두 종횡비들 간의 일치 정도를 체크한다(단계 93). 이 실시예에서, 이러한 것을 종횡비 체크 단계(II)라고 부른다. 이들 두 종횡비들간의 일치 정도에 따라 인식 결과가 얻어지면, 이 값은 메모리에 일시적으로 기억된다. 이어서, 두 종횡비들 간의 일치 정도가 좀더 큰 값을 갖는 새로운 인식 결과가 얻어지면, 메모리에 기억되는 데이터는 갱신된다(단계 94 및 95). 이러한 과정을 반복하여, 두 종횡비들 간의 일치 정도가 가장 큰 값을 갖는 인식 결과를 얻을 수 있다. 이 실시예에서, 예를 들면, 도 12에 도시한 것처럼, 숫자 "4"로 지정된 두 개의 요소에 대한 조합이 "X"로 지정된 점(점들)을 포함하는 다른 조합보다 좀더 높은 종횡비의 일치 정도를 갖는다. 그러므로 가장 큰 일치 정도를 갖는 내부 직사각형 프레임(30)의 조합이 숫자 "4"를 구성하는 요소의 정확한 조합으로서 출력된다.
제3 단계의 단계(96)는 제2 단계를 통해 제공된 제1 합성 영상(100)의 모든 내부 직사각형 프레임(30)이 제3 단계에서 기본 조합 요소로서 이용되었는지를 체크한다. 결과가 "예"이면, 본 실시예의 영상 인식 방법은 도 1A의 원래 영상에서 모든 숫자에 대한 인식이 완료되었는지를 체크하는 다음 단계(97)로 넘어간다. 결과적으로, 도 1D에 도시한 것처럼, 본 발명의 영상 인식 방법은 숫자를 구성하는 요소만을 둘러싸는 제2 합성 영상(200)의 외부 직사각형 프레임(70)을 포함하는 영상을 제공할 수 있다.
그런데, 이 실시예에서, 영역, 거리 및 종횡비와 같은 특징량(characteristic amounts)은 특징량 산출 유닛에 의해 정해질 수 있다. 또한, 특징량의 일치 정도는 영상 합성기에 의해 정해진다. 따라서, 본 실시예는 또한 이미 기재한 영상 인식 방법을 실현하는 영상 인식 장치나 시스템을 제공한다.
<제2 실시예>
이 실시예는, 예를 들면, 원래 영상이 악조건하에서 준비되었기 때문에, 도 13A에 도시한 것처럼, 인접한 숫자가 부분적으로 서로 연결되어 있는 숫자 배열을 인식될 원래 영상이 포함할 때, 제1 실시예의 영상 인식 방법 이전에 바람직하게 실행되는 사전 처리를 제시한다. 그러므로 이 사전 처리 이후에 실행되는 제1 실시예의 영상 인식 방법에서의 중복되는 설명은 생략한다.
먼저, 도 13B에 도시한 것처럼, 도 13A의 원래 영상에 대한 2진 영상이 준비된다. 그런 다음, 도 13C에 도시한 것처럼, 이 2진 영상으로부터 숫자의 정렬 방향(x축 방향)으로의 분포 강도(distribution strength)를 나타내는 프로파일(profile)이 정해진다. 도 13D는 각 밝은 부분이 숫자의 분포 강도가 높다는 것을 가리키는 도 13C의 프로파일에 대한 평면도(top view)이다. 부분(인접한 숫자들간의 부분)이 어두워지는 것은 숫자의 분포 강도가 낮아지거나 "0"이라는 것을 의미한다.
한 예로서, 프로파일을 정하는 방법을 소개한다. 먼저, 2진 영상(도 13B)에서의 숫자 부분이 숫자의 정렬 방향에 대해 평행하게 연장하는 투영 축(projectionaxis)으로 불리는 축(X축) 상에 투사된다. 이 투영 처리에서, 스캐닝(scanning)은 투영 방향에 대해 수직인 방향(Y축)으로 실행되어 스캐닝선 상의 화소 개수를 계수한다. 예를 들면, 도 13B에 도시한 것처럼, 숫자를 가리키는 하얀 부분(white regions)의 화소가 농도값(concentration) "1"을 갖고, 배경을 나타내는 검은 부분(black regions)의 화소가 농도값 "0"을 가질 때, 농도값 "1"을 갖는 화소의 개수를 계수한다. 투영값으로서, 투영축의 각 점에서부터 연장하는 스캐닝선 상의 농도값 "1을 갖는 화소의 개수를 정하여, 도 13C에 도시한 것처럼, 분포 강도의 프로파일을 얻을 수 있다.
그런데, 도 13B에 도시한 것처럼, 인접한 숫자(예를 들면, "9"와 "0")가 상대적으로 큰 영역에 의해 서로 연결되어 있을 때, 숫자를 구성하는 하얀 부분에서 연결되는 부분의 하얀 부분을 구별할 필요가 있다. 이 방법에서는, 농도값 "1"을 갖는 화소가 연속적으로 배열되어 있는 스캐닝선 상의 섬 부분(island regions)에 대한 개수와 이 투영값을 곱하여, 농도값 "1"을 갖는 연결되어 있는 부분의 화소에서 농도값 "1"을 갖는 숫자를 구별할 수 있다. 예를 들면, 도 13B에서, 연결되어 있는 부분을 통과하는 스캐닝선(Ls1) 상의화소 "1"의개수는 숫자 "0"을 통과하는 스캐닝선(Ls2) 상의화소 "1"의개수와 거의 동일하다. 그러나, 이미 기술한 곱셈 처리를 수행함에 따라서, 스캐닝 선(Ls1)에서의 분포 강도는 도 13C의 사각형 부분("Q1", "Q2")으로 도시한 것처럼, 스캐닝 선(Ls2)에서의 분포 강도보다 낮아진다.
다음, 도 13C에 도시한 것처럼, 미리 정해진 분포 강도를 갖는임계선(threshold line)(L)은 프로파일에 정해져 있다. 예를 들면, 분포 강도가 임계선(L)보다 낮은 프로파일의 아래쪽 부분(S2)이 분포 강도가 임계선(L)보다 큰 쌍을 이루는 프로파일의 위쪽 부분(S1L, S1R)들 사이에 위치할 때, 아래쪽 부분(S2)은 아래쪽 부분 내의 프로파일 중 최소 분포 강도를 갖는 위치("Pm")에서 두 개의 영역(S2L, S2R)으로 나눠진다. 도 13E는 Y축 방향으로 연장하는 각 흰색선이 프로파일의 각 아래쪽 부분(S2)에서 최소 분포 강도를 갖는 위치("Pm")를 가리키는 도 13C의 프로파일을 아래쪽에서 본 도면이다.
도 14A와 도 14B에 도시한 것처럼, 이들 영역(S2L, S2R)은 프로파일에서 제거된 후, 개별적으로 인접한 위쪽 부분(S1L, S1R)에 더해져, 위쪽 부분(S1L')은 인접한 위쪽 부분(S1R')에서 분리된다. 그래서, 원래 영상의 인접한 숫자가 각각 분리된 보상된 영상(compensated image)이 얻어진다. 제1 실시예의 영상 인식 방법을 이 보상된 영상에 실행함에 따라, 내부 직사각형 프레임이 배치되어 각 직사각형 프레임은 하나의 숫자를 에워싼다. 따라서, 인식의 정확도를 떨어뜨리는 원인이 될 수 있는, 서로 연결된 인접한 숫자가 하나의 직사각형 프레임으로 둘러싸여지는 문제를 피할 수 있다.
임계선(L)은 다음과 같이 정해질 수 있다. 즉, 프로파일의 위쪽 부분은 임계선이 위치 "0"으로 정해지는 경우에 먼저 추출된다. 그 다음, 위쪽 부분의 종횡비는 미리 정한 값, 예를 들면, 백 프로파게이션 네트워크에 미리 기억되어 있는 숫자의 평균 종횡비와 비교된다. 위쪽 부분의 종횡비가 평균 종횡비보다 클 경우, 임계선은 이용된다. 하지만, 이 조건을 만족하지 않을 경우, 임계선의 위치를 변경하면서 위에 기재한 과정을 반복함으로써, 위의 조건을 만족하는 임계선을 정한다. 한 변형으로서, 문자 가로 방향으로의 평균폭이 평균 종횡비 대신에 이용될 수 있다.
그래서, 제2 실시예의 사전 처리를 갖는 본 발명의 영상 인식 방법에 따르면, 심지어 양호하지 못한 질의 원래 영상, 예를 들면, 도 15에 도시한 것처럼, 일부 문자(예를 들면 "8"과 "9")가 복수의 요소로 나눠지고, 원치 않은 점이 문자 주위에 존재하며, 일부 문자(예를 들면, "S"와 "H")가 서로 연결되어 있는 영상에서도 정확하게 숫자 및 글자와 같은 문자를 효율적으로 인식할 수 있다.
<제3 실시예>
이 실시예는 제1 실시예의 영상 인식 방법 이전에 바람직하게 처리되는 사전 처리, 예를 들면, 인식될 원래 영상이 도 16A에 도시한 것처럼 복수 개의 점으로 이루어져 있는 숫자 및 글자와 같은 문자 정렬을 포함할 때의 사전 처리를 제시한다. 그러므로 이 사전 처리 이후에 실행되는 제1 실시예의 영상 인식 방법에서의 중복되는 설명은 생략한다.
이 사전 처리에서, 도 16B에 도시한 것처럼, 도 16A의 원래 영상에 대한 2진 영상이 먼저 준비된다. 그런 다음, 문자의 각 점은 두 개의 방향, 즉 2진 영상의 가로 방향과 수직 방향으로 펼쳐져, 도 16C에 도시한 것처럼, 각 펼쳐진 점이 이웃한 펼쳐진 점과 맞붙여진 보상된 영상을 얻는다. 이러한 확장 처리(expansion treatment)는 각각의 점 주위에 "0"의 값을 갖는 화소를 2진 영상의 지정된 방향으로 "1"의 값을 갖는 화소로 대체함으로써 실행시킬 수 있다. 그래서 이 얻어진 보상 영상에서, 각 문자는 하나의 요소로 이루어진다.
본 발명의 영상 인식 방법이 도 16A의 원래 영상에 대해서 실행될 때, 내부 직사각형 프레임이 문자의 각 점에 대하여 정렬되기 때문에 내부 직사각형 프레임의 전체 개수가 상당히 증가하므로, 영상을 인식하기 위한 필요 시간이 증가할 것 같은 염려가 있다. 또한, 이것은 인식의 정확성을 떨어뜨리는 원인이 될 수 있다. 그러나 본 발명의 영상 인식 방법이 도 16C의 보상된 영상에 대해서 실행되기 때문에, 정렬된 내부 직사각형 프레임의 총 개수는 도 16D에 도시한 것처럼 현저하게 줄어들 수 있다. 따라서 인식의 정확성을 향상시키고 영상을 인식하기 위한 시간을 절약할 수 있다. 그런데, 인접한 문자가 이 보상된 영상에서 서로 연결되어 있는 경우가 존재한다. 이 경우에, 제2 실시예에서 설명한 사전 처리를 도 16C의 보상된 영상에 실행할 수 있다.
<제4 실시예>
이 실시예는 제1 실시예의 영상 인식 방법 이전에 바람직하게 처리되는, 예를 들면, 도 17A에 도시한 것처럼, 원래 영상의 인접한 문자들간에 연결되어 있는 영역이 도 13A의 원래 영상의 경우보다 많을 경우 충분한 인식의 정확도가 제2 실시예의 사전 처리에 의해서는 얻어질 수 없을 때 처리되는 사전 처리를 제시한다. 그러므로 이 사전 처리 이후에 실행되는 제1 실시예의 영상 인식 방법에서의 중복되는 설명은 생략한다.
이 실시예에서, 내부 직사각형 프레임이 도 17A에 도시한 원래 영상에 배열될 때, 서로 연결되어 있는 두 개의 인접한 문자(도 17A에서의 "2"와 "3")는 커다란 하나의 내부 직사각형 프레임으로 에워 쌓여진다. 그런 다음, 이 커다란 내부 직사각형 프레임은 각각 미리 정한 영역을 갖는 복수 개의 부분으로 강제로 나눠져, 보상된 영상을 얻는다. 예를 들면, 커다란 내부 직사각형 프레임은 작은 복수의 내부 직사각형 프레임으로 나눠져, 작은 내부 직사각형 프레임 각각은 백 프로파게이션 네트워크에 미리 기억되어 있는 문자의 가로 방향 및 세로 방향으로의 최소 폭의 1/2과 실질적으로 동일한 면(side)을 갖는다. 도 17C에서, 하나의 커다란 내부 직사각형 프레임은 16개(4×4)의 작은 내부 직사각형 프레임으로 나눠진다.
얻어진 보상된 영상에 대해 제1 실시예의 영상 인식 방법을 실행함으로써, 인접한 문자들 사이에 연결되어 있는 영역이 상대적으로 큰 양호하지 못한 질의 원래 영상(예를 들면, 도 17A)에서조차, 도 17D에 도시한 것처럼, 정확하게 숫자 및 글자와 같은 문자를 효율적으로 인식할 수 있다. 그런데, 커다란 내부 직사각형 프레임의 영역이 미리 정한 값, 예를 들면 백 프로파게이션 네트워크에 미리 기억된 문자의 평균 영역의 1.2배보다 작을 경우, 이러한 처리를 하지 않고 본 발명의 영상 인식 처리를 실행하는 것이 바람직하다.
본 발명에 따르면, 원래 영상이 복수의 요소로 각각 이루어진 글자 및 숫자와 같은 문자나 이 문자 주위에 원치 않은 점을 포함하기 때문에 원래 영상이 2진화 또는 투영 처리에 의해 정확하게 인식될 수 없을 경우에도, 신뢰성 있는 영상 인식 방법을 제공할 수 있다. 또한, 예를 들어, 인식될 문자가 밑줄을 갖고 있을 때 또는 인쇄면이 새틴 처리된 면(satin finished surface)이기 때문에 배경에서문자를 분리하는 것이 어려울 때, 영상 인식의 정확도가 떨어지는 문제를 줄일 수 있다. 더욱이, 원래 영상이 배경에 어떤 노이즈 및/또는 각각 복수의 점으로 이루어진 문자, 예를 들면, 잉크 분사형 프린터(ink-jet printer)로 인쇄한 글자를 포함할 때, 정확한 인식 결과가 인식의 정확도를 갖게 효율적으로 얻어질 수 없다는 불편함을 향상시킬 수 있는 장점이 있다.
그래서, 본 발명의 영상 인식 방법이 양호하지 않은 품질을 갖는 원래 영상에서조차 정확하게 문자를 효율적으로 인식할 수 있기 때문에, 본 출원이 몹시 기대된다.

Claims (7)

  1. (I) 복수의 요소(element)로 구성된 문자(character)를 포함하는 제1 영상을 취하는 단계;
    (II) 상기 복수의 요소 각각이 직사각형 프레임으로 둘러싸여져 있는 제2 영상을 얻도록 상기 제1 영상에서 상기 복수의 요소를 추출하는 단계;
    (III) 상기 제2 영상에서 상기 직사각형 프레임의 조합에 대한 합성 영상(composite image)을 형성하는 단계;
    (IV) 상기 합성 영상에 포함된 상기 요소의 특징량(characteristic amount)을 산출하는 단계;
    (V) 상기 합성 영상의 상기 특징량과 상기 제1 영상에 포함될 기준 문자 사이의 일치 정도를 제공하기 위해 상기 기준 문자에 대한 학습을 이미 마친 백 프로파게이션 네트워크에 상기 특징량을 입력하는 단계;
    (VI) 상기 제2 영상에서 상기 직사각형 프레임의 상이한 조합에 대해 상기 단계(III) 내지 (V)를 반복하여 얻어진 결과로부터 상기 합성 영상의 특징량과 상기 기준 문자 간의 가장 큰 일치 정도를 갖는 상기 합성 영상을 인식 데이터로서 출력하도록 상기 합성 영상을 정하는 단계
    를 포함하는 영상 인식 방법.
  2. 제1항에서,
    상기 제1 영상이 서로 연결되어 있는 적어도 두 개의 문자를 포함할 때 실행되는 사전 처리를 포함하되, 상기 사전 처리는
    상기 적어도 두 개의 문자를 포함하는 2진 영상을 준비하는 단계;
    상기 2진 영상에서부터 상기 적어도 두 개의 문자의 정렬 방향으로 분포 강도를 나타내는 프로파일을 정하는 단계;
    상기 미리 정한 분포 강도를 갖는 임계선을 상기 프로파일에 설정하는 단계;
    상기 분포 강도가 상기 임계선보다 낮을 때, 상기 적어도 두 개의 문자가 서로 분리되는 보상된 영상(compensated image)을 얻기 위해, 상기 프로파일의 제1 부분을 상기 프로파일로부터 제거하는 단계: 및
    상기 보상된 영상을 상기 제1 영상으로서 이용하는 단계
    를 포함하는 영상 인식 방법.
  3. 제2항에서,
    상기 사전 처리는
    상기 프로파일에서부터 상기 제1 부분을 제거한 후, 상기 제1 부분 내의 상기 프로파일 중 최소 분포 강도를 갖는 위치에서 상기 제1 부분을 두 개의 영역으로 나누는 단계; 및
    상기 분포 강도가 상기 임계선보다 클 경우, 상기 보상된 영상을 얻기 위해 는 상기 두 개의 영역 각각을 상기 제1 부분의 양 옆(side)에 위치한 상기 프로파일 중 한 쌍의 제2 부분에 더하는 단계
    를 포함하는 영상 인식 방법.
  4. 제1항에서,
    상기 제1 영상이 복수의 점으로 이루어진 문자를 포함할 때 실행되는 사전 처리를 포함하되, 상기 사전 처리는
    상기 점으로 이루어진 상기 문자를 포함하는 2진 영상을 준비하는 단계;
    보상된 영상을 얻기 위해 상기 2진 영상에서 상기 문자의 점 각각을 각 확장된 점이 인접한 확장된 점과 연결되도록 가로 방향으로 확장하는 단계; 및
    상기 보상된 영상을 상기 제1 영상으로서 이용하는 단계
    를 포함하는 영상 인식 방법.
  5. 제1항에서,
    상기 제1 영상이 복수의 점으로 이루어진 문자를 포함할 때 실행되는 사전 처리를 포함하되, 상기 사전 처리는
    상기 점으로 이루어진 상기 문자를 포함하는 2진 영상을 준비하는 단계;
    보상된 영상을 얻기 위해 상기 2진 영상에서 상기 문자의 점 각각을 각 확장된 점이 인접한 확장된 점과 연결되도록 가로 방향과 세로 방향으로 확장하는 단계; 및
    상기 보상된 영상을 상기 제1 영상으로서 이용하는 단계
    를 포함하는 영상 인식 방법.
  6. 제1항에서,
    상기 특징량은 상기 합성 영상의 종횡비(aspect ratio)인 영상 인식 방법.
  7. 제1 영상을 취하는 영상 촬상 장치(image pickup device);
    상기 제1 영상에 포함된 문자를 구성하는 복수의 요소를 추출하여, 상기 요소 각각이 직사각형 프레임으로 둘러싸여져 있는 제2 영상을 얻는 영상 요소 분할부(image-element divider);
    상기 제2 영상에서 상기 직사각형 프레임의 조합에 대한 합성 영상(composite image)을 형성하는 합성 영상 생성부(composite-image generator);
    상기 합성 영상에 포함된 상기 요소의 특징량(characteristic amount)을 정하는 특징량 산출부(characteristic amount calculator);
    상기 제1 영상에 포함될 기준 문자에 대한 학습을 이미 마치고, 상기 특징량이 입력될 때 상기 합성 영상의 상기 특징량과 상기 기준 문자 사이의 일치 정도를 제공하는 백 프로파게이션 네트워크; 및
    상기 제2 영상에서 상기 직사각형 프레임의 상이한 조합에 대해 상기 백 프로파게이션 네트워크에 의해 제공된 결과로부터, 상기 합성 영상의 특징량과 상기 기준 문자 간의 가장 큰 일치 정도를 갖는 상기 합성 영상을 정하여, 상기 합성 영상을 인식 데이터(recognition data)로서 출력하는 영상 분석기(image analyzer)
    를 포함하는 영상 인식 장치.
KR1020037009646A 2001-11-30 2002-11-28 영상 인식 방법 및 그 방법을 위한 장치 KR100567362B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2001-00367675 2001-11-30
JP2001367675A JP3965983B2 (ja) 2001-11-30 2001-11-30 画像処理方法およびその装置
PCT/JP2002/012470 WO2003046807A1 (en) 2001-11-30 2002-11-28 Image recognition method and apparatus for the same method

Publications (2)

Publication Number Publication Date
KR20030076620A true KR20030076620A (ko) 2003-09-26
KR100567362B1 KR100567362B1 (ko) 2006-04-03

Family

ID=19177389

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037009646A KR100567362B1 (ko) 2001-11-30 2002-11-28 영상 인식 방법 및 그 방법을 위한 장치

Country Status (8)

Country Link
US (1) US7480410B2 (ko)
EP (1) EP1449153B1 (ko)
JP (1) JP3965983B2 (ko)
KR (1) KR100567362B1 (ko)
CN (1) CN100489885C (ko)
DE (1) DE60208817T2 (ko)
TW (1) TWI221587B (ko)
WO (1) WO2003046807A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100987110B1 (ko) * 2008-12-12 2010-10-12 (주)씨프로 카메라 모듈용 지지장치

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060193520A1 (en) * 2005-02-28 2006-08-31 Takeshi Mita Object detection apparatus, learning apparatus, object detection system, object detection method and object detection program
JP5292643B2 (ja) * 2010-07-28 2013-09-18 武蔵エンジニアリング株式会社 投票用紙の読取装置および読取方法
CN102385707A (zh) * 2010-08-30 2012-03-21 阿里巴巴集团控股有限公司 一种数字图像识别的方法、装置及爬虫服务器
JP2012194705A (ja) * 2011-03-15 2012-10-11 Omron Corp 画像処理装置、画像処理方法および画像処理プログラム
TWI602155B (zh) * 2013-02-08 2017-10-11 威聯通科技股份有限公司 利用影像內容不連續性增強物件偵測之方法
WO2016006076A1 (ja) * 2014-07-10 2016-01-14 富士機械製造株式会社 部品装着座標の作成方法および部品装着座標の作成装置
US9361536B1 (en) * 2014-12-16 2016-06-07 Xerox Corporation Identifying user marks using patterned lines on pre-printed forms
CN105138963A (zh) * 2015-07-31 2015-12-09 小米科技有限责任公司 图片场景判定方法、装置以及服务器
TWI607387B (zh) 2016-11-25 2017-12-01 財團法人工業技術研究院 字符辨識系統及其字符辨識方法
CN108229470B (zh) 2017-12-22 2022-04-01 北京市商汤科技开发有限公司 文字图像处理方法、装置、设备及存储介质
CN111598076B (zh) * 2020-05-25 2023-05-02 北京明略软件系统有限公司 一种标签图像中日期检测处理方法及装置
JP7137170B1 (ja) * 2021-03-22 2022-09-14 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5991582A (ja) 1982-11-16 1984-05-26 Nec Corp 文字読取装置
JPH0782524B2 (ja) 1983-03-31 1995-09-06 株式会社東芝 光学的文字読取装置
JPH0614372B2 (ja) 1984-01-23 1994-02-23 日本電信電話株式会社 文字読取方法
JPS6129982A (ja) 1984-07-21 1986-02-12 Nippon Telegr & Teleph Corp <Ntt> オンライン手書き文字列認識方式
JPS62190574A (ja) 1986-02-18 1987-08-20 Mitsubishi Electric Corp 文字パタ−ン切り出し装置
JPS62223890A (ja) 1986-03-26 1987-10-01 Hitachi Ltd ダイナミツク型ram
US5048100A (en) * 1988-12-15 1991-09-10 Michael Kuperstein Self organizing neural network method and system for general classification of patterns
JP2944102B2 (ja) 1989-05-26 1999-08-30 烈 山川 ファジィニューロン
US5151951A (en) * 1990-03-15 1992-09-29 Sharp Kabushiki Kaisha Character recognition device which divides a single character region into subregions to obtain a character code
CA2081406C (en) * 1991-12-23 1997-09-16 Chinmoy Bhusan Bose Method and apparatus for connected and degraded text recognition
JP3187899B2 (ja) 1991-12-25 2001-07-16 松下電器産業株式会社 文字認識装置
US5481621A (en) * 1992-05-28 1996-01-02 Matsushita Electric Industrial Co., Ltd. Device and method for recognizing an image based on a feature indicating a relative positional relationship between patterns
US6041141A (en) 1992-09-28 2000-03-21 Matsushita Electric Industrial Co., Ltd. Character recognition machine utilizing language processing
JPH06180771A (ja) 1992-12-11 1994-06-28 Matsushita Electric Ind Co Ltd 英文字認識装置
US6212299B1 (en) 1992-12-11 2001-04-03 Matsushita Electric Industrial Co., Ltd. Method and apparatus for recognizing a character
WO1994027251A1 (en) * 1993-05-18 1994-11-24 Massachusetts Institute Of Technology Automated reading system and method
JPH07175894A (ja) 1993-11-05 1995-07-14 Toshiba Corp ニューラルネットワークと文字認識方法と電子部品実装検査装置及びそれを用いた管理方法
US5542006A (en) * 1994-06-21 1996-07-30 Eastman Kodak Company Neural network based character position detector for use in optical character recognition
JPH08212290A (ja) 1995-02-06 1996-08-20 Nippon Signal Co Ltd:The パターン識別における特徴量作成装置
JPH09305710A (ja) 1996-05-15 1997-11-28 Mitsubishi Heavy Ind Ltd 2値化装置
US6266445B1 (en) * 1998-03-13 2001-07-24 Canon Kabushiki Kaisha Classification-driven thresholding of a normalized grayscale image
GB2343045B (en) * 1998-10-21 2003-03-05 Racal Res Ltd Systems and methods for processing digital image data
EP1089214A3 (en) * 1999-09-30 2005-01-26 Matsushita Electric Industrial Co., Ltd. Apparatus and method for image recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100987110B1 (ko) * 2008-12-12 2010-10-12 (주)씨프로 카메라 모듈용 지지장치

Also Published As

Publication number Publication date
WO2003046807A1 (en) 2003-06-05
TW200300539A (en) 2003-06-01
US20040071345A1 (en) 2004-04-15
JP3965983B2 (ja) 2007-08-29
EP1449153A1 (en) 2004-08-25
JP2003168076A (ja) 2003-06-13
TWI221587B (en) 2004-10-01
EP1449153B1 (en) 2006-01-18
CN1489745A (zh) 2004-04-14
KR100567362B1 (ko) 2006-04-03
DE60208817D1 (de) 2006-04-06
US7480410B2 (en) 2009-01-20
CN100489885C (zh) 2009-05-20
DE60208817T2 (de) 2006-09-14

Similar Documents

Publication Publication Date Title
KR100567362B1 (ko) 영상 인식 방법 및 그 방법을 위한 장치
US8401333B2 (en) Image processing method and apparatus for multi-resolution feature based image registration
EP0840498A2 (en) Method and apparatus for pattern matching encoding
US7689004B2 (en) Method and apparatus for evaluating the quality of document images
CN105308944A (zh) 对移动设备捕获的数字图像中的对象进行分类的系统和方法
EP0843275A2 (en) Pattern extraction apparatus and method for extracting patterns
US9430607B2 (en) Electron beam drawing apparatus, electron beam drawing method, and storage medium
JP2008217833A (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
CN113688688A (zh) 图片中表格线条的补全方法与图片中表格的识别方法
JPH04270485A (ja) 印刷文字認識装置
JP6373729B2 (ja) プログラム、画像処理装置及び画像処理方法
JPS61117670A (ja) 文字切り出し処理方式
JP4164166B2 (ja) 照射領域抽出装置、照射領域抽出方法及びコンピュータ読み取り可能な記憶媒体
JP3104355B2 (ja) 特徴抽出装置
US7620260B2 (en) Line thinning method and system for grayscale image
JP2006106971A (ja) 表ベクトルデータ生成方法及び文書処理装置
JP2003317107A (ja) 罫線抽出方法及び装置
JPH0490082A (ja) 文書文字方向検出装置
JP3442206B2 (ja) 文字認識方法及び文字認識装置
JPS60142482A (ja) 縮小画像作成装置
JPH05274472A (ja) 画像認識装置
JPH11175659A (ja) 文字認識装置
JPH11296618A (ja) 文字認識装置および字種判定装置
JPH02263272A (ja) 文書画像処理装置
JPH06223225A (ja) 文字認識方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090316

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee