KR20010024208A - 문자 인식 장치 - Google Patents

문자 인식 장치 Download PDF

Info

Publication number
KR20010024208A
KR20010024208A KR1020007002990A KR20007002990A KR20010024208A KR 20010024208 A KR20010024208 A KR 20010024208A KR 1020007002990 A KR1020007002990 A KR 1020007002990A KR 20007002990 A KR20007002990 A KR 20007002990A KR 20010024208 A KR20010024208 A KR 20010024208A
Authority
KR
South Korea
Prior art keywords
character pattern
character
input
pattern
dictionary
Prior art date
Application number
KR1020007002990A
Other languages
English (en)
Inventor
요꼬따도시미
구즈누끼소시로
미우라마사끼
군지게이꼬
가쯔라고요
Original Assignee
가나이 쓰토무
가부시키가이샤 히타치세이사쿠쇼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가나이 쓰토무, 가부시키가이샤 히타치세이사쿠쇼 filed Critical 가나이 쓰토무
Publication of KR20010024208A publication Critical patent/KR20010024208A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • G06V30/373Matching; Classification using a special pattern or subpattern alphabet

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

흘림체, 필순의 부정확함, 변형을 포함하는 문자를 인식할 수 있는 문자 인식 장치를 제공하는 것으로, 수기 문자를 입력하고, 좌표점 열을 출력하는 입력부와, 복수의 문자 코드와, 각각의 문자 코드에 대응하는 문자 패턴을 저장하는 사전과, 입력부로부터 출력되는 좌표 열로부터, 이 문자를 구성하는 복수의 요소로 분해하는 요소 분해부와, 사전에 저장된 각각의 문자 패턴에 대해, 사전에 저장된 문자 패턴의 요소와 입력된 문자 패턴의 요소에 대해 대응하는 거리값을 구하고, 대응하지 않는 요소에 기초하여 구해진 거리값을 수정하는 매칭부로 구성된다.

Description

문자 인식 장치{CHARACTER RECOGNIZER}
특개평2-56689호 공보에, 부정확한 글자나 흘림체 문자를 인식하는 기술이 기재되어 있다. 상세하게는, 문자를 구성하는 좌표점 열로부터 한방향의 직선을 추출한다. 추출한 직선에 대해 분류를 행하고, 긴 직선을 서브 스트로크 S1로서 추출한다. 다음에 이 추출한 이외의 부분을 서브 스트로크 S2로 한다. 그리고, 이 S1, S2의 위치나, 형상에 기초하여 사전에 해당되는 것이 있는지 여부의 판정을 행하여 인식을 행한다.
상기 종래 기술에서는, 문자 패턴이 구성되는 좌표 열로 구성되는 스트로크의 형상이나 배치에 기초하여 인식을 행하고 있다. 그러나, 모든 좌표 열에 기초하여 인식을 행하기 위해 다음과 같은 문제가 있다.
일반적으로 흘림체나, 부정확한 글자를 인식할 수 없는 것은, 입력된 문자 패턴과, 사전에 저장된 문자 패턴이 다르기 때문이다. 흘림체의 경우에는 불필요한 입력이 입력되거나, 사전에 저장되어 있는 문자 패턴과 형태가 전혀 다른 것으로 되기도 한다. 따라서, 흘림체 문자를 인식하기 위해서는 입력된 문자 패턴중, 어떤 부분이 인식에 필요한 부분이고, 어떤 부분이 인식에 불필요한 부분인지를 나눌 필요가 있고, 모든 좌표에 기초하여 인식을 행하여도 흘림체 문자를, 적합하게 인식할 수 없다.
본 발명의 목적은, 이러한 문제를 해결하고, 휘갈겨 씀으로써, 흘림체이고, 또한 필순도 부정확하고, 변형을 포함하는 문자에서도 인식할 수 있고, 또한 인식 처리의 부하가 적은 문자 인식 장치를 제공하는 것이다.
본 발명은 수기 문자를 온라인으로 인식하는 수기 문자 인식 장치에 관한 것이다.
도 1은 본 시스템의 구성을 나타낸 도면.
도 2는 종래 예의 문자 인식의 개요를 나타낸 도면.
도 3은 본 발명의 문자 인식의 개요를 나타낸 도면.
도 4는 본 시스템의 처리의 전체를 나타낸 도면.
도 5는 도 4의 쐐기형 근사 처리를 나타낸 도면.
도 6A 및 도 6B는 도 5의 종횡 요소 분해 처리를 나타낸 도면.
도 7A-도 7C는 도 4의 입력 사전과의 매칭 처리를 나타낸 도면.
도 8A 및 도 8B는 도 7A-도 7C의 특징 요소의 AND를 취하는 거리값의 산출 처리를 나타낸 도면.
도 9는 상세 식별 처리를 나타낸 도면.
도 10A 및 도 10B는 획(劃) 부족 체크 처리를 나타낸 도면.
도 11은 링크 체크 처리를 나타낸 도면.
도 12는 펜 방향 체크 처리를 나타낸 도면.
도 13A-도 13C는 처리의 개요를 설명하기 위한 도면.
도 14는 처리의 개요를 설명하기 위한 도면.
도 15A-도 15F는 처리의 개요를 설명하기 위한 도면.
상기 목적을 달성하기 위해 본 발명은, 수기 문자를 입력하고, 좌표점 열을 출력하는 입력부와, 복수의 문자 코드와, 각각의 문자 코드에 대응하는 문자 패턴을 저장하는 사전과, 입력부로부터 출력되는 좌표 열로부터, 이 문자를 구성하는 복수의 요소로 분해하는 요소 분해부와, 사전에 저장된 각각의 문자 패턴에 대해, 사전에 저장된 문자 패턴의 요소와 입력된 문자 패턴의 요소에 대해 대응하는 거리값을 구하고, 대응하지 않은 요소에 기초하여 요구한 거리값을 수정하는 매칭부와, 거리값이 작은 문자 패턴을 표시부에 표시하는 처리부를 갖는 것을 특징으로 한다.
이하, 도면에 따라서 본 발명의 온라인 수기 문자 입력 장치를 설명한다.
도 1에, 본 발명의 온라인 수기 문자 입력 장치를 나타낸다. 액정 타블렛(110)은 입력부와 표시부로 구성되며, 사용자가 이 위에 수기로 입력하면, 이것을 검출하여, 시계열의 좌표점 열로서 펜 매니저(120)로 전달한다. 펜 매니저(120)는 액정 타블렛(110)으로부터 시계열의 좌표점 열을 수취하고, 어플레케이션(130)이 정의하는 액정 타블렛(110) 상의 영역 속성에 따라서, 만약에 좌표점 열이 문자 인식하여야 할 영역 속성에 있으면, 전 처리부(140)에 이 좌표점 열을 전달한다. 어플리케이션(130)은 어플리케이션 프로그램을 실행하고, 액정 타블렛(110) 상의 영역을 몇 개인가로 분할하여 영역 속성을 정하는 것으로, 예를 들면, 화면의 일부를, 문자 입력 영역이라고 정한다. 전 처리부(140)는, 펜 매니져(120)로부터 시계열의 좌표점 열을 수취하고, 펜 속도가 빠른 부분에는 듬성 듬성/느린 부분에는 조밀하게 되어 있는 좌표점 열을 재샘플링 처리하여 좌표점 열의 밀도를 일정하게 하고, 또한, 위치와 사이즈를 정규화한다. 이와 같이, 위치 및 사이즈가 정규화되고, 밀도가 일정하게 된 좌표점 열은 쐐기형 근사부(5)에 입력된다.
쇄기형 근사부(150)는, 요소 분해부(151), 요소 재배열부(152)로 구성되어 있다.
요소 분해부(151)는, 전 처리부(140)에서 밀도가 일정하게 된 좌표점 열로부터, 패턴 매칭을 행하기 위한 선분을 생성한다. 생성된 선분은, 요소 재배열부(152)에 전달되고, 여기서는 필순을 부정확하게 쓴 문자에서도, 그 위치에 따라 사전과 대응시키도록 하기 위해 상부 또는 하부 방향의 선분 요소를 그 위치에 따라, 상부로부터 순서대로 배열하고, 우측 또는 좌측 방향의 선분 요소를 좌측으로부터 순서대로 배열하거나, 선분 요소의 길이를 순서대로 배열한다. 그리고, 그 위치 순서 결과를 유지함과 함께, 선분 요소 열과 선분 위치 순서 결과를 매칭부(170)로 전달한다.
매칭부(170)는, 쐐기형 근사부(150)로부터 전송되어 오는 선분 요소 열, 선분 위치 순서 결과에 기초하여 사전과의 매칭을 행하고, 액정 타블렛(110)으로부터 수기로 입력된 문자 패턴에 가까운 문자를 사전으로부터 출력하고, 액정 타블렛(110)의 표시부에 표시하는 것이다. 또한, 사전(160)에는, 문자 패턴의 좌표점 열을, 전 처리부(140) 및 쐐기형 근사부(150)에 걸쳐서 얻어지는 선분 요소 열을, 문자 코드와 대응시켜 유지하고 있다.
매칭부(170)는 매칭 관리부(171), 입력된 문자 패턴의 선분 요소 열과, 사전에 저장되어 있는 문자 패턴과의 거리값을 구하는 AND 처리부(172)와, 사전에만 존재하는 선분 요소를 추출하고, 거리값을 수정하는 사전 거리값 수정부(173), 입력 패턴에만 존재하는 선분 요소를 추출하여, 거리값을 수정하는 입력 거리값 수정부(174), AND 처리부(172), 사전 거리값 수정부(173), 입력 거리값 수정부(174)로부터 얻어진 거리값에 기초하여 인식 결과를 추출하고, 액정 타블렛(110)의 표시부로 출력하는 인식 결과 출력부(175)로 이루어진다.
매칭 관리부(171)는, 사전(160)으로부터 하나씩 사전에 저장되어 있는 문자 패턴을 판독하여, 이하, AND 처리부(172), 사전 거리값 수정부(173), 입력 거리값 수정부(174)에 의해 입력의 문자 패턴과의 거리값을 산출한다. 우선, 쐐기형 근사부(150)와 사전(160)으로부터 입력의 문자 패턴과 사전의 문자 패턴의 선분 요소 열을 받아, AND 처리부(172), 사전 거리값 수정부(173), 입력 거리값 수정부(174)로 전달하고 입력의 문자 패턴과 사전의 문자 패턴과의 거리값을 수정하면서 산출하고, 마지막으로 사전 패턴의 ID 또는 문자 코드와, 그 거리값을 인식 결과 출력부(175)로 전달한다.
AND 처리부(172)는, 세로의 선분 요소 또는 가로의 선분 요소와 별개로, 사전 패턴의 선분 요소 열과 입력 패턴의 선분 요소 열을 비교했을 때에, 위치[요소 재배열부(171)의 재배열 후의 순위]가 가까운 사전의 문자 패턴의 선분 요소와 입력의 문자 패턴의 선분 요소를 대응시키고, (1) 입력의 문자 패턴에 대응하는 선분 요소가 사전의 문자 패턴에 있다, (2) 입력의 문자 패턴에 대응하는 선분 요소가 사전의 문자 패턴에 없다, (3) 사전의 문자 패턴에 대응하는 선분 요소가 입력의 문자 패턴에 없는 경우의 3종류로 분류하여, 이들 사이에서 각각 거리값을 구하고, 이 총합을 최종적인 거리값으로 한다. (2)와 (3)에 대해서는, 사전 거리값 수정부(173), 입력 거리값 수정부(174)에 의해, 후에 상세히 거리값을 구하기 때문에, 여기서는, 일정값의 거리값으로서 둔다. 처리 결과로서의, 선분 요소의 대응과, 선분 요소 사이의 거리값을 매칭 관리부(171)를 통해 사전 거리값 수정부(173)에 전달한다. .여기서, 거리값이 지나치게 커지면, 그 사전 패턴에 대한 처리를 중단하여, 이 취지를 매칭 관리부(171)에 전달하여도 좋다. 사전 거리값 수정부(173)는, 입력된 문자 패턴의 변형을 고려하는 것에 있다. 변형이나 흘림체의 정도가 심해져 생략이 발생되면, 사전의 문자 패턴에는 선분 요소라고 되어 있어도 입력의 문자 패턴에는 대응하는 선분 요소가 없는 경우가 있다. 그 때문에, AND 처리부(172)의 결과, 사전의 문자 패턴의 선분 요소로 대응하는 입력 패턴의 선분 요소가 없는 것에 대해, (l) 우선, 입력의 문자 패턴의 선분 이외의 선분 요소에 대응하는 것이 있는지를 탐색하고, 있으면, 이것과의 거리값을 얻는다. (2) 없으면, 사전의 문자 패턴의 그 선분 요소의 크기에 따른 거리값으로 한다. 그리고, AND 처리부(172)로 일정값을 부여하고 있는 거리값을 이것으로 치환한다. 크기에 따른 거리값으로 하는 것은, 큰 선분 요소는 생략되기 어렵지만, 작은 선분 요소는 생략되기 용이하기 때문이다. 그리고, AND 처리부(172)에서 일정값을 부여하고 있는 거리값을 이것으로 치환한다. 처리 결과로서의, 선분 요소의 대응과, 선분 요소 사이의 거리값을 매칭 관리부(171)를 통해 입력 거리값 수정부(174)로 전달한다.
입력 거리값 수정부(174)도, 입력 문자의 흘림체를 고려하는 것에 있다. 흘림체가 생기면, 그 부분에 상당하는 선분 요소이며, 입력의 문자 패턴에는 선분 요소라고 되어 있어도, 사전의 문자 패턴에는 선분 요소가 없다. 그래서, 입력의 문자 패턴을 필순의 선분 요소 열로 보았을 때, 사전의 문자 패턴과 대응시킬 수 없던 선분 요소의 전후에, 사전의 문자 패턴과 대응시킬 수 있는 선분 요소가 있으면, 그 사전의 문자 패턴의 선분 요소를 연결하는 위치에, 입력의 문자 패턴의 그 선분 요소가 있는 것이면, 그 선분 요소는 흘림체의 부분이라 해석할 수 있다. 흘림체라고 해석할 수 있으면, 작은 거리값을 부여하고, 할 수 없으면 큰 거리값을 부여한다. 그리고, AND 처리부(172)에서 일정값을 부여하고 있는 거리값을 이것으로 치환한다. 처리 결과로서의, 선분 요소의 대응시킴과, 선분 요소 사이의 거리값을 매칭 관리부(171)로 전달한다.
인식 결과 출력부(175)는, 매칭 관리부(171)로부터 사전의 문자 패턴의 ID 또는 문자 코드와, 그 거리값을 얻으면 거리값이 작은 것을 선출하고, 거리값의 순서로 배열하여 인식 결과로 한다. 그리고, 그 인식 결과를 일단 상세 식별부(180)로 전달하고 다시 복귀되어 온 인식 결과를 얻으면, 그것을 펜 매니저(2)로 출력한다.
상세 식별부(180)는, 요소 분해부(151)에 의해 선분 요소로 나눈 선분 요소 열에서는 지워지는 문자의 특징으로 인식 결과의 순위를 교체시키는 것에 있다. 상세 식별부(8)는 인식 결과 출력부(175)로부터, 인식 결과로서, 거리값이 작은 사전 패턴의 ID 또는 문자 코드와, 그 거리값을 얻으면, 각 사전 패턴의 상세한 특징에 대해 입력 패턴을 조사하고, 필요하면 인식 결과 순위를 교체시켜, 결과를 인식 결과 출력부(175)로 전달한다.
이하, 본 실시예의 동작 순서를 나타낸다.
도 4는, 본 발명의 온라인 수기 문자 입력 장치 전체의 처리 공정을 나타낸 것이다.
처리 401에서 액정 타블렛(110), 펜 매니저(120), 어플리케이션(130)에 의해 사용자가 수기로 입력한 문자 패턴을 시계열의 좌표점 열로서 받아들인다. 처리 402, 403에서는,전 처리부(140)에 의해, 펜 속도가 빠른 부분은 듬성 듬성/느린 부분은 조밀하게 되어 있는 좌표점 열을 샘플링 처리하여 좌표점 열 밀도를 일정하게한다. 또한, 위치와 사이즈를 정규화한다. 위치와 사이즈의 정규화는, 예를 들면, 입력된 문자 패턴의 좌표점 열로부터 문자 패턴의 무게 중심을 구하고, 이 무게 중심과 원점을 중첩하도록 패턴을 평행 이동하여 위치를 정규화하고, 무게 중심(=원점)으로부터 각 좌표점까지의 거리의 평균값이 일정값이 되도록 확대 또는 축소하여 사이즈를 정규화한다.
다음에 처리 404에서 쐐기형 근사부(150)에 의해 쐐기형 근사 처리를 행한다.
쐐기형 근사 처리에 대해서는, 도 5에 도시한 바와 같이 입력 패턴을 종횡의 선분 요소로 분해하는 종횡 요소 분해 처리(501)를 행하고, 종횡의 선분 요소로 분해된 선분을 재배열하는 요소 재배열 처리(503)를 행한다.
도 6A에 종횡 요소 분해 처리(501)의 처리 공정을 나타낸다.
처리 601에서, 입력된 문자 패턴으로부터 x축, y축 방향의 국부적인 MIN/MAX값을 취하는 점 및 시종점(始終點)을 추출하면서 선분을 결정한다. 즉, 도 15A에 도시한 바와 같이 사용자에 의해 입력된 시점 a로부터 좌표점 열에 따라서 이동하면, 점 b에서 y축이 최소가 된다. 다음에 점 b를 시점으로 하여 좌표점 열에 따라서 이동하면 점 c에서 y축이 최대가 된다(도 15B). 이와 같이 하여 x축, y축 방향의 국부적인 MIN/MAX값을 구하면 도 15C와 같이 된다.
그러나, x축, y축 방향의 국부적인 MIN/MAX값을 취해 구해진 점을 연결하면 도 15D에 도시한 바와 같이, 사용자가 입력한 문자 패턴과는 분명히 다르다. 그래서, 이 도 15C에 도시한 문자 패턴을 사용자가 입력한 문자 패턴에 가깝게 하는 처리를 처리 602∼처리 604에서 행한다.
처리 602∼605에서는, 구해진 점으로 구성되는 선분마다, 선분과 원래의 스트로크를 구성하는 좌표점 열과의 길이의 비가 미리 정해진 임계치 a보다 작으면, 선분에 의한 근사가 불충분하다고 판단하고, 원래의 스트로크의 중점을 근사점으로하여 보간한다. 도 15E에서는, 선분 1이 원래의 스트로크 2와의 길이의 비가 미리 정해진 임계치보다도 작기 때문에 근사점 d가 보간된 부분을 나타내고 있다. 이와 같이 하여 보간한 것이 도 15F이다.
마지막으로 처리 606에서 처리 601∼605에서 얻어진 점 사이를 연결하여 선분 열을 구한다.
또한, 근사점을 보간하는 처리로서는, 도 6B에 도시한 바와 같이 선분 요소와 원래의 스트로크로 둘러싸는 면적을 구하고, 이 면적이 미리 정해진 임계치보다도 클 때에 근사점을 보완하도록 하여도 좋다.
이와 같이 하여 구해진 선분 열은, 도 5의 처리 502에서 재배열이 행해지고, 도 4의 처리 405에서 입력과 사전과의 매칭을 행한다.
이 입력과 사전과의 매칭 처리 505의 상세를 도 7A에 도시한다.
여기서는, 선분 열과 모든 사전 패턴과의 거리값을 구한다. 처리 701에서는,선분 열과 사전 패턴과 일치하는 요소의 거리값을 구한다. 예를 들면, 도 7A의 입력 쐐기형으로 나타낸 문자 패턴과, 사전 쐐기형으로 나타낸 문자 패턴이면, 도 7B의 굵은 선 부분이, 2개의 패턴의 일치하는 AND 부분으로, 이 부분의 거리값을 산출한다.
이 특징 요소의 AND를 취하는 거리값을 산출하는 처리 701을 상세히 나타낸 것이 도 8A 및 8B이다.
처리 801에서 dist_cp1, dist_i_sng,_dist_d_sng를 초기화한다. 여기서, dist_ cp1은 입력 패턴의 선분 요소와 사전 패턴의 요소로 대응 가능한 것에 대한 거리값을 유지하는 변수이다. 도 7B의 예로 말하자면, 굵은 선으로 나타낸 부분의 거리값이다. dist_i_sng는 사전 패턴의 요소와 대응시킬 수 없던 입력 패턴의 요소에 대한 거리값을 유지하는 변수이다. 도 7B의 예로 말하자면 입력 패턴의 가는 선으로 나타낸 부분이다. dist_d_sng는 입력 패턴의 요소와 대응시킬 수 없던 사전 패턴의 요소에 대한 거리값을 유지하는 변수이다.
다음에 처리 802∼804에서 cpl_i(i)를 -1로 초기화한다. cp1_i(i)는, 입력 패턴의 선분의 요소 i와 대응시킨 사전 패턴의 요소 번호 j를 유지하는 변수이다. 그리고, 요소의 펜 방향 별로 ↓→↑←의 4방향으로 분류한다. 이 분류는 후의 처리 810에서 입력 패턴의 요소 i와 대응시킨 사전 패턴의 요소 j를 찾을 때에, 동일 분류 내에서 찾음으로써 고속으로 찾을 수 있기 때문이다. 또한, 분류는 하지 않아도 좋다.
다음에, 처리 805에서, 분류된 요소마다 선분의 길이로 분류해 놓는다. 이 분류는 처리 810에서 입력 패턴의 요소 i와 대응시킨 사전 패턴의 요소 j를 찾을 때에, 여기서 분류한 순서로 찾음으로써 고속으로 찾을 수 있기 때문이다. 또한, 분류는 하지 않아도 좋다.
다음에 처리 806∼808에서, 사전 패턴에 대해 처리 802∼804와 마찬가지로, cp1_d(j)를 -1로 초기화하고, 요소의 펜 방향별로 ↓→↑←의 4 방향으로 분류한다.
다음에, 처리 810∼814에서 매칭을 행한다. 우선 처리 810에서, 입력 패턴의 요소 i와 대응시키는 사전 패턴 요소 j를 찾기 위해, 입력 패턴의 요소 i와 동일 펜 방향으로 분류되어 있는 사전 패턴의 요소 j이고 또한 cp1_d(j)=-1, 즉 아직 어떤 입력 요소와도 대응시키고 있지 않은 요소 중에서 가장 거리값이 작은 것을 찾는다. 거리값은 예를 들면, 입력 패턴 요소 i가 시점 (xis, yis), 종점 (xie, yie), 사전 패턴 요소 j가 시점 (xjs, yjs), 종점 (xje, yje)로 나타내는 선분일 때, 다음식과 같이 산출한다.
거리값(i,j)=
=a*(|xis-xjs|+|yis-yjs|+|xie-xje|
+|yie-yje|+
b*(1(xie-xis)-(xje-xjs)|+|(yie-yis)
-(yje-yjs)|
여기서 상기 식의 제1항은 입력의 문자 패턴의 선분 i의 위치와 사전의 문자 패턴의 선분 j의 위치에 대한 차를 구하기 위해서이고, 필순 정보를 이용하지 않고서 인식하는 경우에는 반드시 필요하다. 사용하지 않으면 도 13A-도 13C에 도시한바와 같은 입력 패턴「三」을 식별할 수 없다.
처리 811에서는, 처리 810에서 얻은 거리값 (i, j)를 임계치와 비교하고, (i, j)의 대응이 올바른 것인지의 여부를 판정한다. 이것은 도 14에 도시한 바와 같이 손 떨림 등으로부터 입력된 노이즈 부분의 요소끼리가 대응시켜져 큰 거리값이 되어 오인식하게 된다고 하는 것을 방지하는 효과가 있다. 처리 811에서 대응시키는 것이 올바르게 된 경우에는, 처리 812에서 cpl_i(i)와 cp1_d(j)를 서로의 요소 번호 j와 i로 설정하고, dist_cp1에 거리값 (i, j)을 가산한다. 또한, 처리 813에서 대응이 올바르게 되지 않은 경우에는 처리 814에서 dist_i_sng에 입력 패턴 요소 i를 대응시킬 수 없는 것에 상당하는 거리값으로서 요소 i의 길이를 가산한다. 길이 이외에 상수를 이용하여도, 길이를 파라미터로 하는 함수를 이용하여도 좋다.
길이를 파라미터로 하는 함수를 이용하면, 도 14와 같은 노이즈 요소의 경우의 거리값을 억제할 수 있어, 문자의 큰 부분을 차지하는 선분의 대응이 불가능한 경우에는 큰 거리값을 부여할 수 있기 때문에 효과적이다.
다음에 처리 815∼817에서, 사전 패턴의 모든 선분 j=0∼J에 대해, cp1_d(j)를 조사하여 -1, 즉 입력의 문자 패턴의 선분과 대응시킬 수 없는 선분에 대해 처리 814와 마찬가지로 처리 817에서 거리값을 dist_d_sng로 가산한다.
이와 같이 하여, 입력의 문자 패턴과 사전의 문자 패턴과의 대응하는 특징에 대한 거리값을 산출한다.
다음에, 도 7A의 처리 702에서 사전만 선분의 탐색을 행하고, 거리값을 재산출한다. 도 7C의 예에서는 사전의 문자 패턴의 선분으로 입력의 문자 패턴의 선분과 대응시키지 않고 남아 있는 것은 없지만, 있으면 다음에 설명하는 처리 703의 경우와 마찬가지로 처리한다.
처리 703에서 입력만 특징 요소의 탐색을 행하고, 거리값을 재산출한다. 예를 들면, 도 7C의 입력의 문자 패턴과 사전의 문자 패턴이면, 도면 중의 굵은 선 부분으로 나타내는 입력 패턴의 특징 요소의 굵은 선으로나 타내는 부분(12, 14) 등이, 사전 패턴의 요소와 대응시킬 수 없어 남아 있다. 참조 번호(12)는, 사전 패턴의 요소와 대응시키고 있는 참조 번호(l1과 13) 사이에 입력되어 있고, 참조 번호(11과 13)와 대응시키고 있는 사전 패턴의 요소를 흘려 쓴 부분이라고 해석할 수 있기 때문에, 그렇게 해석할 수 없는 경우의 참조 번호(12)에 관한 거리값보다 작은 값을 부여하도록 하면, 흘림체 문자도 인식하기 용이해진다.
이와 같이 하여, 입력 패턴과 사전 패턴 사이에서 구해진 거리값에 기초하여 도 4의 처리 406의 상세 식별을 행한다.
즉, 처리 404에서 문자를 상하 좌우의 세로 줄와 가로 줄로 분류하고 있기 때문에 커브와 각과의 차이 등 패턴의 굴곡 사정에 대한 특징은 없어지게 된다. 그래서, 이 처리 406에 의해, 사전(160)은 다른 상세 식별 사전을 준비해 두고 쐐기형 근사에 의해 동일 형상으로 근사되는 문자가 인식 결과에 포함되어 있는 경우에는, 이 상세 식별 사전에 의해 각 사전의 문자 패턴의 상세한 특징에 대해 입력의 문자 패턴을 조사하고, 필요하면 인식 결과 순위를 교체시키는 처리를 행한다.
이 상세 식별 처리 406의 처리 공정을 도 9에 도시한다.
입력과 사전과의 매칭 처리 405에 의해 얻은 거리값이 작은 순으로 상위 N 위까지의 사전의 문자 패턴에 대해 이 상세 식별을 행한다. 우선, 처리 901∼905에서 거리값이 작은 순으로 상위 N위까지의 사전의 문자 패턴에 대해 획 부족 체크(901), 링크 체크(902), 펜 방향 체크(903), 각/커브의 체크(904)를 행한다.
도 10A 및 도 10B는 획 부족 체크(901)의 처리 공정을 나타낸 것이다. 이 처리는, 도 10A에 도시한 「ぐ」의 탁음점과 같이 작은 요소라 해도 부족한 경우에 큰 페널티를 거리값에 가산하는 것이다. 우선, 처리 1001에서 거리값 dist를 0으로 초기화한다. 또한, 처리 1002에서 링크 정보 link [ ] [ ]를 -l로 초기화한다.
그리고 처리 1003∼l008에서 모든 요소의 꺽은선의 조합에 대해 1003∼1007에서 끝점끼리가 일치하고 있는, 즉, 링크하고 있는 선분에 대해, 그 링크 정보를 1004또는 1006에 의해 link [ ] [ ]로 설정한다. link [i] [0]에는 선분 i의 시점에 종점이 접하고 있는 선분의 번호를, 또한, link [i] [1]에는 요소 i의 종점에 시점이 접하고 있는 선분의 번호를 설정한다. 그렇게 하면, 동일 획수로서 입력된 요소는, link [i] [1]을 참조하여 하나의 이어짐으로 찾아갈 수 있어, 획의 시점은 link [i] [0]=-1의 값을 취한다.
그래서, 처리 1010∼1013에 의해, link[i] [0]=-1의 값의 선분을 찾고, 획 머리(k)에 그 선분 번호를 설정한다. 그리고, 처리 1015∼1020에 의해, 획(k)에 포함되는 선분 모두가 대응되어 있지 않은 경우에는, 획 (k)의 총 길이를 페널티로서 거리값에 가산한다. 처리 1017에서는 탁점이 매우 작게 입력되는 경우를 고려하여, 임계치보다 작은 경우에는, 획 (k)의 총 길이가 아니라 임계치를 페널티로서 거리값에 가산한다. 처리 1015에서는, 선분 번호 i= 획 머리 (k)로부터 link [i] [1]을 참조함으로써 획에 포함되는 모든 선분을 찾아가면서 cpl_i(i) 또는 cp1_d (j)가 -1인지의 여부로 획(k)에 포함되는 선분 모두가 대응되어 있지 않은지를 조사한다. 처리 1016도 마찬가지로 link [i] [1]을 참조하여 하나의 이어짐으로 찾아가면서 모든 선분의 길이를 가산하여 획의 총 길이를 구한다. 여기서는, 그 링크 정보를 조사하여 link [ ] [ ]로 설정하고 있지만, 도 5의 처리 503에서의 요소 재배열 전에, 획에 포함되는 선분 번호를 link [ ] [ ]로 설정하여도 좋다. 이 경우에는 사전 패턴에 대해서도 link [ ] [ ] 정보를 보유해 놓으면 사전 용량이 증가하게 되기 때문에, 입력 패턴은 요소 재배열 전에 link [ ] [ ] 정보를 설정해 놓고, 사전 패턴만큼 도 10의 처리 l006 또는 1008에 의해 link [ ] [ ]로 설정하여도 좋다.
도 11은 도 9의 링크 체크 처리 902의 처리 공정을 나타낸 것이다. 이 처리는, 도 11에 도시한 「レ」나 이것에 닮은 패턴과 같이 요소의 링크 상황이 다른 경우에 상당하는 페널티를 거리값에 가산하는 것이다. a)와 같이 사전의 문자 패턴/입력 문자 패턴의, 한쪽에서는 접속하여 1개의 획을 이루고 있지만, 또 한쪽에서는2개의 획으로 나누어지고, 또한 다른 요소와 접속하고 있는 경우에는 최대의 페널티를 부여한다. 다른 요소와 접속하고 있지 않은 경우에는, 1개의 획 쪽은 흘림체로 하였다고 생각되므로 적은 페널티로 하여도 좋다. b)와 같이 사전의 문자 패턴/입력의 문자 패턴의, 한쪽에서는 접속하고 있지만, 또 한쪽에서는 다른 요소를 사이에 두고 접속하고 있는 경우에도 페널티를 준다. 이 때, 사이에 두고 있는 다른 요소의 길이가 일정값 이하일 때에는 일정값, 그 이상일 때에는 요소의 길이에 따른 페널티를 주면 좋다. c)와 같이 동일 접속의 경우에는 페널티를 부여하지 않는다.
본 발명은, 필순이 부정확하여도 인식할 수 있는 문자 인식 기술이지만, 필순만 다른 완전히 동일 패턴을 식별하는 경우에는, 이 링크 상황 체크의 처리에서, 필순 정보가 일치하고 있는지의 여부를 사전 패턴과 입력 패턴에 대해 조사하면 된다.
도 12는 도 9의 펜 방향 체크 처리(903)의 처리 공정을 나타낸 것이다. 이 처리는, 펜 방향이 반대로 입력된 경우에서도 문자를 인식하는 것이다. 우선, 처리 1201에서 모든 요소의 펜 방향을 →↓로 맞춘다. 모든 요소가 세로줄/가로줄이면 ↑는 ↓로, ←는 →로 변환하고, 변환 정보를 기억해 둔다. 경사 방향의 요소가 있으면, 세로줄/가로줄 중 어느 하나로 분류하여 마찬가지로 변환한다. 그리고, 처리 1202에서 도 7A에 설명한 입력과 사전과의 매칭을 행한다. 모든 사전 패턴과 행하여도 좋고, 후보의 상위의 사전 패터닝만 행하여도 좋다. 그리고, 처리 1203∼1206에서 펜 방향이 불일치한 것, 즉, 원래의 펜 방향과는 다른 요소에 대해 페널티를 부여한다.
또한, 처리 903 전에, 이것을 실시하는 지의 여부를 (1) 입력 패턴의 요소의 펜 방향에 ↑, ←가 많은지? (2) 후보 순위가 상위의 거리값이 커서 정답 후보가 맞는지?의 이 2가지 사항을 조사하여, 그러한 경우에만 실시하면, 처리 시간을 절약할 수 있다.
이와 같이 하여 후보에 오른 사전 패턴에 대해 획 부족 체크 처리, 링크 체크 처리, 펜 방향 체크 처리, 획/커브의 체크 처리를 행한 후에, 처리 906에서 거리값이 작은 순으로 후보 순위를 재검토한다.
이와 같이 도 4의 상세 식별 처리 406에 의해 처리된 결과에 기초하여 인식결과로서 거리값이 작은 것으로부터 인식 결과로서 출력한다(처리 407).
이상 설명한 바와 같이 본 발명에 따르면, 갈겨 씀으로써, 흘림체이고, 또한 필순도 부정확하고, 변형을 포함하는 문자라 하더라도 인식 가능하며, 또한 인식 처리의 부하가 적은 문자 인식 장치를 제공할 수 있다.

Claims (10)

  1. 수기 문자를 입력하고, 좌표점 열을 출력하는 입력부와,
    복수의 문자 코드와, 각각의 문자 코드에 대응하는 문자 패턴을 저장하는 사전과,
    상기 입력부로부터 출력되는 좌표 열로부터, 이 문자를 구성하는 복수의 요소로 분해하는 요소 분해부와, 상기 사전에 저장된 각각의 문자 패턴에 대해, 사전에 저장된 문자 패턴의 요소와 상기 입력된 문자 패턴의 요소에 대해 대응하는 거리값을 구하고, 대응하지 않은 요소에 기초하여 상기 구해진 거리값을 수정하는 매칭부와, 거리값이 작은 문자 패턴을 표시부에 표시하는 처리부를 갖는 것을 특징으로 하는 문자 인식 장치.
  2. 제1항에 있어서,
    상기 요소 분해부는, 상기 좌표점 열로부터 복수의 선분을 생성하고, 상기 매칭부에서는,상기 생성된 선분이 긴 순서로 상기 사전에 저장된 문자 패턴의 선분과의 거리값을 구하는 것을 특징으로 하는 문자 인식 장치.
  3. 제1항에 있어서,
    상기 요소 분해부는, 상기 좌표점 열을 순서대로 추적하여, X축, Y축 중 적어도 한쪽이 최대 또는 최소의 값을 끝점으로 하는 선분으로 분해하는 것을 특징으로 하는 문자 인식 장치.
  4. 제3항에 있어서,
    상기 요소 분해부는, 상기 X축, Y축 중 적어도 한쪽이 최대 또는 최소의 값을 끝점으로 하는 선분과 상기 좌표점 열을 연결하여 구성한 스트로크의 길이를 비교하고, 이 비교 결과에 기초하여 상기 선분의 중점을 끝점으로 하는 2개의 선분으로 분해하는 것을 특징으로 하는 문자 인식 장치.
  5. 제1항에 있어서,
    상기 매칭부는, 상기 문자 패턴을 구성하는 선분과, 상기 사전에 저장된 문자 패턴을 구성하는 선분을 방향별로 분류하고, 이 분류된 선분마다 거리값을 구하는 것을 특징으로 하는 문자 인식 장치.
  6. 제1항에 있어서,
    상기 매칭부는, 상기 입력된 문자 패턴의 요소와 상기 사전에 저장된 문자 패턴의 요소의 대응을 얻은 후, 입력 패턴 혹은 사전 패턴의 요소로 이루어지는 획에, 포함하는 어떤 요소에도 대응하는 요소가 없는 경우, 포함하는 어느 한 요소에 대응하는 요소가 있는 경우와 비교하여, 거리값을 크게 부여하는 것을 특징으로 하는 문자 인식 장치.
  7. 제1항에 있어서,
    상기 매칭부는, 상기 입력된 문자 패턴 혹은 상기 사전에 저장된 문자 패턴의 요소 사이의 접속 정보를 보유하고, 상기 입력된 문자 패턴의 요소와 상기 사전에 저장된 문자 패턴의 요소의 대응을 얻은 후, 요소 사이의 접속 정보를 비교하여, 불일치한 경우에는, 거리값을 크게 부여하는 것을 특징으로 하는 문자 인식 장치.
  8. 제1항에 있어서,
    상기 매칭부는, 상기 입력된 문자 패턴 혹은 상기 사전에 저장된 문자 패턴의 요소를 일정 방향으로 변환한 후, 상기 입력된 문자 패턴의 요소와 상기 사전에 저장된 문자 패턴의 요소의 매칭을 행하는 것을 특징으로 하는 문자 인식 장치.
  9. 제8항에 있어서,
    상기 매칭부는, 상기 입력된 문자 패턴 혹은 상기 사전에 저장된 문자 패턴의 요소를 일정 방향으로 변환하기 전에 상기 입력된 문자 패턴 혹은 상기 사전에 저장된 문자 패턴의 요소의 원래의 펜 방향을 유지하고, 상기 입력된 패턴의 요소와 상기 사전에 저장된 문자 패턴의 요소의 매칭을 행하여 대응시킨 후, 요소의 원래의 펜 방향을 비교하여, 불일치한 경우에는, 일치한 경우보다 거리값을 크게 부여하는 것을 특징으로 하는 문자 인식 장치.
  10. 제1항에 있어서,
    상기 매칭부는, 상기 입력된 문자 패턴 혹은 상기 사전에 저장된 문자 패턴의 요소에 대해 가장 거리값이 작은 상기 사전에 저장된 문자 패턴 혹은 상기 입력된 문자 패턴의 요소와의 대응은, 상기 거리값이 일정값보다 큰 경우에는, 대응이 없음으로 하는 것을 특징으로 하는 문자 인식 장치.
KR1020007002990A 1997-09-22 1998-09-22 문자 인식 장치 KR20010024208A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9256433A JPH1196301A (ja) 1997-09-22 1997-09-22 文字認識装置
JP1997-256433 1997-09-22
PCT/JP1998/004255 WO1999016013A1 (fr) 1997-09-22 1998-09-22 Dispositif de reconnaissance de caracteres

Publications (1)

Publication Number Publication Date
KR20010024208A true KR20010024208A (ko) 2001-03-26

Family

ID=17292602

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020007002990A KR20010024208A (ko) 1997-09-22 1998-09-22 문자 인식 장치

Country Status (6)

Country Link
US (1) US6718060B1 (ko)
JP (1) JPH1196301A (ko)
KR (1) KR20010024208A (ko)
CN (1) CN1279796A (ko)
TW (1) TW402711B (ko)
WO (1) WO1999016013A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100456620B1 (ko) * 2001-12-20 2004-11-10 한국전자통신연구원 한글문자 인식 방법
KR100598115B1 (ko) * 2004-08-31 2006-07-10 삼성전자주식회사 고속 문자인식방법 및 장치

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7130487B1 (en) * 1998-12-15 2006-10-31 Matsushita Electric Industrial Co., Ltd. Searching method, searching device, and recorded medium
EP1174804A3 (en) * 2000-07-21 2005-07-20 Lg Electronics Inc. Method for searching multimedia using progressive histogram
JP4665317B2 (ja) * 2001-02-08 2011-04-06 ソニー株式会社 座標列の特徴算出方法、ならびに映像特殊効果装置の制御方法および映像特殊効果装置の制御システム
JP4301820B2 (ja) * 2003-01-16 2009-07-22 株式会社ルネサステクノロジ 情報認識装置
AU2003900865A0 (en) * 2003-02-26 2003-03-13 Silverbrook Research Pty Ltd Methods, systems and apparatus (NPW010)
CN1317664C (zh) * 2004-01-17 2007-05-23 中国科学院计算技术研究所 乱笔顺库建立方法及联机手写汉字识别评测系统
US7899251B2 (en) * 2006-06-05 2011-03-01 Microsoft Corporation Balancing out-of-dictionary and in-dictionary recognition scores
TWI336854B (en) * 2006-12-29 2011-02-01 Ibm Video-based biometric signature data collecting method and apparatus
TWI332635B (en) 2007-01-05 2010-11-01 Compal Electronics Inc Method for determing oriention of chinese words
US7814443B2 (en) * 2007-01-16 2010-10-12 International Business Machines Corporation Graph-based pattern matching in L3GO designs
US7895518B2 (en) * 2007-04-27 2011-02-22 Shapewriter Inc. System and method for preview and selection of words
US8111922B2 (en) * 2007-06-08 2012-02-07 Microsoft Corporation Bi-directional handwriting insertion and correction
US8918734B2 (en) 2010-07-28 2014-12-23 Nuance Communications, Inc. Reduced keyboard with prediction solutions when input is a partial sliding trajectory
JP6125333B2 (ja) * 2013-05-31 2017-05-10 株式会社東芝 検索装置、方法及びプログラム
JP6094400B2 (ja) 2013-06-25 2017-03-15 ソニー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
FR3057692A1 (fr) * 2016-10-13 2018-04-20 Parrot Drones Procede et systeme electronique de detection d'une cible, programme d'ordinateur associe
CN106557766B (zh) * 2016-11-22 2020-05-19 宇龙计算机通信科技(深圳)有限公司 模糊字符处理方法、系统及电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6113384A (ja) 1984-06-28 1986-01-21 Fujitsu Ltd 手書文字認識装置
JP2635582B2 (ja) 1987-03-30 1997-07-30 株式会社東芝 パターン認識方式
JP3017740B2 (ja) 1988-08-23 2000-03-13 ソニー株式会社 オンライン文字認識装置およびオンライン文字認識方法
JP3155577B2 (ja) 1991-10-16 2001-04-09 キヤノン株式会社 文字認識方法及び装置
JPH06309506A (ja) 1993-04-20 1994-11-04 Oki Electric Ind Co Ltd オンライン文字認識装置
US5684892A (en) * 1995-08-22 1997-11-04 Taguchi; Genichi Method for pattern recognition
JPH0962788A (ja) 1995-08-28 1997-03-07 Ricoh Co Ltd オンライン手書き文字認識方法
JPH09114927A (ja) 1995-10-13 1997-05-02 Seiko Epson Corp オンライン文字認識における入力文字大分類方法および装置
JPH09179938A (ja) 1995-12-25 1997-07-11 Oki Electric Ind Co Ltd オンライン手書き文字認識装置
US6104833A (en) * 1996-01-09 2000-08-15 Fujitsu Limited Pattern recognizing apparatus and method
JPH09223195A (ja) * 1996-02-06 1997-08-26 Hewlett Packard Co <Hp> 文字認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100456620B1 (ko) * 2001-12-20 2004-11-10 한국전자통신연구원 한글문자 인식 방법
KR100598115B1 (ko) * 2004-08-31 2006-07-10 삼성전자주식회사 고속 문자인식방법 및 장치

Also Published As

Publication number Publication date
CN1279796A (zh) 2001-01-10
WO1999016013A1 (fr) 1999-04-01
JPH1196301A (ja) 1999-04-09
US6718060B1 (en) 2004-04-06
TW402711B (en) 2000-08-21

Similar Documents

Publication Publication Date Title
KR20010024208A (ko) 문자 인식 장치
Suen et al. Computer recognition of unconstrained handwritten numerals
JP3017740B2 (ja) オンライン文字認識装置およびオンライン文字認識方法
EP0564827A2 (en) A post-processing error correction scheme using a dictionary for on-line handwriting recognition
JP2718485B2 (ja) 文字認識方法
US5204915A (en) Method of extracting feature from line pattern and line pattern recognition method using the same
JP3761937B2 (ja) パターン認識方法及び装置及びコンピュータ制御装置
IL100198A (en) Character recognition method
KR100301216B1 (ko) 온라인문자인식장치
KR100367580B1 (ko) 획순독립의온라인문자인식장치
JP2962984B2 (ja) 文字認識装置
JPH06295356A (ja) オンライン文字認識装置
JPH0962788A (ja) オンライン手書き文字認識方法
US7239749B1 (en) System and method for automated symbolic recognition including evidence-based technique
KR960013818B1 (ko) 다중획인식을 이용한 한글조합인식장치
JPH0210473B2 (ko)
KR940001739B1 (ko) 스트로크인식을 통한 온라인 필기체 문자인식방법
JPH07107698B2 (ja) 文字認識方法
KR950015186B1 (ko) 필기문자 인식방법 및 인식장치
JPH05342413A (ja) オンライン文字認識の特異点検出方法
JPH06301819A (ja) オンライン手書き文字認識装置
JPS63208181A (ja) パターン認識方法及び情報処理装置
JP2732753B2 (ja) ファジィパターン認識装置
JP2765617B2 (ja) 文字認識装置
Wang et al. Automated generation of Chinese character structure data based on extracting the strokes

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application