KR940007934B1 - 온라인 문자인식을 위한 획분할 및 문자분류방법 - Google Patents
온라인 문자인식을 위한 획분할 및 문자분류방법Info
- Publication number
- KR940007934B1 KR940007934B1 KR1019920005334A KR920005335A KR940007934B1 KR 940007934 B1 KR940007934 B1 KR 940007934B1 KR 1019920005334 A KR1019920005334 A KR 1019920005334A KR 920005335 A KR920005335 A KR 920005335A KR 940007934 B1 KR940007934 B1 KR 940007934B1
- Authority
- KR
- South Korea
- Prior art keywords
- stroke
- character
- strokes
- partial
- line
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Character Discrimination (AREA)
Abstract
내용 없음.
Description
제 1 도는 본 발명의 획분할 및 문자분류과정을 나타낸 흐름도.
제 2 도는 획단조곡선분할의 예를 나타낸 도면.
제 3 도는 단조곡선의 코드를 정의한 표.
제 4 도는 단조분할된 문자에 코드가 부여된 상태를 나타낸 도면.
본 발명은 온라인(on-line) 좌표입력장치인 태블릿(tablet)에 스타일러스펜(stylus pen)으로 쓰여지는 문자를 인식하는 온라인 문자인식방법에 관한 것으로, 더 구체적으로는 문자를 구성하는 획을 분할하고 분할된 부분획에 코드를 부여하여 결정되는 부류(部類)에 따라 문자를 분류하는 방법에 관한 것이다.
최근 들어 많은 컴퓨터 관련분야에서 온라인 필기체 문자인식 시스템에 대한 필요성이 증대되고 있으며, 특히 필기자의 필기방식 및 필기속도등에 제한받지 않는 인식 기법의 개발이 절실히 요구되고 있다.
종래의 입력방식인 키보드입력은 키보드 자판 배열을 기억해야 하고 숙련된 입력을 위해서는 별도의 훈련이 필요하므로 일반 대중이 컴퓨터를 쉽게 사용하지 못하는 커다란 장애요소가 되어왔다.
온라인 필기체인식은 키보드를 대체하는 편리한 컴퓨터 입력방식으로 부각되고 있으며, 특히 초소형 펜컴퓨터의 핵심기술로 그 중요성이 더해가고 있다.
OCR(Optical Character Recognition)이라 보통 불리우는 문서인식은 인쇄된 문자만을 인식대상으로 하기 때문에 문자패턴의 변화도가 심하지 않으나, 온라인 인식은 사람이 태블릿이라고 하는 온라인 좌표 입력장치에 스타일러스펜으로 글씨를 쓰기 때문에 종이에 보통의 필기도구를 사용하여 글씨를 쓰는 것에 비해 획의 형태가 고르지 않고 획의 끝부분에 삐침이 발생하는 등 글씨의 형태가 왜곡되는 경우가 잦다.
또한 태블릿의 고유 특성인 단위 시간당 입력되는 좌표의 갯수, 해상도에 따라 인식성능이 좌우되므로, 태블릿의 특성 데이타를 고려한 인식방법을 개발해야 한다. 필기된 문자의 영상을 스캐너나 카메라와 같은 영상입력 장치로 입력하여 인식하는 오프라인인식(off-line recognition)은 문자영상에 대한 정적인 정보를 이용하여 인식하는데 반해, 온라인 인식은 펜의 궤적 좌표 데이타를 이용하므로, 획의 순서, 획을 구성하는 점들의 입력 순서와 같은 동적인 정보를 분석하여 인식을 행하는 중요한 특성을 갖는다. 따라서 쓰여진 상태에서는 인식하기 어려운 문자도 인식가능하도록 설계하는 것이 가능하다.
보통 온라인 인식은 태블릿으로부터 입력된 획의 형태와 획의 상호 위치관계를 분석하여 인식하는 방식을 취하고 있다.
구체적으로 획의 형태를 분석한다는 것은 획의 형태에 따른 부류를 결정하는 과정을 의미하며, 일반적으로 다음과 같은 단계로 이루어진다.
획을 좀더 단순한 부분획으로 분할하고, 분할된 부분획에 그 형태에 따라 특징코드를 부여하며, 부분획들의 특징코드를 순서대로 나열한 것을 그 획의 특징코드로 부여함으로써 획의 부류가 결정된다.
문자를 구성하는 획들의 상관 관계도 획의 부류 결정과 비슷한 방식으로 계산할 수 있다.
예를들어 쓰여진 순서대로 나열하였을 때에 인접한 획간의 상대적 위치를 방향과 거리로 표현하는 방식을 사용한다. 따라서 문자의 부류 결정은 수치화된 이러한 특징정보를 사용하여 행해진다.
문자의 부류 결정을 위한 좋은 방법은 비슷한 모양의 문자는 같은 부류에 속하게 하고, 상이한 모양의 두 문자는 서로 다른 부류에 속하게 하는 성질이 강한 것이라 할 수 있다.
또한 좋은 문자부류결정방법은 획 분할 및, 이에따른 획의 부류결정방법에서 비롯된다.
그러나, 종래의 획분할방법은 정해진 계산식을 기준으로 조건을 만족하는 점을 분할점(break point)으로 함으로써, 획의 형태와는 상관관계가 적은 점이 분할점으로 계산되거나, 거의 동일한 형태의 획들의 분할점의 위치나 부분획의 갯수가 상호 달라지게 되거나, 분할점을 계산하는데 과다한 시간이 소요되는 등의 단점들이 있었다. 종래의 획분할방법이 상기한 바와같은 문제들을 갖는 근본적인 원인은 획분할에 있어서 시각적인 획의 복잡도에 근거하지 않고 소정의 수식조건을 만족시키는 점들만을 분할점으로 구하는 계산적인 방식을 취했기 때문이다. 문자분류방식의 성능은 획분할의 성능에 좌우되므로 종래의 문자분류방식은 부류(部類)의 갯수에 비해 부류의 크기가 상대적으로 커, 상세분류의 부담이 커지게 됨에 따라 문자의 인식시간이 길어지고 인식성능이 저하되는 문제점이 있었다.
본 발명의 목적은 문자의 획들을 시각적인 특성에 따라 일관성있게 분할하여 코드를 부여하고 문자에 대한 부류를 구함으로써 온라인 문자인식시스템의 인식시간을 단축시켜 시스템의 성능을 향상시키는 획분할 및 문자분류방법을 제공하는 것이다.
상기한 목적을 달성한기 위한 본 발명의 획 분할 및 문자분류방법은 온라인 좌표입력장치로 부터 입력된 문자의 각 획에 포함된 잡영(noise)을 제거하는 단계와, 각 획의 변곡점을 구하고 구해진 변곡점을 경계로 획을 분할하여 부분획들을 생성하는 단계와, 분할된 부분획들의 방향성과 굽은 정도에 따라 각 획에 특징코드(feature code)를 부여하는 단계와, 부분획 중 삐침에 해당하는 부분획의 존재여부를 판정하여, 만약 존재하면 그 부분획을 제거하는 단계와, 부분획들의 특징코드를 키(key)로 사용하여 트리분류기를 탐색함으로써 문자의 부류를 찾아내는 단계로 이루어진다.
이제부터 첨부된 도면을 참조하면서 본 발명에 대하여 상세히 설명한다.
제 1 도는 본 발명에 의한 획분할과 문자분류과정을 설명하기 위한 흐름도로서, 전처리과정(10), 획분할과정(20), 특징추출과정(30) 및, 문자부류결정과정(40)의 수순으로 이루어짐을 알 수 있다.
상기한 4가지 처리과정들에 대하여 구체적으로 설명하면 다음과 같다.
(1) 전처리과정
태블릿으로부터 입력된 문자는 1개 이상의 획(stroke)으로 이루어지는데, 획이란 전자펜이 태블릿에 접촉한 순간부터 떨어질 때까지의 궤적상의 점들의 열을 의미하며, 입력된 점의 갯수는 태블릿의 샘플링(sampling) 속도에 따라 달라질 수 있으며, 보통 한 획은 10개에서 60개 사이의 점으로 구성된다.
전자펜 작동방식의 특성과 태블릿 표면의 미끄러움 및 필기자의 전자펜 사용 미숙등에 의해 왜곡된 형태를 나타내는 경우가 많으며, 그 왜곡의 정도는 필기자와 필기속도에 따라 많은 차이를 보인다.
태블릿으로부터 입력된 획은 동일한 좌표를 갖는 연속된 점등의 잡영(noise : 원하지 않는 정보)을 갖는 경우가 많이 발생한다.
이러한 잡영들은 다음 과정을 불필요하게 복잡하게 만들뿐만 아니라 처리속도도 느리게 하는 원인이 되기 때문에 이 전처리 과정에서 찾아내 제거한다.
또한 다양한 크기의 문자를 인식하는 인식 시스템을 구축하기 위해 문자의 크기를 정규화(normalization)한다.
정규화된 문자의 크기는 100×100이다.
(2) 획 분할과정
한개의 문자를 이루는 각 획은 방향을 갖는 곡선으로 볼 수 있다.
이 곡선을 최소 갯수의 부분획(또는, 단조곡선)으로 분할한다. 단조곡선이란 x축과 y축의 양방향으로 단조증가 또는 단조감소하는 곡선 또는 직선을 의미한다.
제 2 도로 예를들면 문자 a는 4개의 단조곡선으로 분할된다. 최소의 단조곡선으로 획을 분할한 경우, 각 단조곡선의 양끝점은 획의 시작점 또는 끝점이거나 x변곡점 또는 y변곡점이 된다.
x변곡점이란 이웃한 점들의 x좌표가 그 점의 x좌표보다 모두 작거나 모두 큰 점을 말한다.
y변곡점도 비슷하게 정의된다.
변곡점은 각획을 구성하는 점들을 차례로 조사하면서 이웃점들과의 좌표값을 비교하면 쉽게 구해진다.
펜 사용의 미숙이나 필기 표면의 미끄러움 등의 원인으로 문자의 원래 모양과는 관계없는 변곡점이 생길 수 있다.
이런 경우를 처리하기 위하여, 인접한 두 변곡점이 x변곡점이고 x좌표값의 차이가 소정의 임계값 T1보다 작거나, 인접한 두 변곡점이 Y변곡점이고 y좌표값의 차이가 소정의 임계값 T1보다 작은 경우 두 변곡점 모두를 변곡점에서 제외시킨다.
(3) 특징 추출과정
부분획 또는 단조곡선은 직선과 곡선으로 분류되는데, 단조곡선은 두 끝점을 연결하는 선분의 길이가 L이고, 이 선분과 단조곡선을 구성하는 각 점과의 거리의 최대값을 m이라 하자. m/L이 소정의 임계값 T2보다 크면 곡선, 그렇지 않으면 직선으로 분류한다.
직선은 방향에 따라 제 3 도와 같이 8가지로 분류한다.
또한 곡선은 방향과 휘어진 방향에 따라 제 3 도와 같이 8가지로 분류한다.
또한 i 번째 획의 끝점과 i +1번째 획의 시작점을 연결한 선분도 또 다른 유형의 단조곡선으로 분류한다.
이러한 선분은 제 3 도에서와 같이 16이라는 코드로 분류된다.
결국 분할된 각 단조곡선은 0에서 16까지의 코드 중의 한 코드를 부여받게 되며, 입력문자를 구성하는 단조곡선의 코드를 쓰여진 순서대로 늘어 놓은 것이 그 문자에 대한 특징 벡타(feature vector)가 된다.
제 4 도의 D는 2획으로 이루어진 문자로, 두획을 연결한 단조곡선을 포함하여 4개의 단조곡선으로 분할되며, 이에 따라 3, 16, 8, 10이라는 특징 벡타가 구해졌다.
이 특징 벡타가 갖는 의미는 거의 동일한 형태의 문자는 같은 코드를 갖게 되므로 이를 기준으로 문자의 분류를 할 수 있다는 것이다.
단조 분할된 결과는 불필요하거나 중복적인 단조곡선을 포함하는 경우가 있으므로, 단조 분할된 결과를 후처리하여 중복적인 단조곡선을 합치거나 삐침으로 판정된 단조곡선을 제거하는 다음의 특징 벡타의 단순화 과정을 수행한다.
단계 1. 인접한 단조곡선의 각도 차이를 차례로 계산하여, 그 값이 소정의 임계값 T3보다 작은 경우에는 두개의 단조곡선을 병합하여 한개의 단조곡선을 만든다.
단계 2. 길이가 소정의 임계값 T4보다 작은 단조곡선을 바로 전의 단조곡선과 병합하여 한개의 단조곡선으로 만든다.
단계 3. 획이 두개 이상의 단조곡선으로 이루어진 경우에, 획의 마지막 단조곡선 m이 다음의 조건을 만족하면 삐침으로 판정하여 제거한다.
ⅰ) 문자의 높이를 H라 할때, m의 길이가 소정의 임계값 T5와 문자의 높이 H의 곱(T5H)보다 작아야 한다.
ⅱ) m의 방향이 윗쪽이어야 한다.
ⅲ) m과 바로 전의 단조곡선과의 각도 차이가 소정의 임계값 T6이상이어야 한다.
(4) 문자 부류 결정과정
수십 내지 수백명의 필기자가 적어도 세번이상씩 필기한 필기 데이타에 위의 과정을 적용하여 특징 벡타를 구하고 같은 특징 벡타를 갖는 문자들은 같은 부류로 분류하여 저장한다.
인식 대상 문자에 대해 같은 과정을 적용하고 저장된 부류중에 동일한 특징 벡타를 갖는 부류를 찾으면 부류가 결정된다.
부류 탐색을 고속으로 하기 위해, 부류의 저장 방법으로 이진 결정 트리를 사용한다.
이상에서 설명된 바와같이 본 발명은 온라인으로 입력되는 문자의 획들을 그 형태에 따라 일관성 있게 부분획으로 분할하고 분할된 부분획에 코드를 부여하여 문자에 대한 부류를 구함으로써, 문자인식시간을 단축시킬 수 있고 온라인 문자인식시스템의 인식성능을 향상시킬 수 있다.
Claims (5)
- 온라인 좌표입력장치를 통하여 입력되는 문자의 특징을 추출하고 그 추출된 특징에 따라 문자를 분류하는 방법에 있어서, 상기 온라인 좌표입력장치로 입력되는 문자를 이루는 각각의 획에 포함된 잡영을 제거하는 단계와, 각 획의 변곡점을 구하고 구해진 변곡점을 경계로 상기 획을 단조곡선으로 분할하여 부분획들을 생성하는 단계와, 상기 부분획들의 방향성과 굽은 정도에 따라 각각의 부분획에 특징코드를 부여하되, 상기 부분획이 직선인 경우 선의 방향에 따라 8가지로 분류하고, 곡선인 경우 선의 방향과 휘어진 방향에 따라 8가지로 분류하며, i 번째의 획의 끝점과 i +1번째의 획의 시작점을 연결한 선분을 다른 유형의 단조곡선으로 분류하는 단계와, 상기 부분획의 특징코드에 의해 문자의 특징 벡터를 구하고 단순화시킨후 필기 데이타에 의해 트리구조로 미리 저장된 문자분류기를 부분획들의 상기 특징코드를 키로 사용하여 미리 저장된 문자분류기를 탐색함으로써 문자의 부류를 결정하는 단계를 포함하는 것을 특징으로 하는 온라인 문자인식을 위한 획분할 및 문자분류방법.
- 제 1 항에 있어서, 단조곡선 분할은 임의의 변곡점에서 인접한 점들의 좌표가 모두 크거나 모두 작은 경우 획분할 변곡점으로 설정하는 최소 갯수의 단조곡선으로 분할하는 것이 가능한 것을 특징으로 하는 온라인 문자인식을 위한 획분할 및 문자분류방법.
- 제 2 항에 있어서, 획분할 변곡점 중 인접한 X 또는 Y변곡점의 X좌표값 또는 Y좌표값의 차이가 소정의 임계값 T1보다 작은 경우 변곡점에서 제외시키는 것을 특징으로 하는 온라인 문자인식을 위한 획분할 및 문자분류방법.
- 제 1 항에 있어서, 상기 특징 벡터의 단순화단계는 인접한 부분획들의 각도차이를 순차로 계산하여 그 값이 소정의 임계값보다 작은 경우 두개의 부분획들을 병합하여 한개의 부분획으로 만드는 단계와, 길이가 소정의 임계값보다 작은 부분획을 바로 전의 부분획과 병합하여 하나의 부분획으로 만드는 단계와, 소정의 판정조건에 의해 부분획들중 삐침에 해당하는 부분획의 존재여부를 판정하고 삐침에 해당하는 부분획이 존재하면 해당 부분획을 제거하는 단계를 포함하는 것을 특징으로 하는 온라인 문자인식을 위한 획분할 및 문자분류방법.
- 제 4 항에 있어서, 상기 부분획의 삐침판정조건은 부분획의 길이값이 문자의 높이값과 소정의 임계값의 곱보다 작아야 하고, 부분획의 방향이 상향이어야 하고, 바로 이전의 부분획과의 각도차이가 소정의 임계값 이상이어야 하는 것을 특징으로 하는 온라인 인식을 위한 획분할 및 문자분류방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019920005334A KR940007934B1 (ko) | 1992-03-31 | 1992-03-31 | 온라인 문자인식을 위한 획분할 및 문자분류방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019920005334A KR940007934B1 (ko) | 1992-03-31 | 1992-03-31 | 온라인 문자인식을 위한 획분할 및 문자분류방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR930020307A KR930020307A (ko) | 1993-10-19 |
KR940007934B1 true KR940007934B1 (ko) | 1994-08-29 |
Family
ID=19331146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019920005334A KR940007934B1 (ko) | 1992-03-31 | 1992-03-31 | 온라인 문자인식을 위한 획분할 및 문자분류방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR940007934B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100414051B1 (ko) * | 1995-12-20 | 2004-03-18 | 엘지전자 주식회사 | 문자의획인식방법 |
-
1992
- 1992-03-31 KR KR1019920005334A patent/KR940007934B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR930020307A (ko) | 1993-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Binmakhashen et al. | Document layout analysis: a comprehensive survey | |
EP1564675B1 (en) | Apparatus and method for searching for digital ink query | |
US7756335B2 (en) | Handwriting recognition using a graph of segmentation candidates and dictionary search | |
US6144764A (en) | Method and apparatus for on-line handwritten input character recognition and recording medium for executing the method | |
Shi et al. | Segmentation and recognition of connected handwritten numeral strings | |
Aouadi et al. | Word extraction and recognition in arabic. handwritten Text | |
KR100220213B1 (ko) | 문자화상의 히스토그램의0-1패턴표현에 기초한 문자인식방법 및 장치 | |
He et al. | Open set Chinese character recognition using multi-typed attributes | |
Rahiman et al. | A detailed study and analysis of ocr research in south indian scripts | |
El-Sheikh et al. | Automatic recognition of isolated arabic characters | |
Shakunthala et al. | Enhanced text line segmentation and skew estimation for handwritten Kannada document | |
Hussain et al. | Character recognition of Arabic and Latin scripts | |
KR940007934B1 (ko) | 온라인 문자인식을 위한 획분할 및 문자분류방법 | |
Procter et al. | Cursive handwriting recognition using hidden Markov models and a lexicon-driven level building algorithm | |
KR0186025B1 (ko) | 후보 문자 분류 방법 | |
Omachi et al. | Structure extraction from decorated characters using multiscale images | |
Srinivas et al. | An overview of OCR research in Indian scripts | |
Mashiyat et al. | Bangla off-line handwritten character recognition using superimposed matrices | |
James et al. | Handwritten Malayalam Character Recognition using Regional Zoning and Structural Features | |
Bushofa et al. | Segmentation and Recognition of Printed Arabic Characters. | |
Fermanian et al. | Deep recognition-based character segmentation in handwritten syriac manuscripts | |
Nishida et al. | A model-based split-and-merge method for recognition and segmentation of character strings | |
KR100518744B1 (ko) | 비수직 분할선을 가지는 붙은 필기체 숫자열의 분할방법 | |
Li | An implementation of ocr system based on skeleton matching | |
KR940001048B1 (ko) | 온라인 필기체문자인식방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
G160 | Decision to publish patent application | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20030730 Year of fee payment: 10 |
|
LAPS | Lapse due to unpaid annual fee |