KR940024627A - 아시아어 자동판정방법 및 장치 - Google Patents
아시아어 자동판정방법 및 장치 Download PDFInfo
- Publication number
- KR940024627A KR940024627A KR1019940004750A KR19940004750A KR940024627A KR 940024627 A KR940024627 A KR 940024627A KR 1019940004750 A KR1019940004750 A KR 1019940004750A KR 19940004750 A KR19940004750 A KR 19940004750A KR 940024627 A KR940024627 A KR 940024627A
- Authority
- KR
- South Korea
- Prior art keywords
- asian
- feature
- character
- script
- language
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
본 자동언어 판정장치는, 그로스 스크립형이, 아시아 스크립트형인 것으로 알려지거나 또는 판정되면, 문서의 원고화상의 특정 아시아어를 자동적으로 판정한다. 글자구성요소 생성수단이, 상기 원고화상을 포함하는 화소들로부터 글자구성요소를 생성한다. 문자셀 생성수단이, 1이상의 글자구성요소를 포위하는 문자셀을 생성한다. 광학밀도 판정수단이, 각 문자셀내의 화소들의 광학밀도(화소들의 절대수, 또는 백분율)를 판정한다. 스크립트 특징 판정수단이 먼저 히스토그램을 작성하고, 다음, 선형식별분석에 의하여, 상기 히스토그램을 신좌표공간내의 포인트로 변환한다. 언어판정수단이, 상기 신좌표공간내의 원고부의 판정된 포인트를, 1이상의 아시아어에 대응하는 신좌표공간내의 설정된 체제와 비교하여, 원고화상의 특정 아시아어를 판정한다.
Description
본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음
제1도는 광학문자인식 시스템의 개통도, 제2도는 3개의 샘플 원고부, 즉, 한국어(한글), 중국어 및 일본어 스크립트를 갖는 서류를 나타낸 도면, 제3도는 글자구성요소 둘레에 문자셀이 있는 제2도의 원고부를 나타낸 도면.
Claims (13)
- 문자내 화상의 아시아 스크립트형 원고부의 언어를 자동판정하는 장치에 있어서 : 상기 원고부를 표시하는 디지탈 데이타 신호를 입력하는 입력수단과, 여기서 상기 디지탈 데이타 신호는, 복수의 화소에 각각 대응하는 복수의 신호부를 포함하고 있고; 상기 복수의 신호부들로부터 적어도 하나의 글자구성요소를 생성하는 글자구성요소 생성수단과; 적어도 하나의 글자구성요소에 의하여 적어도 하나의 사전선택된 스크립트 특징 유형에 대응하는 스크립트 특징을 로케이트하는 특징판정수단 및; 상기 로케이트된 스크립트 특징의 분포와, 복수의 아시아어의 적어도 하나의 소정 스크립트 특징분포와 비교하고, 이 비교에 응답하여, 상기 원고부의 아시아어를 판정하는 언어판정수단을 구비함을 특징으로 하는 아시아어 자동판정장치.
- 제1항에 있어서, 상기 특징판정수단이; 1이상의 글자구성요소 각각에 대하여, 그들에 대한 복수의 신호부의 제한박스를 생성하는 제한박스 생성수단과; 1이상의 글자구성요소를 각각 포함하는 복수의 문자셀을 생성하는 문자셀 생성수단을 구비함을 특징으로 하는 아시아어 자동판정장치.
- 제2항에 있어서, 상기 특징판정수단이, 복수의 문자셀들의 광학밀도를 판정하는 광학밀도 판정수단을 더 구비함을 특징으로 하는 아시아어 자동판정장치.
- 제3항에 있어서, 상기 복수의 문자셀 각각에 대응하는 광학밀도가, 상기 문자셀의 면적으로 정규화되는 것이 특징인 아시아어 자동판정장치.
- 제3항에 있어서, 상기 언어판정수단이, 복수의 문자셀의 광학밀도에 대응하는 히스토그램 발생수단을 구비한 것이 특징인 아시아어 자동판정장치.
- 제3항에 있어서, 상기 언어판정수단이, 선형식별 분석에 의하여, 상기 히스토그랩을 변수공간내 포인트로 변환시키는 LDA발생수단과; 상기 포인트를 상기 변수공간내 복수의 소정체제와 비교하는 비교수단 및, 상기 비교에 응답하여, 상기 원고부에 대해 판정된 언어를 출력하는 출력수단을 더 구비함을 특징으로 하는 아시아어 자동판정장치.
- 제1항에 있어서, 상기 복수의 아시아어가 적어도 한국어, 중국어 및 일본어를 포함한 것이 특징인 아시아어 자동판정장치.
- 문서상의 화상의 원고부의 아시아어를 자동판정하는 장치에 있어서, 문서를 스캔하고, 문서상의 화상을 표시하는 디지탈 데이타 신호를 출력하는 스캐너와, 여기서 상기 디지탈 데이타 신호는 복수의 신호부를 포함하고 있고, 각 신호부는 상기 화상의 복수의 화소중 대응하는 것을 표시하는 데이타를 포함하고 있고; 상기 디지탈 데이타 신호를 기억하는 메모리 및; 상기 화상의 원고부의 아시아어를 판정키 위한 제어장치를 구비하며, 이 제어장치가, 복수의 신호부로부터 적어도 하나의 글자구성요소를 판정키 위한 글자구성요소 생성수단과; 1이상의 글자구성요소 각각에 대하여, 1이상의 소정 스크립트 특징 유형에 대응하는 스크립트 특징을 로케이트시키는 특징판정수단과; 상기 로케이트된 스크립트 특징의 분포를 판정하는 특징분포판정수단과; 상기 판정된 특징분포를 1이상의 아시아어의 설정의 특징분포와 비교하는 비교수단 및; 원고부의 판정된 언어를 표시하는 신호를 출력하는 출력수단을 구비함을 특징으로 하는 아시아어 자동판정장치.
- 제8항에 있어서, 상기 특정판정수단이; 1이상의 글자구성요소를 각각 포함한 복수의 문자셀을 판정하기 위한 문자셀 판정수단을 포함한 것이 특징인 아시아어 자동판정장치.
- 제9항에 있어서, 상기 특징판정수단이, 로케이트되는 1이상의 스크립트 특징을 선택하는 특징선택수단을 더 구비한 것이 특징인 아시아어 자동판정장치.
- 제9항에 있어서, 상기 1이상의 소정 스크립트 특징이 광학밀도인 것이 특징인 아시아어 자동판정장치.
- 원고부를 포함한 복수의 화소로부터 1이상의 글자구성요소를 판정하고; 1이상의 미리 선택된 스크립트 특징 유형에 대응하는 1이상의 글자구성요소에 의하여 원고부의 스트립트 특징의 로케이션을 판정하고; 상기 로케이트된 스크립트 특징들에 대하여, 1이상의 미리 선택된 유형의 스크립트 특징 각각에 대응하는 분포를 판정하고; 상기 로케이트된 스크립트 특징들의 특징분포와, 1이상의 아시아엉에 대한 1이상의 소정 특징분포와 비교하고; 상기 비교결과에 의하여, 상기 아시아어를 판정함으로써 이루어지는 것을 특징인 문서의 원고부의 아시아어 자동판정방법.
- 제12항에 있어서, 상기 원고부의 복수의 문자셀을 판정하는 단게를 더 행하며, 상기 각 문자셀은, 1이상의 글자구성요소를 포함하며; 상기 1이상의 미리 선택된 유형의 스크립트 특징이 문자셀의 광학밀도인 것을 특징인, 아시아어 자동판정방법.※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/047,673 | 1993-04-19 | ||
US08/047,673 US5425110A (en) | 1993-04-19 | 1993-04-19 | Method and apparatus for automatic language determination of Asian language documents |
US8/047,673 | 1993-04-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR940024627A true KR940024627A (ko) | 1994-11-18 |
KR960015594B1 KR960015594B1 (ko) | 1996-11-18 |
Family
ID=21950309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019940004750A KR960015594B1 (ko) | 1993-04-19 | 1994-03-11 | 아시아어 자동판정방법 및 장치 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5425110A (ko) |
EP (1) | EP0621541B1 (ko) |
JP (1) | JPH0721319A (ko) |
KR (1) | KR960015594B1 (ko) |
DE (1) | DE69428475T2 (ko) |
TW (1) | TW256905B (ko) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5555556A (en) * | 1994-09-30 | 1996-09-10 | Xerox Corporation | Method and apparatus for document segmentation by background analysis |
US5999706A (en) * | 1997-04-28 | 1999-12-07 | Pitney Bowes, Inc. | Method and apparatus for substituting a 2-byte font character standard in a printer |
US5909510A (en) * | 1997-05-19 | 1999-06-01 | Xerox Corporation | Method and apparatus for document classification from degraded images |
US6005986A (en) * | 1997-12-03 | 1999-12-21 | The United States Of America As Represented By The National Security Agency | Method of identifying the script of a document irrespective of orientation |
US8812300B2 (en) | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
US6963871B1 (en) | 1998-03-25 | 2005-11-08 | Language Analysis Systems, Inc. | System and method for adaptive multi-cultural searching and matching of personal names |
US8855998B2 (en) | 1998-03-25 | 2014-10-07 | International Business Machines Corporation | Parsing culturally diverse names |
US6292772B1 (en) | 1998-12-01 | 2001-09-18 | Justsystem Corporation | Method for identifying the language of individual words |
US6889147B2 (en) * | 2002-09-17 | 2005-05-03 | Hydrogenics Corporation | System, computer program product and method for controlling a fuel cell testing device |
US7218779B2 (en) * | 2003-01-21 | 2007-05-15 | Microsoft Corporation | Ink divider and associated application program interface |
WO2004092756A1 (en) * | 2003-04-17 | 2004-10-28 | Hydrogenics Corporation | Alarm recovery system and method for fuel cell testing systems |
US20040229954A1 (en) * | 2003-05-16 | 2004-11-18 | Macdougall Diane Elaine | Selective manipulation of triglyceride, HDL and LDL parameters with 6-(5-carboxy-5-methyl-hexyloxy)-2,2-dimethylhexanoic acid monocalcium salt |
WO2005028713A1 (en) * | 2003-09-22 | 2005-03-31 | Hydrogenics Corporation | Electrolyzer cell stack system |
US20070005586A1 (en) * | 2004-03-30 | 2007-01-04 | Shaefer Leonard A Jr | Parsing culturally diverse names |
US7928964B2 (en) * | 2005-04-22 | 2011-04-19 | Microsoft Corporation | Touch input data handling |
US7986307B2 (en) * | 2005-04-22 | 2011-07-26 | Microsoft Corporation | Mechanism for allowing applications to filter out or opt into tablet input |
US20060267958A1 (en) * | 2005-04-22 | 2006-11-30 | Microsoft Corporation | Touch Input Programmatical Interfaces |
US7702699B2 (en) * | 2006-05-31 | 2010-04-20 | Oracle America, Inc. | Dynamic data stream histograms for large ranges |
CN100440250C (zh) * | 2007-03-09 | 2008-12-03 | 清华大学 | 印刷体蒙古文字符识别方法 |
US9141607B1 (en) * | 2007-05-30 | 2015-09-22 | Google Inc. | Determining optical character recognition parameters |
US8340430B2 (en) * | 2007-07-10 | 2012-12-25 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying digital image characteristics |
EP2120130A1 (en) * | 2008-05-11 | 2009-11-18 | Research in Motion Limited | Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input |
US8160365B2 (en) * | 2008-06-30 | 2012-04-17 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying digital image characteristics |
US8744171B1 (en) * | 2009-04-29 | 2014-06-03 | Google Inc. | Text script and orientation recognition |
US8326602B2 (en) * | 2009-06-05 | 2012-12-04 | Google Inc. | Detecting writing systems and languages |
US8468011B1 (en) | 2009-06-05 | 2013-06-18 | Google Inc. | Detecting writing systems and languages |
RU2613847C2 (ru) | 2013-12-20 | 2017-03-21 | ООО "Аби Девелопмент" | Выявление китайской, японской и корейской письменности |
RU2640322C2 (ru) | 2014-01-30 | 2017-12-27 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы эффективного автоматического распознавания символов |
RU2648638C2 (ru) | 2014-01-30 | 2018-03-26 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы эффективного автоматического распознавания символов, использующие множество кластеров эталонов символов |
US20150269135A1 (en) * | 2014-03-19 | 2015-09-24 | Qualcomm Incorporated | Language identification for text in an object image |
US9589185B2 (en) | 2014-12-10 | 2017-03-07 | Abbyy Development Llc | Symbol recognition using decision forests |
US20170068868A1 (en) * | 2015-09-09 | 2017-03-09 | Google Inc. | Enhancing handwriting recognition using pre-filter classification |
US10431203B2 (en) | 2017-09-05 | 2019-10-01 | International Business Machines Corporation | Machine training for native language and fluency identification |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3755780A (en) * | 1971-06-28 | 1973-08-28 | Pattern Analysis & Recognition | Method for recognizing characters |
JPS5837779A (ja) * | 1981-08-31 | 1983-03-05 | Ricoh Co Ltd | 文書処理装置 |
JPS5960574A (ja) * | 1982-09-30 | 1984-04-06 | Fujitsu Ltd | 文字認識方式 |
US4817186A (en) * | 1983-01-07 | 1989-03-28 | International Business Machines Corporation | Locating individual images in a field for recognition or the like |
US5062143A (en) * | 1990-02-23 | 1991-10-29 | Harris Corporation | Trigram-based method of language identification |
US5181259A (en) * | 1990-09-25 | 1993-01-19 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | General method of pattern classification using the two domain theory |
US5253307A (en) * | 1991-07-30 | 1993-10-12 | Xerox Corporation | Image analysis to obtain typeface information |
JPH0540846A (ja) * | 1991-08-06 | 1993-02-19 | Oki Electric Ind Co Ltd | 文書画像の和文・欧文判定方法 |
-
1993
- 1993-04-19 US US08/047,673 patent/US5425110A/en not_active Expired - Lifetime
-
1994
- 1994-03-11 KR KR1019940004750A patent/KR960015594B1/ko not_active IP Right Cessation
- 1994-04-08 JP JP6070297A patent/JPH0721319A/ja active Pending
- 1994-04-11 TW TW083103179A patent/TW256905B/zh active
- 1994-04-18 EP EP94302734A patent/EP0621541B1/en not_active Expired - Lifetime
- 1994-04-18 DE DE69428475T patent/DE69428475T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
TW256905B (ko) | 1995-09-11 |
JPH0721319A (ja) | 1995-01-24 |
US5425110A (en) | 1995-06-13 |
KR960015594B1 (ko) | 1996-11-18 |
DE69428475D1 (de) | 2001-11-08 |
EP0621541A2 (en) | 1994-10-26 |
EP0621541A3 (en) | 1995-05-17 |
EP0621541B1 (en) | 2001-10-04 |
DE69428475T2 (de) | 2002-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR940024627A (ko) | 아시아어 자동판정방법 및 장치 | |
US5377280A (en) | Method and apparatus for automatic language determination of European script documents | |
US5526443A (en) | Method and apparatus for highlighting and categorizing documents using coded word tokens | |
JPH0721320A (ja) | 自動スクリプト決定装置 | |
EP0358815A1 (en) | System and method for automatic segmentation | |
US5856877A (en) | Apparatus and method for processing and reproducing image information | |
US5375176A (en) | Method and apparatus for automatic character type classification of European script documents | |
CA2101204A1 (en) | Method and system for converting bitmap data into page definition language commands | |
WO2023075434A1 (ko) | 머신러닝 기반 바운딩 박스를 이용한 디지털 참고서 제공 시스템 및 그 방법 | |
CN114663904A (zh) | 一种pdf文档布局检测方法、装置、设备及介质 | |
US5233672A (en) | Character reader and recognizer with a specialized editing function | |
US5596657A (en) | Method of sorting out candidate characters in character recognition system | |
KR100229810B1 (ko) | 영상 데이터베이스 검색방법 | |
WO2023149617A1 (ko) | 페이지 편집 및 구분자 탐지 기반 디지털 참고서 제공 시스템 및 그 방법 | |
JP3100825B2 (ja) | 線認識方法 | |
EP0175928A2 (en) | Image understanding system | |
JP3060248B2 (ja) | 表認識装置 | |
JP2615834B2 (ja) | 単語読取装置 | |
KR100573392B1 (ko) | 적응학습 모듈이 탑재된 문자인식 기반 대용량 문서디지털화 방법 및 시스템 | |
Nair et al. | Search and Highlight of Required Substrings in Printed Documents using OCR | |
JP2800205B2 (ja) | 画像処理装置 | |
Vincent et al. | A complete environment for ground-truthing and benchmarking page segmentation algorithms | |
JPS6222186A (ja) | 図面読取り装置 | |
KR100200615B1 (ko) | 데이타 베이스 화면 출력방법 | |
JPH0757044A (ja) | 文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
G160 | Decision to publish patent application | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20021107 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |