KR940024627A - 아시아어 자동판정방법 및 장치 - Google Patents

아시아어 자동판정방법 및 장치 Download PDF

Info

Publication number
KR940024627A
KR940024627A KR1019940004750A KR19940004750A KR940024627A KR 940024627 A KR940024627 A KR 940024627A KR 1019940004750 A KR1019940004750 A KR 1019940004750A KR 19940004750 A KR19940004750 A KR 19940004750A KR 940024627 A KR940024627 A KR 940024627A
Authority
KR
South Korea
Prior art keywords
asian
feature
character
script
language
Prior art date
Application number
KR1019940004750A
Other languages
English (en)
Other versions
KR960015594B1 (ko
Inventor
스피쯔 로렌스
Original Assignee
가또 마사오
후지제록스 가부시끼가이샤
존. 이백
제록스 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가또 마사오, 후지제록스 가부시끼가이샤, 존. 이백, 제록스 코오포레이션 filed Critical 가또 마사오
Publication of KR940024627A publication Critical patent/KR940024627A/ko
Application granted granted Critical
Publication of KR960015594B1 publication Critical patent/KR960015594B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

본 자동언어 판정장치는, 그로스 스크립형이, 아시아 스크립트형인 것으로 알려지거나 또는 판정되면, 문서의 원고화상의 특정 아시아어를 자동적으로 판정한다. 글자구성요소 생성수단이, 상기 원고화상을 포함하는 화소들로부터 글자구성요소를 생성한다. 문자셀 생성수단이, 1이상의 글자구성요소를 포위하는 문자셀을 생성한다. 광학밀도 판정수단이, 각 문자셀내의 화소들의 광학밀도(화소들의 절대수, 또는 백분율)를 판정한다. 스크립트 특징 판정수단이 먼저 히스토그램을 작성하고, 다음, 선형식별분석에 의하여, 상기 히스토그램을 신좌표공간내의 포인트로 변환한다. 언어판정수단이, 상기 신좌표공간내의 원고부의 판정된 포인트를, 1이상의 아시아어에 대응하는 신좌표공간내의 설정된 체제와 비교하여, 원고화상의 특정 아시아어를 판정한다.

Description

아시아어 자동판정방법 및 장치
본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음
제1도는 광학문자인식 시스템의 개통도, 제2도는 3개의 샘플 원고부, 즉, 한국어(한글), 중국어 및 일본어 스크립트를 갖는 서류를 나타낸 도면, 제3도는 글자구성요소 둘레에 문자셀이 있는 제2도의 원고부를 나타낸 도면.

Claims (13)

  1. 문자내 화상의 아시아 스크립트형 원고부의 언어를 자동판정하는 장치에 있어서 : 상기 원고부를 표시하는 디지탈 데이타 신호를 입력하는 입력수단과, 여기서 상기 디지탈 데이타 신호는, 복수의 화소에 각각 대응하는 복수의 신호부를 포함하고 있고; 상기 복수의 신호부들로부터 적어도 하나의 글자구성요소를 생성하는 글자구성요소 생성수단과; 적어도 하나의 글자구성요소에 의하여 적어도 하나의 사전선택된 스크립트 특징 유형에 대응하는 스크립트 특징을 로케이트하는 특징판정수단 및; 상기 로케이트된 스크립트 특징의 분포와, 복수의 아시아어의 적어도 하나의 소정 스크립트 특징분포와 비교하고, 이 비교에 응답하여, 상기 원고부의 아시아어를 판정하는 언어판정수단을 구비함을 특징으로 하는 아시아어 자동판정장치.
  2. 제1항에 있어서, 상기 특징판정수단이; 1이상의 글자구성요소 각각에 대하여, 그들에 대한 복수의 신호부의 제한박스를 생성하는 제한박스 생성수단과; 1이상의 글자구성요소를 각각 포함하는 복수의 문자셀을 생성하는 문자셀 생성수단을 구비함을 특징으로 하는 아시아어 자동판정장치.
  3. 제2항에 있어서, 상기 특징판정수단이, 복수의 문자셀들의 광학밀도를 판정하는 광학밀도 판정수단을 더 구비함을 특징으로 하는 아시아어 자동판정장치.
  4. 제3항에 있어서, 상기 복수의 문자셀 각각에 대응하는 광학밀도가, 상기 문자셀의 면적으로 정규화되는 것이 특징인 아시아어 자동판정장치.
  5. 제3항에 있어서, 상기 언어판정수단이, 복수의 문자셀의 광학밀도에 대응하는 히스토그램 발생수단을 구비한 것이 특징인 아시아어 자동판정장치.
  6. 제3항에 있어서, 상기 언어판정수단이, 선형식별 분석에 의하여, 상기 히스토그랩을 변수공간내 포인트로 변환시키는 LDA발생수단과; 상기 포인트를 상기 변수공간내 복수의 소정체제와 비교하는 비교수단 및, 상기 비교에 응답하여, 상기 원고부에 대해 판정된 언어를 출력하는 출력수단을 더 구비함을 특징으로 하는 아시아어 자동판정장치.
  7. 제1항에 있어서, 상기 복수의 아시아어가 적어도 한국어, 중국어 및 일본어를 포함한 것이 특징인 아시아어 자동판정장치.
  8. 문서상의 화상의 원고부의 아시아어를 자동판정하는 장치에 있어서, 문서를 스캔하고, 문서상의 화상을 표시하는 디지탈 데이타 신호를 출력하는 스캐너와, 여기서 상기 디지탈 데이타 신호는 복수의 신호부를 포함하고 있고, 각 신호부는 상기 화상의 복수의 화소중 대응하는 것을 표시하는 데이타를 포함하고 있고; 상기 디지탈 데이타 신호를 기억하는 메모리 및; 상기 화상의 원고부의 아시아어를 판정키 위한 제어장치를 구비하며, 이 제어장치가, 복수의 신호부로부터 적어도 하나의 글자구성요소를 판정키 위한 글자구성요소 생성수단과; 1이상의 글자구성요소 각각에 대하여, 1이상의 소정 스크립트 특징 유형에 대응하는 스크립트 특징을 로케이트시키는 특징판정수단과; 상기 로케이트된 스크립트 특징의 분포를 판정하는 특징분포판정수단과; 상기 판정된 특징분포를 1이상의 아시아어의 설정의 특징분포와 비교하는 비교수단 및; 원고부의 판정된 언어를 표시하는 신호를 출력하는 출력수단을 구비함을 특징으로 하는 아시아어 자동판정장치.
  9. 제8항에 있어서, 상기 특정판정수단이; 1이상의 글자구성요소를 각각 포함한 복수의 문자셀을 판정하기 위한 문자셀 판정수단을 포함한 것이 특징인 아시아어 자동판정장치.
  10. 제9항에 있어서, 상기 특징판정수단이, 로케이트되는 1이상의 스크립트 특징을 선택하는 특징선택수단을 더 구비한 것이 특징인 아시아어 자동판정장치.
  11. 제9항에 있어서, 상기 1이상의 소정 스크립트 특징이 광학밀도인 것이 특징인 아시아어 자동판정장치.
  12. 원고부를 포함한 복수의 화소로부터 1이상의 글자구성요소를 판정하고; 1이상의 미리 선택된 스크립트 특징 유형에 대응하는 1이상의 글자구성요소에 의하여 원고부의 스트립트 특징의 로케이션을 판정하고; 상기 로케이트된 스크립트 특징들에 대하여, 1이상의 미리 선택된 유형의 스크립트 특징 각각에 대응하는 분포를 판정하고; 상기 로케이트된 스크립트 특징들의 특징분포와, 1이상의 아시아엉에 대한 1이상의 소정 특징분포와 비교하고; 상기 비교결과에 의하여, 상기 아시아어를 판정함으로써 이루어지는 것을 특징인 문서의 원고부의 아시아어 자동판정방법.
  13. 제12항에 있어서, 상기 원고부의 복수의 문자셀을 판정하는 단게를 더 행하며, 상기 각 문자셀은, 1이상의 글자구성요소를 포함하며; 상기 1이상의 미리 선택된 유형의 스크립트 특징이 문자셀의 광학밀도인 것을 특징인, 아시아어 자동판정방법.
    ※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.
KR1019940004750A 1993-04-19 1994-03-11 아시아어 자동판정방법 및 장치 KR960015594B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/047,673 1993-04-19
US08/047,673 US5425110A (en) 1993-04-19 1993-04-19 Method and apparatus for automatic language determination of Asian language documents
US8/047,673 1993-04-19

Publications (2)

Publication Number Publication Date
KR940024627A true KR940024627A (ko) 1994-11-18
KR960015594B1 KR960015594B1 (ko) 1996-11-18

Family

ID=21950309

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019940004750A KR960015594B1 (ko) 1993-04-19 1994-03-11 아시아어 자동판정방법 및 장치

Country Status (6)

Country Link
US (1) US5425110A (ko)
EP (1) EP0621541B1 (ko)
JP (1) JPH0721319A (ko)
KR (1) KR960015594B1 (ko)
DE (1) DE69428475T2 (ko)
TW (1) TW256905B (ko)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5555556A (en) * 1994-09-30 1996-09-10 Xerox Corporation Method and apparatus for document segmentation by background analysis
US5999706A (en) * 1997-04-28 1999-12-07 Pitney Bowes, Inc. Method and apparatus for substituting a 2-byte font character standard in a printer
US5909510A (en) * 1997-05-19 1999-06-01 Xerox Corporation Method and apparatus for document classification from degraded images
US6005986A (en) * 1997-12-03 1999-12-21 The United States Of America As Represented By The National Security Agency Method of identifying the script of a document irrespective of orientation
US8812300B2 (en) 1998-03-25 2014-08-19 International Business Machines Corporation Identifying related names
US6963871B1 (en) 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US8855998B2 (en) 1998-03-25 2014-10-07 International Business Machines Corporation Parsing culturally diverse names
US6292772B1 (en) 1998-12-01 2001-09-18 Justsystem Corporation Method for identifying the language of individual words
US6889147B2 (en) * 2002-09-17 2005-05-03 Hydrogenics Corporation System, computer program product and method for controlling a fuel cell testing device
US7218779B2 (en) * 2003-01-21 2007-05-15 Microsoft Corporation Ink divider and associated application program interface
WO2004092756A1 (en) * 2003-04-17 2004-10-28 Hydrogenics Corporation Alarm recovery system and method for fuel cell testing systems
US20040229954A1 (en) * 2003-05-16 2004-11-18 Macdougall Diane Elaine Selective manipulation of triglyceride, HDL and LDL parameters with 6-(5-carboxy-5-methyl-hexyloxy)-2,2-dimethylhexanoic acid monocalcium salt
WO2005028713A1 (en) * 2003-09-22 2005-03-31 Hydrogenics Corporation Electrolyzer cell stack system
US20070005586A1 (en) * 2004-03-30 2007-01-04 Shaefer Leonard A Jr Parsing culturally diverse names
US7928964B2 (en) * 2005-04-22 2011-04-19 Microsoft Corporation Touch input data handling
US7986307B2 (en) * 2005-04-22 2011-07-26 Microsoft Corporation Mechanism for allowing applications to filter out or opt into tablet input
US20060267958A1 (en) * 2005-04-22 2006-11-30 Microsoft Corporation Touch Input Programmatical Interfaces
US7702699B2 (en) * 2006-05-31 2010-04-20 Oracle America, Inc. Dynamic data stream histograms for large ranges
CN100440250C (zh) * 2007-03-09 2008-12-03 清华大学 印刷体蒙古文字符识别方法
US9141607B1 (en) * 2007-05-30 2015-09-22 Google Inc. Determining optical character recognition parameters
US8340430B2 (en) * 2007-07-10 2012-12-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
EP2120130A1 (en) * 2008-05-11 2009-11-18 Research in Motion Limited Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input
US8160365B2 (en) * 2008-06-30 2012-04-17 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US8744171B1 (en) * 2009-04-29 2014-06-03 Google Inc. Text script and orientation recognition
US8326602B2 (en) * 2009-06-05 2012-12-04 Google Inc. Detecting writing systems and languages
US8468011B1 (en) 2009-06-05 2013-06-18 Google Inc. Detecting writing systems and languages
RU2613847C2 (ru) 2013-12-20 2017-03-21 ООО "Аби Девелопмент" Выявление китайской, японской и корейской письменности
RU2640322C2 (ru) 2014-01-30 2017-12-27 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов
RU2648638C2 (ru) 2014-01-30 2018-03-26 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов, использующие множество кластеров эталонов символов
US20150269135A1 (en) * 2014-03-19 2015-09-24 Qualcomm Incorporated Language identification for text in an object image
US9589185B2 (en) 2014-12-10 2017-03-07 Abbyy Development Llc Symbol recognition using decision forests
US20170068868A1 (en) * 2015-09-09 2017-03-09 Google Inc. Enhancing handwriting recognition using pre-filter classification
US10431203B2 (en) 2017-09-05 2019-10-01 International Business Machines Corporation Machine training for native language and fluency identification

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3755780A (en) * 1971-06-28 1973-08-28 Pattern Analysis & Recognition Method for recognizing characters
JPS5837779A (ja) * 1981-08-31 1983-03-05 Ricoh Co Ltd 文書処理装置
JPS5960574A (ja) * 1982-09-30 1984-04-06 Fujitsu Ltd 文字認識方式
US4817186A (en) * 1983-01-07 1989-03-28 International Business Machines Corporation Locating individual images in a field for recognition or the like
US5062143A (en) * 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification
US5181259A (en) * 1990-09-25 1993-01-19 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration General method of pattern classification using the two domain theory
US5253307A (en) * 1991-07-30 1993-10-12 Xerox Corporation Image analysis to obtain typeface information
JPH0540846A (ja) * 1991-08-06 1993-02-19 Oki Electric Ind Co Ltd 文書画像の和文・欧文判定方法

Also Published As

Publication number Publication date
TW256905B (ko) 1995-09-11
JPH0721319A (ja) 1995-01-24
US5425110A (en) 1995-06-13
KR960015594B1 (ko) 1996-11-18
DE69428475D1 (de) 2001-11-08
EP0621541A2 (en) 1994-10-26
EP0621541A3 (en) 1995-05-17
EP0621541B1 (en) 2001-10-04
DE69428475T2 (de) 2002-05-08

Similar Documents

Publication Publication Date Title
KR940024627A (ko) 아시아어 자동판정방법 및 장치
US5377280A (en) Method and apparatus for automatic language determination of European script documents
US5526443A (en) Method and apparatus for highlighting and categorizing documents using coded word tokens
JPH0721320A (ja) 自動スクリプト決定装置
EP0358815A1 (en) System and method for automatic segmentation
US5856877A (en) Apparatus and method for processing and reproducing image information
US5375176A (en) Method and apparatus for automatic character type classification of European script documents
CA2101204A1 (en) Method and system for converting bitmap data into page definition language commands
WO2023075434A1 (ko) 머신러닝 기반 바운딩 박스를 이용한 디지털 참고서 제공 시스템 및 그 방법
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
US5233672A (en) Character reader and recognizer with a specialized editing function
US5596657A (en) Method of sorting out candidate characters in character recognition system
KR100229810B1 (ko) 영상 데이터베이스 검색방법
WO2023149617A1 (ko) 페이지 편집 및 구분자 탐지 기반 디지털 참고서 제공 시스템 및 그 방법
JP3100825B2 (ja) 線認識方法
EP0175928A2 (en) Image understanding system
JP3060248B2 (ja) 表認識装置
JP2615834B2 (ja) 単語読取装置
KR100573392B1 (ko) 적응학습 모듈이 탑재된 문자인식 기반 대용량 문서디지털화 방법 및 시스템
Nair et al. Search and Highlight of Required Substrings in Printed Documents using OCR
JP2800205B2 (ja) 画像処理装置
Vincent et al. A complete environment for ground-truthing and benchmarking page segmentation algorithms
JPS6222186A (ja) 図面読取り装置
KR100200615B1 (ko) 데이타 베이스 화면 출력방법
JPH0757044A (ja) 文字認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20021107

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee