KR960015594B1 - 아시아어 자동판정방법 및 장치 - Google Patents

아시아어 자동판정방법 및 장치 Download PDF

Info

Publication number
KR960015594B1
KR960015594B1 KR1019940004750A KR19940004750A KR960015594B1 KR 960015594 B1 KR960015594 B1 KR 960015594B1 KR 1019940004750 A KR1019940004750 A KR 1019940004750A KR 19940004750 A KR19940004750 A KR 19940004750A KR 960015594 B1 KR960015594 B1 KR 960015594B1
Authority
KR
South Korea
Prior art keywords
feature
asian
script
document
determining
Prior art date
Application number
KR1019940004750A
Other languages
English (en)
Other versions
KR940024627A (ko
Inventor
스피쯔 로렌스
Original Assignee
가또 마사오
후지제록스 가부시끼가이샤
존. 이백
제록스 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가또 마사오, 후지제록스 가부시끼가이샤, 존. 이백, 제록스 코오포레이션 filed Critical 가또 마사오
Publication of KR940024627A publication Critical patent/KR940024627A/ko
Application granted granted Critical
Publication of KR960015594B1 publication Critical patent/KR960015594B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

내용없음

Description

아시아어 자동판정방법 및 장치
제1도는 광학 문자인식시스템의 개통도.
제2도는 3개의 샘플 원고부, 즉 한국어(한글), 중국어 및 일본어 스크립트를 갖는 서류를 나타낸 도면.
제3도는 글자구성요소 둘레에 문자셀이 있는 제2도의 원고부를 나타낸 도면.
제4도는 일본어 원고샘플과 그에 대한 광학밀도관계를 나타낸 도면.
제5도는 정규화된 한국어, 중국어, 일본어 원고의 광학밀도의 히스토그램.
제6도는 제5도의 선형식별분석 변환을 나타낸 도면.
제7도는 본 발명의 아시아어 식별방법의 후로우차트.
본 발명은 자동원고식별방법 및 장치에 관한 것이며, 특히 원고의 문자 언어를 자동적으로 판정하는 방법 및 장치에 관한 것이다.
스캔(scan)된 화상데이타를 디지탈컴퓨터용으로 적합한 원고데이타로 변환하기 위한 광학문자인식 및 그 용도에 대해서는 잘 알려져 있다. 또한 스캔된 화상데이타를 원고데이타로 변환하는 방법과 이 방법에서 발생되는 에러의 유형 대해서도 잘 알려져 있다. 그러나, 문자인식방법의 적절한 선택은 문서에 사용된 스크립트(알파벳 또는 표의 문자)에 크게 의존한다. 또한 적절한 에러보정방법의 선택은 또한 문서의 언어에 크게 의존한다. 통상광학문자 인식방법과 광학문자인식 시스템에서의 에러보정방법은 문서에서 사용된 스크립트와 언어가 그 시스템이 사용중인 나라의 통상의 스크립트 및 언어인 것을 전제로 해서 제안된 것들이었다. 즉 미국에서의 통상의 광학문자인식시스템은 문서가 영어로 되고, 로마스크립트를 사용하는 것을 전제로 하는 한편, 일본에서는 언어가 일본어이고, 일본 스크립트를 사용하는 것을 전제로 한 것이다. 다른 방법으로 광학문자 인식시스템을 복수의 언어에 대한 문자인식 및 에러 해결방법으로서 실행할 수도 있다.
그러나 현재까지는 문서의 스크립트 유형 및/또는 언어를 자동적으로 결정하는 광학문자 인식 시스템을 갖추는 것이 불가능했다. 오히려 광학문자인식시스템에 각각의 문서가 제공되므로, 문서의 특정 언어와 스크립트에 대한 어느 정도의 표시를 광학문자인식시스템에 해주어야 한다. 이것은 문서의 언어와 스크립트에 관한 데이타를 오퍼레이터가 광학문자인식시스템에 입력하거나 또는 문서의 언어와 스크립트를 표시하는 특수 표지를 그 문서에 표시함으로써 달성되왔다.
그러므로 본 발명의 목적은 자동화 언어식별능력을 갖는 광학문자인식시스템을 제공하는데 있다.
본 발명의 다른 목적은 판정된 스트립트에 의하여 문서의 특정 언어를 판정하는 방법을 제공하는데 있다.
본 발명의 다른 목적은 스크립트 특성에 의하여 문서의 언어를 판정하는데 있다.
본 발명의 또다른 목적은 아시아스크립트 문서의 특정 언어를 판정하는데 있다.
본 발명의 양호한 방법 및 장치의 제1실시예에 의하면 문서의 원고부의 스트립트가 아시아 스크립트형인 것으로 판정되면 원고부가 문자를 구성하는 1 이상의 글자구성요소들을 각각 둘러싸는 복수의 문자셀을 분석하여 문자셀들내에 광학밀도를 판정한다.
문서의 원고부가 상응하는 디지탈데이타 신호로 변화되지 않은 경우, 문서가 스캔되어 모든 비원고 정보는 제거된다. 다음, (필요에 따라서)얻어진 원고화상의 비틀림과 기티 스캐닝 영향이 보정된다. 얻어진 원고화상이 일단 스캔되어 클린업(clean up)되면 로케이션(location)과 화상농도를 갖는 화소의 비트맵(bitmap)으로부터 복수의 연결된 글자구성요소로 화상이 변환된다
이 글자구성요소들이 생성된 후, 각각의 글자구성요소에 대해 제한박스(box)가 생성된다.
라인과 문자의 치수는 원고부내 문자셀의 경계를 형성하도록 결정된다. 문자셀의 결정된 광학밀도 분포에 근거하여 문서원고의 특정 아시아어가 판정된다.
본 발명을 도면을 참조하여 설명한다.
제1도에 도시된 바와 같이 본 발명의 광학문자인식시스템은 전하결합장치(CDD) 등을 갖는 스캐너(110)를 구비하고 있다. 이 스캐너(110)는 화상(102)(미상의 스크립트와 언어로 된 3개의 원고들을 포함한 샘플화상(102)이 제2도에 도시되 있음)을 갖는 문서(100)를 스캔하여 원래문서(100)의 화상(102)을 구성하는 복수 화소의 로케이션 및 화상농도를 표시하는 디지탈데이타신호를 출력한다. 이 디지탈데이타신호는 메모리(112)로 송출되어 여기서 일시적으로 또는 무기한으로 기억된다. 상기 디니탈데이타신호는 메모리(112)로부터 출력시, 범용디지탈컴퓨터(114)에 입력된다.
컴퓨터(114)에 일단 입력되면 화상(102)의 모든 비원고부를 제거하여 원고부(104)만 잔존시킴으로써 디지탈데이타 신호가 먼저 클린업된다. 또한 비틀림등의 디지탈데이타신호의 임의의 스캐너영향이 보정된다. 다음 클린업된 디지탈데이타신호는 메모리(112)에 재기억되거나 또는 컴퓨터(114)의 메모리에 기억된다. 또다른 방법으로 스캐너는 스캐너 영향의 제거와 같은 약간의 사전처리를 할 수도 있다.
제1도에 도시된 바와 같이 본 발명의 범용 디지탈컴퓨터(114)는 제어프로그램을 기억하기 위한 메모리(22)와, 메모리(112)로부터의 디지탈데이터신호를 입력하고, 화상(102)의 판정된 스크립트형을 표시하는 신호를 출력하는 입출력회로(24)를 구비하고 있다. 범용컴퓨터(114)는 또한 디지탈데이타신호를 기억하는 화상메모리 RAM(26)과 ; 상기 디지탈데이타신호로부터 글자구성요소를 생성하는 글자구성요소생성수단(28)과 ; 각각의 글자구성요소에 대한 제한박스의 좌표와 이제한박스내의 디지트화 된 화상의 화소들을 결정하는 제한박스생성수단(30)과 ; 1 이상의 글자구성요소들을 포함한 문자셀들을 생성하는 공간특징판정수단(32)과 ; 각 제한박스에 대해 1 이상의 설정된 특징 유형의 분포를 판정하는 특징판정수단(34) 및 ; 문서의 언어를 판정하기 위한 언어판정수단(36)를 구비하고 있다. 제어프로그램을 기억하는 메모리(22)는 ROM(22a) 또는 RAM(22b)의 어느 것을 구비할 수 있다.
동작시에는 제1도에 도시된 바와 같이 화상(102)을 갖는 문서(100)가 내부에 배치되면 스캐너(110)에 의해 스캔되어 직렬 또는 병렬 디지탈데이타신호를 생성한다. 상기 디지탈데이타신호는 복수의 신호부를 포함하며, 각 부분은 원래 화상(102)의 대응하는 화소를 표시한다. 화상(102)의 각 화소는 화상(102)내 로케이션과 화상농도를 갖고 있다. 따라서 디지탈데이타신호의 각 신호부는 대응하는 화소의 로케이션과 화상농도를 표시하는 데이타를 포함한다.
다음 스캐너(110)에 의해 출력된 디지탈 데이타신호가 메모리(112)에 기억된다. 이 메모리(112)는 RAM, 플래시 메모리, 디스크메모리등을 포함할 수 있다. 메모리(112)의 유형에 무관하게 디지탈데이타신호가 각 신호부내의 로케이션과 화상농도에 응답하여 메모리(112)에 기억된다. 물론 디지탈데이타신호는 중간메모리(112) 보다는 범용 디지탈컴퓨터(114)에 직접 입력될 수 있다.
다른 방법으로 상기 메모리(112)는 범용 디지탈컴퓨터(114)내에 설치될 수도 있다. 어느 경우에서도 상기 메모리(112)는 화상(102)을 장기간 기억하는데 사용된다.
일단, 오퍼레이터가 스캐너(110)내로의 문서 입력을 종료하거나 또는 시스템이 화상(102)을 표시하는 디지탈데이타신호가 원고데이타로 변환돼야함을 판정하면 화상(102)을 표시하는 디지탈데이타신호가 메모리(112)로부터 범용컴퓨터(114)로 출력된다. 물론, 범용디지탈컴퓨터(114) 대신에 특수용 디지탈컴퓨터 또는 배선논리회로를 사용할 수 있다.
메모리(112)에 기억된 디지탈화상데이타신호가 범용컴퓨터(114)에 출력되면 여기서 입출력수단(24)을 통하여 화상메모리(26)에 입력된다. 본 발명의 제1양호 실시예에서는 그로스(gross)스트립트형이 아시아의 것으로 밝혀지면, 특징판정수단(34)은 한국, 중국, 일본어 문서를 식별하기 위해 사전에 선택된 특징으로 설정된다. 물론, 원고부의 그로스 스크립트형이 식별되지 않거나 또는 아시아 스트립트형인 것으로 밝혀지면, 본 출원인에 의해 출원된 참고문헌인 미국출원 No. 08/047,515호에 기재된 바와 같이 그로스 스크립트 분류를 판정하는 방법 및 장치를 사용할 수 있다.
일단 상기 디지탈데이타신호가 화상메모리(26)내에 완전히 기억되면, 상기 디지탈데이타신호가 글자구성요소생성수단(28)에 적용 가능하게 된다. 글자구성요소생성수단(28)은 화상(102)의 원고부를 표시하는 디지탈데이타신호를 1 이상의 신호부로 구성되는 복수의 글자구성요소로 분할하며, 각각의 글자구성요소는 소정의 최소 화상농도를 갖고 있고, 연속된 경로를 형성하는 원래 화상(102)의 화소들에 대응하는 신호부들로 구성된다. 각각의 스크립트 문자는 통상, "Fuji"의 "F"와 같이 하나의 글자구성요소에 대응하거나 또는 "Fuji"의 "J" 또는 "i"와 같이 1 이상의 글자구성요소에 대응한다.
상기 글자구성요소생성수단(28)이 일단, 디지탈데이타신호로부터 원고부(104)의 복수의 글자구성요소를 생성하면 상기 글자구성요소생성수단(28)에 의해 생성된 글자구성요소리스트와 원고부(104)에 대응하는 디지탈데이타신호가 화상메모리(26)이 기억됨과 동시에 제한박스생성수단(30)에 출력된다.
상기 제한박스생성수단(30)은 원고부(104)를 표시하는 디지탈데이타신호를 복수의 제한박스로 재분할한다. 여기서 각각의 제한박스는 하나의 글자구성요소와, 글자구성요소를 포함한 화소들에 인접한 화소 로케이션에 대응하는 디지탈데이타신호의 0,1 또는 그 이상의 신호부로 구성된다. 각 제한박스의 치수는 대응하는 글자구성요소를 포함한 좌한, 우한, 상한, 하한 신호부들의 포메이션 데이타에 의해서 결정된다. 따라서 제한박스내의 신호부들은 글자구성 요소와 화상농도 데이타에 상관없이 제한박스의 영역내에 신호부들은 배치시키는 로케이션 데이타를 갖는 신호부들을 포함한 것들이다. 일단 제한박스들과 각 제한박스를 포함한 신호부들의 리스트가 상기 제한박스 생성수단(30)에 의해 생성되면 제한박스들과 그에 대응하는 신호부들의 리스트가 화상메모리(26)에 기억됨과 동시에 공간 특징판정수단(32)에 출력된다.
상기 공간 특징판정수단(32)은 다양한 방법중 임의의 방법을 사용하여 원고부의 라인, 단어 및/또는 문자셀을 판정한다. 상기 방법중 하나가 본 출원인이 출원한 참고문헌인 미국출원 No. 08/047,514호에 기재돼 있다.
제1의 양호한 실시예에서는 특징판정수단(34)에 의하여 광학밀도스크립트 특징을 사용하여 한국어, 중국어 및 일본어 문서간을 식별한다. 제2도는 문서(100)의 화상(102)의 원고부(104)를 포함한 아시아어 원고의 3샘플을 나타낸다. 글자구성요소생성수단(28)은 원고부(104)에 대한 각각의 글자구성요소를 판정한다. 다음 제한박스생성수단(30)은 각각의 글자구성요소에 대한 제한박스를 판정한다. 다음 공간 특징판정수단(32)은 제3도에 도시된 바와 같이 문자셀을 판정한다. 물론, 상기 동작들중 어느 것이라도 원고부(104)에 대한 사전 그로스 스크립트분류동작 또는 문자셀 생성동작이 이미 종료된 경우에는 상기 동작들을 반복할 필요가 없게 된다.
어느 경우에서도 본 발명의 제1양호실시예에서는 특징판정수단(34)이 각 문자셀의 광학밀도 또는 소정치보다 큰 화상농도를 갖는 화소총수를 판정하도록 설정된다.
제4도는 일본어 원고의 다른 샘플과 각 문자셀의 로케이션 데이타에 대한 각 문자셀내의 1 이상의 글자구성요소로 인한 문자셀의 광학밀도를 나타낸다. 문자셀의 리스트와 화상농도치의 대응 리스트가 특징판정수단(34)으로부터 언어판정수단(36)으로 출력된다. 제1양호 실시예에서는 상기 언어판정수단(36)이 먼저 제5도에 도시된 것들과 같이 원고부(104)의 문자셀들의 광학밀도의 히스토그램을 생성한다.
제5도의 히스토그램에서는 문자간 간격의 횡폭(즉, 광학밀도함수가 영(0)으로 저하되는 로케이션들)은 포함돼있지 않음을 주목해야 한다. 제5도의 히스토그램에는 광학밀도범위가 X축상에 도시돼 있고, 광학밀도치를 함유한 문자셀의 합계(또는 누계)횡폭이 y축상에 나타나 있다. 제5도에 도시된 바와 같이 한국어, 중국어 및 일본어의 정규화 히스토그램이 용이하게 식별된다.
본 발명의 방법 및 장치는 통계학을 기초로 한 것이므로, 매우 완전하므로 아주 불량하게 인쇄 및/또는 스캔된 문서라도 처리할 수 있다. 즉, 디지탈데이타신호 또는 이 디지탈데이타신호로부터 생성된 글자구성요소들은 문서의 모든 문자를 완벽히 표시할 필요가 없다. 오히려 본 발명은 단일의 글자구성요소를 2 이상의 글자구성요소로 분할하든가 또는 2 이상의 분리된 글자구성요소를 단일의 글자구성요소로 통합시키는 등과같은 통상의 스캐닝도 처리할 수 있다.
그러나, 정규화 아시아어 원고와 화상(102)의 원고부(104)의 히스토그램을 비교하여 원고부의 특정언어를 판정하기가 곤란하게 된다. 따라서 상기 3개의 정규화히스토그램을 선형식별분석(Linear Discriminant analysisy : LDA)에 의해서 신좌표 공간으로 변환한다. 이 신좌표공간에서 변수들은 동일한 변량을 가지며, 상관관계는 없다.
제6도에 도시된 바와 같이 신좌표공간은 정규화된 한국어, 중국어, 및 일본어 원고의 3히스토그램 각각에 대응하는 3개의 비중첩 영역을 갖고 있다.
언어판정수단(36)은 LDA에 의하여 화상(102)의 원고부(104)의 히스토그램을 신좌표 공간내 포인트로 변환한다. 상기 포인트에 해당하거나 또는 가장 가까운 신좌표공간의 정규화 언어영역에 대응하는 아시아어가 원고부(104)에 대한 특정 아시아어로서 판정된다.
상기 언어판정수단(36)이 화상(102)의 원고부(104)에 대하여 특정 아시아인 것으로 일단 판정하면 언어판정수단(36)의 결과가 광학문자인식수단에 직접 출력되어 최적의 광학문자인식앨고리듬을 선택하거나 또는 본 발명의 장치 및 방법에 의해 판정된 언어와 스크립트의 세트를 트레이닝(traning)할 수 있다. 또다른 방법으로 그 결과는 원고부(104)와 함께 지연 처리를 위해 메모리(112)내에 기억될 수도 있다.
상기한 스크립트판정시스템의 간략한 동작후로우챠트가 제7도에 도시돼 있다. 단계 S100에서는 시스템이 개시되고, 단계 S110에서 문서가 스캔되어 디지탈데이타신호가 생성된다. 다음 단계 S120에서 임의의 원하는 사전처리 앨고리듬을 디지탈화상데이타신호에 적용함으로써 디지탈데이타신호가 클린업된다. 단계 130에서는 상기 디지탈 화상데이타신호의 글자구성요소가 확인되고, 단계 S140에서는 각각의 판정된 글자구성요소의 제한박스가 판정된다.
단계 S150에서는 원고부(104)의 문자셀들이 생성된다. 단계 S160에서는 판정될 스크립트특징이 선택된다. 양호실시예에서는 문자셀들의 광학밀도가 양호한 특징이다. 단계 S170에서는 각 문자셀의 광학밀도가 판정된다.
다음, 단계 S180에서는 원고부(104)에 대한 판정된 또는 로케이션된 특징분포(양호 실시예에서 문자셀들의 광학밀도의 총 또는 합계 횡폭도)의 히스토그램이 생성된다. 단계 S190에서는 상기 판정된 히스토그램은 LDA에 의하여 신좌표공간상의 로케시션으로 변환된다.
단계 S200에서는 상기 원고부(104)의 로케이션이 복수의 사이한 아시아어의 정규화 원고부들에 대응하는 신좌표 공간내의 영역들과 비교되어 원고부(104)의 특정 아시아어를 판정한다. 단계 S210에서는 상기 포인트에 가장 가까운 영역에 대응하는 아시아어가 원고부(104)의 언어로서 선택된다.
최종적으로 단계 S220에서는 원고부(140)의 특정 아시아어가 출력된 다음 단계 S230에서 시스템이 정지한다.
본 발명을 특정의 양호 실시예들을 참조하여 설명하였으나, 본 발명은 이들에 한정되지 않으며, 본 발명의 요지범위내에서 다양한 변형이 가능하다.

Claims (13)

  1. 문서내 화상의 아시아 스크립트형 원고부의 언어를 자동판정하는 장치에 있어서 ; 상기 원고부를 표시하는 디지탈데이타신호로서 복수의 화소에 제각기 대응하는 복수의 신호부로 구성되는 디지탈 데이타신호입력수단과 ; 상기 복수의 신호부들로부터 적어도 하나의 글자구성요소를 생성하는 글자구성 요소생성수단과 ; 적어도 하나의 글자구성요소에 의하여 적어도 하나의 사전선택된 스크립트 특징유형에 대응하는 스크립트 특징을 로케이트하는 특징판정수단 및 ; 상기 로케이트된 스크립트특징의 분포의 복수의 아시아어의 적어도 하나의 소정 스크립트특징분포를 비교하여 이 비교에 응답하여, 상기 원고부의 아시아어를 판정하는 언어판정수단을 구비함을 특징으로 하는 아이사어 자동판정장치.
  2. 제1항에 있어서, 상기 특정판정수단은 1 이상의 글자구성요소 각각에 대하여 그들에 대한 복수의 신호부의 제한박스를 생성하는 제한박스 생성수단과 ; 1 이상의 글자구성요소를 각각 포함하는 복수의 문자셀을 생성하는 문자셀생성수단을 구비함을 특징으로 하는 아시아어자동판정장치.
  3. 제2항에 있어서, 상기 특정판정수단은 복수의 문자셀들의 광학밀도를 판정하는 광학밀도 판정수단을 더 구비하는 것을 특징으로 하는 아시아어 자동판정장치.
  4. 제3항에 있어서, 상기 복수의 문자셀 각각에 대응하는 광학밀도는 상기 문자셀의 면적으로 정규화되는 것이 특징인 아시아어 자동판정장치.
  5. 제3항에 있어서, 상기 언어판정수단은 복수의 문자셀의 광학밀도에 대응하는 히스토그램발생수단을 구비한 것이 특징인 아시아어 자동판정장치.
  6. 제5항에 있어서, 상기 언어판정수단은 선형식별 분석에 의하여 상기 히스토그램을 변수공간내 포인트로 변환시키는 LDA 발생수단과 ; 상기 포인트를 상기 변수공간내 복수의 소정체제와 비교하는 비교수단과 ; 상기 비교에 응답하여 상기 원고부에 대해 판정된 언어를 출력하는 출력수단을 더 구비함을 특징으로 하는 아시아어 자동판정장치.
  7. 제1항에 있어서, 상기 복수의 아시아어가 적어도 한국어, 중국어 및 일본어를 포함한 것이 특징인 아시아어 자동판정장치.
  8. 문서상의 화상의 원고부의 아시아어를 자동판정하는 장치에 있어서, 문서를 스캔하여 문서상의 화상을 표시하기 위해 복수의 신호부를 포함하며, 각 신호부가 상기 화상의 복수의 화소중 대응하는 것을 표시하는 데이타를 포함하는 디지탈데이타신호를 출력하는 스캐너와, 상기 디지탈데이타신호를 기억하는 메모리와 ; 상기 화상의 원고부의 아시아어를 판정키위한 제어장치를 구비하며, 상기 제어장치가 복수의 신호부로부터 적어도 하나의 글자구성요소를 판정키위한 글자구성요소생성수단과 ; 1 이상의 글자구성요소 각각에 대하여 1 이상의 소정 스크립트특징 유형에 대응하는 스크립트특징을 로케이트시키는 특징판정수단과 ; 상기 로케이트된 스크립트특징의 분포를 판정하는 특징분포판정수단과 ; 상기 판정된 특징분포를 1 이상의 아시아어의 설정된 특징분포와 비교하는 비교수단 및; 원고부의 판정된 언어를 표시하는 신호를 출력하는 출력수단을 구비하는 것을 특징으로 하는 아시아어 자동판정장치.
  9. 제8항에 있어서, 상기 특징판정수단은 1 이상의 글자구성요소를 각각 포함한 복수의 문자셀을 판정하기 위한 문자셀판정수단을 포함한 것이 특징인 아시아어 자동판정장치.
  10. 제9항에 있어서, 상기 특징판정수단은 로케이트되는 1 이상의 스크립트특징을 선택하는 특징선택수단을 더 구비한 것이 특징인 아시아어 자동판정장치.
  11. 제9항에 있어서, 상기 1 이상의 소정 스크립트 특징은 광학밀도인 것이 특징인 아시아어 자동판정장치.
  12. 원고부를 포함한 복수의 화소로부터 1 이상의 글자구성요소를 판정하는 단계와 ; 1 이상의 미리 선택된 스크립트특징 유형에 대응하는 1 이상의 글자구성요소에 의하여 원고부의 스크립트 특징의 로케이션을 판정하는 단계와 ; 상기 로케이트된 스트립트 특징들에 대하여 1 이상의 미리 선택된 유형의 스크립트특징 각각에 대응하는 분포를 판정하는 단계와 ; 상기 로케이트된 스크크립트특징들의 특징분포와 1 이상의 아시아어에 대한 1 이상의 소정 특징분포를 비교하는 단계와 ; 상기 비교결과에 의하여 상기 아시아어를 판정하는 단계로 이루어지는 것을 특징인 문서의 원고부의 아시아어 자동판정방법.
  13. 제12항에 있어서, 상기 원고부의 복수의 문자셀을 판정하는 단계를 더 포함하며, 상기 각 문자셀은 1 이상의 글자구성요소를 포함하며, 상기 1 이상의 미리 선택된 유형의 스크립트특징은 문자셀의 광학밀도인 것이 특징인 아시아어 자동판정방법.
KR1019940004750A 1993-04-19 1994-03-11 아시아어 자동판정방법 및 장치 KR960015594B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/047,673 US5425110A (en) 1993-04-19 1993-04-19 Method and apparatus for automatic language determination of Asian language documents
US8/047,673 1993-04-19
US08/047,673 1993-04-19

Publications (2)

Publication Number Publication Date
KR940024627A KR940024627A (ko) 1994-11-18
KR960015594B1 true KR960015594B1 (ko) 1996-11-18

Family

ID=21950309

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019940004750A KR960015594B1 (ko) 1993-04-19 1994-03-11 아시아어 자동판정방법 및 장치

Country Status (6)

Country Link
US (1) US5425110A (ko)
EP (1) EP0621541B1 (ko)
JP (1) JPH0721319A (ko)
KR (1) KR960015594B1 (ko)
DE (1) DE69428475T2 (ko)
TW (1) TW256905B (ko)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5555556A (en) * 1994-09-30 1996-09-10 Xerox Corporation Method and apparatus for document segmentation by background analysis
US5999706A (en) * 1997-04-28 1999-12-07 Pitney Bowes, Inc. Method and apparatus for substituting a 2-byte font character standard in a printer
US5909510A (en) * 1997-05-19 1999-06-01 Xerox Corporation Method and apparatus for document classification from degraded images
US6005986A (en) * 1997-12-03 1999-12-21 The United States Of America As Represented By The National Security Agency Method of identifying the script of a document irrespective of orientation
US8855998B2 (en) 1998-03-25 2014-10-07 International Business Machines Corporation Parsing culturally diverse names
US6963871B1 (en) 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US8812300B2 (en) 1998-03-25 2014-08-19 International Business Machines Corporation Identifying related names
US6292772B1 (en) 1998-12-01 2001-09-18 Justsystem Corporation Method for identifying the language of individual words
US6889147B2 (en) * 2002-09-17 2005-05-03 Hydrogenics Corporation System, computer program product and method for controlling a fuel cell testing device
US7218779B2 (en) * 2003-01-21 2007-05-15 Microsoft Corporation Ink divider and associated application program interface
EP1613972A1 (en) * 2003-04-17 2006-01-11 Hydrogenics Corporation Alarm recovery system and method for fuel cell testing systems
US20040229954A1 (en) * 2003-05-16 2004-11-18 Macdougall Diane Elaine Selective manipulation of triglyceride, HDL and LDL parameters with 6-(5-carboxy-5-methyl-hexyloxy)-2,2-dimethylhexanoic acid monocalcium salt
US20050183948A1 (en) * 2003-09-22 2005-08-25 Ali Rusta-Sallehy Apparatus and method for reducing instances of pump de-priming
US20070005586A1 (en) * 2004-03-30 2007-01-04 Shaefer Leonard A Jr Parsing culturally diverse names
US7986307B2 (en) * 2005-04-22 2011-07-26 Microsoft Corporation Mechanism for allowing applications to filter out or opt into tablet input
US7928964B2 (en) 2005-04-22 2011-04-19 Microsoft Corporation Touch input data handling
US20060267958A1 (en) * 2005-04-22 2006-11-30 Microsoft Corporation Touch Input Programmatical Interfaces
US7702699B2 (en) * 2006-05-31 2010-04-20 Oracle America, Inc. Dynamic data stream histograms for large ranges
CN100440250C (zh) * 2007-03-09 2008-12-03 清华大学 印刷体蒙古文字符识别方法
US9141607B1 (en) * 2007-05-30 2015-09-22 Google Inc. Determining optical character recognition parameters
US8340430B2 (en) * 2007-07-10 2012-12-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
EP2120130A1 (en) * 2008-05-11 2009-11-18 Research in Motion Limited Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input
US8160365B2 (en) * 2008-06-30 2012-04-17 Sharp Laboratories Of America, Inc. Methods and systems for identifying digital image characteristics
US8744171B1 (en) * 2009-04-29 2014-06-03 Google Inc. Text script and orientation recognition
US8326602B2 (en) * 2009-06-05 2012-12-04 Google Inc. Detecting writing systems and languages
US8468011B1 (en) 2009-06-05 2013-06-18 Google Inc. Detecting writing systems and languages
RU2613847C2 (ru) 2013-12-20 2017-03-21 ООО "Аби Девелопмент" Выявление китайской, японской и корейской письменности
RU2640322C2 (ru) 2014-01-30 2017-12-27 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов
RU2648638C2 (ru) 2014-01-30 2018-03-26 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов, использующие множество кластеров эталонов символов
US20150269135A1 (en) * 2014-03-19 2015-09-24 Qualcomm Incorporated Language identification for text in an object image
US9589185B2 (en) 2014-12-10 2017-03-07 Abbyy Development Llc Symbol recognition using decision forests
US20170068868A1 (en) * 2015-09-09 2017-03-09 Google Inc. Enhancing handwriting recognition using pre-filter classification
US10431203B2 (en) 2017-09-05 2019-10-01 International Business Machines Corporation Machine training for native language and fluency identification

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3755780A (en) * 1971-06-28 1973-08-28 Pattern Analysis & Recognition Method for recognizing characters
JPS5837779A (ja) * 1981-08-31 1983-03-05 Ricoh Co Ltd 文書処理装置
JPS5960574A (ja) * 1982-09-30 1984-04-06 Fujitsu Ltd 文字認識方式
US4817186A (en) * 1983-01-07 1989-03-28 International Business Machines Corporation Locating individual images in a field for recognition or the like
US5062143A (en) * 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification
US5181259A (en) * 1990-09-25 1993-01-19 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration General method of pattern classification using the two domain theory
US5253307A (en) * 1991-07-30 1993-10-12 Xerox Corporation Image analysis to obtain typeface information
JPH0540846A (ja) * 1991-08-06 1993-02-19 Oki Electric Ind Co Ltd 文書画像の和文・欧文判定方法

Also Published As

Publication number Publication date
EP0621541A3 (en) 1995-05-17
KR940024627A (ko) 1994-11-18
DE69428475T2 (de) 2002-05-08
EP0621541B1 (en) 2001-10-04
DE69428475D1 (de) 2001-11-08
EP0621541A2 (en) 1994-10-26
TW256905B (ko) 1995-09-11
JPH0721319A (ja) 1995-01-24
US5425110A (en) 1995-06-13

Similar Documents

Publication Publication Date Title
KR960015594B1 (ko) 아시아어 자동판정방법 및 장치
US5444797A (en) Method and apparatus for automatic character script determination
US5377280A (en) Method and apparatus for automatic language determination of European script documents
EP0621554B1 (en) Method and apparatus for automatic determination of text line, word and character cell spatial features
US6574375B1 (en) Method for detecting inverted text images on a digital scanning device
US5526443A (en) Method and apparatus for highlighting and categorizing documents using coded word tokens
EP0358815B1 (en) System and method for automatic segmentation
JP2536966B2 (ja) テキスト編集システム
EP0439951B1 (en) Data processing
US5659638A (en) Method and system for converting bitmap data into page definition language commands
US5563403A (en) Method and apparatus for detection of a skew angle of a document image using a regression coefficient
Shen et al. A large dataset of historical japanese documents with complex layouts
EP0629078A1 (en) Apparatus for processing and reproducing image information
US6711292B2 (en) Block selection of table features
US5375176A (en) Method and apparatus for automatic character type classification of European script documents
US5768414A (en) Separation of touching characters in optical character recognition
US20010043742A1 (en) Communication document detector
JP3215163B2 (ja) 罫線識別方法及び領域識別方法
US20050117803A1 (en) Document recognition device, document recognition method and program, and storage medium
EP0715274A2 (en) Method and apparatus for detecting whether an electronic image has been faxed
JPH06259597A (ja) ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置
JPH11312219A (ja) 宛名読取り装置および郵便物等区分機および文字列認識方法
Spitz Script determination in document images
JPH0863545A (ja) 文字認識処理装置における文字方向および行方向決定方法
JPH05242293A (ja) 文書認識システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20021107

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee