KR960015594B1

KR960015594B1 - 아시아어 자동판정방법 및 장치

Info

Publication number: KR960015594B1
Application number: KR1019940004750A
Authority: KR
Inventors: 스피쯔 로렌스
Original assignee: 가또 마사오; 후지제록스 가부시끼가이샤; 존. 이백; 제록스 코오포레이션
Priority date: 1993-04-19
Filing date: 1994-03-11
Publication date: 1996-11-18
Also published as: EP0621541A3; KR940024627A; DE69428475T2; EP0621541B1; DE69428475D1; EP0621541A2; TW256905B; JPH0721319A; US5425110A

Abstract

내용없음

Description

아시아어 자동판정방법 및 장치

제1도는 광학 문자인식시스템의 개통도.

제2도는 3개의 샘플 원고부, 즉 한국어(한글), 중국어 및 일본어 스크립트를 갖는 서류를 나타낸 도면.

제3도는 글자구성요소 둘레에 문자셀이 있는 제2도의 원고부를 나타낸 도면.

제4도는 일본어 원고샘플과 그에 대한 광학밀도관계를 나타낸 도면.

제5도는 정규화된 한국어, 중국어, 일본어 원고의 광학밀도의 히스토그램.

제6도는 제5도의 선형식별분석 변환을 나타낸 도면.

제7도는 본 발명의 아시아어 식별방법의 후로우차트.

본 발명은 자동원고식별방법 및 장치에 관한 것이며, 특히 원고의 문자 언어를 자동적으로 판정하는 방법 및 장치에 관한 것이다.

스캔(scan)된 화상데이타를 디지탈컴퓨터용으로 적합한 원고데이타로 변환하기 위한 광학문자인식 및 그 용도에 대해서는 잘 알려져 있다. 또한 스캔된 화상데이타를 원고데이타로 변환하는 방법과 이 방법에서 발생되는 에러의 유형 대해서도 잘 알려져 있다. 그러나, 문자인식방법의 적절한 선택은 문서에 사용된 스크립트(알파벳 또는 표의 문자)에 크게 의존한다. 또한 적절한 에러보정방법의 선택은 또한 문서의 언어에 크게 의존한다. 통상광학문자 인식방법과 광학문자인식 시스템에서의 에러보정방법은 문서에서 사용된 스크립트와 언어가 그 시스템이 사용중인 나라의 통상의 스크립트 및 언어인 것을 전제로 해서 제안된 것들이었다. 즉 미국에서의 통상의 광학문자인식시스템은 문서가 영어로 되고, 로마스크립트를 사용하는 것을 전제로 하는 한편, 일본에서는 언어가 일본어이고, 일본 스크립트를 사용하는 것을 전제로 한 것이다. 다른 방법으로 광학문자 인식시스템을 복수의 언어에 대한 문자인식 및 에러 해결방법으로서 실행할 수도 있다.

그러나 현재까지는 문서의 스크립트 유형 및/또는 언어를 자동적으로 결정하는 광학문자 인식 시스템을 갖추는 것이 불가능했다. 오히려 광학문자인식시스템에 각각의 문서가 제공되므로, 문서의 특정 언어와 스크립트에 대한 어느 정도의 표시를 광학문자인식시스템에 해주어야 한다. 이것은 문서의 언어와 스크립트에 관한 데이타를 오퍼레이터가 광학문자인식시스템에 입력하거나 또는 문서의 언어와 스크립트를 표시하는 특수 표지를 그 문서에 표시함으로써 달성되왔다.

그러므로 본 발명의 목적은 자동화 언어식별능력을 갖는 광학문자인식시스템을 제공하는데 있다.

본 발명의 다른 목적은 판정된 스트립트에 의하여 문서의 특정 언어를 판정하는 방법을 제공하는데 있다.

본 발명의 다른 목적은 스크립트 특성에 의하여 문서의 언어를 판정하는데 있다.

본 발명의 또다른 목적은 아시아스크립트 문서의 특정 언어를 판정하는데 있다.

본 발명의 양호한 방법 및 장치의 제1실시예에 의하면 문서의 원고부의 스트립트가 아시아 스크립트형인 것으로 판정되면 원고부가 문자를 구성하는 1 이상의 글자구성요소들을 각각 둘러싸는 복수의 문자셀을 분석하여 문자셀들내에 광학밀도를 판정한다.

문서의 원고부가 상응하는 디지탈데이타 신호로 변화되지 않은 경우, 문서가 스캔되어 모든 비원고 정보는 제거된다. 다음, (필요에 따라서)얻어진 원고화상의 비틀림과 기티 스캐닝 영향이 보정된다. 얻어진 원고화상이 일단 스캔되어 클린업(clean up)되면 로케이션(location)과 화상농도를 갖는 화소의 비트맵(bitmap)으로부터 복수의 연결된 글자구성요소로 화상이 변환된다

이 글자구성요소들이 생성된 후, 각각의 글자구성요소에 대해 제한박스(box)가 생성된다.

라인과 문자의 치수는 원고부내 문자셀의 경계를 형성하도록 결정된다. 문자셀의 결정된 광학밀도 분포에 근거하여 문서원고의 특정 아시아어가 판정된다.

본 발명을 도면을 참조하여 설명한다.

제1도에 도시된 바와 같이 본 발명의 광학문자인식시스템은 전하결합장치(CDD) 등을 갖는 스캐너(110)를 구비하고 있다. 이 스캐너(110)는 화상(102)(미상의 스크립트와 언어로 된 3개의 원고들을 포함한 샘플화상(102)이 제2도에 도시되 있음)을 갖는 문서(100)를 스캔하여 원래문서(100)의 화상(102)을 구성하는 복수 화소의 로케이션 및 화상농도를 표시하는 디지탈데이타신호를 출력한다. 이 디지탈데이타신호는 메모리(112)로 송출되어 여기서 일시적으로 또는 무기한으로 기억된다. 상기 디니탈데이타신호는 메모리(112)로부터 출력시, 범용디지탈컴퓨터(114)에 입력된다.

컴퓨터(114)에 일단 입력되면 화상(102)의 모든 비원고부를 제거하여 원고부(104)만 잔존시킴으로써 디지탈데이타 신호가 먼저 클린업된다. 또한 비틀림등의 디지탈데이타신호의 임의의 스캐너영향이 보정된다. 다음 클린업된 디지탈데이타신호는 메모리(112)에 재기억되거나 또는 컴퓨터(114)의 메모리에 기억된다. 또다른 방법으로 스캐너는 스캐너 영향의 제거와 같은 약간의 사전처리를 할 수도 있다.

제1도에 도시된 바와 같이 본 발명의 범용 디지탈컴퓨터(114)는 제어프로그램을 기억하기 위한 메모리(22)와, 메모리(112)로부터의 디지탈데이터신호를 입력하고, 화상(102)의 판정된 스크립트형을 표시하는 신호를 출력하는 입출력회로(24)를 구비하고 있다. 범용컴퓨터(114)는 또한 디지탈데이타신호를 기억하는 화상메모리 RAM(26)과 ; 상기 디지탈데이타신호로부터 글자구성요소를 생성하는 글자구성요소생성수단(28)과 ; 각각의 글자구성요소에 대한 제한박스의 좌표와 이제한박스내의 디지트화 된 화상의 화소들을 결정하는 제한박스생성수단(30)과 ; 1 이상의 글자구성요소들을 포함한 문자셀들을 생성하는 공간특징판정수단(32)과 ; 각 제한박스에 대해 1 이상의 설정된 특징 유형의 분포를 판정하는 특징판정수단(34) 및 ; 문서의 언어를 판정하기 위한 언어판정수단(36)를 구비하고 있다. 제어프로그램을 기억하는 메모리(22)는 ROM(22a) 또는 RAM(22b)의 어느 것을 구비할 수 있다.

동작시에는 제1도에 도시된 바와 같이 화상(102)을 갖는 문서(100)가 내부에 배치되면 스캐너(110)에 의해 스캔되어 직렬 또는 병렬 디지탈데이타신호를 생성한다. 상기 디지탈데이타신호는 복수의 신호부를 포함하며, 각 부분은 원래 화상(102)의 대응하는 화소를 표시한다. 화상(102)의 각 화소는 화상(102)내 로케이션과 화상농도를 갖고 있다. 따라서 디지탈데이타신호의 각 신호부는 대응하는 화소의 로케이션과 화상농도를 표시하는 데이타를 포함한다.

다음 스캐너(110)에 의해 출력된 디지탈 데이타신호가 메모리(112)에 기억된다. 이 메모리(112)는 RAM, 플래시 메모리, 디스크메모리등을 포함할 수 있다. 메모리(112)의 유형에 무관하게 디지탈데이타신호가 각 신호부내의 로케이션과 화상농도에 응답하여 메모리(112)에 기억된다. 물론 디지탈데이타신호는 중간메모리(112) 보다는 범용 디지탈컴퓨터(114)에 직접 입력될 수 있다.

다른 방법으로 상기 메모리(112)는 범용 디지탈컴퓨터(114)내에 설치될 수도 있다. 어느 경우에서도 상기 메모리(112)는 화상(102)을 장기간 기억하는데 사용된다.

일단, 오퍼레이터가 스캐너(110)내로의 문서 입력을 종료하거나 또는 시스템이 화상(102)을 표시하는 디지탈데이타신호가 원고데이타로 변환돼야함을 판정하면 화상(102)을 표시하는 디지탈데이타신호가 메모리(112)로부터 범용컴퓨터(114)로 출력된다. 물론, 범용디지탈컴퓨터(114) 대신에 특수용 디지탈컴퓨터 또는 배선논리회로를 사용할 수 있다.

메모리(112)에 기억된 디지탈화상데이타신호가 범용컴퓨터(114)에 출력되면 여기서 입출력수단(24)을 통하여 화상메모리(26)에 입력된다. 본 발명의 제1양호 실시예에서는 그로스(gross)스트립트형이 아시아의 것으로 밝혀지면, 특징판정수단(34)은 한국, 중국, 일본어 문서를 식별하기 위해 사전에 선택된 특징으로 설정된다. 물론, 원고부의 그로스 스크립트형이 식별되지 않거나 또는 아시아 스트립트형인 것으로 밝혀지면, 본 출원인에 의해 출원된 참고문헌인 미국출원 No. 08/047,515호에 기재된 바와 같이 그로스 스크립트 분류를 판정하는 방법 및 장치를 사용할 수 있다.

일단 상기 디지탈데이타신호가 화상메모리(26)내에 완전히 기억되면, 상기 디지탈데이타신호가 글자구성요소생성수단(28)에 적용 가능하게 된다. 글자구성요소생성수단(28)은 화상(102)의 원고부를 표시하는 디지탈데이타신호를 1 이상의 신호부로 구성되는 복수의 글자구성요소로 분할하며, 각각의 글자구성요소는 소정의 최소 화상농도를 갖고 있고, 연속된 경로를 형성하는 원래 화상(102)의 화소들에 대응하는 신호부들로 구성된다. 각각의 스크립트 문자는 통상, "Fuji"의 "F"와 같이 하나의 글자구성요소에 대응하거나 또는 "Fuji"의 "J" 또는 "i"와 같이 1 이상의 글자구성요소에 대응한다.

상기 글자구성요소생성수단(28)이 일단, 디지탈데이타신호로부터 원고부(104)의 복수의 글자구성요소를 생성하면 상기 글자구성요소생성수단(28)에 의해 생성된 글자구성요소리스트와 원고부(104)에 대응하는 디지탈데이타신호가 화상메모리(26)이 기억됨과 동시에 제한박스생성수단(30)에 출력된다.

상기 제한박스생성수단(30)은 원고부(104)를 표시하는 디지탈데이타신호를 복수의 제한박스로 재분할한다. 여기서 각각의 제한박스는 하나의 글자구성요소와, 글자구성요소를 포함한 화소들에 인접한 화소 로케이션에 대응하는 디지탈데이타신호의 0,1 또는 그 이상의 신호부로 구성된다. 각 제한박스의 치수는 대응하는 글자구성요소를 포함한 좌한, 우한, 상한, 하한 신호부들의 포메이션 데이타에 의해서 결정된다. 따라서 제한박스내의 신호부들은 글자구성 요소와 화상농도 데이타에 상관없이 제한박스의 영역내에 신호부들은 배치시키는 로케이션 데이타를 갖는 신호부들을 포함한 것들이다. 일단 제한박스들과 각 제한박스를 포함한 신호부들의 리스트가 상기 제한박스 생성수단(30)에 의해 생성되면 제한박스들과 그에 대응하는 신호부들의 리스트가 화상메모리(26)에 기억됨과 동시에 공간 특징판정수단(32)에 출력된다.

상기 공간 특징판정수단(32)은 다양한 방법중 임의의 방법을 사용하여 원고부의 라인, 단어 및/또는 문자셀을 판정한다. 상기 방법중 하나가 본 출원인이 출원한 참고문헌인 미국출원 No. 08/047,514호에 기재돼 있다.

제1의 양호한 실시예에서는 특징판정수단(34)에 의하여 광학밀도스크립트 특징을 사용하여 한국어, 중국어 및 일본어 문서간을 식별한다. 제2도는 문서(100)의 화상(102)의 원고부(104)를 포함한 아시아어 원고의 3샘플을 나타낸다. 글자구성요소생성수단(28)은 원고부(104)에 대한 각각의 글자구성요소를 판정한다. 다음 제한박스생성수단(30)은 각각의 글자구성요소에 대한 제한박스를 판정한다. 다음 공간 특징판정수단(32)은 제3도에 도시된 바와 같이 문자셀을 판정한다. 물론, 상기 동작들중 어느 것이라도 원고부(104)에 대한 사전 그로스 스크립트분류동작 또는 문자셀 생성동작이 이미 종료된 경우에는 상기 동작들을 반복할 필요가 없게 된다.

어느 경우에서도 본 발명의 제1양호실시예에서는 특징판정수단(34)이 각 문자셀의 광학밀도 또는 소정치보다 큰 화상농도를 갖는 화소총수를 판정하도록 설정된다.

제4도는 일본어 원고의 다른 샘플과 각 문자셀의 로케이션 데이타에 대한 각 문자셀내의 1 이상의 글자구성요소로 인한 문자셀의 광학밀도를 나타낸다. 문자셀의 리스트와 화상농도치의 대응 리스트가 특징판정수단(34)으로부터 언어판정수단(36)으로 출력된다. 제1양호 실시예에서는 상기 언어판정수단(36)이 먼저 제5도에 도시된 것들과 같이 원고부(104)의 문자셀들의 광학밀도의 히스토그램을 생성한다.

제5도의 히스토그램에서는 문자간 간격의 횡폭(즉, 광학밀도함수가 영(0)으로 저하되는 로케이션들)은 포함돼있지 않음을 주목해야 한다. 제5도의 히스토그램에는 광학밀도범위가 X축상에 도시돼 있고, 광학밀도치를 함유한 문자셀의 합계(또는 누계)횡폭이 y축상에 나타나 있다. 제5도에 도시된 바와 같이 한국어, 중국어 및 일본어의 정규화 히스토그램이 용이하게 식별된다.

본 발명의 방법 및 장치는 통계학을 기초로 한 것이므로, 매우 완전하므로 아주 불량하게 인쇄 및/또는 스캔된 문서라도 처리할 수 있다. 즉, 디지탈데이타신호 또는 이 디지탈데이타신호로부터 생성된 글자구성요소들은 문서의 모든 문자를 완벽히 표시할 필요가 없다. 오히려 본 발명은 단일의 글자구성요소를 2 이상의 글자구성요소로 분할하든가 또는 2 이상의 분리된 글자구성요소를 단일의 글자구성요소로 통합시키는 등과같은 통상의 스캐닝도 처리할 수 있다.

그러나, 정규화 아시아어 원고와 화상(102)의 원고부(104)의 히스토그램을 비교하여 원고부의 특정언어를 판정하기가 곤란하게 된다. 따라서 상기 3개의 정규화히스토그램을 선형식별분석(Linear Discriminant analysisy : LDA)에 의해서 신좌표 공간으로 변환한다. 이 신좌표공간에서 변수들은 동일한 변량을 가지며, 상관관계는 없다.

제6도에 도시된 바와 같이 신좌표공간은 정규화된 한국어, 중국어, 및 일본어 원고의 3히스토그램 각각에 대응하는 3개의 비중첩 영역을 갖고 있다.

언어판정수단(36)은 LDA에 의하여 화상(102)의 원고부(104)의 히스토그램을 신좌표 공간내 포인트로 변환한다. 상기 포인트에 해당하거나 또는 가장 가까운 신좌표공간의 정규화 언어영역에 대응하는 아시아어가 원고부(104)에 대한 특정 아시아어로서 판정된다.

상기 언어판정수단(36)이 화상(102)의 원고부(104)에 대하여 특정 아시아인 것으로 일단 판정하면 언어판정수단(36)의 결과가 광학문자인식수단에 직접 출력되어 최적의 광학문자인식앨고리듬을 선택하거나 또는 본 발명의 장치 및 방법에 의해 판정된 언어와 스크립트의 세트를 트레이닝(traning)할 수 있다. 또다른 방법으로 그 결과는 원고부(104)와 함께 지연 처리를 위해 메모리(112)내에 기억될 수도 있다.

상기한 스크립트판정시스템의 간략한 동작후로우챠트가 제7도에 도시돼 있다. 단계 S100에서는 시스템이 개시되고, 단계 S110에서 문서가 스캔되어 디지탈데이타신호가 생성된다. 다음 단계 S120에서 임의의 원하는 사전처리 앨고리듬을 디지탈화상데이타신호에 적용함으로써 디지탈데이타신호가 클린업된다. 단계 130에서는 상기 디지탈 화상데이타신호의 글자구성요소가 확인되고, 단계 S140에서는 각각의 판정된 글자구성요소의 제한박스가 판정된다.

단계 S150에서는 원고부(104)의 문자셀들이 생성된다. 단계 S160에서는 판정될 스크립트특징이 선택된다. 양호실시예에서는 문자셀들의 광학밀도가 양호한 특징이다. 단계 S170에서는 각 문자셀의 광학밀도가 판정된다.

다음, 단계 S180에서는 원고부(104)에 대한 판정된 또는 로케이션된 특징분포(양호 실시예에서 문자셀들의 광학밀도의 총 또는 합계 횡폭도)의 히스토그램이 생성된다. 단계 S190에서는 상기 판정된 히스토그램은 LDA에 의하여 신좌표공간상의 로케시션으로 변환된다.

단계 S200에서는 상기 원고부(104)의 로케이션이 복수의 사이한 아시아어의 정규화 원고부들에 대응하는 신좌표 공간내의 영역들과 비교되어 원고부(104)의 특정 아시아어를 판정한다. 단계 S210에서는 상기 포인트에 가장 가까운 영역에 대응하는 아시아어가 원고부(104)의 언어로서 선택된다.

최종적으로 단계 S220에서는 원고부(140)의 특정 아시아어가 출력된 다음 단계 S230에서 시스템이 정지한다.

본 발명을 특정의 양호 실시예들을 참조하여 설명하였으나, 본 발명은 이들에 한정되지 않으며, 본 발명의 요지범위내에서 다양한 변형이 가능하다.

Claims

문서내 화상의 아시아 스크립트형 원고부의 언어를 자동판정하는 장치에 있어서 ; 상기 원고부를 표시하는 디지탈데이타신호로서 복수의 화소에 제각기 대응하는 복수의 신호부로 구성되는 디지탈 데이타신호입력수단과 ; 상기 복수의 신호부들로부터 적어도 하나의 글자구성요소를 생성하는 글자구성 요소생성수단과 ; 적어도 하나의 글자구성요소에 의하여 적어도 하나의 사전선택된 스크립트 특징유형에 대응하는 스크립트 특징을 로케이트하는 특징판정수단 및 ; 상기 로케이트된 스크립트특징의 분포의 복수의 아시아어의 적어도 하나의 소정 스크립트특징분포를 비교하여 이 비교에 응답하여, 상기 원고부의 아시아어를 판정하는 언어판정수단을 구비함을 특징으로 하는 아이사어 자동판정장치.
제1항에 있어서, 상기 특정판정수단은 1 이상의 글자구성요소 각각에 대하여 그들에 대한 복수의 신호부의 제한박스를 생성하는 제한박스 생성수단과 ; 1 이상의 글자구성요소를 각각 포함하는 복수의 문자셀을 생성하는 문자셀생성수단을 구비함을 특징으로 하는 아시아어자동판정장치.
제2항에 있어서, 상기 특정판정수단은 복수의 문자셀들의 광학밀도를 판정하는 광학밀도 판정수단을 더 구비하는 것을 특징으로 하는 아시아어 자동판정장치.
제3항에 있어서, 상기 복수의 문자셀 각각에 대응하는 광학밀도는 상기 문자셀의 면적으로 정규화되는 것이 특징인 아시아어 자동판정장치.
제3항에 있어서, 상기 언어판정수단은 복수의 문자셀의 광학밀도에 대응하는 히스토그램발생수단을 구비한 것이 특징인 아시아어 자동판정장치.
제5항에 있어서, 상기 언어판정수단은 선형식별 분석에 의하여 상기 히스토그램을 변수공간내 포인트로 변환시키는 LDA 발생수단과 ; 상기 포인트를 상기 변수공간내 복수의 소정체제와 비교하는 비교수단과 ; 상기 비교에 응답하여 상기 원고부에 대해 판정된 언어를 출력하는 출력수단을 더 구비함을 특징으로 하는 아시아어 자동판정장치.
제1항에 있어서, 상기 복수의 아시아어가 적어도 한국어, 중국어 및 일본어를 포함한 것이 특징인 아시아어 자동판정장치.
문서상의 화상의 원고부의 아시아어를 자동판정하는 장치에 있어서, 문서를 스캔하여 문서상의 화상을 표시하기 위해 복수의 신호부를 포함하며, 각 신호부가 상기 화상의 복수의 화소중 대응하는 것을 표시하는 데이타를 포함하는 디지탈데이타신호를 출력하는 스캐너와, 상기 디지탈데이타신호를 기억하는 메모리와 ; 상기 화상의 원고부의 아시아어를 판정키위한 제어장치를 구비하며, 상기 제어장치가 복수의 신호부로부터 적어도 하나의 글자구성요소를 판정키위한 글자구성요소생성수단과 ; 1 이상의 글자구성요소 각각에 대하여 1 이상의 소정 스크립트특징 유형에 대응하는 스크립트특징을 로케이트시키는 특징판정수단과 ; 상기 로케이트된 스크립트특징의 분포를 판정하는 특징분포판정수단과 ; 상기 판정된 특징분포를 1 이상의 아시아어의 설정된 특징분포와 비교하는 비교수단 및; 원고부의 판정된 언어를 표시하는 신호를 출력하는 출력수단을 구비하는 것을 특징으로 하는 아시아어 자동판정장치.
제8항에 있어서, 상기 특징판정수단은 1 이상의 글자구성요소를 각각 포함한 복수의 문자셀을 판정하기 위한 문자셀판정수단을 포함한 것이 특징인 아시아어 자동판정장치.
제9항에 있어서, 상기 특징판정수단은 로케이트되는 1 이상의 스크립트특징을 선택하는 특징선택수단을 더 구비한 것이 특징인 아시아어 자동판정장치.
제9항에 있어서, 상기 1 이상의 소정 스크립트 특징은 광학밀도인 것이 특징인 아시아어 자동판정장치.
원고부를 포함한 복수의 화소로부터 1 이상의 글자구성요소를 판정하는 단계와 ; 1 이상의 미리 선택된 스크립트특징 유형에 대응하는 1 이상의 글자구성요소에 의하여 원고부의 스크립트 특징의 로케이션을 판정하는 단계와 ; 상기 로케이트된 스트립트 특징들에 대하여 1 이상의 미리 선택된 유형의 스크립트특징 각각에 대응하는 분포를 판정하는 단계와 ; 상기 로케이트된 스크크립트특징들의 특징분포와 1 이상의 아시아어에 대한 1 이상의 소정 특징분포를 비교하는 단계와 ; 상기 비교결과에 의하여 상기 아시아어를 판정하는 단계로 이루어지는 것을 특징인 문서의 원고부의 아시아어 자동판정방법.
제12항에 있어서, 상기 원고부의 복수의 문자셀을 판정하는 단계를 더 포함하며, 상기 각 문자셀은 1 이상의 글자구성요소를 포함하며, 상기 1 이상의 미리 선택된 유형의 스크립트특징은 문자셀의 광학밀도인 것이 특징인 아시아어 자동판정방법.