KR20010051346A

KR20010051346A - 소재정보의 인식장치, 소재정보의 인식방법 및 기록매체

Info

Publication number: KR20010051346A
Application number: KR1020000064171A
Authority: KR
Inventors: 나카오아키히코
Original assignee: 니시무로 타이죠; 가부시끼가이샤 도시바
Priority date: 1999-11-09
Filing date: 2000-10-31
Publication date: 2001-06-25
Also published as: US20050094850A1; JP2001134716A; KR100401685B1

Abstract

본 발명은 소재정보로서의 주소를 인식하는 소재정보의 인식장치, 소재정보의 인식방법 및 기록매체에 관한 것으로서, 나라에 따라 주소의 기재방식이 다른 경우라도 각국용 전용의 주소인식장치를 설계하는 일 없이 동일 하드웨어로 구성하도록 한 것이며, 이에 의해 약간 수정을 가하는 것만으로 각국의 소재정보의 인식을 실행할 수 있는 것을 특징으로 한다.

Description

소재정보의 인식장치, 소재정보의 인식방법 및 기록매체{RECOGNITION DEVICE AND METHOD OF LOCATION INFORMATION, AND RECORDING MEDIUM THEREOF}

본 발명은 소재정보로서의 주소를 인식하는 소재정보의 인식장치와 소재정보의 인식방법 및 기록매체에 관한 것이다.

일반적으로 엽서나 명함 등에 쓰여져 있는 주소정보(소재정보)를 광학식 문자판독장치(OCR장치)에 의해 광학적으로 판독하는 경우, 우선 그 서상(書狀)의 화상을 집어넣고 나서 주소가 기재되어 있는 영역을 지정 또는 추정하여 그 영역내에서 행이나 문자를 잘라낸다.

OCR장치내에는 인식대상인 지역내의 지명사전이 준비되어 있고, 주소영역내에 써져있는 문자를 이 사전과 서로 대조하면서 읽어감으로써 주소인식을 실시한다.

주소인식의 방식으로서는 일본의 경우라면 우선 도(都), 도(道) 부(府), 현(縣)명이나 시명(市名)이라는 대략적인 지역정보의 문자열을 검출하고, 그 연속의 문자열을 촌명 등의 보다 상세한 지역정보로서 읽어가는 방법이 일반적이다. 이 후, 특정 문자나 문자열을 검출하는 등, 주소의 인식율을 높이기 위해서 여러가지 공부가 고안되고 있다.

이하에서는 탐색패턴열이 문자인식처리에 따라 얻어진 문자열, 사전패턴열이 단어사전에 등록되어 있는 주소명의 문자열의 후보인 경우에 대해서 구체적으로 논한다.

우선, 장치의 범용성에 대해서 설명한다.

예를 들어 나라가 다르면 주소의 기재방식은 전혀 틀린 경우가 많다. 예를 들면 일본에서는 큰 지역명부터 차례로 쓰는 것이 보통이지만, 구미에서는 상세한 지역정보부터 차례로 쓰는 경우가 많아 처음에 스트리트명을 쓰고, 그 후에 도시명이나 주명을 쓴다. 그 때문에 나라가 바뀌면 주소인식을 실시하기 위한 지명사전이 바뀔뿐만 아니라, 주소인식의 순서도 바뀔 필요가 있다.

나라에 따라 주소의 인식순서의 차이는 범용적인 주소인식장치를 개발할 때에 큰 문제가 된다. 예를 들면 영어권용으로 개발한 주소인식장치에서 프랑스어권의 주소를 인식하고자 하여 지명사전만을 프랑스어권용으로 수정하여도 충분한 성능을 얻을 수 없다. 프랑스어권용의 주소 인식순서를 도입할 필요가 있지만 장치의 회로를 각국용으로 조정하는 것은 비용증가의 원인이 된다.

다음에 유사지명의 오인식에 대해서 설명한다.

예를 들면 어떤 지역에 「YORK」「NORTH YORK」「EAST YORK」라는 도시명이 존재한 경우를 생각한다. 그 지역의 주소를 인식할 때에 주소행의 일부가 「YORK」라고 인식할 수 있다고 해도 실제로 그것에 쓰여져 있는 도시명은 「NORTH YORK」인지도 모른다.

역으로 「EAST YORK」라고 인식한 경우라도 「EAST」부분은 별도의 단어를 오인식하고 있을 가능성이 있다.

다음에 단어조합사전 크기의 비대화에 대해서 설명한다.

다음에 한 나라의 국내주소를 전체 인식할 수 있도록 하는 데에는 당연히 국내의 전지명을 주소인식용 단어사전에 등록할 필요가 있다. 그러나, 고속으로 주소인식을 실시하는 데에는 또한 단어사전에 정보를 추가할 필요가 있다.

예를 들면 「ABC」라는 대도시에 1000 이상의 스트리트가 존재한다고 한자. 이 경우, ABC라는 도시의 스트리트명을 인식하기 위해서는 스트리트명의 탐색패턴열의 위치를 알고 있어도 1000회 이상, 사전패턴열과의 비교처리를 실행할 필요가 있다.

비교횟수를 줄이는 방법의 하나로서 탐색패턴열의 특징으로부터 비교대상으로 하는 사전패턴열을 어느 정도 조합하여, 조합한 사전패턴열과 탐색패턴열을 비교하는 방법이 있다.

탐색패턴이 알파벳 등 문자종수가 적은 경우에 자주 이용되는 것이 bigram(N-gram이라는 수법으로 N=2로 한 경우를 나타내고 있다)으로 불리우는 수법이 있다. 이것은 AB, BC, …, ZZ라고 하는 두문자 서열 각각에 대해서 그 두문자의 서열을 포함하는 사전패턴열의 리스트를 미리 작성해두는 방법이다.

이 bigram은

·문자종수가 적고,

·문자 사이에 인쇄티끌이 들어가기 쉬운 경우의 문자인식에 유효하다.

예를 들면 「JOHNSON」이라는 사전패턴열은 「JO」「OH」「HN」「NS」「SO」「ON」의 리스트로 등록된다. 전부 두문자 서열에 대해서 그것을 패턴속에 포함하는 사전패턴열의 리스트를 작성한 것을 이하에서는 단어조합사전이라고 부르기로 한다.

탐색패턴열과 단어사전에 등록된 사전패턴열의 비교를 실행하기 전에 탐색패턴열에 포함되는 두문자의 서열을 조사하고, 그것을 포함하는 사전패턴열에 득점을 부여해간다. 그리고 득점이 높은 사전패턴열을 선택하여 그것과 탐색패턴열을 비교함으로써 단어인식을 실시한다. 예를 들면 총득점 상위 10위까지를 사용하는 것으로 한다면, 스트리트수가 1000 이상 있는 도시의 스트리트명을 인식하는 경우라면 탐색패턴열과 사전패턴열의 비교처리의 횟수가 1/100 이하가 된다.

단, 인식대상의 지역내 전체 도시나 스트리트명에 대해서 단어조합사전을 준비한 경우, 단어사전 총용량보다 단어조합사전의 총용량 쪽이 훨씬 많아지는 경우가 많다.

본 발명의 목적은 약간 수정을 가한 것 만으로 각국의 소재정보의 인식을 실행할 수 있는 소재정보의 인식장치와 소재정보의 인식방법 및 기록매체를 제공할 수 있다.

도 1은 본 발명의 실시형태인 소재인식장치의 개략 구성을 나타내는 블럭도,

도 2는 주소서식 설정부의 개략 구성을 나타내는 도면,

도 3은 주소서식 설정부의 개략 구성을 나타내는 도면,

도 4는 주(州)명의 단어사전의 예를 나타내는 도면,

도 5는 도시명의 단어사전의 예를 나타내는 도면,

도 6은 스트리트명의 단어사전의 예를 나타내는 도면,

도 7은 주소단어의 인식처리를 설명하기 위한 플로우챠트,

도 8은 주소단어의 인식처리에 있어서 복수단어를 접속하여 작성한 단어를 설명하기 위한 도면,

도 9는 주소단어의 인식처리에 있어서 본래 복수의 단어로서 잘려져야 하는 것이 한단어로서 잘려진 예를 설명하기 위한 도면,

도 10은 단어의 접촉이 발생하고 있는 경우라도 단어인식을 실시할 수 있는 주소단어의 인식처리의 일례를 설명하기 위한 플로우챠트,

도 11은 단어의 분할을 설명하기 위한 도면,

도 12는 도시별로 스트리트수의 일례를 나타내는 도면,

도 13은 단어사전에 등록된 단어수에 따라 단어조합처리를 실시할지 여부를 전환하는 처리의 일례를 설명하기 위한 플로우챠트, 및

도 14는 단어조합사전의 유무에 따라 단어조합처리를 실시할지 여부를 전환하는 처리의 일례를 설명하기 위한 플로우챠트이다.

*도면의 주요부분에 대한 부호의 설명

1: 화상취입부 2: 영역검출부

3: 주소단어 검출부 4: 주소사전

5: 단어인식 처리부 6: 주소서식 설정부

7: 주소인식 제어부 8: 주소인식결과 출력부

상기 목적을 달성하기 위해서, 본 발명의 소재정보의 인식장치는 편지, 엽서류상에 기재되어 여러 나라마다 다른 복수단의 계층구조의 카테고리에 따라 구성되어 있는 주소정보를 인식하는 것에 있어서, 여러 나라마다 대응하여 상기 소재정보를 인식하기 위한 복수의 사전과, 상기 여러 나라마다 달리하여 소재정보의 복수단의 계층구조의 각 카테고리에 대한 다양한 인식순서로부터 상기 사전 및 상기 인식순서를 선택하는 수단, 상기 편지, 엽서류상에 기재되어 있는 소재정보를 판독하는 수단 및 상기 판독한 소재정보를 상기 선택수단에 의해 선택된 인식순서에 따라 또한 상기 선택된 사전을 이용하여 인식하는 수단을 갖는 것이다.

본 발명의 인식방법은 여러 나라마다 다른 복수단의 계층구조의 카테고리에 따라 구성되어 있는 소재정보를 인식하는 것에 있어서, 여러 나라마다 대응하여 설치되고, 상기 소재정보를 인식하기 위한 복수의 사전과, 상기 여러 나라마다 달리하여 소재정보의 복수단의 계층구조의 각 카테고리에 대한 다양한 인식순서를 갖고, 상기 소재정보를 인식할 때에 상기 사전 중 하나가 선택되고, 상기 인식순서 중 하나가 선택되며, 상기 선택된 사전과 인식순서에 기초하여 인식처리가 실시되는 것이다.

본 발명의 기록매체는 여러 나라마다 다른 복수단의 계층구조의 카테고리에 의해 구성되어 있는 소재정보를 인식하는 것에 이용되는 것에 있어서, 여러 나라마다 대응하여 상기 소재정보를 인식하기 위한 복수의 사전과, 상기 여러 나라마다 달리 소재정보의 복수단의 계층구조의 각 카테고리에 대한 다양한 인식순서가 기록되어 있는 것이다.

본 발명의 소재정보의 인식장치는 소재정보 화상을 판독하는 판독수단, 상기 판독수단에 의해 판독된 소재정보화상으로부터 문자행을 검출하는 행검출수단, 상기 판독수단에 의해 판독된 소재정보화상으로부터 소재정보가 기재되어 있는 영역을 검출하는 영역검출수단, 상기 행검출수단에서 검출한 문자행 중 상기 영역검출수단에서 검출한 소재정보영역내에 포함하는 문자행을 하나 또는 복수의 단어영역으로 분할하는 소재정보단어 검출수단, 상기 소재정보단어 검출수단에서 얻어진 단어영역내에 포함되는 문자정보를 인식대상인 지역내에 존재하는 지명을 등록한 단어사전의 내용과 대조함으로써 단어를 인식하는 단어인식수단 및 상기 단어인식수단에 의한 인식결과를 상기 소재정보의 인식결과로서 출력하는 출력수단으로 이루어진다.

이하, 도면을 참조하여 본 발명의 실시형태를 설명한다.

즉, 우선 약간 수정을 가하는 것 만으로 각국의 주소인식(소재정보의 인식)을 실행할 수 있는 범용적인 주소인식장치(소재정보의 인식장치)의 일례에 대하여 설명한다.

도 1은 본 발명의 주소인식장치의 개략 구성을 나타내고 있다.

상기 주소인식장치는 소재정보로서의 주소정보가 기재되어 있는 우편물 등의 편지(편지, 엽서류)(S)에서 표면의 화상을 광전변환에 의해 취입하는(판독하는) 화상취입부(판독수단)(1), 상기 화상취입부(1)에 의해 취입한 화상에 의해 주소가 기재되어 있는 영역을 검출하는 영역검출부(2), 상기 영역검출부(2)에 의해 검출된 주소의 기재영역에서 주소의 단어를 검출하는 주소단어 검출부(3), 상기 주소단어 검출부(3)로부터의 주소 단어와 주소사전(4)에 기억되어 있는 주소와의 비교에 의해 단어의 인식처리를 하는 단어인식 처리부(5), 상기 단어인식 처리부(5)에서 인식처리의 순서와 사용하는 주소사전(4)이 설정되어 있는 주소서식 설정부(6), 상기 각부를 제어하는 주소인식 제어부(7) 및 상기 주소인식 제어부(7)로 얻어진 주소인식 결과를 출력하는 주소인식결과 출력부(8)에 의해 구성되어 있다.

상기 영역검출부(2)는 영역을 하나만 검출하여도 좋고, 복수의 영역을 검출하여 가능성이 높은 순으로 처리하여도 좋다.

상기 주소단어 검출부(3)는 영역검출부(2)가 검출한 영역내에서 주소행을 발견하고, 다시 행에서 문자를 잘라내거나 행에서 단어를 잘라내는 등의 처리를 실시하는 것이다.

상기 주소인식 제어부(7)는 주소서식 설정부(6)에서 부여된 룰에 따라서 인식하고 싶은 단어를 차례로 단어인식 처리부(5)에 보내고, 단어인식 처리부(5)에서 돌아온 인식결과를 보면서 다음에 인식해야 하는 단어를 결정하거나 단어의 재읽기를 실시하거나 하는 것이다.

상기 주소의 기재방법으로서는 일본 등에 있어서 우편번호, 도, 도, 부, 현명, 시, 구명, 촌명, 가, 구의 순으로 예를 들면 제일 위 행에서부터 차례로, 또한 좌에서 우로 기재되어 있도록 되어 있다. 주소의 지역을 나타내는 단계구조의 상위 카테고리에서 차례로 기재되도록 되어 있다.

이에 대하여 카나다(구미) 등에서는 상기 주소의 기재방법으로서 가장 아래 행에서 차례로, 또한 우측에서 차례로 우편번호, 주명, 도시명, 스트리트명, 스트리트번호의 순으로 기재되도록 되어 있다.

예를 들면 도 1에 도시한 바와 같이, 「123 ABC STREET TORONTO ONTARIO Z9Z 9Z9」로 되어 있다.

상기 주소서식 설정부(6)에 의해 설정되는 인식처리의 순서로서는 인식대상으로 하고 있는 나라나 지역의 주소 기재서식에 관한 정보나 주소영역을 검출하기 위한 테크닉, 또는 주소의 인식처리시의 테크닉 등을 룰로서 설정하는 것이다. 이 설정으로서는 전환스위치 등의 하드웨어로 실시하는 방법도 있고, 설정파일을 준비하여 두고 그것을 장치가 판독하는 방식도 생각할 수 있다. 주소서식 설정부(6)가 판독한 정보는 주소인식 제어부(7)로 보내진다.

이렇게 상기 주소서식 설정부(6)에서 주어진 정보를 바꿈으로써 동일한 주소인식장치에서 다른 나라의 주소를 취급하는 것이 가능해진다.

상기 주소서식 설정부(6)에 의해 설정되는 인식처리의 순서로서 일본용 주소인식룰의 예에 대하여 설명한다.

즉,

·단어는 행의 앞에서부터 읽어간다

·단어를 찾는 순서는 행두에서 행말로

·가장 최초로 우편번호를 읽는다

·우편번호 단어의 계속되는 부분에서 도, 도, 부, 현명 단어를 찾는다

·도, 도, 부, 현명 단어의 계속되는 부분에서 시, 구명 단어를 찾는다

·시, 구명 단어의 계속되는 부분에서 촌명 단어를 찾는다

·촌명 단어의 계속되는 부분의 단어를 가(街), 구(區)정보로서 인식한다

또, 상기 주소서식 설정부(6)에 의해 설정되는 인식처리 순서로서 카나다용 주소인식룰의 예에 대하여 설명한다.

즉,

·단어를 행 뒤에서부터 읽어간다

·단어를 찾는 순서는 행말에서 행두로

·가장 최초로 우편번호를 읽는다

·우편번호 단어의 계속되는 부분으로부터 주명 단어를 찾는다

·주명 단어의 계속되는 부분으로부터 도시명 단어를 찾는다

·도시명 단어의 계속되는 부분으로부터 스트리트명 단어를 찾는다

·스트리트명 단어의 계속되는 부분의 단어를 스트리트번호로서 인식한다

상기 주소서식 설정부(6)의 구성으로서는 도 2와 같이 미리 주소판독룰을 기술한 파일을 준비해두고, 그 파일을 판독하여 주소인식장치에 판독룰을 가르쳐주는 방법을 우선 생각할 수 있다. 이 경우, 주소서식 설정부(6)는 주소인식룰 파일(6a)과 이것을 판독하는 주소인식파일 판독부(6b)에 의해 구성되어 있다.

그러나, 이 방식이라면,

·공장에서 출하할 때에 주소인식장치 한대마다 주소인식 룰파일을 로드하는 수고가 불편.

·파일정보의 안정성이 부족하여 제 3자가 주소서식의 설정룰을 훔쳐내기가 용이.

하다는 문제가 발생한다.

각국용 주소단어사전(4)은 이사, 가옥의 신축, 시, 구, 촌명의 통폐합 등의 이유로 빈번하게 변경이 필요하다. 그러나, 주소서식의 설정정보라는 것은 한번 설정해버리면 큰 수정을 가할 필요가 거의 없다. 그래서 도 3과 같이 주소서식의 설정룰을 IC에 굽고, 그 IC에서 룰을 읽어내는 방식으로 하여도 좋다. 이 경우, 주소서식 설정부(6)는 주소인식룰 IC(6c)와 이 IC(6c)의 판독을 실시하는 주소인식파일 IC 판독부(6d)에 의해 구성되어 있다.

이 때, 룰의 해석은 파일로 갖는 것보다는 훨씬 곤란해지기 때문에 안정성이 높다. 또, IC를 주소인식장치의 주소인식 파일 IC 판독부에 끼우는 것만으로(장진하는) 주소서식 설정정보를 로드하는 것이 가능하게 된다. 또, 주소서식의 설정룰을 구워넣은 IC를 교환하는 것만으로 각국의 주소인식용 주소인식장치로 설정할 수 있도록 하여도 좋다. 이 경우, 주소서식의 설정룰과 주소사전을 나라별로 쌍으로 교환할 수 있다.

상기 주소사전(4)으로서는 일본용 주소사전(4a)과 카나다용 주소사전(4b)이 준비되어 있다.

일본용 주소사전(4a)으로서는 도, 도, 부, 현명의 단어사전, 각 도, 도, 부, 현마다 시, 구명의 단어사전, 각 시구마다 촌명의 단어사전이 준비되어 있다.

카나다용 주소사전(4b)으로서는 도 4에서 도 6에 도시한 바와 같이 주명의 단어사전(11), 각 주마다 도시명의 단어사전(12, …), 각 도시마다 스트리트명의 단어사전(13, …)이 준비되어 있다.

상기한 바와 같이 주소서식 설정부에 의해 주소서식의 설정룰과 주소사전을 설정할 수 있다. 즉, 소정의 나라에 대응한 주소서식의 설정룰과 주소사전을 선택할 수 있다.

또, 화상취입부(1), 영역검출부(2), 주소단어 검출부(3), 단어인식 처리부(5), 주소인식 제어부(7) 및 주소인식결과 출력부(8)가 인식처리의 어플리케이션과, 주소서식 설정부와 주소사전의 어플리케이션으로 이루어지고, 주소서식 설정부에서 설정된 주소서식의 설정룰과 주소서식에 기초하여 인식처리의 어플리케이션이 인식처리를 실행하도록 하여도 좋다.

또, 주소서식 설정부와 주소사전이 CD, DVD 등의 기록매체에 기록되어 있고, 상기 화상취입부(1), 영역검출부(2), 주소단어 검출부(3), 단어인식 처리부(5), 주소인식 제어부(7) 및 주소인식결과 출력부(8)로 이루어지는 인식처리장치에 기록매체 재생부를 설치하고, 상기 기록매체 재생부에 의해 재생된 주소서식 설정부의 내용에 기초하여 주소서식설정룰과 주소사전을 설정하고, 이 설정된 내용으로 인식처리장치가 인식처리를 실행하도록 하여도 좋다.

다음에 유사 지명의 오인식 방지에 대해서 설명한다.

어떤 지역에 「YORK」「NORTH YORK」「EAST YORK」의 세개의 도시가 존재한 경우를 생각한다. 그 지역의 주소를 인식할 때에 주소행의 일부가 「YORK」로 인식할 수 있다고 해도 실제로 그곳에 쓰여져 있는 도시명은 「NORTH YORK」인지도 모른다.

「YORK」와 「NORTH YORK」의 양쪽을 구별하는 것이 가능한 주소단어의 인식처리의 일례를 도 7의 플로우챠트에 나타낸다. 기본적으로는 주소인식 제어부(7)에서 가르쳐준 단어의 인식처리의 개시위치로부터 한단어씩 주소단어사전(4)을 사용하여 인식해간다. 그러나 그것만으로는 「YORK」은 읽을 수 있어도 복수 단어로 이루어지는 「NORTH YORK」는 읽을 수 없기 때문에, 도 8에 도시한 바와 같이 현재처리중인 단어(「YORK」)(W1)와 단어(W1)에 인접하는 단어(「NORTH 」)(W2)를 붙여서 새로운 단어(「NORTH YORK」)(W3)을 작성하고 단어(W3)을 인식해본다. 도 7에서는 두단어를 접속하는 경우만을 들고 있지만, 세단어 이상을 접속하는 경우도 있을 수 있다.

그리고, 한 단어만으로 단어 인식한 경우와 복수 단어를 붙여서 작성한 단어를 단어인식을 거친 경우를 비교하여 결과가 좋은 쪽을 채용한다. 인식결과의 평가값을 미리 설정해둔 임계값보다 낮은 경우는 어느쪽의 단어인식결과도 채용하지 않고, 단어(W1) 다음에 쓰여져 있는 단어를 새로운 단어(W1)로서 상기 처리를 반복한다.

상기 주소인식 제어부(7)에 의한 주소단어의 인식처리에 대하여 도 7에 도시한 플로우챠트를 참조하면서 설명한다.

즉, 주소인식 제어부(7)는 주소단어의 인식처리를 개시하고, 주소단어의 탐색개시위치로 이동한다(ST1). 예를 들면 카나다용 주소의 인식방법으로 설정되어 있는 경우, 최종행의 뒤에서부터 차례로 읽어간다.

이 때, 주소인식 제어부(7)는 인식처리를 거치지 않은 단어가 존재하지 않는 경우(ST2), 단어인식의 에러처리로 이행한다.

상기 주소인식 제어부(7)는 스텝(2)에 의해 인식처리를 거치지 않은 단어가 존재한 경우, 단어를 하나 선택하여, 선택한 단어(W1)를 부여된 지명사전(11, 12, 13)을 이용하여 단어인식 처리한다(ST3). 예를 들면 선택한 단어(W1)가 주명에 대응하는 단어인 경우, 단어사전(11)을 이용하여 선택한 단어(W1)가 도시명에 대응하는 단어인 경우, 상기 주명에 대응하는 단어사전(12)을 이용하여 선택한 단어(W1)가 스트리트명에 대응하는 단어인 경우, 상기 도시명에 대응하는 단어사전(13)을 이용한다.

이 결과, 주소인식 제어부(7)는 단어인식결과(A1), 단어평가값(S1)을 산출한다(ST3).

다음에, 주소인식 제어부(7)는 단어(W1)의 계속되는 위치에 아직 인식처리를 거치지 않은 단어(W2)가 존재하는지 여부를 판단한다(ST4).

주소인식 제어부(7)는 단어(W2)가 존재한다고 판단한 경우, 단어(W1)와 단어(W2)를 접속하여 새로운 단어(W3)를 작성하고(ST5), 이 작성한 단어(W3)를 대응하는 지명사전(11, 12, 13)을 이용하여 단어인식처리를 한다(ST6).

이 결과, 주소인식 제어부(7)는 단어인식결과(A3), 단어평가값(S3)을 산출한다(ST6).

이에 의해 주소인식 제어부(7)는 단어(W1)에 대한 가장 높은 단어평가값(S1)과 단어(W3)에 대한 단어평가값(W3)이 가장 높은 단어평가값(S3)을 비교하여, 단어(W3)에 대한 가장 큰 단어평가값(S3)이 단어(W1)에 대한 가장 큰 단어평가값(S1)보다도 크거나 같고, 또한 단어(W3)에 대한 가장 큰 단어평가값(S3)이 소정의 임계값보다 큰 경우에(ST7), 단어(W3)에 대한 단어인식결과(A3)를 인식결과로서 출력한다.

또, 상기 주소인식 제어부(7)는 상기 비교에 의해 단어(W1)에 대한 가장 큰 단어평가값(S1)이 단어(W3)에 대한 가장 큰 단어평가값(S3)보다도 크고, 또한 단어(W1)에 대한 가장 큰 단어평가값(S1)이 소정 임계값보다 큰 경우에(ST8), 단어(W1)에 대한 단어인식결과(A1)를 인식결과로서 출력한다.

또, 상기 주소인식 제어부(7)는 상기 스텝 7, 8을 만족하지 않는 경우, 스텝 2로 되돌아간다.

또, 상기 주소인식 제어부(7)는 상기 스텝 4에 있어서 단어(W2)가 존재하지 않는다고 판단한 경우, 단어(W3)에 대한 단어평가값(S3)을 「0」으로 하고(ST9), 스텝 7로 진행한다.

이 경우의 예를 도 8을 이용하여 설명한다.

즉, 도시명의 단어(「YORK」)(W1)와 단어(W1)에 인접하는 단어(「NORTH」)(W2)을 붙여서 새로운 단어(「NORTH YORK」)(W3)을 작성하고, 단어(W1)과 단어(W3)의 인식결과를 비교한다. 이 때, 단어(W3)의 인식결과의 단어평가값(S3)이 단어(W1)에 대한 단어평가값(S1)보다도 크고, 임계값보다 크다고 판단되어, 「NORTH YORK」가 도시명이라고 인식된다.

다음에 본래 복수의 단어로서 잘려져야 하는 것이 한 단어로서 잘려짐으로써 생기는 오인식의 방지에 대해서 설명한다.

즉, 본래 복수의 단어로서 잘려져야 하는 것이 한 단어로서 잘려짐으로써 단어인식에 실패하는 경우가 있다. 도 9는 「TORONTO」「ON」으로 두 단어로 잘려져야하는 것이 한 단어로서 잘려진 예이다. 이 경우 온타리오주에 「TORONTOON」이라는 도시는 존재하지 않기 때문에 도시명 인식에 실패한다.

이러한 단어의 접촉이 발생하고 있는 경우라도 단어인식이 실시할 수 있는 주소단어의 인식처리의 일례를 도 10의 플로우챠트에 도시한다. 주소인식 제어부(7)에서 가르쳐준 단어의 인식처리의 개시위치에서 한 단어씩 주소의 단어사전을 사용하여 인식해간다. 현재 처리중인 단어(온타리오주에 계속되는 도시명으로서 「TORONTOON」)(W1)에 대해서 그 단어(W1)가 어떤 기준을 만족하고 있는지 여부를 조사하고, 만족하고 있는 경우는 단어(W1)를 복수 단어(「TORONTO」)(W2), 단어(「ON」)(W3)으로 분할한다. 단어분할의 기준으로서는 예를 들면 단어를 구성하는 각 문자의 간격을 이용한다. 도 11에 도시한 예에서는 「TORONTO,」의 직후가 다른 것과 비교하여 문자간격이 크게 되어 있기 때문에, 그 위치에서 단어를 2개로 분할하고 있다. 예를 들면 수직 사영(射影) 등에 의해 얻어지는 단어블럭에 의해 문자간의 거리가 판별된다. 도 9 내지 도 11에서는 설명을 간단하게 하기 위해 두 단어를 접속하는 경우만을 들고 있지만, 세 단어 이상으로 분할하는 경우도 있을 수 있다. 그리고 분할처리후에 생긴 각 단어에 대해서 단어의 인식처리를 실시하고, 가장 결과가 좋은 것을 선택한다.

그리고, 한 단어만으로 단어 인식한 경우와 복수의 단어로 분할하고 나서 단어인식을 거친 경우를 비교하여 결과가 좋은 쪽을 채용한다. 인식결과의 평가값이 미리 설정해둔 임계값보다 낮은 경우는 어느쪽의 단어인식결과도 채용하지 않고, 단어(W1) 다음에 쓰여져 있는 단어를 새로운 단어(W1)로서 상기 처리를 반복한다.

상기 주소인식 제어부(7)에 의한 주소단어의 인식처리에 대해서 도 10에 도시한 바와 같은 플로우챠트를 참조하면서 설명한다.

즉, 주소인식 제어부(7)는 주소단어의 인식처리를 개시하고, 주소단어의 탐색개시위치로 이동한다(ST11). 예를 들면 카나다용의 주소인식방법으로 설정되어 있는 경우, 최종행의 뒤에서부터 차례로 읽어간다.

이 때, 주소인식 제어부(7)는 인식처리를 거치지 않은 단어가 존재하지 않는 경우(ST12), 단어인식 에러처리로 이행한다.

상기 주소인식 제어부(7)는 스텝(12)에 의해 인식처리를 거치지 않은 단어가 존재한 경우, 단어를 하나 선택하고, 선택한 단어(W1)를 부여된 지명사전(11, 12, 13)을 이용하여 단어인식 처리를 한다(ST13). 예를 들면 선택한 단어(W1)가 주명에 대응하는 단어인 경우 단어사전(11)을 이용하고, 선택한 단어(W1)가 도시명에 대응하는 단어인 경우 상기 주명에 대응하는 단어사전(12)을 이용하고, 선택한 단어(W1)가 스트리트명에 대응하는 단어인 경우 상기 도시명에 대응하는 단어사전(13)을 이용한다.

이 결과, 주소인식 제어부(7)는 단어인식결과(A1), 단어평가값(S1)을 산출한다(ST13).

다음에 주소인식 제어부(7)는 단어(W1)가 분할 가능한지 여부를 판단한다(ST14).

주소인식 제어부(7)는 단어(W1)가 두개로 분할 가능하다고 판단한 경우, 단어(W1)를 단어(W2)와 단어(W3)을 작성하고(ST15), 이 작성한 단어(W2, W3)를 대응하는 지명사전(11, 12, 13)을 이용하여 단어인식 처리한다(ST16).

이 결과, 주소인식 제어부(7)는 단어인식결과(A3), 단어평가값(S3)을 산출한다(ST16).

이에 의해 주소인식 제어부(7)는 단어(W1)에 대한 가장 높은 단어평가값(S1)과 단어(W2, W3)에 대한 단어평가값(S3)이 가장 높은 단어평가값(S3)을 비교하여, 단어(W2, W3)에 대한 가장 큰 단어평가값(S3)이 단어(W1)에 대한 가장 큰 단어평가값(S1)보다도 큰거나 같고, 또한 단어(W2, W3)에 대한 가장 큰 단어평가값(S3)이 소정 임계값보다 큰 경우에(ST17), 단어(W2, W3)에 대한 단어인식결과(A3)를 인식결과로서 출력한다.

또, 상기 주소인식 제어부(7)는 상기 비교에 의해 단어(W1)에 대한 가장 큰 단어평가값(S1)이 단어(W2, W3)에 대한 가장 큰 단어평가값(S3)보다도 크고, 또한 단어(W1)에 대한 가장 큰 단어평가값(S1)이 소정의 임계값보다 큰 경우에(ST18), 단어(W1)에 대한 단어인식결과(A1)를 인식결과로서 출력한다.

또, 상기 주소인식 제어부(7)는 상기 스텝 17, 18을 만족하지 않는 경우, 스텝 12로 되돌아간다.

또, 상기 주소인식 제어부(7)는 상기 스텝 14에 있어서 단어(W1)가 분할불가하다고 판단한 경우, 단어(W3)에 대한 단어평가값(S3)을 「0」으로 하고(ST19), 스텝 17로 진행한다.

이 경우의 예를 도 9를 이용하여 설명한다.

즉, 단어(「TORONTOON」)(W1)와 이 단어(W1)를 분할하여 단어(「TORONTO」)(W2)와 단어(「ON」)(W3)를 작성하고, 단어(W1)와 단어(W2, W3)의 인식결과를 비교한다. 이 때, 단어(W2)의 인식결과의 단어평가값(S3)이 단어(W1)에 대한 단어평가값(S1)보다도 크고, 임계값보다 크다고 판단되고, 「TORONTO」가 온타리오주에 연결되는 도시명으로서 인식된다.

다음에, 단어조합사전의 컴팩트화에 대해서 설명한다.

즉, 인식대상의 지역에 존재하는 지명수가 상당히 많은 경우, 인식하고자 하는 단어의 문자인식결과의 서열과 지명 단어사전에 등록되어 있는 지명 단어의 비교횟수가 증가하고 한 단어당 단어인식 시간이 길어진다. 이 문제를 해결하는 방법의 하나로서 단어조합사전을 이용하여 지명 단어 수를 줄이는 방법이 있는 것은 이미 설명하였다. 이 단어조합사전은 상기 단어사전(4) 또는 주소인식 제어부(7)에 설치된다.

이 방식의 난점은 인식대상인 지역내 모든 도시나 스트리트명에 대하여 단어조합사전을 준비한 경우, 단어조합사전의 총용량이 상당히 커지는 것이다. 이하에 이 문제를 해결하기 위한 방법을 설명한다.

예를 들면 각 도시마다 도시내에 존재하는 스트리트명 사전을 작성한 경우, 스트리트명 사전에 등록되는 단어수는 도시에 따라서 크게 다르다. 도 12에 도시별로 스트리리트수의 일례를 나타낸다. 이 스트리트수는 예를 들면 상기 도시명의 각 사전마다 부여되어 있다.

그런데, 단어조합사전을 이용한 단어후보의 조합은 사전에 등록되어 있는 단어수가 많은 경우는 유효하지만, 단어수가 적은 경우는 의미가 없을 뿐만 아니라, 단어조합처리에 요하는 시간이 쓸모없게 되고, 또 단어조합사전 그자체가 불필요하다. 예를 들면 단어조합처리에서 득점이 높은 단어 상위 20위까지를 선택하기로 한 경우, 도 12에 도시한 도시(A, D)는 도시내에 존재하는 스트리트수가 20미만이므로 조합을 실행하지 않아도 탐색패턴열과 사전패턴열의 비교처리의 회수는 20미만으로 끝난다.

상기 단어사전(4)에 등록된 단어수에 따라서 단어조합처리를 실시할지 여부를 전환하는 처리의 일례를 도 13의 플로우챠트에 도시한다.

즉, 주소인식 제어부(7)는 주소단어의 인식처리를 개시하고, 인식대상으로 하는 지역 및 단어의 종류에 따라 단어사전(4)을 선택한다(ST21). 이어서 주소인식 제어부(7)는 선택한 단어사전(4)의 등록단어수가 임계값(T1)(20)보다 많은지 여부를 판단한다(ST22).

다음에 주소인식 제어부(7)는 등록단어수가 임계값(T1)보다 많다고 판단한 경우, 단어조합처리에서 평가값이 높은 사전등록단어의 상위(T) 2위까지를 선택한다(ST23).

이어서 주소인식 제어부(7)는 단어조합처리에서 선택한 사전단어와 인식하고자 하는 단어의 비교처리를 실시한다(ST24). 이 결과, 주소인식 제어부(7)는 단어인식결과(A), 단어평가값(S)을 산출한다(ST24).

이에 의해 주소인식 제어부(7)는 단어평가값(S)이 소정 임계값(S1)보다 큰 경우(ST25), 단어인식결과(A)를 인식결과로서 출력하고, 단어평가값(S)이 소정 임계값(S1)이하인 때에(ST25), 단어인식 에러처리가 된다.

또, 주소인식 제어부(7)는 스텝 22에 있어서 등록단어수가 임계값(T1)보다 많다고 판단한 경우, 단어사전(4)에 등록된 전단어를 선택한다(ST26).

이어서, 주소인식 제어부(7)는 선택한 사전단어의 전단어와 인식하고자 하는 단어의 비교처리를 실시한다(ST27). 이 결과 주소인식 제어부(7)는 단어인식결과(A), 단어평가값(S)을 산출한다(ST27). 이 후 주소인식 제어부(7)는 스텝 25로 진행한다.

또, 단어조합사전의 총용량을 가능한 한 작게 하기 위해서는 등록단어수가 적은 단어사전용 조합사전을 처음부터 준비하지 않는 것으로 하면 좋다.

그리고, 조합사전이 존재하는 경우는 조합처리를 실시하고 나서 단어인식처리를 실시하고, 조합사전이 존재하지 않는 경우는 조합처리를 실시하지 않고서 단어인식처리를 실시하는 것으로 하면 좋다. 단어조합사전의 유무에 따라 단어조합처리를 실시할지 여부를 전환하는 처리의 일례를 도 14의 플로우챠트에 도시한다. 도 13의 플로우챠트와 동일 부위에는 동일 스텝을 부여한다.

상기 단어조합사전의 유무에 따라 단어조합처리를 실시할지 여부를 전환하는 처리의 일례를 도 14의 플로우챠트에 도시한다.

즉, 주소인식 제어부(7)는 주소단어의 인식처리를 개시하고, 인식대상으로 하는 지역 및 단어의 종류에 따라 단어사전(4)을 선택한다(ST21). 이어서 주소인식 제어부(7)는 선택한 단어사전(4)용 단어조합사전이 존재하는지 여부를 판단한다(ST22').

다음에 주소인식 제어부(7)는 단어조합사전이 존재한다고 판단한 경우, 단어조합처리에서 평가값이 높은 사전등록단어 상위(T) 1위까지를 선택한다(ST23').

이에 의해 주소인식 제어부(7)는 단어평가값(S)이 소정 임계값(S1)보다 큰 경우에(ST25), 단어인식결과(A)를 인식결과로서 출력하고, 단어평가값(S)이 소정의 임계값(S1) 이하인 때에(ST25) 단어인식 에러처리가 된다.

또, 주소인식 제어부(7)는 스텝 22'에 있어서 선택한 단어사전(4)용 단어조합사전이 존재하지 않는다고 판단한 경우, 단어사전(4)에 등록된 전단어를 선택한다(ST26).

이어서 주소인식 제어부(7)는 선택한 사전단어의 전단어와 인식하고자 하는 단어의 비교처리를 실시한다(ST27). 이 결과, 주소인식 제어부(7)는 단어인식결과(A), 단어평가값(S)을 산출한다(ST27). 이 후 주소인식 제어부(7)는 스텝 25로 진행한다.

상기한 바와 같이 본 발명에 따르면 나라에 따라 주소 기재방식이 다른 경우라도 각국용 전용의 주소인식장치를 설계하지 않고, 동일 하드웨어로 구성하도록 한 것이다.

이에 의해 극히 작은 설정변경을 실시하는 것만으로 세계 각국의 주소인식을 실시할 수 있다.

Claims

편지, 엽서류상에 기재되어 여러 나라마다 다른 복수단의 계층구조의 카테고리로 구성되어 있는 소재정보를 인식하는 인식장치에 있어서,

여러 나라마다 대응하여 상기 소재정보를 인식하기 위한 복수의 사전과, 상기 여러 나라마다 다른, 소재정보의 복수단의 계층구조의 각 카테고리에 대한 다양한 인식순서로부터 상기 사전 및 상기 인식순서를 선택하는 수단,

상기 편지, 엽서류상에 기재되어 있는 소재정보를 판독하는 수단, 및

상기 판독된 소재정보를 상기 선택수단에 의해 선택된 인식순서에 따라, 동시에 상기 선택된 사전을 이용하여 인식하는 수단을 구비한 것을 특징으로 하는 소재정보 인식장치.
여러 나라마다 다른 복수단의 계층구조의 카테고리로 구성되어 있는 소재정보를 인식하는 인식방법에 있어서,

여러 나라마다 대응하여 상기 소재정보를 인식하기 위한 복수의 사전과,

상기 여러 나라마다 다른, 소재정보의 복수단의 계층구조의 각 카테고리에 대한 다양한 인식순서를 갖고,

상기 소재정보를 인식할 때에 상기 사전 중 하나가 선택되고, 상기 인식순서 중 하나가 선택되며, 상기 선택된 사전과 인식순서에 기초하여 인식처리가 실시되는 것을 특징으로 하는 소재정보 인식방법.
여러 나라마다 다른 복수단의 계층구조의 카테고리로 구성되어 있는 소재정보를 인식하는 것에 이용되는 기록매체에 있어서,

여러 나라마다 대응하여 상기 소재정보를 인식하기 위한 복수의 사전과,

상기 여러 나라마다 다른, 소재 정보의 복수단의 계층구조의 각 카테고리에 대한 다양한 인식순서가 기록되어 있는 것을 특징으로 하는 기록매체.
소재정보화상을 판독하는 판독수단,

상기 판독수단에 의해 판독한 소재정보화상으로부터 문자행을 검출하는 행검출수단,

상기 판독수단에 의해 판독한 소재정보화상에서 소재정보가 기재되어 있는 영역을 검출하는 영역검출수단,

상기 행검출수단에서 검출한 문자행 중 상기 영역검출수단에서 검출한 소재 정보영역내에 포함되는 문자행을 하나 또는 복수의 단어영역으로 분할하는 소재정보단어 검출수단,

상기 소재정보단어 검출수단에서 얻어진 단어영역내에 포함되는 문자정보를 인식대상인 지역내에 존재하는 지명을 등록한 단어사전의 내용과 대조함으로써 단어를 인식하는 단어인식수단, 및

상기 단어인식수단에 의한 인식결과를 상기 소재정보의 인식결과로서 출력하는 출력수단을 구비하는 것을 특징으로 하는 소재정보 인식장치.
제 4 항에 있어서,

상기 단어인식수단이

상기 소재정보 검출수단에서 얻어진 제 1 단어영역내에 포함되는 문자정보를 인식대상인 지역내에 존재하는 지명을 등록한 단어사전의 내용과 대조함으로써 단어를 인식하는 동시에 인식결과인 단어평가값을 출력하는 제 1 단어인식수단과,

상기 제 1 단어인식수단에서 처리한 제 1 단어영역과 상기 제 1 단어영역과 동일행내에서 인접하는 제 2 단어영역을 결합한 제 3 단어영역내에 포함되는 문자정보를 상기 단어사전의 내용과 대조함으로써 단어를 인식하는 동시에 인식결과인 단어평가값을 출력하는 제 2 단어인식수단을 갖고,

상기 출력수단이 상기 제 1 단어인식수단에 의한 인식결과인 단어평가값과 상기 제 2 단어인식수단에 의한 인식결과인 단어평가값을 비교하여 단어평가값이 높은 쪽의 인식결과를 출력하는 것을 특징으로 하는 소재정보 인식장치.
제 5 항에 있어서,

상기 제 2 단어인식수단이

상기 제 1 단어인식수단에서 처리한 제 1 단어영역내에 포함되는 문자정보가 제 1 단어영역을 복수의 단어로 분할하는 조건을 만족하고 있는지 여부를 판단하는 판단수단과,

상기 판단수단에 의해 복수의 단어로 분할하는 조건을 만족하고 있다고 판단된 때에 상기 분할된 각 단어를 상기 단어사전의 내용과 대조함으로써 단어를 인식하는 동시에 인식결과인 단어평가값을 출력하는 제 3 단어인식수단을 갖는 것을 특징으로 하는 소재정보 인식장치.
제 6 항에 있어서,

상기 판단수단에 의해 문자정보를 복수의 단어로 분할하는 조건이, 단어를 구성하는 소정 문자사이의 거리가 동일 단어내의 다른 문자사이의 거리와 비교하여 큰 경우에 만족하는 것을 특징으로 하는 소재정보 인식장치.
제 4 항에 있어서,

상기 판독수단에 의해 판독하는 소재정보화상이 복수단의 계층구조의 카테고리로 구성되고,

상기 단어인식수단이

상기 소재정보를 구성하는 복수단의 계층구조의 각 카테고리에 대응하는, 상기 소재정보단어 검출수단에서 얻어진 각 단어영역에서의 단어를 인식하는 순서를 설정하는 설정수단과,

상기 설정수단에 의해 설정되는 각 단어영역에 대한 인식 순서에 따라서 상기 소재정보단어 검출수단에서 얻어진 단어영역내에 포함되는 문자정보를 인식대상인 지역내에 존재하는 상기 카테고리마다 다른 지명을 등록한 복수의 단어사전 중 하나의 단어사전의 내용과 대조함으로써 단어를 인식하는 제 2 단어인식수단을 갖고,

상기 출력수단이 상기 제 2 단어인식수단에 의한 각 카테고리에 대응하는 인식결과를 상기 소재정보의 인식결과로서 출력하는 것을 특징으로 하는 소재정보 인식장치.
제 4 항에 있어서,

상기 판독수단에 의해 판독하는 소재정보화상이 복수단의 계층구조의 카테고리로 구성되고,

상기 단어인식수단이

상기 소재정보를 구성하는 복수단의 계층구조의 각 카테고리에 대응하는, 상기 소재정보단어 검출수단에서 얻어진 각 단어영역에서의 단어를 인식하는 순서가 미리 기억되어 있는 IC와,

상기 IC에 기억되어 있는 각 단어영역에 대한 인식 순서에 따라서 상기 소재정보단어 검출수단에서 얻어진 단어영역내에 포함되는 문자정보를 인식대상인 지역내에 존재하는 상기 카테고리마다 다른 지명을 등록한 복수의 단어사전 중 하나의 단어사전의 내용과 대조함으로써 단어를 인식하는 제 2 단어인식수단을 갖고,

상기 출력수단이 상기 제 2 단어인식수단에 의한 각 카테고리에 대응하는 인식결과를 상기 소재정보의 인식결과로서 출력하는 것을 특징으로 하는 소재정보 인식장치.
제 4 항에 있어서,

상기 판독수단에 의해 판독하는 소재정보화상이 복수단의 계층구조의 카테고리로 구성되고,

상기 단어인식수단이

상기 인식대상인 지역내에 존재하는 상기 카테고리마다 다른 지명을 등록한 복수의 단어사전 중 하나에 대응하고, 상기 소재정보단어 검출수단에서 얻어진 단어영역내에 포함되는 문자정보로 구성되는 복수 문자열의 조합의 적어도 일부가 일치하는 상기 단어사전내의 1개 또는 복수개의 단어를 추출하는 단어추출수단과,

상기 소재정보단어 검출수단에서 얻어진 단어영역내에 포함되는 문자정보를 상기 단어추출수단에 의해 추출한 1개 또는 복수개의 단어와 대조함으로써 단어를 인식하는 제 2 단어인식수단을 갖고,

상기 출력수단이 상기 제 2 단어인식수단에 의한 각 카테고리에 대응하는 인식결과를 상기 소재정보의 인식결과로서 출력하는 것을 특징으로 하는 소재정보 인식장치.
제 4 항에 있어서,

상기 판독수단에 의해 판독하는 소재정보화상이 복수단의 계층구조의 카테고리로 구성되고,

상기 단어인식수단이

인식대상인 지역내에 존재하는 소정의 카테고리마다 다른 지명을 등록한 복수의 단어사전 중 하나인 단어사전의 등록단어수가 소정수 이상인 때에, 상기 문자정보를 구성하는 복수 문자열의 조합의 적어도 일부가 일치하는 상기 단어사전내의 단어를 1개 또는 복수개 추출하는 단어추출수단,

상기 단어추출수단에 의해 추출한 1개 또는 복수개의 단어와 상기 문자정보를 대조함으로써 단어를 인식하는 제 1 인식수단, 및

소정의 카테고리에 대응하는 상기 단어사전의 등록단어수가 소정수 미만인 때에 상기 단어사전의 내용과 상기 문자정보를 대조함으로써 단어를 인식하는 제 2 의 인식수단을 갖고,

상기 출력수단이 상기 제 1 인식수단에 따른 인식결과 또는 상기 제 2 인식수단에 따른 인식결과를 상기 소재정보의 인식결과로서 출력하는 것을 특징으로 하는 소재정보 인식장치.