Claims (3)
각각 문자열이 기입된 다수의 필드 영역으로 이루어지는 문서를 인식장치에 의해서 인식하기 위한 문서인식 방법에 있어서, 상기 장치는 영상처리를 실행하기 위한 프로세서, 인식대상으로 되는 문서의 영상을 리드하기 위한 화상 리드수단, 상기 화상리드수단에 의해 리드된 영상데이타를 기억하기 위한 제1의 메모리수단, 상기 문서에 포함되는 각 필드 영역의 위치를 나타내는 데이타를 기록하고 있는 제2의 메모리수단, 인식처리를 실시해야할 필드영역의 순서를 기억하는 제3의 메모리수단, 다수의 필드 영역에 대해서 각 필드 영역내의 문자열을 인식하기 위해 사용해야할 사전의 식별자와의 대응관계를 기억하는 제4의 메모리수단 및 다수의 사전을 기억하는 제5의 메모리수단으로 이루어지며, 상기 단어사전은 다수의 단어레코드로 이루어지고, 각 단어 레코드는 단어데이타와 상기 단어데이타와 관련된 다른 1개, 또는 다수의 단어사전내에 포함되는 다수의 단어 레토드중의 일부를 특정하기 위한 링크정보로 이루어지며, 상기 인식방법은 상기 화상리드수단에 의해 리드된 영상데이타를 상기 제1의 메모리상에 리드하는 제1의 스텝, 상기 제3의 메모리상에 기억하고 있는 필드의 순서 정보에 따라서 1개의 필드를 선택하고, 상기 제2메모리에서 리드한 상기 선택된 필드에 대응하는 위치정보에 따라서 특정된 상기 제1메모리상의 부분영상영역내에 있는 문자열의 특징으로 추출하는 제2의 스텝, 상기 제4의 메모리에서 리드된 상기 선택된 필드와 대응하는 사전식별자를 갖는 상기 제5메모리내의 사전을 이용하여 상기 제2스텝을 추출해서 문자열을 인식하는 제3의 스텝, 이것에 의해서 상기 문자열과 대응하는 적어도 1개의 단어레코드가 특정되고, 상기 특정된 단어레코드에 정의되어 있는 링크정보에 따라서 관련된 적어도 1개의 다른 사전내에 포함되는 단어 레코드에 한정정보를 부가하는 제4의 스텝, 상기 제2∼제4의 스텝을 반복하는 제5의 스텝, 여기에서 어느 것인가의 필드의 문자열인식에 사용하는 사전내의 단어레코드가 다른 필드의 문자열인식을 위한 제4의 스텝에 부가된 한정정보를 포함하고 있는 경우, 한정정보를 갖는 단어레코드를 사용하여 그 필드내의 문자열이 인식되는 제6의 스텝을 포함하는 문서인식 방법.In a document recognition method for recognizing, by a recognizing apparatus, a document comprising a plurality of field areas each having a character string written in it, the apparatus includes a processor for executing image processing and an image read for reading an image of a document to be recognized. Means, first memory means for storing image data read by the image reading means, second memory means for recording data indicating the position of each field area included in the document, and a recognition process to be performed. Third memory means for storing the order of the field areas, fourth memory means for storing a correspondence with an identifier of a dictionary to be used for recognizing character strings in each field area for a plurality of field areas, and a plurality of dictionaries. And a fifth memory means for storing, said word dictionary is made up of a plurality of word records, Each word record consists of link data for specifying a part of a word data and a plurality of other word repositories contained in another one or a plurality of word dictionaries related to the word data, and the recognition method includes the image reading means. The first step of reading the video data read by on the first memory and selecting one field according to the order information of the fields stored on the third memory, and reading from the second memory. A second step of extracting a feature of a character string in the partial image area on the first memory specified according to the positional information corresponding to the selected field, a pre-identifier corresponding to the selected field read from the fourth memory; A third step of extracting the second step using a dictionary in the fifth memory having a second to recognize a character string, whereby the character A fourth step of adding at least one word record corresponding to and specifying restriction information to a word record included in at least one other dictionary associated with the link information defined in the specified word record, the second step. The fifth step of repeating the fourth to fourth steps, wherein the word record in the dictionary used for character string recognition of any of the fields contains the limited information added to the fourth step for character string recognition of another field. And a sixth step of recognizing the character string in the field using the word record with the limited information.
각각 문자열이 기입되는 다수의 필드로 이루어지는 소정의 포맷을 갖는 문서화상내의 문자열을 다수종류의 사전을 구비한 처리장치에 의해 자동적으로 인식하는 문서 인식방법에 있어서, 상기 사전은 각각 다수의 문자로 이루어지는 단어를 인식하기 위한 다수의 단어데이타레코드로 이루어지는 적어도 2개의 단어사전과 문자단위로 문자를 인식하기 위한 다수의 데이타레코드로 이루어지는 적어도 1개의 문자사전을 포함하고, 상기 각 단어데이타레코드는 단어코드와 상기 단어코드가 나타내는 단어와 소정의 관계를 갖는 적어도 1개의 다른 단어 사전에 포함되는 단어데이타레코드군중의 일부를 특정하기 위한 링크정보로 되어 있으며, 상기 문서인식방법은 미리 기억하고 있는 인식처리를 실시해야할 필드순서정보에 따라서 선택된 상기 문서화상내의 1개의 필드영역에서 문자열을 추출하는 제1의 스텝, 미리 기억하고 있는 필드와 사전의 대응관계를 나타내는 정보에 따라서 선택된 상기 제1의 스텝에서 처리한 필드와 대응하는 상기 다수종류의 사전중의 1개를 사용해서 상기 문서화상에서 추출된 문자열을 인식하는 제2의 스텝 및 만약 상기 제2의 스텝에서 서택된 사전이 상기 단어사전중의 1개인 경우, 인식된 문자열과 대응하는 단어코드를 갖는 1개의 단어데이타레코드에 포함되는 링크정보에 따라서 상기 링크정보가 특정하는 적어도 1개의 다른 단어사전에 포함되는 단어데이타레코드 군중의 일부의 단어데이타레보드에 한정사전을 형성하기 위한 식별정보를 부가하는 제3의 스텝을 포함하며, 상기 제1∼제3의 스텝은 문서화상중의 각 필드마다 반복되고, 상기 제3의 스텝에서 만약 선택된 사전이 이미 실행된 어떤 필드의 인식처리에 관한 제4의 스텝에 의해서 한정 정보가 부가된 단어데이타레코드를 포함하는 경우, 이들 한정 정보가 부가된 단어데이타레코드로 이루어지는 한정사전에 의해서 상기 문서화상에서 추출된 문자열의 인식이 실행되는 문서인식방법.A document recognition method for automatically recognizing, by a processing apparatus having a plurality of dictionaries, a character string in a document image having a predetermined format consisting of a plurality of fields in which a character string is written, each dictionary comprising a plurality of characters. At least two word dictionaries composed of a plurality of word data records for recognizing words and at least one character dictionary composed of a plurality of data records for recognizing characters on a character basis, wherein each word data record includes a word code and And link information for specifying a part of a word data record group included in at least one other word dictionary having a predetermined relationship with the word indicated by the word code. The document recognition method performs recognition processing stored in advance. The document image selected according to field order information to be performed A first step of extracting a character string from one field area in the plurality of dictionaries corresponding to a field processed in the first step selected according to information indicating a correspondence relationship with a previously stored field; A second step of recognizing a character string extracted from the document image using one, and one having a word code corresponding to the recognized character string if the dictionary selected in the second step is one in the word dictionary. Adding identification information for forming a limited dictionary to a word data board of a part of a word data record crowd included in at least one other word dictionary specified by the link information according to link information included in the number of word data records. A third step, wherein the first to third steps are repeated for each field in the document image, and if selected in the third step, In the case where the word data record including the limited information is added by the fourth step on the recognition processing of a certain field which has already been executed, the document is extracted from the document image by the limited dictionary consisting of the word data record to which the limited information is added. Document recognition method that recognizes a string.
특허청구의 범위 제2항에 있어서, 상기 제2의 스텝은 만약 상기 선택된 사전이 상기 단어사전중의 1개인 경우, 상기 단어사전에 등록되어 있는 단어코드를 순차로 리드하는 제4의 스텝, 상기 제4의 스텝에서 리드된 각 단어코드를 구성하고 있는 다수의 문자코드를 입력문자코드를 문자의 특징량으로 변환하기 위한 특징량사전을 사용해서 순차로 문자마다의 특징량으로 변환하여 상기 단어코드와 대응하는 문자열의 특징량을 얻는 제5의 스텝, 상기 제1의 스텝에서 문자화상에서 추출된 문자열이 갖는 특징량과 상기 제5의 스텝에서 단어코드에서 얻어진 각 문자열의 특징량의 일치도를 구하고, 얻어진 일치도를 상기 단어코드와 대응시켜서 기억하는 제6의 스텝 및 상기 제4∼제6의 스텝을 상기 단어사전에 등록되어 있는 다수의 단어코드에 대해서 반복한 후 제6의 스텝에서 기억된 각 단어의 일치도의 크기에 따라서 상기 문서화상에서 추출된 문자열의 인식결과로 되어야 할 적어도 1개의 단어 코드를 결정하는 제7의 스텝을 포함하는 문서인식방법.The method of claim 2, wherein the second step comprises: a fourth step of sequentially reading a word code registered in the word dictionary if the selected dictionary is one of the word dictionaries; A plurality of character codes constituting each word code read in the fourth step are sequentially converted into a feature amount for each character by using a feature variable dictionary for converting an input character code into a feature quantity of a character and the word code A fifth step of obtaining a feature amount of a character string corresponding to and a correspondence degree of the characteristic amount of the character string of the character string extracted from the character image in the first step and the characteristic amount of each character string obtained from the word code in the fifth step; And repeating the sixth step and the fourth to sixth steps for storing the obtained degree of correspondence with the word code for a plurality of word codes registered in the word dictionary. And a seventh step of determining at least one word code to be a recognition result of the character string extracted from the document image according to the magnitude of the correspondence degree of each word stored in the sixth step.
※ 참고사항 : 최초출원 내용에 의하여 공개되는 것임.※ Note: This is to be disclosed by the original application.