PT1288792E

PT1288792E - A method for automatically indexing documents

Info

Publication number: PT1288792E
Application number: PT01120429T
Authority: PT
Inventors: Alexander Goerke; Matthias Rabald
Original assignee: Bdgb Entpr Software Sarl
Priority date: 2001-08-27
Filing date: 2001-08-27
Publication date: 2012-02-29
Also published as: CA2776891A1; ATE537507T1; AU2010249253B2; US9141691B2; US8015198B2; US20090307202A1; EP1288792B1; JP4860903B2; CA2459182C; EP1288792A1; AU2010249253A1; CA2776891C; WO2003019524A1; DK1288792T3; JP2005501321A; ES2375403T3; US20120078934A1; AU2008202535A1; CA2459182A1; AU2002331728B2

Abstract

A method for retrieving based on a search term together with its corresponding meaning from a set of base documents those documents which contain said search term and in which said certain search term has said certain meaning to enable the building of an index on said retrieved documents, said method comprising:searching for those base documents among said set of base documents which contain said certain search term; evaluating the found base documents as to whether said search term contained in said found base documents, respectively, has a certain meaning, said evaluation comprising: generating a text document to represent elements surrounding the search term and their corresponding absolute or relative position with respect to said search term, the elements of said text document coding said absolute or relative positions of said surrounding elements by correspondig text strings; inputting said text document into a trainable classifying apparatus which has been trained to recognize whether an inputted text document belongs to a certain classification category or not, whereas said training has been performed based on a training sample of text documents which have been generated for documents in which the term surrounded by the surrounding elements has said said meaning inputted by said user; classifying said inputted text document to judge whether said search term has said inputted meaning. <IMAGE>

Description

ΕΡ 1 288 792/PT DESCRIÇÃO "Método para indexar automaticamente documentos"ΕΡ 1 288 792 / EN DESCRIPTION " Method for automatically indexing documents "

Campo do invento 0 presente invento refere-se ao processamento de documentos de texto e, em particular, à indexação automática de documentos de texto.FIELD OF THE INVENTION The present invention relates to the processing of text documents and, in particular, to automatic indexing of text documents.

Antecedentes do inventoBACKGROUND OF THE INVENTION

Uma forma tipica de estruturar grandes volumes de dados de tal modo que os mesmos possam ser facilmente acedidos consiste em indexar os documentos. Isto significa que um documento ou um grupo de documentos é referenciado por um termo de indexação. Uma recolha de tais termos de indexação forma então um índice. Isto é mostrado de forma exemplificativa na Fig. 4.A typical way of structuring large volumes of data in such a way that they can be easily accessed is to index the documents. This means that a document or a group of documents is referenced by an indexing term. A collection of such indexing terms then forms an index. This is shown by way of example in Fig. 4.

Na Fig. 4 os documentos de endereço 410, 420, 430 contêm dados de endereço acerca de pessoas individuais. Os documentos podem ser caracterizados pelos elementos individuais que contêm, sendo um deles o nome de família das pessoas a que os documentos de referem.In Fig. 4 address documents 410, 420, 430 contain address data about individual persons. Documents may be characterized by the individual elements they contain, one of which is the family name of the persons to whom the documents refer.

Esta informação pode então ser utilizada para construir um índice 440 mostrado no lado esquerdo da Fig. 4. Este índice contém a lista dos nomes de família que estão contidos nos documentos, e cada um dos elementos das referências de índice um documento individual tal como pode ser visto a partir da Fig. 4.This information can then be used to construct an index 440 shown on the left side of Fig. 4. This index contains the list of family names that are contained in the documents, and each of the elements of the index references an individual document such as may be seen from Fig. 4.

Esta é uma forma muito clássica e típica de organizar informação de uma maneira estruturada, de tal modo que a informação desejada ou os documentos desejados que contêm uma peça de informação pesquisada ou desejada possa ser recuperada e acedida a partir de um grande volume de documentos.This is a very classic and typical way of organizing information in a structured way, so that the desired information or desired documents containing a researched or desired piece of information can be retrieved and accessed from a large volume of documents.

Os índices podem ser construídos para vários elementos tais como o nome de família, o primeiro nome, o nome da rua, 2 ΕΡ 1 288 792/ΡΤ etc. Aquilo que os índices têm em comum é que os elementos de um índice, todos de uma certa forma, têm o mesmo "significado", tal como o "nome de família", "primeiro nome" ou semelhantes. Utilizando uma terminologia mais rigorosa pode dizer-se que os referidos índices pertencem a uma categoria comum respectiva que está relacionada com um certo significado para um ser humano. Naquilo que se segue os termos, "que tem um certo significado" e "pertencendo a uma certa categoria" são utilizados sinonimicamente.The indexes can be constructed for various elements such as family name, first name, street name, 2 ΕΡ 1 288 792 / ΡΤ etc. What the indexes have in common is that elements of an index, all in a certain way, have the same " meaning " such as " family name ", " first " or the like. By using more stringent terminology it can be said that said indices belong to a respective common category which is related to a certain meaning for a human being. In what follows the terms, " which has a certain meaning " and " belonging to a certain category " are used synonymously.

Por conseguinte, os elementos individuais que são utilizados para construir um índice estão um tanto consistentes em relação à informação que os mesmos contêm quando vistos a partir de um nível mais abstracto. Por outras palavras, todos os elementos do índice têm o mesmo "significado".Therefore, the individual elements that are used to construct an index are somewhat consistent with the information they contain when viewed from a more abstract level. In other words, all elements of the index have the same " meaning ".

Uma outra abordagem mais geral para ordenar os documentos consiste apenas em caracterizar um ou mais documentos por um certo termo e depois construir um índice a partir dos termos individuais assim utilizados. Num caso destes, os elementos de índice não têm de ter um "significado" consistente, muito embora se possa considerar que eles têm todos o mesmo significado no sentido em que cada um dos elementos caracteriza ou descreve o um ou mais documentos que referencia.Another more general approach to sorting documents is simply to characterize one or more documents by a certain term and then construct an index from the individual terms thus used. In this case, the index elements do not have to have a " meaning " consistent though they may be considered to have all the same meaning in the sense that each of the elements characterizes or describes the one or more documents that reference.

Depois de um índice ter sido construído, o mesmo pode ser utilizado para consultar e aceder ao conjunto de documentos ordenado ou estruturado pelo índice assim construído. Qualquer um pode introduzir directamente um termo de pesquisa e, se estiver contido no índice, então o documento ou os documentos referenciados pelo termo de índice são recuperados. Uma outra possibilidade consiste em "navegar" no índice, o que significa exibir os elementos individuais de índice numa certa ordem (tipicamente a alfabética), tal como mostrado no elemento 440 da Fig. 4. Isto tem a vantagem de um utilizador poder supervisionar rapidamente que elementos de índice são utilizados no total para organizar ou "indexar" o conjunto de documentos. 3Once an index has been constructed, it can be used to query and access the set of documents ordered or structured by the index thus constructed. Anyone can enter a search term directly, and if it is contained in the index, then the document or documents referenced by the index term are retrieved. Another possibility is to " navigate " in the index, which means displaying the individual index elements in a certain (typically alphabetical) order as shown in element 440 of Fig. 4. This has the advantage that a user can quickly monitor which index elements are used in the total to organize or " index " the set of documents. 3

ΕΡ 1 288 792/PTΕΡ 1 288 792 / EN

Uma outra abordagem um tanto sofisticada consiste na utilização de uma chamada pesquisa tolerante a falhas, o que significa que um termo de pesquisa é introduzido e esses documentos são recuperados onde o valor de índice correspondente é idêntico ou pelo menos similar (numa certa extensão, dependendo do algoritmo de pesquisa tolerante a falhas utilizado) ao termo de pesquisa.Another rather sophisticated approach is to use a so-called fault-tolerant search, which means that a search term is entered and these documents are retrieved where the corresponding index value is identical or at least similar (to a certain extent depending of the fault-tolerant search algorithm used) to the search term.

Em qualquer dos casos, construir um índice é um trabalho muito difícil e entediante, sendo um trabalho de preparação que tem de ser feito de modo a que se torne aceitável aceder a grandes conjuntos de documentos de uma maneira ordenada e com significado.In any case, building an index is a very difficult and tedious job, and preparation work has to be done in such a way that it becomes acceptable to access large sets of documents in an orderly and meaningful way.

Tipicamente os índices são criados "manualmente", pelo menos no caso dos documentos a serem indexados estarem "não estruturados", tais como documentos de texto claros. Se os documentos a serem indexados estiverem "estruturados", tal como no caso de tabelas de bases de dados relacionais, é então relativamente fácil construir um índice. Contudo, se não se souber que "significado" individual um elemento tem num documento não estruturado, então é extremamente difícil e incómodo seleccionar elementos que possam ser utilizados para indexar este documento. "FREITAG D: 'Information extraction from HTML: application of a general machine learning approach' "PROCEEDINGS FIFTEENTH NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-98)"". "TENTH CONFERENCE ON INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE, PROCEEDINGS OF THE FIFTEENTH NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE", MADISON, WI, USA, páginas 517-523, XP002197239 1998, Menlo Park, CA, USA, AAAI Press/MIT Press, USA ISBN: 0-262-51098-7 descreve um método para realizar extracção de informação a partir de páginas da rede. A extracção de informação é posta em causa como um problema de aprendizagem de máquina normalizada e é descrita a implementação de um meio de aprendizagem relacional de finalidade geral para extracção de informação.Typically indexes are created " manually ", at least in case the documents to be indexed are " unstructured " such as clear text documents. If the documents to be indexed are " structured ", as in the case of relational database tables, then it is relatively easy to construct an index. However, if it is not known that " meaning " an element has in an unstructured document, then it is extremely difficult and cumbersome to select elements that can be used to index this document. " FREITAG D: 'Information extraction from HTML: application of a general machine learning approach' " PROCEEDINGS FIFTEENTH NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-98) ". "TENTH CONFERENCE ON INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE, PROCEEDINGS OF THE FIFTEENTH NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE", MADISON, WI, USA, pages 517-523, XP002197239 1998, Menlo Park, CA, USA, AAAI Press / MIT Press, USA ISBN: 0-262-51098-7 describes a method for extracting information from web pages. Information extraction is called into question as a standardized machine learning problem and the implementation of a general purpose relational learning medium for extracting information is described.

Consequentemente, é altamente desejável melhorar o processamento de documentos de indexação. 4Accordingly, it is highly desirable to improve the processing of indexing documents. 4

ΕΡ 1 288 792/PTΕΡ 1 288 792 / EN

Sumário do inventoSUMMARY OF THE INVENTION

De acordo com a primeira concretização do presente invento é proporcionado um método para recuperar certos documentos a partir de um conjunto de documentos com base num termo de pesquisa introduzido assim como com base no "significado" correspondente do termo de pesquisa, tal como definido na reivindicação 1. Em primeiro lugar, aqueles documentos são pesquisados, os quais contêm o termo de pesquisa. Depois disso, os documentos encontrados (chamados documentos base) deverão ser avaliados quanto ao facto de saber se nesses documentos o termo de pesquisa ali contido tem um certo significado. Esta avaliação compreende a geração de um documento de texto (ou formatação) que representa o termo de pesquisa e os seus elementos envolventes e a sua posição absoluta ou relativa correspondente em relação ao termo de pesquisa ou dentro do documento base. Este documento de texto é então introduzido num aparelho de classificação treinável que foi treinado para julgar se o documento de texto introduzido pertence a uma certa categoria ou não. 0 julgamento tem deste modo de determinar se o termo de pesquisa tem o certo "significado" desejado (isto é, o documento de texto pertence à categoria treinada) ou se não tem (o documento não pertence à categoria treinada).According to the first embodiment of the present invention there is provided a method for retrieving certain documents from a set of documents based on a search term introduced as well as based on the " meaning " corresponding to the search term as defined in claim 1. First, those documents are searched, which contain the search term. After that, the documents found (called base documents) should be evaluated as to whether in these documents the search term contained therein has a certain meaning. This evaluation comprises the generation of a text document (or formatting) that represents the search term and its surrounding elements and its absolute or relative position corresponding to the search term or within the base document. This text document is then entered into a trainable classification apparatus that has been trained to judge whether the text document entered belongs to a certain category or not. The judgment thus has to determine whether the search term has the right " meaning " (ie the text document belongs to the trained category) or if it does not (the document does not belong to the trained category).

Com base neste julgamento pode ser verificado se nos documentos de base encontrados os termos procurados têm o certo "significado" desejado.Based on this judgment can be verified if in the base documents found the searched terms have the right " meaning " wanted.

Os termos de pesquisa e os significados correspondentes podem ser utilizados para construir um índice para os documentos de base. Isto pode então ser útil para aceder a grandes pilhas de documentos base de uma maneira ordenada.The search terms and corresponding meanings can be used to construct an index for the base documents. This can then be useful for accessing large stacks of base documents in an orderly manner.

De acordo com uma concretização particular os referidos passos de pesquisa, classificação e indexação são repetidos para uma pluralidade de termos de pesquisa. Se isto for realizado para cada um dos documentos base, então para cada documento pode ser determinado o valor individual correspondente que tem um certo "significado" e estando contido neste documento. Por exemplo, para todos os 5According to a particular embodiment said search, sort and indexation steps are repeated for a plurality of search terms. If this is done for each of the base documents, then for each document the corresponding individual value that has a certain " meaning " and is contained herein. For example, for all 5

ΕΡ 1 288 792/PT documentos base de um escrutínio de cartas a data de despacho pode ser determinada ou "extraída" e os elementos assim extraídos em conjunto com o significado da "data de despacho" podem ser utilizados para formar um índice que referencia o conjunto de documentos base. Se isto for realizado para vários "significados" diferentes, tais como o destinatário, o endereço de origem, o número de referência e por aí adiante, então também pode ser gerada uma base de dados relacional que faz um mapeamento do "teor de informação" do conjunto de documentos nas tabelas de base de dados relacionais.The basic documents of a scrutiny of letters on the dispatch date can be determined or "withdrawn" and the elements thus extracted together with the meaning of " dispatch date " can be used to form an index that references the set of base documents. If this is done for several " meanings " such as the recipient, the source address, the reference number, and so on, then a relational database can also be generated which maps the " information content " of the set of documents in the relational database tables.

De acordo com uma outra concretização, a pesquisa realizada pode compreender uma pesquisa associativa e/ou uma pesquisa indefinida. Isto devolverá também documentos nos quais os termos de pesquisa estão mal escritos ou os quais contêm quaisquer outros erros de dactilografia. 0 treino do aparelho de classificação pode ser realizado ao seleccionar o conjunto de documentos de treino, elementos aqueles que nos respectivos documentos têm um certo "significado", gerando depois os documentos de texto para os respectivos documentos base da amostra de treino, e utilizando depois os documentos de texto assim gerados como um conjunto de treino para treinar o aparelho de classificação ao pôr a funcionar o aparelho de classificação no modo de treino.According to another embodiment, the search carried out may comprise an associative search and / or an indefinite search. This will also return documents in which the search terms are misspelled or contain any other typing errors. The training of the classification apparatus can be performed by selecting the set of training documents, elements that in the respective documents have a certain meaning and then generating the text documents for the respective training sample base documents and using then the text documents thus generated as a training set to train the sorting apparatus when operating the sorting apparatus in training mode.

Ao utilizar esta abordagem, um aparelho de classificação que utiliza apenas uma pequena amostra de documentos de treino pode, na realidade, "aprender" a avaliar se, para certos documentos base, alguns elementos ali contidos têm um certo significado ou não. Este "conhecimento" assim treinado pode então mais tarde ser utilizado para construir um índice baseado no certo "significado" que os elementos de índice devem ter. 0 processo de treino pode ser feito quer semi-automaticamente quer numa outra concretização de uma maneira totalmente automatizada. Para o treino semi-automático um utilizador tem de identificar nos documentos base aqueles elementos que têm o "significado" desejado que deverá ser aprendido ou treinado. Depois da identificação ter tido 6 ΕΡ 1 288 792/ΡΤ lugar, a amostra de treino é proporcionada e o treino pode ser realizado.By using this approach, a classification apparatus that uses only a small sample of training documents may actually " learn " to assess whether certain elements contained therein have a certain meaning or not for certain base documents. This " knowledge " so trained can then be later used to construct an index based on the right " meaning " that index elements should have. The training process may be done either semi-automatically or in another embodiment in a fully automated manner. For semi-automatic training a user has to identify in the base documents those elements that have " meaning " desired to be learned or trained. Once the identification has been given, the training sample is provided and the training can be performed.

Para realizar um treino totalmente automático pode utilizar-se um conjunto de documentos (tais como os documentos de uma base de dados que já existe) para os quais os elementos que têm o "significado" desejado já se conhecem, por exemplo, como campos na base de dados. Esta carga de documentos para os quais os elementos que têm o "significado" desejado já são conhecidos podem depois ser utilizados como as amostras de treino.To perform a fully automatic training, you can use a set of documents (such as documents from a database that already exists) for which the elements that have the " meaning " are already known, for example, as fields in the database. This load of documents for which the elements that have the " meaning " are known may then be used as the training samples.

Um conjunto de documentos base pode ser automaticamente indexado ao verificar todos os elementos (ou pelo menos uma parte dos mesmos) contidos nos documentos base de conjunto quer esses elementos tenham um certo "significado" ou não. Com esta abordagem "à pressão" um conjunto de documentos base pode ser totalmente indexado automaticamente, sem sequer realizar qualquer pesquisa. Nesta concretização quase todos os elementos dos documentos base são verificados quanto aos mesmos terem um certo significado desejado e, se assim for, então esses elementos são utilizados para construir o índice.A set of base documents can be automatically indexed by checking all the elements (or at least a part thereof) contained in the base set documents, whether those elements have a certain " meaning " or not. With this approach " at " a set of base documents can be fully indexed automatically, without even performing any search. In this embodiment almost all the elements of the base documents are checked for their having a certain desired meaning and, if so, then those elements are used to construct the index.

Contudo, a selecção dos elementos para os quais a verificação real é realizada pode conter alguma "selecção inteligente". Por exemplo, apenas aqueles elementos que vão ao encontro do mesmo critério de formato podem ser seleccionados para o procedimento de avaliação. Isto pode então reduzir a energia de computação necessária para realizar a indexação automática.However, the selection of elements for which the actual check is performed may contain some " smart selection ". For example, only those elements that meet the same format criteria can be selected for the evaluation procedure. This can then reduce the computing power required to perform automatic indexing.

Para obter vantagem, o um ou mais índices que foram construídos podem ser utilizados para formar tabelas de bases de dados relacionais. Então, os documentos base não estruturados podem ser convertidos automaticamente numa forma estruturada de uma base de dados relacional.To gain advantage, the one or more indexes that have been constructed can be used to form tables of relational databases. Then unstructured base documents can be automatically converted into a structured form of a relational database.

Breve descrição dos desenhos A Fig. 1 ilustra esquematicamente a primeira concretização do presente invento. 7BRIEF DESCRIPTION OF THE DRAWINGS Fig. 1 schematically illustrates the first embodiment of the present invention. 7

ΕΡ 1 288 792/PT 7 ΕΡ 1 288 792/PT outra A Fig. 2 ilustra esquematicamente uma concretização do presente invento. A Fig. 3 ilustra esquematicamente ainda uma outra concretização do presente invento. A Fig. 4 ilustra esquematicamente a indexação de documentos.FIG. 2 schematically illustrates one embodiment of the present invention. FIG. Fig. 3 schematically illustrates yet another embodiment of the present invention. Fig. 4 schematically illustrates the indexing of documents.

Descrição detalhada 0 presente invento vai agora ser explicado por meio de concretizações ilustrativas em ligação com os desenhos anexos. A Fig. 1 ilustra uma primeira concretização de acordo com o presente invento. Assume-se que existe um conjunto de documentos que não estão estruturados (apenas documentos de texto normais) e os quais, em conformidade, são difíceis de consultar, aceder e trazer os mesmos para uma espécie de forma ordenada.Detailed Description The present invention will now be explained by means of illustrative embodiments in connection with the accompanying drawings. Fig. 1 shows a first embodiment in accordance with the present invention. It is assumed that there is a set of documents that are not structured (only normal text documents) and which, accordingly, are difficult to access, access and bring them to a kind in an orderly manner.

Vamos assumir além do mais que o utilizador está interessado nesses documentos do escrutínio de documentos base que: a) contêm um termo certo; e b) nos quais o certo termo tem um certo "significado", isto é, nos quais o certo termo pertence a uma certa categoria que está relacionada com o significado do termo para um ser humano. Como exemplo, vamos assumir que um utilizador está interessado nesses documentos do escrutínio de documentos base que contêm o termo "6 de Maio 6 de 2000", mas adicionalmente, em que o termo (ou elemento) "6 de Maio de 2000" é uma data de factura.Let us further assume that the user is interested in these document documents scrutiny of base documents that: a) contain a certain term; and b) in which the term has a certain " meaning ", that is, in which the term belongs to a certain category which is related to the meaning of the term for a human being. As an example, we will assume that a user is interested in these scrutiny documents of base documents that contain the term " May 6, 2000 " but additionally, the term (or element) " May 6, 2000 " is an invoice date.

Em primeiro lugar, um utilizador tem então de introduzir o termo de pesquisa dentro do computador ao utilizar qualquer método de introdução convencional. Além do mais, o "significado" correspondente que o termo de pesquisa introduzido deve ter também tem de ser de uma certa maneira transportado para o sistema do computador. O utilizador pode quer introduzir manualmente o "significado" correspondente (tal como ao introduzir a "data de factura"), quer 8First, a user must then enter the search term into the computer using any conventional input method. What's more, the " meaning " correspondent that the search term introduced must have also has to be in a certain way transported to the computer system. The user may either manually enter the " meaning " (such as entering the " invoice date "), either 8

ΕΡ 1 288 792/PT seleccionar a partir de uma variedade de "significados" opcionais, ou o "significado" correspondente pode ser pré-definido para um valor implícito. Depois do termo de pesquisa e do "significado" correspondente terem sido clarificados pela operação 100 na Fig. 1, o método prossegue para a operação 110. Ali, o escrutínio de documentos base é pesquisado por aqueles documentos que contêm o termo de pesquisa introduzido.ΕΡ 1 288 792 / PT select from a variety of " meanings " optional, or the " meaning " can be preset to an implied value. After the search term and the " meaning " the method proceeds to step 110. There, scrutiny of base documents is searched for those documents which contain the entered search term.

Isto irá recuperar quaisquer documentos que contêm o elemento "6 de Maio de 2000". Contudo, os documentos recuperados também podem conter aqueles documentos onde o termo de pesquisa tem um "significado" diferente do "significado" de "data de factura", por exemplo, o "significado" pode ser a "data de nascimento", "data de expiração" ou qualquer outra coisa.This will retrieve any documents that contain the " May 6, 2000 " element. However, retrieved documents may also contain those documents where the search term has a " meaning " other than the " meaning " of " invoice date ", for example, the " meaning " can be the " date of birth ", " " expiry date " or anything else.

Por conseguinte, na operação 120 tem de ser avaliado se os documentos encontrados são documentos nos quais o termo de pesquisa tem o significado correspondente desejado ou não.Therefore, in step 120, it has to be evaluated whether the documents found are documents in which the search term has the desired desired meaning or not.

Este procedimento de avaliação vai agora ser explicado em maior detalhe em ligação com a Fig. 2. Na operação 200 é gerado um documento de texto que codifica as posições dos elementos que envolvem o termo de pesquisa no documento base encontrado. Isto é explicado em grande detalhe no Pedido de Patente Europeu 00103810.8, apresentado em 23 de Fevereiro de 2000, pelo requerente do presente pedido, e publicado como EP 1 128 278 AI. Em particular, este pedido lida com e descreve um método que pode ser utilizado para julgar se certos elementos num texto têm um certo "significado" ou não. Isto é feito ao representar as suas posições correspondentes através de um chamado "documento de formatação", e este documento de formatação é então introduzido num aparelho de classificação que foi treinado para reconhecer se o documento de formatação introduzido pertence a uma certa categoria ou não. O treino é usualmente realizado de modo a permitir que o aparelho de classificação julgue se o documento de formatação representa a área envolvente de um termo de pesquisa para aqueles documentos onde o termo de pesquisa tem qualquer "significado" desejado (ou treinado) ou não. Para detalhes, é 9 ΕΡ 1 288 792/ΡΤ feita referência ao Pedido de Patente Europeu acima mencionado, isto é, ο ΕΡ 1 128 278 AI.This evaluation procedure will now be explained in more detail in connection with Fig. 2. At step 200 a text document is generated which encodes the positions of the elements that surround the search term in the found base document. This is explained in great detail in European Patent Application 00103810.8, filed February 23, 2000, by the applicant of the present application, and published as EP 1 128 278 AI. In particular, this request deals with and describes a method that can be used to judge whether certain elements in a text have a certain " meaning " or not. This is done by representing their corresponding positions through a " format document ", and this formatting document is then entered into a classification apparatus which has been trained to recognize whether the formatting document entered belongs to a certain category or not . The training is usually done in a way that allows the classification apparatus to judge whether the formatting document represents the surrounding area of a search term for those documents where the search term has any " meaning " desired (or trained) or not. For the details, reference is made to the above-mentioned European Patent Application, that is, δ ΕΡ 1 128 278 AI.

Este documento de formatação (ou como o chamamos aqui, documento de texto) é então utilizado como uma entrada para dentro de um aparelho de classificação tal como ilustrado na operação 210 da Fig. 2 do presente pedido. Este aparelho de classificação julga então se o documento de texto introduzido pertence a uma certa "categoria" ou não. A "categoria" aqui significa que ou o termo de pesquisa tem o certo "significado" ou não tem (aqui: é uma data de factura ou não é) .This formatting document (or as we call it here, text document) is then used as an input into a sorting apparatus as illustrated in step 210 of Fig. 2 of the present application. This sorting machine then judges whether the text document entered belongs to a certain " category " or not. &Quot; category " here means that either the search term has the right " meaning " or does not have (here: it's an invoice date or it's not).

Na operação 220 o aparelho de classificação realiza então o seu julgamento quanto ao termo de pesquisa ter o "significado" introduzido (ou desejado) ou não. Um aparelho de classificação particularmente adequado está descrito no Pedido de Patente Europeu 99108354.4, o qual foi apresentado pelo requerente do presente pedido em 28 de Abril de 1999 e foi publicado como ΕΡ 1 049 030 AI. Em particular, quaisquer detalhes relacionados com o aparelho de classificação descrito ou mencionado aqui podem ser tomados a partir deste pedido.At step 220 the sorting apparatus then makes its judgment as to the search term having the " meaning " introduced (or desired) or not. A particularly suitable classification apparatus is described in European Patent Application 99108354.4, which was presented by the applicant of the present application on 28 April 1999 and was published as ΕΡ 1 049 030 AI. In particular, any details relating to the classification apparatus described or mentioned herein may be taken from this application.

Contudo, também pode ser utilizado qualquer outro aparelho de classificação que tenha capacidade para avaliar documentos de texto quanto aos mesmos pertencerem a uma certa categoria ou não e que seja treinável. É claro que em primeiro lugar o aparelho de classificação tem de ser treinado ao utilizar uma certa amostra de treino e, depois disso, os documentos base acabados de encontrar podem ser introduzidos no aparelho de classificação e avaliados desse modo quanto ao termo de pesquisa ter ou não um certo "significado".However, any other classification apparatus capable of evaluating text documents may also be used to belong to a certain category or not and to be trainable. It is clear that firstly the classification apparatus has to be trained by using a certain training sample and after that the newly found base documents can be entered into the classification apparatus and evaluated in this way as to the search term to have or not a certain " meaning ".

Deve ser notado mais uma vez que uma descrição detalhada do processo para extrair elementos dos documentos de texto que têm um "significado" desejado encontra-se descrito no EP 1 128 278 AI anteriormente mencionado. Além do mais, as particularidades referentes a como uma representação da área circundante de um elemento candidato por meio de um documento de formatação que é então alimentado para um aparelho de 10It should again be noted that a detailed description of the process for extracting elements from text documents that have a " meaning " is described in the aforementioned EP 1 128 278 AI. Furthermore, the particularities relating to as a representation of the surrounding area of a candidate element by means of a formatting document which is then fed to an apparatus of 10

ΕΡ 1 288 792/PT classificação treinável para julgar se o elemento candidato tem na realidade o "significado" desejado estão ali descritas em detalhe.ΕΡ 1 288 792 / EN to judge whether the candidate element actually has the " meaning " are described in detail therein.

Uma outra concretização do presente invento, que se refere à geração automática de qualquer índice, é agora explicada em ligação com a Fig. 3. Na operação 300, o certo "significado" que os elementos dos documentos base devem ter é definido ou seleccionado tal como já explicado antes.A further embodiment of the present invention, which relates to automatic generation of any index, is now explained in connection with Fig. 3. In step 300, the " meaning " which the elements of the base documents must have is defined or selected as already explained above.

Então, tal como já foi também explicado, para que os elementos sejam verificados é gerado o documento de texto (ou documento de formatação).Then, as already explained, for the elements to be checked, the text document (or formatting document) is generated.

Estes documentos de texto podem então ser introduzidos dentro de um aparelho de classificação já treinado na operação 320. Este aparelho de classificação na operação 330 verifica então se os elementos a serem verificados têm o certo "significado" definido ou seleccionado.These text documents may then be entered into a classification apparatus already trained in step 320. This step-up apparatus at step 330 then verifies whether the elements to be scanned have the certain " meaning " defined or selected.

Se a avaliação resultar num "sim", então na operação 340 o elemento assim avaliado é utilizado para construir um índice em conjunto com o significado definido ou seleccionado. Se a resposta na operação 330 for "não", então na operação 350 os elementos verificados são rejeitados ou, por outras palavras, os mesmos não são utilizados para construir o índice.If the evaluation results in a " yes ", then at step 340 the element thus evaluated is used to construct an index together with the defined or selected meaning. If the response in step 330 is " not ", then at step 350 the checked elements are rejected or, in other words, they are not used to construct the index.

Ao utilizar o processo ilustrado na Fig. 3, pode ser realizada uma indexação automática dos documentos.By using the process illustrated in Fig. 3, an automatic document indexing can be performed.

Isto pode ser feito de várias formas. De outro modo, os elementos a serem verificados podem ser todos os elementos que estão contidos nos documentos base individuais. Para cada elemento individual, pode então por exemplo ser verificado se este elemento é uma "data de factura" ou não, por exemplo, ao gerar um documento de formatação correspondente, e depois ao avaliar este documento de formatação através de um aparelho de classificação. É prontamente evidente que esta abordagem é bastante demorada e consumidora de energia de computador, por 11This can be done in several ways. Otherwise, the elements to be checked may be all elements that are contained in the individual base documents. For each individual element, for example, it can be verified whether this element is an " invoice date " or not, for example, by generating a corresponding format document, and then evaluating this format document by means of a classification apparatus. It is readily apparent that this approach is rather time consuming and consuming computer power, for 11

ΕΡ 1 288 792/PT conseguinte, a selecção dos elementos a serem verificados pode ser feita de uma certa maneira inteligente. Por exemplo, apenas aqueles elementos que coincidem com um certo critério de formato podem ser verificados. Com um tal critério de formato pode existir uma compilação dos formatos bem conhecidos que uma data pode assumir, e os elementos são verificados quanto aos mesmos coincidirem com o critério de formato e apenas no caso da carta a verificação final é feita quanto ao elemento assim seleccionado (o que se pode assumir como sendo "data") ser na realidade uma "data de factura" ou não.Therefore, the selection of the elements to be checked can be done in a certain intelligent way. For example, only those elements that match a certain format criteria can be checked. With such a format criterion there may be a compilation of the well-known formats that a date may assume, and the elements are checked for the same to match the format criterion and only in the case of the letter the final verification is made as to the element so selected (what you can assume to be " date ") is in fact an " invoice date " or not.

Uma outra abordagem pode ser gerar automaticamente os termos de pesquisa que depois são pesquisados nos documentos de base.Another approach may be to automatically generate the search terms that are then searched in the base documents.

Por exemplo, pode ser seleccionada uma certa gama de datas (por exemplo, desde 1 de Janeiro de 2000 a 1 de Janeiro de 2001), e depois todas aquelas datas que ali se encontram entre as mesmas são subsequentemente pesquisadas, por outras palavras, são aplicadas como termos de pesquisa ao escrutínio dos documentos base.For example, a certain range of dates can be selected (for example, from 1 January 2000 to 1 January 2001), and then all those dates therein are subsequently searched, in other words, they are applied as search terms to the scrutiny of base documents.

Para aqueles termos de pesquisa onde se encontrou uma coincidência, o que significa que foi encontrado um documento que contém um termo de pesquisa correspondente, o documento de formatação é então gerado e é verificado se o termo de pesquisa tem o certo "significado" (aqui: data de factura). Então, se assim for, tal como já foi explicado antes, o termo de pesquisa pode ser utilizado para construir um índice.For those search terms where a match was found, which means that a document was found that contains a matching search term, the formatting document is then generated and checked if the search term has the right " meaning " (here: date of invoice). So, if so, as already explained above, the search term can be used to construct an index.

Com esta abordagem nem todos os elementos nos documentos base têm de ser verificados mas, em vez disso, apenas aqueles elementos para os quais a pesquisa deu origem a uma coincidência. A abordagem que na realidade é mais eficiente em termos de energia de computação necessária pode depender das circunstâncias individuais.With this approach not all of the elements in the base documents have to be checked but instead only those elements for which the search gave rise to a match. The approach that is actually more efficient in terms of required computing power may depend on individual circumstances.

Deve estar claro que os exemplos anteriores apenas são exemplos ilustrativos e, como é obvio, o método explicado até 12It should be clear that the foregoing examples are only illustrative examples and, of course, the method explained up to 12

ΕΡ 1 288 792/PT aqui pode também ser aplicado a quaisquer outros "significados" que um certo termo ou elemento deva ter, tal como por exemplo um nome, um nome de rua, um nome de família, um primeiro nome, um nome de cidade ou qualquer outra coisa. 0 significado mais geral que qualquer elemento pode ter em relação a um certo documento no qual está contido pode ser que o elemento apenas "descreva" de alguma forma o documento no qual o mesmo está contido. Por exemplo, o termo "factura" pode estar contido numa factura, além do mais, o mesmo apenas descreve que o documento correspondente é na realidade uma factura. Tais elementos que descrevem todo o teor de um documento podem, como é óbvio, ser utilizados para construir um índice.Here can also be applied to any other " meanings " that a certain term or element should have, such as a name, a street name, a family name, a first name, a city name or something else. The most general meaning that any element may have in relation to a certain document in which it is contained may be that the element only "describes" in some way the document in which it is contained. For example, the term " invoice " may be contained in an invoice, moreover, it only describes that the corresponding document is actually an invoice. Such elements which describe the entire contents of a document can, of course, be used to construct an index.

Numa outra concretização o treino do aparelho de classificação é realizado semi-automaticamente. Por exemplo, um utilizador identifica para cada um de um conjunto de documentos aqueles elementos que têm o certo "significado" desejado tal como, por exemplo, o número de factura. Com base nesta selecção introduzida pelo utilizador, o documento de formatação é então gerado, o qual pode ser utilizado como uma entrada de treino para treinar o aparelho de classificação. Desta maneira, vários documentos de formatação que representam áreas envolventes de elementos que são números de facturas são introduzidos no aparelho de classificação e, deste modo, o aparelho de classificação é treinado ("aprende") para reconhecer aqueles elementos que são números de facturas e para distinguir os mesmos dos outros elementos que não têm este significado.In another embodiment the training of the sorting apparatus is performed semi-automatically. For example, a user identifies for each of a set of documents those elements that have the right " meaning " such as, for example, the invoice number. Based on this selection entered by the user, the formatting document is then generated, which can be used as a training input to train the classification apparatus. In this way, various formatting documents representing enveloping areas of elements that are invoice numbers are entered into the sorting apparatus and thus the sorting apparatus is trained (" learns ") to recognize those elements which are invoice numbers and to distinguish them from other elements that do not have this meaning.

Numa outra concretização, um tal procedimento de treino pode ser executado de uma maneira totalmente automática. Assumir que existe um conjunto de documentos (por exemplo, a partir de qualquer base de dados já existente) que já estão armazenados, avaliados e classificados na forma de uma base de dados relacional que tem uma coluna de "número de factura" na qual, para cada documento, o número de factura já está armazenado. Depois não existe necessidade de identificar o número de factura manualmente através de um utilizador mas, em vez disso, a informação a partir da base de dados pode ser utilizada para gerar a entrada de treino. A base de dados 13In another embodiment, such a training procedure may be performed in a fully automatic manner. Assume there is a set of documents (for example, from any existing database) that are already stored, evaluated and classified in the form of a relational database that has an " invoice number " in which, for each document, the invoice number is already stored. Then there is no need to manually identify the invoice number through a user, but instead the information from the database can be used to generate the training input. The database 13

ΕΡ 1 288 792/PT proporciona o número de factura a cada documento, podendo então este número ser pesquisado no próprio documento e depois de o mesmo estar localizado com base na área envolvente que envolve o número de factura, é gerado o documento de formatação. Este processo pode ser realizado para cada um dos documentos da base de dados e depois resulta num grande conjunto de documentos de formatação que pode ser utilizado como exemplo de treino para treinar o aparelho de classificação. Deste modo, pode ser realizado um treino totalmente automático sem qualquer necessidade de identificação dos elementos por um utilizador.ΕΡ 1 288 792 / PT provides the invoice number for each document, this number can then be searched in the document itself and after it is located based on the surrounding area that involves the invoice number, the format document is generated. This process can be performed for each of the database documents and then results in a large set of formatting documents that can be used as an example of training to train the classification apparatus. In this way, a fully automatic training can be performed without any need for identification of the elements by a user.

Deve ficar claro para qualquer especialista que este procedimento pode ser realizado não apenas para "números de factura" como para quaisquer outros elementos que tenham um certo "significado" e que já são conhecidos. Este conhecimento acerca dos próprios elementos e o seu "significado" não precisa vir a partir da base de dados, podendo o mesmo também estar armazenado por exemplo numa tabela de folha de cálculo, ou podendo o mesmo até ser escrito em papel na forma de uma tabela que depois pode ser digitalizada. Não interessa de onde vem o conhecimento acerca dos próprios elementos e o seu "significado", podendo, desde que exista, utilizar-se para automatizar o processo de treino do aparelho de classificação com base neste conhecimento.It should be clear to any expert that this procedure can be performed not only for " invoice numbers " as for any other elements that have a certain " meaning " and which are already known. This knowledge about the elements themselves and their " meaning " does not have to come from the database, it can also be stored for example in a spreadsheet table, or it can even be written on paper in the form of a table which can then be scanned. It does not matter where the knowledge about the elements themselves and their "meaning" comes from, and can, if it exists, be used to automate the training process of the classification apparatus based on this knowledge.

Embora o presente invento tenha sido descrito até aqui por meio de concretizações exemplificativas, tornar-se-á prontamente evidente para o leitor especializado que podem ser realizadas modificações sem nos afastarmos do âmbito do invento tal como definido pelas reivindicações anexas.While the present invention has heretofore been described by exemplary embodiments, it will become readily apparent to the skilled reader that modifications may be made without departing from the scope of the invention as defined by the appended claims.

Lisboa, 2012-02-16Lisbon, 2012-02-16

Claims

A method for retrieving, based on a search term together with a certain category to which the search term belongs, from a set of base documents, those base documents containing said search term, and wherein said search term belongs to said category to enable the construction of an index about said retrieved documents, said method comprising: (110) searching those base documents between said set of base documents containing the aforementioned search term; - evaluating (120) the base documents found on the fact that said search term contained in said base documents respectively belong to said category or not, said evaluation comprising: generating (200) a text document to represent the elements in the base documents found which involve the search term and the corresponding absolute or relative position of the elements in relation to said search term, the elements of said text document encoding said absolute or relative positions of said surrounding elements; - entering (210) said text document within a trainable classification apparatus, which has been trained to recognize whether said search term in a text document entered belongs to a certain category or not, considering that said training was performed based on a training sample of text documents which has been generated for text documents in which the search term involved by the surrounding elements belongs to the said category; and - classify the said text document introduced to judge (220) whether the said search term belongs to the said certain category introduced or not; and indexing a plurality of said base documents by using said search term and said corresponding category to construct an index for said base documents. ΕΡ 1 288 792 / EN 2/3

The method of claim 1, wherein the elements of said text document are encoding said absolute or relative positions of said surrounding elements by corresponding text strings.

The method of claim 1, further comprising: - repeating said search, input, and indexing steps for a plurality of search terms, said search terms being automatically queried according to a predefined rule.

The method of one of claims 1 to 3, wherein said search of said base documents comprises an associative search; and / or an indefinite search based on said search term.

The method of claim 1, further comprising: - verifying all search terms of said base documents; or check only those search terms of said base documents that match one or more predefined criteria.

The method of claim 1 or 5, further comprising: - generating a relational database from the index search term and its corresponding category.

Method according to one of the preceding claims 1 to 6, comprising the training of the classification apparatus, said training comprising: a) searching for base documents in which a search term belongs to a certain category; b) selecting said search term by the user; - repeat operations a) and b) until a sufficient set of base documents has been selected to generate a training sample; ΕΡ 1 288 792 / EN 3/3 provide the text documents for the respective base documents; - using said generated text documents as a training set for training said sorting apparatus by operating said sorting apparatus in the training mode.

Method according to one of the preceding claims 1 to 6, comprising the training of the classification apparatus, said training comprising: - using a set of base documents for which the search terms belonging to the desired predefined category are already known to automatically generate text documents as training samples to train said classification apparatus.

A computer program comprising a computer program code for enabling a computer to perform a method according to one of the preceding claims 1 to 8 when said program is running on a computer. Lisbon, 2012-02-16