PT1288792E - A method for automatically indexing documents - Google Patents

A method for automatically indexing documents Download PDF

Info

Publication number
PT1288792E
PT1288792E PT01120429T PT01120429T PT1288792E PT 1288792 E PT1288792 E PT 1288792E PT 01120429 T PT01120429 T PT 01120429T PT 01120429 T PT01120429 T PT 01120429T PT 1288792 E PT1288792 E PT 1288792E
Authority
PT
Portugal
Prior art keywords
documents
search term
quot
search
training
Prior art date
Application number
PT01120429T
Other languages
Portuguese (pt)
Inventor
Alexander Goerke
Matthias Rabald
Original Assignee
Bdgb Entpr Software Sarl
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bdgb Entpr Software Sarl filed Critical Bdgb Entpr Software Sarl
Publication of PT1288792E publication Critical patent/PT1288792E/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Mechanical Operated Clutches (AREA)

Abstract

A method for retrieving based on a search term together with its corresponding meaning from a set of base documents those documents which contain said search term and in which said certain search term has said certain meaning to enable the building of an index on said retrieved documents, said method comprising:searching for those base documents among said set of base documents which contain said certain search term; evaluating the found base documents as to whether said search term contained in said found base documents, respectively, has a certain meaning, said evaluation comprising: generating a text document to represent elements surrounding the search term and their corresponding absolute or relative position with respect to said search term, the elements of said text document coding said absolute or relative positions of said surrounding elements by correspondig text strings; inputting said text document into a trainable classifying apparatus which has been trained to recognize whether an inputted text document belongs to a certain classification category or not, whereas said training has been performed based on a training sample of text documents which have been generated for documents in which the term surrounded by the surrounding elements has said said meaning inputted by said user; classifying said inputted text document to judge whether said search term has said inputted meaning. <IMAGE>

Description

ΕΡ 1 288 792/PT DESCRIÇÃO &quot;Método para indexar automaticamente documentos&quot;ΕΡ 1 288 792 / EN DESCRIPTION &quot; Method for automatically indexing documents &quot;

Campo do invento 0 presente invento refere-se ao processamento de documentos de texto e, em particular, à indexação automática de documentos de texto.FIELD OF THE INVENTION The present invention relates to the processing of text documents and, in particular, to automatic indexing of text documents.

Antecedentes do inventoBACKGROUND OF THE INVENTION

Uma forma tipica de estruturar grandes volumes de dados de tal modo que os mesmos possam ser facilmente acedidos consiste em indexar os documentos. Isto significa que um documento ou um grupo de documentos é referenciado por um termo de indexação. Uma recolha de tais termos de indexação forma então um índice. Isto é mostrado de forma exemplificativa na Fig. 4.A typical way of structuring large volumes of data in such a way that they can be easily accessed is to index the documents. This means that a document or a group of documents is referenced by an indexing term. A collection of such indexing terms then forms an index. This is shown by way of example in Fig. 4.

Na Fig. 4 os documentos de endereço 410, 420, 430 contêm dados de endereço acerca de pessoas individuais. Os documentos podem ser caracterizados pelos elementos individuais que contêm, sendo um deles o nome de família das pessoas a que os documentos de referem.In Fig. 4 address documents 410, 420, 430 contain address data about individual persons. Documents may be characterized by the individual elements they contain, one of which is the family name of the persons to whom the documents refer.

Esta informação pode então ser utilizada para construir um índice 440 mostrado no lado esquerdo da Fig. 4. Este índice contém a lista dos nomes de família que estão contidos nos documentos, e cada um dos elementos das referências de índice um documento individual tal como pode ser visto a partir da Fig. 4.This information can then be used to construct an index 440 shown on the left side of Fig. 4. This index contains the list of family names that are contained in the documents, and each of the elements of the index references an individual document such as may be seen from Fig. 4.

Esta é uma forma muito clássica e típica de organizar informação de uma maneira estruturada, de tal modo que a informação desejada ou os documentos desejados que contêm uma peça de informação pesquisada ou desejada possa ser recuperada e acedida a partir de um grande volume de documentos.This is a very classic and typical way of organizing information in a structured way, so that the desired information or desired documents containing a researched or desired piece of information can be retrieved and accessed from a large volume of documents.

Os índices podem ser construídos para vários elementos tais como o nome de família, o primeiro nome, o nome da rua, 2 ΕΡ 1 288 792/ΡΤ etc. Aquilo que os índices têm em comum é que os elementos de um índice, todos de uma certa forma, têm o mesmo &quot;significado&quot;, tal como o &quot;nome de família&quot;, &quot;primeiro nome&quot; ou semelhantes. Utilizando uma terminologia mais rigorosa pode dizer-se que os referidos índices pertencem a uma categoria comum respectiva que está relacionada com um certo significado para um ser humano. Naquilo que se segue os termos, &quot;que tem um certo significado&quot; e &quot;pertencendo a uma certa categoria&quot; são utilizados sinonimicamente.The indexes can be constructed for various elements such as family name, first name, street name, 2 ΕΡ 1 288 792 / ΡΤ etc. What the indexes have in common is that elements of an index, all in a certain way, have the same &quot; meaning &quot; such as &quot; family name &quot;, &quot; first &quot; or the like. By using more stringent terminology it can be said that said indices belong to a respective common category which is related to a certain meaning for a human being. In what follows the terms, &quot; which has a certain meaning &quot; and &quot; belonging to a certain category &quot; are used synonymously.

Por conseguinte, os elementos individuais que são utilizados para construir um índice estão um tanto consistentes em relação à informação que os mesmos contêm quando vistos a partir de um nível mais abstracto. Por outras palavras, todos os elementos do índice têm o mesmo &quot;significado&quot;.Therefore, the individual elements that are used to construct an index are somewhat consistent with the information they contain when viewed from a more abstract level. In other words, all elements of the index have the same &quot; meaning &quot;.

Uma outra abordagem mais geral para ordenar os documentos consiste apenas em caracterizar um ou mais documentos por um certo termo e depois construir um índice a partir dos termos individuais assim utilizados. Num caso destes, os elementos de índice não têm de ter um &quot;significado&quot; consistente, muito embora se possa considerar que eles têm todos o mesmo significado no sentido em que cada um dos elementos caracteriza ou descreve o um ou mais documentos que referencia.Another more general approach to sorting documents is simply to characterize one or more documents by a certain term and then construct an index from the individual terms thus used. In this case, the index elements do not have to have a &quot; meaning &quot; consistent though they may be considered to have all the same meaning in the sense that each of the elements characterizes or describes the one or more documents that reference.

Depois de um índice ter sido construído, o mesmo pode ser utilizado para consultar e aceder ao conjunto de documentos ordenado ou estruturado pelo índice assim construído. Qualquer um pode introduzir directamente um termo de pesquisa e, se estiver contido no índice, então o documento ou os documentos referenciados pelo termo de índice são recuperados. Uma outra possibilidade consiste em &quot;navegar&quot; no índice, o que significa exibir os elementos individuais de índice numa certa ordem (tipicamente a alfabética), tal como mostrado no elemento 440 da Fig. 4. Isto tem a vantagem de um utilizador poder supervisionar rapidamente que elementos de índice são utilizados no total para organizar ou &quot;indexar&quot; o conjunto de documentos. 3Once an index has been constructed, it can be used to query and access the set of documents ordered or structured by the index thus constructed. Anyone can enter a search term directly, and if it is contained in the index, then the document or documents referenced by the index term are retrieved. Another possibility is to &quot; navigate &quot; in the index, which means displaying the individual index elements in a certain (typically alphabetical) order as shown in element 440 of Fig. 4. This has the advantage that a user can quickly monitor which index elements are used in the total to organize or &quot; index &quot; the set of documents. 3

ΕΡ 1 288 792/PTΕΡ 1 288 792 / EN

Uma outra abordagem um tanto sofisticada consiste na utilização de uma chamada pesquisa tolerante a falhas, o que significa que um termo de pesquisa é introduzido e esses documentos são recuperados onde o valor de índice correspondente é idêntico ou pelo menos similar (numa certa extensão, dependendo do algoritmo de pesquisa tolerante a falhas utilizado) ao termo de pesquisa.Another rather sophisticated approach is to use a so-called fault-tolerant search, which means that a search term is entered and these documents are retrieved where the corresponding index value is identical or at least similar (to a certain extent depending of the fault-tolerant search algorithm used) to the search term.

Em qualquer dos casos, construir um índice é um trabalho muito difícil e entediante, sendo um trabalho de preparação que tem de ser feito de modo a que se torne aceitável aceder a grandes conjuntos de documentos de uma maneira ordenada e com significado.In any case, building an index is a very difficult and tedious job, and preparation work has to be done in such a way that it becomes acceptable to access large sets of documents in an orderly and meaningful way.

Tipicamente os índices são criados &quot;manualmente&quot;, pelo menos no caso dos documentos a serem indexados estarem &quot;não estruturados&quot;, tais como documentos de texto claros. Se os documentos a serem indexados estiverem &quot;estruturados&quot;, tal como no caso de tabelas de bases de dados relacionais, é então relativamente fácil construir um índice. Contudo, se não se souber que &quot;significado&quot; individual um elemento tem num documento não estruturado, então é extremamente difícil e incómodo seleccionar elementos que possam ser utilizados para indexar este documento. &quot;FREITAG D: 'Information extraction from HTML: application of a general machine learning approach' &quot;PROCEEDINGS FIFTEENTH NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-98)&quot;&quot;. &quot;TENTH CONFERENCE ON INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE, PROCEEDINGS OF THE FIFTEENTH NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE&quot;, MADISON, WI, USA, páginas 517-523, XP002197239 1998, Menlo Park, CA, USA, AAAI Press/MIT Press, USA ISBN: 0-262-51098-7 descreve um método para realizar extracção de informação a partir de páginas da rede. A extracção de informação é posta em causa como um problema de aprendizagem de máquina normalizada e é descrita a implementação de um meio de aprendizagem relacional de finalidade geral para extracção de informação.Typically indexes are created &quot; manually &quot;, at least in case the documents to be indexed are &quot; unstructured &quot; such as clear text documents. If the documents to be indexed are &quot; structured &quot;, as in the case of relational database tables, then it is relatively easy to construct an index. However, if it is not known that &quot; meaning &quot; an element has in an unstructured document, then it is extremely difficult and cumbersome to select elements that can be used to index this document. &quot; FREITAG D: 'Information extraction from HTML: application of a general machine learning approach' &quot; PROCEEDINGS FIFTEENTH NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-98) &quot;. "TENTH CONFERENCE ON INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE, PROCEEDINGS OF THE FIFTEENTH NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE", MADISON, WI, USA, pages 517-523, XP002197239 1998, Menlo Park, CA, USA, AAAI Press / MIT Press, USA ISBN: 0-262-51098-7 describes a method for extracting information from web pages. Information extraction is called into question as a standardized machine learning problem and the implementation of a general purpose relational learning medium for extracting information is described.

Consequentemente, é altamente desejável melhorar o processamento de documentos de indexação. 4Accordingly, it is highly desirable to improve the processing of indexing documents. 4

ΕΡ 1 288 792/PTΕΡ 1 288 792 / EN

Sumário do inventoSUMMARY OF THE INVENTION

De acordo com a primeira concretização do presente invento é proporcionado um método para recuperar certos documentos a partir de um conjunto de documentos com base num termo de pesquisa introduzido assim como com base no &quot;significado&quot; correspondente do termo de pesquisa, tal como definido na reivindicação 1. Em primeiro lugar, aqueles documentos são pesquisados, os quais contêm o termo de pesquisa. Depois disso, os documentos encontrados (chamados documentos base) deverão ser avaliados quanto ao facto de saber se nesses documentos o termo de pesquisa ali contido tem um certo significado. Esta avaliação compreende a geração de um documento de texto (ou formatação) que representa o termo de pesquisa e os seus elementos envolventes e a sua posição absoluta ou relativa correspondente em relação ao termo de pesquisa ou dentro do documento base. Este documento de texto é então introduzido num aparelho de classificação treinável que foi treinado para julgar se o documento de texto introduzido pertence a uma certa categoria ou não. 0 julgamento tem deste modo de determinar se o termo de pesquisa tem o certo &quot;significado&quot; desejado (isto é, o documento de texto pertence à categoria treinada) ou se não tem (o documento não pertence à categoria treinada).According to the first embodiment of the present invention there is provided a method for retrieving certain documents from a set of documents based on a search term introduced as well as based on the &quot; meaning &quot; corresponding to the search term as defined in claim 1. First, those documents are searched, which contain the search term. After that, the documents found (called base documents) should be evaluated as to whether in these documents the search term contained therein has a certain meaning. This evaluation comprises the generation of a text document (or formatting) that represents the search term and its surrounding elements and its absolute or relative position corresponding to the search term or within the base document. This text document is then entered into a trainable classification apparatus that has been trained to judge whether the text document entered belongs to a certain category or not. The judgment thus has to determine whether the search term has the right &quot; meaning &quot; (ie the text document belongs to the trained category) or if it does not (the document does not belong to the trained category).

Com base neste julgamento pode ser verificado se nos documentos de base encontrados os termos procurados têm o certo &quot;significado&quot; desejado.Based on this judgment can be verified if in the base documents found the searched terms have the right &quot; meaning &quot; wanted.

Os termos de pesquisa e os significados correspondentes podem ser utilizados para construir um índice para os documentos de base. Isto pode então ser útil para aceder a grandes pilhas de documentos base de uma maneira ordenada.The search terms and corresponding meanings can be used to construct an index for the base documents. This can then be useful for accessing large stacks of base documents in an orderly manner.

De acordo com uma concretização particular os referidos passos de pesquisa, classificação e indexação são repetidos para uma pluralidade de termos de pesquisa. Se isto for realizado para cada um dos documentos base, então para cada documento pode ser determinado o valor individual correspondente que tem um certo &quot;significado&quot; e estando contido neste documento. Por exemplo, para todos os 5According to a particular embodiment said search, sort and indexation steps are repeated for a plurality of search terms. If this is done for each of the base documents, then for each document the corresponding individual value that has a certain &quot; meaning &quot; and is contained herein. For example, for all 5

ΕΡ 1 288 792/PT documentos base de um escrutínio de cartas a data de despacho pode ser determinada ou &quot;extraída&quot; e os elementos assim extraídos em conjunto com o significado da &quot;data de despacho&quot; podem ser utilizados para formar um índice que referencia o conjunto de documentos base. Se isto for realizado para vários &quot;significados&quot; diferentes, tais como o destinatário, o endereço de origem, o número de referência e por aí adiante, então também pode ser gerada uma base de dados relacional que faz um mapeamento do &quot;teor de informação&quot; do conjunto de documentos nas tabelas de base de dados relacionais.The basic documents of a scrutiny of letters on the dispatch date can be determined or "withdrawn" and the elements thus extracted together with the meaning of &quot; dispatch date &quot; can be used to form an index that references the set of base documents. If this is done for several &quot; meanings &quot; such as the recipient, the source address, the reference number, and so on, then a relational database can also be generated which maps the &quot; information content &quot; of the set of documents in the relational database tables.

De acordo com uma outra concretização, a pesquisa realizada pode compreender uma pesquisa associativa e/ou uma pesquisa indefinida. Isto devolverá também documentos nos quais os termos de pesquisa estão mal escritos ou os quais contêm quaisquer outros erros de dactilografia. 0 treino do aparelho de classificação pode ser realizado ao seleccionar o conjunto de documentos de treino, elementos aqueles que nos respectivos documentos têm um certo &quot;significado&quot;, gerando depois os documentos de texto para os respectivos documentos base da amostra de treino, e utilizando depois os documentos de texto assim gerados como um conjunto de treino para treinar o aparelho de classificação ao pôr a funcionar o aparelho de classificação no modo de treino.According to another embodiment, the search carried out may comprise an associative search and / or an indefinite search. This will also return documents in which the search terms are misspelled or contain any other typing errors. The training of the classification apparatus can be performed by selecting the set of training documents, elements that in the respective documents have a certain meaning and then generating the text documents for the respective training sample base documents and using then the text documents thus generated as a training set to train the sorting apparatus when operating the sorting apparatus in training mode.

Ao utilizar esta abordagem, um aparelho de classificação que utiliza apenas uma pequena amostra de documentos de treino pode, na realidade, &quot;aprender&quot; a avaliar se, para certos documentos base, alguns elementos ali contidos têm um certo significado ou não. Este &quot;conhecimento&quot; assim treinado pode então mais tarde ser utilizado para construir um índice baseado no certo &quot;significado&quot; que os elementos de índice devem ter. 0 processo de treino pode ser feito quer semi-automaticamente quer numa outra concretização de uma maneira totalmente automatizada. Para o treino semi-automático um utilizador tem de identificar nos documentos base aqueles elementos que têm o &quot;significado&quot; desejado que deverá ser aprendido ou treinado. Depois da identificação ter tido 6 ΕΡ 1 288 792/ΡΤ lugar, a amostra de treino é proporcionada e o treino pode ser realizado.By using this approach, a classification apparatus that uses only a small sample of training documents may actually &quot; learn &quot; to assess whether certain elements contained therein have a certain meaning or not for certain base documents. This &quot; knowledge &quot; so trained can then be later used to construct an index based on the right &quot; meaning &quot; that index elements should have. The training process may be done either semi-automatically or in another embodiment in a fully automated manner. For semi-automatic training a user has to identify in the base documents those elements that have &quot; meaning &quot; desired to be learned or trained. Once the identification has been given, the training sample is provided and the training can be performed.

Para realizar um treino totalmente automático pode utilizar-se um conjunto de documentos (tais como os documentos de uma base de dados que já existe) para os quais os elementos que têm o &quot;significado&quot; desejado já se conhecem, por exemplo, como campos na base de dados. Esta carga de documentos para os quais os elementos que têm o &quot;significado&quot; desejado já são conhecidos podem depois ser utilizados como as amostras de treino.To perform a fully automatic training, you can use a set of documents (such as documents from a database that already exists) for which the elements that have the &quot; meaning &quot; are already known, for example, as fields in the database. This load of documents for which the elements that have the &quot; meaning &quot; are known may then be used as the training samples.

Um conjunto de documentos base pode ser automaticamente indexado ao verificar todos os elementos (ou pelo menos uma parte dos mesmos) contidos nos documentos base de conjunto quer esses elementos tenham um certo &quot;significado&quot; ou não. Com esta abordagem &quot;à pressão&quot; um conjunto de documentos base pode ser totalmente indexado automaticamente, sem sequer realizar qualquer pesquisa. Nesta concretização quase todos os elementos dos documentos base são verificados quanto aos mesmos terem um certo significado desejado e, se assim for, então esses elementos são utilizados para construir o índice.A set of base documents can be automatically indexed by checking all the elements (or at least a part thereof) contained in the base set documents, whether those elements have a certain &quot; meaning &quot; or not. With this approach &quot; at &quot; a set of base documents can be fully indexed automatically, without even performing any search. In this embodiment almost all the elements of the base documents are checked for their having a certain desired meaning and, if so, then those elements are used to construct the index.

Contudo, a selecção dos elementos para os quais a verificação real é realizada pode conter alguma &quot;selecção inteligente&quot;. Por exemplo, apenas aqueles elementos que vão ao encontro do mesmo critério de formato podem ser seleccionados para o procedimento de avaliação. Isto pode então reduzir a energia de computação necessária para realizar a indexação automática.However, the selection of elements for which the actual check is performed may contain some &quot; smart selection &quot;. For example, only those elements that meet the same format criteria can be selected for the evaluation procedure. This can then reduce the computing power required to perform automatic indexing.

Para obter vantagem, o um ou mais índices que foram construídos podem ser utilizados para formar tabelas de bases de dados relacionais. Então, os documentos base não estruturados podem ser convertidos automaticamente numa forma estruturada de uma base de dados relacional.To gain advantage, the one or more indexes that have been constructed can be used to form tables of relational databases. Then unstructured base documents can be automatically converted into a structured form of a relational database.

Breve descrição dos desenhos A Fig. 1 ilustra esquematicamente a primeira concretização do presente invento. 7BRIEF DESCRIPTION OF THE DRAWINGS Fig. 1 schematically illustrates the first embodiment of the present invention. 7

ΕΡ 1 288 792/PT 7 ΕΡ 1 288 792/PT outra A Fig. 2 ilustra esquematicamente uma concretização do presente invento. A Fig. 3 ilustra esquematicamente ainda uma outra concretização do presente invento. A Fig. 4 ilustra esquematicamente a indexação de documentos.FIG. 2 schematically illustrates one embodiment of the present invention. FIG. Fig. 3 schematically illustrates yet another embodiment of the present invention. Fig. 4 schematically illustrates the indexing of documents.

Descrição detalhada 0 presente invento vai agora ser explicado por meio de concretizações ilustrativas em ligação com os desenhos anexos. A Fig. 1 ilustra uma primeira concretização de acordo com o presente invento. Assume-se que existe um conjunto de documentos que não estão estruturados (apenas documentos de texto normais) e os quais, em conformidade, são difíceis de consultar, aceder e trazer os mesmos para uma espécie de forma ordenada.Detailed Description The present invention will now be explained by means of illustrative embodiments in connection with the accompanying drawings. Fig. 1 shows a first embodiment in accordance with the present invention. It is assumed that there is a set of documents that are not structured (only normal text documents) and which, accordingly, are difficult to access, access and bring them to a kind in an orderly manner.

Vamos assumir além do mais que o utilizador está interessado nesses documentos do escrutínio de documentos base que: a) contêm um termo certo; e b) nos quais o certo termo tem um certo &quot;significado&quot;, isto é, nos quais o certo termo pertence a uma certa categoria que está relacionada com o significado do termo para um ser humano. Como exemplo, vamos assumir que um utilizador está interessado nesses documentos do escrutínio de documentos base que contêm o termo &quot;6 de Maio 6 de 2000&quot;, mas adicionalmente, em que o termo (ou elemento) &quot;6 de Maio de 2000&quot; é uma data de factura.Let us further assume that the user is interested in these document documents scrutiny of base documents that: a) contain a certain term; and b) in which the term has a certain &quot; meaning &quot;, that is, in which the term belongs to a certain category which is related to the meaning of the term for a human being. As an example, we will assume that a user is interested in these scrutiny documents of base documents that contain the term &quot; May 6, 2000 &quot; but additionally, the term (or element) &quot; May 6, 2000 &quot; is an invoice date.

Em primeiro lugar, um utilizador tem então de introduzir o termo de pesquisa dentro do computador ao utilizar qualquer método de introdução convencional. Além do mais, o &quot;significado&quot; correspondente que o termo de pesquisa introduzido deve ter também tem de ser de uma certa maneira transportado para o sistema do computador. O utilizador pode quer introduzir manualmente o &quot;significado&quot; correspondente (tal como ao introduzir a &quot;data de factura&quot;), quer 8First, a user must then enter the search term into the computer using any conventional input method. What's more, the &quot; meaning &quot; correspondent that the search term introduced must have also has to be in a certain way transported to the computer system. The user may either manually enter the &quot; meaning &quot; (such as entering the &quot; invoice date &quot;), either 8

ΕΡ 1 288 792/PT seleccionar a partir de uma variedade de &quot;significados&quot; opcionais, ou o &quot;significado&quot; correspondente pode ser pré-definido para um valor implícito. Depois do termo de pesquisa e do &quot;significado&quot; correspondente terem sido clarificados pela operação 100 na Fig. 1, o método prossegue para a operação 110. Ali, o escrutínio de documentos base é pesquisado por aqueles documentos que contêm o termo de pesquisa introduzido.ΕΡ 1 288 792 / PT select from a variety of &quot; meanings &quot; optional, or the &quot; meaning &quot; can be preset to an implied value. After the search term and the &quot; meaning &quot; the method proceeds to step 110. There, scrutiny of base documents is searched for those documents which contain the entered search term.

Isto irá recuperar quaisquer documentos que contêm o elemento &quot;6 de Maio de 2000&quot;. Contudo, os documentos recuperados também podem conter aqueles documentos onde o termo de pesquisa tem um &quot;significado&quot; diferente do &quot;significado&quot; de &quot;data de factura&quot;, por exemplo, o &quot;significado&quot; pode ser a &quot;data de nascimento&quot;, &quot;data de expiração&quot; ou qualquer outra coisa.This will retrieve any documents that contain the &quot; May 6, 2000 &quot; element. However, retrieved documents may also contain those documents where the search term has a &quot; meaning &quot; other than the &quot; meaning &quot; of &quot; invoice date &quot;, for example, the &quot; meaning &quot; can be the &quot; date of birth &quot;, &quot; &quot; expiry date &quot; or anything else.

Por conseguinte, na operação 120 tem de ser avaliado se os documentos encontrados são documentos nos quais o termo de pesquisa tem o significado correspondente desejado ou não.Therefore, in step 120, it has to be evaluated whether the documents found are documents in which the search term has the desired desired meaning or not.

Este procedimento de avaliação vai agora ser explicado em maior detalhe em ligação com a Fig. 2. Na operação 200 é gerado um documento de texto que codifica as posições dos elementos que envolvem o termo de pesquisa no documento base encontrado. Isto é explicado em grande detalhe no Pedido de Patente Europeu 00103810.8, apresentado em 23 de Fevereiro de 2000, pelo requerente do presente pedido, e publicado como EP 1 128 278 AI. Em particular, este pedido lida com e descreve um método que pode ser utilizado para julgar se certos elementos num texto têm um certo &quot;significado&quot; ou não. Isto é feito ao representar as suas posições correspondentes através de um chamado &quot;documento de formatação&quot;, e este documento de formatação é então introduzido num aparelho de classificação que foi treinado para reconhecer se o documento de formatação introduzido pertence a uma certa categoria ou não. O treino é usualmente realizado de modo a permitir que o aparelho de classificação julgue se o documento de formatação representa a área envolvente de um termo de pesquisa para aqueles documentos onde o termo de pesquisa tem qualquer &quot;significado&quot; desejado (ou treinado) ou não. Para detalhes, é 9 ΕΡ 1 288 792/ΡΤ feita referência ao Pedido de Patente Europeu acima mencionado, isto é, ο ΕΡ 1 128 278 AI.This evaluation procedure will now be explained in more detail in connection with Fig. 2. At step 200 a text document is generated which encodes the positions of the elements that surround the search term in the found base document. This is explained in great detail in European Patent Application 00103810.8, filed February 23, 2000, by the applicant of the present application, and published as EP 1 128 278 AI. In particular, this request deals with and describes a method that can be used to judge whether certain elements in a text have a certain &quot; meaning &quot; or not. This is done by representing their corresponding positions through a &quot; format document &quot;, and this formatting document is then entered into a classification apparatus which has been trained to recognize whether the formatting document entered belongs to a certain category or not . The training is usually done in a way that allows the classification apparatus to judge whether the formatting document represents the surrounding area of a search term for those documents where the search term has any &quot; meaning &quot; desired (or trained) or not. For the details, reference is made to the above-mentioned European Patent Application, that is, δ ΕΡ 1 128 278 AI.

Este documento de formatação (ou como o chamamos aqui, documento de texto) é então utilizado como uma entrada para dentro de um aparelho de classificação tal como ilustrado na operação 210 da Fig. 2 do presente pedido. Este aparelho de classificação julga então se o documento de texto introduzido pertence a uma certa &quot;categoria&quot; ou não. A &quot;categoria&quot; aqui significa que ou o termo de pesquisa tem o certo &quot;significado&quot; ou não tem (aqui: é uma data de factura ou não é) .This formatting document (or as we call it here, text document) is then used as an input into a sorting apparatus as illustrated in step 210 of Fig. 2 of the present application. This sorting machine then judges whether the text document entered belongs to a certain &quot; category &quot; or not. &Quot; category &quot; here means that either the search term has the right &quot; meaning &quot; or does not have (here: it's an invoice date or it's not).

Na operação 220 o aparelho de classificação realiza então o seu julgamento quanto ao termo de pesquisa ter o &quot;significado&quot; introduzido (ou desejado) ou não. Um aparelho de classificação particularmente adequado está descrito no Pedido de Patente Europeu 99108354.4, o qual foi apresentado pelo requerente do presente pedido em 28 de Abril de 1999 e foi publicado como ΕΡ 1 049 030 AI. Em particular, quaisquer detalhes relacionados com o aparelho de classificação descrito ou mencionado aqui podem ser tomados a partir deste pedido.At step 220 the sorting apparatus then makes its judgment as to the search term having the &quot; meaning &quot; introduced (or desired) or not. A particularly suitable classification apparatus is described in European Patent Application 99108354.4, which was presented by the applicant of the present application on 28 April 1999 and was published as ΕΡ 1 049 030 AI. In particular, any details relating to the classification apparatus described or mentioned herein may be taken from this application.

Contudo, também pode ser utilizado qualquer outro aparelho de classificação que tenha capacidade para avaliar documentos de texto quanto aos mesmos pertencerem a uma certa categoria ou não e que seja treinável. É claro que em primeiro lugar o aparelho de classificação tem de ser treinado ao utilizar uma certa amostra de treino e, depois disso, os documentos base acabados de encontrar podem ser introduzidos no aparelho de classificação e avaliados desse modo quanto ao termo de pesquisa ter ou não um certo &quot;significado&quot;.However, any other classification apparatus capable of evaluating text documents may also be used to belong to a certain category or not and to be trainable. It is clear that firstly the classification apparatus has to be trained by using a certain training sample and after that the newly found base documents can be entered into the classification apparatus and evaluated in this way as to the search term to have or not a certain &quot; meaning &quot;.

Deve ser notado mais uma vez que uma descrição detalhada do processo para extrair elementos dos documentos de texto que têm um &quot;significado&quot; desejado encontra-se descrito no EP 1 128 278 AI anteriormente mencionado. Além do mais, as particularidades referentes a como uma representação da área circundante de um elemento candidato por meio de um documento de formatação que é então alimentado para um aparelho de 10It should again be noted that a detailed description of the process for extracting elements from text documents that have a &quot; meaning &quot; is described in the aforementioned EP 1 128 278 AI. Furthermore, the particularities relating to as a representation of the surrounding area of a candidate element by means of a formatting document which is then fed to an apparatus of 10

ΕΡ 1 288 792/PT classificação treinável para julgar se o elemento candidato tem na realidade o &quot;significado&quot; desejado estão ali descritas em detalhe.ΕΡ 1 288 792 / EN to judge whether the candidate element actually has the &quot; meaning &quot; are described in detail therein.

Uma outra concretização do presente invento, que se refere à geração automática de qualquer índice, é agora explicada em ligação com a Fig. 3. Na operação 300, o certo &quot;significado&quot; que os elementos dos documentos base devem ter é definido ou seleccionado tal como já explicado antes.A further embodiment of the present invention, which relates to automatic generation of any index, is now explained in connection with Fig. 3. In step 300, the &quot; meaning &quot; which the elements of the base documents must have is defined or selected as already explained above.

Então, tal como já foi também explicado, para que os elementos sejam verificados é gerado o documento de texto (ou documento de formatação).Then, as already explained, for the elements to be checked, the text document (or formatting document) is generated.

Estes documentos de texto podem então ser introduzidos dentro de um aparelho de classificação já treinado na operação 320. Este aparelho de classificação na operação 330 verifica então se os elementos a serem verificados têm o certo &quot;significado&quot; definido ou seleccionado.These text documents may then be entered into a classification apparatus already trained in step 320. This step-up apparatus at step 330 then verifies whether the elements to be scanned have the certain &quot; meaning &quot; defined or selected.

Se a avaliação resultar num &quot;sim&quot;, então na operação 340 o elemento assim avaliado é utilizado para construir um índice em conjunto com o significado definido ou seleccionado. Se a resposta na operação 330 for &quot;não&quot;, então na operação 350 os elementos verificados são rejeitados ou, por outras palavras, os mesmos não são utilizados para construir o índice.If the evaluation results in a &quot; yes &quot;, then at step 340 the element thus evaluated is used to construct an index together with the defined or selected meaning. If the response in step 330 is &quot; not &quot;, then at step 350 the checked elements are rejected or, in other words, they are not used to construct the index.

Ao utilizar o processo ilustrado na Fig. 3, pode ser realizada uma indexação automática dos documentos.By using the process illustrated in Fig. 3, an automatic document indexing can be performed.

Isto pode ser feito de várias formas. De outro modo, os elementos a serem verificados podem ser todos os elementos que estão contidos nos documentos base individuais. Para cada elemento individual, pode então por exemplo ser verificado se este elemento é uma &quot;data de factura&quot; ou não, por exemplo, ao gerar um documento de formatação correspondente, e depois ao avaliar este documento de formatação através de um aparelho de classificação. É prontamente evidente que esta abordagem é bastante demorada e consumidora de energia de computador, por 11This can be done in several ways. Otherwise, the elements to be checked may be all elements that are contained in the individual base documents. For each individual element, for example, it can be verified whether this element is an &quot; invoice date &quot; or not, for example, by generating a corresponding format document, and then evaluating this format document by means of a classification apparatus. It is readily apparent that this approach is rather time consuming and consuming computer power, for 11

ΕΡ 1 288 792/PT conseguinte, a selecção dos elementos a serem verificados pode ser feita de uma certa maneira inteligente. Por exemplo, apenas aqueles elementos que coincidem com um certo critério de formato podem ser verificados. Com um tal critério de formato pode existir uma compilação dos formatos bem conhecidos que uma data pode assumir, e os elementos são verificados quanto aos mesmos coincidirem com o critério de formato e apenas no caso da carta a verificação final é feita quanto ao elemento assim seleccionado (o que se pode assumir como sendo &quot;data&quot;) ser na realidade uma &quot;data de factura&quot; ou não.Therefore, the selection of the elements to be checked can be done in a certain intelligent way. For example, only those elements that match a certain format criteria can be checked. With such a format criterion there may be a compilation of the well-known formats that a date may assume, and the elements are checked for the same to match the format criterion and only in the case of the letter the final verification is made as to the element so selected (what you can assume to be &quot; date &quot;) is in fact an &quot; invoice date &quot; or not.

Uma outra abordagem pode ser gerar automaticamente os termos de pesquisa que depois são pesquisados nos documentos de base.Another approach may be to automatically generate the search terms that are then searched in the base documents.

Por exemplo, pode ser seleccionada uma certa gama de datas (por exemplo, desde 1 de Janeiro de 2000 a 1 de Janeiro de 2001), e depois todas aquelas datas que ali se encontram entre as mesmas são subsequentemente pesquisadas, por outras palavras, são aplicadas como termos de pesquisa ao escrutínio dos documentos base.For example, a certain range of dates can be selected (for example, from 1 January 2000 to 1 January 2001), and then all those dates therein are subsequently searched, in other words, they are applied as search terms to the scrutiny of base documents.

Para aqueles termos de pesquisa onde se encontrou uma coincidência, o que significa que foi encontrado um documento que contém um termo de pesquisa correspondente, o documento de formatação é então gerado e é verificado se o termo de pesquisa tem o certo &quot;significado&quot; (aqui: data de factura). Então, se assim for, tal como já foi explicado antes, o termo de pesquisa pode ser utilizado para construir um índice.For those search terms where a match was found, which means that a document was found that contains a matching search term, the formatting document is then generated and checked if the search term has the right &quot; meaning &quot; (here: date of invoice). So, if so, as already explained above, the search term can be used to construct an index.

Com esta abordagem nem todos os elementos nos documentos base têm de ser verificados mas, em vez disso, apenas aqueles elementos para os quais a pesquisa deu origem a uma coincidência. A abordagem que na realidade é mais eficiente em termos de energia de computação necessária pode depender das circunstâncias individuais.With this approach not all of the elements in the base documents have to be checked but instead only those elements for which the search gave rise to a match. The approach that is actually more efficient in terms of required computing power may depend on individual circumstances.

Deve estar claro que os exemplos anteriores apenas são exemplos ilustrativos e, como é obvio, o método explicado até 12It should be clear that the foregoing examples are only illustrative examples and, of course, the method explained up to 12

ΕΡ 1 288 792/PT aqui pode também ser aplicado a quaisquer outros &quot;significados&quot; que um certo termo ou elemento deva ter, tal como por exemplo um nome, um nome de rua, um nome de família, um primeiro nome, um nome de cidade ou qualquer outra coisa. 0 significado mais geral que qualquer elemento pode ter em relação a um certo documento no qual está contido pode ser que o elemento apenas &quot;descreva&quot; de alguma forma o documento no qual o mesmo está contido. Por exemplo, o termo &quot;factura&quot; pode estar contido numa factura, além do mais, o mesmo apenas descreve que o documento correspondente é na realidade uma factura. Tais elementos que descrevem todo o teor de um documento podem, como é óbvio, ser utilizados para construir um índice.Here can also be applied to any other &quot; meanings &quot; that a certain term or element should have, such as a name, a street name, a family name, a first name, a city name or something else. The most general meaning that any element may have in relation to a certain document in which it is contained may be that the element only "describes" in some way the document in which it is contained. For example, the term &quot; invoice &quot; may be contained in an invoice, moreover, it only describes that the corresponding document is actually an invoice. Such elements which describe the entire contents of a document can, of course, be used to construct an index.

Numa outra concretização o treino do aparelho de classificação é realizado semi-automaticamente. Por exemplo, um utilizador identifica para cada um de um conjunto de documentos aqueles elementos que têm o certo &quot;significado&quot; desejado tal como, por exemplo, o número de factura. Com base nesta selecção introduzida pelo utilizador, o documento de formatação é então gerado, o qual pode ser utilizado como uma entrada de treino para treinar o aparelho de classificação. Desta maneira, vários documentos de formatação que representam áreas envolventes de elementos que são números de facturas são introduzidos no aparelho de classificação e, deste modo, o aparelho de classificação é treinado (&quot;aprende&quot;) para reconhecer aqueles elementos que são números de facturas e para distinguir os mesmos dos outros elementos que não têm este significado.In another embodiment the training of the sorting apparatus is performed semi-automatically. For example, a user identifies for each of a set of documents those elements that have the right &quot; meaning &quot; such as, for example, the invoice number. Based on this selection entered by the user, the formatting document is then generated, which can be used as a training input to train the classification apparatus. In this way, various formatting documents representing enveloping areas of elements that are invoice numbers are entered into the sorting apparatus and thus the sorting apparatus is trained (&quot; learns &quot;) to recognize those elements which are invoice numbers and to distinguish them from other elements that do not have this meaning.

Numa outra concretização, um tal procedimento de treino pode ser executado de uma maneira totalmente automática. Assumir que existe um conjunto de documentos (por exemplo, a partir de qualquer base de dados já existente) que já estão armazenados, avaliados e classificados na forma de uma base de dados relacional que tem uma coluna de &quot;número de factura&quot; na qual, para cada documento, o número de factura já está armazenado. Depois não existe necessidade de identificar o número de factura manualmente através de um utilizador mas, em vez disso, a informação a partir da base de dados pode ser utilizada para gerar a entrada de treino. A base de dados 13In another embodiment, such a training procedure may be performed in a fully automatic manner. Assume there is a set of documents (for example, from any existing database) that are already stored, evaluated and classified in the form of a relational database that has an &quot; invoice number &quot; in which, for each document, the invoice number is already stored. Then there is no need to manually identify the invoice number through a user, but instead the information from the database can be used to generate the training input. The database 13

ΕΡ 1 288 792/PT proporciona o número de factura a cada documento, podendo então este número ser pesquisado no próprio documento e depois de o mesmo estar localizado com base na área envolvente que envolve o número de factura, é gerado o documento de formatação. Este processo pode ser realizado para cada um dos documentos da base de dados e depois resulta num grande conjunto de documentos de formatação que pode ser utilizado como exemplo de treino para treinar o aparelho de classificação. Deste modo, pode ser realizado um treino totalmente automático sem qualquer necessidade de identificação dos elementos por um utilizador.ΕΡ 1 288 792 / PT provides the invoice number for each document, this number can then be searched in the document itself and after it is located based on the surrounding area that involves the invoice number, the format document is generated. This process can be performed for each of the database documents and then results in a large set of formatting documents that can be used as an example of training to train the classification apparatus. In this way, a fully automatic training can be performed without any need for identification of the elements by a user.

Deve ficar claro para qualquer especialista que este procedimento pode ser realizado não apenas para &quot;números de factura&quot; como para quaisquer outros elementos que tenham um certo &quot;significado&quot; e que já são conhecidos. Este conhecimento acerca dos próprios elementos e o seu &quot;significado&quot; não precisa vir a partir da base de dados, podendo o mesmo também estar armazenado por exemplo numa tabela de folha de cálculo, ou podendo o mesmo até ser escrito em papel na forma de uma tabela que depois pode ser digitalizada. Não interessa de onde vem o conhecimento acerca dos próprios elementos e o seu &quot;significado&quot;, podendo, desde que exista, utilizar-se para automatizar o processo de treino do aparelho de classificação com base neste conhecimento.It should be clear to any expert that this procedure can be performed not only for &quot; invoice numbers &quot; as for any other elements that have a certain &quot; meaning &quot; and which are already known. This knowledge about the elements themselves and their &quot; meaning &quot; does not have to come from the database, it can also be stored for example in a spreadsheet table, or it can even be written on paper in the form of a table which can then be scanned. It does not matter where the knowledge about the elements themselves and their "meaning" comes from, and can, if it exists, be used to automate the training process of the classification apparatus based on this knowledge.

Embora o presente invento tenha sido descrito até aqui por meio de concretizações exemplificativas, tornar-se-á prontamente evidente para o leitor especializado que podem ser realizadas modificações sem nos afastarmos do âmbito do invento tal como definido pelas reivindicações anexas.While the present invention has heretofore been described by exemplary embodiments, it will become readily apparent to the skilled reader that modifications may be made without departing from the scope of the invention as defined by the appended claims.

Lisboa, 2012-02-16Lisbon, 2012-02-16

Claims (9)

ΕΡ 1 288 792/PT 1/3 REIVINDICAÇÕES 1 - Método para recuperar, com base num termo de pesquisa em conjunto com uma certa categoria a que o termo de pesquisa pertence, a partir de um conjunto de documentos base, aqueles documentos base que contêm o referido termo de pesquisa, e em que o referido certo termo de pesquisa pertence à referida certa categoria para permitir a construção de um indice acerca dos referidos documentos recuperados, compreendendo o referido método: pesquisar (110) aqueles documentos base entre o referido conjunto de documentos base que contêm o referido certo termo de pesquisa; - avaliar (120) os documentos base encontrados quanto ao facto de o referido termo de pesquisa contido nos referidos documentos base encontrados, respectivamente, pertencer à referida certa categoria ou não, compreendendo a referida avaliação: gerar (200) um documento de texto para representar os elementos nos documentos base encontrados que envolvem o termo de pesquisa e a posição absoluta ou relativa correspondente dos elementos em relação ao referido termo de pesquisa, codificando os elementos do referido documento de texto as referidas posições absoluta ou relativa dos referidos elementos envolventes; - introduzir (210) o referido documento de texto dentro de um aparelho de classificação treinável, o qual foi treinado para reconhecer se o referido termo de pesquisa num documento de texto introduzido pertence a uma certa categoria ou não, considerando que o referido treino foi realizado com base numa amostra de treino de documentos de texto que foi gerada para documentos de texto nos quais o termo de pesquisa envolvido pelos elementos envolventes pertence à referida certa categoria; e - classificar o referido documento de texto introduzido para julgar (220) se o referido termo de pesquisa pertence à referida certa categoria introduzida ou não; e - indexar uma pluralidade dos referidos documentos base ao utilizar o referido termo de pesquisa e a referida categoria correspondente para construir um indice para os referidos documentos base. ΕΡ 1 288 792/PT 2/3A method for retrieving, based on a search term together with a certain category to which the search term belongs, from a set of base documents, those base documents containing said search term, and wherein said search term belongs to said category to enable the construction of an index about said retrieved documents, said method comprising: (110) searching those base documents between said set of base documents containing the aforementioned search term; - evaluating (120) the base documents found on the fact that said search term contained in said base documents respectively belong to said category or not, said evaluation comprising: generating (200) a text document to represent the elements in the base documents found which involve the search term and the corresponding absolute or relative position of the elements in relation to said search term, the elements of said text document encoding said absolute or relative positions of said surrounding elements; - entering (210) said text document within a trainable classification apparatus, which has been trained to recognize whether said search term in a text document entered belongs to a certain category or not, considering that said training was performed based on a training sample of text documents which has been generated for text documents in which the search term involved by the surrounding elements belongs to the said category; and - classify the said text document introduced to judge (220) whether the said search term belongs to the said certain category introduced or not; and indexing a plurality of said base documents by using said search term and said corresponding category to construct an index for said base documents. ΕΡ 1 288 792 / EN 2/3 2 - Método da reivindicação 1, em que os elementos do referido documento de texto estão a codificar as referidas posições absoluta ou relativa dos referidos elementos envolventes por cadeias de texto correspondentes.The method of claim 1, wherein the elements of said text document are encoding said absolute or relative positions of said surrounding elements by corresponding text strings. 3 - Método da reivindicação 1, que compreende ainda: - repetir os referidos passos de pesquisa, introdução e classificação e indexação para uma pluralidade de termos de pesquisa, sendo os referidos termos de pesquisa qerados automaticamente de acordo com uma regra pré-definida.The method of claim 1, further comprising: - repeating said search, input, and indexing steps for a plurality of search terms, said search terms being automatically queried according to a predefined rule. 4 - Método de uma das reivindicações 1 a 3, em que a referida pesquisa dos referidos documentos base compreende uma pesquisa associativa; e/ou uma pesquisa indefinida com base no referido termo de pesquisa.The method of one of claims 1 to 3, wherein said search of said base documents comprises an associative search; and / or an indefinite search based on said search term. 5 - Método da reivindicação 1, que compreende ainda: - verificar todos os termos de pesquisa dos referidos documentos base; ou verificar apenas aqueles termos de pesquisa dos referidos documentos base que coincidem com um ou mais critérios pré-definidos.The method of claim 1, further comprising: - verifying all search terms of said base documents; or check only those search terms of said base documents that match one or more predefined criteria. 6 - Método da reivindicação 1 ou 5, que compreende ainda: - gerar uma base de dados relacional a partir do termo de pesquisa de índice e a sua categoria correspondente.The method of claim 1 or 5, further comprising: - generating a relational database from the index search term and its corresponding category. 7 - Método de acordo com uma das reivindicações precedentes 1 a 6, que compreende o treino do aparelho de classificação, compreendendo o referido treino: a) procurar documentos base nos quais um termo de pesquisa pertence a uma certa categoria; b) seleccionar o referido termo de pesquisa pelo utilizador; - repetir as operações a) e b) até que um conjunto de documentos base suficiente tenha sido seleccionado para gerar uma amostra de treino; ΕΡ 1 288 792/PT 3/3 gerar os documentos de texto para os respectivos documentos base; - utilizar os referidos documentos de texto gerados como um conjunto de treino para treinar o referido aparelho de classificação ao pôr a funcionar o referido aparelho de classificação no modo de treino.Method according to one of the preceding claims 1 to 6, comprising the training of the classification apparatus, said training comprising: a) searching for base documents in which a search term belongs to a certain category; b) selecting said search term by the user; - repeat operations a) and b) until a sufficient set of base documents has been selected to generate a training sample; ΕΡ 1 288 792 / EN 3/3 provide the text documents for the respective base documents; - using said generated text documents as a training set for training said sorting apparatus by operating said sorting apparatus in the training mode. 8 - Método de acordo com uma das reivindicações precedentes 1 a 6, que compreende o treino do aparelho de classificação, compreendendo o referido treino: - utilizar um conjunto de documentos base para o qual os termos de pesquisa que pertencem à categoria pré-definida desejada já são conhecidos por gerarem automaticamente documentos de texto como amostras de treino para treinar o referido aparelho de classificação.Method according to one of the preceding claims 1 to 6, comprising the training of the classification apparatus, said training comprising: - using a set of base documents for which the search terms belonging to the desired predefined category are already known to automatically generate text documents as training samples to train said classification apparatus. 9 - Programa de computador que compreende um código de programa de computador para permitir que um computador realize um método de acordo com uma das reivindicações precedentes 1 a 8 quando o referido programa está a correr num computador. Lisboa, 2012-02-16A computer program comprising a computer program code for enabling a computer to perform a method according to one of the preceding claims 1 to 8 when said program is running on a computer. Lisbon, 2012-02-16
PT01120429T 2001-08-27 2001-08-27 A method for automatically indexing documents PT1288792E (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP01120429A EP1288792B1 (en) 2001-08-27 2001-08-27 A method for automatically indexing documents

Publications (1)

Publication Number Publication Date
PT1288792E true PT1288792E (en) 2012-02-29

Family

ID=8178421

Family Applications (1)

Application Number Title Priority Date Filing Date
PT01120429T PT1288792E (en) 2001-08-27 2001-08-27 A method for automatically indexing documents

Country Status (10)

Country Link
US (2) US8015198B2 (en)
EP (1) EP1288792B1 (en)
JP (1) JP4860903B2 (en)
AT (1) ATE537507T1 (en)
AU (3) AU2002331728B2 (en)
CA (2) CA2776891C (en)
DK (1) DK1288792T3 (en)
ES (1) ES2375403T3 (en)
PT (1) PT1288792E (en)
WO (1) WO2003019524A1 (en)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1049030A1 (en) 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
DE60005293T2 (en) * 2000-02-23 2004-07-01 Ser Solutions Inc. Method and device for processing electronic documents
EP1182577A1 (en) 2000-08-18 2002-02-27 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Associative memory
US9177828B2 (en) 2011-02-10 2015-11-03 Micron Technology, Inc. External gettering method and device
DK1288792T3 (en) 2001-08-27 2012-04-02 Bdgb Entpr Software Sarl Procedure for automatic indexing of documents
US7860844B2 (en) * 2005-07-15 2010-12-28 Indxit Systems Inc. System and methods for data indexing and processing
US7853595B2 (en) * 2007-01-30 2010-12-14 The Boeing Company Method and apparatus for creating a tool for generating an index for a document
US9213756B2 (en) 2009-11-02 2015-12-15 Harry Urbschat System and method of using dynamic variance networks
US8321357B2 (en) 2009-09-30 2012-11-27 Lapir Gennady Method and system for extraction
US9158833B2 (en) 2009-11-02 2015-10-13 Harry Urbschat System and method for obtaining document information
US9152883B2 (en) 2009-11-02 2015-10-06 Harry Urbschat System and method for increasing the accuracy of optical character recognition (OCR)
US10540426B2 (en) 2011-07-11 2020-01-21 Paper Software LLC System and method for processing document
WO2013009904A1 (en) 2011-07-11 2013-01-17 Paper Software LLC System and method for processing document
WO2013009889A1 (en) * 2011-07-11 2013-01-17 Paper Software LLC System and method for searching a document
AU2012281160B2 (en) 2011-07-11 2017-09-21 Paper Software LLC System and method for processing document
US8996350B1 (en) 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management
US9002102B2 (en) * 2012-12-21 2015-04-07 Hewlett-Packard Development Company, L.P. Generating training documents
US9922037B2 (en) * 2015-01-30 2018-03-20 Splunk Inc. Index time, delimiter based extractions and previewing for use in indexing
US10839149B2 (en) 2016-02-01 2020-11-17 Microsoft Technology Licensing, Llc. Generating templates from user's past documents
US9922022B2 (en) * 2016-02-01 2018-03-20 Microsoft Technology Licensing, Llc. Automatic template generation based on previous documents
US11237847B1 (en) 2019-12-19 2022-02-01 Wells Fargo Bank, N.A. Automated standards-based computing system reconfiguration
US11502905B1 (en) 2019-12-19 2022-11-15 Wells Fargo Bank, N.A. Computing infrastructure standards assay

Family Cites Families (116)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731861A (en) 1983-08-26 1988-03-15 Texas Instruments Incorporated Method of optical character recognition
JPS61204733A (en) 1985-03-07 1986-09-10 Oki Electric Ind Co Ltd Visual field managing system
JPS61217863A (en) * 1985-03-23 1986-09-27 Brother Ind Ltd Electronic dictionary
EP0321493A4 (en) 1986-08-22 1991-11-21 Commonwealth Scientific And Industrial Research Organisation A content-addressable memory system
US4864501A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
EP0398884A4 (en) 1987-10-09 1992-08-12 Nucleus International Corporation A relational database representation with relational database operation capability
EP0320266A3 (en) 1987-12-11 1992-03-11 Hewlett-Packard Company View composition in a data base management system
JPH01277977A (en) 1988-04-28 1989-11-08 Nec Corp Pattern collating device
JPH02186484A (en) 1989-01-12 1990-07-20 Ricoh Co Ltd Learning system for recognition dictionary
US5201047A (en) * 1989-12-21 1993-04-06 International Business Machines Corporation Attribute-based classification and retrieval system
US5344132A (en) * 1990-01-16 1994-09-06 Digital Image Systems Image based document processing and information management system and apparatus
US5191525A (en) 1990-01-16 1993-03-02 Digital Image Systems, Corporation System and method for extraction of data from documents for subsequent processing
FR2660085A1 (en) * 1990-03-20 1991-09-27 Philips Electronique Lab DATA PROCESSING DEVICE AND METHOD FOR SELECTING DATA WORDS CONTAINED IN A DICTIONARY.
JP3329806B2 (en) * 1990-11-09 2002-09-30 株式会社日立製作所 Neural network construction device
JPH04123283U (en) 1991-04-19 1992-11-06 鐘紡株式会社 Unused yarn processing device for knitting machines
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US5245672A (en) * 1992-03-09 1993-09-14 The United States Of America As Represented By The Secretary Of Commerce Object/anti-object neural network segmentation
US5377348A (en) 1992-06-04 1994-12-27 International Business Machines Corporation System for searching a data base by creating a marking matrix in which two dimensional patterns control the search and selection
US5491758A (en) 1993-01-27 1996-02-13 International Business Machines Corporation Automatic handwriting recognition using both static and dynamic parameters
US5649068A (en) * 1993-07-27 1997-07-15 Lucent Technologies Inc. Pattern recognition system using support vectors
GB2281997B (en) 1993-09-20 1997-10-15 Ricoh Kk Method and apparatus for improving a text image by using character regeneration
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5537491A (en) * 1993-11-24 1996-07-16 Xerox Corporation Analyzing an image or other data to obtain a stable number of groups
US5742806A (en) * 1994-01-31 1998-04-21 Sun Microsystems, Inc. Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system
NZ248751A (en) 1994-03-23 1997-11-24 Ryan John Kevin Text analysis and coding
JPH07271916A (en) 1994-03-31 1995-10-20 Suzuki Motor Corp Learning pattern generating device and character recognizing device using the same
US5671333A (en) * 1994-04-07 1997-09-23 Lucent Technologies Inc. Training apparatus and method
US5956419A (en) 1995-04-28 1999-09-21 Xerox Corporation Unsupervised training of character templates using unsegmented samples
US5689620A (en) 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
US5675710A (en) * 1995-06-07 1997-10-07 Lucent Technologies, Inc. Method and apparatus for training a text classifier
JPH096799A (en) 1995-06-19 1997-01-10 Sharp Corp Document sorting device and document retrieving device
AU6849196A (en) * 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US6009196A (en) 1995-11-28 1999-12-28 Xerox Corporation Method for classifying non-running text in an image
US5889886A (en) 1995-11-28 1999-03-30 Xerox Corporation Method and apparatus for detecting running text in an image
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5864855A (en) * 1996-02-26 1999-01-26 The United States Of America As Represented By The Secretary Of The Army Parallel document clustering process
JP2987099B2 (en) 1996-03-27 1999-12-06 株式会社日立国際ビジネス Document creation support system and term dictionary
US5787201A (en) * 1996-04-09 1998-07-28 The United States Of America As Represented By The Secretary Of The Navy High order fractal feature extraction for classification of objects in images
US5937084A (en) 1996-05-22 1999-08-10 Ncr Corporation Knowledge-based document analysis system
US6101515A (en) * 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
US5778362A (en) * 1996-06-21 1998-07-07 Kdl Technologies Limted Method and system for revealing information structures in collections of data items
DE19627472A1 (en) 1996-07-08 1998-01-15 Ser Systeme Ag Database system
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US5745889A (en) 1996-08-09 1998-04-28 Digital Equipment Corporation Method for parsing information of databases records using word-location pairs and metaword-location pairs
AU4495597A (en) * 1996-09-23 1998-04-14 Lowrie Mcintosh Defining a uniform subject classification system incorporating document management/records retention functions
US6275610B1 (en) * 1996-10-16 2001-08-14 Convey Corporation File structure for scanned documents
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
DE19715723A1 (en) 1997-04-15 1998-11-12 Dci Datenbank Fuer Wirtschafts Array method
US6353840B2 (en) * 1997-08-15 2002-03-05 Ricoh Company, Ltd. User-defined search template for extracting information from documents
JPH11184894A (en) * 1997-10-07 1999-07-09 Ricoh Co Ltd Method for extracting logical element and record medium
US6665841B1 (en) 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US5999664A (en) 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
US5987457A (en) 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
JP4116688B2 (en) 1997-12-22 2008-07-09 株式会社日本デジタル研究所 Dictionary learning method and character recognition device
US6289342B1 (en) 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6115708A (en) * 1998-03-04 2000-09-05 Microsoft Corporation Method for refining the initial conditions for clustering with applications to small and large database clustering
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US6324551B1 (en) * 1998-08-31 2001-11-27 Xerox Corporation Self-contained document management based on document properties
US6212532B1 (en) * 1998-10-22 2001-04-03 International Business Machines Corporation Text categorization toolkit
US6574632B2 (en) * 1998-11-18 2003-06-03 Harris Corporation Multiple engine information retrieval and visualization system
JP2000155803A (en) 1998-11-20 2000-06-06 Nec Corp Character reading method and optical character reader
US6189002B1 (en) * 1998-12-14 2001-02-13 Dolphin Search Process and system for retrieval of documents using context-relevant semantic profiles
US6622134B1 (en) * 1999-01-05 2003-09-16 International Business Machines Corporation Method of constructing data classifiers and classifiers constructed according to the method
DE60042165D1 (en) 1999-01-13 2009-06-18 Computer Ass Think Inc SIGNATURE DETECTION SYSTEM AND METHOD
US6477551B1 (en) * 1999-02-16 2002-11-05 International Business Machines Corporation Interactive electronic messaging system
EP1049030A1 (en) * 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
US6629097B1 (en) * 1999-04-28 2003-09-30 Douglas K. Keith Displaying implicit associations among items in loosely-structured data sets
US6611825B1 (en) 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
US6501855B1 (en) 1999-07-20 2002-12-31 Parascript, Llc Manual-search restriction on documents not having an ASCII index
US6785810B1 (en) 1999-08-31 2004-08-31 Espoc, Inc. System and method for providing secure transmission, search, and storage of data
US6453315B1 (en) * 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
US6990238B1 (en) 1999-09-30 2006-01-24 Battelle Memorial Institute Data processing, analysis, and visualization system for use with disparate data types
US6188010B1 (en) * 1999-10-29 2001-02-13 Sony Corporation Music search by melody input
DE19952769B4 (en) * 1999-11-02 2008-07-17 Sap Ag Search engine and method for retrieving information using natural language queries
DE60005293T2 (en) 2000-02-23 2004-07-01 Ser Solutions Inc. Method and device for processing electronic documents
US7149347B1 (en) * 2000-03-02 2006-12-12 Science Applications International Corporation Machine learning of document templates for data extraction
AU2001243443A1 (en) 2000-03-09 2001-09-17 The Web Access, Inc. Method and apparatus for performing a research task by interchangeably utilizinga multitude of search methodologies
US6741724B1 (en) 2000-03-24 2004-05-25 Siemens Dematic Postal Automation, L.P. Method and system for form processing
US20070033252A1 (en) 2000-03-30 2007-02-08 Combest Ricky F Dynamic virtual network and method
JP2001318948A (en) * 2000-05-09 2001-11-16 Hitachi Ltd Method and device for retrieving document and medium having processing program for the method stored thereon
AU2001264928A1 (en) 2000-05-25 2001-12-03 Kanisa Inc. System and method for automatically classifying text
US6895552B1 (en) 2000-05-31 2005-05-17 Ricoh Co., Ltd. Method and an apparatus for visual summarization of documents
US6944340B1 (en) 2000-08-07 2005-09-13 Canon Kabushiki Kaisha Method and apparatus for efficient determination of recognition parameters
EP1182577A1 (en) 2000-08-18 2002-02-27 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Associative memory
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US20020156816A1 (en) 2001-02-13 2002-10-24 Mark Kantrowitz Method and apparatus for learning from user self-corrections, revisions and modifications
US6732090B2 (en) * 2001-08-13 2004-05-04 Xerox Corporation Meta-document management system with user definable personalities
DK1288792T3 (en) 2001-08-27 2012-04-02 Bdgb Entpr Software Sarl Procedure for automatic indexing of documents
ES2391261T3 (en) 2001-11-21 2012-11-22 Werner Voegeli Method and apparatus to retrieve important information
JP4006239B2 (en) 2002-02-21 2007-11-14 株式会社日立製作所 Document search method and search system
GB0308413D0 (en) 2003-04-11 2003-05-21 Enseal Systems Ltd Verification of authenticity of check data
JP4366108B2 (en) 2003-04-30 2009-11-18 キヤノン株式会社 Document search apparatus, document search method, and computer program
JP2005038077A (en) 2003-07-17 2005-02-10 Hitachi Ltd Written data input device
JP2005043977A (en) 2003-07-23 2005-02-17 Hitachi Ltd Method and device for calculating degree of similarity between documents
US7805446B2 (en) 2004-10-12 2010-09-28 Ut-Battelle Llc Agent-based method for distributed clustering of textual information
US20060142993A1 (en) 2004-12-28 2006-06-29 Sony Corporation System and method for utilizing distance measures to perform text classification
US8570586B2 (en) 2005-05-02 2013-10-29 Digimarc Corporation Active images through digital watermarking
US7865018B2 (en) 2005-06-02 2011-01-04 Microsoft Corporation Personalized implicit and explicit character shape adaptation and recognition
US7949714B1 (en) * 2005-12-05 2011-05-24 Google Inc. System and method for targeting advertisements or other information using user geographical information
US7472121B2 (en) 2005-12-15 2008-12-30 International Business Machines Corporation Document comparison using multiple similarity measures
US8090743B2 (en) 2006-04-13 2012-01-03 Lg Electronics Inc. Document management system and method
WO2007149004A1 (en) 2006-06-13 2007-12-27 Freescale Semiconductor, Inc. Methods and apparatus for simulating distributed effects
US7945627B1 (en) 2006-09-28 2011-05-17 Bitdefender IPR Management Ltd. Layout-based electronic communication filtering systems and methods
US7610281B2 (en) 2006-11-29 2009-10-27 Oracle International Corp. Efficient computation of document similarity
US7720721B1 (en) 2006-12-28 2010-05-18 Amazon Technologies, Inc. Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms
US20100325109A1 (en) 2007-02-09 2010-12-23 Agency For Science, Technology And Rearch Keyword classification and determination in language modelling
US8280877B2 (en) 2007-02-22 2012-10-02 Microsoft Corporation Diverse topic phrase extraction
US20080212877A1 (en) 2007-03-04 2008-09-04 John Franco High speed error detection and correction for character recognition
US8049921B2 (en) 2007-04-16 2011-11-01 Bottomline Technologies (De) Inc. System and method for transferring invoice data output of a print job source to an automated data processing system
US20090228777A1 (en) 2007-08-17 2009-09-10 Accupatent, Inc. System and Method for Search
US20090125529A1 (en) 2007-11-12 2009-05-14 Vydiswaran V G Vinod Extracting information based on document structure and characteristics of attributes
AU2008255269A1 (en) 2008-02-05 2009-08-20 Nuix Pty. Ltd. Document comparison method and apparatus
US20090226090A1 (en) 2008-03-06 2009-09-10 Okita Kunio Information processing system, information processing apparatus, information processing method, and storage medium
JP4538507B2 (en) 2008-05-02 2010-09-08 シャープ株式会社 Image collation method, image collation apparatus, image data output processing apparatus, program, and storage medium

Also Published As

Publication number Publication date
CA2776891A1 (en) 2003-03-06
ATE537507T1 (en) 2011-12-15
AU2010249253B2 (en) 2012-09-20
US9141691B2 (en) 2015-09-22
US8015198B2 (en) 2011-09-06
US20090307202A1 (en) 2009-12-10
EP1288792B1 (en) 2011-12-14
JP4860903B2 (en) 2012-01-25
CA2459182C (en) 2012-07-17
EP1288792A1 (en) 2003-03-05
AU2010249253A1 (en) 2011-01-06
CA2776891C (en) 2015-11-17
WO2003019524A1 (en) 2003-03-06
DK1288792T3 (en) 2012-04-02
JP2005501321A (en) 2005-01-13
ES2375403T3 (en) 2012-02-29
US20120078934A1 (en) 2012-03-29
AU2008202535A1 (en) 2008-06-26
CA2459182A1 (en) 2003-03-06
AU2002331728B2 (en) 2008-03-06

Similar Documents

Publication Publication Date Title
PT1288792E (en) A method for automatically indexing documents
JP4976666B2 (en) Phrase identification method in information retrieval system
EP1679625B1 (en) Method and apparatus for structuring documents based on layout, content and collection
JP4944406B2 (en) How to generate document descriptions based on phrases
US7814102B2 (en) Method and system for linking documents with multiple topics to related documents
JP4944405B2 (en) Phrase-based indexing method in information retrieval system
JP5175005B2 (en) Phrase-based search method in information search system
CN109271477A (en) A kind of method and system by internet building taxonomy library
EP1669896A2 (en) A machine learning system for extracting structured records from web pages and other text sources
AU2002331728A1 (en) A method for automatically indexing documents
KR100800460B1 (en) System and method for retrieving/classifying web ontology
EA003743B1 (en) Computer automated system for management of engineering drawings
CN110956271B (en) Multi-stage classification method and device for mass data
CN111475464B (en) Method for automatically finding and mining fingerprints of Web component
Shestakov On building a search interface discovery system
Plum et al. Large-scale data harvesting for biographical data
Dejean Extracting structured data from unstructured document with incomplete resources
Souza et al. ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF
WO2014061846A1 (en) Method for generating index for processing mixed query, method for processing mixed query, and recording medium for recording index material structure
AU2012258320B2 (en) A method for automatically indexing documents
CN111324711B (en) Post timeliness judging method and device and storage medium
CN109933707B (en) Topic corpus construction method and system based on search engine
Mir et al. Web-prospector–An automatic, site-wide wrapper induction approach for scientific deep-web databases
JP4769379B2 (en) Document search device
CN117494805A (en) Measurement data knowledge graph construction platform