PT1288792E - A method for automatically indexing documents - Google Patents
A method for automatically indexing documents Download PDFInfo
- Publication number
- PT1288792E PT1288792E PT01120429T PT01120429T PT1288792E PT 1288792 E PT1288792 E PT 1288792E PT 01120429 T PT01120429 T PT 01120429T PT 01120429 T PT01120429 T PT 01120429T PT 1288792 E PT1288792 E PT 1288792E
- Authority
- PT
- Portugal
- Prior art keywords
- documents
- search term
- quot
- search
- training
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mechanical Operated Clutches (AREA)
Abstract
Description
ΕΡ 1 288 792/PT DESCRIÇÃO "Método para indexar automaticamente documentos"ΕΡ 1 288 792 / EN DESCRIPTION " Method for automatically indexing documents "
Campo do invento 0 presente invento refere-se ao processamento de documentos de texto e, em particular, à indexação automática de documentos de texto.FIELD OF THE INVENTION The present invention relates to the processing of text documents and, in particular, to automatic indexing of text documents.
Antecedentes do inventoBACKGROUND OF THE INVENTION
Uma forma tipica de estruturar grandes volumes de dados de tal modo que os mesmos possam ser facilmente acedidos consiste em indexar os documentos. Isto significa que um documento ou um grupo de documentos é referenciado por um termo de indexação. Uma recolha de tais termos de indexação forma então um índice. Isto é mostrado de forma exemplificativa na Fig. 4.A typical way of structuring large volumes of data in such a way that they can be easily accessed is to index the documents. This means that a document or a group of documents is referenced by an indexing term. A collection of such indexing terms then forms an index. This is shown by way of example in Fig. 4.
Na Fig. 4 os documentos de endereço 410, 420, 430 contêm dados de endereço acerca de pessoas individuais. Os documentos podem ser caracterizados pelos elementos individuais que contêm, sendo um deles o nome de família das pessoas a que os documentos de referem.In Fig. 4 address documents 410, 420, 430 contain address data about individual persons. Documents may be characterized by the individual elements they contain, one of which is the family name of the persons to whom the documents refer.
Esta informação pode então ser utilizada para construir um índice 440 mostrado no lado esquerdo da Fig. 4. Este índice contém a lista dos nomes de família que estão contidos nos documentos, e cada um dos elementos das referências de índice um documento individual tal como pode ser visto a partir da Fig. 4.This information can then be used to construct an index 440 shown on the left side of Fig. 4. This index contains the list of family names that are contained in the documents, and each of the elements of the index references an individual document such as may be seen from Fig. 4.
Esta é uma forma muito clássica e típica de organizar informação de uma maneira estruturada, de tal modo que a informação desejada ou os documentos desejados que contêm uma peça de informação pesquisada ou desejada possa ser recuperada e acedida a partir de um grande volume de documentos.This is a very classic and typical way of organizing information in a structured way, so that the desired information or desired documents containing a researched or desired piece of information can be retrieved and accessed from a large volume of documents.
Os índices podem ser construídos para vários elementos tais como o nome de família, o primeiro nome, o nome da rua, 2 ΕΡ 1 288 792/ΡΤ etc. Aquilo que os índices têm em comum é que os elementos de um índice, todos de uma certa forma, têm o mesmo "significado", tal como o "nome de família", "primeiro nome" ou semelhantes. Utilizando uma terminologia mais rigorosa pode dizer-se que os referidos índices pertencem a uma categoria comum respectiva que está relacionada com um certo significado para um ser humano. Naquilo que se segue os termos, "que tem um certo significado" e "pertencendo a uma certa categoria" são utilizados sinonimicamente.The indexes can be constructed for various elements such as family name, first name, street name, 2 ΕΡ 1 288 792 / ΡΤ etc. What the indexes have in common is that elements of an index, all in a certain way, have the same " meaning " such as " family name ", " first " or the like. By using more stringent terminology it can be said that said indices belong to a respective common category which is related to a certain meaning for a human being. In what follows the terms, " which has a certain meaning " and " belonging to a certain category " are used synonymously.
Por conseguinte, os elementos individuais que são utilizados para construir um índice estão um tanto consistentes em relação à informação que os mesmos contêm quando vistos a partir de um nível mais abstracto. Por outras palavras, todos os elementos do índice têm o mesmo "significado".Therefore, the individual elements that are used to construct an index are somewhat consistent with the information they contain when viewed from a more abstract level. In other words, all elements of the index have the same " meaning ".
Uma outra abordagem mais geral para ordenar os documentos consiste apenas em caracterizar um ou mais documentos por um certo termo e depois construir um índice a partir dos termos individuais assim utilizados. Num caso destes, os elementos de índice não têm de ter um "significado" consistente, muito embora se possa considerar que eles têm todos o mesmo significado no sentido em que cada um dos elementos caracteriza ou descreve o um ou mais documentos que referencia.Another more general approach to sorting documents is simply to characterize one or more documents by a certain term and then construct an index from the individual terms thus used. In this case, the index elements do not have to have a " meaning " consistent though they may be considered to have all the same meaning in the sense that each of the elements characterizes or describes the one or more documents that reference.
Depois de um índice ter sido construído, o mesmo pode ser utilizado para consultar e aceder ao conjunto de documentos ordenado ou estruturado pelo índice assim construído. Qualquer um pode introduzir directamente um termo de pesquisa e, se estiver contido no índice, então o documento ou os documentos referenciados pelo termo de índice são recuperados. Uma outra possibilidade consiste em "navegar" no índice, o que significa exibir os elementos individuais de índice numa certa ordem (tipicamente a alfabética), tal como mostrado no elemento 440 da Fig. 4. Isto tem a vantagem de um utilizador poder supervisionar rapidamente que elementos de índice são utilizados no total para organizar ou "indexar" o conjunto de documentos. 3Once an index has been constructed, it can be used to query and access the set of documents ordered or structured by the index thus constructed. Anyone can enter a search term directly, and if it is contained in the index, then the document or documents referenced by the index term are retrieved. Another possibility is to " navigate " in the index, which means displaying the individual index elements in a certain (typically alphabetical) order as shown in element 440 of Fig. 4. This has the advantage that a user can quickly monitor which index elements are used in the total to organize or " index " the set of documents. 3
ΕΡ 1 288 792/PTΕΡ 1 288 792 / EN
Uma outra abordagem um tanto sofisticada consiste na utilização de uma chamada pesquisa tolerante a falhas, o que significa que um termo de pesquisa é introduzido e esses documentos são recuperados onde o valor de índice correspondente é idêntico ou pelo menos similar (numa certa extensão, dependendo do algoritmo de pesquisa tolerante a falhas utilizado) ao termo de pesquisa.Another rather sophisticated approach is to use a so-called fault-tolerant search, which means that a search term is entered and these documents are retrieved where the corresponding index value is identical or at least similar (to a certain extent depending of the fault-tolerant search algorithm used) to the search term.
Em qualquer dos casos, construir um índice é um trabalho muito difícil e entediante, sendo um trabalho de preparação que tem de ser feito de modo a que se torne aceitável aceder a grandes conjuntos de documentos de uma maneira ordenada e com significado.In any case, building an index is a very difficult and tedious job, and preparation work has to be done in such a way that it becomes acceptable to access large sets of documents in an orderly and meaningful way.
Tipicamente os índices são criados "manualmente", pelo menos no caso dos documentos a serem indexados estarem "não estruturados", tais como documentos de texto claros. Se os documentos a serem indexados estiverem "estruturados", tal como no caso de tabelas de bases de dados relacionais, é então relativamente fácil construir um índice. Contudo, se não se souber que "significado" individual um elemento tem num documento não estruturado, então é extremamente difícil e incómodo seleccionar elementos que possam ser utilizados para indexar este documento. "FREITAG D: 'Information extraction from HTML: application of a general machine learning approach' "PROCEEDINGS FIFTEENTH NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-98)"". "TENTH CONFERENCE ON INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE, PROCEEDINGS OF THE FIFTEENTH NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE", MADISON, WI, USA, páginas 517-523, XP002197239 1998, Menlo Park, CA, USA, AAAI Press/MIT Press, USA ISBN: 0-262-51098-7 descreve um método para realizar extracção de informação a partir de páginas da rede. A extracção de informação é posta em causa como um problema de aprendizagem de máquina normalizada e é descrita a implementação de um meio de aprendizagem relacional de finalidade geral para extracção de informação.Typically indexes are created " manually ", at least in case the documents to be indexed are " unstructured " such as clear text documents. If the documents to be indexed are " structured ", as in the case of relational database tables, then it is relatively easy to construct an index. However, if it is not known that " meaning " an element has in an unstructured document, then it is extremely difficult and cumbersome to select elements that can be used to index this document. " FREITAG D: 'Information extraction from HTML: application of a general machine learning approach' " PROCEEDINGS FIFTEENTH NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-98) ". "TENTH CONFERENCE ON INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE, PROCEEDINGS OF THE FIFTEENTH NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE", MADISON, WI, USA, pages 517-523, XP002197239 1998, Menlo Park, CA, USA, AAAI Press / MIT Press, USA ISBN: 0-262-51098-7 describes a method for extracting information from web pages. Information extraction is called into question as a standardized machine learning problem and the implementation of a general purpose relational learning medium for extracting information is described.
Consequentemente, é altamente desejável melhorar o processamento de documentos de indexação. 4Accordingly, it is highly desirable to improve the processing of indexing documents. 4
ΕΡ 1 288 792/PTΕΡ 1 288 792 / EN
Sumário do inventoSUMMARY OF THE INVENTION
De acordo com a primeira concretização do presente invento é proporcionado um método para recuperar certos documentos a partir de um conjunto de documentos com base num termo de pesquisa introduzido assim como com base no "significado" correspondente do termo de pesquisa, tal como definido na reivindicação 1. Em primeiro lugar, aqueles documentos são pesquisados, os quais contêm o termo de pesquisa. Depois disso, os documentos encontrados (chamados documentos base) deverão ser avaliados quanto ao facto de saber se nesses documentos o termo de pesquisa ali contido tem um certo significado. Esta avaliação compreende a geração de um documento de texto (ou formatação) que representa o termo de pesquisa e os seus elementos envolventes e a sua posição absoluta ou relativa correspondente em relação ao termo de pesquisa ou dentro do documento base. Este documento de texto é então introduzido num aparelho de classificação treinável que foi treinado para julgar se o documento de texto introduzido pertence a uma certa categoria ou não. 0 julgamento tem deste modo de determinar se o termo de pesquisa tem o certo "significado" desejado (isto é, o documento de texto pertence à categoria treinada) ou se não tem (o documento não pertence à categoria treinada).According to the first embodiment of the present invention there is provided a method for retrieving certain documents from a set of documents based on a search term introduced as well as based on the " meaning " corresponding to the search term as defined in claim 1. First, those documents are searched, which contain the search term. After that, the documents found (called base documents) should be evaluated as to whether in these documents the search term contained therein has a certain meaning. This evaluation comprises the generation of a text document (or formatting) that represents the search term and its surrounding elements and its absolute or relative position corresponding to the search term or within the base document. This text document is then entered into a trainable classification apparatus that has been trained to judge whether the text document entered belongs to a certain category or not. The judgment thus has to determine whether the search term has the right " meaning " (ie the text document belongs to the trained category) or if it does not (the document does not belong to the trained category).
Com base neste julgamento pode ser verificado se nos documentos de base encontrados os termos procurados têm o certo "significado" desejado.Based on this judgment can be verified if in the base documents found the searched terms have the right " meaning " wanted.
Os termos de pesquisa e os significados correspondentes podem ser utilizados para construir um índice para os documentos de base. Isto pode então ser útil para aceder a grandes pilhas de documentos base de uma maneira ordenada.The search terms and corresponding meanings can be used to construct an index for the base documents. This can then be useful for accessing large stacks of base documents in an orderly manner.
De acordo com uma concretização particular os referidos passos de pesquisa, classificação e indexação são repetidos para uma pluralidade de termos de pesquisa. Se isto for realizado para cada um dos documentos base, então para cada documento pode ser determinado o valor individual correspondente que tem um certo "significado" e estando contido neste documento. Por exemplo, para todos os 5According to a particular embodiment said search, sort and indexation steps are repeated for a plurality of search terms. If this is done for each of the base documents, then for each document the corresponding individual value that has a certain " meaning " and is contained herein. For example, for all 5
ΕΡ 1 288 792/PT documentos base de um escrutínio de cartas a data de despacho pode ser determinada ou "extraída" e os elementos assim extraídos em conjunto com o significado da "data de despacho" podem ser utilizados para formar um índice que referencia o conjunto de documentos base. Se isto for realizado para vários "significados" diferentes, tais como o destinatário, o endereço de origem, o número de referência e por aí adiante, então também pode ser gerada uma base de dados relacional que faz um mapeamento do "teor de informação" do conjunto de documentos nas tabelas de base de dados relacionais.The basic documents of a scrutiny of letters on the dispatch date can be determined or "withdrawn" and the elements thus extracted together with the meaning of " dispatch date " can be used to form an index that references the set of base documents. If this is done for several " meanings " such as the recipient, the source address, the reference number, and so on, then a relational database can also be generated which maps the " information content " of the set of documents in the relational database tables.
De acordo com uma outra concretização, a pesquisa realizada pode compreender uma pesquisa associativa e/ou uma pesquisa indefinida. Isto devolverá também documentos nos quais os termos de pesquisa estão mal escritos ou os quais contêm quaisquer outros erros de dactilografia. 0 treino do aparelho de classificação pode ser realizado ao seleccionar o conjunto de documentos de treino, elementos aqueles que nos respectivos documentos têm um certo "significado", gerando depois os documentos de texto para os respectivos documentos base da amostra de treino, e utilizando depois os documentos de texto assim gerados como um conjunto de treino para treinar o aparelho de classificação ao pôr a funcionar o aparelho de classificação no modo de treino.According to another embodiment, the search carried out may comprise an associative search and / or an indefinite search. This will also return documents in which the search terms are misspelled or contain any other typing errors. The training of the classification apparatus can be performed by selecting the set of training documents, elements that in the respective documents have a certain meaning and then generating the text documents for the respective training sample base documents and using then the text documents thus generated as a training set to train the sorting apparatus when operating the sorting apparatus in training mode.
Ao utilizar esta abordagem, um aparelho de classificação que utiliza apenas uma pequena amostra de documentos de treino pode, na realidade, "aprender" a avaliar se, para certos documentos base, alguns elementos ali contidos têm um certo significado ou não. Este "conhecimento" assim treinado pode então mais tarde ser utilizado para construir um índice baseado no certo "significado" que os elementos de índice devem ter. 0 processo de treino pode ser feito quer semi-automaticamente quer numa outra concretização de uma maneira totalmente automatizada. Para o treino semi-automático um utilizador tem de identificar nos documentos base aqueles elementos que têm o "significado" desejado que deverá ser aprendido ou treinado. Depois da identificação ter tido 6 ΕΡ 1 288 792/ΡΤ lugar, a amostra de treino é proporcionada e o treino pode ser realizado.By using this approach, a classification apparatus that uses only a small sample of training documents may actually " learn " to assess whether certain elements contained therein have a certain meaning or not for certain base documents. This " knowledge " so trained can then be later used to construct an index based on the right " meaning " that index elements should have. The training process may be done either semi-automatically or in another embodiment in a fully automated manner. For semi-automatic training a user has to identify in the base documents those elements that have " meaning " desired to be learned or trained. Once the identification has been given, the training sample is provided and the training can be performed.
Para realizar um treino totalmente automático pode utilizar-se um conjunto de documentos (tais como os documentos de uma base de dados que já existe) para os quais os elementos que têm o "significado" desejado já se conhecem, por exemplo, como campos na base de dados. Esta carga de documentos para os quais os elementos que têm o "significado" desejado já são conhecidos podem depois ser utilizados como as amostras de treino.To perform a fully automatic training, you can use a set of documents (such as documents from a database that already exists) for which the elements that have the " meaning " are already known, for example, as fields in the database. This load of documents for which the elements that have the " meaning " are known may then be used as the training samples.
Um conjunto de documentos base pode ser automaticamente indexado ao verificar todos os elementos (ou pelo menos uma parte dos mesmos) contidos nos documentos base de conjunto quer esses elementos tenham um certo "significado" ou não. Com esta abordagem "à pressão" um conjunto de documentos base pode ser totalmente indexado automaticamente, sem sequer realizar qualquer pesquisa. Nesta concretização quase todos os elementos dos documentos base são verificados quanto aos mesmos terem um certo significado desejado e, se assim for, então esses elementos são utilizados para construir o índice.A set of base documents can be automatically indexed by checking all the elements (or at least a part thereof) contained in the base set documents, whether those elements have a certain " meaning " or not. With this approach " at " a set of base documents can be fully indexed automatically, without even performing any search. In this embodiment almost all the elements of the base documents are checked for their having a certain desired meaning and, if so, then those elements are used to construct the index.
Contudo, a selecção dos elementos para os quais a verificação real é realizada pode conter alguma "selecção inteligente". Por exemplo, apenas aqueles elementos que vão ao encontro do mesmo critério de formato podem ser seleccionados para o procedimento de avaliação. Isto pode então reduzir a energia de computação necessária para realizar a indexação automática.However, the selection of elements for which the actual check is performed may contain some " smart selection ". For example, only those elements that meet the same format criteria can be selected for the evaluation procedure. This can then reduce the computing power required to perform automatic indexing.
Para obter vantagem, o um ou mais índices que foram construídos podem ser utilizados para formar tabelas de bases de dados relacionais. Então, os documentos base não estruturados podem ser convertidos automaticamente numa forma estruturada de uma base de dados relacional.To gain advantage, the one or more indexes that have been constructed can be used to form tables of relational databases. Then unstructured base documents can be automatically converted into a structured form of a relational database.
Breve descrição dos desenhos A Fig. 1 ilustra esquematicamente a primeira concretização do presente invento. 7BRIEF DESCRIPTION OF THE DRAWINGS Fig. 1 schematically illustrates the first embodiment of the present invention. 7
ΕΡ 1 288 792/PT 7 ΕΡ 1 288 792/PT outra A Fig. 2 ilustra esquematicamente uma concretização do presente invento. A Fig. 3 ilustra esquematicamente ainda uma outra concretização do presente invento. A Fig. 4 ilustra esquematicamente a indexação de documentos.FIG. 2 schematically illustrates one embodiment of the present invention. FIG. Fig. 3 schematically illustrates yet another embodiment of the present invention. Fig. 4 schematically illustrates the indexing of documents.
Descrição detalhada 0 presente invento vai agora ser explicado por meio de concretizações ilustrativas em ligação com os desenhos anexos. A Fig. 1 ilustra uma primeira concretização de acordo com o presente invento. Assume-se que existe um conjunto de documentos que não estão estruturados (apenas documentos de texto normais) e os quais, em conformidade, são difíceis de consultar, aceder e trazer os mesmos para uma espécie de forma ordenada.Detailed Description The present invention will now be explained by means of illustrative embodiments in connection with the accompanying drawings. Fig. 1 shows a first embodiment in accordance with the present invention. It is assumed that there is a set of documents that are not structured (only normal text documents) and which, accordingly, are difficult to access, access and bring them to a kind in an orderly manner.
Vamos assumir além do mais que o utilizador está interessado nesses documentos do escrutínio de documentos base que: a) contêm um termo certo; e b) nos quais o certo termo tem um certo "significado", isto é, nos quais o certo termo pertence a uma certa categoria que está relacionada com o significado do termo para um ser humano. Como exemplo, vamos assumir que um utilizador está interessado nesses documentos do escrutínio de documentos base que contêm o termo "6 de Maio 6 de 2000", mas adicionalmente, em que o termo (ou elemento) "6 de Maio de 2000" é uma data de factura.Let us further assume that the user is interested in these document documents scrutiny of base documents that: a) contain a certain term; and b) in which the term has a certain " meaning ", that is, in which the term belongs to a certain category which is related to the meaning of the term for a human being. As an example, we will assume that a user is interested in these scrutiny documents of base documents that contain the term " May 6, 2000 " but additionally, the term (or element) " May 6, 2000 " is an invoice date.
Em primeiro lugar, um utilizador tem então de introduzir o termo de pesquisa dentro do computador ao utilizar qualquer método de introdução convencional. Além do mais, o "significado" correspondente que o termo de pesquisa introduzido deve ter também tem de ser de uma certa maneira transportado para o sistema do computador. O utilizador pode quer introduzir manualmente o "significado" correspondente (tal como ao introduzir a "data de factura"), quer 8First, a user must then enter the search term into the computer using any conventional input method. What's more, the " meaning " correspondent that the search term introduced must have also has to be in a certain way transported to the computer system. The user may either manually enter the " meaning " (such as entering the " invoice date "), either 8
ΕΡ 1 288 792/PT seleccionar a partir de uma variedade de "significados" opcionais, ou o "significado" correspondente pode ser pré-definido para um valor implícito. Depois do termo de pesquisa e do "significado" correspondente terem sido clarificados pela operação 100 na Fig. 1, o método prossegue para a operação 110. Ali, o escrutínio de documentos base é pesquisado por aqueles documentos que contêm o termo de pesquisa introduzido.ΕΡ 1 288 792 / PT select from a variety of " meanings " optional, or the " meaning " can be preset to an implied value. After the search term and the " meaning " the method proceeds to step 110. There, scrutiny of base documents is searched for those documents which contain the entered search term.
Isto irá recuperar quaisquer documentos que contêm o elemento "6 de Maio de 2000". Contudo, os documentos recuperados também podem conter aqueles documentos onde o termo de pesquisa tem um "significado" diferente do "significado" de "data de factura", por exemplo, o "significado" pode ser a "data de nascimento", "data de expiração" ou qualquer outra coisa.This will retrieve any documents that contain the " May 6, 2000 " element. However, retrieved documents may also contain those documents where the search term has a " meaning " other than the " meaning " of " invoice date ", for example, the " meaning " can be the " date of birth ", " " expiry date " or anything else.
Por conseguinte, na operação 120 tem de ser avaliado se os documentos encontrados são documentos nos quais o termo de pesquisa tem o significado correspondente desejado ou não.Therefore, in step 120, it has to be evaluated whether the documents found are documents in which the search term has the desired desired meaning or not.
Este procedimento de avaliação vai agora ser explicado em maior detalhe em ligação com a Fig. 2. Na operação 200 é gerado um documento de texto que codifica as posições dos elementos que envolvem o termo de pesquisa no documento base encontrado. Isto é explicado em grande detalhe no Pedido de Patente Europeu 00103810.8, apresentado em 23 de Fevereiro de 2000, pelo requerente do presente pedido, e publicado como EP 1 128 278 AI. Em particular, este pedido lida com e descreve um método que pode ser utilizado para julgar se certos elementos num texto têm um certo "significado" ou não. Isto é feito ao representar as suas posições correspondentes através de um chamado "documento de formatação", e este documento de formatação é então introduzido num aparelho de classificação que foi treinado para reconhecer se o documento de formatação introduzido pertence a uma certa categoria ou não. O treino é usualmente realizado de modo a permitir que o aparelho de classificação julgue se o documento de formatação representa a área envolvente de um termo de pesquisa para aqueles documentos onde o termo de pesquisa tem qualquer "significado" desejado (ou treinado) ou não. Para detalhes, é 9 ΕΡ 1 288 792/ΡΤ feita referência ao Pedido de Patente Europeu acima mencionado, isto é, ο ΕΡ 1 128 278 AI.This evaluation procedure will now be explained in more detail in connection with Fig. 2. At step 200 a text document is generated which encodes the positions of the elements that surround the search term in the found base document. This is explained in great detail in European Patent Application 00103810.8, filed February 23, 2000, by the applicant of the present application, and published as EP 1 128 278 AI. In particular, this request deals with and describes a method that can be used to judge whether certain elements in a text have a certain " meaning " or not. This is done by representing their corresponding positions through a " format document ", and this formatting document is then entered into a classification apparatus which has been trained to recognize whether the formatting document entered belongs to a certain category or not . The training is usually done in a way that allows the classification apparatus to judge whether the formatting document represents the surrounding area of a search term for those documents where the search term has any " meaning " desired (or trained) or not. For the details, reference is made to the above-mentioned European Patent Application, that is, δ ΕΡ 1 128 278 AI.
Este documento de formatação (ou como o chamamos aqui, documento de texto) é então utilizado como uma entrada para dentro de um aparelho de classificação tal como ilustrado na operação 210 da Fig. 2 do presente pedido. Este aparelho de classificação julga então se o documento de texto introduzido pertence a uma certa "categoria" ou não. A "categoria" aqui significa que ou o termo de pesquisa tem o certo "significado" ou não tem (aqui: é uma data de factura ou não é) .This formatting document (or as we call it here, text document) is then used as an input into a sorting apparatus as illustrated in step 210 of Fig. 2 of the present application. This sorting machine then judges whether the text document entered belongs to a certain " category " or not. &Quot; category " here means that either the search term has the right " meaning " or does not have (here: it's an invoice date or it's not).
Na operação 220 o aparelho de classificação realiza então o seu julgamento quanto ao termo de pesquisa ter o "significado" introduzido (ou desejado) ou não. Um aparelho de classificação particularmente adequado está descrito no Pedido de Patente Europeu 99108354.4, o qual foi apresentado pelo requerente do presente pedido em 28 de Abril de 1999 e foi publicado como ΕΡ 1 049 030 AI. Em particular, quaisquer detalhes relacionados com o aparelho de classificação descrito ou mencionado aqui podem ser tomados a partir deste pedido.At step 220 the sorting apparatus then makes its judgment as to the search term having the " meaning " introduced (or desired) or not. A particularly suitable classification apparatus is described in European Patent Application 99108354.4, which was presented by the applicant of the present application on 28 April 1999 and was published as ΕΡ 1 049 030 AI. In particular, any details relating to the classification apparatus described or mentioned herein may be taken from this application.
Contudo, também pode ser utilizado qualquer outro aparelho de classificação que tenha capacidade para avaliar documentos de texto quanto aos mesmos pertencerem a uma certa categoria ou não e que seja treinável. É claro que em primeiro lugar o aparelho de classificação tem de ser treinado ao utilizar uma certa amostra de treino e, depois disso, os documentos base acabados de encontrar podem ser introduzidos no aparelho de classificação e avaliados desse modo quanto ao termo de pesquisa ter ou não um certo "significado".However, any other classification apparatus capable of evaluating text documents may also be used to belong to a certain category or not and to be trainable. It is clear that firstly the classification apparatus has to be trained by using a certain training sample and after that the newly found base documents can be entered into the classification apparatus and evaluated in this way as to the search term to have or not a certain " meaning ".
Deve ser notado mais uma vez que uma descrição detalhada do processo para extrair elementos dos documentos de texto que têm um "significado" desejado encontra-se descrito no EP 1 128 278 AI anteriormente mencionado. Além do mais, as particularidades referentes a como uma representação da área circundante de um elemento candidato por meio de um documento de formatação que é então alimentado para um aparelho de 10It should again be noted that a detailed description of the process for extracting elements from text documents that have a " meaning " is described in the aforementioned EP 1 128 278 AI. Furthermore, the particularities relating to as a representation of the surrounding area of a candidate element by means of a formatting document which is then fed to an apparatus of 10
ΕΡ 1 288 792/PT classificação treinável para julgar se o elemento candidato tem na realidade o "significado" desejado estão ali descritas em detalhe.ΕΡ 1 288 792 / EN to judge whether the candidate element actually has the " meaning " are described in detail therein.
Uma outra concretização do presente invento, que se refere à geração automática de qualquer índice, é agora explicada em ligação com a Fig. 3. Na operação 300, o certo "significado" que os elementos dos documentos base devem ter é definido ou seleccionado tal como já explicado antes.A further embodiment of the present invention, which relates to automatic generation of any index, is now explained in connection with Fig. 3. In step 300, the " meaning " which the elements of the base documents must have is defined or selected as already explained above.
Então, tal como já foi também explicado, para que os elementos sejam verificados é gerado o documento de texto (ou documento de formatação).Then, as already explained, for the elements to be checked, the text document (or formatting document) is generated.
Estes documentos de texto podem então ser introduzidos dentro de um aparelho de classificação já treinado na operação 320. Este aparelho de classificação na operação 330 verifica então se os elementos a serem verificados têm o certo "significado" definido ou seleccionado.These text documents may then be entered into a classification apparatus already trained in step 320. This step-up apparatus at step 330 then verifies whether the elements to be scanned have the certain " meaning " defined or selected.
Se a avaliação resultar num "sim", então na operação 340 o elemento assim avaliado é utilizado para construir um índice em conjunto com o significado definido ou seleccionado. Se a resposta na operação 330 for "não", então na operação 350 os elementos verificados são rejeitados ou, por outras palavras, os mesmos não são utilizados para construir o índice.If the evaluation results in a " yes ", then at step 340 the element thus evaluated is used to construct an index together with the defined or selected meaning. If the response in step 330 is " not ", then at step 350 the checked elements are rejected or, in other words, they are not used to construct the index.
Ao utilizar o processo ilustrado na Fig. 3, pode ser realizada uma indexação automática dos documentos.By using the process illustrated in Fig. 3, an automatic document indexing can be performed.
Isto pode ser feito de várias formas. De outro modo, os elementos a serem verificados podem ser todos os elementos que estão contidos nos documentos base individuais. Para cada elemento individual, pode então por exemplo ser verificado se este elemento é uma "data de factura" ou não, por exemplo, ao gerar um documento de formatação correspondente, e depois ao avaliar este documento de formatação através de um aparelho de classificação. É prontamente evidente que esta abordagem é bastante demorada e consumidora de energia de computador, por 11This can be done in several ways. Otherwise, the elements to be checked may be all elements that are contained in the individual base documents. For each individual element, for example, it can be verified whether this element is an " invoice date " or not, for example, by generating a corresponding format document, and then evaluating this format document by means of a classification apparatus. It is readily apparent that this approach is rather time consuming and consuming computer power, for 11
ΕΡ 1 288 792/PT conseguinte, a selecção dos elementos a serem verificados pode ser feita de uma certa maneira inteligente. Por exemplo, apenas aqueles elementos que coincidem com um certo critério de formato podem ser verificados. Com um tal critério de formato pode existir uma compilação dos formatos bem conhecidos que uma data pode assumir, e os elementos são verificados quanto aos mesmos coincidirem com o critério de formato e apenas no caso da carta a verificação final é feita quanto ao elemento assim seleccionado (o que se pode assumir como sendo "data") ser na realidade uma "data de factura" ou não.Therefore, the selection of the elements to be checked can be done in a certain intelligent way. For example, only those elements that match a certain format criteria can be checked. With such a format criterion there may be a compilation of the well-known formats that a date may assume, and the elements are checked for the same to match the format criterion and only in the case of the letter the final verification is made as to the element so selected (what you can assume to be " date ") is in fact an " invoice date " or not.
Uma outra abordagem pode ser gerar automaticamente os termos de pesquisa que depois são pesquisados nos documentos de base.Another approach may be to automatically generate the search terms that are then searched in the base documents.
Por exemplo, pode ser seleccionada uma certa gama de datas (por exemplo, desde 1 de Janeiro de 2000 a 1 de Janeiro de 2001), e depois todas aquelas datas que ali se encontram entre as mesmas são subsequentemente pesquisadas, por outras palavras, são aplicadas como termos de pesquisa ao escrutínio dos documentos base.For example, a certain range of dates can be selected (for example, from 1 January 2000 to 1 January 2001), and then all those dates therein are subsequently searched, in other words, they are applied as search terms to the scrutiny of base documents.
Para aqueles termos de pesquisa onde se encontrou uma coincidência, o que significa que foi encontrado um documento que contém um termo de pesquisa correspondente, o documento de formatação é então gerado e é verificado se o termo de pesquisa tem o certo "significado" (aqui: data de factura). Então, se assim for, tal como já foi explicado antes, o termo de pesquisa pode ser utilizado para construir um índice.For those search terms where a match was found, which means that a document was found that contains a matching search term, the formatting document is then generated and checked if the search term has the right " meaning " (here: date of invoice). So, if so, as already explained above, the search term can be used to construct an index.
Com esta abordagem nem todos os elementos nos documentos base têm de ser verificados mas, em vez disso, apenas aqueles elementos para os quais a pesquisa deu origem a uma coincidência. A abordagem que na realidade é mais eficiente em termos de energia de computação necessária pode depender das circunstâncias individuais.With this approach not all of the elements in the base documents have to be checked but instead only those elements for which the search gave rise to a match. The approach that is actually more efficient in terms of required computing power may depend on individual circumstances.
Deve estar claro que os exemplos anteriores apenas são exemplos ilustrativos e, como é obvio, o método explicado até 12It should be clear that the foregoing examples are only illustrative examples and, of course, the method explained up to 12
ΕΡ 1 288 792/PT aqui pode também ser aplicado a quaisquer outros "significados" que um certo termo ou elemento deva ter, tal como por exemplo um nome, um nome de rua, um nome de família, um primeiro nome, um nome de cidade ou qualquer outra coisa. 0 significado mais geral que qualquer elemento pode ter em relação a um certo documento no qual está contido pode ser que o elemento apenas "descreva" de alguma forma o documento no qual o mesmo está contido. Por exemplo, o termo "factura" pode estar contido numa factura, além do mais, o mesmo apenas descreve que o documento correspondente é na realidade uma factura. Tais elementos que descrevem todo o teor de um documento podem, como é óbvio, ser utilizados para construir um índice.Here can also be applied to any other " meanings " that a certain term or element should have, such as a name, a street name, a family name, a first name, a city name or something else. The most general meaning that any element may have in relation to a certain document in which it is contained may be that the element only "describes" in some way the document in which it is contained. For example, the term " invoice " may be contained in an invoice, moreover, it only describes that the corresponding document is actually an invoice. Such elements which describe the entire contents of a document can, of course, be used to construct an index.
Numa outra concretização o treino do aparelho de classificação é realizado semi-automaticamente. Por exemplo, um utilizador identifica para cada um de um conjunto de documentos aqueles elementos que têm o certo "significado" desejado tal como, por exemplo, o número de factura. Com base nesta selecção introduzida pelo utilizador, o documento de formatação é então gerado, o qual pode ser utilizado como uma entrada de treino para treinar o aparelho de classificação. Desta maneira, vários documentos de formatação que representam áreas envolventes de elementos que são números de facturas são introduzidos no aparelho de classificação e, deste modo, o aparelho de classificação é treinado ("aprende") para reconhecer aqueles elementos que são números de facturas e para distinguir os mesmos dos outros elementos que não têm este significado.In another embodiment the training of the sorting apparatus is performed semi-automatically. For example, a user identifies for each of a set of documents those elements that have the right " meaning " such as, for example, the invoice number. Based on this selection entered by the user, the formatting document is then generated, which can be used as a training input to train the classification apparatus. In this way, various formatting documents representing enveloping areas of elements that are invoice numbers are entered into the sorting apparatus and thus the sorting apparatus is trained (" learns ") to recognize those elements which are invoice numbers and to distinguish them from other elements that do not have this meaning.
Numa outra concretização, um tal procedimento de treino pode ser executado de uma maneira totalmente automática. Assumir que existe um conjunto de documentos (por exemplo, a partir de qualquer base de dados já existente) que já estão armazenados, avaliados e classificados na forma de uma base de dados relacional que tem uma coluna de "número de factura" na qual, para cada documento, o número de factura já está armazenado. Depois não existe necessidade de identificar o número de factura manualmente através de um utilizador mas, em vez disso, a informação a partir da base de dados pode ser utilizada para gerar a entrada de treino. A base de dados 13In another embodiment, such a training procedure may be performed in a fully automatic manner. Assume there is a set of documents (for example, from any existing database) that are already stored, evaluated and classified in the form of a relational database that has an " invoice number " in which, for each document, the invoice number is already stored. Then there is no need to manually identify the invoice number through a user, but instead the information from the database can be used to generate the training input. The database 13
ΕΡ 1 288 792/PT proporciona o número de factura a cada documento, podendo então este número ser pesquisado no próprio documento e depois de o mesmo estar localizado com base na área envolvente que envolve o número de factura, é gerado o documento de formatação. Este processo pode ser realizado para cada um dos documentos da base de dados e depois resulta num grande conjunto de documentos de formatação que pode ser utilizado como exemplo de treino para treinar o aparelho de classificação. Deste modo, pode ser realizado um treino totalmente automático sem qualquer necessidade de identificação dos elementos por um utilizador.ΕΡ 1 288 792 / PT provides the invoice number for each document, this number can then be searched in the document itself and after it is located based on the surrounding area that involves the invoice number, the format document is generated. This process can be performed for each of the database documents and then results in a large set of formatting documents that can be used as an example of training to train the classification apparatus. In this way, a fully automatic training can be performed without any need for identification of the elements by a user.
Deve ficar claro para qualquer especialista que este procedimento pode ser realizado não apenas para "números de factura" como para quaisquer outros elementos que tenham um certo "significado" e que já são conhecidos. Este conhecimento acerca dos próprios elementos e o seu "significado" não precisa vir a partir da base de dados, podendo o mesmo também estar armazenado por exemplo numa tabela de folha de cálculo, ou podendo o mesmo até ser escrito em papel na forma de uma tabela que depois pode ser digitalizada. Não interessa de onde vem o conhecimento acerca dos próprios elementos e o seu "significado", podendo, desde que exista, utilizar-se para automatizar o processo de treino do aparelho de classificação com base neste conhecimento.It should be clear to any expert that this procedure can be performed not only for " invoice numbers " as for any other elements that have a certain " meaning " and which are already known. This knowledge about the elements themselves and their " meaning " does not have to come from the database, it can also be stored for example in a spreadsheet table, or it can even be written on paper in the form of a table which can then be scanned. It does not matter where the knowledge about the elements themselves and their "meaning" comes from, and can, if it exists, be used to automate the training process of the classification apparatus based on this knowledge.
Embora o presente invento tenha sido descrito até aqui por meio de concretizações exemplificativas, tornar-se-á prontamente evidente para o leitor especializado que podem ser realizadas modificações sem nos afastarmos do âmbito do invento tal como definido pelas reivindicações anexas.While the present invention has heretofore been described by exemplary embodiments, it will become readily apparent to the skilled reader that modifications may be made without departing from the scope of the invention as defined by the appended claims.
Lisboa, 2012-02-16Lisbon, 2012-02-16
Claims (9)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01120429A EP1288792B1 (en) | 2001-08-27 | 2001-08-27 | A method for automatically indexing documents |
Publications (1)
Publication Number | Publication Date |
---|---|
PT1288792E true PT1288792E (en) | 2012-02-29 |
Family
ID=8178421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PT01120429T PT1288792E (en) | 2001-08-27 | 2001-08-27 | A method for automatically indexing documents |
Country Status (10)
Country | Link |
---|---|
US (2) | US8015198B2 (en) |
EP (1) | EP1288792B1 (en) |
JP (1) | JP4860903B2 (en) |
AT (1) | ATE537507T1 (en) |
AU (3) | AU2002331728B2 (en) |
CA (2) | CA2776891C (en) |
DK (1) | DK1288792T3 (en) |
ES (1) | ES2375403T3 (en) |
PT (1) | PT1288792E (en) |
WO (1) | WO2003019524A1 (en) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1049030A1 (en) | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
DE60005293T2 (en) * | 2000-02-23 | 2004-07-01 | Ser Solutions Inc. | Method and device for processing electronic documents |
EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
US9177828B2 (en) | 2011-02-10 | 2015-11-03 | Micron Technology, Inc. | External gettering method and device |
DK1288792T3 (en) | 2001-08-27 | 2012-04-02 | Bdgb Entpr Software Sarl | Procedure for automatic indexing of documents |
US7860844B2 (en) * | 2005-07-15 | 2010-12-28 | Indxit Systems Inc. | System and methods for data indexing and processing |
US7853595B2 (en) * | 2007-01-30 | 2010-12-14 | The Boeing Company | Method and apparatus for creating a tool for generating an index for a document |
US9213756B2 (en) | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
US8321357B2 (en) | 2009-09-30 | 2012-11-27 | Lapir Gennady | Method and system for extraction |
US9158833B2 (en) | 2009-11-02 | 2015-10-13 | Harry Urbschat | System and method for obtaining document information |
US9152883B2 (en) | 2009-11-02 | 2015-10-06 | Harry Urbschat | System and method for increasing the accuracy of optical character recognition (OCR) |
US10540426B2 (en) | 2011-07-11 | 2020-01-21 | Paper Software LLC | System and method for processing document |
WO2013009904A1 (en) | 2011-07-11 | 2013-01-17 | Paper Software LLC | System and method for processing document |
WO2013009889A1 (en) * | 2011-07-11 | 2013-01-17 | Paper Software LLC | System and method for searching a document |
AU2012281160B2 (en) | 2011-07-11 | 2017-09-21 | Paper Software LLC | System and method for processing document |
US8996350B1 (en) | 2011-11-02 | 2015-03-31 | Dub Software Group, Inc. | System and method for automatic document management |
US9002102B2 (en) * | 2012-12-21 | 2015-04-07 | Hewlett-Packard Development Company, L.P. | Generating training documents |
US9922037B2 (en) * | 2015-01-30 | 2018-03-20 | Splunk Inc. | Index time, delimiter based extractions and previewing for use in indexing |
US10839149B2 (en) | 2016-02-01 | 2020-11-17 | Microsoft Technology Licensing, Llc. | Generating templates from user's past documents |
US9922022B2 (en) * | 2016-02-01 | 2018-03-20 | Microsoft Technology Licensing, Llc. | Automatic template generation based on previous documents |
US11237847B1 (en) | 2019-12-19 | 2022-02-01 | Wells Fargo Bank, N.A. | Automated standards-based computing system reconfiguration |
US11502905B1 (en) | 2019-12-19 | 2022-11-15 | Wells Fargo Bank, N.A. | Computing infrastructure standards assay |
Family Cites Families (116)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4731861A (en) | 1983-08-26 | 1988-03-15 | Texas Instruments Incorporated | Method of optical character recognition |
JPS61204733A (en) | 1985-03-07 | 1986-09-10 | Oki Electric Ind Co Ltd | Visual field managing system |
JPS61217863A (en) * | 1985-03-23 | 1986-09-27 | Brother Ind Ltd | Electronic dictionary |
EP0321493A4 (en) | 1986-08-22 | 1991-11-21 | Commonwealth Scientific And Industrial Research Organisation | A content-addressable memory system |
US4864501A (en) * | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Word annotation system |
EP0398884A4 (en) | 1987-10-09 | 1992-08-12 | Nucleus International Corporation | A relational database representation with relational database operation capability |
EP0320266A3 (en) | 1987-12-11 | 1992-03-11 | Hewlett-Packard Company | View composition in a data base management system |
JPH01277977A (en) | 1988-04-28 | 1989-11-08 | Nec Corp | Pattern collating device |
JPH02186484A (en) | 1989-01-12 | 1990-07-20 | Ricoh Co Ltd | Learning system for recognition dictionary |
US5201047A (en) * | 1989-12-21 | 1993-04-06 | International Business Machines Corporation | Attribute-based classification and retrieval system |
US5344132A (en) * | 1990-01-16 | 1994-09-06 | Digital Image Systems | Image based document processing and information management system and apparatus |
US5191525A (en) | 1990-01-16 | 1993-03-02 | Digital Image Systems, Corporation | System and method for extraction of data from documents for subsequent processing |
FR2660085A1 (en) * | 1990-03-20 | 1991-09-27 | Philips Electronique Lab | DATA PROCESSING DEVICE AND METHOD FOR SELECTING DATA WORDS CONTAINED IN A DICTIONARY. |
JP3329806B2 (en) * | 1990-11-09 | 2002-09-30 | 株式会社日立製作所 | Neural network construction device |
JPH04123283U (en) | 1991-04-19 | 1992-11-06 | 鐘紡株式会社 | Unused yarn processing device for knitting machines |
US5278980A (en) * | 1991-08-16 | 1994-01-11 | Xerox Corporation | Iterative technique for phrase query formation and an information retrieval system employing same |
US5245672A (en) * | 1992-03-09 | 1993-09-14 | The United States Of America As Represented By The Secretary Of Commerce | Object/anti-object neural network segmentation |
US5377348A (en) | 1992-06-04 | 1994-12-27 | International Business Machines Corporation | System for searching a data base by creating a marking matrix in which two dimensional patterns control the search and selection |
US5491758A (en) | 1993-01-27 | 1996-02-13 | International Business Machines Corporation | Automatic handwriting recognition using both static and dynamic parameters |
US5649068A (en) * | 1993-07-27 | 1997-07-15 | Lucent Technologies Inc. | Pattern recognition system using support vectors |
GB2281997B (en) | 1993-09-20 | 1997-10-15 | Ricoh Kk | Method and apparatus for improving a text image by using character regeneration |
US5619709A (en) * | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
US5537491A (en) * | 1993-11-24 | 1996-07-16 | Xerox Corporation | Analyzing an image or other data to obtain a stable number of groups |
US5742806A (en) * | 1994-01-31 | 1998-04-21 | Sun Microsystems, Inc. | Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system |
NZ248751A (en) | 1994-03-23 | 1997-11-24 | Ryan John Kevin | Text analysis and coding |
JPH07271916A (en) | 1994-03-31 | 1995-10-20 | Suzuki Motor Corp | Learning pattern generating device and character recognizing device using the same |
US5671333A (en) * | 1994-04-07 | 1997-09-23 | Lucent Technologies Inc. | Training apparatus and method |
US5956419A (en) | 1995-04-28 | 1999-09-21 | Xerox Corporation | Unsupervised training of character templates using unsegmented samples |
US5689620A (en) | 1995-04-28 | 1997-11-18 | Xerox Corporation | Automatic training of character templates using a transcription and a two-dimensional image source model |
US5675710A (en) * | 1995-06-07 | 1997-10-07 | Lucent Technologies, Inc. | Method and apparatus for training a text classifier |
JPH096799A (en) | 1995-06-19 | 1997-01-10 | Sharp Corp | Document sorting device and document retrieving device |
AU6849196A (en) * | 1995-08-16 | 1997-03-19 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US6009196A (en) | 1995-11-28 | 1999-12-28 | Xerox Corporation | Method for classifying non-running text in an image |
US5889886A (en) | 1995-11-28 | 1999-03-30 | Xerox Corporation | Method and apparatus for detecting running text in an image |
US6076088A (en) * | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
US5864855A (en) * | 1996-02-26 | 1999-01-26 | The United States Of America As Represented By The Secretary Of The Army | Parallel document clustering process |
JP2987099B2 (en) | 1996-03-27 | 1999-12-06 | 株式会社日立国際ビジネス | Document creation support system and term dictionary |
US5787201A (en) * | 1996-04-09 | 1998-07-28 | The United States Of America As Represented By The Secretary Of The Navy | High order fractal feature extraction for classification of objects in images |
US5937084A (en) | 1996-05-22 | 1999-08-10 | Ncr Corporation | Knowledge-based document analysis system |
US6101515A (en) * | 1996-05-31 | 2000-08-08 | Oracle Corporation | Learning system for classification of terminology |
US5778362A (en) * | 1996-06-21 | 1998-07-07 | Kdl Technologies Limted | Method and system for revealing information structures in collections of data items |
DE19627472A1 (en) | 1996-07-08 | 1998-01-15 | Ser Systeme Ag | Database system |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US5745889A (en) | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Method for parsing information of databases records using word-location pairs and metaword-location pairs |
AU4495597A (en) * | 1996-09-23 | 1998-04-14 | Lowrie Mcintosh | Defining a uniform subject classification system incorporating document management/records retention functions |
US6275610B1 (en) * | 1996-10-16 | 2001-08-14 | Convey Corporation | File structure for scanned documents |
US6327387B1 (en) * | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
DE19715723A1 (en) | 1997-04-15 | 1998-11-12 | Dci Datenbank Fuer Wirtschafts | Array method |
US6353840B2 (en) * | 1997-08-15 | 2002-03-05 | Ricoh Company, Ltd. | User-defined search template for extracting information from documents |
JPH11184894A (en) * | 1997-10-07 | 1999-07-09 | Ricoh Co Ltd | Method for extracting logical element and record medium |
US6665841B1 (en) | 1997-11-14 | 2003-12-16 | Xerox Corporation | Transmission of subsets of layout objects at different resolutions |
US5999664A (en) | 1997-11-14 | 1999-12-07 | Xerox Corporation | System for searching a corpus of document images by user specified document layout components |
US5987457A (en) | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
JP4116688B2 (en) | 1997-12-22 | 2008-07-09 | 株式会社日本デジタル研究所 | Dictionary learning method and character recognition device |
US6289342B1 (en) | 1998-01-05 | 2001-09-11 | Nec Research Institute, Inc. | Autonomous citation indexing and literature browsing using citation context |
US6115708A (en) * | 1998-03-04 | 2000-09-05 | Microsoft Corporation | Method for refining the initial conditions for clustering with applications to small and large database clustering |
US6161130A (en) * | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US6192360B1 (en) * | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
US6243713B1 (en) * | 1998-08-24 | 2001-06-05 | Excalibur Technologies Corp. | Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types |
US6324551B1 (en) * | 1998-08-31 | 2001-11-27 | Xerox Corporation | Self-contained document management based on document properties |
US6212532B1 (en) * | 1998-10-22 | 2001-04-03 | International Business Machines Corporation | Text categorization toolkit |
US6574632B2 (en) * | 1998-11-18 | 2003-06-03 | Harris Corporation | Multiple engine information retrieval and visualization system |
JP2000155803A (en) | 1998-11-20 | 2000-06-06 | Nec Corp | Character reading method and optical character reader |
US6189002B1 (en) * | 1998-12-14 | 2001-02-13 | Dolphin Search | Process and system for retrieval of documents using context-relevant semantic profiles |
US6622134B1 (en) * | 1999-01-05 | 2003-09-16 | International Business Machines Corporation | Method of constructing data classifiers and classifiers constructed according to the method |
DE60042165D1 (en) | 1999-01-13 | 2009-06-18 | Computer Ass Think Inc | SIGNATURE DETECTION SYSTEM AND METHOD |
US6477551B1 (en) * | 1999-02-16 | 2002-11-05 | International Business Machines Corporation | Interactive electronic messaging system |
EP1049030A1 (en) * | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
US6629097B1 (en) * | 1999-04-28 | 2003-09-30 | Douglas K. Keith | Displaying implicit associations among items in loosely-structured data sets |
US6611825B1 (en) | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
US6501855B1 (en) | 1999-07-20 | 2002-12-31 | Parascript, Llc | Manual-search restriction on documents not having an ASCII index |
US6785810B1 (en) | 1999-08-31 | 2004-08-31 | Espoc, Inc. | System and method for providing secure transmission, search, and storage of data |
US6453315B1 (en) * | 1999-09-22 | 2002-09-17 | Applied Semantics, Inc. | Meaning-based information organization and retrieval |
US6990238B1 (en) | 1999-09-30 | 2006-01-24 | Battelle Memorial Institute | Data processing, analysis, and visualization system for use with disparate data types |
US6188010B1 (en) * | 1999-10-29 | 2001-02-13 | Sony Corporation | Music search by melody input |
DE19952769B4 (en) * | 1999-11-02 | 2008-07-17 | Sap Ag | Search engine and method for retrieving information using natural language queries |
DE60005293T2 (en) | 2000-02-23 | 2004-07-01 | Ser Solutions Inc. | Method and device for processing electronic documents |
US7149347B1 (en) * | 2000-03-02 | 2006-12-12 | Science Applications International Corporation | Machine learning of document templates for data extraction |
AU2001243443A1 (en) | 2000-03-09 | 2001-09-17 | The Web Access, Inc. | Method and apparatus for performing a research task by interchangeably utilizinga multitude of search methodologies |
US6741724B1 (en) | 2000-03-24 | 2004-05-25 | Siemens Dematic Postal Automation, L.P. | Method and system for form processing |
US20070033252A1 (en) | 2000-03-30 | 2007-02-08 | Combest Ricky F | Dynamic virtual network and method |
JP2001318948A (en) * | 2000-05-09 | 2001-11-16 | Hitachi Ltd | Method and device for retrieving document and medium having processing program for the method stored thereon |
AU2001264928A1 (en) | 2000-05-25 | 2001-12-03 | Kanisa Inc. | System and method for automatically classifying text |
US6895552B1 (en) | 2000-05-31 | 2005-05-17 | Ricoh Co., Ltd. | Method and an apparatus for visual summarization of documents |
US6944340B1 (en) | 2000-08-07 | 2005-09-13 | Canon Kabushiki Kaisha | Method and apparatus for efficient determination of recognition parameters |
EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US20020156816A1 (en) | 2001-02-13 | 2002-10-24 | Mark Kantrowitz | Method and apparatus for learning from user self-corrections, revisions and modifications |
US6732090B2 (en) * | 2001-08-13 | 2004-05-04 | Xerox Corporation | Meta-document management system with user definable personalities |
DK1288792T3 (en) | 2001-08-27 | 2012-04-02 | Bdgb Entpr Software Sarl | Procedure for automatic indexing of documents |
ES2391261T3 (en) | 2001-11-21 | 2012-11-22 | Werner Voegeli | Method and apparatus to retrieve important information |
JP4006239B2 (en) | 2002-02-21 | 2007-11-14 | 株式会社日立製作所 | Document search method and search system |
GB0308413D0 (en) | 2003-04-11 | 2003-05-21 | Enseal Systems Ltd | Verification of authenticity of check data |
JP4366108B2 (en) | 2003-04-30 | 2009-11-18 | キヤノン株式会社 | Document search apparatus, document search method, and computer program |
JP2005038077A (en) | 2003-07-17 | 2005-02-10 | Hitachi Ltd | Written data input device |
JP2005043977A (en) | 2003-07-23 | 2005-02-17 | Hitachi Ltd | Method and device for calculating degree of similarity between documents |
US7805446B2 (en) | 2004-10-12 | 2010-09-28 | Ut-Battelle Llc | Agent-based method for distributed clustering of textual information |
US20060142993A1 (en) | 2004-12-28 | 2006-06-29 | Sony Corporation | System and method for utilizing distance measures to perform text classification |
US8570586B2 (en) | 2005-05-02 | 2013-10-29 | Digimarc Corporation | Active images through digital watermarking |
US7865018B2 (en) | 2005-06-02 | 2011-01-04 | Microsoft Corporation | Personalized implicit and explicit character shape adaptation and recognition |
US7949714B1 (en) * | 2005-12-05 | 2011-05-24 | Google Inc. | System and method for targeting advertisements or other information using user geographical information |
US7472121B2 (en) | 2005-12-15 | 2008-12-30 | International Business Machines Corporation | Document comparison using multiple similarity measures |
US8090743B2 (en) | 2006-04-13 | 2012-01-03 | Lg Electronics Inc. | Document management system and method |
WO2007149004A1 (en) | 2006-06-13 | 2007-12-27 | Freescale Semiconductor, Inc. | Methods and apparatus for simulating distributed effects |
US7945627B1 (en) | 2006-09-28 | 2011-05-17 | Bitdefender IPR Management Ltd. | Layout-based electronic communication filtering systems and methods |
US7610281B2 (en) | 2006-11-29 | 2009-10-27 | Oracle International Corp. | Efficient computation of document similarity |
US7720721B1 (en) | 2006-12-28 | 2010-05-18 | Amazon Technologies, Inc. | Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms |
US20100325109A1 (en) | 2007-02-09 | 2010-12-23 | Agency For Science, Technology And Rearch | Keyword classification and determination in language modelling |
US8280877B2 (en) | 2007-02-22 | 2012-10-02 | Microsoft Corporation | Diverse topic phrase extraction |
US20080212877A1 (en) | 2007-03-04 | 2008-09-04 | John Franco | High speed error detection and correction for character recognition |
US8049921B2 (en) | 2007-04-16 | 2011-11-01 | Bottomline Technologies (De) Inc. | System and method for transferring invoice data output of a print job source to an automated data processing system |
US20090228777A1 (en) | 2007-08-17 | 2009-09-10 | Accupatent, Inc. | System and Method for Search |
US20090125529A1 (en) | 2007-11-12 | 2009-05-14 | Vydiswaran V G Vinod | Extracting information based on document structure and characteristics of attributes |
AU2008255269A1 (en) | 2008-02-05 | 2009-08-20 | Nuix Pty. Ltd. | Document comparison method and apparatus |
US20090226090A1 (en) | 2008-03-06 | 2009-09-10 | Okita Kunio | Information processing system, information processing apparatus, information processing method, and storage medium |
JP4538507B2 (en) | 2008-05-02 | 2010-09-08 | シャープ株式会社 | Image collation method, image collation apparatus, image data output processing apparatus, program, and storage medium |
-
2001
- 2001-08-27 DK DK01120429.4T patent/DK1288792T3/en active
- 2001-08-27 EP EP01120429A patent/EP1288792B1/en not_active Expired - Lifetime
- 2001-08-27 ES ES01120429T patent/ES2375403T3/en not_active Expired - Lifetime
- 2001-08-27 AT AT01120429T patent/ATE537507T1/en active
- 2001-08-27 PT PT01120429T patent/PT1288792E/en unknown
-
2002
- 2002-08-27 CA CA2776891A patent/CA2776891C/en not_active Expired - Lifetime
- 2002-08-27 WO PCT/US2002/027132 patent/WO2003019524A1/en active Application Filing
- 2002-08-27 AU AU2002331728A patent/AU2002331728B2/en not_active Expired
- 2002-08-27 JP JP2003522903A patent/JP4860903B2/en not_active Expired - Lifetime
- 2002-08-27 CA CA2459182A patent/CA2459182C/en not_active Expired - Lifetime
-
2008
- 2008-04-21 US US12/106,450 patent/US8015198B2/en not_active Expired - Fee Related
- 2008-06-06 AU AU2008202535A patent/AU2008202535A1/en not_active Abandoned
-
2010
- 2010-12-09 AU AU2010249253A patent/AU2010249253B2/en not_active Expired
-
2011
- 2011-07-28 US US13/192,703 patent/US9141691B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CA2776891A1 (en) | 2003-03-06 |
ATE537507T1 (en) | 2011-12-15 |
AU2010249253B2 (en) | 2012-09-20 |
US9141691B2 (en) | 2015-09-22 |
US8015198B2 (en) | 2011-09-06 |
US20090307202A1 (en) | 2009-12-10 |
EP1288792B1 (en) | 2011-12-14 |
JP4860903B2 (en) | 2012-01-25 |
CA2459182C (en) | 2012-07-17 |
EP1288792A1 (en) | 2003-03-05 |
AU2010249253A1 (en) | 2011-01-06 |
CA2776891C (en) | 2015-11-17 |
WO2003019524A1 (en) | 2003-03-06 |
DK1288792T3 (en) | 2012-04-02 |
JP2005501321A (en) | 2005-01-13 |
ES2375403T3 (en) | 2012-02-29 |
US20120078934A1 (en) | 2012-03-29 |
AU2008202535A1 (en) | 2008-06-26 |
CA2459182A1 (en) | 2003-03-06 |
AU2002331728B2 (en) | 2008-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
PT1288792E (en) | A method for automatically indexing documents | |
JP4976666B2 (en) | Phrase identification method in information retrieval system | |
EP1679625B1 (en) | Method and apparatus for structuring documents based on layout, content and collection | |
JP4944406B2 (en) | How to generate document descriptions based on phrases | |
US7814102B2 (en) | Method and system for linking documents with multiple topics to related documents | |
JP4944405B2 (en) | Phrase-based indexing method in information retrieval system | |
JP5175005B2 (en) | Phrase-based search method in information search system | |
CN109271477A (en) | A kind of method and system by internet building taxonomy library | |
EP1669896A2 (en) | A machine learning system for extracting structured records from web pages and other text sources | |
AU2002331728A1 (en) | A method for automatically indexing documents | |
KR100800460B1 (en) | System and method for retrieving/classifying web ontology | |
EA003743B1 (en) | Computer automated system for management of engineering drawings | |
CN110956271B (en) | Multi-stage classification method and device for mass data | |
CN111475464B (en) | Method for automatically finding and mining fingerprints of Web component | |
Shestakov | On building a search interface discovery system | |
Plum et al. | Large-scale data harvesting for biographical data | |
Dejean | Extracting structured data from unstructured document with incomplete resources | |
Souza et al. | ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF | |
WO2014061846A1 (en) | Method for generating index for processing mixed query, method for processing mixed query, and recording medium for recording index material structure | |
AU2012258320B2 (en) | A method for automatically indexing documents | |
CN111324711B (en) | Post timeliness judging method and device and storage medium | |
CN109933707B (en) | Topic corpus construction method and system based on search engine | |
Mir et al. | Web-prospector–An automatic, site-wide wrapper induction approach for scientific deep-web databases | |
JP4769379B2 (en) | Document search device | |
CN117494805A (en) | Measurement data knowledge graph construction platform |