MX2013013347A

MX2013013347A - Sistema y metodo para induccion de envoltorio automatica mediante la aplicacion de filtros.

Info

Publication number: MX2013013347A
Application number: MX2013013347A
Authority: MX
Inventors: Siva Kalyana Pavan Kumar Mallapragada Naga Surya
Original assignee: Homer Tlc Inc
Priority date: 2012-11-14
Filing date: 2013-11-14
Publication date: 2014-09-03
Also published as: US20140136494A1; CA2833355C; CA2833355A1

Abstract

La información de una pluralidad de dominios es automáticamente extraída de acuerdo con una aplicación iterativa de reglas. Se genera una primera regla basándose en una secuencia objetivo. La primera regla comprende a! menos un filtro. Se identifica un dominio de interés y se genera un grupo de entrenamiento utilizando la secuencia objetivo y al menos un documento en el dominio de interés. La primera regla es aplicada a cada documento en el grupo de entrenamiento para obtener uno primero de resultados objetivo. El primer grupo de resultados objetivo se comparan con un grupo deseado de resultados objetivo. Con base en la comparación, se crea una segunda regla y se aplica al grupo de entrenamiento para producir un segundo grupo mejorado de resultados objetivo.

Description

SISTEMA Y METODO PARA INDUCCION DE ENVOLTORIO AUTOMATICA MEDIANTE LA APLICACION DE FILTROS REFERENCIA CRUZADA A SOLICITUDES RELACIONADA Esta solicitud reclama prioridad a la Solicitud Provisional de E.U.A. Serie No. 61/726,155, presentada el 14 de noviembre, 2012 y titilada "SISTEMA Y METODO PARA INDUCCION DE ENVOLTORIO AUTOMATICA", que se incorpora aquí para referencia en su totalidad. Esta solicitud también se refiere a la Solicitud de Patente de E.U.A. comúnmente asignada co-pendiente No. 13/837,961, presentada el 15 de marzo, 2013, y titulada "SISTEMA Y METODO PARA INDUCCION DE ENVOLTORIO AUTOMATICA UTILIZANDO SECUENCIAS OBJETIVO", cuya descripción se incorpora aquí para referencia en su totalidad. Una copia de Solicitud de Patente de E.U.A. No. 13/837,961 se anexa a ésto como Apéndice E.

CAMPO TECNICO La presente descripción se refiere generalmente a la extracción de información y particularmente, a la extracción de información de documentos no estructurados y parcialmente estructurados a través de dominios ilimitados o substancialmente ilimitados.

ANTECEDENTES Frecuentemente es deseable extraer datos que son consistentes a través de un amplio número de páginas web alojadas por varios dominios en la Gran Red Mundial. Estos pueden incluir, por ejemplo, precio, Códigos de Producto Universal (UPC), Números de Parte de Fabricante (MPN), o datos de especificación de producto de páginas de producto; o números telefónicos y direcciones de correo electrónico de páginas web personales.

Este procedimiento puede ser relativamente simple cuando los dominios proporcionan una interfase de programación de aplicación (API) de consulta estandarizada o universal para acceder a la información. Sin embargo, la naturaleza de la Gran Red Mundial es que c ada dominio estructura sus páginas web en su propia forma y no hay forma consistente para extraer información deseada de esas páginas. Un programa que extrae automáticamente información de estas páginas web no estructuradas se llama un "envoltorio", y típicamente necesita configurarse especialmente para cada dominio. Dado que el gran número de dominios web, sin embargo, no es factible escribir un programa separado para extraer información para cada dominio.

Un método inexperto sería examinar manualmente el código de Lenguaje de Marcación de Hipertexto ("HTML") para un dominio web dado y determinar cuáles son las etiquetas para los datos de interés, y programar un algoritmo de búsqueda para buscar las páginas del dominio y sus sub-dominios asociados para la etiqueta y regresar los datos correspondientes. Sin embargo, dado que el número total de dominios web que pueden ser de interés, el gasto de tiempo puede ser prohibitivo.

Intentos previos para generalizar la extracción de información a través de múltiples dominios incluyen STALKER y WEIN. Discusiones adicionales sobre STALKER y WEIN y conceptos relacionados pueden encontrarse en Apéndices A-D que acompañan y que forman parte de esta descripción, y que se incorporan aquí por referencia en su totalidad. Las suposiciones clave subyacentes a estos aspectos pueden ser excesivamente restrictivas para páginas web actuales utilizando las últimas tecnologías web.

Estas soluciones representan el HTML como un árbol, en donde cada etiqueta es un nodo. Navegan en el árbol HTML hacia abajo al nodo en donde se encuentra el término de búsqueda, y registran la trayectoria tomada a través del árbol para alcanzar el nodo. La trayectoria registrada entonces se utiliza para navegar las páginas previamente no vistas para extraer la información en ese nodo.

De esa forma, los métodos de la técnica previa son limitados y/o son dependientes de la página siendo HTML puro. Además, los métodos de la técnica previa son incapaces de manejar HTML sin procesar que puede incluir código JavaScript, Notación de Objeto de JavaScript ("JSON"), y otras páginas web o documentos de contenido no HTML.

BREVE DESCRIPCION DE LA INVENCION Las modalidades aquí descritas pueden extraer información de cualquiera de las páginas parcialmente estructuradas, HTML o más allá. Para propósitos de esta descripción, "parcialmente estructurado" simplemente significa que existe alguna "estructura" en la página, es decir, que no es una colección arbitraria de palabras. La estructura parcial facilita identificar marcadores que ayudan a localizar la secuencia objetivo y ocurren consistentemente a través de las páginas. Las modalidades que extraen información al implementar una fase de entrenamiento para identificar una o más reglas y una fase de aplicación para aplicar la una o más reglas a millones de páginas web. En algunas modalidades, se eligen datos (tales como un precio) para un producto real, se identifican, y se utiliza un filtro iterativo, en donde en cada iteración, se remueven porciones de la página hasta que se obtienen los datos deseados.

Es decir, las modalidades pueden remover iterativamente fragmentos de texto que no contienen la información objetivo de la página dada, hasta que deja la información objetivo. En cada paso, el procedimiento retiene un fragmento más corto que contiene la información objetivo de la página en cada paso, convergiendo con ello al objetivo después de cierto número de pasos. Estos filtros son específicos para la aplicación, y pueden designarse al explotar la estructura interna del documento, y a construir reglas generales que utilizan expresiones regulares. Para páginas web, pueden explotarse etiquetas HTML para la estructura interna del documento. Para texto de lenguaje natural, estos filtros pueden designarse al observar partes de etiquetas de dialogo, o estructuras de oración.

Ventajosamente, pueden aplicarse las modalidades descritas a un gran número arbitrariamente de páginas web para cualquier dominio y con un mínimo de interacción de usuario. El hecho que el algoritmo desacople aprendizaje de la construcción de regla permite el aspecto en manejo de páginas web construidas utilizando las últimas tecnologías al definir filtros apropiados. Además, modalidades según se describieron pueden extraer información objetivo de cualquier tipo de texto parcialmente estructurado. Los documentos subyacentes no necesitan ser páginas web. Algunas modalidades pueden extraer información objetivo de las páginas que contienen una mezcla de lenguajes (por ejemplo, JavaScript, JSON, HTML, YAML, etc.). El aspecto descrito puede ser altamente extensible a una variedad de nuevas gramáticas/estructuras. Esto es posible debido a la separación entre los filtros dependientes de entrada (que dependen de la clase de páginas que se procesan) contra la mecánica de aprendizaje independiente de entrada (como concatenar estos filtros para como refinarlos/generalizarlos, etc.). Además, el aspecto descrito no asume que la información objetivo está contenida por sí misma en una etiqueta HTML.

Estos, y otros aspectos, se apreciarán y entenderán mejor cuando se consideran en conjunto con la siguiente descripción y los dibujos anexos. La siguiente descripción, mientras indica varias modalidades y numerosos detalles específicos de la misma, se proporciona a manera de ilustración y no de limitación. Muchas substituciones, modificaciones, adiciones o redistribuciones pueden realizarse dentro del alcance de esta descripción, que incluye todas tales substituciones, modificaciones, adiciones, o redistribuciones.

DESCRIPCION DE LAS FIGURAS Los dibujos que acompañan y forman parte de esta especificación se incluyen para ilustrar ciertos aspectos de varias modalidades, una impresión más clara de estas modalidades, y de los componentes y operación de sistemas proporcionados con ellos, se volverán más fácilmente evidentes al hacer referencia a las modalidades ilustrativas, y por lo tanto no limitantes ilustradas en los dibujos, en donde números de referencia idénticos designan los mismos componentes. Observar que las características ilustradas en los dibujos no necesariamente están dibujadas a escala.

La Figura 1 ilustra un diagrama lógico que ilustra una estructura de datos que comprende reglas y filtros.

La Figura 2 ilustra una aplicación de regla ilustrativa de acuerdo con modalidades.

La Figura 3 ilustra un diagrama de bloques de una modalidad de una arquitectura en el cual puede utilizarse un sistema de inducción de envoltorio.

La Figura 4 muestra un cuadro de flujo que ilustra la operación de una modalidad.

La Figura 5 muestra un cuadro de flujo que ilustra la operación de una modalidad.

La Figura 6 muestra un diagrama que ilustra estados de regla ilustrativos.

La Figura 7 muestra un diagrama que ilustra esquemáticamente un procedimiento de iteración.

La Figura 8 muestra un diagrama que ilustra la fusión de filtros ilustrativos.

DESCRIPCION DETALLADA Varias características y ventajas de la presente descripción se explican más completamente con referencia a las modalidades no limitantes que se ilustran en los dibujos anexos y se detallan en la siguiente descripción. Las descripciones de materiales de partida bien conocidos, técnicas de procesamiento, componentes y equipos se omiten para no obscurecer necesariamente la presente invención. Sin embargo, se debe entender, que la descripción detallada y los ejemplos específicos, mientras indican modalidades preferidas, se proporcionan a manera de ilustración únicamente y no a manera de limitación. Varias substituciones, modificaciones, adiciones y/o redistribuciones dentro del espíritu y/o alcance del concepto inventivo subyacente se volverán evidentes por aquellos expertos en la técnica a partir de esta descripción. La modalidades aquí discutidas pueden implementarse en instrucciones ejecutables por computadora adecuadas que pueden residir en un medio legible por computadora (por ejemplo, un disco duro (HD)), sistemas de circuitos de hardware o similares, o cualquier combinación.

Antes de discutir modalidades específicas, una breve vista general del contexto de la descripción puede ser útil. La inducción de envoltorio es el procedimiento de envoltorios de aprendizaje dando un número de documentos de entrenamiento como entrada. Aquí, la meta es extraer objetivos predefinidos dados un grupo de documentos, tal como tal como páginas web. Una Entrada puede definirse como {(texto 1, objetivo 1), (texto 2, objetivo 2),..., (texto n, objetivo n)}. Las entradas, entonces son un texto dado (por ejemplo, página web), típicamente un sub-dominio dado de un dominio dado, y un objetivo dado. Una Salida puede definirse como F(subdominio, texto) de manera que F() cuando se aplica a un texto previamente no visto desde el mismo sub-dominio, regresará el objeto de texto (objetivo) de esa página. Es decir, la salida es una función específica de dominio (envoltorio) que, cuando se aplica a páginas en el (sub)dominio, regresará al objetivo dado.

Se observa que, en algunas modalidades, se asume que existe una estructura "consistente" que identifica la ubicación del objeto de interés. Ejemplos de tales propiedades constantes o consistentes incluyen: (a) Estructura vecina (por ejemplo, que es antes y/o después del objetivo), (b) estructura de inclusión (que incluye el objetivo), y (c) Propiedades de Objeto (que es la plantilla que representa el objetivo).

La meta, entonces, es identificar la estructura y codificarla/representarla como una plantilla, por ejemplo, páginas y precio HTML, dirección y número telefónico. Los retos para lograr esta meta pueden incluir los siguientes: (1) Una página puede incluir múltiples casos de secuencia que coinciden con la expresión de interés. Esto significa que una búsqueda basada en expresión regular simple no es suficiente; (2) Pueden utilizarse múltiples plantillas (no distinguibles) en un grupo de páginas web de un dominio. Cada una de estas plantillas necesitaría diferentes reglas para extraer la secuencia objetivo; (3) Como representar varios tipos de filtros; (4) Posibles variaciones de las expresiones objetivo en el documento. Por ejemplo, (A) un objetivo de 19.00 puede ocurrir como 19.000 en el texto, (B) un objetivo de AZ234 puede aparecer como AZ-234, AZ-2-34 etc., (C) una secuencia objetivo de 123456789123 puede aparecer como 0123456789123.

Para atender el problema de múltiples secuencias que coinciden con la plantilla o múltiples ocurrencias de estructura alrededor del objetivo, puede ser necesario identificar una estructura más grande hasta que la estructura se considera única. Esto puede lograrse al seguir un aspecto de filtración. De acuerdo con modalidades, un "filtro" forma el paso fundamental en el procedimiento. Un filtro puede generarse utilizando una variedad de generadores de filtro candidato. Dentro de esta descripción, una "regla" es una concatenación conjuntiva de filtros, que cuando se aplica secuencialmente produce la salida de texto objetivo. Dentro de esta descripción, un "grupo de regla" es una colección disyuntiva de reglas, específicamente para agregar un grupo de reglas seguras de falla que pueden manejar múltiples plantillas indistinguibles.

Más particularmente, como se explicará con mayor detalle a continuación, dentro de esta descripción, un "filtro" es un programa que reduce el texto de entrada en un texto más pequeño al extraer alguna porción de éste, o equivalentemente, eliminando alguna porción de éste. En este caso, el filtro define bloques de construcción que identifican las porciones de páginas que se retienen (o desechan). Una "regla" es una composición de filtros en un orden particular. Una regla aplica los filtros uno después de otro, y reduce la página a un tamaño más pequeño. Un "grupo de regla" es una colección de reglas que pueden aplicarse en una página. El grupo de regla cuando se aplica a una página resulta en un número de salidas que es el mismo que el número de reglas presentes en la página.

Esto se ilustra esquemáticamente en la Figura 1, las relaciones se muestran utilizando 1-1 y 1-M, en donde 1-1 significa uno a uno, y 1-M significa de una a muchas indicaciones. Es decir, cada dominio 100 tiene múltiples sub-dominios 102. Cada sub-dominio 102 tiene un grupo de regla individual 104. Cada grupo de regla 104 tiene múltiples reglas 106 ambas para redundancia y para indicar múltiples plantillas de página en ese sub-dominio. Cada regla 106 es una composición de múltiples filtros 108.

Se muestra la aplicación de una regla ilustrativa 200 en la Figura 2. Más particularmente, la regla 200 incluye tres filtros 202, 204, 206. Las reglas se aplican secuencialmente para extraer un objetivo particular (en este ejemplo, el precio de venta de un artículo de presentación) para un documento tal como una página web. Por ejemplo, como se muestra, el filtro 202 extrae los datos que corresponden al nombre de etiqueta div-artículo de presentación, mientras el filtro 204 extrae datos que corresponde al nombre de etiqueta div = precio. El filtro 206 extrae datos que corresponden a una plantilla (estructura) predeterminada. Como se explicará con mayor detalle a continuación, el resultado de aplicación de la regla puede ser una o más secuencias objetivo o bloques de carácter que pueden procesarse adicionalmente.

Diferentes tipos de filtros se contemplan de acuerdo con conceptos aquí descritos. Para el caso en donde se están procesando documentos HTML para extraer digamos información de precio, los filtros pueden dividirse en dos tipos: aquellos que contienen I a estructura del documento y aquellos que confían en e I contenido. Las reglas basadas en expresión regular, por ejemplo, confían en el contenido de texto del documento, mientras las reglas basadas en HTML similares a aquellas que registran etiquetas de Hojas de Estilo en Cascada ("CSS") o etiquetas HTML que llevan a la expresión objetivo se clasifican bajo reglas estructurales. Analizar el documento y registrar las trayectorias parciales para la expresión objetivo ayuda en el aprendizaje de los filtros estructurales. El Apéndice D, que acompaña y forma parte de esta descripción, además describe filtros de expresión regular de aprendizaje. Los filtros basados en contenido, por otro lado, se aprenden al registrar una parte del contenido de texto alrededor de la expresión objetivo que es consistente y representable.

Cambiando ahora a la Figura 3, se muestra un diagrama de bloques que ilustra un sistema ilustrativo 300 para implementar la inducción de envoltorio de acuerdo con modalidades. El sistema de inducción de envoltorio 320 se acopla a una red tal como Internet 301 y tiene acceso a dominios 310a...310n. Los dominios pueden ser de la forma de www.dominio.com y pueden incluir una pluralidad de sub-dominios de la forma abc.dominio.com o wxy.dominio.com, etc.

El sistema de inducción de envoltorio 320 puede incluir un inductor de envoltorio 350 que implementa un algoritmo de inducción de envoltorio 352 y que almacena datos de entrenamiento 354 y reglas y filtros específicos de dominio 356, como se explicará con mayor detalle a continuación.

El sistema de inducción de envoltorio 320 además puede incluir o estar en comunicación con un rastreador 330 operable para buscar en Internet dominios específicos y los almacena en un almacenamiento de datos sin procesar 340. Los datos de entrenamiento 356 pueden incluir un número predeterminado de páginas web de un sub-dominio particular del almacenamiento de datos sin procesar 340. Los envoltorios generados pueden almacenarse en 360 y la información objetivo deseada, tal como información de producto y precio obtenida al aplicar los envoltorios, puede almacenarse en 370.

Cambiando ahora a la Figura 4, se muestra un cuadro de flujo de nivel alto 400 que ilustra la operación de una modalidad. Como se explicará con mayor detalle a continuación, un rastreador web 330 del sistema 320 puede buscar en Internet 301 a través de dominios ilimitados para datos y almacenarlos en almacenamiento de datos sin procesar 340 (paso 402). En particular, en algunas modalidades, los datos sin procesar pueden comprender páginas de sub-dominios para un dominio en particular.

Un grupo predeterminado de datos de entrenamiento 354 (tal como un precio particular para un producto particular, etc.) entonces se definen utilizando un grupo de páginas (por ejemplo, 10 páginas o menos) del subdominio apuntado (paso 404).

Un grupo de reglas basado en el sub-dominio entonces se desarrolla utilizando los datos de entrenamiento (paso 406), como se explicará con mayor detalle a continuación. El grupo de reglas puede basarse en uno o más candidatos de filtro y utilizar un generador de filtro implementado por el algoritmo de inducción de envoltorio 352.

El grupo de reglas específicas de sub-dominio entonces se aplica a los datos de entrenamiento (en este ejemplo, un grupo de reglas para el sub-dominio) (paso 408). Más específicamente, los filtros en cada regla en el grupo de regla se aplican en secuencia a cada página en el grupo de entrenamiento de páginas del sub-dominio. Las salidas obtenidas pueden ser pos-procesadas dependiendo del estado de regla dado, refinadas iterativamente si es necesario hasta que se obtiene un grupo de reglas adecuado para cada sub-dominio (paso 410). Una vez finalizado, cada grupo de regla puede probarse periódicamente o cuando se desee, y actualizarse si es necesario (paso 412).

El procedimiento de entrenamiento iterativo se ilustra más particularmente con referencia al cuadro de flujo 500 de la Figura 5. Inicialmente, se define una regla o reglas de semilla (paso 502). Éstas típicamente son construcciones lógicas "vacías" diseñadas para iniciar el procedimiento. Además, un objetivo (por ejemplo, el precio de un producto) y una o más páginas del sub-dominio particular se especifican como un grupo de entrenamiento. Las reglas de semilla se aplican a cada página en el grupo de entrenamiento y se recolectan salidas asociadas (paso 504). Como se explicará con mayor detalle a continuación, los filtros candidato entonces se generan al comparar las salidas con el objetivo deseado (paso 506). Es decir, estas salidas se alimentan en los generadores de filtro candidato que generan candidatos que se anexan a las reglas de semilla correspondientes.

Los filtros se aplican a la salida y las reglas candidato generadas de las múltiples páginas de entrenamiento pueden fusionarse (paso 508). Estas reglas fusionadas aumentadas entonces pueden aplicarse en los documentos para verificar su calidad y se etiquetan utilizando un estado de regla, y pueden limpiarse por eliminación si no se desempeña mejor que un umbral manualmente especificado (paso 510). Estas reglas entonces pueden formar las reglas de semilla para la siguiente iteración y el algoritmo se repite desde el paso 502.

Como se observó anteriormente, la generación de regla es un procedimiento iterativo que requiere aplicación de reglas a un grupo de entrenamiento. Es decir, en operación, las reglas son aplicadas a páginas particulares en un sub-dominio y un algoritmo de aprendizaje de regla refine iterativamente la regla basándose en salidas intermedias. Las salidas intermedias obtenidas de las reglas se procesan dependiendo de estados de regla.

Como se explicará en mayor detalle a continuación, cada regla cuando se aplican puede resultar en múltiples salidas del documento. Por ejemplo, si una regla intenta extraer la etiqueta <div nombre = producto> de una página web particular, pueden haber múltiples de tales <div>s presentes en la página. Si el diseñador de página únicamente tiene una etiqueta que tiene un estilo particular asociado con ésta, un resultado individual puede producirse después de la aplicación de la regla. Dependiendo de sí las salidas coinciden exactamente con los productos deseados, y el número de tales salidas encontradas, la regla en cada etapa puede estar en un grupo de múltiples estados.

Es decir, en una etapa dada, la salida de la regla puede ser una secuencia individual o un grupo de múltiples secuencias. Cada secuencia de salida puede ser precisa o imprecisa dependiendo de la calidad de la regla. Cuando existen múltiples secuencias de salida después de aplicación de una regla, la expresión deseada de interés podría ocurrir consistentemente en una posición dada en la lista de salida, o podría variar. Dependiendo del estado de salida, el algoritmo de aprendizaje iterativo puede necesitar continuando para otra iteración o puede declararse que la regla es "buena".

Los posibles estados de una etapa de salida dada se muestran en la Figura 6. En un tiempo dado durante el entrenamiento, una regla puede estar en un estado impreciso 602 o un estado preciso 604. Además, para cada uno de los estados precisos e imprecisos, la regla puede estar en un estado individual 606, estados consistentes múltiples 608, o inconsistentes múltiples 610.

Durante el curso de aprendizaje de envoltorio, la meta es mover la regla hacia el estado preciso individual. Cuando la regla termina en estado preciso individual 612, no hay necesidad de ningún pre-procesamiento adicional. Es decir, cuando una salida individual resulta consistentemente, la regla se declara "buena". Si el resultado es consistente múltiple en una enésima etapa del algoritmo 614, entonces la regla utilizada en la enésima etapa se declara "buena" asumiendo que la regla generará consistentemente la solución deseada en la posición n, si el resultado en la enésima etapa es múltiplo consistentemente, pero con múltiples resultados (imprecisos) 616, entonces la enésima regla de etapa se utiliza con un filtro que corresponde a la plantilla de salida. En otras palabras, cuando la regla es imprecisa, existe una descripción de "plantilla" de la salida deseada que está presente (por ejemplo, UPC es de 12 dígitos de largo, o el precio puede tener potencialmente un $ que lo precede), o puede aplicar un filtro que puede extraer la parte de la secuencia imprecisa que coincide con la plantilla. Todos los otros casos 618, se aplica a la plantilla de salida.

La refinación de regla iterativa y, particularmente, la generación y fusión de regla candidato se muestran esquemáticamente en la Figura 7. Como se muestra, r denota una regla, y r1,s denota la regla 1 en la etapa s. Una regla general en la etapa s se representa como r_s. Partir con un grupo vacío de reglas de semilla. Esos se aplican en los documentos de texto proporcionados como entrada d_i. Cada una de las reglas da una salida y_i para el documento de entrenamiento d_i. Además y_ji denota la salida de aplicar r_j sobre el documento d_i. Las reglas (excepto cuando están vacías) aseguran que la salida resultante en una página es menor que el mismo documento de entrada. Es decir, las reglas filtran el documento al remover fragmentos que corresponden a los filtros definidos en la regla. Asumir que el texto objetivo deseado no se ha regresado idénticamente, entonces analizar fragmentos de salida que se envían entonces a los varios generadores de filtro candidato implementados como una parte del programa de inducción de envoltorio. Estos generadores de regla candidato toman el documento de entrada y "aprenden" una regla de un grupo predefinido de clases de hipótesis.

Por ejemplo, como mostrados en el Cuadro 1 a continuación, están tipos de filtro ilustrativos que pueden utilizarse para generar un filtro. Se observa que puede utilizarse la lista en tipos no limitantes; en cualquier implementación particular, adicional o incluso menos tipos.

CUADRO 1 En operación, un aprendiz de filtro toma un documento de texto (cualquiera de la misma página web o la salida de una etapa previa) y una secuencia de búsqueda (expresión u objetivo de interés), y construye un filtro candidato utilizando uno de los tipos de filtro. Por ejemplo, cuando se procesan documentos HTML, la regla candidato pueden involucrar identificar las etiquetas HTML tal como al extraer la etiqueta que resultará en un documento que contiene el término de búsqueda.

Por ejemplo, un usuario puede examinar manualmente una página web, tal como una página web de minorista, e identificar el precio de un artículo, por ejemplo $12.00. Define "12.00" como la secuencia de búsqueda objetivo, y el aprendiz de filtro aplica uno o más de los tipos de filtro definidos a la página con el objetivo definido.

Muchos de los tipos de filtro no regresarán nada (indicando que los artículos de ese tipo no están presentes en el documento), pero suponer, por ejemplo, que el filtro de atributo CSS regresa a la secuencia por debajo, definiendo la clase CSS ProdPrecio. Asumir que el filtro CSS resultante elige el mismo precio de las páginas de entrenamiento restantes, se define como una regla "buena" (precisa): <html> <cuerpo> <cuadro> <td> <div clase = "ProdPrecio"> 12.00 </div> </td> </cuadro> </cuerpo> </html> Objetivo: 12.00.

Sí, sin embargo, el filtro CSS generado no produce salida o "basura" (es decir, texto extraído utilizado un filtro que no contiene la secuencia de etiqueta objetivo), entonces se declara i mpreciso y se desecha.

Regresando a la Figura 7, la aplicación de la generación de filtro candidato se muestra en (3). En operación, la regla previamente aplicada r1, por ejemplo, se anexa con el filtro(s) recientemente generado f y se aplica a las salidas yi_j. En esta etapa, si la regla o reglas están regresando los resultados consistentes, el procedimiento puede someterse a la siguiente repetición, aplicando la regla recientemente aconsejada de nuevo a los documentos d_i.

En algunas modalidades, una vez que se han identificado reglas actualizadas, puede aplicarse una "fusión inteligente". Es decir, aunque algunas veces las reglas pueden contener información específica de la página que puede no aplicar una página diferente, puede ser posible generalizar una porción de las reglas de manera que puedan aplicarse a la otra página. La fusión inteligente identifica reglas "similares" de diferentes páginas de entrenamiento y las fusiona en una regla individual que trabaja en todas estas páginas.

Un ejemplo para fusión inteligente en un caso específico para extraer información de una etiqueta div HTML, incluyendo reglas y salidas fusionadas, se proporciona en la Figura 8. Más particularmente, mostradas en la Figura 8 están una Etiqueta 1 y una Etiqueta 2 y un Filtro 1 y un Filtro 2. El texto objetivo (12.00 y 13.00) es similar a dentro de un grado o rango predeterminado. (En otras modalidades, el usuario puede definir un rango para el texto objetivo, ya sea individualmente o en combinación con un objetivo único, tal como una UPC). En tal caso, un usuario puede desear definir el texto como el "igual" para la búsqueda de la aplicación de reglas. Por ejemplo, un mismo producto puede tener un precio ligeramente diferente y puede no desear excluir uno a costa del otro.

Por consiguiente, en algunas modalidades, Filtro 1 y Filtro 2 pueden fusionarse utilizando "comodines" predefinidos. Por ejemplo, un filtro fusionado ilustrativo M1 puede utilizar un comodín de asterisco para el atributo "nombre", por ejemplo, un filtro fusionado ilustrativo M1 pueda utilizar un comodín de asterisco para el atributo de "nombre", mientras un filtro fusionado ilustrativo M2 puede utilizar el comodín de barra inversa. En cualquier caso, pueden definirse valores variables del atributo en el filtro.

Aunque la presente descripción ha sido descrita en términos de modalidades específicas, estas modalidades son simplemente ilustrativas, y no restrictivas. La descripción aquí de modalidades ilustradas, incluyen la descripción en el Resumen y Breve Descripción, no pretende ser exhaustiva o limitar la descripción a las formas precisas aquí descritas (y en particular, la inclusión de cualquier modalidad, característica o función particular dentro del Resumen o Breve Descripción no pretende limitar el alcance de la descripción a tales modalidades, características o funciones). Más bien, la descripción pretende describir modalidades, características y funciones ilustrativas con el fin de proporcionar a un experto en la técnica contexto para entender la presente descripción sin limitar la misma a cualquier modalidad, característica o función particularmente descrita, incluyendo cualquier característica o función de modalidad descrita en el Resumen o Breve Descripción. Aunque se describen aquí modalidades específicas para propósitos ilustrativos únicamente, son posibles varias modificaciones equivalentes, como reconocerán y apreciarán aquellos expertos en la técnica relevante. Como se indicó, estas modificaciones pueden hacerse en vista de la descripción anterior de modalidades ilustradas y se van a incluir dentro del espíritu y alcance de la descripción. De esa forma, se pretenden varios cambios y substituciones en las descripciones anteriores, y se apreciará que en algunos ejemplos se emplearán algunas características de modalidades sin un uso correspondiente de otras características sin apartarse del espíritu y alcance como se estableció. Por lo tanto, pueden hacerse muchas modificaciones para adaptar una situación o material particular.

La referencia a través de esta especificación a "una modalidad", "modalidad" o "una modalidad específica" o terminología similar significa que un aspecto, estructura, o característica particular descrita en conexión con la modalidad se incluye al menos en una modalidad y puede no necesariamente estar presente en todas las modalidades. De esa forma, apariciones respectivas de las frases "en una modalidad", "en modalidad", o "en una modalidad específica" o terminología similar en varios lugares a través de esta especificación no necesariamente están haciendo referencia a la misma modalidad. Además, los aspectos, estructuras, o características particulares de cualquier modalidad particular pueden combinarse en cualquier forma adecuada con una o más de otras modalidades, Se entiende que otras variaciones y modificaciones de las modalidades descritas e ilustradas aquí son posibles en vista de las enseñanzas aquí.

En la descripción aquí, se proporcionan numerosos detalles específicos, tal como ejemplos de componentes y/o métodos, para proporcionar un entendimiento completo de modalidades descritas. Un experto en la técnica relevante reconocerá, sin embargo, que una modalidad puede ser capaz de practicarse sin uno o más de los detalles específicos, o con otros aparatos, sistemas, ensambles, métodos, componentes, materiales, partes, y/o similares. En otros casos, estructuras, componentes, sistemas, materiales, u operaciones bien conocidas no se muestran o específicamente describen en detalle para evitar obscurecer aspectos de modalidades. Un experto en la técnica reconocerá que modalidades adicionales se fácilmente entendibles a partir de la descripción.

Las modalidades aquí discutidas pueden implementarse en una computadora, comunicativamente acoplada a una red (por ejemplo, Internet), otra computadora, o en una computadora independiente. Como se conoce por aquellos expertos en la técnica, una computadora adecuada puede incluir una unidad de procesamiento central ("CPU"), al menos una memoria de solo lectura ("ROM"), al menos una memoria de acceso aleatorio ("RAM"), al menos una unidad dura ("HD"), y uno o más dispositivo(s) de entrada/salida ("l/O"). Los dispositivos l/O pueden incluir un teclado, monitor, impresora, dispositivo de señalamiento electrónico (por ejemplo, ratón, seguibola, estilete, almohadilla táctil, etc.) o similares.

La ROM, RAM, y HD son memorias de computadora para almacenar instrucciones ejecutables por computadora que ejecutables por la CPU o capaces de recompilarse o interpretarse para ejecutarse por la CPU. Las instrucciones ejecutables por computadora adecuadas pueden residir en un medio legible por computadora (por ejemplo, RAM, ROM, y/o HD), sistema de circuitos de hardware o similares, o cualquier combinación de los mismos. Dentro de esta descripción, el término "medio legible por computadora" o no está limitado a ROM, RAM, y HD y puede incluir cualquier tipo de medio de almacenamiento de datos que puede leerse por un procesador. Por ejemplo, un medio legible por computadora puede referirse a un cartucho de datos, o cinta magnética de respaldo de datos, disquete flexible, una unidad de memoria flash, una unidad de almacenamiento de datos óptico, una CD-ROM, ROM, RAM, HD, o similares. Los procedimientos aquí descritos pueden implementarse en instrucciones ejecutables por computadora adecuadas que pueden residir en un medio legible por computadora (por ejemplo, un disco, CD-ROM, una memoria, etc.). Alternativamente, las instrucciones ejecutables por computadora pueden almacenarse como componentes de código de software en un arreglo de dispositivo de almacenamiento de acceso directo, cinta magnética, disquete flexible, dispositivo de almacenamiento óptico, u otro medio legible por computadora apropiado o dispositivo de almacenamiento.

Puede utilizarse cualquier lenguaje de programación adecuado, individualmente o en conjunto con otro lenguaje de programación, para implementar las rutinas, métodos o programas de modalidades aquí descritas, incluyendo C, C + + , Java, JavaScript, HTML, o cualquier otro lenguaje de programación o escritura, etc. Pueden utilizarse otras arquitecturas de software/hardware/red. Por ejemplo, las funciones de las modalidades descritas pueden implementarse en una computadora o compartirse/distribuirse entre dos o más computadoras en o a través de una red. Las comunicaciones entre computadoras que ¡mplementan modalidades pueden lograrse utilizando señales electrónicas, ópticas, de radiofrecuencia, u otros métodos y herramientas adecuadas para comunicación en cumplimiento con protocolos de red conocidos.

Pueden emplearse diferentes técnicas de programación tal como orientadas a procedimiento u objeto. Cualquier rutina particular puede ejecutarse en un dispositivo de procesamiento de computadora individual o múltiples dispositivos de procesamiento de computadora, un procesador de computadora individual o múltiples procesadores de computadora. Los datos pueden almacenarse en un medio de almacenamiento individual o distribuirse a través de múltiples medios de almacenamiento, y pueden residir en una base de datos individual o múltiples bases de datos (u otras técnicas de almacenamiento de datos). Aunque los pasos, operaciones o cálculos pueden presentarse en un orden específico, este orden puede cambiar en diferentes modalidades. En algunas modalidades, al grado que se muestran múltiples pasos como secuenciales en esta especificación, puede realizarse alguna combinación de tales pasos en modalidades alternativas al mismo tiempo. La secuencia de las operaciones descrita aquí puede interrumpirse, suspenderse, o de otra forma controlarse por otros procedimientos, tal como un sistema operativo, núcleo, etc. Las rutinas pueden operar en un ambiente de sistema operativo o como rutinas independientes. Funciones, rutinas, métodos, pasos y operaciones aquí descritas pueden realizarse en hardware, software, firmware o cualquier combinación de los mismos.

Las modalidades aquí descritas pueden implementarse en la forma de lógica de control en software o hardware o una combinación de ambos. La lógica de control puede almacenarse en un medio de almacenamiento de información, tal como un medio legible por computadora, como una pluralidad de instrucciones adaptadas para dirigir un dispositivo de procesamiento de información para realizar un grupo de pasos descritos en las varias modalidades. Con base en la descripción y las enseñanzas aquí proporcionadas, un experto en la técnica apreciará otras formas y/o métodos para implementar las modalidades descritas.

También está dentro del espíritu y alcance de la descripción implementar en programación de software o código uno de los pasos, operaciones, métodos, rutinas o porciones de los mismos aquí descritos, en donde tal programación o código de software puede almacenarse en un medio legible por computadora y puede operar por un procesador para permitir a una computadora realizar cualquiera de los pasos, operaciones, métodos, rutinas o porciones de los mismos aquí descritos. Pueden implementarse varias modalidades al utilizar programación o código de software en una o más computadoras digitales de propósito general, al utilizar circuitos integrados específicos de aplicación, dispositivos de lógica programable, arreglos de puerta programable de campo, sistemas químicos, bioquímicos, quantum o nano-diseñados, o componentes y mecanismos pueden utilizarse. En general, las funciones de las varias modalidades pueden lograrse por cualquier medio como se conoce en la técnica. Por ejemplo, pueden utilizarse sistemas distribuidos o de red, componentes y circuitos. En otro ejemplo, la comunicación o transferencia (o de otra forma que se mueve de un lugar a otro) de datos puede ser por cable, inalámbrica, o por cualquier otro medio.

Un "medio legible por computadora" puede ser cualquier medio que puede contener, almacenar, comunicar, propagar, o transportar el programa para usarse por o en conexión con el sistema de ejecución de instrucción, aparato, sistema o dispositivo. El medio legible por computadora puede ser, a manera de ejemplo únicamente pero no de limitación, un sistema electrónico, magnético, óptico, electromagnético, infrarrojo, o semiconductor, aparato, sistema, dispositivo, medio de propagación, o memoria de computadora. Tal medio legible por computadora generalmente debe ser legible por máquina e incluir programación o código de software que puede ser legible por humano (por ejemplo, código de fuente) o legible por máquina (por ejemplo, código de objeto). Ejemplos de medios legibles por computadora no transitorios pueden incluir memorias de acceso aleatorio, memorias de solo lectura, unidades duras, cartuchos de datos, cintas magnéticas, disquetes flexibles, unidades de memoria flash, dispositivos de almacenamiento de datos ópticos, memorias de solo lectura de disco compacto, y otras memorias de computadora apropiadas y dispositivos de almacenamiento de datos. En una modalidad ilustrativa, algunos o todos los componentes de software pueden residir en una computadora de servidor individual o en cualquier combinación de computadoras de servidor separadas. Como puede apreciar un experto en la técnica, un producto de programa de computadora que implementa una modalidad aquí descrita puede comprender uno o más medios legibles por computadora no transitorios que almacenan instrucciones de computadora que se pueden transferir por uno o más procesadores en un ambiente de cómputo.

Un "procesador" incluye cualquier sistema de hardware, mecanismo o componente que procesa datos, señales u otra información. Un procesador puede incluir un sistema con una unidad de procesamiento central de propósito general, múltiples unidades de procesamiento, sistema de circuitos dedicado para lograr funcionalidad, u otros sistemas. El procesamiento no necesita estar limitado a una ubicación geográfica, o tener limitaciones temporales. Por ejemplo, un procesador puede realizar sus funciones en "tiempo real", "fuera de línea", en un "modo de lote", etc. Pueden realizarse porciones de procesamiento en diferentes tiempos y en diferentes ubicaciones, por diferentes sistemas de procesamiento (o los mismos).

También se apreciará que uno o más de los elementos ilustrados en los dibujos/figuras también pueden implementarse en un forma más separada o integrada, o incluso removerse o presentarse como inoperables en ciertos casos, como es útil de acuerdo con una aplicación particular. Adicionalmente, cualquiera de las flechas de señal en los dibujos/figuras debe considerarse únicamente como ilustrativa, y no limitante, a menos que se observe específicamente.

Como se utiliza aquí, los términos "comprende", "que comprende", "incluye", "que incluye", "tiene", "que tiene", o cualquier variación de los mismos, pretenden cubrir una inclusión no exhaustiva. Por ejemplo, un procedimiento, producto, artículo, o aparato que comprende una lista de elementos no necesariamente está limitado únicamente a aquellos elementos si no que pueden incluir otros elementos no expresamente listados o son inherentes a tal procedimiento, procesos, artículo, o aparato.

Además, el término "o" como se utiliza aquí generalmente pretende significar "y/o" a menos que se indique de otra forma. Por ejemplo, se satisface una condición A o B por cualquiera de los siguientes: A es verdadero (o presente) y B es falso (o no presente), A es falso (o no presente) y B es verdadero (o presente), tanto A como B son verdaderos (o presentes). Como se utiliza aquí, incluyendo las reivindicaciones que siguen, un término precedido por "un" o "uno" (y "el" cuando la base de antecedentes es "un" o "uno") incluye tanto singular como plural de tales términos, a menos que se indique claramente dentro de la reivindicación de otra forma (es decir, que la referencia "un" o "uno" claramente indica únicamente el singular o únicamente el plural). También, como se utiliza en la descripción aquí y a través de las reivindicaciones que siguen, el significado de "en" incluye "en" o "sobre" a menos que el contexto claramente lo indique de otra forma.

Claims

REIVINDICACIONES

1. - Un método para extraer automáticamente información de una pluralidad de dominios, el método comprende: generar una primera regla basándose, al menos en parte, en una secuencia objetivo, la primera regla comprendiendo al menos un filtro; identificar un dominio de interés de la pluralidad de dominios; generar un grupo de entrenamiento de la secuencia objetivo y al menos un documento en el dominio de interés; aplicar la primera regla a cada documento en el grupo de entrenamiento para obtener un primer grupo de resultados objetivo; comparar el primer grupo de resultados objetivo con u n grupo deseado de resultados objetivo; y crear una segunda regla basándose en comparar el primer grupo de resultados objetivo con el grupo deseado de resultados objetivo.

2. - El método de acuerdo con la reivindicación 1, que además comprende: aplicar la segunda regla a cada documento en el grupo de entrenamiento para obtener un segundo grupo de resultados objetivo; comparar el segundo grupo de resultados objetivo con el grupo deseado de resultados objetivo; y crear una tercera regla basándose en comparar el segundo grupo de resultados objetivo con el grupo deseado de resultados objetivo.

3. - El método de acuerdo con la reivindicación 1, que además comprende: categorizar la primera regla como precisa o imprecisa basándose en comparar el primer grupo de resultados objetivo con el grupo deseado de resultados objetivo; y agregar al menos otro filtro a la primera regla cuando la primera regla es categorizada como imprecisa.

4. - El método de acuerdo con la reivindicación 2, que además comprende: categorizar la segunda regla como precisa o imprecisa basándose en comparar el segundo grupo de resultados objetivo con el grupo deseado de resultados objetivo; y agregar al menos otro filtro a la segunda regla cuando la segunda regla es categorizada como imprecisa.

5.- El método de acuerdo con la reivindicación 1, en donde crear la segunda regla comprende: agregar al menos otro filtro a la primera regla.

6. - El método de acuerdo con la reivindicación 1, en donde crear la segunda regla comprende: remover al menos un filtro que comprende la primera regla y agregar al menos otro filtro.

7. - El método de acuerdo con la reivindicación 2, en donde crear la tercera regla comprende: agregar al menos otro filtro a la segunda regla.

8.- El método de acuerdo con la reivindicación 2, en donde crear la tercera regla comprende: remover al menos un filtro que comprende la segunda regla y agregar al menos otro filtro.

9. - El método de acuerdo con la reivindicación 1, en donde el primer grupo de resultados objetivo comprende: información HTML sin procesar.

10. - El método de acuerdo con la reivindicación 1, en donde el primer grupo de resultados objetivo comprende: al menos uno del código de JavaScript, Notación de Objeto JavaScript ("JSON"), o información YAML.

11. - El método de acuerdo con la reivindicación 1, en donde el primer grupo de resultados objetivo comprende: información parcialmente estructurada.

12. - Un sistema para construir automáticamente envoltorios a través de una pluralidad de dominios, el sistema comprende: una memoria; y un procesador acoplado a la memoria, el procesador configurado para: generar una primera regla basándose, al menos en parte, en una secuencia objetivo, la primera regla comprende al menos un filtro; identificar un dominio de interés de la pluralidad de dominios; generar un grupo de entrenamiento de la secuencia objetivo y al menos un documento en el dominio de interés; aplicar la primera regla a cada documento en el grupo de entrenamiento para obtener un primer grupo de resultados objetivo; comparar el primer grupo de resultados objetivo a un grupo deseado de resultados objetivo; y crear una segunda regla basándose en comparar el primer grupo de resultados objetivo con el grupo deseado de resultados objetivo.

13. - El sistema de acuerdo con la reivindicación 12, en donde el procesador además está configurado para: aplicar la segunda regla a cada documento en el grupo de entrenamiento para obtener un segundo grupo de resultados objetivo; comparar el segundo grupo de resultados objetivo con el grupo deseado de resultados objetivo; y crear una tercera regla basándose en comparar el segundo grupo de resultados objetivo con el grupo deseado de resultados objetivo.

14. - El sistema de acuerdo con la reivindicación 12, en donde el procesado además está configurado para: categorizar la primera regla como precisa o imprecisa con base en comparar el primer grupo de resultados objetivo con el grupo deseado de resultados objetivo; y agregar al menos otro filtro a la primera regla cuando la primera regla es categorizada como imprecisa.

15. - El sistema de acuerdo con la reivindicación 13, en donde el procesador además está configurado para: categorizar la segunda regla como precisa o imprecisa basándose en comparar el segundo grupo de resultados objetivo con el grupo deseado de resultados objetivo; y agregar al menos otro filtro a la segunda regla cuando la segunda regla es categorizada como imprecisa.

16. - El sistema de acuerdo con la reivindicación 12, en donde el procesador además está configurado para: agregar al menos otro filtro a la primera regla.

17. - El sistema de acuerdo con la reivindicación 12, en donde el procesador además está configurado para: remover al menos un filtro que comprende la primera regla y agregar al menos otro filtro.

18. - El método de acuerdo con la reivindicación 13, en donde el procesador además está configurado para: agregar al menos otro filtro a la segunda regla.

19. - El sistema de acuerdo con la reivindicación 13, en donde el procesador además está configurado para: remover al menos un filtro que comprende la segunda regla y agregar al menos otro filtro.

20.- El sistema de acuerdo con la reivindicación 12, en donde el primer grupo de resultados objetivo comprende: información HTML sin procesar.

21.- El sistema de acuerdo con la reivindicación 12, en donde el primer grupo de resultados objetivo comprende: al menos uno de código de JavaScript, Notación de Objeto JavaScript ("JSON"), o información YAML.

22.- El sistema de acuerdo con la reivindicación 12, en donde el primer grupo de resultados objetivo comprende: información parcialmente estructurada.