MX2009000588A - Optimizacion de extraccion de hecho utilizando acercamiento de etapas multiples. - Google Patents

Optimizacion de extraccion de hecho utilizando acercamiento de etapas multiples.

Info

Publication number
MX2009000588A
MX2009000588A MX2009000588A MX2009000588A MX2009000588A MX 2009000588 A MX2009000588 A MX 2009000588A MX 2009000588 A MX2009000588 A MX 2009000588A MX 2009000588 A MX2009000588 A MX 2009000588A MX 2009000588 A MX2009000588 A MX 2009000588A
Authority
MX
Mexico
Prior art keywords
facts
descriptions
fact
description
search term
Prior art date
Application number
MX2009000588A
Other languages
English (en)
Inventor
Saliha Azzam
Kevin William Humphreys
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of MX2009000588A publication Critical patent/MX2009000588A/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Se extraen hechos de documentos electrónicos al reconocer descripciones de hechos utilizando un cuadro de palabra de hecho para coincidir con palabras de los documentos electrónicos. Las palabras de aquellas descripciones de hechos pueden etiquetarse con la parte de diálogo apropiada. Un análisis más detallado entonces se realiza en aquellas descripciones de hechos, en lugar del documento electrónico completo, y particularmente al texto en la cercanía de las coincidencias de palabra de hechos. El análisis puede involucrar identificar los constituyentes lingüísticos de cada frase y determinar el papel ya sea como sujeto u objeto. Las reglas de exclusión pueden aplicarse para eliminar aquellas frases diferentes a ser parte de hechos, las reglas de exclusión basándose en parte en los constituyentes lingüísticos. Las reglas de marcación pueden aplicarse a las frases restantes, y para aquellas frases que tienen una marca en exceso de un umbral, la parte de oración correspondiente, oración completa, párrafo, u otra porción de documento puede presentarse como representado uno o más hechos.

Description

OPTIMIZACION DE EXTRACCION DE HECHO UTILIZANDO ACERCAMIENTO DE ETAPAS MULTIPLES ANTECEDENTES Los documentos electrónicos pueden contener una mezcla de hechos y opiniones. En todos los tiempos, un lector sólo puede estar interesado en hechos, o puede desear tener los hechos ya identificados. Por ejemplo, un usuario que realiza una búsqueda en línea para información puede desear obtener hechos sobre un tema particular tan rápido y eficientemente como sea posible. Sin embargo, al presentar una lista de páginas web u otros documentos electrónicos que se relacionan con los términos de búsqueda utilizados se requiere que el usuario examine indi idualmente cada página web u otro documento electrónico y distinga los hechos de las opiniones o información subjetiva. Se han hecho intentos para realizar extracción de hecho. Sin embargo, la extracción de hecho exacta puede ser un proceso lento e ineficiente para computadoras de servidor de alta velocidad. Tales intentos de extracción de hecho generalmente aplican un análisis lingüístico a los contenidos completos del documento electrónico para extraer aquellos hechos que puede contener. Cuando se aplica la extracción de hecho a cientos o miles de documentos electrónicos, la cantidad de tiempo necesaria para lograr un resultado puede ser inaceptable.
BREVE DESCRIPCION DE LA INVENCION Las modalidades proporcionan optimización de extracción de hecho el utilizar un acercamiento de etapas múltiples. Los documentos electrónicos se escanean para encontrar descripciones de hecho que probablemente contienen hechos al utilizar un cuadro de mundo de hecho para coincidir con términos dentro de oraciones de los documentos electrónicos para obtener un grupo de descripciones de hecho. Después se puede realizar análisis adicional, que incluye determinar constituyentes lingüísticos, por ejemplo, constituyentes sintácticos y/o semántica, en la cercanía del grupo de descripciones de hecho en lugar del documento completo. Por consiguiente, el tiempo se ahorra al evitar un análisis de léxico complejo y sintáctico del documento completo para cada documento electrónico de interés. Esta breve descripción se proporciona para introducir una selección de conceptos en una forma simplificada que además se describe posteriormente en la descripción detallada. Esta breve descripción no pretende identificar características clave o características esenciales del tema reclamado, ni pretende utilizarse como un auxiliar al determinar el alcance del tema reclamado.
BREVE DESCRIPCION DE LOS DIBUJOS La Figura 1 muestra un ejemplo de un sistema de computadora para implementar modalidades. La Figura 2 muestra un ejemplo de un flujo operacional de una búsqueda que involucra la presentación de hechos que se extrajeron previo a la búsqueda. La Figura 3 muestra un ejemplo de un flujo operacional de una búsqueda que involucra la presentación de hechos que se extrajeron durante la búsqueda. La Figura 4 muestra un ejemplo de un flujo operacional de los múltiples pasos de extracción de hecho. La Figura 5 muestra un ejemplo de un flujo operacional más detallado de los múltiples pasos de extracción de hecho. La Figura 6 muestra un ejemplo de una presentación de pantalla que proporciona resultados de búsqueda que incluyen la presentación de hechos obtenidos de documentos electrónicos descubiertos por la búsqueda.
DESCRIPCION DETALLADA Las modalidades proporcionan extracción de hecho que utilizan múltiples etapas para evitar realizar análisis complejos de los documentos completos de interés. Se reconocen descripciones reales de los documentos con relación al cuadro de palabra de hecho en una etapa inicial. Estas descripciones de hecho pueden etiquetarse con sus partes de diálogo, ya sea sustantivo o verbo. Entonces más análisis detallados pueden hacerse en una etapa subsecuente sobre aquellas descripciones de hecho para con ello evitar tales análisis detallados sobre documentos completos de interés. Los constituyentes lingüísticos para cada descripción de hecho puede determinarse y entonces las exclusiones y marcas pueden utilizarse para eliminar descripciones de hecho que son menos probables para ser hechos. Las descripciones de hecho que permanecen después de las exclusiones y marcación entonces pueden presentarse como hecho. La Figura 1 muestra un ejemplo de un sistema de computadora 100 que proporciona un ambiente operativo para las modalidades. El sistema de computadora 100 como se muestra puede ser un sistema de computadora programable de propósito general, estándar 100 que incluye un procesador 102 así como varios componentes que incluyen almacenamiento masivo 112, memoria 104, un adaptador de presentación 108, yo una memoria de dispositivos de entrada 110 tal como teclado, teclado numérico, ratón, y similares. El procesador 102 se comunica con cada uno de los componentes a través de un conductor común de señalización de datos 106. El sistema de computadora 100 también puede incluir una interfase de red 124, tal como una conexión por cable o inalámbrica, que permite al sistema de computadora 100 comunicarse con otros sistemas de computadora a través de las redes de datos. El sistema de computadora 100 alternativamente puede ser un dispositivo específico de aplicación, por cable que implementa una o más de las modalidades. En el ejemplo, de la Figura 1, el procesador 102 implementa instrucciones almacenadas en el almacenamiento masivo 112 en la forma de un sistema operativo 114. El sistema operativo 114 de este ejemplo proporciona un fundamento con el cual pueden implementarse varias aplicaciones para utilizar los componentes del sistema de computadora 100. El sistema de computadoras 100 puede implementar un buscador 118 ó aplicación similar para encontrar documentos electrónicos relevantes a una situación particular. Por ejemplo, el buscador 118 puede recibir términos de búsqueda ingresados directamente a través del dispositivo de entrada 110 por un usuario del sistema de computadora 100 ó puede recibir términos de búsqueda enviados por un usuario de una computadoras remota que se recibieron a través de la interfase de red 122. La búsqueda y/o extracción de hecho puede ocurrir con relación a uno más grupos de documentos electrónicos que contienen información textual tal como páginas web, documentos de procesamiento de palabra estándar, hojas de cálculo, y asi sucesivamente. Estos documentos electrónicos pueden almacenarse localmente como grupo de documento electrónico 116. Estos documentos electrónicos también pueden almacenarse en una ubicación no local tal como almacenamiento basado en red 124 que contiene un grupo de documento electrónico 126. El almacenamiento basado en red 124 es representati o de almacenamiento de red local, ubicaciones de almacenamiento en línea de Internet, y así sucesivamente. El almacenamiento basado en red 124 es accesible a través de la interfase de red 122.
Adicionalmente, estas modalidades proporcionan lógica para implementacion por el procesador 102 con el sin extraer los hechos de los documentos electrónicos 116, 126. La herramienta de extracción de hecho 120 puede estar presente en el dispositivo de almacenamiento local 112, ya sea como un componente del sistema operativo 114, un componente del buscador 118 u otra aplicación, o como una aplicación individual capaz de producir sus propios resultados independientes. Las operaciones lógicas realizadas por modalidades de la herramienta de extracción de hecho 120 se discuten más adelante con relación a las Figuras 2-5. El sistema de computadora 100 de la Figura 1 puede incluir una variedad de medios legibles con computadora. Tales medios legibles por computadora contienen las instrucciones para operación del sistema de computadora y para implementación de las modalidades aquí discutidas. Los medios legibles por computadora puede ser cualquier medio disponible que puede accederse por la computadora 100 e incluye tanto medios volátiles como no volátiles, medios removibles y no removibles. A manera de ejemplo, y no de limitación, los medios legibles por computadora pueden comprender medios de almacenamiento por computadora y medios de comunicación. Los medios de almacenamiento por computadora incluyen medios volátiles y no volátiles, removibles y no removibles implementados en cualquier método o tecnología para almacenamiento de información tal como instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento por computadora incluyen, pero no se limitan a, RAM, ROM, EPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, cassettes magnéticos, cinta magnética, almacenamiento de disco magnético u. otros dispositivos de almacenamiento magnético, o cualquier otro medio que puede utilizarse para almacenar la información deseada y que puede accederse por el sistema de computadora 100. Los medios de comunicación típicamente representan instrucciones legibles por computadora, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada tal como una onda portadora u otro mecanismo de transporte e incluyen cualquier medio de entrega de información. El término "señal de datos modulada" significa una señal que tiene una o más de sus características establecidas o cambiadas de tal forma para codificarse en la información en la señal. A manera de ejemplo, y no de limitación, los medios de comunicación incluyen medios por cable tal como red por cable o conexión por cable directa, y medios inalámbricos tal como acústicos, RF, infrarrojos y otros medios inalámbricos. Combinaciones de cualquiera de los anteriores también deben incluirse dentro del alcance de medios legibles por computadora. La Figura 2 muestra un ejemplo de operaciones lógicas realizadas por un buscador 118 en conjunto con la herramienta de extracción de hecho 120. En este ejemplo, la herramienta de extracción de hecho 120 se utiliza previo a que ocurra una búsqueda con el fin de generar una biblioteca de hechos presentes en los documentos electrónicos para buscarse. De esta forma, no hay tiempo de procesamiento requerido para extraer los hechos pero en lugar de esto aquellos factores ya se extrajeron y se recuperaron de una biblioteca de hechos en la base de los términos de búsqueda ingresados. Las operaciones lógicas comienzan en operación de recolección 202 en donde la colección de documentos electrónicos se obtiene o el acceso se logra de otra forma. Por ejemplo, los documentos electrónicos para buscarse eventualmente pueden guardarse en el almacenamiento local o pueden adquirirse a través del acceso en línea. La herramienta de extracción de hecho 120 entonces ópera en cada uno de aquellos documentos electrónicos para intentar extraer todos los hechos que están presentes en los documentos electrónicos. La herramienta de extracción de hecho 120 puede generar una biblioteca de hechos que se almacenaron en asociación con los documentos electrónicos correspondientes y están disponibles para acceso durante búsquedas futuras. Por ejemplo, el Cuadro 1 muestra tal biblioteca de asociaciones.
CUADRO 1 Continuando con el flujo operacional de la Figura 2, un usuario que desea hacer una búsqueda para encontrar documentos electrónicos relevantes, y particularmente para encontrar hechos relevantes de aquellos documentos electrónicos, ingresa un término de búsqueda en el buscador 118 en la operación de termino 206. En este ejemplo, el buscador 118 entonces busca a través de los documentos electrónicos por términos de búsqueda y encuentra documentos coincidentes en la operación de documentos 208. El buscador también encuentra los hechos previamente extraídos que coinciden con los términos de búsqueda de aquellos documentos electrónicos coincidentes y entonces presenta los documentos relevantes o un enlace a estos junto con hechos relevantes en la operación de presentación 210. Por ejemplo, un término de búsqueda puede encontrarse en www.muestra1.com. y el término de búsqueda también puede encontrarse para coincidir con Hecho A y Hecho B para que el enlace a www.muestra1.com. se presente junto con Hecho A y Hecho B. de esa forma, el usuario se proporciona rápidamente con hechos relacionados con los términos de búsqueda que se ingresaron. Un ejemplo de tal presentación de pantalla se discute posteriormente con relación a la Figura 6. Por supuesto, como una alternativa a la búsqueda puede ser para hechos previamente extraídos solamente, en lugar de para los mismos documentos electrónicos. Además, en ciertas circunstancias los hechos previamente extraídos pueden coincidir con los términos de búsqueda sin importar si los documentos electrónicos que contienen los hechos coinciden con los términos de búsqueda. La Figura 3 muestra otro ejemplo de operaciones lógicas realizadas por un buscador 118 en conjunto con la herramienta de extracción de hecho 120. En este ejemplo, la herramienta de extracción de hecho 120 se utiliza durante una búsqueda con el fin de describir hechos presentes en los documentos electrónicos como se encuentra por la búsqueda. De esta forma, no hay necesidad de pre-buscar extracción de hecho y no hay necesidad de almacenamiento de una biblioteca de hechos. En tal escenario, la herramienta de extracción de hecho sólo puede escanear recortes o compendios del documento para proporcionar resultados muy rápidos, o el documento completo también puede escanearse para extraer todos los hechos potenciales. Las operaciones lógicas comienzan en la operación de término 302 en donde un usuario ingresa un término de búsqueda en el buscador 118. En este ejemplo, el buscador 118 entonces busca a través de los documentos electrónicos por los términos de búsqueda y encuentra documentos coincidentes en la operación de documento 304. La herramienta de extracción 120 entonces se emplea en la operación de extracción 306 con el fin de analizar los documentos electrónicos que se encontraron por la búsqueda con el fin de extraer hechos de aquellos documentos que son relevantes para los términos de búsqueda. Los resultados de la operaciones de extracción 306 pueden producir un grupo temporal de asociaciones entre documentos electrónicos y hechos como se muestra en el Cuadro 1, que entonces pueden colocarse en el almacenamiento de término mayor en búsqueda de anticipación para aquellos términos de búsqueda que ocurren en el futuro. La máquina de búsqueda entonces presenta los documentos relevantes o un enlace a estos junto con los hechos relevantes regresados con herramienta de extracción de hecho 120 en la operación de extracción 306 en la operación de presentación 308. La Figura 4 muestra el acercamiento de etapas múltiples utilizado por modalidades de la herramienta de extracción de hecho 120. Inicialmente, la herramienta de extracción de hecho 120 intenta reconocer un grupo de descripciones de hecho de los documentos electrónicos de interés en la operación de reconocimiento 402. Aquí, merecen encontrar aquellas descripciones en el texto que probablemente son los hechos basados en encontrar coincidencias a un cuadro de palabra de hecho discutido en más detalle posteriormente con referencia a la Figura 5. Al realizar un proceso de coincidencia rápida, gran parte del documento electrónico que debe ignorarse cuando se encuentran los hechos puede eliminarse de procesamiento de extracción de hecho adicional con lo cual aumenta la eficiencia de la etapa(s) subsecuente que se emplea para aumentar la exactitud. Después de identificar un grupo de descripciones de hecho para un documento que se analiza, la extracción de hecho entonces se realiza en ése grupo de descripciones de hecho en la operación de extracción 404. Aquí, análisis más detallados se realizaron sólo en el grupo de descripciones de hecho, como puesto al documento completo, para que la eficiencia satisfactoria se mantenga mientras se logra la exactitud adecuada. Los análisis de operación de extracción involucran tomar decisiones basándose en una determinación de constituyentes lingüísticos de las descripciones de hecho. Tales constituyentes lingüísticos pueden incluir los constituyentes sintácticos, la semántica, y así sucesivamente. La Figura 5 muestra un ejemplo de detalles de las operaciones de reconocimiento y extracción de la Figura 4. Las operaciones lógicas comienzan en la operación de escaneo 502 en donde la herramienta de extracción 120 escanea el documento electrónico para encontrar palabras o frases que coinciden con aquellos de un cuadro de palabra de hecho. Un cuadro de palabra de hecho es una lista de palabras o frases que se conocen para probablemente utilizarse cuando se expresa un hecho como opuesto a una opinión por ejemplo. El Cuadro 2 muestra un breve ejemplo. Se debe notar que proporcionar desempeño de procesamiento óptimo, las palabras del cuadro pueden asociarse con la parte más apropiada de etiqueta de diálogo (POS) que se discute posteriormente con relación a la operación de etiqueta 504.
CUADRO 2 Se hizo investigación para determinar palabras que son sugestivas de hechos en lugar de opiniones. Por ejemplo, la clase de palabras que introducen hechos puede derivarse al utilizar investigación y trabajar en la clasificación de verbos y sus funciones léxicas. Dos papeles relevantes que pueden utilizarse como un material para hacerlo incluyen: (1) Mel'cuk (1996) Funciones Léxicas: Una herramienta para la Descripción de Relaciones Léxicas en el Léxico. En L. Wanner (ed.): Funciones Léxicas en Lexicografía y Procesamiento de Lenguaje Natural, Amsterdam/Filadelfia: Benjamins, 37-102. (2) Fontenelle, T. (1997): "Descubrir Funciones Léxicas Significativas en Entradas de Diccionario", en Cowie, AP. (ed.) Frasología: Teoría, Análisis, y Alicaciones, Oxford Univerity Press, Oxford.
De esa forma, en la base de tal investigación, la lista de palabra de hecho como se muestra en el Cuadro 2 puede construirse para incluir aquellos verbos u otras palabras que son sugestivas de una expresión de hecho como opuesta a un no hecho. Por ejemplo, los términos "inventado" o "controlado" son sugestivas de una expresión de hecho mientras los términos "puede ser" o "queja" no lo son. Un ejemplo particular de una lista de palabra de hecho puede encontrarse en el Apéndice A localizado al final de esta explicación. Este ejemplo particular es una lista no exhaustiva de verbos que son palabras de hecho que pueden utilizarse para descubrir descripciones de hecho en documentos electrónicos. Ya sea en la aplicación del cuadro de palabra de hecho un documento electrónico, o en paralelo con la aplicación de cuadro del palabra de hecho tal como en donde la Etiqueta de POS ya se asoció con las palabras del cuadro de palabra de hecho, las partes de diálogo (POS) de cada una de las palabras de cada descripción de hecho se etiquetan en la operación de etiqueta 504. Esta operación de etiquetado 504, que puede ocurrir en paralelo con o subsecuente a la operación de escaneo 502, puede involucrar hacer eliminación de ambigüedades para palabras que tienen más de una etiqueta de POS, tal como al favorecer una etiqueta de sustantivo sobre una etiqueta de verbo ya que entiende que la frases sintácticas como frases de sustantivos se conocen para hacer las entidades involucradas en un evento de hecho. Cualquiera de las palabras desconocidas o no preetiquetadas pueden predeterminarse para sustantivos para esta razón también como con los sustantivos, los objetivos pueden favorecerse sobre verbos (por ejemplo, "plano" o un objetivo sobre "plano" como un verbo) así como tales palabras que tienen tanto una etiqueta de adjetivo como un verbo se predeterminarán a un adjetivo debido a que el adjetivo es parte de frases de sustantivo que son bien conocidos por las entidades involucradas en un evento de hechos. Cuando se crean las asociaciones de las Etiquetas de POS con las palabras del cuadro de palabra de hechos, tal como cuando se crea el cuadro, estas elecciones de eliminación de ambigüedades ya se aplicaron para que, por ejemplo, "plano" se asocie con una Etiqueta de POS adjetivo en el cuadro y no una Etiquetas de POS de verbo. Una vez que las descripciones de hechos se encontraron y las palabras de las descripciones de hechos se etiquetaron con el POS, entonces puede realizarse el análisis más completo para mejorar la exactitud de la extracción de hecho sin requerir que el documento completo se someta a este procesamiento más completo. En la operación de identificación 506, las frases sintácticas como frases de sustantivo y frases de verbo se identifican. Las frases sintácticas se identifican al utilizar reglas gramaticales convencionales y análisis lingüístico ligero. Aquellas frases sintácticas que están en la cercanía, es decir, muy locales del grupo de descripciones de hecho en un documento se identifican y si una descripción de hecho no tiene frases sintácticas asociadas con ésta, entonces la oración correspondiente puede eliminarse de consideración adicional. De esa forma, al enfocarse sólo en aquellas frases sintácticas que están en la cercanía de la descripción de hechos, el proceso evita buscar constituyentes lingüísticos de una oración completa. Además, en la operación la identificación 506, los constituyentes lingüísticos de las descripciones de hechos que tienen frases sintácticas cercanas además se determinan al valorar el papel de la frase sintáctica que juega dentro de la oración correspondiente basándose en el patrón identificado en la descripción de hechos. De esa forma, se determina del patrón de palabra de la descripción de hechos si la frase sintáctica juega el papel del sujeto u objeto dentro de la oración que contiene la descripción de hechos actual que se analiza. Una vez que los constituyentes lingüísticos de las descripciones de hechos se determinan, es decir, las frases sintácticas y sus papeles se identificaron, las reglas de exclusión entonces pueden aplicarse a aquellas frases de sustantivo de las descripciones de hechos para además eliminar aquellas que son menos probables para una expresión de hecho en la operación de exclusión 508. Las reglas de exclusión pueden ser aplicables en la base de una frase sintáctica como un objeto, una frase sintáctica como un sujeto, una frase sintáctica con respecto a su papel. Además, en esta modalidad particular, una regla de exclusión que se aplica a palabras individuales, a las frase sintácticas, o la oración completa lleva al mismo resultado, que es excluir la oración completa de ser una descripción de hechos. Un ejemplo de las reglas de exclusión que puede aplicarse se muestra en el Cuadro 3.
CUADRO 3 Ya sea con la aplicación de las reglas de exclusión, o en paralelo con la aplicación de las reglas de exclusión, la reglas de marcación se aplican en operación de marcación 510. Las reglas de marcación tienen un peso tanto para el sujeto como para las frases de sustantivo de objeto para cada una de las varias características, y una marca total para la descripción de hecho de candidato es la suma de los presos de característica individuales más la marca de certeza de la palabra de hecho coincidente. Los pesos de característica individuales pueden ser positivos, cuando son indicativos de un hecho, y pueden ser negativos, cuando son indicativos de un no hecho. Ejemplos de características y reglas de marcación asociadas se proporcionan más adelante en el Cuadro 4. Las marcas de característica pueden asignarse manualmente al utilizar juicio humano o pueden aprenderse automáticamente.
CUADRO 4 Características Reglas de marcación Marca de certeza del patrón coincidente (palabra de hecho, por ejemplo, verbo principal) Clase de los Papeles (es decir, Marca por clase sujeto o verbo), por ejemplo: persona, país, organización, etc. "Sujeto" principal contiene Nombre Peso normal Propio Longitud de "Objeto" Marca de longitud Longitud de "Sujeto Marca de longitud Longitud de oración Marca de longitud "Sujeto" aparece al inicio de la Marca de posición oración, es decir, equivalente de Negativo - Peso básico sujeto "Objeto" tiene un modificador (adjetivo, adverbios) "Objeto" es un definido ("el") Negativo - Básico Exclusivo cuando termina la oración de cópula La marca total para la descripción de hecho entonces se compara con un umbral predefinido para determinar si la marca total excede el umbral en la operación de consulta 512. Si no se excede el umbral, entonces la descripción de hecho correspondiente puede descartarse. Si se excede el umbral entonces la descripción de hecho, la oración completa, y/o el párrafo completo u otra porción del documento puede presentarse como un hecho en la operación de presentación 514. Esta presentación puede incluir presentar el hecho, guardar el hecho en una biblioteca y así sucesivamente. Al utilizar las reglas de marcación y la comparación de umbral, los pesos asignados a las características y/o el valor de umbral puede manipularse sin manipular el acercamiento completo a la extracción de eso. De esa forma, el grado de exactitud de la extracción de hecho y presentación pueden controlarse mientras los pasos de procesamiento permanecen iguales. La Figura 6 muestra una toma de pantalla ilustrativa 600 que resulta de realizar una búsqueda. Los términos de búsqueda se ingresaron en el campo de búsquedas 602 para conducir la búsqueda. El término de búsqueda coincidió con varios enlaces de sitio web 604 disponibles de Internet. El usuario puede visitar los documentos electrónicos en la forma normal. Adicionalmente, los hechos 610, 612 y 614 sobre el término de búsqueda puede presentarse en la sección 608. Por consiguiente, un usuario puede rápidamente señalar hecho sobre el tema de la búsqueda sin tener que visitar cualquiera de los documentos electrónicos que se encontraron y sin tener que leer y discernir manualmente el hecho de la opinión. En este ejemplo particular, los hechos 610, 612 y 614 incluyen hipervínculos que el usuario puede seleccionar para dar más información sobre la fuente del hecho y/o para mostrar el contenido dentro del cual se descubren los hechos (por ejemplo, fecha del hecho asociado, otros hechos, etc.). Se apreciará que la toma de pantalla 660 es simplemente un ejemplo de cómo los hechos pueden presentarse al usuario. En lugar de presentarlos en una columna separada como se muestra, pueden enlistarse como sub-elementos del documento electrónicos del que se extrajeron. Además, con una alternativa a o además de la lista de los hechos de la página de resultados de búsqueda, los hechos extraídos de un documento electrónico particular también pueden enlistarse en una columna u otra ubicación con el usuario que observa el mismo documento electrónico. Adicionalmente, como una alternativa a o además de separar los hechos del documento para presentación, los hechos pueden resultarse dentro de los documentos electrónicos tanto en la lista de documentos 604 dentro de los resultados de búsqueda y dentro del documento electrónico completo cuando se elige para presentación. Incluso como otra alternativa, los hechos pueden presentarse independientemente de resultados de búsqueda, tal como para presentar hechos sólo con un enlace seleccionable para obtener los documentos de fuente, en donde sólo los hechos extraídos se buscaron para con ello evitar la búsqueda del documento completamente.
Adicionalmente, se apreciará que la presentación de los hechos extraídos, como se muestra en la toma de pantalla 600, pueden proporcionarse como una presentación a una computadora local que ¡mplementa la búsquedas y extracción de hecho para un usuario local. Alternativamente, la presentación de los hechos extraídos, tal como los mostrados en la toma pantalla 600, pueden proporcionarse como una presentación a una computadora remota que solicitó que la computadora local realice la búsqueda y extracción de hechos a su beneficio, tal como en el caso de un buscador basado en Internet. Por consiguiente, los hechos pueden extraerse eficiente y precisamente de documentos para presentación a usuarios. A través del acercamiento de etapas múltiples, la eficiencia aumenta al evitar análisis detallado de los documentos completos así como evitar análisis detallado de la oración completa cuando se encontró una descripción de hechos. La exactitud se mantiene al emplear análisis adicional en descripciones de hecho que se descubrieron en el documento por la etapa inicial de procesamiento. Mientras la invención se mostró y describió particularmente con referencia a varias modalidades de la misma, se entenderá por aquellos expertos en la técnica que pueden hacerse otros cambios en la forma y detalle sin apartarse del espíritu y alcance de la invención. Por ejemplo, ciertas reglas de exclusión que no son específicas a constituyentes lingüísticos de una descripción de hechos, tal como aquellas basadas en puntuación de una oración, pueden aplicarse cuando se analiza la descripción de hechos en lugar de posteriormente durante la aplicación de otras reglas de exclusión.
Apéndice ?- \ - Palabras de Hecho degradar avanzar aparecer evitar menguar anunciar aplacar despertar abortar oxigenar aplicar premiar desgastar ofrecer discutir retroceder abreviar agravar despertar dar fianza absorber acordar distribuir banco resumir ayudar arrestar barra acelerar apuntar llegar barbarizar acetuar aire preguntar descubrir aceptar algerar ensamblar base acreditar aliviar valorar golpear lograr alterar aseverar playa actuar enmendar asignar rayo agregar amplificar calmar soportar dirigir divertir asegurar llegar a ser aducir animar unir nublar ajustar anunciar atacar aturdir administrar responer atenuar engendrar admitir preceder evitar comenzar tiznar comprar comprometer dañar eructar evitar cubrir humedecer dementir examinar conceder bailar inclinar cubrir concebir balancear entorpecer capitalizar conciliar oscurecer legar transportar concluir zurcir bestow cast conduct dash conceder castigatar confesar amortiguar mejorar castrar confiar negociar unir atrapar confirmar envilecer no ir a huelga irritar confundir corromper tapar cambiar confundir dsprestigiar blanquear canalizar congelar decaer manchar cargar conectar decidir mezclar revisar conservar declarar arruinar enfriar consolidatar profundizar ampollar repicar constituir desfigurar bloquear picar limitar vencer obstruir acuñar contraer defender soplar ahogar continuar desinflar equivocar elegir retorcer desviar desafilar batir contraer deformar desenfocar cifrar controlar descongelar decir circular convertir atrasar cortar el pelo eludir transportar delegar atascar reclamar cocinar entregar hervir chocar enfriar morir apuntalar limpiar acordonar demonstrar fomentar limpiar corregir abollar expurgar aclarar corroer negar jugar bolos escalar corromper agotar reforzar forcejear antagonizar despreciar calificar sujetar avellanar oprimir enfrentar atascar cubrir privar romper cerrar agrietar delegar resumir coagular doblar desquiciar abrillantar nublar chocar describir traer arrugar enloquecer desecrar emitir acuñar crear diseñar abollar colapsar lisiar designar abrochar recolectar cosechar desolatar construir colorear cruzar despojar jugar al alzar confortar desmoronar destruir agrupar commisionar aplastar detallar atar en bultos cometer llorar detectar sellar comunicar reprimir deteriorar parodiar comparar cuajar determinar quemar completar reducir desarrollar explotar componer amortiguar morir enterrar comprimir cortar diferenciar difundir tierra exhalar f rustar diluir facilitar exhibir doblar oscurecer comer existir seguir disminuir educar expandir forzar dirigir realizar expedir forjar ensuciar elevar explicar perdonar deshabilitar evocar exponer formar desaparecer eludir exponer fomentar descargar emancipar expresar ensuciar disciplinar embellecer extender encontrar describir irritar extinguir enmarcar decolorar encarnar extorsionar deshilar desconectar emitir extraer liberar descontinuar enfatizar fabricar congelar descubror habilitar afrontar frustrar discutir alentar desvanecer arrollar desfigurar terminar fallar elaborar disfrazar endosar fingir surcar dislocar dotar caer fundir desalojar implementar falsificar ganar desmantelar acoplar familiarizar galopar desmontar mejorar sujetar desfigurar desordenar mandar criar acuchilar surtir agrandar engordar generar distribuir enimar presentar engañar dispersar ennoblecer alimentar obtener presentar enriquecer transbordar dar disputar enrolarse fertilizar alegrar interrumpir enshrine festonear glorificar destilar comportar tocar el viol barnizar distinguir enredar pelear hartar distorsionar entronizar llenar ir molestar confiar filtrar regir desviar enunciar finalizar clasificar dividir epitomar encontrar graduar atracar ecualizar acabar otorgar preparar erguir poner fuego rallar capear incrementar ajusfar pastar duplicar establecer fijar poner en tierra remojar evadir embanderar agrupar delinear evaporar brillar crecer intermitentemente dramatizar evidenciar ostentar guiar dibujar evocar desollar parar dragar exacerbar flotar dividir en dos vestir exigir inundar obstaculizar conducir exagerar Iluminar con controlar focos caer examinar florecer suceder anegar exasperar fluir acosar mantillo exceder volar hospedar despuntar excitar fempañar endurecer dañar instigar enlazar navegar armonizar instilar escuchar alisarse hasediar instituir ensuciar mellar acelerar integrar vivir pellizcar empollar pretender revivir entalalr encabezar intensificar cargar notar curar interpolar cerrar alimentar escuchar interrumpir dejar suelto cuidar calentar intimar aflojar ofuscar elevar introducir perder oscurecer ayudar invertir descender obstruir ocultar revigorizar aglomerar obtener golpear invitar amplificar ocupar amontonar invocar mantener ocurrir alzar involucrar hacer ofender sostener emitir manejar ofrecer esperar punzar magullar abrir acosar atascar manipular operar lastimar descartar fabricar oponer identificar tintinear marcar ordenar iluminar unir colocar originar imaginar revolver enmascarar bosquejar deteriorar saltar coincidir sobrecargar impartir justificar importar extremar inculpar mantener maltratar derramar impedir patear medir volcar arriesgar matar encontrar trabajar demasiado implantar encender sazonar apaciguar mejorar golpear puerta derretir empacar inaugurar lacerar remendar acolchar aumentar subir escalera mencionar aterrorizar indentar lancear enmohecerse paralizar ligar contrato aterrizar importar pelar indicar reír Representar apostar inducir lanzar perder Libertad condicional reclutar colocar empañar esquivar infectar acomodar mitigar separar infiltrar guiar modificar partir clavar dejar ablandar pasar inflamarse prestar debatir parchar inflar alargar moldear pagar infligir reducir mover campanear influenciar permitir confundir vender casa por casa informar nivelar enfangar clavar infundir liberar amortiguar penalizar rubricar mentir desordenar realizar iniciar iluminar recolectar perecer lastimar iluminar silenciar perseguir insertar limitar mutilar pervertir inspirar revestir estrechar articular escoger probar rehusar mecer almohada proporcionar considerar enrollar picar provocar registrar rotatar hoyo podar regular avivar colocar cartel difundir rehabilitar remar colocar publicar ensayar erizar planear jalar reforzar arruinar plantar despulpar reeditar arrugar jugar perforar rechazar correr arrancar punzar reavivar apresurar taponar castigar relatar murmurar hundirse Dar una patada relajar navegar apuntar expurgar liberar salvar envenenar empujar aliviar agotar polo poner Cambiar el forro guardar pulir calificar remoldear escaldar encuestar alojar remover abrasar agrupar apagar rasgar marcar reventar cuestionar renovar frustrar posar acelerar renovar rascar colocar callar reabrir gritar colocar acojinar reparar arrastrar pies golpear carrera reemplazar exterminar predicar elevar reportar barrenar precipitar saquear republicar sellar preceder golpetear requerir quemar preferir racionalizar reestrenar sentar predisponer matraquear poner de nuevo asegurar asiento preocupar reacoplar resistir ver preparar reestablecer descansar vender presentar reformar iniciar enviar preservar leer restaurar servir embellecer posterior restringir establecer prevenir volver a resultar fundar despertar pinchar recordad resucitar cortar primo recibir menudear agitar proclamar reclamar retener avergonzar procurar reclinar retirar afilar producir reconocer retractar despedazar profesar recomendar ahorrar enfundar programar reconciliar recuperar verter promover reconsiderar regresar abrigar promulgar grabar revelar proteger sostener reclutar invertir cambiar hacer reducir revivir brillar propaganda impulsar referir rebobinar hacer corte proponer retinar correg ir esquivar procesar reflejar timbrar disparar proteger volver a flotar ascender acortar protestar reformar asar gritar mostrar dañar derrocar pisotear encoger patrocinar tener éxito transferir callar deporte sufrir transplantar tamizar discernir sugerir atrapar firmar salir a chorro satisfacer viajar señalar torcer resumir tratar señalizar rociar suplementar activar significar esparcir suministrar recortar hervir a fuego brotar soportar liar lento cantar cuadro suponer intentar chamuscar aplastar suprimir caer hundir apretar superficie girar sentar apilar rendir Hacer vibrar situar proveer sobrevivir enroscar personal localizar manchar suspender remolinar a r i 11 a r paralizar sostener girar disminuir atascar barrer desbloquear apagar sed estampar endulzar descargar cortar en tiras parar hinchar desatascar dormir protagonizar columpiar deshacer rebanar almidonar silbar desabrochar deslizar iniciar manchar desestabilizar desacelerar estancar deslustrar desdoblar embarrar quedarse atarear desarticular sonreír estabilizar enseñar desaparejar enmugrecer guiar desgarrar unir estorbar desceder llamar por soltar teléfono romper dar un paso templar desenredar enmarñar pegar tender descabalgar inhalar endurecer agradecer destronar desembriagarse calmar derretir quitar instinto sexual suavizar agitar adelgazar detener ensuciar cebar estimular desenredar consolar detener a rrojar desenroscar solidificar almacenar confiar apoyar apaciguar enderezar aporrear molestar clasificar estirar frustrar urgir sonar vararse Poner en utilizar agriar fortalecer apretar validar sembrar tensar repicar vandalizar economizar estirar tocar ocina virar activar golpear tumbar enmascarar hablar desnudar atormentar ventilar motear rasguear torturar vocalizar acelerar estudiar totalizar expresar derramar rellenar Tocar votar girar ridiculizar endurecer vulgarizar atrofiar stunt desordenar flotar en el aire dividir doblegar remolcar menear manchar suscribir entrenar despertar caminar usar marchitar trabajar adulterar tramar ganar preocupar calentar llorar bobinar inflingir advertir soldar pasar volando naufragar sobre pandearse afilar enjuagar arrebatar garantizar arremolinarse alambrar estrujar lavar blanquear desear arrugar observar extender retirar escribir debilitar empular marchitar producir destetar contonear retener

Claims (1)

  1. EIVINDiCACIONES 1.- Un método para encontrar hechos (610) dentro de recursos electrónicos (116), que comprende: escanear (502) un recurso electrónico (116) para descubir descripciones de hechos (402) de oraciones que comprenden palabras que coinciden con palabras de un cuadro de palabra de hechos; examinar (506) las descripciones de hechos descubiertas (402) para identificar los constituyentes lingüísticos de las descripciones de hechos; y determinar (510) si se presenta una descripción de hechos (402) como un hecho (610) basándose en los constituyentes lingüísticos identificados. 2 - El método de acuerdo con la reivindicación 1, en donde determinar si presentar una descripción de hechos como hecho basándose en el constituyente lingüístico identificado comprende: aplicar reglas de exclusión con relación a constituyentes lingüísticos de las descripciones de hechos para eliminar ciertas descripciones de hechos de consideración; clasificar las descripciones de hechos; comparar la marca de cada descripción de hechos que permanece para consideración a un umbral; y para cada descripción de hechos que tiene una marca que excede el umbral, presentar al menos una porción de la oración que contiene la descripción de hechos como un hecho. 3.- El método de acuerdo con la reivindicación 2, que además comprende etiquetar palabras de las descripciones de hechos con sus partes de diálogo. 4.- El método de acuerdo con la reivindicación 3, en donde etiquetar palabras de las descripciones de hechos con sus partes de diálogo comprende aplicar un etiqueta de sustantivo cuando una palabra puede ser ya sea un verbo o un sustantivo. 5. - El método de acuerdo con la reivindicación 4, en donde aplicar las reglas de exclusión comprende aplicar un primer grupo de reglas para frases sintácticas que tienen un papel de sujetos y aplicar un segundo grupo de reglas para frases sintácticas que tienen un papel de objetos. 6. - El método de acuerdo con la reivindicación 5, en donde aplicar el primer grupo de reglas comprende excluir frases de sustantivo que tienen una opinión o modificador desviado de sujetos u objetos. 7. - El método de acuerdo con la reivindicación 5, en donde aplicar el segundo grupo de reglas comprende excluir frases de sustantivo de sujeto con descripciones definidas de nombre no propio, excluir frases de sustantivo que contienen pronombres, y excluir frases de sustantivo de sujeto que no aparecen al inicio del texto. 8. - El método de acuerdo con la reivindicación 5, que además comprende aplicar un tercer grupo de reglas sin considerar el papel de la frase de sustantivo. 9. - El método de acuerdo con la reivindicación 8, en donde aplicar el tercer grupo de reglas comprende excluir descripciones de hechos en donde la puntuación de la oración es una marca de interrogación, y excluir oraciones con frases que incluyen una palabra vacía. 10. - El método de acuerdo con la reivindicación 2, en donde marcar las descripciones de hechos comprende marcar sólo aquellas descripciones de hechos que permanecen para consideración ya sea después o durante la aplicación de la reglas de exclusión. 11. - Un medio legible por computadora (112) que contiene instrucciones (120) que realizan actos que comprenden: recibir un término de búsqueda (206); analizar (502) una pluralidad de documentos electrónicos (116) para descubrir descripciones de hechos (402) de oraciones que comprenden palabras que coinciden con palabras de un cuadro de palabra de hecho; examinar (506) las descripciones de hechos descubiertas (402) para identificar los constituyentes lingüísticos de las descripciones de hechos (402); y determinar (510) si se presenta una descripción de hechos (402) como un hecho (610) relevante para el término de búsqueda basándose en el constituyente lingüístico identificado. 12. - El medio legible por computadora de acuerdo con la reivindicación 11, en donde los actos además comprenden obtener la pluralidad de documentos al buscar una colección de documentos electrónicos para encontrar aquellos documentos que contienen el término de búsqueda, en donde la colección se busca para encontrar aquellos documentos que contienen el término de búsqueda previo a analizar la pluralidad de documentos electrónicos. 13. - El medio legible por computadora de acuerdo con la reivindicación 11, en donde los actos además comprenden obtener los documentos electrónicos y presentar descripciones de hechos previo a recibir el término de búsqueda y buscar los documentos electrónicos y descripciones de hechos para encontrar aquellos documentos electrónicos y descripciones de hechos correspondientes que son relevantes para el término de búsqueda. 14. - El medio legible por computadora de acuerdo con la reivindicación 11, en donde determinar si se presenta una descripción de hechos como un hecho relevante para el término de búsqueda basándose en el constituyente lingüísticos identificado comprende: aplicar reglas de exclusión con relación a los constituyentes lingüísticos de las descripciones de hechos para eliminar una porción de las descripciones de hechos de consideración; marcar las descripciones de hechos; comparar la marca de cada descripción de hechos que permanece para consideración a un umbral; y para cada descripción de hechos que se toma de un documento electrónico que contiene el término de búsqueda y que tiene una marca que excede el umbral, presentar al menos una porción de la oración que contiene la descripción de hechos como un hecho relevante para el término de búsqueda. 15. - El medio legible por computadora de acuerdo con la reivindicación 14, en donde marcar las descripciones de hechos comprende marcar sólo aquellas descripciones de hechos que permanecen para consideración después de aplicar las reglas de exclusión. 16. - Un sistema de computadora (100), que comprende: almacenamiento (112) se contiene una pluralidad de recursos electrónicos (116) que comprenden información textual; un procesador (102) que recibe una solicitud (206) para presentar hechos que están relacionados con el término de búsqueda de un grupo de documentos electrónicos, en donde el procesador (102) analiza (502) la pluralidad de documentos electrónicos (116) para descubrir descripciones de hechos (402) de oraciones que comprenden palabras que coinciden con palabras de un cuadro de palabra de hechos, examina (506) las descripciones de hechos descubiertos para identificar los constituyentes lingüísticos de las descripciones de hechos (402), determina (510) si presenta una descripción de hechos (402) como un hecho (610) basándose en el constituyente lingüístico identificado, y presenta (514) al menos una porción de oraciones que contienen las descripciones de hechos (402) que se determinan para presentarse como un hecho (610) y que se relacionan con el término de búsqueda (206). 17. - El sistema computadora de acuerdo con la reivindicación 16, que además comprende un dispositivo de presentación y en donde el procesador presenta al menos la porción de las oraciones al presentar al menos las porciones de las oraciones en el dispositivo de presentación. 18. - El sistema de computadora de acuerdo con la reivindicación 16, que además comprende una interfase de red y en donde el procesador presenta al menos la porción de las oraciones al sacar aquellas porciones a otra computadora a través de la interfase de red. 19. - El sistema de computadora de acuerdo con la reivindicación 16, que además comprende una interfase de red y en donde el almacenamiento es accesible a través del procesador mediante la interfase de red. 20.- El sistema de computadora de acuerdo con la reivindicación 16, en donde el procesador determina si presenta una descripción de hecho como hecho al: aplicar reglas de exclusión con relación a los constituyentes lingüísticos de las descripciones de hechos para eliminar una porción de las descripciones de hechos de consideración; marcar las descripciones de hechos; comparar la marca de cada descripción de hechos que permanece para consideración a un umbral; y para cada descripción de hechos que contiene el término de búsqueda y que tiene una marca que excede el umbral, presentar al menos la porción de la oración que contiene la descripción hechos como un hecho relevante para el término de búsqueda.
MX2009000588A 2006-07-31 2007-07-20 Optimizacion de extraccion de hecho utilizando acercamiento de etapas multiples. MX2009000588A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/496,650 US7668791B2 (en) 2006-07-31 2006-07-31 Distinguishing facts from opinions using a multi-stage approach
PCT/US2007/016435 WO2008016491A1 (en) 2006-07-31 2007-07-20 Optimization of fact extraction using a multi-stage approach

Publications (1)

Publication Number Publication Date
MX2009000588A true MX2009000588A (es) 2009-01-27

Family

ID=38987573

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2009000588A MX2009000588A (es) 2006-07-31 2007-07-20 Optimizacion de extraccion de hecho utilizando acercamiento de etapas multiples.

Country Status (10)

Country Link
US (1) US7668791B2 (es)
EP (1) EP2050019A4 (es)
JP (1) JP5202524B2 (es)
AU (1) AU2007281638B2 (es)
BR (1) BRPI0714311A2 (es)
MX (1) MX2009000588A (es)
NO (1) NO20085387L (es)
RU (1) RU2451999C2 (es)
TW (1) TWI431493B (es)
WO (1) WO2008016491A1 (es)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7269875B1 (en) * 2003-11-19 2007-09-18 David Brian Grimes Cleaning apparatus
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US8671341B1 (en) * 2007-01-05 2014-03-11 Linguastat, Inc. Systems and methods for identifying claims associated with electronic text
US8190628B1 (en) * 2007-11-30 2012-05-29 Google Inc. Phrase generation
TWI544349B (zh) 2008-06-13 2016-08-01 尼爾 揚 可分類與可更新之編譯及封存平台以及其使用
US20110231387A1 (en) * 2010-03-22 2011-09-22 Yahoo! Inc. Engaging content provision
US8719692B2 (en) * 2011-03-11 2014-05-06 Microsoft Corporation Validation, rejection, and modification of automatically generated document annotations
US8812301B2 (en) * 2011-09-26 2014-08-19 Xerox Corporation Linguistically-adapted structural query annotation
CN102929934A (zh) * 2012-09-25 2013-02-13 东莞宇龙通信科技有限公司 照片信息显示的方法及移动终端
US10922326B2 (en) * 2012-11-27 2021-02-16 Google Llc Triggering knowledge panels
US10289653B2 (en) 2013-03-15 2019-05-14 International Business Machines Corporation Adapting tabular data for narration
USD805535S1 (en) 2013-06-04 2017-12-19 Abbyy Production Llc Display screen or portion thereof with a transitional graphical user interface
USD802609S1 (en) 2013-06-04 2017-11-14 Abbyy Production Llc Display screen with graphical user interface
US9164977B2 (en) 2013-06-24 2015-10-20 International Business Machines Corporation Error correction in tables using discovered functional dependencies
US9600461B2 (en) 2013-07-01 2017-03-21 International Business Machines Corporation Discovering relationships in tabular data
US9830314B2 (en) 2013-11-18 2017-11-28 International Business Machines Corporation Error correction in tables using a question and answer system
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
RU2665239C2 (ru) 2014-01-15 2018-08-28 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое извлечение именованных сущностей из текста
US10331782B2 (en) 2014-11-19 2019-06-25 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for automatic identification of potential material facts in documents
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
RU2592396C1 (ru) 2015-02-03 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система для машинного извлечения и интерпретации текстовой информации
RU2610241C2 (ru) 2015-03-19 2017-02-08 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
US10095740B2 (en) * 2015-08-25 2018-10-09 International Business Machines Corporation Selective fact generation from table data in a cognitive system
CN105260091B (zh) * 2015-09-07 2019-06-21 努比亚技术有限公司 照片处理方法及装置
US10776587B2 (en) * 2016-07-11 2020-09-15 International Business Machines Corporation Claim generation
RU2637992C1 (ru) * 2016-08-25 2017-12-08 Общество с ограниченной ответственностью "Аби Продакшн" Способ извлечения фактов из текстов на естественном языке
CN106648390B (zh) * 2016-12-05 2018-12-21 网易(杭州)网络有限公司 一种控制指令生成方法、装置及移动终端
CN106649786B (zh) * 2016-12-28 2020-04-07 北京百度网讯科技有限公司 基于深度问答的答案检索方法及装置
CN106924963B (zh) * 2017-04-26 2023-06-27 温州大学 一种视力听力康复训练娱乐打靶机
CN108038263A (zh) * 2017-11-15 2018-05-15 南京邮电大学 考虑性能相关结构不确定的芯片多元参数成品率预测方法
CN108257380B (zh) * 2017-12-05 2020-11-10 北京掌行通信息技术有限公司 一种基于路况信息检测拥堵事件的方法及系统
US10303771B1 (en) * 2018-02-14 2019-05-28 Capital One Services, Llc Utilizing machine learning models to identify insights in a document
CN109344993B (zh) * 2018-08-23 2021-08-24 江西省水利科学研究院 一种基于条件概率分布的河道洪峰水位预报方法
CN111026597B (zh) * 2019-01-31 2023-12-26 安天科技集团股份有限公司 一种芯片隐藏存储空间的检测方法、装置及存储介质
CN110007589B (zh) * 2019-02-26 2021-05-18 湖南盛世威得科技有限公司 一种具有火灾自动求救功能的智能手表
CN110057634B (zh) * 2019-04-11 2021-09-07 东北石油大学 一种制造岩心裂缝的装置及方法
CN111858225A (zh) * 2019-04-28 2020-10-30 中国移动通信集团上海有限公司 延时预测方法、装置、设备及计算机存储介质
CN111090785A (zh) * 2019-06-10 2020-05-01 工盒(嘉兴)网络技术有限公司 一种紧固云系统
CN110597108B (zh) * 2019-08-23 2021-12-21 广州电力设计院有限公司 电缆隧道区域控制系统、控制方法、装置及计算机设备
CN110737010B (zh) * 2019-09-19 2021-11-16 西安空间无线电技术研究所 一种基于低轨通信卫星的安全定位授时信号生成系统
CN111078849B (zh) * 2019-12-02 2023-07-25 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111126057B (zh) * 2019-12-09 2023-08-01 航天科工网络信息发展有限公司 一种分级神经网络的案件情节精准量刑系统
DE102020103941A1 (de) * 2020-02-14 2021-08-19 Grimme Landmaschinenfabrik Gmbh & Co. Kg Verfahren zum Betrieb einer Maschine zum Ernten und/oder Trennen von Hackfrüchten, zugehörige Maschine und zugehöriges Computerprogrammprodukt
CN111526397A (zh) * 2020-03-30 2020-08-11 深圳市懿美莱科技有限公司 一种智能家庭网络播放器
JP2021164005A (ja) * 2020-03-30 2021-10-11 Kddi株式会社 画像復号装置、画像復号方法及びプログラム
CN111836065B (zh) * 2020-07-14 2022-04-29 北京场景互娱传媒科技有限公司 一种直播商标自动隐藏的智能方法
CN111882828B (zh) * 2020-07-22 2021-08-20 淮北智淮科技有限公司 一种防滑坡预警装置及其使用方法
CN112182895B (zh) * 2020-10-10 2022-08-23 中际联合(天津)科技有限公司 一种风机塔筒爬梯及防坠落布置方案图的自动分析方法
CN112890771B (zh) * 2021-01-14 2022-08-26 四川写正智能科技有限公司 一种基于毫米波雷达传感器监测睡眠状态的儿童手表
US11687539B2 (en) 2021-03-17 2023-06-27 International Business Machines Corporation Automatic neutral point of view content generation
US11972210B2 (en) * 2021-05-13 2024-04-30 Motorola Solutions, Inc. System and method for predicting a penal code and modifying an annotation based on the prediction
CN115191786B (zh) * 2022-08-04 2023-12-19 慕思健康睡眠股份有限公司 一种控制方法、装置、设备和存储介质
CN115432851B (zh) * 2022-08-23 2023-06-23 长兴瑷晟环保装备有限公司 一种高效混凝水力空化一体机
CN118278385B (zh) * 2024-05-29 2024-09-17 暗物智能科技(广州)有限公司 一种基于篇章卷面分析的测试方法、装置及可读存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5519608A (en) 1993-06-24 1996-05-21 Xerox Corporation Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation
JPH0756933A (ja) 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
US5331556A (en) 1993-06-28 1994-07-19 General Electric Company Method for natural language data processing using morphological and part-of-speech information
US5715468A (en) 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
JP2000029902A (ja) * 1998-07-15 2000-01-28 Nec Corp 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体
US6167370A (en) 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US6741986B2 (en) 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US6665661B1 (en) 2000-09-29 2003-12-16 Battelle Memorial Institute System and method for use in text analysis of documents and records
JP4630480B2 (ja) * 2001-03-19 2011-02-09 株式会社東芝 要約抽出プログラム、文書分析支援プログラム、要約抽出方法、文書分析支援方法、文書分析支援システム
JP2001357064A (ja) * 2001-04-09 2001-12-26 Toshiba Corp 情報共有支援システム
US9009590B2 (en) 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US7526425B2 (en) 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
WO2003027894A1 (en) 2001-09-26 2003-04-03 The Trustees Of Columbia University In The City Of New York System and method of generating dictionary entries
US7426509B2 (en) * 2002-11-15 2008-09-16 Justsystems Evans Research, Inc. Method and apparatus for document filtering using ensemble filters
WO2004072780A2 (en) 2003-02-05 2004-08-26 Verint Systems, Inc. Method for automatic and semi-automatic classification and clustering of non-deterministic texts
RU2236699C1 (ru) * 2003-02-25 2004-09-20 Открытое акционерное общество "Телепортал. Ру" Способ поиска и выборки информации с повышенной релевантностью
KR100515641B1 (ko) * 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
US7496500B2 (en) 2004-03-01 2009-02-24 Microsoft Corporation Systems and methods that determine intent of data and respond to the data based on the intent
US7970600B2 (en) * 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
US20070027860A1 (en) * 2005-07-28 2007-02-01 International Business Machines Corporation Method and apparatus for eliminating partitions of a database table from a join query using implicit limitations on a partition key value
US7376551B2 (en) 2005-08-01 2008-05-20 Microsoft Corporation Definition extraction

Also Published As

Publication number Publication date
US7668791B2 (en) 2010-02-23
EP2050019A1 (en) 2009-04-22
AU2007281638A1 (en) 2008-02-07
BRPI0714311A2 (pt) 2013-04-24
TWI431493B (zh) 2014-03-21
JP5202524B2 (ja) 2013-06-05
TW200817947A (en) 2008-04-16
NO20085387L (no) 2009-01-19
US20080027888A1 (en) 2008-01-31
EP2050019A4 (en) 2012-03-21
AU2007281638B2 (en) 2011-10-06
WO2008016491A1 (en) 2008-02-07
RU2451999C2 (ru) 2012-05-27
RU2009103145A (ru) 2010-08-10
JP2009545808A (ja) 2009-12-24

Similar Documents

Publication Publication Date Title
MX2009000588A (es) Optimizacion de extraccion de hecho utilizando acercamiento de etapas multiples.
Grefenstette Explorations in automatic thesaurus discovery
Schuler VerbNet: A broad-coverage, comprehensive verb lexicon
US9904726B2 (en) Apparatus and method for automated and assisted patent claim mapping and expense planning
US9400838B2 (en) System and method for searching for a query
JP2009545808A5 (es)
Frawley et al. Making dictionaries: Preserving indigenous languages of the Americas
JP2008511075A (ja) 法律上の要点をサーチするシステム及び方法
Oostdijk et al. N-gram-based recognition of threatening tweets
Gagné et al. Pseudo-morphemic structure inhibits, but morphemic structure facilitates, processing of a repeated free morpheme
Zhou et al. Headline summarization at ISI
Joanis Automatic verb classification using a general feature space
Karsdorp et al. Casting a spell: Identification and ranking of actors in folktales
Næss Beyond roots and affixes: Äiwoo deverbal nominals and the typology of bound lexical morphemes
Bruening Idioms, anaphora, and movement diagnostics
Sotudeh et al. Comparing discrimination powers of text and citation-based context types
Sposato Word order in Miao-Yao (Hmong-Mien)
Frunza Automatic identification of cognates, false friends, and partial cognates
Hledíková Conversion in English and Czech: A corpus study of semantic relations between nouns and verbs
Sundström How not to write a thesis or dissertation: a guide to success through failure
Considine Current projects in historical lexicography
Barr Focus and mood in Da'a discourse
Karwowski et al. Automatic indexer for Polish agricultural texts
Szpila Literary paremic loci in Salman Rushdie’s novels
Aleksanyan et al. Unsupervised extraction of local and global keywords from a single text