RU2451999C2 - Оптимизация извлечения факта с использованием многоэтапного подхода - Google Patents
Оптимизация извлечения факта с использованием многоэтапного подхода Download PDFInfo
- Publication number
- RU2451999C2 RU2451999C2 RU2009103145/08A RU2009103145A RU2451999C2 RU 2451999 C2 RU2451999 C2 RU 2451999C2 RU 2009103145/08 A RU2009103145/08 A RU 2009103145/08A RU 2009103145 A RU2009103145 A RU 2009103145A RU 2451999 C2 RU2451999 C2 RU 2451999C2
- Authority
- RU
- Russia
- Prior art keywords
- factual
- fact
- search term
- descriptions
- words
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Изобретение относится к способу и устройству для проведения информационного поиска. Техническим результатом является повышение достоверности результатов поиска. Из электронных документов извлекаются факты посредством распознавания фактографических описаний с использованием таблицы слов факта, сопоставляемых со словами электронных документов. Слова этих фактографических описаний могут быть обеспечены признаком соответствующей части речи. Далее выполняется более подробный анализ этих фактографических описаний, а не всего электронного документа, и, в частности, текста, окружающего соответствующие слова факта. Анализ может включать в себя идентификацию лингвистических элементов каждого словосочетания и определение их роли как подлежащего или как дополнения. Могут применяться правила исключения для удаления тех словосочетаний, которые, скорее всего, не являются частью фактов, причем эти правила исключения частично основаны на лингвистических элементах. К оставшимся словосочетаниям могут быть применены правила оценки, и для тех словосочетаний, которые имеют оценку, превышающую порог, соответствующая часть предложения, целое предложение, абзац или другая часть документа могут быть представлены как представляющие один или несколько фактов. 3 н. и 17 з.п. ф-лы, 6 ил., 4 табл.
Description
Уровень техники
Электронные документы могут содержать смесь фактов и мнений. Время от времени читателя могут интересовать только факты, или ему может потребоваться идентифицировать факты. Например, пользователю, выполняющему поиск информации в режиме онлайн, может потребоваться получить факты по конкретной теме настолько быстро и эффективно, насколько возможно. Однако представление списка web-страниц или других электронных документов, которые относятся к используемым термам поиска, требует, чтобы пользователь сам исследовал каждую web-страницу или другой электронный документ и отличал факты от мнений или субъективной информации.
Были сделаны попытки извлечения факта. Однако точное извлечение факта может быть медленным и неэффективным даже для быстродействующих компьютеров сервера. При таких попытках извлечения факта, как правило, применяют лингвистический анализ ко всему содержимому электронного документа для извлечения тех фактов, которые он может содержать. При применении извлечения факта к сотням или тысячам электронных документов, количество времени, необходимое для достижения результата, может быть недопустимым.
Сущность изобретения
С использованием многоэтапного подхода варианты осуществления обеспечивают оптимизацию извлечения факта. Бегло просматриваются электронные документы для обнаружения фактографических описаний, которые, скорее всего, содержат факты с использованием таблицы слов факта для сопоставления с термами в предложениях электронных документов для получения набора фактографических описаний. После этого можно выполнить дополнительный анализ, включающий в себя определение лингвистических элементов, например синтаксических элементов и/или семантики, в окружении этого набора фактографических описаний, а не во всем документе. Соответственно, за счет отказа от сложного лексического и синтаксического анализа всего документа для каждого представляющего интерес электронного документа обеспечивается экономия времени.
В этом кратком описании представлен в упрощенной форме перечень понятий, которые также описаны ниже в подробном описании. Это краткое описание не предназначено для определения основных или существенных признаков заявленного объекта изобретения, равно как и для использования в качестве вспомогательного средства в определении объема заявленного объекта изобретения.
Краткое описание чертежей
На фиг.1 изображен пример компьютерной системы для реализации вариантов осуществления.
На фиг.2 изображен пример последовательности операций поиска, включающей в себя представление фактов, которые были извлечены до поиска.
На фиг.3 изображен пример последовательности операций поиска, включающей в себя представление фактов, которые были извлечены во время поиска.
На фиг.4 изображен пример последовательности операций множества этапов извлечения факта.
На фиг.5 изображен пример более подробной последовательности операций множества этапов извлечения факта.
На фиг.6 изображен пример экранного устройства отображения, обеспечивающего результаты поиска, которые включают в себя представление фактов, полученных из электронных документов, обнаруженных при поиске.
Подробное описание
Варианты осуществления предусматривают извлечение факта с использованием нескольких этапов, чтобы избежать выполнения сложного анализа всех представляющих интерес документов. Фактографические описания документов распознаются согласно таблице слов факта на предварительном этапе. Эти фактографические описания могут быть обеспечены признаком их частей речи - существительного или глагола. Далее, на последующем этапе по этим фактографическим описаниям может быть сделан более подробный анализ, чтобы тем самым избежать такого подробного анализа по всем представляющим интерес документам. Для каждого фактографического описания можно определять лингвистические элементы, и затем можно использовать исключения и оценки для удаления фактографических описаний, которые, скорее всего, не являются фактами. Фактографические описания, оставшиеся после исключений и оценки, могут далее быть представлены как факт.
На фиг.1 изображен пример компьютерной системы 100, которая обеспечивает операционную среду для вариантов осуществления. Изображенная компьютерная система 100 может быть стандартной, универсальной программируемой компьютерной системой 100, включающей в себя процессор 102, а также различные компоненты, в том числе массовую память 112, память 104, адаптер 108 дисплея и одно или несколько устройств 110 ввода, например клавиатуру, вспомогательную клавиатуру, мышь и т.п. Процессор 102 обменивается информацией с каждым из компонентов через шину 106 передачи данных. Компьютерная система 100 также может включать в себя сетевой интерфейс 124, например проводное или беспроводное соединение, которое обеспечивает компьютерной системе 100 возможность обмениваться информацией с другими компьютерными системами через сети передачи данных. Компьютерная система 100 может в качестве альтернативы быть жестко закодированным специализированным устройством, которое реализует один или несколько вариантов осуществления.
В примере на фиг.1 процессор 102 реализует команды, сохраненные в массовой памяти 112 в виде операционной системы 114. Операционная система 114 в этом примере обеспечивает основу, на которой могут быть реализованы различные приложения, использующие компоненты компьютерной системы 100. Компьютерная система 100 может реализовать поисковый механизм 118 или аналогичное приложение для обнаружения электронных документов, относящихся к конкретной ситуации. Например, поисковый механизм 118 может принимать термы поиска, введенные непосредственно через устройство 110 ввода пользователем компьютерной системы 100, или может принимать термы поиска, указанные пользователем удаленного компьютера, которые принимаются через сетевой интерфейс 122.
Поиск и/или извлечение факта могут иметь место в отношении одного или нескольких наборов электронных документов, которые содержат текстовую информацию, например, web-страницы, стандартные документы обработки текстов, электронные таблицы и т.д. Эти электронные документы могут быть сохранены локально как набор 116 электронных документов. Эти электронные документы также могут быть сохранены не локально, например, на сетевом запоминающем устройстве 124, содержащем набор 126 электронных документов. Сетевое запоминающее устройство 124 представляет запоминающее устройство локальной сети, контролируемые центральным процессором ячейки памяти в Интернете и т.д. Сетевое запоминающее устройство 124 доступно через сетевой интерфейс 122.
Кроме того, эти варианты осуществления обеспечивают логику для реализации процессором 102 для извлечения фактов из электронных документов 116, 126. Инструмент 120 для извлечения факта может находиться на локальном запоминающем устройстве 112 как компонент операционной системы 114, или как компонент поискового механизма 118, или как другое приложение, или как автономное приложение, которое может формировать свои собственные независимые результаты. Логические операции, выполняемые вариантами осуществления инструмента 120 для извлечения факта, обсуждаются ниже согласно фиг.2 - фиг.5.
Компьютерная система 100 по фиг.1 может включать в себя множество машиночитаемых носителей информации. Такие машиночитаемые носители информации содержат команды для работы компьютерной системы и для реализации вариантов осуществления, обсуждаемых в этом документе. Машиночитаемыми носителями информации могут быть любые доступные носители информации, к которым компьютер 100 может получить доступ и которые содержат как энергозависимые, так и энергонезависимые носители информации, съемные и несъемные носители информации. В качестве примера, машиночитаемые носители информации могут включать в себя компьютерные носители информации, средства связи и т.д.
Компьютерные носители информации включают в себя энергозависимые и энергонезависимые, съемные и несъемные носители информации, реализованные любым способом или технологией для хранения информации, например, машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители информации включают в себя, например, RAM, ROM, EEPROM, флэш-память или другую технологию памяти, CD-ROM, универсальные цифровые диски (DVD) или другой накопитель на оптических дисках, магнитофонные кассеты, магнитную ленту, накопитель на магнитных дисках или другие магнитные запоминающие устройства, или любой другой носитель информации, который можно использовать для хранения требуемой информации и к которому компьютерная система 100 может получить доступ.
Коммуникационная среда обычно воплощает машиночитаемые команды, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущее колебание или другой транспортный механизм, и включают в себя любые среды доставки информации. Термин "модулированный сигнал данных" означает сигнал, одна или более характеристик которого установлены или изменяются таким образом, чтобы кодировать в этом сигнале информацию. В качестве неограничивающего примера, коммуникационная среда включает в себя проводную среду передачи, такую как проводная сеть или прямое проводное соединение, и беспроводную среду передачи, такую как акустическая, радиочастотная, инфракрасная и другие беспроводные среды. Комбинации любых приведенных выше носителей и сред также должны включаться в объем машиночитаемых носителей информации.
На фиг.2 изображен пример логических операций, выполняемых поисковым механизмом 118 вместе с инструментом 120 для извлечения факта. В этом примере инструмент 120 для извлечения факта используется до поиска, осуществляемого для формирования библиотеки фактов, присутствующих в электронных документах, в которых будет осуществляться поиск. Следовательно, не требуется время обработки для извлечения фактов, вместо этого эти факты уже извлечены и выбраны из библиотеки фактов на основе введенных термов поиска.
Логические операции начинаются с операции 202 сбора, в ходе которой получают набор электронных документов или каким-либо другим способом осуществляют доступ. Например, электронные документы, в которых со временем будет осуществляться поиск, могут быть сохранены на локальном запоминающем устройстве или могут запрашиваться для доступа по сети. Далее с каждым из этих электронных документов работает инструмент 120 для извлечения факта, который пытается извлечь все факты, которые присутствуют в упомянутых электронных документах. Инструмент 120 для извлечения факта может формировать библиотеку фактов, которые сохраняют совместно с соответствующими электронными документами и которые доступны во время будущих поисков. Например, такая библиотека ассоциаций представлена в таблице 1.
Таблица 1 | |
Электронный документ | Факты |
www.sample1.com | Факт A Факт B Факт C |
www.sample2.com | Факт AA Факт BB Факт CC |
www.sample3.com | Факт AAA |
Продолжая последовательность операций фиг.2, пользователь, которому требуется выполнить поиск для обнаружения соответствующих электронных документов, и, в частности, найти соответствующие факты из этих электронных документов, вводит терм поиска в поисковый механизм 118 при операции 206 с термом. В этом примере поисковый механизм 118 далее осуществляет поиск в упомянутых электронных документах на предмет термов поиска и находит соответствующие документы при операции 208 с документами. Поисковый механизм также находит ранее извлеченные факты, которые соответствуют термам поиска, из этих соответствующих электронных документов, и затем выводит на экран соответствующие документы или ссылку на них вместе с соответствующими фактами при операции 210 вывода на экран. Например, терм поиска может быть найдено в www.sample1.com, и также может быть обнаружено, что этот терм поиска соответствует Факту A и Факту B так, что на экран выводится ссылка на www.samplel.com вместе с Фактом A и Фактом B. Соответственно, пользователю быстро предоставляются факты, относящиеся к термам поиска, которые были введены. Пример такого экранного устройства отображения описан ниже со ссылкой на фиг.6.
Конечно, в качестве альтернативы поиск может осуществляться только в отношении ранее извлеченных фактов, а не в отношении самих электронных документов. Кроме того, при определенных обстоятельствах ранее извлеченные факты могут соответствовать термам поиска независимо от того, соответствуют ли электронные документы, содержащие упомянутые факты, термам поиска.
На фиг.3 изображен другой пример логических операций, выполняемых поисковым механизмом 118 вместе с инструментом 120 для извлечения факта. В этом примере инструмент 120 для извлечения факта используется во время поиска для обнаружения фактов, присутствующих в электронных документах, по мере их обнаружения при поиске. Следовательно, нет необходимости в извлечении фактов предварительного поиска и нет необходимости в хранении библиотеки фактов. При таком сценарии инструмент для извлечения факта может бегло просматривать только фрагменты или краткие описания документа для обеспечения очень быстрых результатов, или также может быть бегло просмотрен весь документ для извлечения всех потенциальных фактов.
Логические операции начинаются с операции 302 с термом поиска, где пользователь вводит терм поиска в поисковый механизм 118. В этом примере поисковый механизм 118 далее осуществляет поиск в упомянутых электронных документах на предмет термов поиска и находит соответствующие документы при операции 304 с документами. После этого инструмент 120 для извлечения используют при операции 306 извлечения для анализа электронных документов, которые были найдены при поиске, для извлечения фактов из тех документов, которые относятся к термам поиска. В результате операции 306 извлечения может формироваться временный набор ассоциаций между электронными документами и фактами, как представлено в таблице 1, который может затем быть помещен в постоянное запоминающее устройство в ожидании последующих поисков по этим термам поиска. После этого при операции 308 вывода на экран поисковый механизм выводит на экран соответствующие документы или ссылку на них вместе с соответствующими фактами, возвращенными инструментом 120 для извлечения факта при операции 306 извлечения.
На фиг.4 изображен многоэтапный подход, используемый вариантами осуществления инструмента 120 для извлечения факта. Вначале, инструмент 120 для извлечения факта пытается распознать набор фактографических описаний из представляющих интерес электронных документов при операции 402 распознавания. Цель данной работы состоит в том, чтобы найти те описания в тексте, которые, скорее всего, являются фактами, на основе обнаружения соответствий таблице слов факта, более подробно обсуждаемой ниже со ссылкой на фиг.5. С выполнением быстрой установки соответствия большая часть электронного документа, которая должна быть проигнорирована при поиске фактов, может быть удалена из дальнейшей обработки для извлечения факта, тем самым увеличивается эффективность последующего(их) этапа(ов), которые используются для увеличения точности.
После идентификации набора фактографических описаний для анализируемого документа далее при операции 404 извлечения в этом наборе фактографических описаний выполняется извлечение факта. Здесь более подробный анализ выполняется только в наборе фактографических описаний, в отличие от целого документа, для поддержки удовлетворительной эффективности при достижении адекватной точности. Анализ операции извлечения включает в себя принятие решения на основе определения лингвистических элементов фактографических описаний. Такие лингвистические элементы могут включать в себя синтаксические элементы, семантику и т.д.
На фиг.5 изображен пример подробностей операций распознавания и извлечения фиг.4. Логические операции начинаются с операции 502 сканирования, где инструмент 120 для извлечения факта сканирует электронный документ для обнаружения слов или словосочетаний, соответствующих словам или словосочетаниям из таблицы слов факта. Таблица слов факта является списком слов или словосочетаний, которые, как известно, скорее всего используются при выражении факта, в отличие, например, от мнения. В таблице 2 представлен короткий пример. Следует отметить, что для обеспечения выполнения оптимальной обработки слова из этой таблицы могут быть обеспечены признаком наиболее подходящей части речи (POS), который описан ниже согласно операции 504 с признаком.
Таблица 2 | |
Список слов факта | Признаки POS |
Слово/Словосочетание 1 | Признак POS |
Слово/Словосочетание 2 | Признак POS |
Слово/Словосочетание N | Признак POS |
Для определения слов, при которых приходит мысль о фактах, а не о мнениях, было проведено исследование. Например, класс слов, которые представляют факты, может быть получен с использованием исследования и работы по классификации глаголов и их лексических функций. Две соответствующих работы, которые можно использовать как материал для этого, включают в себя:
(1) Mel´cuk (1996) Lexical Functions: A Tool for the Description of Lexical Relations in the Lexicon. In L. Wanner (ed.): Lexical Functions in Lexicography and Natural Language Processing, Amsterdam/Philadelphia: Benjamins, 37-102.
(2) Fontenelle, T. (1997): "Discovering Significant Lexical Functions in Dictionary Entries", in Cowie, AP. (ed.) Phraseology: Theory, Analysis, and Applications, Oxford University Press, Oxford.
Соответственно, на основе такого исследования может быть создан список слов факта, как показано в таблице 2, включающий в себя эти глаголы или другие слова, которые наводят на мысль о выражении факта, в отличие от нефактической информации. Например, термы поиска "изобретенный" или "нанятый" наводят на мысль о выражении факта, тогда как термы "может быть" или "жалуется" не наводят на подобную мысль. Конкретный пример списка слов факта может быть найден в приложении A, находящемся в конце этого описания. Этот конкретный пример не является исчерпывающим списком глаголов, которые являются словами факта и могут использоваться для обнаружения фактографических описаний в электронных документах.
После применения таблицы слов факта к электронному документу или параллельно с применением таблицы слов факта, например, где признак POS уже связан со словами в таблице слов факта, части речи (POS) каждого из слов каждого фактографического описания обеспечиваются признаком при операции 504 обеспечения признаком. Эта операция 504 обеспечения признаком, которая может выполняться параллельно с операцией 502 сканирования (беглого просмотра) или после нее, может включать в себя устранение неоднозначности выборов для слов, которые имеют несколько признаков POS, например, предпочтение признака существительного признаку глагола, так как подразумевается, что синтаксические словосочетания, подобные именным словосочетаниям, как известно, являются сущностями, связанными с фактографическим событием. По этой причине любые неизвестные и предварительно не обеспеченные признаками слова могут также по умолчанию объявляться существительными. Как и существительные, прилагательные могут быть предпочтительнее глаголов (например, "запланированный" как прилагательное по сравнению с "запланирован" как глагол), а также те слова, которые имеют признак и прилагательного и глагола, по умолчанию будут объявляться прилагательными, так как прилагательное является частью именных словосочетаний, которые, как известно, являются сущностями, связанными с фактографическим событием. При создании ассоциаций признаков POS со словами таблицы слов факта, например, при создании таблицы, эти выборы с устранением неоднозначности могут уже быть применены, так что, например, слово "запланированный" в таблице связано с признаком POS прилагательного, а не с признаком POS глагола.
После обнаружения фактографических описаний и обеспечения слов фактографических описаний признаками POS может быть выполнен более полный анализ для улучшения точности извлечения факта без требования применения этой более полной обработки ко всему документу. При операции 506 идентификации идентифицируются синтаксические словосочетания, подобные именным словосочетаниям и глагольным словосочетаниям. Синтаксические словосочетания идентифицируются с использованием общепринятых правил грамматики и несложного лингвистического анализа. Идентифицируются окружающие синтаксические словосочетания, т.е. находящиеся в самой непосредственной близости от набора фактографических описаний в документе, и если у фактографического описания нет связанных с ним синтаксических словосочетаний, то соответствующее предложение может быть удалено из дальнейшего рассмотрения. Соответственно, при сосредоточении только на тех синтаксических словосочетаниях, которые находятся в окружении фактографического описания, избегают просмотра всех лингвистических элементов целого предложения.
Кроме того, при операции 506 идентификации с оценкой роли, которую синтаксическое словосочетание играет в соответствующем предложении, на основе образца, идентифицированного в фактографическом описании, далее определяются лингвистические элементы фактографических описаний, имеющих окружающие синтаксические словосочетания. Соответственно, из образца слова фактографического описания определяется, играет ли синтаксическое словосочетание роль подлежащего или дополнения в предложении, содержащем анализируемое в данный момент фактографическое описание.
После определения лингвистических элементов фактографических описаний, т.е. когда синтаксические словосочетания и их роли идентифицированы, далее при операции 508 исключения к этим именным словосочетаниям фактографических описаний могут быть применены правила исключения для дальнейшего удаления тех, которые, скорее всего, не являются выражением факта. Правила исключения могут применяться на основании того, что синтаксическое словосочетание является дополнением, синтаксическое словосочетание является подлежащим или без учета роли синтаксического словосочетания. Кроме того, в этом конкретном варианте осуществления правило исключения, применяемое к отдельным словам, к синтаксическим словосочетаниям или к целому предложению, приводит к идентичному результату, который заключается в исключении целого предложения из фактографических описаний. Пример правил исключения, которые могут быть применены, представлен в таблице 3.
Таблица 3 | |
Правила исключения | Вывод |
«Дополнение» имеет модификатор «мнение/необъективный» | Исключить предложение-кандидат |
Фильтры предложения: - начальное слово предложения (например, местоимения) - пунктуация: например «?» |
Исключить предложение-кандидат |
«Подлежащее» имеет определенный артикль - если не имя собственное | Исключить предложение-кандидат |
Окружающий «Контекст» «Дополнения» | Исключить предложение-кандидат, если окружающий контекст имеет конкретный POS, который не указывает на факт (например, некоторый класс местоимений) |
В предложении встречаются стоп-слова | Исключить предложение-кандидат |
«Подлежащее» (или) «Объект» содержат местоимения | Исключить именное словосочетание |
После применения правил исключения или параллельно с применением правил исключения применяют правила оценки при операции 510 оценки. Правила оценки задают вес и именным словосочетаниям-подлежащим, и именным словосочетаниям-дополнениям для каждого из различных признаков, и общей оценкой для фактографического описания-кандидата является сумма весов отдельных признаков плюс оценка достоверности соответствующего слова факта. Веса отдельных признаков могут быть положительными при указании на факт и могут быть отрицательными при указании на нефактическую информацию. Примеры признаков и связанных правил оценки приведены ниже в таблице 4. Оценки признаков могут назначаться вручную с использованием суждения человека, или их можно узнавать автоматически.
Таблица 4 | |
Признаки | Правила оценки |
Оценка достоверности соответствующего образца (слово факта, например, смысловой глагол) | |
Класс ролей (т.е. подлежащее или глагол), например человек, страна, организация и т.д. | Оценка для каждого класса |
Основное «Подлежащее» содержит имя собственное | Обычный вес |
Длина «Дополнения» | Оценка длины |
Длина «Подлежащего» | Оценка длины |
Длина предложения | Оценка длины |
«Подлежащее» появляется в начале предложения - например, вынос подлежащего «Дополнение» имеет модификатор (прилагательное, наречия) |
Положительная оценка Отрицательный - Основной вес |
«Дополнение» имеет определенный артикль (“the”) | Отрицательный - Основной Исключается, когда заканчивает предложение с глаголом-связкой |
Далее, при операции 512 вопроса общая оценка для фактографического описания сравнивается с предопределенным порогом для определения, превышает ли общая оценка порог. Если порог не превышен, то соответствующее фактографическое описание может быть отвергнуто. Если порог превышен, то фактографическое описание, полное предложение и/или полный абзац или другая часть документа могут быть представлены как факт при операции 514 представления. Это представление может включать в себя вывод на экран факта, сохранение факта в библиотеке и т.д.
При использовании правил оценки и сравнении с порогом, весами, назначенными признакам, и/или значением порога можно манипулировать без манипуляции целым подходом к извлечению факта. Следовательно, степенью точности извлечения факта и представлением можно управлять, в то время как этапы обработки остаются неизменными.
На фиг.6 изображен иллюстративный снимок 600 экрана, получающийся в результате выполнения поиска. Термы поиска были введены в поисковое поле 602 для проведения поиска. Терм поиска был сопоставлен с различными ссылками 604 на web-сайты, доступные в Интернете. Пользователь может обращаться к электронным документам обычным способом.
Кроме того, факты 610, 612 и 614 о терме поиска выводятся на экран в разделе 608. Соответственно, пользователь может быстро определять факты о предмете поиска без необходимости обращения к какому-либо из электронных документов, которые были найдены, и без необходимости самому читать и отличать факт от мнения. В этом конкретном примере факты 610, 612 и 614 включают в себя гиперссылки, которые пользователь может выбирать, для предоставления подробной информации об источнике факта и/или для представления контекста, в котором факты были обнаружены (например, связанная с фактом дата, другие факты и т.д.).
Следует понимать, что снимок 600 экрана является лишь одним примером того, как факты могут быть представлены пользователю. Вместо того, чтобы представлять их в отдельном столбце, как показано, они могут быть перечислены как подэлементы электронного документа, из которого они были извлечены. Кроме того, в качестве альтернативы перечислению фактов на странице с результатами поиска или в дополнение к нему, факты, извлеченные из конкретного электронного документа, могут также быть перечислены в столбце или другом месте при просмотре пользователем самого электронного документа. Кроме того, в качестве альтернативы отделению фактов от документа для вывода на экран или в дополнение к нему, факты могут выделяться в электронных документах и в списке 604 документов в пределах результатов поиска, и в пределах всего электронного документа, когда его выбирают для вывода на экран. В качестве еще одной альтернативы, факты могут выводиться на экран независимо от результатов поиска, например, вывод на экран только фактов с выбираемой ссылкой для получения исходных документов, где осуществлен поиск только извлеченных фактов, чтобы тем самым полностью избежать поиска в документе.
Кроме того, следует понимать, что представление извлеченных фактов, например представленных на снимке 600 экрана, может быть обеспечено в виде вывода на экран локального компьютера с реализацией поиска и извлечения факта для локального пользователя. В качестве альтернативы, представление извлеченных фактов, например изображенных на снимке 600 экрана, может быть обеспечено в виде вывода на экран удаленного компьютера, который запросил локальный компьютер выполнить поиск и извлечение факта от его имени, например, в случае поискового механизма, размещенного в Интернете.
Соответственно, можно эффективно и точно извлекать факты из документов для представления пользователям. За счет многоэтапного подхода увеличена эффективность при исключении необходимости детализированного анализа всех документов, а также при исключении необходимости детализированного анализа всего предложения, где было найдено фактографическое описание. Точность поддерживается с использованием дополнительного анализа фактографических описаний, которые были обнаружены в документе на предварительном этапе обработки.
Несмотря на то что изобретение было изображено и описано, в частности, согласно различным вариантам его осуществления, специалистам в данной области техники будет понятно, что могут быть внесены различные другие изменения по форме и в деталях, не выходящие за пределы сущности и объема изобретения. Например, при проведении синтаксического анализа фактографического описания, а не позже, во время применения других правил исключения, могут быть применены определенные правила исключения, которые не имеют отношения к лингвистическим элементам фактографического описания, например правила исключения, основанные на пунктуации предложения.
Приложение A - Слова факта
abase (унижать) abate (уменьшать) abort (прерывать) abrade (стирать) abridge (сокращать) absorb (поглощать) abstract (абстрагировать) accelerate (ускорять) accent (акцентировать) accept (принимать) accredit (аккредитовать) achieve (достигать) act (действовать) add (добавлять) address (обращаться) adduce (представлять) adjust (регулировать) administer (управлять) admit (признавать) advance (продвигать) advertise (рекламировать) aerate (проветривать) afford (предоставлять) aggravate (ухудшать) agree (соглашаться) aid (помогать) aim (нацеливать) air (проветривать) allay (смягчать) alleviate (облегчать) alter (изменять) amend (исправлять) amplify (усиливать) amuse (развлекать) animate (оживлять) announce (объявлять) answer (отвечать) antedate (предшествовать) appear (появляться) appease (успокаивать) apply (применять) argue (утверждать) arouse (пробуждать) arrange (организовывать) arrest (арестовывать) arrive (прибывать) ask (спрашивать) assemble (собирать) assert (утверждать) asseverate (торжественно заявлять) assign (назначать) assuage (успокаивать) assure (уверять) attach (прилагать) attack (нападать) attenuate (уменьшать) avert (предотвращать) avoid (избегать) awake (будить) award (награждать) back (поддерживать) bail (брать на поруки) bank (наваливать) bar (преграждать) barbarize (одичать) bare (обнажать) base (базировать) batter (разбивать) beach (вытаскивать на берег) beam (излучать) bear (переносить) become (становиться) befog (затуманивать) befuddle (удивлять) beget (порождать) begin (начинать) begrime (чернить) belch (изрыгать) belie (противоречить) bend (сгибать) benumb (парализовать) bequeath (завещать) bestow (даровать) betray (предавать) better (улучшать) bind (связать) blackleg (жульничать) blanket (покрывать) bleach (отбеливать) blemish (портить) blend (смешивать) blight (разрушать) blister (вызывать пузыри) block (блокировать) blockade (блокировать) blow (дуть) blunder (натыкаться) blunt (притуплять) blur (размывать) blurt (выбалтывать) bob (слегка ударять) bog (увязать) boil (кипятить) bolster (поддерживать) boost (повышать) bowdlerize (выхолащивать) bowl (катать) brace (окружать) brand (клеймить) brave (выдерживать) break (ломать) brief (сокращать) brighten (проясняться) bring (приносить) broadcast (вещать) bruise (ушибать) buckle (скреплять пряжкой) build (строить) bull (играть на повышение) bunch (связывать) bundle (связывать) bung (закупоривать) burlesque (пародировать) burn (жечь) burst (разрывать) bury (хоронить) buy (покупать) bypass (обходить) canvass (агитировать) cap (увенчивать) capitalize (капитализировать) carry (нести) cast (бросать) castigate (наказывать) castrate (кастрировать) catch (ловить) chafe (тереть) change (изменять) channel (направлять) charge (обвинять) check (проверять) chill (охлаждать) chime (звенеть) chip (разбиваться) chock (подпирать) choke (душить) choose (выбирать) churn (взбалтывать) cipher (шифровать) circulate (циркулировать) circumvent (обходить) claim (требовать) clash (сталкиваться) clean (чистить) cleanse (чистить) clear (очищать) climb (подниматься) clinch (договариваться) clip (обрезать) clog (засоряться) close (закрывать) clot (сгущаться) cloud (омрачать) cockle (морщиться) coin (чеканить) collapse (разрушаться) collect (собирать) colour (окрашивать) comfort (успокаивать) commission (уполномочивать) commit (совершать) communicate (сообщать) compare (сравнивать) complete (заканчивать) compound (составлять) compress (сжимать) compromise (компрометировать) conceal (скрывать) concede (уступать) conceive (понимать) conciliate (примирять) conclude (заключать) conduct (проводить) confess (признаваться) confide (доверять) confirm (подтверждать) confound (путать) confuse (путать) congeal (замораживать) connect (соединять) conserve (сохранять) consolidate (объединять) constitute (составлять) constrain (ограничивать) constrict (сжимать) continue (продолжать) contort (искажать) contract (сокращать) control (управлять) convert (преобразовать) convey (передавать) cook (готовить) cool (охлаждать) cordon (загораживать) correct (исправлять) corrode (разъедать) corrupt (развращать) counter (противостоять) countersink (зенковать) cover (покрывать) crack (взламывать) crank (проворачивать) crash (разбивать) craze (сводить с ума) create (создавать) cripple (калечить) crop (подрезать) cross (пересекать) crumble (крошить) crush (давить) cry (кричать) curb (обуздывать) curdle (свертываться) curtail (сокращать) cushion (смягчать) cut (резать) damage (повреждать) damp (заглушать) dance (танцевать) dangle (свисать) darken (темнеть) darn (чинить) dash (разбивать) deaden (ослаблять) deal (иметь дело) debase (понижать качество) debauch (соблазнять) debunk (разоблачать) decay (разлагать) decide (решать) declare (объявлять) deepen (углублять) deface (стирать) defeat (побеждать) defend (защищать) deflate (выкачивать) deflect (отклонять) deform (искажать) defrost (размораживать) delay (задерживать) delegate (делегировать) deliver (поставлять) demise (передавать по наследству) demonstrate (демонстрировать) dent (вдавливать) deny (отрицать) deplete (исчерпывать) depreciate (обесценивать) depress (подавлять) deprive (лишать) depute (передавать) derange (нарушать) describe (описывать) desecrate (осквернять) design (проектировать) designate (обозначать) desolate (опустошать) despoil (грабить) destroy (разрушать) detail (детализировать) detect (обнаруживать) deteriorate (ухудшать) determine (устанавливать) develop (развивать) die (умирать) differentiate (дифференцировать) diffuse (разбрасывать) dilute (растворять) dim (тускнеть) diminish (уменьшать) direct (направлять) dirty (пачкать) disable (калечить) disappear (исчезать) discharge (разгружать) discipline (дисциплинировать) disclose (раскрывать) discolour (обесцвечивать) disconnect (разъединять) discontinue (прекращать) discover (обнаруживать) discuss (обсуждать) disfigure (уродовать) disguise (маскировать) dislocate (смещать) dislodge (смещать) dismantle (демонтировать) dismount (снимать) disorder (приводить в беспорядок) dispatch (отправлять) dispense (распределять) disperse (рассеивать) display (отображать) dispute (дискутировать) disrupt (разрушать) distil (дистиллировать) distinguish (различать) distort (искажать) disturb (нарушать) divert (отклонять) divide (делить) dock (состыковывать) doctor (лечить) dodge (избегать) double (удваивать) douse (окунать) draft (проектировать) dramatize (драматизировать) draw (тянуть) dredge (посыпать) dress (украшать) drive (ездить) drop (понижать) drown (тонуть) duff (подновлять) dull (притуплять) earth (закапывать) ease (ослаблять) eat (есть) educate (обучать) effect (осуществлять) elevate (поднимать) elicit (выявлять) elude (уклоняться) emancipate (эмансипировать) embellish (украшать) embitter (озлоблять) embody (воплощать) emit (испускать) emphasize (подчеркивать) enable (позволять) encourage (поощрять) end (заканчивать) endorse (подтверждать) endow (обеспечивать) enforce (заставлять) engage (участвовать) enhance (увеличивать) enjoin (предписывать) enlarge (увеличивать) enliven (оживлять) ennoble (облагораживать) enrich (обогащать) enrol (регистрировать) enshrine (хранить) entail (влечь за собой) entangle (запутывать) enthrone (возводить на престол) entrust (поручать) enunciate (излагать) epitomize (воплощать) equalize (уравнивать) erect (устанавливать) escalate (наращивать) establish (устанавливать) evade (уклоняться) evaporate (испаряться) evince (проявлять) evoke (вызывать) exacerbate (усиливать) exact (взыскивать) exaggerate (преувеличивать) examine (исследовать) exasperate (сердить) exceed (превышать) excite (возбуждать) exhale (выдыхать) exhibit (выставлять) exist (существовать) expand (расширять) expedite (ускорять) explain (объяснять) expose (выставлять) expound (разъяснять) express (выражать) extend (расширять) extinguish (гасить) extort (вымогать) extract (выделять) fabricate (изготовлять) face (встречаться) fade (исчезать) fail (подводить) fake (подделывать) fall (падать) falsify (фальсифицировать) familiarize (ознакомлять) fasten (закреплять) father (порождать) fatten (откармливать) feature (характеризовать) feed (кормить) ferry (переправлять) fertilize (оплодотворять) festoon (украшать) fiddle (играть) fight (бороться) fill (заполнять) filter (фильтровать) finalize (завершать) find (находить) finish (заканчивать) fire (стрелять) fit (приспосабливать) fix (закреплять) flag (сигнализировать) flash (высвечивать) flaunt (щеголять) flay (свежевать) float (плавать) flood (затоплять) floodlight (освещать прожектором) flourish (процветать) flush (смывать) fly (летать) fog (затуманивать) foil (мешать) fold (сгибать) follow (следовать) force (вынуждать) forge (ковать) forgive (прощать) form (формировать) foster (способствовать) foul (загрязнять) found (основанный) frame (обрамлять) fray (изнашиваться) free (освобождать) freeze (замораживать) frustrate (разбивать) furl (сворачивать) furnish (снабжать) furrow (пахать) fuse (плавить) gain (приобретать) gallop (скакать) garble (искажать) gash (наносить рану) generate (производить) gerrymander (манипулировать фактами) get (получать) give (давать) gladden (радовать) glorify (прославлять) gloss (придавать блеск) glut (насыщать) go (идти) govern (управлять) grade (сортировать) graduate (градуировать) grant (предоставлять) grate (тереть) graze (задевать) ground (обосновывать) group (группировать) grow (расти) guide (руководствовать) halt (останавливать) halve (сокращаться наполовину) hamper (препятствовать) handle (обрабатывать) happen (случаться) harass (беспокоить) harbour (стать на якорь) harden (укреплять) harm (вредить) harmonize (гармонировать) harry (изматывать) hasten (спешить) hatch (штриховать) head (возглавлять) heal (излечивать) hear (слышать) heat (нагревать) heighten (усиливать) help (помогать) hide (скрывать) hit (ударять) hoard (копить) hoist (поднимать) hold (держать) hope (надеяться) hound (преследовать) hurt (повреждать) identify (идентифицировать) illuminate (освещать) imagine (воображать) impair (ослаблять) impart (обеспечивать) impeach (привлекать к ответственности) impede (препятствовать) imperil (подвергать опасности) implant (внедрять) improve (улучшать) inaugurate (вводить в должность) increase (увеличивать) indent (зазубривать) indenture (связывать договором) indicate (указывать) induce (побуждать) induct (вводить в должность) infect (заражать) infiltrate (пропитывать) infix (вставлять) inflame (воспламенять) inflate (раздувать) inflict (причинять) influence (влиять) inform (сообщать) infuse (вселять) initial (подписывать) initiate (инициализировать) injure (ранить) insert (вставлять) inspire (вдохновлять) instigate (провоцировать) instil (прививать) institute (назначать) integrate (объединять) intend (предназначать) intensify (усиливать) interpolate (интерполировать) interrupt (прерывать) intimate (сообщать) introduce (представлять) invert (инвертировать) invigorate (поддерживать) invite (приглашать) invoke (вызывать) involve (вовлекать) issue (выпускать) jab (тыкать) jam (зажимать) jettison (выбрасывать за борт) jingle (звенеть) join (соединять) jumble (смешивать) jump (подскакивать) justify (оправдывать) keep (продолжать) kick (пинать) kill (убивать) kindle (разжигать) knock (стучать) lacerate (раздирать) ladder (взбираться по лестнице) lance (метать) land (приземляться) laugh (смеяться) launch (запускать) lay (класть) layer (наслаивать) lead (приводить) leave (оставлять) lend (предоставлять) lengthen (удлинять) lessen (уменьшать) let (позволять) level (выравнивать) liberate (освобождать) lie (лежать) light (освещать) lighten (освещать) limit (ограничивать) line (выравнивать) link (связывать) listen (слушать) litter (сорить) live (жить) liven (оживлять) load (загружать) lock (запирать) loose (освобождать) loosen (ослаблять) lose (терять) lower (понижать) lump (образовывать комки) magnify (увеличивать) maintain (поддерживать) make (делать) manage (управлять) mangle (корежить) manipulate (манипулировать) manufacture (производить) mark (отмечать) marshal (выстраивать) mask (маскировать) match (соответствовать) matter (иметь значение) maul (расщеплять) measure (измерять) meet (встречать) mellow (созревать) melt (таять) mend (исправлять) mention (упоминать) mildew (поражать милдью) mind (возражать) misrepresent (искажать) miss (пропускать) mist (затуманиваться) mitigate (смягчать) modify (изменять) mollify (успокаивать) moot (обсуждать) mould (формировать) move (перемещать) muddle (запутывать) muddy (пачкать) muffle (приглушать) muss (приводить в беспорядок) muster (собирать) mute (приглушать) mutilate (искажать) narrow (сужать) navigate (осуществлять навигацию) neaten (убирать) nick (отмечать) nip (прищемить) notch (маркировать) notice (обращать внимание) nourish (кормить) nurse (нянчить) obfuscate (запутывать) obscure (затенять) obstruct (затруднять) obtain (получать) occupy (занимать) occur (происходить) offend (оскорблять) offer (предлагать) open (открывать) operate (управлять) oppose (возражать) order (заказывать) originate (происходить) outline (обрисовывать в общих чертах) overcharge (перегружать) overdo (переусердствовать) overflow (переполнять) overturn (опрокидывать) overwork (переутомлять) pacify (умиротворять) pack (упаковывать) pad (дополнять) panic (паниковать) paralyze (парализовать) pare (чистить) parlay (поставить на кон) parole (условно освобождать) parry (парировать) part (разделять) partition (разделить) pass (передавать) patch (исправлять) pay (платить) peal (трезвонить) peddle (торговать вразнос) peg (привязывать) penalize (штрафовать) perform (выполнять) perish (погибать) persecute (преследовать) pervert (извращать) phrase (формулировать) pick (выбирать) pillow (служить подушкой) pique (задевать) pit (делать ямки) placard (использовать плакаты для рекламы) place (размещать) plan (планировать) plant (сажать) play (играть) pluck (щипать) plug (включать) plunge (погружать) point (указывать) poison (отравлять) pole (подпирать шестами) polish (полировать) poll (опрашивать) pool (объединять) pop (хлопать) pose (позировать) position (помещать) post (отправлять) pound (загонять) preach (проповедовать) precipitate (ускорять) predate (предшествовать) prefer (предпочитать) prejudice (наносить ущерб) preoccupy (занимать) prepare (готовить) present (представлять) preserve (сохранять) prettify (украшать) prevent (предотвращать) prick (укалывать) prime (заправлять) proclaim (объявлять) procure (обеспечивать) produce (производить) profess (выражать) programme (программировать) promote (продвигать) promulgate (провозглашать) prop (подпирать) propagandize (пропагандировать) propel (продвигать) propound (представлять на обсуждение) prosecute (преследовать по суду) protect (защищать) protest (возражать) prove (доказывать) provide (обеспечивать) provoke (вызывать) prune (сокращать) publicize (разглашать) publish (издавать) pull (тянуть) pulp (превращать в мягкую массу) punch (избивать) puncture (прокалывать) punish (наказывать) punt (плыть на плоскодонке) purge (очищать) push (толкать) put (помещать) qualify (квалифицировать) quarter (квартировать) quench (подавлять) question (расспрашивать) quicken (ускорять) quieten (успокаивать) quilt (стегать) race (мчаться) raise (поднимать) ransack (рыться) rap (стучать) rationalize (рационализировать) rattle (грохотать) re-engage (вновь сцеплять) re-establish (восстанавливать) re-form (преобразовывать) read (читать) rear (поднимать) reawaken (снова пробуждать) recall (вспоминать) receive (принимать) reclaim (востребовать) recline (откидывать) recognize (признавать) recommend (рекомендовать) reconcile (примирять) reconsider (пересматривать) record (записывать) recruit (вербовать) reduce (уменьшать) refer (ссылаться) refine (очищать) reflect (отражать) refloat (заново выпускать заем) reform (преобразовывать) refuse (отказывать) regard (расценивать) register (регистрировать) regulate (регулировать) rehabilitate (реабилитировать) rehearse (репетировать) reinforce (укреплять) reissue (переиздавать) reject (отклонять) rekindle (разжигать) relate (иметь отношение) relax (расслаблять) release (освобождать) relieve (освобождать) reline (заменять обшивку) remould (восстанавливать протектор) remove (удалять) rend (отрывать) renew (возобновлять) renovate (ремонтировать) reopen (вновь открывать) repair (восстанавливать) replace (заменять) report (сообщать) republish (переиздавать) require (требовать) rerun (запускать повторно) reseat (переустанавливать) resist (сопротивляться) rest (отдыхать) restart (перезапускать) restore (восстанавливать) restrain (ограничивать) result (приводить) resurrect (возрождать) retail (продавать в розницу) retain (удерживать) recline (удаляться) retract (отрекаться) retrench (сокращать) retrieve (восстанавливать) return (возвращать) reveal (разоблачать) reverse (полностью изменять) revive (возрождать) rewind (перематывать) right (исправлять) ring (звонить) rise (вставать) roast (жарить) rock (качать) roll (катить) rotate (вращать) rouse (пробуждать) row (грести) ruffle (раздражать) ruin (разрушать) rumple (приводить в беспорядок) run (бежать) rush (мчаться) rustle (шелестеть) sail (плавать) salvage (спасать) sap (иссушать) save (спасать) scald (ошпаривать) scorch (опалять) score (подсчитывать) scotch (пресечь) scratch (царапать) scream (кричать) scuff (протирать) scupper (топить) scuttle (удирать) seal (запечатывать) sear (иссушать) seat (усаживать) secure (обеспечивать) see (видеть) sell (продавать) send (отправлять) serve (служить) set (устанавливать) settle (улаживать) sever (разъединять) shake (встряхивать) shame (позорить) sharpen (заострять) shatter (разрушать) sheathe (вкладывать в ножны) shed (проливать) shelter (укрывать) shield (ограждать) shift (перемещать) shine (сиять) shingle (крыть) shirk (уклоняться) shoot (стрелять) shorten (сокращать) shout (кричать) show (показывать) shrink (сокращать) shut (закрывать) sift (просеивать) sign (подписывать) signal (сигнализировать) signalize (сигнализировать) signify (иметь значение) simmer (кипеть) sing (петь) singe (палить) sink (погружать) sit (сидеть) site (помещать) situate (располагать) skirt (окаймлять) slacken (замедлять) slake (уменьшать) slash (резать) sleep (спать) slice (нарезать) slip (скользить) slow (замедлять) smear (порочить) smile (улыбаться) smudge (оставлять пятна) snag (поймать) snap (хватать) snarl (спутывать) snuff (нюхать) sober (отрезвлять) soften (смягчать) soil (пачкать) solace (сочувствовать) solidify (укреплять) soothe (успокаивать) sort (сортировать) sound(звучать) sour (закисать) sow (сеять) spare (экономить) spark (зажигать) speak (говорить) speck (усеивать) speed (ускорять) spill (проливать) spin (прясть) splinter (раскалывать) split (раскалывать) splodge (хлюпать) spoil (портить) sponsor (спонсировать) sport (заниматься спортом) spot (определять) spout (извергать) sprain (вывихивать) spray (распылять) spread (распространять) spring (снабжать пружиной) square (согласовывать) squash (раздавить) squeeze (сжимать) stack (загромождать) staff (укомплектовывать) stain (окрашивать) stalemate (ставить в безвыходное положение) stall (останавливать) stamp (штамповать) stand (выдерживать) star (играть главную роль) starch (крахмалить) start (начинать) staunch (останавливать) stay (оставаться) steady (стабилизировать) steer (регулировать) stem (происходить) step (ступать) stick (прикреплять) stiffen (напрягаться) still (успокаивать) stir (размешивать) stoke (топить) stop (останавливать) store (запасать) straighten (выправлять) strain (напрягать) strand (переплетать) strengthen (усиливать) stress (подчеркивать) stretch (протягивать) strike (ударять) strip (раздевать) strum (играть) study (изучать) stuff (наполнять) stultify (сводить на нет) stunt (останавливать рост) subdue (подчинять) subscribe (подписывать) subvert (ниспровергать) succeed (преуспевать) suffer (страдать) suggest (предлагать) suit (удовлетворять) summarize (суммировать) supplement (добавлять) supply (поставлять) support (поддерживать) suppose (предполагать) suppress (подавлять) surface (появляться) surrender (сдавать) survive (переживать) suspend (приостанавливать) sustain (выдерживать) sweep (смахивать) sweeten (подслащивать) swell (раздувать) swing (качать) swish (размахивать) taint (заражать) tarnish (запятнать) task (задавать работу) teach (учить) tear (рвать) telephone (звонить) temper (умерять) tend (склоняться) thank (благодарить) thaw (таять) thin (утончать) thrill (трепетать) throw (бросать) thrust (толкать) thump (ударять) thwart (мешать) tidy (приводить в порядок) tighten (уплотняться) toll (звонить) tootle (издавать негромкие звуки) topple (свергать) torment (мучить) torture (мучить) total (насчитывать) touch (касаться) toughen (ужесточать) tousle (ерошить) tow (буксировать) train (обучать) trample (растаптывать) transfer (передавать) transplant (трансплантировать) trap (заманивать в ловушку) travel (путешествовать) treat (лечить) trigger (вызывать) trim (урезать) truss (связывать) try (пробовать) tumble (упасть) turn (поворачивать) twang (звучать) twiddle (вертеть) twirl (вращать) twist (крутить) unblock (открывать) unburden (облегчать бремя) unclog (прочищать) undo (уничтожать) unfasten (откреплять) unfix (откреплять) unfold (разворачивать) unhinge (расстраивать) unhitch (отцеплять) unite (объединять) unloose (ослаблять) unravel (распутывать) unsaddle (расседлывать) unseat (сбрасывать) unsex (кастрировать) unstop (откупоривать) untangle (распутывать) untwist (раскручивать) uphold (поддерживать) upset (опрокидывать) urge (убеждать) use (использовать) validate (утверждать) vandalize (разрушать) veer (поворачивать) veil (скрывать) ventilate (проветривать) vocalize (напевать) voice (высказывать) vote (голосовать) vulgarize (опошлять) waft (доноситься) waggle (покачивать) wake (будить) walk (идти) wangle (заполучить) warm (нагревать) warn (предупреждать) warp (деформировать) warrant (гарантировать) wash (вымыть) watch (наблюдать) weaken (ослаблять) wean (отнимать от груди) wear (носить) weave (ткать) weep (плакать) weld (сваривать) whet (точить) whirl (кружить) whitewash (ретушировать) widen (расширять) wield (владеть) wiggle (шевелить) wilt (слабеть) win (выигрывать) wind (проветривать) wing (лететь) wipe (вытирать) wire (телеграфировать) wish (желать) withdraw (отзывать) wither (увядать) withhold (отказывать) work (работать) worry (волновать) wreak (давать выход) wreck (разрушать) wrest (вырывать) wring (скручивать) wrinkle (морщить) write (писать) yield (уступать).
Claims (20)
1. Способ различения фактов и мнений в электронных ресурсах,
осуществляемый с помощью компьютера и выполняемый процессором, причем способ содержит
прием терма поиска, содержащего существительное,
обнаружение релевантных электронных ресурсов, которые соответствуют терму поиска,
отображение списка релевантных электронных ресурсов и фрагментов релевантных электронных ресурсов в списке, содержащих слова, соответствующие терму поиска,
сканирование релевантного электронного ресурса для обнаружения фактографических описаний из предложений, которые содержат
существительное из терма поиска и один или более глаголов, соответствующих словам таблицы слов факта, построенной так, что она включает в себя список глаголов, определенных как указывающие на выражение факта,
удаление из обработки для извлечения фактов тех частей релевантного электронного ресурса, которые содержат слова, не соответствующие терму поиска, и слова таблицы слов факта,
исследование обнаруженных фактографических описаний для идентификации лингвистических элементов фактографических описаний после удаления частей релевантного электронного ресурса,
определение, следует ли представить фактографическое описание как факт, на основе идентифицированных лингвистических элементов, и
представление по меньшей мере части предложения, которое содержит термы поиска и фактографическое описание, определенное как факт, релевантный терму поиска.
осуществляемый с помощью компьютера и выполняемый процессором, причем способ содержит
прием терма поиска, содержащего существительное,
обнаружение релевантных электронных ресурсов, которые соответствуют терму поиска,
отображение списка релевантных электронных ресурсов и фрагментов релевантных электронных ресурсов в списке, содержащих слова, соответствующие терму поиска,
сканирование релевантного электронного ресурса для обнаружения фактографических описаний из предложений, которые содержат
существительное из терма поиска и один или более глаголов, соответствующих словам таблицы слов факта, построенной так, что она включает в себя список глаголов, определенных как указывающие на выражение факта,
удаление из обработки для извлечения фактов тех частей релевантного электронного ресурса, которые содержат слова, не соответствующие терму поиска, и слова таблицы слов факта,
исследование обнаруженных фактографических описаний для идентификации лингвистических элементов фактографических описаний после удаления частей релевантного электронного ресурса,
определение, следует ли представить фактографическое описание как факт, на основе идентифицированных лингвистических элементов, и
представление по меньшей мере части предложения, которое содержит термы поиска и фактографическое описание, определенное как факт, релевантный терму поиска.
2. Способ по п.1, в котором определение, следует ли представить
фактографическое описание как факт на основе идентифицированного лингвистического элемента содержит
применение правил исключения в отношении лингвистических элементов фактографических описаний для удаления определенных фактографических описаний из рассмотрения,
оценивание фактографических описаний,
сравнение оценок каждого фактографического описания, оставшегося в рассмотрении, с порогом, и
для каждого фактографического описания, имеющего оценку, которая превышает порог, представление по меньшей мере части предложения, содержащего это фактографическое описание, как факта.
фактографическое описание как факт на основе идентифицированного лингвистического элемента содержит
применение правил исключения в отношении лингвистических элементов фактографических описаний для удаления определенных фактографических описаний из рассмотрения,
оценивание фактографических описаний,
сравнение оценок каждого фактографического описания, оставшегося в рассмотрении, с порогом, и
для каждого фактографического описания, имеющего оценку, которая превышает порог, представление по меньшей мере части предложения, содержащего это фактографическое описание, как факта.
3. Способ по п.2, дополнительно содержащий обеспечение слов фактографических описаний признаком их частей речи.
4. Способ по п.3, в котором обеспечение слов фактографических описаний признаком их частей речи содержит применение признака существительного, когда слово может быть или глаголом или существительным.
5. Способ по п.4, в котором применение правил исключения содержит применение первого набора правил для синтаксических словосочетаний, которые играют роль подлежащих, и применение второго набора правил для синтаксических словосочетаний, которые играют роль дополнений.
6. Способ по п.5, в котором применение первого набора правил содержит исключение именных словосочетаний, имеющих модификатор подлежащих или дополнений «необъективный» или «мнение».
7. Способ по п.5, в котором применение второго набора правил содержит исключение именных словосочетаний-подлежащих, которые содержат существительные в определенном состоянии, не являющиеся именами собственными, исключение именных словосочетаний, которые содержат местоимения, и исключение именных словосочетаний-подлежащих, которые не появляются в начале текста.
8. Способ по п.5, дополнительно содержащий применение третьего набора правил без учета роли именного словосочетания.
9. Способ по п.8, в котором применение третьего набора правил содержит исключение фактографических описаний, в которых в пунктуации предложения присутствует вопросительный знак, и исключение предложений со словосочетаниями, которые включают в себя стоп-слово.
10. Способ по п.2, в котором оценивание фактографических описаний содержит оценивание только тех фактографических описаний, которые остались в рассмотрении после применения правил исключения или которые остаются в рассмотрении во время их применения.
11. Машиночитаемый носитель информации, содержащий команды, которые при выполнении процессором побуждают процессор выполнять действия, содержащие
прием терма поиска, содержащего существительное,
обнаружение релевантных электронных ресурсов, которые соответствуют терму поиска,
отображение списка релевантных электронных ресурсов и фрагментов релевантных электронных ресурсов в списке, содержащих слова, соответствующие терму поиска,
синтаксический анализ множества релевантных электронных документов для обнаружения фактографических описаний из предложений, которые содержат существительные из терма поиска и один или более глаголов, соответствующих словам таблицы слов факта, построенной так, что она включает в себя список глаголов, определенных как указывающие на выражение факта,
удаление из обработки для извлечения фактов тех частей релевантного электронного документа, которые содержат слова, не соответствующие терму поиска, и слова таблицы слов факта,
исследование обнаруженных фактографических описаний для идентификации лингвистических элементов фактографических описаний после удаления частей релевантных электронных документов,
определение, следует ли представить фактографическое описание как факт, релевантный терму поиска, на основе идентифицированного лингвистического элемента, путем применения правил исключения к фактографическим описаниям-кандидатам в отношении лингвистических элементов, оценивание фактографических описаний-кандидатов на основании достоверности соответствующего слова факта и на основании отдельных весов именных словосочетаний-подлежащих и дополнений и удаление фактографических описаний-кандидатов из рассмотрения в соответствии с правилами исключения и оцениванием фактографических описаний, и
представление по меньшей мере части предложения, которое содержит термы поиска и фактографическое описание, определенное как факт, релевантный терму поиска.
прием терма поиска, содержащего существительное,
обнаружение релевантных электронных ресурсов, которые соответствуют терму поиска,
отображение списка релевантных электронных ресурсов и фрагментов релевантных электронных ресурсов в списке, содержащих слова, соответствующие терму поиска,
синтаксический анализ множества релевантных электронных документов для обнаружения фактографических описаний из предложений, которые содержат существительные из терма поиска и один или более глаголов, соответствующих словам таблицы слов факта, построенной так, что она включает в себя список глаголов, определенных как указывающие на выражение факта,
удаление из обработки для извлечения фактов тех частей релевантного электронного документа, которые содержат слова, не соответствующие терму поиска, и слова таблицы слов факта,
исследование обнаруженных фактографических описаний для идентификации лингвистических элементов фактографических описаний после удаления частей релевантных электронных документов,
определение, следует ли представить фактографическое описание как факт, релевантный терму поиска, на основе идентифицированного лингвистического элемента, путем применения правил исключения к фактографическим описаниям-кандидатам в отношении лингвистических элементов, оценивание фактографических описаний-кандидатов на основании достоверности соответствующего слова факта и на основании отдельных весов именных словосочетаний-подлежащих и дополнений и удаление фактографических описаний-кандидатов из рассмотрения в соответствии с правилами исключения и оцениванием фактографических описаний, и
представление по меньшей мере части предложения, которое содержит термы поиска и фактографическое описание, определенное как факт, релевантный терму поиска.
12. Машиночитаемый носитель информации по п.11, в котором действия также содержат получение множества документов при поиске в совокупности электронных документов для обнаружения тех документов, которые содержат терм поиска, причем поиск в этой совокупности выполняется для обнаружения тех документов, которые содержат терм поиска, перед синтаксическим анализом множества электронных документов.
13. Машиночитаемый носитель информации по п.11, в котором действия также содержат получение электронных документов и представление фактографических описаний перед приемом терма поиска и поиском в электронных документах и фактографических описаниях для обнаружения тех электронных документов и соответствующих фактографических описаний, которые относятся к терму поиска.
14. Машиночитаемый носитель информации по п.11, в котором действия дополнительно содержат сравнение оценки каждого фактографического описания, оставшегося в рассмотрении, с порогом, и
представление по меньшей мере части предложения, содержащего фактографическое описание, как факта, относящегося к терму поиска, для каждого фактографического описания, которое взято из электронного документа, содержащего терм поиска и имеющего оценку, которая превышает порог.
представление по меньшей мере части предложения, содержащего фактографическое описание, как факта, относящегося к терму поиска, для каждого фактографического описания, которое взято из электронного документа, содержащего терм поиска и имеющего оценку, которая превышает порог.
15. Машиночитаемый носитель информации по п.14, в котором оценивание фактографических описаний содержит оценивание только тех фактографических описаний, которые остаются в рассмотрении после применения правил исключения.
16. Компьютерная система, содержащая:
запоминающее устройство, содержащее множество электронных ресурсов, которые содержат текстовую информацию,
процессор, который принимает терм поиска, содержащий существительное, обнаруживает релевантные электронные ресурсы, которые соответствуют терму поиска, отображает список релевантных электронных ресурсов и фрагментов релевантных электронных ресурсов в списке, содержащих слова, соответствующие терму поиска, и принимает запрос для представления фактов, которые относятся к терму поиска, из набора релевантных электронных документов,
причем упомянутый процессор выполняет синтаксический анализ релевантных электронных документов для обнаружения фактографических описаний из предложений, которые содержат существительное из терма поиска и один или более глаголов, соответствующих словам таблицы слов факта, построенной так, что она включает в себя список глаголов, определенных как указывающие на выражение факта, процессор удаляет из обработки для извлечения фактов те части релевантного электронного документа, которые содержат слова, не соответствующие терму поиска, и слова таблицы слов факта, процессор исследует обнаруженные фактографические описания для идентификации лингвистических элементов фактографических описаний после удаления частей релевантных электронных документов, определяет, следует ли представить фактографическое описание как факт на основе идентифицированного лингвистического элемента, и представляет по меньшей мере часть предложений, которые содержат фактографические описания, в отношении которых определено, что их следует представить как факт, и которые относятся к терму поиска.
запоминающее устройство, содержащее множество электронных ресурсов, которые содержат текстовую информацию,
процессор, который принимает терм поиска, содержащий существительное, обнаруживает релевантные электронные ресурсы, которые соответствуют терму поиска, отображает список релевантных электронных ресурсов и фрагментов релевантных электронных ресурсов в списке, содержащих слова, соответствующие терму поиска, и принимает запрос для представления фактов, которые относятся к терму поиска, из набора релевантных электронных документов,
причем упомянутый процессор выполняет синтаксический анализ релевантных электронных документов для обнаружения фактографических описаний из предложений, которые содержат существительное из терма поиска и один или более глаголов, соответствующих словам таблицы слов факта, построенной так, что она включает в себя список глаголов, определенных как указывающие на выражение факта, процессор удаляет из обработки для извлечения фактов те части релевантного электронного документа, которые содержат слова, не соответствующие терму поиска, и слова таблицы слов факта, процессор исследует обнаруженные фактографические описания для идентификации лингвистических элементов фактографических описаний после удаления частей релевантных электронных документов, определяет, следует ли представить фактографическое описание как факт на основе идентифицированного лингвистического элемента, и представляет по меньшей мере часть предложений, которые содержат фактографические описания, в отношении которых определено, что их следует представить как факт, и которые относятся к терму поиска.
17. Компьютерная система по п.16, дополнительно содержащая дисплей, при этом процессор представляет по меньшей мере часть предложений путем вывода на экран дисплея по меньшей мере частей предложений.
18. Компьютерная система по п.16, дополнительно содержащая сетевой интерфейс, при этом процессор представляет по меньшей мере часть предложений путем вывода упомянутых частей на другой компьютер через сетевой интерфейс.
19. Компьютерная система по п.16, дополнительно содержащая сетевой интерфейс, при этом запоминающее устройство доступно процессору через сетевой интерфейс.
20. Компьютерная система по п.16, в которой процессор определяет, следует ли представить фактографическое описание как факт, путем
применения правил исключения в отношении лингвистических элементов фактографических описаний для удаления части фактографических описаний из рассмотрения,
оценивания фактографических описаний,
сравнения оценки каждого фактографического описания, оставшегося в рассмотрении, с порогом, и
представления по меньшей мере части предложения, содержащего фактографическое описание, как факта, относящегося к терму поиска, для каждого фактографического описания, которое содержит терм поиска и имеет оценку, которая превышает порог.
применения правил исключения в отношении лингвистических элементов фактографических описаний для удаления части фактографических описаний из рассмотрения,
оценивания фактографических описаний,
сравнения оценки каждого фактографического описания, оставшегося в рассмотрении, с порогом, и
представления по меньшей мере части предложения, содержащего фактографическое описание, как факта, относящегося к терму поиска, для каждого фактографического описания, которое содержит терм поиска и имеет оценку, которая превышает порог.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/496,650 | 2006-07-31 | ||
US11/496,650 US7668791B2 (en) | 2006-07-31 | 2006-07-31 | Distinguishing facts from opinions using a multi-stage approach |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2009103145A RU2009103145A (ru) | 2010-08-10 |
RU2451999C2 true RU2451999C2 (ru) | 2012-05-27 |
Family
ID=38987573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2009103145/08A RU2451999C2 (ru) | 2006-07-31 | 2007-07-20 | Оптимизация извлечения факта с использованием многоэтапного подхода |
Country Status (10)
Country | Link |
---|---|
US (1) | US7668791B2 (ru) |
EP (1) | EP2050019A4 (ru) |
JP (1) | JP5202524B2 (ru) |
AU (1) | AU2007281638B2 (ru) |
BR (1) | BRPI0714311A2 (ru) |
MX (1) | MX2009000588A (ru) |
NO (1) | NO20085387L (ru) |
RU (1) | RU2451999C2 (ru) |
TW (1) | TWI431493B (ru) |
WO (1) | WO2008016491A1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2637992C1 (ru) * | 2016-08-25 | 2017-12-08 | Общество с ограниченной ответственностью "Аби Продакшн" | Способ извлечения фактов из текстов на естественном языке |
Families Citing this family (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7269875B1 (en) * | 2003-11-19 | 2007-09-18 | David Brian Grimes | Cleaning apparatus |
US9495358B2 (en) | 2006-10-10 | 2016-11-15 | Abbyy Infopoisk Llc | Cross-language text clustering |
US8671341B1 (en) * | 2007-01-05 | 2014-03-11 | Linguastat, Inc. | Systems and methods for identifying claims associated with electronic text |
US8190628B1 (en) * | 2007-11-30 | 2012-05-29 | Google Inc. | Phrase generation |
US9152738B2 (en) | 2008-06-13 | 2015-10-06 | Neil Young | Sortable and updateable compilation and archiving platform and uses thereof |
US20110231387A1 (en) * | 2010-03-22 | 2011-09-22 | Yahoo! Inc. | Engaging content provision |
US8719692B2 (en) | 2011-03-11 | 2014-05-06 | Microsoft Corporation | Validation, rejection, and modification of automatically generated document annotations |
US8812301B2 (en) * | 2011-09-26 | 2014-08-19 | Xerox Corporation | Linguistically-adapted structural query annotation |
CN102929934A (zh) * | 2012-09-25 | 2013-02-13 | 东莞宇龙通信科技有限公司 | 照片信息显示的方法及移动终端 |
US10922326B2 (en) * | 2012-11-27 | 2021-02-16 | Google Llc | Triggering knowledge panels |
US10289653B2 (en) | 2013-03-15 | 2019-05-14 | International Business Machines Corporation | Adapting tabular data for narration |
USD802609S1 (en) | 2013-06-04 | 2017-11-14 | Abbyy Production Llc | Display screen with graphical user interface |
USD805535S1 (en) | 2013-06-04 | 2017-12-19 | Abbyy Production Llc | Display screen or portion thereof with a transitional graphical user interface |
US9164977B2 (en) | 2013-06-24 | 2015-10-20 | International Business Machines Corporation | Error correction in tables using discovered functional dependencies |
US9600461B2 (en) | 2013-07-01 | 2017-03-21 | International Business Machines Corporation | Discovering relationships in tabular data |
US9830314B2 (en) | 2013-11-18 | 2017-11-28 | International Business Machines Corporation | Error correction in tables using a question and answer system |
RU2586577C2 (ru) | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
RU2665239C2 (ru) | 2014-01-15 | 2018-08-28 | Общество с ограниченной ответственностью "Аби Продакшн" | Автоматическое извлечение именованных сущностей из текста |
US10331782B2 (en) | 2014-11-19 | 2019-06-25 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for automatic identification of potential material facts in documents |
US9626358B2 (en) | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
RU2592396C1 (ru) | 2015-02-03 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Способ и система для машинного извлечения и интерпретации текстовой информации |
RU2610241C2 (ru) | 2015-03-19 | 2017-02-08 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов |
US10095740B2 (en) * | 2015-08-25 | 2018-10-09 | International Business Machines Corporation | Selective fact generation from table data in a cognitive system |
CN105260091B (zh) * | 2015-09-07 | 2019-06-21 | 努比亚技术有限公司 | 照片处理方法及装置 |
US10776587B2 (en) * | 2016-07-11 | 2020-09-15 | International Business Machines Corporation | Claim generation |
CN106648390B (zh) * | 2016-12-05 | 2018-12-21 | 网易(杭州)网络有限公司 | 一种控制指令生成方法、装置及移动终端 |
CN106649786B (zh) * | 2016-12-28 | 2020-04-07 | 北京百度网讯科技有限公司 | 基于深度问答的答案检索方法及装置 |
CN106924963B (zh) * | 2017-04-26 | 2023-06-27 | 温州大学 | 一种视力听力康复训练娱乐打靶机 |
CN108038263A (zh) * | 2017-11-15 | 2018-05-15 | 南京邮电大学 | 考虑性能相关结构不确定的芯片多元参数成品率预测方法 |
CN108257380B (zh) * | 2017-12-05 | 2020-11-10 | 北京掌行通信息技术有限公司 | 一种基于路况信息检测拥堵事件的方法及系统 |
US10303771B1 (en) * | 2018-02-14 | 2019-05-28 | Capital One Services, Llc | Utilizing machine learning models to identify insights in a document |
CN109344993B (zh) * | 2018-08-23 | 2021-08-24 | 江西省水利科学研究院 | 一种基于条件概率分布的河道洪峰水位预报方法 |
CN111026597B (zh) * | 2019-01-31 | 2023-12-26 | 安天科技集团股份有限公司 | 一种芯片隐藏存储空间的检测方法、装置及存储介质 |
CN110007589B (zh) * | 2019-02-26 | 2021-05-18 | 湖南盛世威得科技有限公司 | 一种具有火灾自动求救功能的智能手表 |
CN110057634B (zh) * | 2019-04-11 | 2021-09-07 | 东北石油大学 | 一种制造岩心裂缝的装置及方法 |
CN111858225A (zh) * | 2019-04-28 | 2020-10-30 | 中国移动通信集团上海有限公司 | 延时预测方法、装置、设备及计算机存储介质 |
CN111090785A (zh) * | 2019-06-10 | 2020-05-01 | 工盒(嘉兴)网络技术有限公司 | 一种紧固云系统 |
CN110597108B (zh) * | 2019-08-23 | 2021-12-21 | 广州电力设计院有限公司 | 电缆隧道区域控制系统、控制方法、装置及计算机设备 |
CN110737010B (zh) * | 2019-09-19 | 2021-11-16 | 西安空间无线电技术研究所 | 一种基于低轨通信卫星的安全定位授时信号生成系统 |
CN111078849B (zh) * | 2019-12-02 | 2023-07-25 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN111126057B (zh) * | 2019-12-09 | 2023-08-01 | 航天科工网络信息发展有限公司 | 一种分级神经网络的案件情节精准量刑系统 |
DE102020103941A1 (de) * | 2020-02-14 | 2021-08-19 | Grimme Landmaschinenfabrik Gmbh & Co. Kg | Verfahren zum Betrieb einer Maschine zum Ernten und/oder Trennen von Hackfrüchten, zugehörige Maschine und zugehöriges Computerprogrammprodukt |
CN111526397A (zh) * | 2020-03-30 | 2020-08-11 | 深圳市懿美莱科技有限公司 | 一种智能家庭网络播放器 |
JP2021164005A (ja) * | 2020-03-30 | 2021-10-11 | Kddi株式会社 | 画像復号装置、画像復号方法及びプログラム |
CN111836065B (zh) * | 2020-07-14 | 2022-04-29 | 北京场景互娱传媒科技有限公司 | 一种直播商标自动隐藏的智能方法 |
CN111882828B (zh) * | 2020-07-22 | 2021-08-20 | 淮北智淮科技有限公司 | 一种防滑坡预警装置及其使用方法 |
CN112182895B (zh) * | 2020-10-10 | 2022-08-23 | 中际联合(天津)科技有限公司 | 一种风机塔筒爬梯及防坠落布置方案图的自动分析方法 |
CN112890771B (zh) * | 2021-01-14 | 2022-08-26 | 四川写正智能科技有限公司 | 一种基于毫米波雷达传感器监测睡眠状态的儿童手表 |
US11687539B2 (en) | 2021-03-17 | 2023-06-27 | International Business Machines Corporation | Automatic neutral point of view content generation |
US11972210B2 (en) * | 2021-05-13 | 2024-04-30 | Motorola Solutions, Inc. | System and method for predicting a penal code and modifying an annotation based on the prediction |
CN115191786B (zh) * | 2022-08-04 | 2023-12-19 | 慕思健康睡眠股份有限公司 | 一种控制方法、装置、设备和存储介质 |
CN115432851B (zh) * | 2022-08-23 | 2023-06-23 | 长兴瑷晟环保装备有限公司 | 一种高效混凝水力空化一体机 |
CN118278385B (zh) * | 2024-05-29 | 2024-09-17 | 暗物智能科技(广州)有限公司 | 一种基于篇章卷面分析的测试方法、装置及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000029902A (ja) * | 1998-07-15 | 2000-01-28 | Nec Corp | 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体 |
KR20030044949A (ko) * | 2003-04-24 | 2003-06-09 | 우순조 | 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법 |
RU2236699C1 (ru) * | 2003-02-25 | 2004-09-20 | Открытое акционерное общество "Телепортал. Ру" | Способ поиска и выборки информации с повышенной релевантностью |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5519608A (en) * | 1993-06-24 | 1996-05-21 | Xerox Corporation | Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation |
JPH0756933A (ja) * | 1993-06-24 | 1995-03-03 | Xerox Corp | 文書検索方法 |
US5331556A (en) * | 1993-06-28 | 1994-07-19 | General Electric Company | Method for natural language data processing using morphological and part-of-speech information |
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
US6167370A (en) * | 1998-09-09 | 2000-12-26 | Invention Machine Corporation | Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures |
US6741986B2 (en) * | 2000-12-08 | 2004-05-25 | Ingenuity Systems, Inc. | Method and system for performing information extraction and quality control for a knowledgebase |
US6665661B1 (en) * | 2000-09-29 | 2003-12-16 | Battelle Memorial Institute | System and method for use in text analysis of documents and records |
JP4630480B2 (ja) * | 2001-03-19 | 2011-02-09 | 株式会社東芝 | 要約抽出プログラム、文書分析支援プログラム、要約抽出方法、文書分析支援方法、文書分析支援システム |
JP2001357064A (ja) * | 2001-04-09 | 2001-12-26 | Toshiba Corp | 情報共有支援システム |
US9009590B2 (en) * | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
US7526425B2 (en) * | 2001-08-14 | 2009-04-28 | Evri Inc. | Method and system for extending keyword searching to syntactically and semantically annotated data |
WO2003027894A1 (en) * | 2001-09-26 | 2003-04-03 | The Trustees Of Columbia University In The City Of New York | System and method of generating dictionary entries |
US7426509B2 (en) * | 2002-11-15 | 2008-09-16 | Justsystems Evans Research, Inc. | Method and apparatus for document filtering using ensemble filters |
EP1590798A2 (en) * | 2003-02-05 | 2005-11-02 | Verint Systems Inc. | Method for automatic and semi-automatic classification and clustering of non-deterministic texts |
US20050108630A1 (en) * | 2003-11-19 | 2005-05-19 | Wasson Mark D. | Extraction of facts from text |
US7496500B2 (en) * | 2004-03-01 | 2009-02-24 | Microsoft Corporation | Systems and methods that determine intent of data and respond to the data based on the intent |
US7970600B2 (en) * | 2004-11-03 | 2011-06-28 | Microsoft Corporation | Using a first natural language parser to train a second parser |
US20070027860A1 (en) * | 2005-07-28 | 2007-02-01 | International Business Machines Corporation | Method and apparatus for eliminating partitions of a database table from a join query using implicit limitations on a partition key value |
US7376551B2 (en) * | 2005-08-01 | 2008-05-20 | Microsoft Corporation | Definition extraction |
-
2006
- 2006-07-31 US US11/496,650 patent/US7668791B2/en active Active
-
2007
- 2007-07-18 TW TW096126248A patent/TWI431493B/zh not_active IP Right Cessation
- 2007-07-20 BR BRPI0714311-7A patent/BRPI0714311A2/pt not_active IP Right Cessation
- 2007-07-20 RU RU2009103145/08A patent/RU2451999C2/ru active
- 2007-07-20 EP EP07796948A patent/EP2050019A4/en not_active Ceased
- 2007-07-20 WO PCT/US2007/016435 patent/WO2008016491A1/en active Application Filing
- 2007-07-20 JP JP2009522777A patent/JP5202524B2/ja active Active
- 2007-07-20 AU AU2007281638A patent/AU2007281638B2/en active Active
- 2007-07-20 MX MX2009000588A patent/MX2009000588A/es unknown
-
2008
- 2008-12-29 NO NO20085387A patent/NO20085387L/no not_active Application Discontinuation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000029902A (ja) * | 1998-07-15 | 2000-01-28 | Nec Corp | 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体 |
RU2236699C1 (ru) * | 2003-02-25 | 2004-09-20 | Открытое акционерное общество "Телепортал. Ру" | Способ поиска и выборки информации с повышенной релевантностью |
KR20030044949A (ko) * | 2003-04-24 | 2003-06-09 | 우순조 | 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2637992C1 (ru) * | 2016-08-25 | 2017-12-08 | Общество с ограниченной ответственностью "Аби Продакшн" | Способ извлечения фактов из текстов на естественном языке |
Also Published As
Publication number | Publication date |
---|---|
TWI431493B (zh) | 2014-03-21 |
NO20085387L (no) | 2009-01-19 |
US20080027888A1 (en) | 2008-01-31 |
TW200817947A (en) | 2008-04-16 |
JP2009545808A (ja) | 2009-12-24 |
BRPI0714311A2 (pt) | 2013-04-24 |
US7668791B2 (en) | 2010-02-23 |
RU2009103145A (ru) | 2010-08-10 |
EP2050019A1 (en) | 2009-04-22 |
EP2050019A4 (en) | 2012-03-21 |
JP5202524B2 (ja) | 2013-06-05 |
AU2007281638B2 (en) | 2011-10-06 |
MX2009000588A (es) | 2009-01-27 |
WO2008016491A1 (en) | 2008-02-07 |
AU2007281638A1 (en) | 2008-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2451999C2 (ru) | Оптимизация извлечения факта с использованием многоэтапного подхода | |
Watson et al. | Creating false memories with hybrid lists of semantic and phonological associates: Over-additive false memories produced by converging associative networks | |
Newman et al. | Refining targeted syntactic evaluation of language models | |
Booth | (Re) reading the surfers’ bible: The affects of tracks | |
Villers | What makes a good proverb? On the birth and propagation of proverbs | |
Krishnamurthy et al. | Peeling an Onion: The Lexicographer's Experience ofManual Sense-Tagging | |
Kockelman | The anthropology of intensity: Language, culture, and environment | |
Džanić et al. | Conceptual integration theory in idiom modifications | |
Orain | Figures of mockery. The cultural disqualification of physiocracy (1760–1790) | |
Ellis | The copy editing and headline handbook | |
Arth et al. | (Inter) National Pastime: Depicting Nationality in Local and National Major League Baseball Broadcasts | |
Barr | The Yahoo! style guide: the ultimate sourcebook for writing, editing, and creating content for the digital world | |
Hudson | The Empire in the epitome: Florus and the conquest of historiography | |
Sundström | How not to write a thesis or dissertation: a guide to success through failure | |
Considine | Current projects in historical lexicography | |
MacFadden et al. | What’s in a television word list? A corpus-informed investigation | |
McClure | Fleet-footed Performers at the Edges of Colonial Law: Jack Johnson, Maud Allan and the Struggles of Cinema Censorship in British India | |
Ronell | The Gestell from Hell: Philosophy Sets Up ‘America’ | |
Jennings | Quarterly Essay 32 American Revolution: The Fall of Wall Street and the Rise of Barack Obama | |
Mapunda | “Simba yagongwa”: metaphors in soccer reporting headlines in Tanzania’s Uhuru Swahili daily | |
Kostusiak et al. | Media Language of Modern Football: Dynamic and Communicative-Intentional Dimensions | |
Yasynetska | Conceptual, Linguistic and Translational Aspects of Headline Metaphors Used to Refer to the American and Ukrainian Presidential Campaigns of 2004 | |
Young | The Devil is in the Details: Representations of the Rural Appalachian Deviant | |
Guglielmetti | Media Representations of Doping in Sports: An Analysis of How Media Frames Men and Women in Doping Scandals | |
Szpila | Literary paremic loci in Salman Rushdie’s novels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20150526 |