RU2480822C2 - Coreference resolution in ambiguity-sensitive natural language processing system - Google Patents
Coreference resolution in ambiguity-sensitive natural language processing system Download PDFInfo
- Publication number
- RU2480822C2 RU2480822C2 RU2010107148/08A RU2010107148A RU2480822C2 RU 2480822 C2 RU2480822 C2 RU 2480822C2 RU 2010107148/08 A RU2010107148/08 A RU 2010107148/08A RU 2010107148 A RU2010107148 A RU 2010107148A RU 2480822 C2 RU2480822 C2 RU 2480822C2
- Authority
- RU
- Russia
- Prior art keywords
- text
- coreference
- fact
- computer
- natural language
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
ОБЛАСТЬ ТЕХНИКИ К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕFIELD OF THE INVENTION
Настоящее изобретение относится к способам разрешения кореференции в чувствительной к неоднозначности системе обработки естественного языка, в частности к интеграции функциональных возможностей разрешения кореференции в систему обработки документов.The present invention relates to methods for resolving coreference in an ambiguity sensitive natural language processing system, in particular to integrating the functionality of resolving coreference into a document processing system.
УРОВЕНЬ ТЕХНИКИBACKGROUND
В естественном языке не редкость, когда на объект ссылаются, используя разные описания. Например, вместо имен существительных обычно используются местоимения. Кроме того, для ссылки на объект могут использоваться различные другие описания или различные формы ссылки. Рассмотрим в качестве примера следующие части текста:In a natural language, it is not uncommon for an object to be referenced using different descriptions. For example, pronouns are usually used instead of nouns. In addition, various other descriptions or various forms of reference may be used to refer to an object. Consider the following parts of text as an example:
"Пабло Пикассо родился в Малаге.""Pablo Picasso was born in Malaga."
"Испанский живописец стал знаменит, благодаря его различными стилям.""The Spanish painter has become famous thanks to his various styles."
"Среди его картин крупномасштабная "Герника"."“Among his paintings is the large-scale“ Guernica. ”
"Он нарисовал этот волнующий шедевр во время испанской гражданской войны.""He painted this exciting masterpiece during the Spanish Civil War."
"Пикассо умер в 1973 году.""Picasso died in 1973."
Здесь мы наталкиваемся на последовательность лингвистического изменения. Например, используются два различных имени, "Пабло Пикассо" и "Пикассо". Определяющее описание, "испанский живописец" и два местоимения "его" и "он", все используются для ссылки на Пикассо. Для ссылки на картину используются два различных выражения: название произведения, "Герника", и указательное описание, "этот волнующий шедевр."Here we come across a sequence of linguistic change. For example, two different names are used, Pablo Picasso and Picasso. The defining description, the “Spanish painter” and the two pronouns “him” and “he”, are all used to refer to Picasso. Two different expressions are used to refer to the picture: the title of the work, "Guernica", and the indicative description, "this exciting masterpiece."
О двух лингвистических выражениях можно сказать, что они являются кореферентными, если они имеют один и тот же референт. Другими словами, если они ссылаются на один и тот же объект. Вторая фраза может быть анафорой, которая является анафорической к первой фразе. Также, первая фраза является антецедентом второй фразы. Знание референта антецедента может быть необходимо для определения референта анафоры. Общая задача нахождения кореферентных выражений, анафор и их антецедентов в пределах документа может упоминаться как разрешение кореференции. Разрешение кореференции является процессом установления, что два выражения относятся к одному и тому же референту без необходимости установления, каков этот референт. Разрешение референции является процессом установления, что является референтом.Of the two linguistic expressions, we can say that they are coreferent if they have the same referent. In other words, if they refer to the same object. The second phrase may be anaphora, which is anaphoric to the first phrase. Also, the first phrase is the antecedent of the second phrase. Knowing the referent of the antecedent may be necessary to determine the referent of the anaphora. The general task of finding coreferential expressions, anaphores and their antecedents within a document may be referred to as resolution of coreference. Resolving coreference is the process of establishing that two expressions refer to the same referent without the need to establish what this referent is. Referencing is the process of establishing what the referent is.
Для групп выражений, которые кореферентны, независимо от их анафорических отношений, выражения могут упоминаться как альтернативные названия друг друга. В соответствии с приведенным выше примером, выражения "Пабло Пикассо", "испанский живописец" "его", "он" и "Пикассо" формируют группу альтернативных названий, относящихся к Пикассо.For groups of expressions that are referential, regardless of their anaphoric relationship, expressions may be referred to as alternate names for each other. In accordance with the above example, the expressions "Pablo Picasso", "Spanish painter" "him", "he" and "Picasso" form a group of alternative names related to Picasso.
Выражения естественного языка часто содержат двусмысленность (неоднозначность). Неоднозначность возникает, когда выражение может быть интерпретировано более чем с одним значением. Например, предложение "Утка готова к еде" может быть интерпретировано как утверждение, что утка либо уже должным образом приготовлена, либо что утка хочет есть и нуждается в корме.Natural language expressions often contain ambiguity (ambiguity). Ambiguity occurs when an expression can be interpreted with more than one value. For example, the sentence “Duck is ready to eat” can be interpreted as saying that the duck is either properly cooked or that the duck is hungry and needs food.
Разрешение кореференции и разрешение неоднозначности являются двумя примерами операций обработки естественного языка, которые могут использоваться, чтобы механически поддерживать язык, как он обычно используется людьми-пользователями. Системы обработки информации, такие как текстовая индексация и запрос поддержки поиска информации, могут получить преимущество при повышенном применении систем обработки естественного языка.Resolving coreference and resolving ambiguity are two examples of natural language processing operations that can be used to mechanically support a language, as is commonly used by human users. Information processing systems, such as text indexing and requesting information search support, can benefit from the increased use of natural language processing systems.
Раскрытие, сделанное здесь, касается этих и других рассмотрений.The disclosure made here relates to these and other considerations.
СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION
Здесь описываются технологии разрешения кореференции в чувствительной к неоднозначности системе обработки естественного языка. В частности, описываются технологии интеграции функциональных возможностей разрешения кореференции в систему обработки документов, которые должны индексироваться в системе поиска и извлечения информации. Эта интеграция может улучшить индексацию с помощью информации, поддерживающей разрешение кореференции и неоднозначное значение в пределах документов на естественном языке.Here, technologies for resolving coreference in an ambiguity-sensitive natural language processing system are described. In particular, technologies are described for integrating the functionality of resolving coreference into a document processing system that should be indexed in a search and retrieval system. This integration can improve indexing with information that supports corereference resolution and ambiguous value within natural language documents.
В соответствии с одним аспектом, представленным здесь, информация, предоставленная системой разрешения кореференции, может быть интегрирована в систему обработки естественного языка и повысить ее производительность. Примером такой системы является система индексации и извлечения документов.In accordance with one aspect presented here, information provided by the core resolution system can be integrated into a natural language processing system and increase its productivity. An example of such a system is a document indexing and retrieval system.
В соответствии с другим аспектом, представленным здесь, признаки осведомленности о неоднозначности, а также функциональные возможности разрешения неоднозначности, могут работать в координации с разрешением кореференции в рамках системы обработки естественного языка. Аннотация объектов кореференции, а также неоднозначные интерпретации, могут поддерживаться встроенной разметкой внутри текстовых выражений или, альтернативно, внешними отображениями объектов.In accordance with another aspect presented herein, ambiguity awareness features, as well as ambiguity resolution functionality, may work in coordination with coreference resolution within a natural language processing system. Annotation of coreference objects, as well as ambiguous interpretations, can be supported by built-in markup inside text expressions or, alternatively, by external representations of objects.
В соответствии с еще одним аспектом, представленным здесь, факты могут извлекаться из текста, который должен быть индексирован. Информация, выраженная внутри текста, формально может быть организована с точки зрения фактов. Используемый в этом смысле факт может быть любой информацией, содержащейся в тексте, и не обязательно должен быть истинным. Факт может быть представлен как отношения между объектами. Факт может храниться в семантическом индексе как отношения между объектами, хранящимися внутри индекса. В системе извлечения, основанной на факте, документ может быть извлечен, если он содержит факт, который соответствует факту, определенному через анализ запроса.In accordance with another aspect presented here, the facts can be extracted from the text to be indexed. Information expressed within the text can be formally organized in terms of facts. The fact used in this sense can be any information contained in the text, and does not have to be true. A fact can be represented as relations between objects. A fact can be stored in a semantic index as a relationship between objects stored inside an index. In a fact-based retrieval system, a document can be retrieved if it contains a fact that matches the fact determined through analysis of the request.
В соответствии с еще одним другим аспектом, представленным здесь, процесс расширения может поддерживать применение многочисленных альтернативных названий или двусмысленностей к индексируемому объекту. Такое расширение может поддерживать дополнительные возможные референции или интерпретации для заданного объекта, зафиксированного в семантическом индексе. Альтернативные хранящиеся описания могут поддерживать извлечение факта посредством либо оригинального описания, либо кореференциального описания.In accordance with yet another aspect presented here, the expansion process may support the application of numerous alternative names or ambiguities to the indexed object. Such an extension may support additional possible references or interpretations for a given object, fixed in a semantic index. Alternative stored descriptions may support the extraction of fact through either the original description or the core description.
Следует понимать, что вышеописанный предмет обсуждения может также быть осуществлен как управляемое компьютером устройство, компьютерный процесс, вычислительная система или как производственное изделие, такое как считываемый компьютером носитель. Эти и различные другие признаки должны стать очевидны из чтения последующего подробного описания и рассмотрения сопроводительных чертежей.It should be understood that the above discussion subject can also be implemented as a computer-controlled device, a computer process, a computing system, or as a manufacturing product, such as a computer-readable medium. These and various other features should become apparent from reading the following detailed description and consideration of the accompanying drawings.
Настоящий раздел "Сущность изобретения" предназначен для введения выборочных концепций в упрощенной форме, которые дополнительно описываются ниже в подробном описании. Настоящий раздел "Сущность изобретения" не предназначен ни для того, чтобы идентифицировать ключевые признаки или существенные признаки заявленного предмета изобретения, ни для того, чтобы использовать этот раздел "Сущность изобретения" для ограничения объема заявленного предмета изобретения. Дополнительно, заявленный предмет изобретения не ограничивается вариантами осуществления, которые устраняют любые или все недостатки, отмеченные в любой части настоящего раскрытия.This section of the "Summary of the invention" is intended to introduce selective concepts in a simplified form, which are further described below in the detailed description. The present "Summary of the invention" is not intended to identify key features or essential features of the claimed subject matter, nor to use this section of the "Summary of the invention" to limit the scope of the claimed subject matter. Additionally, the claimed subject matter is not limited to embodiments that eliminate any or all of the disadvantages noted in any part of this disclosure.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS
Фиг. 1 - схема архитектуры сети, показывающая систему поиска информации в соответствии с аспектами представленного здесь варианта осуществления;FIG. 1 is a diagram of a network architecture showing an information retrieval system in accordance with aspects of an embodiment presented herein;
Фиг. 2 - функциональная блок-схема, показывающая различные компоненты системы индексов и запросов текста естественного языка, соответствующей аспектам представленного здесь варианта осуществления;FIG. 2 is a functional block diagram showing various components of a natural language text index and query system corresponding to aspects of the embodiment presented here;
Фиг. 3 - функциональная блок-схема, показывающая разрешение кореференции и разрешение двусмысленности в пределах системы обработки естественного языка в соответствии с аспектами представленного здесь варианта осуществления;FIG. 3 is a functional block diagram showing resolution of coreference and resolution of ambiguity within a natural language processing system in accordance with aspects of the embodiment presented herein;
Фиг. 4 - логическая блок-схема последовательности выполнения операций, показывающая аспекты процессов для чувствительной к двусмысленности индексации с разрешением кореференции в соответствии с аспектами представленного здесь варианта осуществления; иFIG. 4 is a flowchart showing aspects of processes for ambiguity-sensitive indexing with corereference resolution in accordance with aspects of an embodiment presented herein; and
Фиг. 5 - схема компьютерной архитектуры, показывающая пример компьютерной архитектуры аппаратного и программного обеспечения для вычислительной системы, способной осуществлять аспекты представленного здесь варианта осуществления.FIG. 5 is a computer architecture diagram showing an example of computer architecture of hardware and software for a computing system capable of implementing aspects of the embodiment presented here.
ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION
Приведенное далее подробное детальное описание относится к технологиям разрешения кореференции в чувствительной к двусмысленности системе обработки естественного языка. Используя представленные здесь технологии и концепции, функциональные возможности разрешения кореференции могут быть интегрированы в систему обработки естественного языка, обрабатывающую документы, которые должны быть индексированы для использования в системе поиска и извлечения информации. Эта интеграция может улучшить индексирование с помощью информации, поддерживающей разрешение кореференции для индексируемых документов на естественном языке.The following detailed detailed description relates to technologies for resolving coreference in an ambiguous-sensitive natural language processing system. Using the technologies and concepts presented here, the core resolution resolution functionality can be integrated into a natural language processing system that processes documents that must be indexed for use in the search and retrieval system. This integration can improve indexing with information that supports corereference for indexed natural language documents.
Хотя описанный здесь предмет изобретения представлен в общем контексте программных модулей, которые выполняются в сочетании с выполнением операционной системы и программ приложений на компьютерной системе, специалисты в данной области техники должны признать, что другие варианты осуществления могут быть реализованы в комбинации с другими типами программных модулей. В целом, программные модули содержат подпрограммы, программы, компоненты, структуры данных и другие типы структур, которые выполняют конкретные задачи или реализуют конкретные абстрактные типы данных. Кроме того, специалисты в данной области техники должны понимать, что описанный здесь предмет изобретения может быть осуществлен с другими конфигурациями компьютерной системы, включающей карманные устройства, мультипроцессорные системы, программируемую бытовую электронную аппаратуру или на основе микропроцессоров, миникомпьютеров, универсальных вычислительных машин и т.п.Although the subject matter described herein is presented in the general context of software modules that run in conjunction with running an operating system and application programs on a computer system, those skilled in the art will recognize that other embodiments may be implemented in combination with other types of software modules. In general, program modules contain routines, programs, components, data structures, and other types of structures that perform specific tasks or implement specific abstract data types. In addition, those skilled in the art should understand that the subject matter of the invention described herein can be implemented with other computer system configurations, including handheld devices, multiprocessor systems, programmable consumer electronics or based on microprocessors, minicomputers, general purpose computers, etc. .
В последующем подробном описании делаются ссылки на сопроводительные чертежи, являющиеся частью настоящего описания и показывающие пояснительные конкретные варианты осуществления или примеры. Теперь далее, со ссылкой на чертежи, на которых на разных чертежах схожие позиции представляют схожие элементы, описываются аспекты вычислительной системы и методология разрешения кореференции в чувствительной к двусмысленности системе обработки естественного языка.In the following detailed description, reference is made to the accompanying drawings, which are part of the present description and show explanatory specific embodiments or examples. Now, with reference to the drawings, in which similar positions represent similar elements in different drawings, aspects of a computing system and a methodology for resolving coreference in an ambiguous-sensitive natural language processing system are described.
На фиг. 1 здесь будут предоставлены подробности в отношении примера рабочей среды для представленных вариантов осуществления. В частности, схема 100 сетевой архитектуры показывает систему поиска информации в соответствии с аспектами варианта осуществления, представленного здесь. Клиентские компьютеры 110А-110D могут взаимодействовать через сеть 140 с сервером для получения информации, связанной с механизмом 130 естественного языка. Хотя показаны четыре клиентских компьютера 110А-110D, следует понимать, что может использоваться любое количество клиентских компьютеров 110А-110D. Клиентские компьютеры 110А-110D могут быть географически распределены по сети 140, располагаться по соседству или быть расположены в любой их комбинации. Хотя на чертеже показан одиночный сервер 120, следует понимать, что функциональные возможности сервера 120 могут быть распределены на любое количество многочисленных серверов 120. Такие многочисленные серверы 120 могут располагаться рядом, быть географически распределены по сети 140 или располагаться в любой комбинации.In FIG. 1, details will be provided regarding an example work environment for the presented embodiments. In particular, the
В соответствии с одним или более вариантами осуществления, механизм 130 естественного языка может поддерживать функциональные возможности механизма поиска. В сценарии механизма поиска запрос пользователя может быть выдан от клиентского компьютера 110А-110D через сеть 140 и на сервер 120. Запрос пользователя может быть в формате естественного языка. На сервере механизм 130 естественного языка может обрабатывать запрос на естественном языке, чтобы поддержать поиск, основанный на синтаксисе и семантике, извлеченных из запроса на естественном языке. Результаты такого поиска могут быть предоставлены от сервера 120 через сеть 140 обратно на клиентские компьютеры 110А-110D.In accordance with one or more embodiments, the
Один или более индексов поиска могут храниться или быть связаны с сервером 120. Информация, содержащаяся в индексе поиска, может быть заполнена из набора исходной информации или из совокупности. Например, при осуществлении веб-поиска содержание может собираться и индексироваться из различных веб-сайтов на различных веб-серверах (не показаны) по сети 140. Такой сбор и индексация могут быть выполнены посредством исполнения программного обеспечения на сервере 120 или на другом компьютере (не показан). Сбор может быть выполнен с помощью прикладных программ, веб-поисковых обходчиков (crawlers) или поисковых роботов (spiders). Механизм 130 естественного языка может применяться к собранной информации таким образом, что содержание на естественном языке, собранное из совокупности, может быть индексировано, основываясь на синтаксисе и семантике, извлеченных механизмом 130 естественного языка. Индексация и поиск обсуждаются более подробно со ссылкой на фиг. 2.One or more search indexes may be stored or associated with
Клиентские компьютеры 110А-110D для сервера 120 могут действовать как оконечные клиенты, клиенты гипертекстовых браузеров, клиенты графических дисплеев или другие сетевые клиенты. Например, приложение веб-браузера на клиентских компьютерах 110А-110D может поддерживать взаимодействие с приложением веб-сервера на сервере 120. Для поддержки взаимодействия с сервером 120 такой браузер может использовать элементы управления, плагины или апплеты. Клиентские компьютеры 110А-110D могут также использовать другие заказные программы, приложения или модули для взаимодействия с сервером 120. Клиентские компьютеры 110А-110D могут быть настольными компьютерами, ноутбуками, карманными компьютерами, мобильными терминалами, мобильными телефонами, телевизионной компьютерной приставкой, киосками, серверами, терминалами, "тонкими" клиентами (клиент-терминалами) или любыми другими компьютеризированными устройствами.
Сеть 140 может быть любой сетью связи, способной обеспечивать связь между клиентскими компьютерами 110А-110D и сервером 120. Сеть 140 может быть проводной, беспроводной, оптической, радиосетью, с коммутацией пакетов, с коммутацией каналов или любой их комбинацией. Сеть 140 может использовать любую топологию и линии 140 связи могут поддерживать любую сетевую технологию, протокол или полосу пропускания, такие как Ethernet, DSL, кабельный модем, ATM, SONET, MPLS, PSTN, модем POTS, PONS, HFC, спутниковая, ISDN, WiFi, WiMax, любая их комбинация или любой другой механизм соединения данных или сетевой механизм. Сеть 140 может быть интрасетью, интерсетью, Интернетом, веб-сетью, LAN, WAN, MAN или любой другой сетью для взаимного соединения компьютерных систем.
Следует понимать, что в дополнение к показанной сетевой среде механизмом 130 естественного языка можно управляться местно. Например, сервер 120 и клиентский компьютер 110А-110D могут объединяться на едином вычислительном устройстве. Такая комбинированная система может поддержать индексы поиска, хранящиеся местно или дистанционно.It should be understood that in addition to the network environment shown, the
На фиг. 2 показана функциональная блок-схема различных компонент механизма 130 естественного языка в соответствии с одним примером варианта осуществления. Как обсуждалось выше, механизм 130 естественного языка может поддерживать поиски информации. Чтобы поддержать такие поиски, выполняется процесс 200 получения содержания. Операции, связанные с получением 200 содержания, извлекают информацию из документов, предоставленных как текстовое содержание 210. Эта информация может храниться в семантическом индексе 250, который может использоваться для поиска. Операции, связанные с поиском 205 пользователя, могут поддерживать обработку введенного пользователем запроса поиска. Запрос пользователя может принимать форму вопроса 260 на естественном языке. Механизм 130 естественного языка может анализировать ввод от пользователя, чтобы перевести запрос в представление, которое должно сравниваться с информацией, представленной внутри семантического индекса 250. Содержание и структурирование информации в семантическом индексе 250 могут поддерживать быстрое согласование и извлечение документов или частей документов, которые имеют отношение к смыслу запроса или вопроса 260 на естественном языке.In FIG. 2 is a functional block diagram of various components of a
Текстовое содержание 210 может содержать документы в очень общем смысле. Примерами таких документов могут являться веб-страницы, текстовые документы, сканированные документы, базы данных, распечатки информации, прочее Интернет-содержание или любой другой информационный источник. Это текстовое содержание 210 может обеспечить совокупность информации, которая должна быть найдена. Обработка текстового содержания 210 может происходить в два этапа как синтаксический анализ 215 и семантическое отображение 225. Предварительные этапы языковой обработки могут производиться до или в начале синтаксического анализа 215. Например, текстовое содержание 210 может разделяться на границах предложений. Имена собственные могут идентифицироваться как имена конкретных людей, мест, объектов или событий. Кроме того, могут быть определены грамматические свойства придающих смысл словесных окончаний. Например, на английском языке, существительное, заканчивающееся буквой "s", вероятно, будет существительным во множественном числе, хотя глагол, заканчивающийся на "s", может быть глаголом в третьем лице единственного числа.
Синтаксический анализ 215 может быть выполнен с помощью системы синтаксического анализа, такой как Xerox Linguistic Environment (XLE), представленной здесь только в качестве общего примера, но не ограничивающей возможные варианты осуществления настоящего описания. Синтаксический анализатор 215 может преобразовывать предложения в представления, которые создают ясные синтаксические отношения между словами. Синтаксический анализатор 215 может применять грамматику 220, связанную с конкретным используемым языком. Например, синтаксический анализатор 215 может применить грамматику 220 английского языка. Грамматика 220 может быть формализована, например, как лексическая функциональная грамматика (LFG) или другой подходящий механизм синтаксического анализа, такой как те, которые основаны на грамматике непосредственных составляющих, управляемых заголовками (HPSG), комбинаторной категориальной грамматике (CCG), вероятностной контекстно-свободной грамматике (PCFG) или любой другой формальной грамматике. Грамматика 220 может определить возможные пути конструирования значимых предложений на заданном языке. Синтаксический анализатор 215 может применять правила грамматики 220 к строкам текстового содержания 210.Parsing 215 can be performed using a parsing system such as Xerox Linguistic Environment (XLE), presented here only as a General example, but not limiting the possible options for implementing the present description. The parser 215 can transform sentences into representations that create clear syntactic relationships between words. The parser 215 may use the
Грамматика 220 может обеспечиваться для различных языков. Например, грамматики LFG были созданы для английского, французского, немецкого, китайского и японского языков. Другие грамматики также могут быть предоставлены. Грамматика 220 может быть разработана посредством ручного получения, при котором грамматические правила определяются лингвистом или автором словаря. Альтернативно, получение с помощью устройства со средствами самообучения может содержать автоматизированное наблюдение и анализ многих примеров текста из большой совокупности, чтобы автоматически определять грамматические правила. Также, при получении правил грамматики 220 может использоваться комбинация ручного определения и определения с помощью устройства со средствами самообучения.
Синтаксический анализатор 215 может применять грамматику 220 к текстовому содержанию 210, чтобы определить синтаксическую структуру. В случае синтаксического анализа, основанного на LFG, синтаксические структуры состоят из составляющих структур (c-структуры) и функциональных структур (f-структуры). С-структура может представлять иерархию составляющих фраз и слов. F-структура может кодировать роли и отношения между различными составляющими c-структуры. F-структура может также представлять информацию, выведенную из форм слов. Например, в f-структуре может быть определено множественное число существительного или время глагола.The parser 215 may apply the
Во время процесса 225 семантического отображения, который следует за процессом 215 синтаксического анализа, информация может быть извлечена из синтаксических структур и объединена с информацией о значениях слов в предложении. Семантическое отображение или семантическое представление предложения могут быть предоставлены как семантика 240 содержания. Семантическое отображение 225 может улучшать синтаксические взаимоотношения, предоставленные синтаксическим анализатором 215 с концептуальными свойствами индивидуальных слов. Результаты могут быть преобразованы в представления значения предложений из текстового содержания 210. Семантическое отображение 225 может определять роли, играемые словами в предложении. Например, подлежащее, выполняющее действие, что-либо, используемое для выполнения действия, или что-либо, затрагиваемое действием. В целях индексации поиска слова могут сохраняться в семантическом индексе 250 вместе с их ролями. Таким образом, извлечение из семантического индекса 250 может зависеть не просто от отдельно выделенного слова, но также и от значения слова в предложениях, в которых оно появляется в пределах текстового содержания 210. Семантическое отображение 225 может способствовать устранению неоднозначности терминов, определению антецедентных отношений и расширению терминов посредством синонимов, гиперонимов или гипонимов.During the
Семантическое отображение 225 может применять ресурсы 230 знания в качестве правил и методик для извлечения семантики из предложений. Ресурсы знания могут быть получены как через ручное определение, так и через устройство со средствами самообучения, как обсуждалось в отношении получения грамматик 220. Процесс семантического отображения 225 может обеспечить семантику 240 содержания в представлении на семантическом расширяемом языке разметки (семантический XML или semxml). Любой подходящий язык представления, такой как выражения, записанные в PROLOG, LISP, JSON, YAML или других, также может использоваться. Семантика 240 содержания может указывать роли, играемые словами в предложениях текстового содержания 210. Семантика 240 содержания может быть предоставлена процессу 245 индексации.
Индекс может поддерживать представление большой совокупности информации, так чтобы местоположения слов и фраз могли быть быстро идентифицированы в пределах индекса. Традиционный механизм поиска может использовать ключевые слова в качестве терминов поиска, так что индекс отображается из ключевых слов, определенных пользователем в статьях или документах, где такие ключевые слова появляются. Семантический индекс 250 может представлять семантические значения слов в дополнение к самим словам. Семантические взаимоотношения могут назначаться словам во время получения содержания 200, а также во время поиска 205 пользователя. Запросы о семантическом индексе 250 могут быть основаны не только на словах, но и на словах в конкретных ролях. Роли - это то, что представляет слово в предложении или фразе, как хранит в семантическом индексе 250. Семантический индекс 250 может рассматриваться как инвертированный индекс, который является быстро доступной для поиска базой данных, объектами которой являются семантические слова (то есть, слова в данной роли) с помощью указателей на документы, или web-страницами, на которых появляются эти слова. Семантический индекс 250 может поддерживать гибридную индексацию. Такая гибридная индексация может объединять признаки и функции как индексации ключевого слова, так и семантической индексации.An index can support the presentation of a large body of information so that the locations of words and phrases can be quickly identified within the index. The traditional search engine can use keywords as search terms, so that the index is displayed from keywords defined by the user in articles or documents where such keywords appear. The semantic index 250 may represent semantic meanings of words in addition to the words themselves. Semantic relationships can be assigned to words during acquisition of
Ввод запросов пользователем может быть поддержан в форме вопросов 260 на естественном языке. Запрос может анализироваться через источник информации на естественном языке, подобном или идентичном тому, который использовался при получении 200 содержания. То есть, вопрос 260 на естественном языке может быть обработан синтаксическим анализатором 265, чтобы извлечь синтаксическую структуру. После синтаксического анализа 265 вопрос 260 на естественном языке может быть обработан для семантического отображения 270. Семантическое отображение 270 может обеспечить семантику 275 вопроса, которая должна использоваться в процессе 280 извлечения относительно семантического индекса 250, как обсуждалось выше. Процесс 280 извлечения может поддерживать гибридные индексные запросы, где как извлечение индекса ключевого слова, так и извлечение семантического индекса могут быть обеспечены отдельно или в комбинации.User input can be supported in the form of
В ответ на запрос пользователя результаты извлечения 280 из семантического индекса 250 вместе с семантикой 275 вопроса могут информировать процесс 285 ранжирования. Ранжирование может подкреплять как ключевое слово, так и семантическую информацию. Во время ранжирования 285 результаты, полученные посредством извлечения 280, могут быть выстроены по порядку по различными показателям в попытке расположить наиболее желательные результаты ближе к вершине извлеченной информации, которая должна предоставляться пользователю в качестве результирующего представления 290.In response to a user request, the results of extracting 280 from the semantic index 250 along with the
Обратимся теперь к фиг. 3, где показана функциональная блок-схема разрешения кореференции и разрешения двусмысленности в пределах системы 300 обработки естественного языка в соответствии с аспектами представленного здесь варианта осуществления. Как пример применения, система 300 обработки естественного языка может поддерживать механизм поиска информации для индексации и извлечения документа. Такой разрешенный поисковый механизм на естественном языке может расширять информацию, хранящуюся в ее индексе, основанном на лингвистическом анализе. Система может также поддерживать раскрытие намерения в пределах запроса пользователя путем анализа запроса лингвистически. Признаки разрешения кореференции и разрешения двусмысленности, обсуждаемые здесь, могут работать в отношении синтаксического анализа 215, семантического отображения 225 и семантической индексации 245, как обсуждалось со ссылкой на фиг. 2. Разрешение кореференции может выполняться напрямую на текстовом содержании 210 или на информации использования из операций анализа 215 или семантического отображения 225.Turning now to FIG. 3, a functional block diagram of resolving coreference and resolving ambiguity within a natural language processing system 300 is shown in accordance with aspects of an embodiment presented herein. As an example application, the natural language processing system 300 may support an information retrieval mechanism for indexing and retrieving a document. Such a natural language search engine can expand the information stored in its index based on linguistic analysis. The system may also support disclosure of intent within a user's request by analyzing the request linguistically. The indications of corereference permission and ambiguity resolution discussed here may work with respect to parsing 215,
Как показано на чертеже, разрешение 320, 370 кореференции может быть выполнено непосредственно на сегментированном документе и также как часть семантического отображения 225. Эти два появления разрешений 320, 370 кореференции могут быть объединены или могут быть объединены их информационные выводы. Следует понимать, что разрешение кореференции может также произойти между синтаксическим анализом 215 и семантическим отображением 225. Разрешение кореференции может также произойти на любом другом этапе в пределах конвейера обработки естественного языка. Могут иметься одна, две или более компонент разрешения кореференции или этапов в различных положениях в пределах системы обработки естественного языка. Текстовое содержание 210 может анализироваться для информации, предназначенной для хранения в семантическом индексе 250. Поиск может содержать в себе запрос семантического индекса 250 для желаемой информации.As shown in the drawing, the resolution 320, 370 of the reference can be performed directly on the segmented document and also as part of the
Сегментация 310 содержания может быть выполнена на документах, обладающих текстовым содержанием 210. Документы могут быть сегментированы для более эффективного и потенциально более точного разрешения 320 кореференции. Разрешение 320 референции может рассматривать потенциальные взаимоотношения референции по всему документу. Для длинных документов много времени может быть потрачено, сравнивая удаленные друг от друга выражения. Когда учитывается скорость обработки, сегментация 310 содержания документов перед разрешением 320 кореференции может существенно уменьшить время, используемое для обработки. Сегментация 310 содержания может эффективно уменьшить объем текста 210 содержания, который исследуется при попытках разрешения 320 кореференции.Content segmentation 310 can be performed on documents with
Сегментация 310 содержания может обеспечить информацию для разрешения 370 семантической кореференции, чтобы указать, когда начинается новый сегмент документа. Такая информация может быть предоставлена как сигнал 312 сегментации или посредством введения разметки в сегмент документа содержания. Также может быть использован внешний файл, содержащий метаинформацию, или другие механизмы.Content segmentation 310 may provide information for resolving 370 semantic corrections to indicate when a new document segment begins. Such information may be provided as a segmentation signal 312 or by introducing markup into a segment of the content document. An external file containing meta-information or other mechanisms may also be used.
Структура документа может использоваться, чтобы идентифицировать границы сегмента, которые связи референции вряд ли должны пересекать. Структура документа может быть выведена из явной разметки, такой как границы параграфа, главы или заголовки раздела. Структура документа может также раскрываться через лингвистическую обработку. Сегменты, превышающие заданную длину, могут быть разделены дополнительно. Желательная длина при дополнительном делении может быть выражена, например, в терминах количества предложений или количества слов.The document structure can be used to identify segment boundaries that reference relationships are unlikely to cross. The structure of a document can be inferred from explicit markup, such as paragraph boundaries, chapters, or section headings. The structure of the document may also be disclosed through linguistic processing. Segments exceeding a given length can be further divided. The desired length with additional division can be expressed, for example, in terms of the number of sentences or the number of words.
Когда надежное структурирование документа недоступно, могут применяться эвристические или статистические критерии. Такие критерии могут указываться, чтобы иметь тенденцию поддерживать кореференции вместе, в то же время ограничивая размер сегмента до заранее определенного максимума. Могут также применяться различные другие подходы к сегментации текстового содержания 210 документов. Сегментация 310 содержания может также определить весь документ как один сегмент.When reliable document structuring is not available, heuristic or statistical criteria may be applied. Such criteria may be indicated in order to tend to maintain corereferences together, while limiting the size of the segment to a predetermined maximum. Various other approaches to segmentation of the text content of 210 documents may also be applied. Content segmentation 310 can also define an entire document as one segment.
Разрешение 320, 370 кореференции может использоваться для идентификации кореференции и псевдонимов в пределах текста 210 содержания. Например, при индексации предложения "Он нарисовал "Гернику"", может быть крайне важно решить, что "он" относится к Пикассо. Это особенно справедливо, если используется извлечение, основанное на факте. Принятие решения по использованию местоимения вместо Пикассо может поддержать индексацию факта, что Пикассо нарисовал "Гернику", вместо менее полезного факта, что некоторый человек мужского пола, "он", нарисовал "Гернику". Без этой способности идентифицировать и индексировать референта местоимения может быть трудно, используя основанный на факте способ извлечения, извлечь документ в ответ на запрос "Пикассо нарисовал". Повторный вызов системы может улучшиться, когда возвращается документ, относящийся к запросу, который не мог бы быть в противном случае возвращен.The coreference permission 320, 370 can be used to identify coreferences and aliases within the
Аннотация 330 может применяться к текстовому содержанию 210, чтобы поддерживать слежение за объектами и возможные отношения кореференции. Доверительные значения в решениях разрешений могут также быть аннотированы или маркированы в пределах текстового содержания 210. Определения разрешений могут записываться, добавляя явные метки аннотации к тексту. Например, задается текст "John visited Mary. He met her in 2003" (Джон посетил Мэри. Он встретил ее в 2003 г.). Аннотация 330 может быть применена как "[E1:0.9 John] visited [E2:0.8 Mary]. [E1:0.9 He] met [E2:0.8 her] in 2003", где слова "John" и "He" могут быть связаны как один объект E1 с доверительным значением 0,9. Точно так же слова "Mary" и "her" могут быть связаны как объект два E2 с доверительным значением 0,8. Доверительное значение может указывать критерий доверия в решении разрешения 320 кореференции. Аннотация может кодировать решения кореференции напрямую или аннотация может функционировать как идентификаторы, соединяющие соответствующие термины в аннотированном тексте с дополнительной информацией в автономной аннотации 325.Annotation 330 can be applied to
Решения для разрешения 320 кореференции могут использоваться как часть процесса построения семантического отображения 225. Ссылочные выражения, используемые системой разрешения 320 кореференции, могут интегрироваться во входное представление для семантического отображения 225 внутристрочными аннотациями внутри текстового содержания. Референции могут также обеспечиваться отдельно во внешнем, автономном отображении объекта 325.Solutions for resolution 320 of the reference can be used as part of the process of constructing the
В пределах набора больших документов текстового содержания 210, такого как веб-сеть, одно и то же предложение может появляться многократно в различных контекстах. Эти различные контексты могут обеспечивать различных кандидатов для разрешения 320 кореференции. Так как синтаксический анализ 215 может быть в вычислительном отношении дорогим, может быть полезно сохранить результаты анализа для предложений в кэше. Такой механизм 350 кэширования может поддерживать быстрое извлечение информации синтаксического анализа, когда предложение встречается в будущем.Within a set of large documents of
Если разрешение 320 кореференции применяется к одиночному предложению, появляющемуся в различных контекстах, оно может идентифицировать различные отношения кореференции для одних и тех же ссылочных выражений, поскольку кореференция может зависеть от контекста. Таким образом, внутри текста могут быть вставлены различные идентификаторы объекта. Например, текст "He is smart" (Он - умный), появляющийся в двух различных документах, может быть аннотирован с двумя различными идентификаторами, "[E21 He] is smart" и "[E78 He] is smart", когда слово "He" в первом документе относится к другому человеку, чем слово "He" во втором документе.If corereference permission 320 applies to a single sentence appearing in different contexts, it can identify different corereference relations for the same reference expressions, since corereference may be contextual. Thus, various object identifiers can be inserted inside the text. For example, the text “He is smart” appearing in two different documents can be annotated with two different identifiers, “[E21 He] is smart” and “[E78 He] is smart” when the word “He "in the first document refers to a different person than the word" He "in the second document.
Могут иметься различные источники информации для поверхностного разрешения 320 кореференции. Например, в дополнение к обнаружению выражения, выполненному во время разрешения 320 кореференции, может существовать система, предназначенная для обнаружения имен собственных в текстовом содержании 210. Эти различные источники могут идентифицировать информацию конфликтующего разрешения. Например, конфликтующее разрешение может возникать при пересечении границ. Например, две системы могли идентифицировать следующие конфликтующие ссылочные выражения:Various sources of information may exist for surface resolution 320 of coreference. For example, in addition to the expression detection performed during corereference permission 320, a system may exist for detecting proper names in
"[John] told [George Washington] [Irving] was a great writer.""[John] told [George Washington] [Irving] was a great writer."
("[Джон] сказал, что [Джордж Вашингтон] [Ирвинг] был большим писателем.")("[John] said that [George Washington] [Irving] was a great writer.")
"[John] told [George] [Washington Irving] was a great writer.""[John] told [George] [Washington Irving] was a great writer."
("[Джон] сказал, что [Джордж] [Вашингтон, Ирвинг] был большим писателем.")("[John] said that [George] [Washington, Irving] was a great writer.")
Рассмотрим следующие конфликты на пересечении границ: [George Washington] в первой строке конфликтует с [George] во второй строке. Также [George Washington] в первой строке конфликтует с [Washington Irving] во второй строке. Основываясь на доверительной информации или контекстных факторах, различные стратегии могут быть применены итеративно, чтобы решить этот конфликт или сохранить его. В стратегии "сброса" решение для двух или более конфликтующих границ может быть принято посредством сброса одной, которая имеет наименьшую доверительность. В стратегии "слияния" границы могут быть соответственно перемещены, когда две или более границ одинаково правдоподобны в совместимых контекстах. Например, "Mr. [John Smith]" ("[г-н Джон] Смит") и "Mr. [John Smith]" ("г-н [Джон Смит]") могут быть объединены, чтобы получить [Mr. John Smith]" ("[г-н Джон Смит]") В "сохраняющей" стратегии многочисленные границы могут быть сохранены, поддерживая их как неоднозначный вывод, когда конфигурация границ и их доверительные значения не поддерживает ни слияния, ни сброс. Например, "[Alexander the Great]" ("[Александр Великий]") и "[Alexander] [the Great]" ("[Александр] [Великий]") могут быть представлены как альтернативные неоднозначные разрешения.Consider the following border crossing conflicts: [George Washington] on the first line conflicts with [George] on the second line. Also [George Washington] in the first line conflicts with [Washington Irving] in the second line. Based on trusting information or contextual factors, various strategies can be applied iteratively to resolve this conflict or to preserve it. In a “reset” strategy, a decision for two or more conflicting boundaries can be made by resetting the one that has the least confidence. In a merge strategy, boundaries can be moved accordingly when two or more borders are equally plausible in compatible contexts. For example, “Mr. [John Smith]” (“[Mr. John] Smith”) and “Mr. [John Smith]” (“Mr. [John Smith]”) can be combined to obtain [Mr. John Smith] "(" [Mr. John Smith] ") In a" conservation "strategy, multiple boundaries can be saved, supporting them as an ambiguous conclusion when the boundary configuration and their confidence values support neither merging nor dumping. For example," [Alexander the Great] "(" [Alexander the Great] ") and" [Alexander] [the Great] "(" [Alexander] [Great] ") can be represented as alternative ambiguous resolutions.
Компонент 215 синтаксического анализа 215 может быть анализатором с осведомленностью о двусмысленности, поддерживающим прямой синтаксический анализ неоднозначного ввода, при котором синтаксический анализ 355 может сохранить двусмысленность. Альтернативно, разрешения по неоднозначному вводу могут нуждаться в раздельном синтаксическом анализе и многочисленные структуры выводов могут передаваться семантическому компоненту 225 отдельно. Семантическая обработка 225, как обсуждается далее более подробно, может применяться многократно к каждому выводу синтаксического анализатора 215. Это может привести к различным семантическим выводам для различных синтаксических вводов. Альтернативно, семантическое отображение 225 может объединить различные вводы и обрабатывать их совместно.Parsing component 215 215 may be an ambiguity-aware analyzer supporting direct ambiguous input parsing, in which parsing 355 can preserve ambiguity. Alternatively, ambiguous input permissions may need separate parsing and multiple output structures may be passed to
Семантическое отображение 225 может иметь семантическую нормализацию 360. Многочисленные выводы неоднозначного синтаксического анализа 355 предложения могут совместно использовать значение, имеющее различные формы. Например, это может происходить при нормализации пассивного языка. Рассмотрим "John gave Mary a present" ("Джон сделал Мэри подарок") и здесь слово "John" является подлежащим, а "Mary" является косвенным дополнением. Рассмотрим "a present was given to Mary by John" ("подарок был сделан Мэри Джоном"), здесь подлежащим является "Mary", и "John" является дополнением. Нормализация 360 может обеспечить выводы, что для этих двух примеров представляется одним и тем же, что "John" семантически является подлежащим, а "Mary" семантически является косвенным дополнением. Альтернативно, "John" может быть идентифицирован как агент, а "Mary" - как реципиент. Точно так же идентичные представления могут быть обеспечены для "Rome's destruction of Carthage" ("разрушение Римом Карфагена") и "Rome destroyed Carthage" ("Рим разрушил Карфаген").
Семантическая нормализация может также добавить информацию о различных словах разобранного предложения. Например, слова могут быть идентифицированы в словаре и связаны с их синонимами, гиперонимами, возможными альтернативными названиями и другой лексической информацией.Semantic normalization can also add information about the different words of a parsed sentence. For example, words can be identified in a dictionary and associated with their synonyms, hyperonyms, possible alternative names and other lexical information.
Разрешение 370 кореференции, основанное на семантике, может принять решение о выражениях, основываясь на синтаксической и семантической информации. Например, "John saw Bill. He greeted him" ("Джон видел Билла. Он приветствовал его") можно решить как "he" ("он") в отношении "John" (Джона) и "him" ("его") в отношении "Bill" ("Билла"). Такое разрешение может быть принято, поскольку "he" ("он") и "John" ("Джон") - оба являются подлежащими, тогда как "him" ("его") и "Bill" ("Билл") - оба являются дополнениями.The semantics-based resolution 370 of the coreference can decide on expressions based on syntactic and semantic information. For example, "John saw Bill. He greeted him" ("John saw Bill. He greeted him") can be defined as "he" ("he") in relation to "John" (John) and "him" ("him") in relation to "Bill" ("Bill"). Such permission may be accepted, since “he” and “John” are both subject, whereas “him” and “Bill” are both are add-ons.
Поверхностное разрешение 320 кореференции может функционировать посредством просмотра сегмента документа, в котором появляются термины. Напротив, семантическое разрешение 370 кореференции или глубокое разрешение кореференции может обрабатывать одно предложение за один раз. Возможные антецеденты предложений могут помещаться в хранилище 375 антецедентов, так чтобы семантическое разрешение 370 кореференции последующих предложений могло обратиться к ранее введенным элементам. Антецеденты могут храниться с информацией об их грамматической функции и ролях в предложении, их расстоянии в тексте, с информацией об их взаимоотношениях с другими антецедентами и различными другими фрагментами информации.The core resolution 320 may function by viewing a segment of a document in which terms appear. In contrast, semantic resolution 370 of coreference or deep resolution of coreference can process one sentence at a time. Possible offer antecedents can be stored in the repository of 375 antecedents, so that the semantic resolution 370 of the follow-up offer correlation can refer to previously entered elements. Antecedents can be stored with information about their grammatical function and roles in the sentence, their distance in the text, with information about their relationships with other antecedents and various other pieces of information.
Слияние 380 выражений может объединять выражения из поверхностного разрешения 320 кореференции, автономно расположенных аннотаций 325 и информацию из семантического разрешения 370 кореференции. Информация для терминов, которые должны объединяться, может идентифицироваться, используя выравнивание строк или аннотации 330. Могут также использоваться и другие механизмы объединения двух аннотаций на одном и том же тексте.A fusion of 380 expressions can combine expressions from the surface resolution 320 of the coreference, autonomously located annotations 325, and information from the semantic resolution 370 of the coreference. Information for terms to be combined can be identified using line alignment or annotations 330. Other mechanisms for combining two annotations on the same text can also be used.
Синтаксический анализ 215 может быть естественной точкой интеграции для произвольно обнаруженных ссылочных выражений. Анализатор может поддерживать выделение структуры в предложениях, таких как составляющие или грамматические взаимоотношения, такие как подлежащее и дополнение. Синтаксический анализ 215, допускающий двусмысленность, может идентифицировать многочисленные альтернативные структурные представления предложения. В одном примере, информация из разрешения 320 кореференции может использоваться для фильтрации вывода синтаксического анализатора 215, сохраняя только те представления, в которых левая граница каждого ссылочного выражения совпадает с началом совместимой части синтаксического анализа. Например, разрешение кореференции может устанавливать кореферентов как в случае "[EO John] told [El George] [E2 Washington Irving] was a great writer"]. Синтаксический анализатор 215 может раздельно обеспечивать четыре возможности синтаксического анализа:Parsing 215 may be a natural integration point for arbitrary referenced expressions. The analyzer can support the allocation of structure in sentences, such as components or grammatical relationships, such as subject and complement. Parsing ambiguity 215 can identify numerous alternative structural representations of a sentence. In one example, information from corereference permission 320 can be used to filter the output of parser 215, storing only those views in which the left border of each reference expression matches the start of the compatible parsing part. For example, resolving coreference can set corereference as in the case of "[EO John] told [El George] [E2 Washington Irving] was a great writer"]. The parser 215 can separately provide four parsing capabilities:
1. [John] and [George] and [Washington Irving]1. [John] and [George] and [Washington Irving]
2. [John] and [George] and [Washington] and [Irving]2. [John] and [George] and [Washington] and [Irving]
3. [John] and [George Washington] and [Irving]3. [John] and [George Washington] and [Irving]
4. [John] and [George Washington Irving]4. [John] and [George Washington Irving]
Возможности синтаксического анализатора под номером три и под номером четыре могут быть отфильтрованы из-за несовместимости с левой границей объекта E2 "Washington Irving" в соответствии с разрешением 320 референции.The capabilities of the parser numbered three and numbered four can be filtered out due to incompatibility with the left border of the E2 Washington Irving object in accordance with a resolution of 320 references.
Процесс расширения 385 может добавить дополнительную информацию к представлению. Например, для "John sold a car from Bill" ("Джон продал автомобиль Биллу") расширение 385 может дополнительно вывести представление "Bill bought a car from John" ("Билл купил автомобиль у Джона"). Аналогично, для "John killed Bill" ("Джон убил Билла") расширение 385 может дополнительно вывести представление "Bill died" ("Билл умер").The extension process 385 may add additional information to the view. For example, for “John sold a car from Bill”, extension 385 might additionally display “Bill bought a car from John”. Likewise, for "John killed Bill", extension 385 may additionally display the representation "Bill died".
Традиционные механизмы поиска могут извлекать документы в ответ на запросы пользователей, основываясь на соответствии ключевых слов или терминов. В этих традиционных системах документы могут ранжироваться в соответствии с такими факторами, сколько терминов из запроса обнаруживаются в пределах документов, как часто появляются термины или как близко друг к другу обнаруживаются термины.Traditional search engines can retrieve documents in response to user requests based on matching keywords or terms. In these traditional systems, documents can be ranked according to factors such as how many terms from the query are found within the documents, how often the terms appear, or how close the terms are to each other.
Рассмотрим пример запроса "Picasso painted" ("Пикассо нарисовал") с документом первого примера, содержащим "Picasso was born in Malaga. He painted Guernica" ("Пикассо родился в Малаге. Он нарисовал "Гернику"") и с документом второго примера, содержащим "Picasso's friend Matisse painted prolifically" ("Друг Пикассо Матисс рисовал много"). При равном всем остальном, традиционная система может присваивать второму документу более высокий ранг, чем первому, потому что слова "Picasso" ("Пикассо") и "painted" ("рисовал") ближе друг к другу во втором документе. Напротив, система, способная решить, что слово "He" ("он") в первом документе относится к Picasso (Пикассо), может правильно определить ранг первого документа выше, основываясь на этом знании. Полагая, что запрос "Picasso painted" (Пикассо нарисовал") отражает намерение пользователя узнать, что нарисовал Пикассо, первый документ явно дает более соответствующий результат.Consider the example query “Picasso painted” with the first example document containing “Picasso was born in Malaga. He painted Guernica” (Picasso was born in Malaga. He painted “Guernica”) and with the document of the second example, containing "Picasso's friend Matisse painted prolifically" ("Picasso's friend Matisse painted a lot"). If everything else is equal, the traditional system can assign the second document a higher rank than the first, because the words "Picasso" ("Picasso") and "painted" ("painted") are closer to each other in the second document. On the contrary, a system capable of deciding that the word “He” in the first document refers to Picasso (Picasso), can correctly determine the rank of the first document above, based on this knowledge. Assuming the query "Picasso painted" (Picasso painted) reflects the user's intention to find out what Picasso painted, the first document clearly gives a more consistent result.
Система 300 обработки естественного языка может обладать различной архитектурой. В одном варианте осуществления может быть обеспечен конвейер, в котором информацию с одного этапа языковой обработки передают в качестве входных данных на последующие этапы. Следует понимать, что эти подходы могут осуществляться и при любой другой архитектуре, предназначенной для извлечения фактов, которые должны быть проиндексированы, из текстового содержания 210 на естественном языке.The natural language processing system 300 may have a different architecture. In one embodiment, a conveyor may be provided in which information from one language processing step is passed as input to subsequent steps. It should be understood that these approaches can be implemented with any other architecture designed to extract facts that should be indexed from
На фиг. 4 показаны дополнительные подробности в отношении вариантов осуществления, представленных здесь для разрешения кореференции в чувствительной к двусмысленности системе обработки естественного языка. В частности, на фиг. 4 показана блок-схема, демонстрирующая аспекты процессов 400 для чувствительной к двусмысленности индексации с разрешением кореференции в соответствии с аспектами представленного здесь варианта осуществления.In FIG. 4 shows further details regarding the embodiments presented herein for resolving coreference in an ambiguous sensitive natural language processing system. In particular, in FIG. 4 is a flowchart showing aspects of
Следует понимать, что описанные здесь логические операции осуществляются (1) как последовательность действий, осуществляемых компьютером или программными модулями, работающими в вычислительной системе и/или (2) как взаимосвязанные машинные логические схемы или схемные модули в пределах вычислительной системы. Реализация является делом выбора, зависящего от производительности и других требований вычислительной системы. Соответственно, описанные здесь логические операции упоминаются по-разному, как операции с состояниями, структурные устройства, действия или модули. Эти операции, структурные устройства, действия и модули могут быть осуществлены в программном обеспечении, во встроенном программном обеспечении, в специализированных цифровых логических схемах и любой их комбинации. Следует также понимать, что может выполняться большее или меньшее количество операций, чем показано на чертежах и описано здесь. Эти операции могут также выполняться последовательно, параллельно, или в порядке, отличном от описанного здесь.It should be understood that the logical operations described here are carried out (1) as a sequence of actions performed by a computer or program modules operating in a computer system and / or (2) as interconnected machine logic circuits or circuit modules within a computer system. Implementation is a matter of choice, depending on the performance and other requirements of the computing system. Accordingly, the logical operations described herein are referred to differently as state operations, structural devices, actions, or modules. These operations, structural devices, actions and modules can be implemented in software, in embedded software, in specialized digital logic circuits, and any combination thereof. It should also be understood that more or fewer operations may be performed than shown in the drawings and described herein. These operations may also be performed sequentially, in parallel, or in an order different from that described herein.
Подпрограмма 400 начинается с этапа 410, где часть текстового содержания 210 может быть извлечена для анализа и индексации. На этапе 420 текстовое содержание 210 может быть сегментировано, чтобы связать области текста, для которых при обработке разрешения осуществляется больший поиск и анализ. Сегментация может основываться на структуре внутри текста, такой как предложения, параграфы, страницы, главы или разделы. Сегментация может также основываться на количестве слов, количестве предложений или других показателях объема или сложности.
На этапе 430 решения по кореференциям могут приниматься в пределах текстового содержания 210. Работая с границами, установленными в рамках этапа 430, кореференции могут быть идентифицированы и согласованы. Могут быть установлены группы альтернативных названий. Для обеспечения "поверхностного" разрешения может использоваться поверхностная структура. Двусмысленности, возникающие во время разрешения кореференции, могут аннотироваться. Такая аннотация 340 может быть предоставлена в виде разметки в пределах текстового содержания 210 или с помощью внешнего отображения объекта. Аналогичная аннотация может также использоваться для маркировки референций и референтов с номерами объектов. Аннотация может быть также обеспечена, чтобы указать доверительные уровни установленных разрешений кореференции.At
На этапе 440 синтаксический анализ может преобразовать предложения в представления, которые делают явными синтаксические отношения между словами. Синтаксический анализатор 215 может применять грамматику 220, связанную с конкретным языком, чтобы обеспечить информацию синтаксического анализа 355.At
На этапе 450 семантические представления могут быть извлечены из текстового содержания 210. Информация, выраженная в документе внутри текстового содержания 210, может быть формально организована с точки зрения представлений взаимоотношений между объектами внутри текста. Эти отношения в общем смысле могут упоминаться как факты.At 450, semantic representations can be extracted from
На этапе 455 информация синтаксического анализа 355, выведенная из синтаксического анализа 215, может использоваться для поддержки принятия глубокого разрешения 370 кореференции 370. Семантические представления, созданные во время этапа 450, могут также быть усилены.At
На этапе 460 выражения, полученные при операции 430 поверхностного разрешения кореференции, могут быть объединены с информацией, полученной на этапе 455 глубокого разрешения кореференции. Синтаксический анализатор 215 с поддержкой двусмысленности может идентифицировать многочисленные альтернативные структурные представления для предложения. Информация от разрешения кореференции может использоваться для фильтрации вывода синтаксического анализатора 215.At
На этапе 470 семантика текстового содержания 210 может быть расширена, чтобы содержать выбранные неявные представления. На этапе 475 факты могут быть извлечены из семантических представлений, выражающих взаимоотношения между объектами, событиями и сочетаниями обстоятельств в пределах текстового содержания. На этапе 480 факты и объекты могут быть сохранены в семантическом индексе 250.At
Подпрограмма 400 может закончиться после этапа 480. Однако следует понимать, что подпрограмма 400 может применяться неоднократно или непрерывно, чтобы извлекать фрагменты текстового содержания 210, которые должны применяться к семантическому индексу 250.
Показанный на фиг. 5 пример компьютерной архитектуры 500 может выполнять описанные здесь компоненты программного обеспечения для разрешения кореференции в чувствительной к двусмысленности системе обработки естественного языка. Компьютерная архитектура, представленная на фиг. 5, показывает обычный настольный компьютер, ноутбук или серверный компьютер и может использоваться для выполнения любых аспектов компонент программного обеспечения, представленных здесь. Следует, однако, понимать, что описанные компоненты программного обеспечения могут также выполняться на другом примере вычислительных сред, таких как мобильные устройства, телевидение, телевизионные абонентские приставки, киоски, информационные системы транспортных средств, мобильные телефоны, встроенные системы или любые другие. Любой один или более клиентских компьютеров 110А-110D или серверных компьютеров 120 могут осуществляться как компьютерная система 500, соответствующая вариантам осуществления.Shown in FIG. 5, an example of
Компьютерная архитектура, показанная на фиг. 5, может содержать центральный процессор 10 (CPU), системное запоминающее устройство 13, содержащее оперативное запоминающее устройство 14 (RAM) и постоянное запоминающее устройство 16 (ROM), и системную шину 11, которая может соединять системное запоминающее устройство 13 с центральным процессором 10. Базовая система ввода-вывода, содержащая основные подпрограммы, которые помогают передавать информацию между элементами внутри компьютера 500, такие как те, которые действуют во время запуска, может храниться в ROM 16. Компьютер 500 может дополнительно содержать запоминающее устройство 15 большого объема для хранения операционной системы 18, программного обеспечения, данных и различные программных модулей, таких как те, которые связаны с механизмом 130 естественного языка. Механизм 130 естественного языка может выполнять части компонент программного обеспечения, описанных здесь. Семантический индекс 250, связанный с механизмом 130 естественного языка, может храниться внутри запоминающего устройства 15 большого объема.The computer architecture shown in FIG. 5 may comprise a central processing unit 10 (CPU), a system memory 13 comprising a random access memory 14 (RAM) and a read-only memory 16 (ROM), and a
Запоминающее устройство 15 большого объема может соединяться с CPU 10 через контроллер запоминающего устройства большого объема (не показан), соединенный с шиной 11. Запоминающее устройство 15 большого объема и связанные с ним считываемые компьютером носители могут обеспечивать энергонезависимое запоминающее устройство для компьютера 500. Хотя описание считываемых компьютером носителей, содержащееся здесь, относится к запоминающему устройству большого объема, такому как жесткий диск или дисковод для компакт-дисков, специалисты в данной области техники должны понимать, что считываемые компьютером носители могут быть любыми доступными компьютерными носителями данных, к которым может обращаться компьютер 500.The mass storage device 15 can be connected to the
Для примера, но не для ограничения, считываемые компьютером носители могут содержать энергозависимые и энергонезависимые, съемные и несъемные носители, осуществляемые любым способом или технологией хранения информации, такими как считываемые компьютером команды, структуры данных, программные модули или другие данные. Например, считываемые компьютером носители содержат, RAM, ROM, EPROM, EEPROM, флэш-память или другие твердотельные технологии, CD-ROM, цифровые универсальные диски (DVD), HD-DVD, BLU-RAY или другие оптические запоминающие устройства, магнитные кассеты, магнитную ленту, запоминающее устройство на магнитных дисках или другие магнитные запоминающие устройства или любые другие носители, которые могут использоваться для хранения желаемой информации и к которым может получать доступ компьютер 500, но не ограничены этим.By way of example, but not limitation, computer-readable media may include volatile and non-volatile, removable and non-removable media implemented by any method or technology for storing information, such as computer-readable instructions, data structures, program modules or other data. For example, computer-readable media contain RAM, ROM, EPROM, EEPROM, flash memory or other solid state technologies, CD-ROMs, digital versatile disks (DVDs), HD-DVDs, BLU-RAYs or other optical storage devices, magnetic tapes, magnetic tape, a magnetic disk storage device, or other magnetic storage devices or any other media that can be used to store the desired information and which can be accessed by the
В соответствии с различными вариантами осуществления, компьютер 500 может работать в сетевой среде, используя логические соединения с удаленными компьютерами через сеть, такую как сеть 140. Компьютер 500 может соединяться с сетью 140 через сетевой интерфейсный блок 19, соединенный с шиной 11. Следует понимать, что сетевой интерфейсный блок 19 может также использоваться для соединения с другими типами сетей и удаленными компьютерными системами. Компьютер 500 может также содержать контроллер 12 ввода-вывода для приема и обработки входных сигналов от многих других устройств, в том числе, от клавиатуры, мыши или электронного пера (не показано). Точно так же, контроллер 12 ввода-вывода может обеспечить выходной сигнал на видеодисплей, принтер или другой тип устройства вывода (также не показано).In accordance with various embodiments,
Как кратко упоминалось выше, многие программные модули и файлы данных могут храниться в запоминающем устройстве 15 большой емкости и в RAM 14 компьютера 500, в том числе, операционная система 18, пригодная для управления работой сетевого настольного компьютера, ноутбука, серверного компьютера или другой вычислительной средой. Запоминающее устройство 15 большого объема, ROM 16 и RAM 14 могут также хранить один или более программных модулей. В частности, запоминающее устройство 15 большого объема, ROM 16 и RAM 14 могут хранить механизм 130 естественного языка 130 для выполнения CPU 10. Механизм 130 естественного языка может содержать компоненты программного обеспечения для осуществления частей процессов, обсуждавшихся подробно со ссылкой на фиг. 2-4. Запоминающее устройство 15 большого объема, ROM 16 и RAM 14 могут также хранить другие типы программных модулей. Запоминающее устройство 15 большого объема, ROM 16 и RAM 14 могут также хранить семантический индекс 250, связанный с механизмом 130 естественного языка.As briefly mentioned above, many program modules and data files can be stored in mass storage device 15 and in
На основе вышесказанного, следует понимать, что здесь представляются технологии разрешения кореференции в чувствительной к двусмысленности системе обработки естественного языка. Хотя предмет изобретения, представленный здесь, был описан на языке, специфическом для компьютерных структурных признаков, методологических действиях и считываемых компьютером носителей, подразумевается, что изобретение, определенное в приложенной формуле изобретения, не обязательно ограничивается описанными здесь конкретными признаками, действиями или носителями. Скорее, конкретные признаки, действия и носители раскрыты как примеры формы осуществления формулы изобретения.Based on the foregoing, it should be understood that the technologies for resolving coreference in a sensitive to ambiguity natural language processing system are presented here. Although the subject matter presented here has been described in a language specific to computer structural features, methodological acts, and computer-readable media, it is intended that the invention as defined in the appended claims is not necessarily limited to the specific features, acts, or media described herein. Rather, specific features, acts, and carriers are disclosed as examples of a form of implementation of the claims.
Предмет изобретения, описанный выше, представлен только для примера и не должен рассматриваться как ограничение. В описанном здесь предмете изобретения могут быть сделаны различные модификации и изменения, не следующие показанным и описанным примерам вариантов осуществления и применениям и не отступающие от истинной сущности и объема настоящего изобретения, которые изложены в последующей формуле изобретения.The subject matter described above is presented by way of example only and should not be construed as limiting. In the subject matter described here, various modifications and changes can be made that are not following the shown and described examples of embodiments and applications and not deviating from the true nature and scope of the present invention, which are set forth in the following claims.
Claims (20)
извлекают, используя механизм естественного языка серверного компьютера, часть текста;
идентифицируют, используя механизм естественного языка серверного компьютера, кореференцию в пределах упомянутой части текста;
извлекают, используя механизм естественного языка серверного компьютера, факт из упомянутой части текста, причем факт имеет значение; и
расширяют, используя механизм естественного языка серверного компьютера, упомянутый факт, чтобы он включал в себя кореферентное значение, отличное от упомянутого значения и основанное на идентифицированной кореференции.1. A method for integrating mechanisms for resolving coreference, the method comprising the steps of:
retrieving, using the natural language mechanism of the server computer, part of the text;
identify, using the natural language mechanism of the server computer, the coreference within the mentioned part of the text;
extracting, using the natural language mechanism of the server computer, a fact from said part of the text, the fact being of significance; and
expanding, using the natural language mechanism of the server computer, the mentioned fact so that it includes a co-reference value different from the mentioned value and based on the identified core-reference.
извлекать часть текста;
идентифицировать кореференцию в пределах упомянутой части текста;
извлекать факт из части текста, причем факт имеет значение; и
расширять факт, чтобы он включал в себя кореферентное значение, отличное от упомянутого значения и основанное на идентифицированной кореференций.11. A computer storage medium having executable computer instructions stored on it which, when executed by a computer, cause the computer to:
Extract some text
identify coreference within the said part of the text;
extract a fact from part of the text, and the fact matters; and
expand the fact that it includes a co-reference value different from the mentioned value and based on the identified core-references.
извлекают, используя механизм естественного языка серверного компьютера, часть текста;
идентифицируют, используя механизм естественного языка серверного компьютера, кореференцию в пределах упомянутой части текста;
идентифицируют, используя механизм естественного языка серверного компьютера, неоднозначность в пределах упомянутой части текста;
извлекают, используя механизм естественного языка серверного компьютера, факт из упомянутой части текста, причем факт имеет значение;
расширяют, используя механизм естественного языка серверного компьютера, факт, чтобы он включал в себя кореферентное значение, отличное от упомянутого значения и основанное на идентифицированной кореференции;
сохраняют расширенный факт в индексе, пригодном для поддержки извлечения информации; и
извлекают расширенный факт из индекса в ответ на поисковый запрос. 20. A method for integrating mechanisms for resolving coreference, the method comprising the steps of:
retrieving, using the natural language mechanism of the server computer, part of the text;
identify, using the natural language mechanism of the server computer, the coreference within the mentioned part of the text;
identify, using the natural language mechanism of the server computer, the ambiguity within the said part of the text;
extracting, using the natural language mechanism of the server computer, a fact from said part of the text, the fact being of significance;
expand, using the natural language mechanism of the server computer, the fact that it includes a co-reference value different from the mentioned value and based on the identified core-reference;
store the expanded fact in an index suitable for supporting information extraction; and
retrieving the expanded fact from the index in response to a search query.
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US96942607P | 2007-08-31 | 2007-08-31 | |
US96948307P | 2007-08-31 | 2007-08-31 | |
US60/969,483 | 2007-08-31 | ||
US60/969,426 | 2007-08-31 | ||
PCT/US2008/074935 WO2009029903A2 (en) | 2007-08-31 | 2008-08-29 | Coreference resolution in an ambiguity-sensitive natural language processing system |
US12/200,962 | 2008-08-29 | ||
US12/200,962 US8712758B2 (en) | 2007-08-31 | 2008-08-29 | Coreference resolution in an ambiguity-sensitive natural language processing system |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2010107148A RU2010107148A (en) | 2011-09-10 |
RU2480822C2 true RU2480822C2 (en) | 2013-04-27 |
Family
ID=42041476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2010107148/08A RU2480822C2 (en) | 2007-08-31 | 2008-08-29 | Coreference resolution in ambiguity-sensitive natural language processing system |
Country Status (11)
Country | Link |
---|---|
EP (1) | EP2183684A4 (en) |
JP (2) | JP2010538374A (en) |
KR (1) | KR101522049B1 (en) |
CN (1) | CN101796508B (en) |
AU (1) | AU2008292779B2 (en) |
BR (1) | BRPI0815826A2 (en) |
CA (1) | CA2698054C (en) |
MX (1) | MX2010002349A (en) |
RU (1) | RU2480822C2 (en) |
WO (1) | WO2009029903A2 (en) |
ZA (1) | ZA201001259B (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2563148C2 (en) * | 2013-07-15 | 2015-09-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | System and method for semantic search |
RU2643438C2 (en) * | 2013-12-25 | 2018-02-01 | Общество с ограниченной ответственностью "Аби Продакшн" | Detection of linguistic ambiguity in a text |
RU2674331C2 (en) * | 2014-09-03 | 2018-12-06 | Дзе Дан Энд Брэдстрит Корпорейшн | System and process for analysis, qualification and acquisition of sources of unstructured data by means of empirical attribution |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5699789B2 (en) * | 2011-05-10 | 2015-04-15 | ソニー株式会社 | Information processing apparatus, information processing method, program, and information processing system |
US9286291B2 (en) * | 2013-02-15 | 2016-03-15 | International Business Machines Corporation | Disambiguation of dependent referring expression in natural language processing |
CN104462053B (en) * | 2013-09-22 | 2018-10-12 | 江苏金鸽网络科技有限公司 | A kind of personal pronoun reference resolution method based on semantic feature in text |
US9606977B2 (en) * | 2014-01-22 | 2017-03-28 | Google Inc. | Identifying tasks in messages |
US9497153B2 (en) * | 2014-01-30 | 2016-11-15 | Google Inc. | Associating a segment of an electronic message with one or more segment addressees |
CN109101533B (en) * | 2014-05-12 | 2022-07-15 | 谷歌有限责任公司 | Automated reading comprehension |
RU2591175C1 (en) * | 2015-03-19 | 2016-07-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Method and system for global identification in collection of documents |
CN106815215B (en) * | 2015-11-30 | 2019-11-26 | 华为技术有限公司 | The method and apparatus for generating annotation repository |
CN107515851B (en) * | 2016-06-16 | 2021-09-10 | 佳能株式会社 | Apparatus and method for coreference resolution, information extraction and similar document retrieval |
JP7135399B2 (en) * | 2018-04-12 | 2022-09-13 | 富士通株式会社 | Specific program, specific method and information processing device |
JP7503000B2 (en) * | 2018-06-25 | 2024-06-19 | セールスフォース インコーポレイテッド | System and method for investigating relationships between entities - Patents.com |
US20200074322A1 (en) * | 2018-09-04 | 2020-03-05 | Rovi Guides, Inc. | Methods and systems for using machine-learning extracts and semantic graphs to create structured data to drive search, recommendation, and discovery |
CN109815482B (en) * | 2018-12-17 | 2023-05-23 | 北京百度网讯科技有限公司 | News interaction method, device, equipment and computer storage medium |
US11630953B2 (en) * | 2019-07-25 | 2023-04-18 | Baidu Usa Llc | Systems and methods for end-to-end deep reinforcement learning based coreference resolution |
US11151321B2 (en) * | 2019-12-10 | 2021-10-19 | International Business Machines Corporation | Anaphora resolution |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2096824C1 (en) * | 1996-04-29 | 1997-11-20 | Государственный научно-технический центр гиперинформационных технологий | Method for automatic processing of information for personal use |
US6185592B1 (en) * | 1997-11-18 | 2001-02-06 | Apple Computer, Inc. | Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds |
EP1675025A2 (en) * | 2004-12-21 | 2006-06-28 | Palo Alto Research Center Incorporated | Systems and methods for generating user-interest sensitive abstracts of search results |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0268661A (en) * | 1988-09-05 | 1990-03-08 | Agency Of Ind Science & Technol | Context comprehending device |
JPH1011462A (en) * | 1996-06-26 | 1998-01-16 | Fuji Xerox Co Ltd | Similar relation development dictionary, similarity evaluating device, and retrieval device |
JP3504439B2 (en) * | 1996-07-25 | 2004-03-08 | 日本電信電話株式会社 | Video search method |
JPH11282844A (en) * | 1998-03-26 | 1999-10-15 | Toshiba Corp | Preparing method of document, information processor and recording medium |
CA2419105C (en) * | 2002-02-20 | 2007-01-09 | Xerox Corporation | Generating with lexical functional grammars |
US20050108630A1 (en) * | 2003-11-19 | 2005-05-19 | Wasson Mark D. | Extraction of facts from text |
US20050149499A1 (en) * | 2003-12-30 | 2005-07-07 | Google Inc., A Delaware Corporation | Systems and methods for improving search quality |
JP4439431B2 (en) * | 2005-05-25 | 2010-03-24 | 株式会社東芝 | Communication support device, communication support method, and communication support program |
JP4654780B2 (en) * | 2005-06-10 | 2011-03-23 | 富士ゼロックス株式会社 | Question answering system, data retrieval method, and computer program |
US8060357B2 (en) * | 2006-01-27 | 2011-11-15 | Xerox Corporation | Linguistic user interface |
-
2008
- 2008-08-29 EP EP08828084.7A patent/EP2183684A4/en not_active Ceased
- 2008-08-29 BR BRPI0815826-6A2A patent/BRPI0815826A2/en not_active IP Right Cessation
- 2008-08-29 RU RU2010107148/08A patent/RU2480822C2/en not_active IP Right Cessation
- 2008-08-29 CA CA2698054A patent/CA2698054C/en not_active Expired - Fee Related
- 2008-08-29 WO PCT/US2008/074935 patent/WO2009029903A2/en active Application Filing
- 2008-08-29 MX MX2010002349A patent/MX2010002349A/en not_active Application Discontinuation
- 2008-08-29 KR KR1020107006475A patent/KR101522049B1/en not_active IP Right Cessation
- 2008-08-29 AU AU2008292779A patent/AU2008292779B2/en not_active Ceased
- 2008-08-29 CN CN200880105563XA patent/CN101796508B/en active Active
- 2008-08-29 JP JP2010523185A patent/JP2010538374A/en active Pending
-
2010
- 2010-02-22 ZA ZA2010/01259A patent/ZA201001259B/en unknown
-
2014
- 2014-07-31 JP JP2014156393A patent/JP2014238865A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2096824C1 (en) * | 1996-04-29 | 1997-11-20 | Государственный научно-технический центр гиперинформационных технологий | Method for automatic processing of information for personal use |
US6185592B1 (en) * | 1997-11-18 | 2001-02-06 | Apple Computer, Inc. | Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds |
EP1675025A2 (en) * | 2004-12-21 | 2006-06-28 | Palo Alto Research Center Incorporated | Systems and methods for generating user-interest sensitive abstracts of search results |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2563148C2 (en) * | 2013-07-15 | 2015-09-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | System and method for semantic search |
RU2643438C2 (en) * | 2013-12-25 | 2018-02-01 | Общество с ограниченной ответственностью "Аби Продакшн" | Detection of linguistic ambiguity in a text |
RU2674331C2 (en) * | 2014-09-03 | 2018-12-06 | Дзе Дан Энд Брэдстрит Корпорейшн | System and process for analysis, qualification and acquisition of sources of unstructured data by means of empirical attribution |
US10621182B2 (en) | 2014-09-03 | 2020-04-14 | The Dun & Bradstreet Corporation | System and process for analyzing, qualifying and ingesting sources of unstructured data via empirical attribution |
Also Published As
Publication number | Publication date |
---|---|
JP2014238865A (en) | 2014-12-18 |
KR101522049B1 (en) | 2015-05-20 |
EP2183684A2 (en) | 2010-05-12 |
CA2698054C (en) | 2015-12-22 |
CN101796508A (en) | 2010-08-04 |
EP2183684A4 (en) | 2017-10-18 |
CA2698054A1 (en) | 2009-03-05 |
CN101796508B (en) | 2013-03-06 |
RU2010107148A (en) | 2011-09-10 |
BRPI0815826A2 (en) | 2015-02-18 |
MX2010002349A (en) | 2010-07-30 |
AU2008292779A1 (en) | 2009-03-05 |
AU2008292779B2 (en) | 2012-09-06 |
ZA201001259B (en) | 2012-05-30 |
KR20100075451A (en) | 2010-07-02 |
WO2009029903A2 (en) | 2009-03-05 |
WO2009029903A3 (en) | 2009-05-07 |
JP2010538374A (en) | 2010-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2480822C2 (en) | Coreference resolution in ambiguity-sensitive natural language processing system | |
US8712758B2 (en) | Coreference resolution in an ambiguity-sensitive natural language processing system | |
US11080295B2 (en) | Collecting, organizing, and searching knowledge about a dataset | |
US8041697B2 (en) | Semi-automatic example-based induction of semantic translation rules to support natural language search | |
Kowalski | Information retrieval systems: theory and implementation | |
US8463593B2 (en) | Natural language hypernym weighting for word sense disambiguation | |
US9569527B2 (en) | Machine translation for query expansion | |
CN102253930B (en) | A kind of method of text translation and device | |
US20140114942A1 (en) | Dynamic Pruning of a Search Index Based on Search Results | |
WO2010082207A9 (en) | Dynamic indexing while authoring | |
Moncla et al. | Automated geoparsing of paris street names in 19th century novels | |
Armentano et al. | NLP-based faceted search: Experience in the development of a science and technology search engine | |
Agichtein | Scaling Information Extraction to Large Document Collections. | |
Al-Zoghby et al. | Semantic relations extraction and ontology learning from Arabic texts—a survey | |
US8229970B2 (en) | Efficient storage and retrieval of posting lists | |
Garrido et al. | GEO-NASS: A semantic tagging experience from geographical data on the media | |
RU2563148C2 (en) | System and method for semantic search | |
Song et al. | Semantic query graph based SPARQL generation from natural language questions | |
Hazman et al. | An ontology based approach for automatically annotating document segments | |
Tran et al. | A model of vietnamese person named entity question answering system | |
Xu et al. | Building large collections of Chinese and English medical terms from semi-structured and encyclopedia websites | |
Giannini et al. | A Logic-based approach to Named-Entity Disambiguation in the Web of Data | |
Jena et al. | Semantic desktop search application for Hindi-English code-mixed user query with query sequence analysis | |
Singh et al. | Intelligent Bilingual Data Extraction and Rebuilding Using Data Mining for Big Data | |
Maheshwari et al. | Entity Resolution and Location Disambiguation in the Ancient Hindu Temples Domain using Web Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20150526 |
|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20170830 |