RU2480822C2

RU2480822C2 - Coreference resolution in ambiguity-sensitive natural language processing system

Info

Publication number: RU2480822C2
Application number: RU2010107148/08A
Authority: RU
Inventors: ДЕН БЕРГ Мартин ВАН; Ричард КРАУЧ; Франко САЛВЕТТИ; Джованни Лоренцо ТИОНЕ; Дэвид АН
Original assignee: Майкрософт Корпорейшн
Priority date: 2007-08-31
Filing date: 2008-08-29
Publication date: 2013-04-27
Also published as: JP2014238865A; KR101522049B1; EP2183684A2; CA2698054C; CN101796508A; EP2183684A4; CA2698054A1; CN101796508B; RU2010107148A; BRPI0815826A2; MX2010002349A; AU2008292779A1; AU2008292779B2; ZA201001259B; KR20100075451A; WO2009029903A2; WO2009029903A3; JP2010538374A

Abstract

FIELD: information technology.

SUBSTANCE: in the method of integrating coreference resolution mechanisms, a portion of text is retrieved using the natural language mechanism of a server computer. Coreference within said portion of text is identified using the natural language mechanism of the server computer. A fact is retrieved from said portion of text using the natural language mechanism of the server computer, wherein the fact has a value. Said fact is expanded using the natural language mechanism of the server computer so that it includes a coreference value different from said value and based on the identified coreference.

EFFECT: improved indexing of documents in natural language.

20 cl, 5 dwg

Description

ОБЛАСТЬ ТЕХНИКИ К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕFIELD OF THE INVENTION

Настоящее изобретение относится к способам разрешения кореференции в чувствительной к неоднозначности системе обработки естественного языка, в частности к интеграции функциональных возможностей разрешения кореференции в систему обработки документов.The present invention relates to methods for resolving coreference in an ambiguity sensitive natural language processing system, in particular to integrating the functionality of resolving coreference into a document processing system.

УРОВЕНЬ ТЕХНИКИBACKGROUND

В естественном языке не редкость, когда на объект ссылаются, используя разные описания. Например, вместо имен существительных обычно используются местоимения. Кроме того, для ссылки на объект могут использоваться различные другие описания или различные формы ссылки. Рассмотрим в качестве примера следующие части текста:In a natural language, it is not uncommon for an object to be referenced using different descriptions. For example, pronouns are usually used instead of nouns. In addition, various other descriptions or various forms of reference may be used to refer to an object. Consider the following parts of text as an example:

"Пабло Пикассо родился в Малаге.""Pablo Picasso was born in Malaga."

"Испанский живописец стал знаменит, благодаря его различными стилям.""The Spanish painter has become famous thanks to his various styles."

"Среди его картин крупномасштабная "Герника"."“Among his paintings is the large-scale“ Guernica. ”

"Он нарисовал этот волнующий шедевр во время испанской гражданской войны.""He painted this exciting masterpiece during the Spanish Civil War."

"Пикассо умер в 1973 году.""Picasso died in 1973."

Здесь мы наталкиваемся на последовательность лингвистического изменения. Например, используются два различных имени, "Пабло Пикассо" и "Пикассо". Определяющее описание, "испанский живописец" и два местоимения "его" и "он", все используются для ссылки на Пикассо. Для ссылки на картину используются два различных выражения: название произведения, "Герника", и указательное описание, "этот волнующий шедевр."Here we come across a sequence of linguistic change. For example, two different names are used, Pablo Picasso and Picasso. The defining description, the “Spanish painter” and the two pronouns “him” and “he”, are all used to refer to Picasso. Two different expressions are used to refer to the picture: the title of the work, "Guernica", and the indicative description, "this exciting masterpiece."

О двух лингвистических выражениях можно сказать, что они являются кореферентными, если они имеют один и тот же референт. Другими словами, если они ссылаются на один и тот же объект. Вторая фраза может быть анафорой, которая является анафорической к первой фразе. Также, первая фраза является антецедентом второй фразы. Знание референта антецедента может быть необходимо для определения референта анафоры. Общая задача нахождения кореферентных выражений, анафор и их антецедентов в пределах документа может упоминаться как разрешение кореференции. Разрешение кореференции является процессом установления, что два выражения относятся к одному и тому же референту без необходимости установления, каков этот референт. Разрешение референции является процессом установления, что является референтом.Of the two linguistic expressions, we can say that they are coreferent if they have the same referent. In other words, if they refer to the same object. The second phrase may be anaphora, which is anaphoric to the first phrase. Also, the first phrase is the antecedent of the second phrase. Knowing the referent of the antecedent may be necessary to determine the referent of the anaphora. The general task of finding coreferential expressions, anaphores and their antecedents within a document may be referred to as resolution of coreference. Resolving coreference is the process of establishing that two expressions refer to the same referent without the need to establish what this referent is. Referencing is the process of establishing what the referent is.

Для групп выражений, которые кореферентны, независимо от их анафорических отношений, выражения могут упоминаться как альтернативные названия друг друга. В соответствии с приведенным выше примером, выражения "Пабло Пикассо", "испанский живописец" "его", "он" и "Пикассо" формируют группу альтернативных названий, относящихся к Пикассо.For groups of expressions that are referential, regardless of their anaphoric relationship, expressions may be referred to as alternate names for each other. In accordance with the above example, the expressions "Pablo Picasso", "Spanish painter" "him", "he" and "Picasso" form a group of alternative names related to Picasso.

Выражения естественного языка часто содержат двусмысленность (неоднозначность). Неоднозначность возникает, когда выражение может быть интерпретировано более чем с одним значением. Например, предложение "Утка готова к еде" может быть интерпретировано как утверждение, что утка либо уже должным образом приготовлена, либо что утка хочет есть и нуждается в корме.Natural language expressions often contain ambiguity (ambiguity). Ambiguity occurs when an expression can be interpreted with more than one value. For example, the sentence “Duck is ready to eat” can be interpreted as saying that the duck is either properly cooked or that the duck is hungry and needs food.

Разрешение кореференции и разрешение неоднозначности являются двумя примерами операций обработки естественного языка, которые могут использоваться, чтобы механически поддерживать язык, как он обычно используется людьми-пользователями. Системы обработки информации, такие как текстовая индексация и запрос поддержки поиска информации, могут получить преимущество при повышенном применении систем обработки естественного языка.Resolving coreference and resolving ambiguity are two examples of natural language processing operations that can be used to mechanically support a language, as is commonly used by human users. Information processing systems, such as text indexing and requesting information search support, can benefit from the increased use of natural language processing systems.

Раскрытие, сделанное здесь, касается этих и других рассмотрений.The disclosure made here relates to these and other considerations.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Здесь описываются технологии разрешения кореференции в чувствительной к неоднозначности системе обработки естественного языка. В частности, описываются технологии интеграции функциональных возможностей разрешения кореференции в систему обработки документов, которые должны индексироваться в системе поиска и извлечения информации. Эта интеграция может улучшить индексацию с помощью информации, поддерживающей разрешение кореференции и неоднозначное значение в пределах документов на естественном языке.Here, technologies for resolving coreference in an ambiguity-sensitive natural language processing system are described. In particular, technologies are described for integrating the functionality of resolving coreference into a document processing system that should be indexed in a search and retrieval system. This integration can improve indexing with information that supports corereference resolution and ambiguous value within natural language documents.

В соответствии с одним аспектом, представленным здесь, информация, предоставленная системой разрешения кореференции, может быть интегрирована в систему обработки естественного языка и повысить ее производительность. Примером такой системы является система индексации и извлечения документов.In accordance with one aspect presented here, information provided by the core resolution system can be integrated into a natural language processing system and increase its productivity. An example of such a system is a document indexing and retrieval system.

В соответствии с другим аспектом, представленным здесь, признаки осведомленности о неоднозначности, а также функциональные возможности разрешения неоднозначности, могут работать в координации с разрешением кореференции в рамках системы обработки естественного языка. Аннотация объектов кореференции, а также неоднозначные интерпретации, могут поддерживаться встроенной разметкой внутри текстовых выражений или, альтернативно, внешними отображениями объектов.In accordance with another aspect presented herein, ambiguity awareness features, as well as ambiguity resolution functionality, may work in coordination with coreference resolution within a natural language processing system. Annotation of coreference objects, as well as ambiguous interpretations, can be supported by built-in markup inside text expressions or, alternatively, by external representations of objects.

В соответствии с еще одним аспектом, представленным здесь, факты могут извлекаться из текста, который должен быть индексирован. Информация, выраженная внутри текста, формально может быть организована с точки зрения фактов. Используемый в этом смысле факт может быть любой информацией, содержащейся в тексте, и не обязательно должен быть истинным. Факт может быть представлен как отношения между объектами. Факт может храниться в семантическом индексе как отношения между объектами, хранящимися внутри индекса. В системе извлечения, основанной на факте, документ может быть извлечен, если он содержит факт, который соответствует факту, определенному через анализ запроса.In accordance with another aspect presented here, the facts can be extracted from the text to be indexed. Information expressed within the text can be formally organized in terms of facts. The fact used in this sense can be any information contained in the text, and does not have to be true. A fact can be represented as relations between objects. A fact can be stored in a semantic index as a relationship between objects stored inside an index. In a fact-based retrieval system, a document can be retrieved if it contains a fact that matches the fact determined through analysis of the request.

В соответствии с еще одним другим аспектом, представленным здесь, процесс расширения может поддерживать применение многочисленных альтернативных названий или двусмысленностей к индексируемому объекту. Такое расширение может поддерживать дополнительные возможные референции или интерпретации для заданного объекта, зафиксированного в семантическом индексе. Альтернативные хранящиеся описания могут поддерживать извлечение факта посредством либо оригинального описания, либо кореференциального описания.In accordance with yet another aspect presented here, the expansion process may support the application of numerous alternative names or ambiguities to the indexed object. Such an extension may support additional possible references or interpretations for a given object, fixed in a semantic index. Alternative stored descriptions may support the extraction of fact through either the original description or the core description.

Следует понимать, что вышеописанный предмет обсуждения может также быть осуществлен как управляемое компьютером устройство, компьютерный процесс, вычислительная система или как производственное изделие, такое как считываемый компьютером носитель. Эти и различные другие признаки должны стать очевидны из чтения последующего подробного описания и рассмотрения сопроводительных чертежей.It should be understood that the above discussion subject can also be implemented as a computer-controlled device, a computer process, a computing system, or as a manufacturing product, such as a computer-readable medium. These and various other features should become apparent from reading the following detailed description and consideration of the accompanying drawings.

Настоящий раздел "Сущность изобретения" предназначен для введения выборочных концепций в упрощенной форме, которые дополнительно описываются ниже в подробном описании. Настоящий раздел "Сущность изобретения" не предназначен ни для того, чтобы идентифицировать ключевые признаки или существенные признаки заявленного предмета изобретения, ни для того, чтобы использовать этот раздел "Сущность изобретения" для ограничения объема заявленного предмета изобретения. Дополнительно, заявленный предмет изобретения не ограничивается вариантами осуществления, которые устраняют любые или все недостатки, отмеченные в любой части настоящего раскрытия.This section of the "Summary of the invention" is intended to introduce selective concepts in a simplified form, which are further described below in the detailed description. The present "Summary of the invention" is not intended to identify key features or essential features of the claimed subject matter, nor to use this section of the "Summary of the invention" to limit the scope of the claimed subject matter. Additionally, the claimed subject matter is not limited to embodiments that eliminate any or all of the disadvantages noted in any part of this disclosure.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

Фиг. 1 - схема архитектуры сети, показывающая систему поиска информации в соответствии с аспектами представленного здесь варианта осуществления;FIG. 1 is a diagram of a network architecture showing an information retrieval system in accordance with aspects of an embodiment presented herein;

Фиг. 2 - функциональная блок-схема, показывающая различные компоненты системы индексов и запросов текста естественного языка, соответствующей аспектам представленного здесь варианта осуществления;FIG. 2 is a functional block diagram showing various components of a natural language text index and query system corresponding to aspects of the embodiment presented here;

Фиг. 3 - функциональная блок-схема, показывающая разрешение кореференции и разрешение двусмысленности в пределах системы обработки естественного языка в соответствии с аспектами представленного здесь варианта осуществления;FIG. 3 is a functional block diagram showing resolution of coreference and resolution of ambiguity within a natural language processing system in accordance with aspects of the embodiment presented herein;

Фиг. 4 - логическая блок-схема последовательности выполнения операций, показывающая аспекты процессов для чувствительной к двусмысленности индексации с разрешением кореференции в соответствии с аспектами представленного здесь варианта осуществления; иFIG. 4 is a flowchart showing aspects of processes for ambiguity-sensitive indexing with corereference resolution in accordance with aspects of an embodiment presented herein; and

Фиг. 5 - схема компьютерной архитектуры, показывающая пример компьютерной архитектуры аппаратного и программного обеспечения для вычислительной системы, способной осуществлять аспекты представленного здесь варианта осуществления.FIG. 5 is a computer architecture diagram showing an example of computer architecture of hardware and software for a computing system capable of implementing aspects of the embodiment presented here.

ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION

Приведенное далее подробное детальное описание относится к технологиям разрешения кореференции в чувствительной к двусмысленности системе обработки естественного языка. Используя представленные здесь технологии и концепции, функциональные возможности разрешения кореференции могут быть интегрированы в систему обработки естественного языка, обрабатывающую документы, которые должны быть индексированы для использования в системе поиска и извлечения информации. Эта интеграция может улучшить индексирование с помощью информации, поддерживающей разрешение кореференции для индексируемых документов на естественном языке.The following detailed detailed description relates to technologies for resolving coreference in an ambiguous-sensitive natural language processing system. Using the technologies and concepts presented here, the core resolution resolution functionality can be integrated into a natural language processing system that processes documents that must be indexed for use in the search and retrieval system. This integration can improve indexing with information that supports corereference for indexed natural language documents.

Хотя описанный здесь предмет изобретения представлен в общем контексте программных модулей, которые выполняются в сочетании с выполнением операционной системы и программ приложений на компьютерной системе, специалисты в данной области техники должны признать, что другие варианты осуществления могут быть реализованы в комбинации с другими типами программных модулей. В целом, программные модули содержат подпрограммы, программы, компоненты, структуры данных и другие типы структур, которые выполняют конкретные задачи или реализуют конкретные абстрактные типы данных. Кроме того, специалисты в данной области техники должны понимать, что описанный здесь предмет изобретения может быть осуществлен с другими конфигурациями компьютерной системы, включающей карманные устройства, мультипроцессорные системы, программируемую бытовую электронную аппаратуру или на основе микропроцессоров, миникомпьютеров, универсальных вычислительных машин и т.п.Although the subject matter described herein is presented in the general context of software modules that run in conjunction with running an operating system and application programs on a computer system, those skilled in the art will recognize that other embodiments may be implemented in combination with other types of software modules. In general, program modules contain routines, programs, components, data structures, and other types of structures that perform specific tasks or implement specific abstract data types. In addition, those skilled in the art should understand that the subject matter of the invention described herein can be implemented with other computer system configurations, including handheld devices, multiprocessor systems, programmable consumer electronics or based on microprocessors, minicomputers, general purpose computers, etc. .

В последующем подробном описании делаются ссылки на сопроводительные чертежи, являющиеся частью настоящего описания и показывающие пояснительные конкретные варианты осуществления или примеры. Теперь далее, со ссылкой на чертежи, на которых на разных чертежах схожие позиции представляют схожие элементы, описываются аспекты вычислительной системы и методология разрешения кореференции в чувствительной к двусмысленности системе обработки естественного языка.In the following detailed description, reference is made to the accompanying drawings, which are part of the present description and show explanatory specific embodiments or examples. Now, with reference to the drawings, in which similar positions represent similar elements in different drawings, aspects of a computing system and a methodology for resolving coreference in an ambiguous-sensitive natural language processing system are described.

На фиг. 1 здесь будут предоставлены подробности в отношении примера рабочей среды для представленных вариантов осуществления. В частности, схема 100 сетевой архитектуры показывает систему поиска информации в соответствии с аспектами варианта осуществления, представленного здесь. Клиентские компьютеры 110А-110D могут взаимодействовать через сеть 140 с сервером для получения информации, связанной с механизмом 130 естественного языка. Хотя показаны четыре клиентских компьютера 110А-110D, следует понимать, что может использоваться любое количество клиентских компьютеров 110А-110D. Клиентские компьютеры 110А-110D могут быть географически распределены по сети 140, располагаться по соседству или быть расположены в любой их комбинации. Хотя на чертеже показан одиночный сервер 120, следует понимать, что функциональные возможности сервера 120 могут быть распределены на любое количество многочисленных серверов 120. Такие многочисленные серверы 120 могут располагаться рядом, быть географически распределены по сети 140 или располагаться в любой комбинации.In FIG. 1, details will be provided regarding an example work environment for the presented embodiments. In particular, the network architecture circuit 100 shows an information retrieval system in accordance with aspects of an embodiment presented herein. Client computers 110A-110D may communicate through a network 140 with a server to obtain information related to natural language engine 130. Although four client computers 110A-110D are shown, it should be understood that any number of client computers 110A-110D can be used. Client computers 110A-110D may be geographically distributed over network 140, located in the neighborhood, or in any combination thereof. Although a single server 120 is shown in the drawing, it should be understood that the functionality of server 120 can be distributed to any number of multiple servers 120. Such multiple servers 120 can be located nearby, geographically distributed over network 140, or in any combination.

В соответствии с одним или более вариантами осуществления, механизм 130 естественного языка может поддерживать функциональные возможности механизма поиска. В сценарии механизма поиска запрос пользователя может быть выдан от клиентского компьютера 110А-110D через сеть 140 и на сервер 120. Запрос пользователя может быть в формате естественного языка. На сервере механизм 130 естественного языка может обрабатывать запрос на естественном языке, чтобы поддержать поиск, основанный на синтаксисе и семантике, извлеченных из запроса на естественном языке. Результаты такого поиска могут быть предоставлены от сервера 120 через сеть 140 обратно на клиентские компьютеры 110А-110D.In accordance with one or more embodiments, the natural language engine 130 may support the functionality of the search engine. In a search engine scenario, a user request may be issued from the client computer 110A-110D via the network 140 and to the server 120. The user request may be in natural language format. On the server, the natural language engine 130 may process the natural language query to support a search based on the syntax and semantics extracted from the natural language query. The results of such a search can be provided from the server 120 through the network 140 back to the client computers 110A-110D.

Один или более индексов поиска могут храниться или быть связаны с сервером 120. Информация, содержащаяся в индексе поиска, может быть заполнена из набора исходной информации или из совокупности. Например, при осуществлении веб-поиска содержание может собираться и индексироваться из различных веб-сайтов на различных веб-серверах (не показаны) по сети 140. Такой сбор и индексация могут быть выполнены посредством исполнения программного обеспечения на сервере 120 или на другом компьютере (не показан). Сбор может быть выполнен с помощью прикладных программ, веб-поисковых обходчиков (crawlers) или поисковых роботов (spiders). Механизм 130 естественного языка может применяться к собранной информации таким образом, что содержание на естественном языке, собранное из совокупности, может быть индексировано, основываясь на синтаксисе и семантике, извлеченных механизмом 130 естественного языка. Индексация и поиск обсуждаются более подробно со ссылкой на фиг. 2.One or more search indexes may be stored or associated with server 120. The information contained in the search index may be populated from a set of source information or from a collection. For example, when performing a web search, content may be collected and indexed from various websites on various web servers (not shown) over the network 140. Such collection and indexing may be performed by executing software on server 120 or on another computer (not shown). Collection can be done using applications, web crawlers, or spiders. The natural language engine 130 can be applied to the collected information in such a way that the natural language content collected from the totality can be indexed based on the syntax and semantics extracted by the natural language engine 130. Indexing and searching are discussed in more detail with reference to FIG. 2.

Клиентские компьютеры 110А-110D для сервера 120 могут действовать как оконечные клиенты, клиенты гипертекстовых браузеров, клиенты графических дисплеев или другие сетевые клиенты. Например, приложение веб-браузера на клиентских компьютерах 110А-110D может поддерживать взаимодействие с приложением веб-сервера на сервере 120. Для поддержки взаимодействия с сервером 120 такой браузер может использовать элементы управления, плагины или апплеты. Клиентские компьютеры 110А-110D могут также использовать другие заказные программы, приложения или модули для взаимодействия с сервером 120. Клиентские компьютеры 110А-110D могут быть настольными компьютерами, ноутбуками, карманными компьютерами, мобильными терминалами, мобильными телефонами, телевизионной компьютерной приставкой, киосками, серверами, терминалами, "тонкими" клиентами (клиент-терминалами) или любыми другими компьютеризированными устройствами.Client computers 110A-110D for server 120 may act as end clients, hypertext browser clients, graphic display clients, or other network clients. For example, a web browser application on client computers 110A-110D may support interaction with a web server application on server 120. To support interaction with server 120, such a browser may use controls, plugins, or applets. Client computers 110A-110D may also use other custom programs, applications, or modules to interact with server 120. Client computers 110A-110D may be desktop computers, laptops, PDAs, mobile terminals, mobile phones, television set-top boxes, kiosks, servers, terminals, thin clients (client terminals) or any other computerized devices.

Сеть 140 может быть любой сетью связи, способной обеспечивать связь между клиентскими компьютерами 110А-110D и сервером 120. Сеть 140 может быть проводной, беспроводной, оптической, радиосетью, с коммутацией пакетов, с коммутацией каналов или любой их комбинацией. Сеть 140 может использовать любую топологию и линии 140 связи могут поддерживать любую сетевую технологию, протокол или полосу пропускания, такие как Ethernet, DSL, кабельный модем, ATM, SONET, MPLS, PSTN, модем POTS, PONS, HFC, спутниковая, ISDN, WiFi, WiMax, любая их комбинация или любой другой механизм соединения данных или сетевой механизм. Сеть 140 может быть интрасетью, интерсетью, Интернетом, веб-сетью, LAN, WAN, MAN или любой другой сетью для взаимного соединения компьютерных систем.Network 140 may be any communication network capable of communicating between client computers 110A-110D and server 120. Network 140 may be a wired, wireless, optical, radio network, packet switched, circuit switched, or any combination thereof. Network 140 can use any topology and communication lines 140 can support any network technology, protocol, or bandwidth such as Ethernet, DSL, cable modem, ATM, SONET, MPLS, PSTN, POTS, PONS, HFC, satellite, ISDN, WiFi WiMax, any combination of these, or any other data connection mechanism or network mechanism. Network 140 may be an intranet, Internet, Internet, web, LAN, WAN, MAN, or any other network for interconnecting computer systems.

Следует понимать, что в дополнение к показанной сетевой среде механизмом 130 естественного языка можно управляться местно. Например, сервер 120 и клиентский компьютер 110А-110D могут объединяться на едином вычислительном устройстве. Такая комбинированная система может поддержать индексы поиска, хранящиеся местно или дистанционно.It should be understood that in addition to the network environment shown, the natural language engine 130 can be controlled locally. For example, server 120 and client computer 110A-110D may be combined on a single computing device. Such a combined system may support search indexes stored locally or remotely.

На фиг. 2 показана функциональная блок-схема различных компонент механизма 130 естественного языка в соответствии с одним примером варианта осуществления. Как обсуждалось выше, механизм 130 естественного языка может поддерживать поиски информации. Чтобы поддержать такие поиски, выполняется процесс 200 получения содержания. Операции, связанные с получением 200 содержания, извлекают информацию из документов, предоставленных как текстовое содержание 210. Эта информация может храниться в семантическом индексе 250, который может использоваться для поиска. Операции, связанные с поиском 205 пользователя, могут поддерживать обработку введенного пользователем запроса поиска. Запрос пользователя может принимать форму вопроса 260 на естественном языке. Механизм 130 естественного языка может анализировать ввод от пользователя, чтобы перевести запрос в представление, которое должно сравниваться с информацией, представленной внутри семантического индекса 250. Содержание и структурирование информации в семантическом индексе 250 могут поддерживать быстрое согласование и извлечение документов или частей документов, которые имеют отношение к смыслу запроса или вопроса 260 на естественном языке.In FIG. 2 is a functional block diagram of various components of a natural language mechanism 130 in accordance with one example embodiment. As discussed above, natural language engine 130 may support information searches. In order to support such searches, a content acquisition process 200 is performed. Operations associated with obtaining 200 content extract information from documents provided as text content 210. This information can be stored in semantic index 250, which can be used for search. Operations associated with a user search 205 may support the processing of a user-entered search request. A user request may take the form of a natural language question 260. The natural language engine 130 may analyze input from the user to translate the request into a presentation that must be compared with the information provided within the semantic index 250. The content and structuring of information in the semantic index 250 can support the quick matching and retrieval of documents or parts of documents that are relevant to the meaning of a query or question 260 in a natural language.

Текстовое содержание 210 может содержать документы в очень общем смысле. Примерами таких документов могут являться веб-страницы, текстовые документы, сканированные документы, базы данных, распечатки информации, прочее Интернет-содержание или любой другой информационный источник. Это текстовое содержание 210 может обеспечить совокупность информации, которая должна быть найдена. Обработка текстового содержания 210 может происходить в два этапа как синтаксический анализ 215 и семантическое отображение 225. Предварительные этапы языковой обработки могут производиться до или в начале синтаксического анализа 215. Например, текстовое содержание 210 может разделяться на границах предложений. Имена собственные могут идентифицироваться как имена конкретных людей, мест, объектов или событий. Кроме того, могут быть определены грамматические свойства придающих смысл словесных окончаний. Например, на английском языке, существительное, заканчивающееся буквой "s", вероятно, будет существительным во множественном числе, хотя глагол, заканчивающийся на "s", может быть глаголом в третьем лице единственного числа.Text content 210 may contain documents in a very general sense. Examples of such documents can be web pages, text documents, scanned documents, databases, printouts of information, other Internet content or any other information source. This text content 210 may provide a collection of information that must be found. Processing of text content 210 can occur in two stages as parsing 215 and semantic display 225. Preliminary stages of language processing can be performed before or at the beginning of parsing 215. For example, text content 210 can be divided at the boundaries of sentences. Proper names can be identified as the names of specific people, places, objects or events. In addition, grammatical properties of meaningful verbal endings can be defined. For example, in English, a noun ending with the letter "s" is likely to be a plural noun, although a verb ending in "s" may be a third-person verb in the singular.

Синтаксический анализ 215 может быть выполнен с помощью системы синтаксического анализа, такой как Xerox Linguistic Environment (XLE), представленной здесь только в качестве общего примера, но не ограничивающей возможные варианты осуществления настоящего описания. Синтаксический анализатор 215 может преобразовывать предложения в представления, которые создают ясные синтаксические отношения между словами. Синтаксический анализатор 215 может применять грамматику 220, связанную с конкретным используемым языком. Например, синтаксический анализатор 215 может применить грамматику 220 английского языка. Грамматика 220 может быть формализована, например, как лексическая функциональная грамматика (LFG) или другой подходящий механизм синтаксического анализа, такой как те, которые основаны на грамматике непосредственных составляющих, управляемых заголовками (HPSG), комбинаторной категориальной грамматике (CCG), вероятностной контекстно-свободной грамматике (PCFG) или любой другой формальной грамматике. Грамматика 220 может определить возможные пути конструирования значимых предложений на заданном языке. Синтаксический анализатор 215 может применять правила грамматики 220 к строкам текстового содержания 210.Parsing 215 can be performed using a parsing system such as Xerox Linguistic Environment (XLE), presented here only as a General example, but not limiting the possible options for implementing the present description. The parser 215 can transform sentences into representations that create clear syntactic relationships between words. The parser 215 may use the grammar 220 associated with the particular language used. For example, parser 215 may apply English grammar 220. Grammar 220 can be formalized, for example, as a lexical functional grammar (LFG) or other suitable parsing mechanism, such as those based on the grammar of direct components, controlled by headers (HPSG), combinatorial categorical grammar (CCG), probabilistic context-free grammar (PCFG) or any other formal grammar. Grammar 220 can identify possible ways of constructing meaningful sentences in a given language. The parser 215 may apply grammar rules 220 to lines of text content 210.

Грамматика 220 может обеспечиваться для различных языков. Например, грамматики LFG были созданы для английского, французского, немецкого, китайского и японского языков. Другие грамматики также могут быть предоставлены. Грамматика 220 может быть разработана посредством ручного получения, при котором грамматические правила определяются лингвистом или автором словаря. Альтернативно, получение с помощью устройства со средствами самообучения может содержать автоматизированное наблюдение и анализ многих примеров текста из большой совокупности, чтобы автоматически определять грамматические правила. Также, при получении правил грамматики 220 может использоваться комбинация ручного определения и определения с помощью устройства со средствами самообучения.Grammar 220 may be provided for various languages. For example, LFG grammars were created for English, French, German, Chinese, and Japanese. Other grammars may also be provided. Grammar 220 can be developed by manual production, in which grammar rules are determined by a linguist or dictionary author. Alternatively, acquiring with a self-learning device may include automated observation and analysis of many examples of text from a large population to automatically determine grammar rules. Also, when obtaining grammar rules 220, a combination of manual determination and determination using a device with self-learning tools can be used.

Синтаксический анализатор 215 может применять грамматику 220 к текстовому содержанию 210, чтобы определить синтаксическую структуру. В случае синтаксического анализа, основанного на LFG, синтаксические структуры состоят из составляющих структур (c-структуры) и функциональных структур (f-структуры). С-структура может представлять иерархию составляющих фраз и слов. F-структура может кодировать роли и отношения между различными составляющими c-структуры. F-структура может также представлять информацию, выведенную из форм слов. Например, в f-структуре может быть определено множественное число существительного или время глагола.The parser 215 may apply the grammar 220 to the text content 210 to determine the syntax structure. In the case of LFG-based parsing, the syntactic structures consist of constituent structures (c-structure) and functional structures (f-structure). A C-structure may represent a hierarchy of constituent phrases and words. An F structure can encode roles and relationships between various components of a c structure. An F-structure may also represent information derived from word forms. For example, in the f-structure, the plural of a noun or the verb tense can be defined.

Во время процесса 225 семантического отображения, который следует за процессом 215 синтаксического анализа, информация может быть извлечена из синтаксических структур и объединена с информацией о значениях слов в предложении. Семантическое отображение или семантическое представление предложения могут быть предоставлены как семантика 240 содержания. Семантическое отображение 225 может улучшать синтаксические взаимоотношения, предоставленные синтаксическим анализатором 215 с концептуальными свойствами индивидуальных слов. Результаты могут быть преобразованы в представления значения предложений из текстового содержания 210. Семантическое отображение 225 может определять роли, играемые словами в предложении. Например, подлежащее, выполняющее действие, что-либо, используемое для выполнения действия, или что-либо, затрагиваемое действием. В целях индексации поиска слова могут сохраняться в семантическом индексе 250 вместе с их ролями. Таким образом, извлечение из семантического индекса 250 может зависеть не просто от отдельно выделенного слова, но также и от значения слова в предложениях, в которых оно появляется в пределах текстового содержания 210. Семантическое отображение 225 может способствовать устранению неоднозначности терминов, определению антецедентных отношений и расширению терминов посредством синонимов, гиперонимов или гипонимов.During the semantic mapping process 225, which follows the parsing process 215, the information can be extracted from the syntax structures and combined with the word meaning information in the sentence. A semantic representation or semantic representation of a sentence can be provided as semantics 240 of the content. Semantic mapping 225 can improve the syntactic relationships provided by the parser 215 with the conceptual properties of individual words. The results can be converted into representations of the meaning of sentences from text content 210. Semantic display 225 may determine the roles played by words in a sentence. For example, a subject performing an action, something used to perform an action, or something affected by an action. For search indexing purposes, words can be stored in semantic index 250 along with their roles. Thus, extraction from the semantic index 250 may depend not only on a separately selected word, but also on the meaning of the word in sentences in which it appears within the textual content 210. Semantic display 225 can help to eliminate the ambiguity of terms, determine antecedent relations and expand terms through synonyms, hyperonyms or hyponyms.

Семантическое отображение 225 может применять ресурсы 230 знания в качестве правил и методик для извлечения семантики из предложений. Ресурсы знания могут быть получены как через ручное определение, так и через устройство со средствами самообучения, как обсуждалось в отношении получения грамматик 220. Процесс семантического отображения 225 может обеспечить семантику 240 содержания в представлении на семантическом расширяемом языке разметки (семантический XML или semxml). Любой подходящий язык представления, такой как выражения, записанные в PROLOG, LISP, JSON, YAML или других, также может использоваться. Семантика 240 содержания может указывать роли, играемые словами в предложениях текстового содержания 210. Семантика 240 содержания может быть предоставлена процессу 245 индексации.Semantic mapping 225 may apply knowledge resources 230 as rules and techniques for extracting semantics from sentences. Knowledge resources can be obtained either through manual definition or through a device with self-learning tools, as discussed in relation to obtaining grammars 220. The process of semantic display 225 can provide semantics 240 of content in a semantic extensible markup language representation (semantic XML or semxml). Any suitable presentation language, such as expressions written in PROLOG, LISP, JSON, YAML or others, can also be used. Content semantics 240 may indicate the roles played by words in text content sentences 210. Content semantics 240 may be provided to indexing process 245.

Индекс может поддерживать представление большой совокупности информации, так чтобы местоположения слов и фраз могли быть быстро идентифицированы в пределах индекса. Традиционный механизм поиска может использовать ключевые слова в качестве терминов поиска, так что индекс отображается из ключевых слов, определенных пользователем в статьях или документах, где такие ключевые слова появляются. Семантический индекс 250 может представлять семантические значения слов в дополнение к самим словам. Семантические взаимоотношения могут назначаться словам во время получения содержания 200, а также во время поиска 205 пользователя. Запросы о семантическом индексе 250 могут быть основаны не только на словах, но и на словах в конкретных ролях. Роли - это то, что представляет слово в предложении или фразе, как хранит в семантическом индексе 250. Семантический индекс 250 может рассматриваться как инвертированный индекс, который является быстро доступной для поиска базой данных, объектами которой являются семантические слова (то есть, слова в данной роли) с помощью указателей на документы, или web-страницами, на которых появляются эти слова. Семантический индекс 250 может поддерживать гибридную индексацию. Такая гибридная индексация может объединять признаки и функции как индексации ключевого слова, так и семантической индексации.An index can support the presentation of a large body of information so that the locations of words and phrases can be quickly identified within the index. The traditional search engine can use keywords as search terms, so that the index is displayed from keywords defined by the user in articles or documents where such keywords appear. The semantic index 250 may represent semantic meanings of words in addition to the words themselves. Semantic relationships can be assigned to words during acquisition of content 200, as well as during a search of 205 users. Requests for semantic index 250 can be based not only on words, but also on words in specific roles. Roles are what the word represents in a sentence or phrase, as it is stored in semantic index 250. Semantic index 250 can be considered as an inverted index, which is a quickly searchable database whose objects are semantic words (that is, words in a given roles) using pointers to documents, or web pages on which these words appear. Semantic Index 250 may support hybrid indexing. Such hybrid indexing can combine the features and functions of both keyword indexing and semantic indexing.

Ввод запросов пользователем может быть поддержан в форме вопросов 260 на естественном языке. Запрос может анализироваться через источник информации на естественном языке, подобном или идентичном тому, который использовался при получении 200 содержания. То есть, вопрос 260 на естественном языке может быть обработан синтаксическим анализатором 265, чтобы извлечь синтаксическую структуру. После синтаксического анализа 265 вопрос 260 на естественном языке может быть обработан для семантического отображения 270. Семантическое отображение 270 может обеспечить семантику 275 вопроса, которая должна использоваться в процессе 280 извлечения относительно семантического индекса 250, как обсуждалось выше. Процесс 280 извлечения может поддерживать гибридные индексные запросы, где как извлечение индекса ключевого слова, так и извлечение семантического индекса могут быть обеспечены отдельно или в комбинации.User input can be supported in the form of questions 260 in the natural language. The request can be analyzed through a source of information in a natural language, similar or identical to that used to obtain 200 content. That is, the natural language question 260 can be processed by the parser 265 to extract the syntax structure. After parsing 265, the natural language question 260 can be processed for semantic mapping 270. Semantic mapping 270 can provide question semantics 275, which should be used in the extraction process 280 with respect to semantic index 250, as discussed above. The extraction process 280 may support hybrid index queries, where both keyword index extraction and semantic index extraction can be provided separately or in combination.

В ответ на запрос пользователя результаты извлечения 280 из семантического индекса 250 вместе с семантикой 275 вопроса могут информировать процесс 285 ранжирования. Ранжирование может подкреплять как ключевое слово, так и семантическую информацию. Во время ранжирования 285 результаты, полученные посредством извлечения 280, могут быть выстроены по порядку по различными показателям в попытке расположить наиболее желательные результаты ближе к вершине извлеченной информации, которая должна предоставляться пользователю в качестве результирующего представления 290.In response to a user request, the results of extracting 280 from the semantic index 250 along with the semantics 275 of the question can inform the ranking process 285. Ranking can reinforce both keyword and semantic information. During ranking 285, the results obtained by extracting 280 can be arranged in order by various indicators in an attempt to bring the most desirable results closer to the top of the extracted information, which should be provided to the user as the resulting view 290.

Обратимся теперь к фиг. 3, где показана функциональная блок-схема разрешения кореференции и разрешения двусмысленности в пределах системы 300 обработки естественного языка в соответствии с аспектами представленного здесь варианта осуществления. Как пример применения, система 300 обработки естественного языка может поддерживать механизм поиска информации для индексации и извлечения документа. Такой разрешенный поисковый механизм на естественном языке может расширять информацию, хранящуюся в ее индексе, основанном на лингвистическом анализе. Система может также поддерживать раскрытие намерения в пределах запроса пользователя путем анализа запроса лингвистически. Признаки разрешения кореференции и разрешения двусмысленности, обсуждаемые здесь, могут работать в отношении синтаксического анализа 215, семантического отображения 225 и семантической индексации 245, как обсуждалось со ссылкой на фиг. 2. Разрешение кореференции может выполняться напрямую на текстовом содержании 210 или на информации использования из операций анализа 215 или семантического отображения 225.Turning now to FIG. 3, a functional block diagram of resolving coreference and resolving ambiguity within a natural language processing system 300 is shown in accordance with aspects of an embodiment presented herein. As an example application, the natural language processing system 300 may support an information retrieval mechanism for indexing and retrieving a document. Such a natural language search engine can expand the information stored in its index based on linguistic analysis. The system may also support disclosure of intent within a user's request by analyzing the request linguistically. The indications of corereference permission and ambiguity resolution discussed here may work with respect to parsing 215, semantic mapping 225, and semantic indexing 245, as discussed with reference to FIG. 2. Resolution of the coreference can be performed directly on text content 210 or on usage information from analysis operations 215 or semantic display 225.

Как показано на чертеже, разрешение 320, 370 кореференции может быть выполнено непосредственно на сегментированном документе и также как часть семантического отображения 225. Эти два появления разрешений 320, 370 кореференции могут быть объединены или могут быть объединены их информационные выводы. Следует понимать, что разрешение кореференции может также произойти между синтаксическим анализом 215 и семантическим отображением 225. Разрешение кореференции может также произойти на любом другом этапе в пределах конвейера обработки естественного языка. Могут иметься одна, две или более компонент разрешения кореференции или этапов в различных положениях в пределах системы обработки естественного языка. Текстовое содержание 210 может анализироваться для информации, предназначенной для хранения в семантическом индексе 250. Поиск может содержать в себе запрос семантического индекса 250 для желаемой информации.As shown in the drawing, the resolution 320, 370 of the reference can be performed directly on the segmented document and also as part of the semantic display 225. These two appearances of the permissions 320, 370 of the reference can be combined or their informational conclusions can be combined. It should be understood that corereference resolution may also occur between parsing 215 and semantic display 225. Corereference resolution may also occur at any other stage within the natural language processing pipeline. There may be one, two or more components of resolving coreference or steps at different positions within a natural language processing system. Text content 210 may be parsed for information intended to be stored in semantic index 250. The search may include a query on semantic index 250 for the desired information.

Сегментация 310 содержания может быть выполнена на документах, обладающих текстовым содержанием 210. Документы могут быть сегментированы для более эффективного и потенциально более точного разрешения 320 кореференции. Разрешение 320 референции может рассматривать потенциальные взаимоотношения референции по всему документу. Для длинных документов много времени может быть потрачено, сравнивая удаленные друг от друга выражения. Когда учитывается скорость обработки, сегментация 310 содержания документов перед разрешением 320 кореференции может существенно уменьшить время, используемое для обработки. Сегментация 310 содержания может эффективно уменьшить объем текста 210 содержания, который исследуется при попытках разрешения 320 кореференции.Content segmentation 310 can be performed on documents with text content 210. Documents can be segmented for more efficient and potentially more accurate resolution of 320 coreference. Reference permission 320 may consider potential reference relationships throughout the document. For long documents, a lot of time can be spent comparing expressions that are distant from each other. When processing speed is taken into account, document content segmentation 310 prior to coreference resolution 320 can significantly reduce the time used for processing. Content segmentation 310 can effectively reduce the amount of content text 210 that is examined when attempting to resolve corereference 320.

Сегментация 310 содержания может обеспечить информацию для разрешения 370 семантической кореференции, чтобы указать, когда начинается новый сегмент документа. Такая информация может быть предоставлена как сигнал 312 сегментации или посредством введения разметки в сегмент документа содержания. Также может быть использован внешний файл, содержащий метаинформацию, или другие механизмы.Content segmentation 310 may provide information for resolving 370 semantic corrections to indicate when a new document segment begins. Such information may be provided as a segmentation signal 312 or by introducing markup into a segment of the content document. An external file containing meta-information or other mechanisms may also be used.

Структура документа может использоваться, чтобы идентифицировать границы сегмента, которые связи референции вряд ли должны пересекать. Структура документа может быть выведена из явной разметки, такой как границы параграфа, главы или заголовки раздела. Структура документа может также раскрываться через лингвистическую обработку. Сегменты, превышающие заданную длину, могут быть разделены дополнительно. Желательная длина при дополнительном делении может быть выражена, например, в терминах количества предложений или количества слов.The document structure can be used to identify segment boundaries that reference relationships are unlikely to cross. The structure of a document can be inferred from explicit markup, such as paragraph boundaries, chapters, or section headings. The structure of the document may also be disclosed through linguistic processing. Segments exceeding a given length can be further divided. The desired length with additional division can be expressed, for example, in terms of the number of sentences or the number of words.

Когда надежное структурирование документа недоступно, могут применяться эвристические или статистические критерии. Такие критерии могут указываться, чтобы иметь тенденцию поддерживать кореференции вместе, в то же время ограничивая размер сегмента до заранее определенного максимума. Могут также применяться различные другие подходы к сегментации текстового содержания 210 документов. Сегментация 310 содержания может также определить весь документ как один сегмент.When reliable document structuring is not available, heuristic or statistical criteria may be applied. Such criteria may be indicated in order to tend to maintain corereferences together, while limiting the size of the segment to a predetermined maximum. Various other approaches to segmentation of the text content of 210 documents may also be applied. Content segmentation 310 can also define an entire document as one segment.

Разрешение 320, 370 кореференции может использоваться для идентификации кореференции и псевдонимов в пределах текста 210 содержания. Например, при индексации предложения "Он нарисовал "Гернику"", может быть крайне важно решить, что "он" относится к Пикассо. Это особенно справедливо, если используется извлечение, основанное на факте. Принятие решения по использованию местоимения вместо Пикассо может поддержать индексацию факта, что Пикассо нарисовал "Гернику", вместо менее полезного факта, что некоторый человек мужского пола, "он", нарисовал "Гернику". Без этой способности идентифицировать и индексировать референта местоимения может быть трудно, используя основанный на факте способ извлечения, извлечь документ в ответ на запрос "Пикассо нарисовал". Повторный вызов системы может улучшиться, когда возвращается документ, относящийся к запросу, который не мог бы быть в противном случае возвращен.The coreference permission 320, 370 can be used to identify coreferences and aliases within the text 210 of the content. For example, when indexing the sentence "He painted" Guernica "", it may be extremely important to decide that "he" refers to Picasso. This is especially true if fact-based extraction is used. Deciding to use a pronoun instead of Picasso may support the indexing of the fact that Picasso painted “Guernica”, instead of the less useful fact that some male man, “he,” painted “Guernica”. Without this ability to identify and index the pronoun referent, it can be difficult, using the fact-based extraction method, to retrieve a document in response to a query "Picasso drew." Recalling the system can improve when a document is returned relating to a request that could not otherwise be returned.

Аннотация 330 может применяться к текстовому содержанию 210, чтобы поддерживать слежение за объектами и возможные отношения кореференции. Доверительные значения в решениях разрешений могут также быть аннотированы или маркированы в пределах текстового содержания 210. Определения разрешений могут записываться, добавляя явные метки аннотации к тексту. Например, задается текст "John visited Mary. He met her in 2003" (Джон посетил Мэри. Он встретил ее в 2003 г.). Аннотация 330 может быть применена как "[E1:0.9 John] visited [E2:0.8 Mary]. [E1:0.9 He] met [E2:0.8 her] in 2003", где слова "John" и "He" могут быть связаны как один объект E1 с доверительным значением 0,9. Точно так же слова "Mary" и "her" могут быть связаны как объект два E2 с доверительным значением 0,8. Доверительное значение может указывать критерий доверия в решении разрешения 320 кореференции. Аннотация может кодировать решения кореференции напрямую или аннотация может функционировать как идентификаторы, соединяющие соответствующие термины в аннотированном тексте с дополнительной информацией в автономной аннотации 325.Annotation 330 can be applied to text content 210 to support tracking of objects and possible correlation relationships. Confidence values in permission decisions can also be annotated or labeled within the textual content 210. Permission definitions can be written by adding explicit annotation labels to the text. For example, the text “John visited Mary. He met her in 2003” is set (John visited Mary. He met her in 2003). Annotation 330 can be applied as "[E1: 0.9 John] visited [E2: 0.8 Mary]. [E1: 0.9 He] met [E2: 0.8 her] in 2003", where the words "John" and "He" can be related as one E1 object with a confidence value of 0.9. Similarly, the words "Mary" and "her" can be related as an object two E2 with a confidence value of 0.8. The confidence value may indicate a criterion of trust in the decision of the resolution 320 of the coreference. An annotation can encode coreference decisions directly or an annotation can function as identifiers connecting the corresponding terms in the annotated text with additional information in the offline annotation 325.

Решения для разрешения 320 кореференции могут использоваться как часть процесса построения семантического отображения 225. Ссылочные выражения, используемые системой разрешения 320 кореференции, могут интегрироваться во входное представление для семантического отображения 225 внутристрочными аннотациями внутри текстового содержания. Референции могут также обеспечиваться отдельно во внешнем, автономном отображении объекта 325.Solutions for resolution 320 of the reference can be used as part of the process of constructing the semantic display 225. Reference expressions used by the resolution system 320 of the reference can be integrated into the input representation for the semantic display of 225 in-line annotations within the text content. References can also be provided separately in the external, offline display of the object 325.

В пределах набора больших документов текстового содержания 210, такого как веб-сеть, одно и то же предложение может появляться многократно в различных контекстах. Эти различные контексты могут обеспечивать различных кандидатов для разрешения 320 кореференции. Так как синтаксический анализ 215 может быть в вычислительном отношении дорогим, может быть полезно сохранить результаты анализа для предложений в кэше. Такой механизм 350 кэширования может поддерживать быстрое извлечение информации синтаксического анализа, когда предложение встречается в будущем.Within a set of large documents of textual content 210, such as a web network, the same sentence may appear multiple times in different contexts. These different contexts may provide different candidates for resolution 320 of the coreference. Since parsing 215 can be computationally expensive, it may be useful to store the parsing results for sentences in the cache. Such a caching mechanism 350 may support the quick extraction of parsing information when a sentence occurs in the future.

Если разрешение 320 кореференции применяется к одиночному предложению, появляющемуся в различных контекстах, оно может идентифицировать различные отношения кореференции для одних и тех же ссылочных выражений, поскольку кореференция может зависеть от контекста. Таким образом, внутри текста могут быть вставлены различные идентификаторы объекта. Например, текст "He is smart" (Он - умный), появляющийся в двух различных документах, может быть аннотирован с двумя различными идентификаторами, "[E21 He] is smart" и "[E78 He] is smart", когда слово "He" в первом документе относится к другому человеку, чем слово "He" во втором документе.If corereference permission 320 applies to a single sentence appearing in different contexts, it can identify different corereference relations for the same reference expressions, since corereference may be contextual. Thus, various object identifiers can be inserted inside the text. For example, the text “He is smart” appearing in two different documents can be annotated with two different identifiers, “[E21 He] is smart” and “[E78 He] is smart” when the word “He "in the first document refers to a different person than the word" He "in the second document.

Могут иметься различные источники информации для поверхностного разрешения 320 кореференции. Например, в дополнение к обнаружению выражения, выполненному во время разрешения 320 кореференции, может существовать система, предназначенная для обнаружения имен собственных в текстовом содержании 210. Эти различные источники могут идентифицировать информацию конфликтующего разрешения. Например, конфликтующее разрешение может возникать при пересечении границ. Например, две системы могли идентифицировать следующие конфликтующие ссылочные выражения:Various sources of information may exist for surface resolution 320 of coreference. For example, in addition to the expression detection performed during corereference permission 320, a system may exist for detecting proper names in text content 210. These various sources may identify conflicting resolution information. For example, conflicting resolution may occur at border crossings. For example, two systems could identify the following conflicting reference expressions:

"[John] told [George Washington] [Irving] was a great writer.""[John] told [George Washington] [Irving] was a great writer."

("[Джон] сказал, что [Джордж Вашингтон] [Ирвинг] был большим писателем.")("[John] said that [George Washington] [Irving] was a great writer.")

"[John] told [George] [Washington Irving] was a great writer.""[John] told [George] [Washington Irving] was a great writer."

("[Джон] сказал, что [Джордж] [Вашингтон, Ирвинг] был большим писателем.")("[John] said that [George] [Washington, Irving] was a great writer.")

Рассмотрим следующие конфликты на пересечении границ: [George Washington] в первой строке конфликтует с [George] во второй строке. Также [George Washington] в первой строке конфликтует с [Washington Irving] во второй строке. Основываясь на доверительной информации или контекстных факторах, различные стратегии могут быть применены итеративно, чтобы решить этот конфликт или сохранить его. В стратегии "сброса" решение для двух или более конфликтующих границ может быть принято посредством сброса одной, которая имеет наименьшую доверительность. В стратегии "слияния" границы могут быть соответственно перемещены, когда две или более границ одинаково правдоподобны в совместимых контекстах. Например, "Mr. [John Smith]" ("[г-н Джон] Смит") и "Mr. [John Smith]" ("г-н [Джон Смит]") могут быть объединены, чтобы получить [Mr. John Smith]" ("[г-н Джон Смит]") В "сохраняющей" стратегии многочисленные границы могут быть сохранены, поддерживая их как неоднозначный вывод, когда конфигурация границ и их доверительные значения не поддерживает ни слияния, ни сброс. Например, "[Alexander the Great]" ("[Александр Великий]") и "[Alexander] [the Great]" ("[Александр] [Великий]") могут быть представлены как альтернативные неоднозначные разрешения.Consider the following border crossing conflicts: [George Washington] on the first line conflicts with [George] on the second line. Also [George Washington] in the first line conflicts with [Washington Irving] in the second line. Based on trusting information or contextual factors, various strategies can be applied iteratively to resolve this conflict or to preserve it. In a “reset” strategy, a decision for two or more conflicting boundaries can be made by resetting the one that has the least confidence. In a merge strategy, boundaries can be moved accordingly when two or more borders are equally plausible in compatible contexts. For example, “Mr. [John Smith]” (“[Mr. John] Smith”) and “Mr. [John Smith]” (“Mr. [John Smith]”) can be combined to obtain [Mr. John Smith] "(" [Mr. John Smith] ") In a" conservation "strategy, multiple boundaries can be saved, supporting them as an ambiguous conclusion when the boundary configuration and their confidence values support neither merging nor dumping. For example," [Alexander the Great] "(" [Alexander the Great] ") and" [Alexander] [the Great] "(" [Alexander] [Great] ") can be represented as alternative ambiguous resolutions.

Компонент 215 синтаксического анализа 215 может быть анализатором с осведомленностью о двусмысленности, поддерживающим прямой синтаксический анализ неоднозначного ввода, при котором синтаксический анализ 355 может сохранить двусмысленность. Альтернативно, разрешения по неоднозначному вводу могут нуждаться в раздельном синтаксическом анализе и многочисленные структуры выводов могут передаваться семантическому компоненту 225 отдельно. Семантическая обработка 225, как обсуждается далее более подробно, может применяться многократно к каждому выводу синтаксического анализатора 215. Это может привести к различным семантическим выводам для различных синтаксических вводов. Альтернативно, семантическое отображение 225 может объединить различные вводы и обрабатывать их совместно.Parsing component 215 215 may be an ambiguity-aware analyzer supporting direct ambiguous input parsing, in which parsing 355 can preserve ambiguity. Alternatively, ambiguous input permissions may need separate parsing and multiple output structures may be passed to semantic component 225 separately. Semantic processing 225, as discussed in more detail below, can be applied repeatedly to each output of the parser 215. This can lead to different semantic conclusions for different syntax inputs. Alternatively, semantic mapping 225 may combine the various inputs and process them together.

Семантическое отображение 225 может иметь семантическую нормализацию 360. Многочисленные выводы неоднозначного синтаксического анализа 355 предложения могут совместно использовать значение, имеющее различные формы. Например, это может происходить при нормализации пассивного языка. Рассмотрим "John gave Mary a present" ("Джон сделал Мэри подарок") и здесь слово "John" является подлежащим, а "Mary" является косвенным дополнением. Рассмотрим "a present was given to Mary by John" ("подарок был сделан Мэри Джоном"), здесь подлежащим является "Mary", и "John" является дополнением. Нормализация 360 может обеспечить выводы, что для этих двух примеров представляется одним и тем же, что "John" семантически является подлежащим, а "Mary" семантически является косвенным дополнением. Альтернативно, "John" может быть идентифицирован как агент, а "Mary" - как реципиент. Точно так же идентичные представления могут быть обеспечены для "Rome's destruction of Carthage" ("разрушение Римом Карфагена") и "Rome destroyed Carthage" ("Рим разрушил Карфаген").Semantic mapping 225 may have a semantic normalization of 360. Numerous findings of ambiguous parsing 355 sentences can share a value in various forms. For example, this can happen when the passive language is normalized. Consider "John gave Mary a present" and here the word "John" is subject, and "Mary" is an indirect addition. Consider "a present was given to Mary by John" ("the present was made by Mary John"), here the subject is "Mary", and "John" is the complement. Normalizing 360 may provide the conclusion that for these two examples it seems the same that “John” is semantically subject, and “Mary” is semantically an indirect complement. Alternatively, "John" can be identified as an agent, and "Mary" as a recipient. Similarly, identical representations can be provided for "Rome's destruction of Carthage" ("Rome's destruction of Carthage") and "Rome destroyed Carthage" ("Rome destroyed Carthage").

Семантическая нормализация может также добавить информацию о различных словах разобранного предложения. Например, слова могут быть идентифицированы в словаре и связаны с их синонимами, гиперонимами, возможными альтернативными названиями и другой лексической информацией.Semantic normalization can also add information about the different words of a parsed sentence. For example, words can be identified in a dictionary and associated with their synonyms, hyperonyms, possible alternative names and other lexical information.

Разрешение 370 кореференции, основанное на семантике, может принять решение о выражениях, основываясь на синтаксической и семантической информации. Например, "John saw Bill. He greeted him" ("Джон видел Билла. Он приветствовал его") можно решить как "he" ("он") в отношении "John" (Джона) и "him" ("его") в отношении "Bill" ("Билла"). Такое разрешение может быть принято, поскольку "he" ("он") и "John" ("Джон") - оба являются подлежащими, тогда как "him" ("его") и "Bill" ("Билл") - оба являются дополнениями.The semantics-based resolution 370 of the coreference can decide on expressions based on syntactic and semantic information. For example, "John saw Bill. He greeted him" ("John saw Bill. He greeted him") can be defined as "he" ("he") in relation to "John" (John) and "him" ("him") in relation to "Bill" ("Bill"). Such permission may be accepted, since “he” and “John” are both subject, whereas “him” and “Bill” are both are add-ons.

Поверхностное разрешение 320 кореференции может функционировать посредством просмотра сегмента документа, в котором появляются термины. Напротив, семантическое разрешение 370 кореференции или глубокое разрешение кореференции может обрабатывать одно предложение за один раз. Возможные антецеденты предложений могут помещаться в хранилище 375 антецедентов, так чтобы семантическое разрешение 370 кореференции последующих предложений могло обратиться к ранее введенным элементам. Антецеденты могут храниться с информацией об их грамматической функции и ролях в предложении, их расстоянии в тексте, с информацией об их взаимоотношениях с другими антецедентами и различными другими фрагментами информации.The core resolution 320 may function by viewing a segment of a document in which terms appear. In contrast, semantic resolution 370 of coreference or deep resolution of coreference can process one sentence at a time. Possible offer antecedents can be stored in the repository of 375 antecedents, so that the semantic resolution 370 of the follow-up offer correlation can refer to previously entered elements. Antecedents can be stored with information about their grammatical function and roles in the sentence, their distance in the text, with information about their relationships with other antecedents and various other pieces of information.

Слияние 380 выражений может объединять выражения из поверхностного разрешения 320 кореференции, автономно расположенных аннотаций 325 и информацию из семантического разрешения 370 кореференции. Информация для терминов, которые должны объединяться, может идентифицироваться, используя выравнивание строк или аннотации 330. Могут также использоваться и другие механизмы объединения двух аннотаций на одном и том же тексте.A fusion of 380 expressions can combine expressions from the surface resolution 320 of the coreference, autonomously located annotations 325, and information from the semantic resolution 370 of the coreference. Information for terms to be combined can be identified using line alignment or annotations 330. Other mechanisms for combining two annotations on the same text can also be used.

Синтаксический анализ 215 может быть естественной точкой интеграции для произвольно обнаруженных ссылочных выражений. Анализатор может поддерживать выделение структуры в предложениях, таких как составляющие или грамматические взаимоотношения, такие как подлежащее и дополнение. Синтаксический анализ 215, допускающий двусмысленность, может идентифицировать многочисленные альтернативные структурные представления предложения. В одном примере, информация из разрешения 320 кореференции может использоваться для фильтрации вывода синтаксического анализатора 215, сохраняя только те представления, в которых левая граница каждого ссылочного выражения совпадает с началом совместимой части синтаксического анализа. Например, разрешение кореференции может устанавливать кореферентов как в случае "[EO John] told [El George] [E2 Washington Irving] was a great writer"]. Синтаксический анализатор 215 может раздельно обеспечивать четыре возможности синтаксического анализа:Parsing 215 may be a natural integration point for arbitrary referenced expressions. The analyzer can support the allocation of structure in sentences, such as components or grammatical relationships, such as subject and complement. Parsing ambiguity 215 can identify numerous alternative structural representations of a sentence. In one example, information from corereference permission 320 can be used to filter the output of parser 215, storing only those views in which the left border of each reference expression matches the start of the compatible parsing part. For example, resolving coreference can set corereference as in the case of "[EO John] told [El George] [E2 Washington Irving] was a great writer"]. The parser 215 can separately provide four parsing capabilities:

1. [John] and [George] and [Washington Irving]1. [John] and [George] and [Washington Irving]

2. [John] and [George] and [Washington] and [Irving]2. [John] and [George] and [Washington] and [Irving]

3. [John] and [George Washington] and [Irving]3. [John] and [George Washington] and [Irving]

4. [John] and [George Washington Irving]4. [John] and [George Washington Irving]

Возможности синтаксического анализатора под номером три и под номером четыре могут быть отфильтрованы из-за несовместимости с левой границей объекта E2 "Washington Irving" в соответствии с разрешением 320 референции.The capabilities of the parser numbered three and numbered four can be filtered out due to incompatibility with the left border of the E2 Washington Irving object in accordance with a resolution of 320 references.

Процесс расширения 385 может добавить дополнительную информацию к представлению. Например, для "John sold a car from Bill" ("Джон продал автомобиль Биллу") расширение 385 может дополнительно вывести представление "Bill bought a car from John" ("Билл купил автомобиль у Джона"). Аналогично, для "John killed Bill" ("Джон убил Билла") расширение 385 может дополнительно вывести представление "Bill died" ("Билл умер").The extension process 385 may add additional information to the view. For example, for “John sold a car from Bill”, extension 385 might additionally display “Bill bought a car from John”. Likewise, for "John killed Bill", extension 385 may additionally display the representation "Bill died".

Традиционные механизмы поиска могут извлекать документы в ответ на запросы пользователей, основываясь на соответствии ключевых слов или терминов. В этих традиционных системах документы могут ранжироваться в соответствии с такими факторами, сколько терминов из запроса обнаруживаются в пределах документов, как часто появляются термины или как близко друг к другу обнаруживаются термины.Traditional search engines can retrieve documents in response to user requests based on matching keywords or terms. In these traditional systems, documents can be ranked according to factors such as how many terms from the query are found within the documents, how often the terms appear, or how close the terms are to each other.

Рассмотрим пример запроса "Picasso painted" ("Пикассо нарисовал") с документом первого примера, содержащим "Picasso was born in Malaga. He painted Guernica" ("Пикассо родился в Малаге. Он нарисовал "Гернику"") и с документом второго примера, содержащим "Picasso's friend Matisse painted prolifically" ("Друг Пикассо Матисс рисовал много"). При равном всем остальном, традиционная система может присваивать второму документу более высокий ранг, чем первому, потому что слова "Picasso" ("Пикассо") и "painted" ("рисовал") ближе друг к другу во втором документе. Напротив, система, способная решить, что слово "He" ("он") в первом документе относится к Picasso (Пикассо), может правильно определить ранг первого документа выше, основываясь на этом знании. Полагая, что запрос "Picasso painted" (Пикассо нарисовал") отражает намерение пользователя узнать, что нарисовал Пикассо, первый документ явно дает более соответствующий результат.Consider the example query “Picasso painted” with the first example document containing “Picasso was born in Malaga. He painted Guernica” (Picasso was born in Malaga. He painted “Guernica”) and with the document of the second example, containing "Picasso's friend Matisse painted prolifically" ("Picasso's friend Matisse painted a lot"). If everything else is equal, the traditional system can assign the second document a higher rank than the first, because the words "Picasso" ("Picasso") and "painted" ("painted") are closer to each other in the second document. On the contrary, a system capable of deciding that the word “He” in the first document refers to Picasso (Picasso), can correctly determine the rank of the first document above, based on this knowledge. Assuming the query "Picasso painted" (Picasso painted) reflects the user's intention to find out what Picasso painted, the first document clearly gives a more consistent result.

Система 300 обработки естественного языка может обладать различной архитектурой. В одном варианте осуществления может быть обеспечен конвейер, в котором информацию с одного этапа языковой обработки передают в качестве входных данных на последующие этапы. Следует понимать, что эти подходы могут осуществляться и при любой другой архитектуре, предназначенной для извлечения фактов, которые должны быть проиндексированы, из текстового содержания 210 на естественном языке.The natural language processing system 300 may have a different architecture. In one embodiment, a conveyor may be provided in which information from one language processing step is passed as input to subsequent steps. It should be understood that these approaches can be implemented with any other architecture designed to extract facts that should be indexed from text content 210 in a natural language.

На фиг. 4 показаны дополнительные подробности в отношении вариантов осуществления, представленных здесь для разрешения кореференции в чувствительной к двусмысленности системе обработки естественного языка. В частности, на фиг. 4 показана блок-схема, демонстрирующая аспекты процессов 400 для чувствительной к двусмысленности индексации с разрешением кореференции в соответствии с аспектами представленного здесь варианта осуществления.In FIG. 4 shows further details regarding the embodiments presented herein for resolving coreference in an ambiguous sensitive natural language processing system. In particular, in FIG. 4 is a flowchart showing aspects of processes 400 for ambiguity sensitive indexing with corereference in accordance with aspects of the embodiment presented herein.

Следует понимать, что описанные здесь логические операции осуществляются (1) как последовательность действий, осуществляемых компьютером или программными модулями, работающими в вычислительной системе и/или (2) как взаимосвязанные машинные логические схемы или схемные модули в пределах вычислительной системы. Реализация является делом выбора, зависящего от производительности и других требований вычислительной системы. Соответственно, описанные здесь логические операции упоминаются по-разному, как операции с состояниями, структурные устройства, действия или модули. Эти операции, структурные устройства, действия и модули могут быть осуществлены в программном обеспечении, во встроенном программном обеспечении, в специализированных цифровых логических схемах и любой их комбинации. Следует также понимать, что может выполняться большее или меньшее количество операций, чем показано на чертежах и описано здесь. Эти операции могут также выполняться последовательно, параллельно, или в порядке, отличном от описанного здесь.It should be understood that the logical operations described here are carried out (1) as a sequence of actions performed by a computer or program modules operating in a computer system and / or (2) as interconnected machine logic circuits or circuit modules within a computer system. Implementation is a matter of choice, depending on the performance and other requirements of the computing system. Accordingly, the logical operations described herein are referred to differently as state operations, structural devices, actions, or modules. These operations, structural devices, actions and modules can be implemented in software, in embedded software, in specialized digital logic circuits, and any combination thereof. It should also be understood that more or fewer operations may be performed than shown in the drawings and described herein. These operations may also be performed sequentially, in parallel, or in an order different from that described herein.

Подпрограмма 400 начинается с этапа 410, где часть текстового содержания 210 может быть извлечена для анализа и индексации. На этапе 420 текстовое содержание 210 может быть сегментировано, чтобы связать области текста, для которых при обработке разрешения осуществляется больший поиск и анализ. Сегментация может основываться на структуре внутри текста, такой как предложения, параграфы, страницы, главы или разделы. Сегментация может также основываться на количестве слов, количестве предложений или других показателях объема или сложности.Subroutine 400 begins at block 410, where a portion of the text content 210 can be extracted for analysis and indexing. At 420, the text content 210 may be segmented to relate areas of the text for which more search and analysis is performed during resolution processing. Segmentation can be based on a structure within the text, such as sentences, paragraphs, pages, chapters, or sections. Segmentation can also be based on the number of words, the number of sentences, or other indicators of volume or complexity.

На этапе 430 решения по кореференциям могут приниматься в пределах текстового содержания 210. Работая с границами, установленными в рамках этапа 430, кореференции могут быть идентифицированы и согласованы. Могут быть установлены группы альтернативных названий. Для обеспечения "поверхностного" разрешения может использоваться поверхностная структура. Двусмысленности, возникающие во время разрешения кореференции, могут аннотироваться. Такая аннотация 340 может быть предоставлена в виде разметки в пределах текстового содержания 210 или с помощью внешнего отображения объекта. Аналогичная аннотация может также использоваться для маркировки референций и референтов с номерами объектов. Аннотация может быть также обеспечена, чтобы указать доверительные уровни установленных разрешений кореференции.At step 430, coreferencing decisions can be made within the textual content 210. By working with the boundaries established within step 430, corefeatures can be identified and agreed upon. Alternative title groups can be set. A surface structure may be used to provide “surface” resolution. The ambiguities that arise during the resolution of the reference can be annotated. Such annotation 340 may be provided in the form of markup within the textual content 210 or by using an external display of the object. A similar annotation can also be used to mark references and referents with object numbers. An annotation may also be provided to indicate confidence levels of established core permissions.

На этапе 440 синтаксический анализ может преобразовать предложения в представления, которые делают явными синтаксические отношения между словами. Синтаксический анализатор 215 может применять грамматику 220, связанную с конкретным языком, чтобы обеспечить информацию синтаксического анализа 355.At step 440, parsing can transform sentences into representations that make syntactic relationships between words explicit. The parser 215 may apply a grammar 220 associated with a particular language to provide parsing information 355.

На этапе 450 семантические представления могут быть извлечены из текстового содержания 210. Информация, выраженная в документе внутри текстового содержания 210, может быть формально организована с точки зрения представлений взаимоотношений между объектами внутри текста. Эти отношения в общем смысле могут упоминаться как факты.At 450, semantic representations can be extracted from text content 210. The information expressed in a document within text content 210 can be formally organized in terms of representations of the relationships between objects within the text. These relationships can generally be referred to as facts.

На этапе 455 информация синтаксического анализа 355, выведенная из синтаксического анализа 215, может использоваться для поддержки принятия глубокого разрешения 370 кореференции 370. Семантические представления, созданные во время этапа 450, могут также быть усилены.At step 455, parsing information 355 inferred from parsing 215 can be used to support the adoption of deep resolution 370 of coreference 370. The semantic representations created during step 450 can also be enhanced.

На этапе 460 выражения, полученные при операции 430 поверхностного разрешения кореференции, могут быть объединены с информацией, полученной на этапе 455 глубокого разрешения кореференции. Синтаксический анализатор 215 с поддержкой двусмысленности может идентифицировать многочисленные альтернативные структурные представления для предложения. Информация от разрешения кореференции может использоваться для фильтрации вывода синтаксического анализатора 215.At step 460, the expressions obtained in step 430 of the surface resolution of the reference can be combined with the information obtained at step 455 of the deep resolution of the reference. The ambiguity syntax analyzer 215 can identify numerous alternative structural representations for the sentence. Information from resolving coreference can be used to filter the output of parser 215.

На этапе 470 семантика текстового содержания 210 может быть расширена, чтобы содержать выбранные неявные представления. На этапе 475 факты могут быть извлечены из семантических представлений, выражающих взаимоотношения между объектами, событиями и сочетаниями обстоятельств в пределах текстового содержания. На этапе 480 факты и объекты могут быть сохранены в семантическом индексе 250.At step 470, the semantics of the text content 210 may be expanded to include selected implicit representations. At step 475, the facts can be extracted from semantic representations expressing the relationship between objects, events, and combinations of circumstances within the textual content. At step 480, facts and objects can be stored in semantic index 250.

Подпрограмма 400 может закончиться после этапа 480. Однако следует понимать, что подпрограмма 400 может применяться неоднократно или непрерывно, чтобы извлекать фрагменты текстового содержания 210, которые должны применяться к семантическому индексу 250.Subroutine 400 may end after step 480. However, it should be understood that subroutine 400 can be applied repeatedly or continuously to extract pieces of text content 210 that should be applied to semantic index 250.

Показанный на фиг. 5 пример компьютерной архитектуры 500 может выполнять описанные здесь компоненты программного обеспечения для разрешения кореференции в чувствительной к двусмысленности системе обработки естественного языка. Компьютерная архитектура, представленная на фиг. 5, показывает обычный настольный компьютер, ноутбук или серверный компьютер и может использоваться для выполнения любых аспектов компонент программного обеспечения, представленных здесь. Следует, однако, понимать, что описанные компоненты программного обеспечения могут также выполняться на другом примере вычислительных сред, таких как мобильные устройства, телевидение, телевизионные абонентские приставки, киоски, информационные системы транспортных средств, мобильные телефоны, встроенные системы или любые другие. Любой один или более клиентских компьютеров 110А-110D или серверных компьютеров 120 могут осуществляться как компьютерная система 500, соответствующая вариантам осуществления.Shown in FIG. 5, an example of computer architecture 500 may execute the software components described herein for resolving coreference in an ambiguous sensitive natural language processing system. The computer architecture shown in FIG. 5 shows a conventional desktop computer, laptop, or server computer and can be used to execute any aspect of the software components presented here. It should be understood, however, that the described software components may also be executed on another example of computing environments such as mobile devices, television, set top boxes, kiosks, vehicle information systems, mobile phones, embedded systems, or any other. Any one or more client computers 110A-110D or server computers 120 may be implemented as a computer system 500 in accordance with embodiments.

Компьютерная архитектура, показанная на фиг. 5, может содержать центральный процессор 10 (CPU), системное запоминающее устройство 13, содержащее оперативное запоминающее устройство 14 (RAM) и постоянное запоминающее устройство 16 (ROM), и системную шину 11, которая может соединять системное запоминающее устройство 13 с центральным процессором 10. Базовая система ввода-вывода, содержащая основные подпрограммы, которые помогают передавать информацию между элементами внутри компьютера 500, такие как те, которые действуют во время запуска, может храниться в ROM 16. Компьютер 500 может дополнительно содержать запоминающее устройство 15 большого объема для хранения операционной системы 18, программного обеспечения, данных и различные программных модулей, таких как те, которые связаны с механизмом 130 естественного языка. Механизм 130 естественного языка может выполнять части компонент программного обеспечения, описанных здесь. Семантический индекс 250, связанный с механизмом 130 естественного языка, может храниться внутри запоминающего устройства 15 большого объема.The computer architecture shown in FIG. 5 may comprise a central processing unit 10 (CPU), a system memory 13 comprising a random access memory 14 (RAM) and a read-only memory 16 (ROM), and a system bus 11 that can connect the system memory 13 to the central processing unit 10. A basic input / output system containing basic routines that help transfer information between elements within the computer 500, such as those that act during startup, can be stored in ROM 16. Computer 500 may further contain compress a large storage device 15 for storing the operating system 18, software, data, and various software modules, such as those associated with the natural language engine 130. Natural language engine 130 may execute portions of the software components described herein. The semantic index 250 associated with the natural language engine 130 may be stored within a large volume storage device 15.

Запоминающее устройство 15 большого объема может соединяться с CPU 10 через контроллер запоминающего устройства большого объема (не показан), соединенный с шиной 11. Запоминающее устройство 15 большого объема и связанные с ним считываемые компьютером носители могут обеспечивать энергонезависимое запоминающее устройство для компьютера 500. Хотя описание считываемых компьютером носителей, содержащееся здесь, относится к запоминающему устройству большого объема, такому как жесткий диск или дисковод для компакт-дисков, специалисты в данной области техники должны понимать, что считываемые компьютером носители могут быть любыми доступными компьютерными носителями данных, к которым может обращаться компьютер 500.The mass storage device 15 can be connected to the CPU 10 through a mass storage device controller (not shown) connected to the bus 11. The mass storage device 15 and the associated computer-readable media can provide non-volatile storage for the computer 500. Although the description of the readable the computer storage medium contained herein relates to a mass storage device such as a hard disk or a CD-ROM drive, those skilled in the art Those skilled in the art should understand that computer-readable media can be any available computer storage media that can be accessed by computer 500.

Для примера, но не для ограничения, считываемые компьютером носители могут содержать энергозависимые и энергонезависимые, съемные и несъемные носители, осуществляемые любым способом или технологией хранения информации, такими как считываемые компьютером команды, структуры данных, программные модули или другие данные. Например, считываемые компьютером носители содержат, RAM, ROM, EPROM, EEPROM, флэш-память или другие твердотельные технологии, CD-ROM, цифровые универсальные диски (DVD), HD-DVD, BLU-RAY или другие оптические запоминающие устройства, магнитные кассеты, магнитную ленту, запоминающее устройство на магнитных дисках или другие магнитные запоминающие устройства или любые другие носители, которые могут использоваться для хранения желаемой информации и к которым может получать доступ компьютер 500, но не ограничены этим.By way of example, but not limitation, computer-readable media may include volatile and non-volatile, removable and non-removable media implemented by any method or technology for storing information, such as computer-readable instructions, data structures, program modules or other data. For example, computer-readable media contain RAM, ROM, EPROM, EEPROM, flash memory or other solid state technologies, CD-ROMs, digital versatile disks (DVDs), HD-DVDs, BLU-RAYs or other optical storage devices, magnetic tapes, magnetic tape, a magnetic disk storage device, or other magnetic storage devices or any other media that can be used to store the desired information and which can be accessed by the computer 500, but is not limited to this.

В соответствии с различными вариантами осуществления, компьютер 500 может работать в сетевой среде, используя логические соединения с удаленными компьютерами через сеть, такую как сеть 140. Компьютер 500 может соединяться с сетью 140 через сетевой интерфейсный блок 19, соединенный с шиной 11. Следует понимать, что сетевой интерфейсный блок 19 может также использоваться для соединения с другими типами сетей и удаленными компьютерными системами. Компьютер 500 может также содержать контроллер 12 ввода-вывода для приема и обработки входных сигналов от многих других устройств, в том числе, от клавиатуры, мыши или электронного пера (не показано). Точно так же, контроллер 12 ввода-вывода может обеспечить выходной сигнал на видеодисплей, принтер или другой тип устройства вывода (также не показано).In accordance with various embodiments, computer 500 may operate in a network environment using logical connections to remote computers through a network such as network 140. Computer 500 may connect to network 140 through network interface unit 19 connected to bus 11. It should be understood that the network interface unit 19 can also be used to connect to other types of networks and remote computer systems. The computer 500 may also comprise an input / output controller 12 for receiving and processing input signals from many other devices, including a keyboard, mouse, or electronic pen (not shown). Similarly, the input / output controller 12 may provide an output signal to a video display, printer, or other type of output device (also not shown).

Как кратко упоминалось выше, многие программные модули и файлы данных могут храниться в запоминающем устройстве 15 большой емкости и в RAM 14 компьютера 500, в том числе, операционная система 18, пригодная для управления работой сетевого настольного компьютера, ноутбука, серверного компьютера или другой вычислительной средой. Запоминающее устройство 15 большого объема, ROM 16 и RAM 14 могут также хранить один или более программных модулей. В частности, запоминающее устройство 15 большого объема, ROM 16 и RAM 14 могут хранить механизм 130 естественного языка 130 для выполнения CPU 10. Механизм 130 естественного языка может содержать компоненты программного обеспечения для осуществления частей процессов, обсуждавшихся подробно со ссылкой на фиг. 2-4. Запоминающее устройство 15 большого объема, ROM 16 и RAM 14 могут также хранить другие типы программных модулей. Запоминающее устройство 15 большого объема, ROM 16 и RAM 14 могут также хранить семантический индекс 250, связанный с механизмом 130 естественного языка.As briefly mentioned above, many program modules and data files can be stored in mass storage device 15 and in RAM 14 of computer 500, including an operating system 18 suitable for controlling the operation of a networked desktop computer, laptop, server computer, or other computing environment . Mass storage device 15, ROM 16 and RAM 14 may also store one or more program modules. In particular, the large storage device 15, ROM 16, and RAM 14 may store natural language engine 130 for executing CPU 10. Natural language engine 130 may include software components for implementing parts of the processes discussed in detail with reference to FIG. 2-4. Mass storage device 15, ROM 16 and RAM 14 may also store other types of software modules. The mass storage device 15, ROM 16 and RAM 14 may also store a semantic index 250 associated with the natural language engine 130.

На основе вышесказанного, следует понимать, что здесь представляются технологии разрешения кореференции в чувствительной к двусмысленности системе обработки естественного языка. Хотя предмет изобретения, представленный здесь, был описан на языке, специфическом для компьютерных структурных признаков, методологических действиях и считываемых компьютером носителей, подразумевается, что изобретение, определенное в приложенной формуле изобретения, не обязательно ограничивается описанными здесь конкретными признаками, действиями или носителями. Скорее, конкретные признаки, действия и носители раскрыты как примеры формы осуществления формулы изобретения.Based on the foregoing, it should be understood that the technologies for resolving coreference in a sensitive to ambiguity natural language processing system are presented here. Although the subject matter presented here has been described in a language specific to computer structural features, methodological acts, and computer-readable media, it is intended that the invention as defined in the appended claims is not necessarily limited to the specific features, acts, or media described herein. Rather, specific features, acts, and carriers are disclosed as examples of a form of implementation of the claims.

Предмет изобретения, описанный выше, представлен только для примера и не должен рассматриваться как ограничение. В описанном здесь предмете изобретения могут быть сделаны различные модификации и изменения, не следующие показанным и описанным примерам вариантов осуществления и применениям и не отступающие от истинной сущности и объема настоящего изобретения, которые изложены в последующей формуле изобретения.The subject matter described above is presented by way of example only and should not be construed as limiting. In the subject matter described here, various modifications and changes can be made that are not following the shown and described examples of embodiments and applications and not deviating from the true nature and scope of the present invention, which are set forth in the following claims.

Claims

1. A method for integrating mechanisms for resolving coreference, the method comprising the steps of:
retrieving, using the natural language mechanism of the server computer, part of the text;
identify, using the natural language mechanism of the server computer, the coreference within the mentioned part of the text;
extracting, using the natural language mechanism of the server computer, a fact from said part of the text, the fact being of significance; and
expanding, using the natural language mechanism of the server computer, the mentioned fact so that it includes a co-reference value different from the mentioned value and based on the identified core-reference.

2. The method according to claim 1, in which the identification of coreference within the said part of the text contains the identification of coreference in the said part of the text, using at least partially parsing.

3. The method according to claim 1, in which the identification of coreference within the said part of the text contains the identification of coreference in the said part of the text, using at least partially semantic display.

4. The method according to claim 1, in which the identification of coreference contains the identification of ambiguous coreference.

5. The method according to claim 1, further comprising identifying the ambiguity within the said part of the text.

6. The method according to claim 5, further comprising expanding the fact so that it includes an ambiguous value based on the identified ambiguity.

7. The method of claim 1, further comprising storing the expanded fact in an index suitable for supporting information retrieval.

8. The method according to claim 7, further comprising extracting the extended fact from the index in response to a search query.

9. The method according to claim 1, further comprising annotating the identified coreferences within the said part of the text.

10. The method according to claim 2, further comprising caching information from the parsing.

11. A computer storage medium having executable computer instructions stored on it which, when executed by a computer, cause the computer to:
Extract some text
identify coreference within the said part of the text;
extract a fact from part of the text, and the fact matters; and
expand the fact that it includes a co-reference value different from the mentioned value and based on the identified core-references.

12. The computer storage medium of claim 11, wherein the instructions for identifying coreferences comprise instructions for identifying coreferences in said part of the text, using at least partially parsing.

13. The computer storage medium of claim 11, wherein the instructions for identifying coreferences comprise instructions for identifying coreferences in said part of the text using at least partially a semantic mapping.

14. The computer storage medium of claim 11, wherein the instructions for identifying a coreference comprise instructions for identifying an ambiguous coreference.

15. The computer storage medium according to claim 11, further comprising instructions causing the computer to identify the ambiguity within the said part of the text.

16. The computer storage medium of claim 15, further comprising instructions forcing the computer to expand upon the fact that it includes an ambiguous value based on the identified ambiguity.

17. The computer storage medium according to claim 11, further comprising instructions causing the computer to store the expanded fact in an index suitable for supporting information retrieval.

18. The computer storage medium of claim 17, further comprising instructions for causing the computer to retrieve the expanded fact from the index in response to the search query.

19. The computer storage medium according to claim 11, further comprising instructions forcing the computer to annotate identified coreferences within a portion of the text.

20. A method for integrating mechanisms for resolving coreference, the method comprising the steps of:
retrieving, using the natural language mechanism of the server computer, part of the text;
identify, using the natural language mechanism of the server computer, the coreference within the mentioned part of the text;
identify, using the natural language mechanism of the server computer, the ambiguity within the said part of the text;
extracting, using the natural language mechanism of the server computer, a fact from said part of the text, the fact being of significance;
expand, using the natural language mechanism of the server computer, the fact that it includes a co-reference value different from the mentioned value and based on the identified core-reference;
store the expanded fact in an index suitable for supporting information extraction; and
retrieving the expanded fact from the index in response to a search query.