RU2273879C2 - Method for synthesis of self-teaching system for extracting knowledge from text documents for search engines - Google Patents

Method for synthesis of self-teaching system for extracting knowledge from text documents for search engines

Info

Publication number
RU2273879C2
RU2273879C2 RU2004131643A RU2004131643A RU2273879C2 RU 2273879 C2 RU2273879 C2 RU 2273879C2 RU 2004131643 A RU2004131643 A RU 2004131643A RU 2004131643 A RU2004131643 A RU 2004131643A RU 2273879 C2 RU2273879 C2 RU 2273879C2
Authority
RU
Grant status
Grant
Patent type
Prior art keywords
text
index
form
request
rules
Prior art date
Application number
RU2004131643A
Other languages
Russian (ru)
Other versions
RU2004131643A (en )
Inventor
Владимир Владимирович Насыпный (RU)
Владимир Владимирович Насыпный
Галина Анатольевна Насыпна (RU)
Галина Анатольевна НАСЫПНАЯ
Original Assignee
Владимир Владимирович Насыпный
Галина Анатольевна НАСЫПНАЯ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Abstract

FIELD: computer science, information-searching and intellectual systems engineering.
SUBSTANCE: result is achieved due to realization of self-teaching mechanism in form of stochastically indexed artificial intelligence system; morphological and syntax analysis is performed, and also stochastic indexing of text documents on given topic for forming semantic analysis databases; user request is transformed in stochastically integrated form to multiple new requests equivalent to source request, and selection of stochastically indexed text document fragments is performed with all word combinations of transformed request, of which stochastically indexed semantic structure is formed, short response of system on basis of structure is formed and relevance of short system response to query is checked by means of their comparison.
EFFECT: possible automatic forming of knowledge by extracting them from text documents represented in digital form at different languages, and possible intellectual processing of text information and user requests to extract knowledge on any foreign language.
2 cl, 1 dwg, 3 tbl

Description

Область техники TECHNICAL FIELD

Изобретение относится к области вычислительной техники, информационно-поисковых и интеллектуальных систем. The invention relates to the field of computing, information retrieval and intelligent systems.

Изобретение предназначено для использования при создании информационно-поисковых и других информационных и интеллектуальных систем, работающих на базе Internet. The invention is designed for use in creating information retrieval and other information and intelligent systems operating on the basis of Internet.

Предшествующий уровень техники BACKGROUND ART

В настоящее время в системе Internet накоплен огромный объем информации по различным предметным областям и темам. Currently, the Internet system has accumulated a wealth of information on different subject areas and themes. В этой информации содержатся и постоянно обновляются всеобъемлющие сведения и знания. This information provides a comprehensive and constantly updated information and knowledge. Однако доступ к ним со стороны многомиллионной пользовательской аудитории затруднен. However, the part of the multimillion user base access is difficult. Это обусловлено недостаточной эффективностью современных способов извлечения информации для поисковых систем. This is due to the lack of efficiency of modern methods of information retrieval search engines. Известны способы извлечения информации для поисковых систем Yandex, Yahoo, Rambler. There are known methods of extracting information for search engines Yandex, Yahoo, Rambler. Известные способы обеспечивают выдачу текстовых документов по запросам пользователя из системы Internet. The known processes allow the issuance of text documents requested by the user from the Internet system.

Основными недостатками известных способов извлечения информации названных систем являются: The main disadvantages of the known methods of extracting information of said systems are:

- сложность формализованных языков запросов; - the complexity of the formal query languages;

- отсутствие аппарата семантического анализа содержания текстовых документов и их соответствия задаваемым вопросам; - the absence of the apparatus of the semantic analysis of the content of text documents and their compliance with the asked questions;

- невозможность точного определения наличия в поисковом документе информации, указанной в запросе пользователя, а также выделения из объемных информационных источников конкретных сведений и знаний, необходимых пользователю. - impossibility of accurately determining the presence document from the search information specified in the user request and the allocation of volume specific information sources of information and knowledge needed user.

В силу указанных недостатков при реализации информационно-поисковых процедур наряду с полезной передается много лишней, "шумовой" информации, которая плохо селектируется современными поисковыми системами. In view of these shortcomings in the implementation of information retrieval procedures along with a lot of useful transmitted superfluous "noise" information that selects the bad modern search engines. Это существенно повышает время поиска нужной информации, загружает каналы и серверы системы передачей и обработкой поискового шума. This greatly increases the search time information, downloads the feeds and servers systems and processing to search the noise.

Главная проблема состоит в том, что при этом и пользователь, задав запрос системе, получает большие объемы информации, часто не содержащей нужных сведений. The main problem lies in the fact that at the same time and the user sets the query system receives large amounts of information, often containing the necessary information. Возникает необходимость ознакомиться с каждым полученным документом для определения наличия в нем требуемых данных. It becomes necessary to examine each received document to determine the presence therein of data required. Это приводит к неоправданным временным и интеллектуальным затратам. This leads to unnecessary time and intellectual cost. Невозможность получения в реальном масштабе времени из огромных массивов Internet конкретных сведений и знаний, нужных пользователю для решения проблем различного характера, существенно снижает как ценность информации, так и эффективность работающих с ней поисковых систем. Inability to obtain real-time from the Internet vast amounts of specific information and knowledge necessary for the user to solve different problems, significantly reduces both the value of information, and work effectively with it the search engines.

Известен способ извлечения знаний и сведений по запросам пользователя из баз знаний, который реализован в интеллектуальной информационно-логической вычислительной системе, описанной в монографии: Насыпный В.В. The method for extracting the knowledge and information of the user request from the knowledge base, which is implemented in the intelligent information and logical computing system, described in the monograph: Bulk VV Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта. Development of the theory of open systems based on information technology of artificial intelligence. М., 1994. - 248 с. M., 1994. - 248 p. (С.85-112). (S.85-112). Указанный способ, основанный на стохастической информационной технологии, обеспечивает возможность эффективного поиска знаний и их обработки с использованием логического вывода в реальном масштабе времени. This method is based on the stochastic information technology, enables efficient retrieval of knowledge and their processing using inference in real time. Это обусловлено тем, что в отличие от существующих способов обработки знаний, которые применяются в современных системах искусственного интеллекта, данный способ обеспечивает линейную зависимость времени поиска и логической обработки от объема знаний, необходимых для формирования ответа. This is due to the fact that in contrast to the existing methods of processing knowledge, which are used in modern systems of artificial intelligence, this method provides a linear dependence of search time and logic processing on the amount of knowledge required for the formation of an answer. Однако этот способ не дает возможности извлечения знаний из текстовых документов, что объясняется его ориентацией на обработку формализованной информации баз знаний, осуществляемой экспертами и инженерами по знаниям. However, this method does not allow extracting knowledge from text documents, due to its orientation to the processing of information formalized knowledge bases, carried out by experts and knowledge engineers. Это делает невозможным использование данного способа для извлечения знаний из текстовых документов современных информационно-поисковых систем. This makes it impossible to use this method to extract knowledge from text documents of modern information retrieval systems.

Известен также способ извлечения знаний из текстовых документов, описанный в работе: Насыпный В.В., Насыпная Г.А. Another known method for extracting the knowledge of the text documents as described in the paper: VV bulk, bulk GA Построение интеллектуальной информационно-поисковой системы. Building intelligent information retrieval system. М.: Прометей, 2001. - 27 с. M .: Prometheus, 2001. - 27 p. В основу способа положена стохастическая интеллектуальная информационная технология, которая обеспечивает проведение в реальном масштабе времени морфологического, синтаксического и семантического анализа больших объемов текстовой информации. The basis of the method laid stochastic intelligent information technology that facilitates real-time, morphological, syntactic and semantic analysis of large volumes of textual information. Данная система может функционировать совместно с существующими информационно-поисковыми системами в качестве интеллектуальной надстройки над ними, а также создавать поисковые системы нового поколения со своими стандартами стохастической индексации текстовых документов, протоколами информационного обмена и обработки запросов пользователя. The system can operate in conjunction with existing information retrieval systems as an intellectual superstructure over them, and create a new generation of search system with their standard stochastic indexing text documents, protocols, information exchange and processing user requests. Главными достоинствами указанного способа по сравнению со способами, реализованными в современных поисковых системах, являются: The main advantages of this method compared to methods implemented in modern search engines are:

- обработка запросов пользователя на естественном языке; - processing of user queries in natural language;

- поиск и выдача документов, достоверно содержащих полную информацию, релевантную запросу пользователя; - search and delivery of documents, reliably containing full information relevant to the user's request;

- выделение фрагментов текста в соответствии с запросом пользователя, содержащих сведения и знания по различным предметным областям, необходимым для решения конкретных проблем. - Allocation of fragments of the text in accordance with the user's request, containing information and knowledge on various subject areas required to solve specific problems.

Основным недостатком данного способа является то, что наполнение баз знаний интеллектуальных систем, предназначенных для проведения морфологического, синтаксического, семантического анализа текста производится экспертами и требует длительных временных и технологических затрат. The main disadvantage of this method is that the filling of knowledge bases intelligent systems for carrying out the morphological, syntactic, semantic analysis of the text is performed by experts and takes a long time and process cost. Поэтому создание подобных систем извлечения знаний из текстовых документов в интересах пользователей развитых стран, которые имеют национальные подсистемы в Internet с информацией на языке данной страны, требуют длительного времени. Therefore, the creation of such systems of knowledge extraction from text documents in the interests of developed countries, users who have a national subsystem on the Internet with information in the language of the country, require a long time. Вследствие этого указанный способ не может быть использован для создания на базе Internet многоязычных систем извлечения знаний из текстов. As a consequence, said method can not be used to create Internet based multilingual data mining systems of texts. Это существенно затрудняет переход к индустрии знаний, которая бы основывалась на текстовой информации национальных поисковых систем и обеспечивала бы качественно новый информационный сервис в различных сферах - производственной, научной, образовательной, культурной и бытовой деятельности человека с учетом современных требований цивилизованного общества. This greatly complicates the transition to a knowledge industry, which would be based on the text information of national search engines and would provide a new information service in different areas - industrial, scientific, educational, cultural and social activity of the person to meet modern standards of a civilized society.

К другим недостаткам указанного способа можно отнести отсутствие возможности автоматического анализа новых слов, не входящих в состав словарей. Other disadvantages of this method are the lack of ability to automatically analyze new words not included in the dictionary. В случае их появления в текстовых документах требуется участие экспертов при определении, к какой части речи относится новое слово, и его морфологических характеристик. If they appear in text documents require the participation of experts in determining what part of speech applies a new word and its morphological characteristics. Это делает невозможным автоматическое настраивание системы извлечения знаний на обработку текстовых документов по заданным новым темам. This makes it impossible to automatically setting up knowledge extraction system for processing text documents given to new topics. Отметим также, что для обеспечения эффективности извлечения знаний требуется комплексная обработка фрагментов текста из различных документов, основанная на анализе семантических связей с помощью логического вывода между указанными фрагментами, а также на эквивалентных преобразованиях предложения данного текста. Note also that to be effective extraction of knowledge required to complete processing of fragments of text from a variety of documents, based on the analysis of semantic relationships via inference between these fragments, as well as to offer equivalent transformations of the text. Эта функция также не реализована в рассматриваемом способе. This feature is also not implemented in this way.

Раскрытие изобретения SUMMARY OF THE iNVENTION

Задачей изобретения является создание способа синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем для использования при создании глобальной индустрии знаний на базе Internet, не имеющего вышеуказанных недостатков. The object of the invention to provide a method of synthesis of a self-learning knowledge extraction system from text documents for search engines to use in creating a global industry knowledge-based Internet, not having the above drawbacks. Достигаемым результатом является: The result is achieved:

- возможность автоматического формирования знаний путем извлечения их из текстовых документов, представленных на различных языках в электронном виде для заполнения баз знаний; - automatic formation of knowledge by extracting them from the text documents in different languages ​​represented in electronic form for filling of knowledge bases;

- автоматический анализ новых слов и обновления словарей; - automatic analysis of new words and updating the dictionaries;

- эквивалентные преобразования запросов пользователей и предложений текстовых документов, обеспечивающие повышение эффективности извлечения знаний; - equivalent transformation of user requests and suggestions of text documents that provide more efficient retrieval of knowledge;

- самообучение указанных систем правилам грамматического и семантического анализа; - said self-learning systems grammatical rules and semantic analysis;

- интеллектуальная обработка текстовой информации и запросов пользователей с целью извлечения знаний на заданном иностранном языке. - intelligent processing of text information and user requests to retrieve knowledge on a given foreign language.

Указанный технический результат достигается тем, что в способе синтеза самообучающейся системы извлечения знаний на заданном языке из текстовых документов поисковых систем Said technical result is achieved by a method for the synthesis of a self-learning knowledge extraction system in a given language from text documents the search engine

обеспечивают механизм самообучения в виде стохастически индексированной системы искусственного интеллекта, основанной на применении уникальных комбинаций двоичных сигналов стохастических индексов информации, provide learning mechanism in the form of a stochastically indexed artificial intelligence system based on the use of unique combinations of binary signals of stochastic index information,

обеспечивают автоматическое обучение системы правилам грамматического и семантического анализа путем применения эквивалентных преобразований стохастически индексированных фрагментов текста, логического вывода и формирования из них связанных семантических структур и стохастического индексирования для представления в формате правил продукций, provide automatic learning systems to the rules of grammatical and semantic analysis through the use of equivalent transformations stochastically indexed text fragments, inference, and the formation of these structures and associated semantic indexing to represent stochastic in the production rules format

производят морфологический анализ и стохастическое индексирование лингвистических текстов в электронном виде с одновременным автоматическим обучением системы правилам морфологического анализа, produce morphological analysis and stochastic index of linguistic texts in electronic form at the same time automatic system learning the rules of the morphological analysis,

производят морфологический и синтаксический анализ, а также стохастическое индексирование текстовых документов по заданной теме в электронном виде на заданном языке с одновременным автоматическим обучением системы правилам синтаксического анализа, produce morphological and syntactic analysis and stochastic indexing text documents on a given topic in electronic form in a given language with simultaneous automatic learning system parsing rules,

производят семантический анализ стохастически индексированных текстовых документов по заданной теме в электронном виде с одновременным автоматическим обучением системы правилам семантического анализа, produced stochastically indexed semantic analysis of text documents on a given topic in electronic form at the same time automatic learning systems to the rules of the semantic analysis,

формируют запрос пользователя на естественном заданном языке и представляют его в электроном виде после стохастического индексирования в форме вопросительного предложения, forming the user request at a predetermined natural language and represent it in the form of an electron after a stochastic index in the form of an interrogative sentence,

преобразуют запрос пользователя в стохастически индексированном виде во множество новых запросов, эквивалентных исходному запросу, convert a user's query in the form of a stochastically indexed in a variety of new requests that are equivalent to the original query,

в соответствии с запросом пользователя осуществляют предварительный выбор стохастически индексированных фрагментов текстовых документов в электронном виде, содержащих в совокупности все словосочетания преобразованного запроса, in accordance with the user's request is performed preselect fragments stochastically indexed text documents in electronic form, containing a total of all the phrases of the converted request,

формируют стохастически индексированную семантическую структуру с использованием указанных фрагментов текстовых документов, forming a stochastically indexed semantic structure by using said pieces of text documents,

на основе указанной структуры с помощью логического вывода, обеспечивающего связь стохастически индексированных элементов различных текстов, и эквивалентного преобразования текста формируют краткий ответ системы, based on said structure by inference providing communication stochastically indexed elements of various texts and equivalent text-form short system response,

проверяют релевантность полученного краткого ответа системы запросу путем формирования на его основе вопросительного предложения, сравнения полученного вопросительного предложения с запросом, relevant check request received short system response by forming on this basis an interrogative sentence, interrogative sentence obtained comparing with the request,

при идентичности полученного вопросительного предложения и запроса принимают решение о релевантности краткого ответа системы запросу и представляют его на заданном языке. when the identity of the resulting interrogative sentence and request decide on the relevance of the brief response of the system request and submit it to the specified language.

Указанный технический результат достигается тем, что в способе синтеза самообучающейся системы извлечения знаний на любом из заданных иностранных языков из текстовых документов поисковых систем Said technical result is achieved by a method for the synthesis of a self-learning knowledge extraction system at any given foreign language text documents from the search engine

обеспечивают механизм самообучения в виде стохастически индексированной системы искусственного интеллекта, основанной на применении уникальных комбинаций двоичных сигналов стохастических индексов информации для стохастической индексации и поиска фрагментов лингвистических текстов на заданном базовом языке, содержащих описание процедур грамматического и семантического анализа, и автоматического обучения системы правилам грамматического и семантического анализа путем эквивалентных преобразований стохастически индексированны provide learning mechanism in the form of a stochastically indexed artificial intelligence system based on the use of unique combinations of binary signals of stochastic index information for the stochastic indexing and retrieval of fragments of linguistic texts in a given base language, containing a description of the grammatical and semantic analysis procedures, and automatic learning system rules of grammatical and semantic analysis by equivalent transformations stochastically indexing фрагментов текста, логического вывода и формирования из них связанных семантических структур, их стохастического индексирования для представления в формате правил продукций, fragments of text, inference, and the formation of their associated semantic structures of the stochastic index for submission to the productions rules format

производят морфологический анализ и стохастическое индексирование лингвистических текстов на заданном базовом языке в электронном виде с одновременным автоматическим обучением системы правилам морфологического анализа, формированием базы данных стохастически индексированных словарей и формированием таблиц индексов лингвистических текстов для каждого из заданных иностранных языков, а также базы знаний морфологического анализа, содержащей полученные правила продукций для заданного базового языка и каждого из заданных иностранны produce morphological analysis and stochastic index of linguistic texts in a given base language in electronic form at the same time automatic learning systems to the rules of the morphological analysis, database formation stochastically indexed dictionaries and the formation index tables linguistic texts for each of the specified languages, as well as knowledge of the morphological analysis, Product obtained containing rules for a given language and the base of each of the predetermined foreignness х языков, languages,

производят морфологический и синтаксический анализ, а также стохастическое индексирование текстовых документов по заданной теме на каждом из заданных иностранных языков в электронном виде из поисковой системы с представлением их в виде таблиц индексов текстовых документов по заданной теме и записью в базы стохастически индексированных текстов с одновременным автоматическим обучением системы правилам синтаксического анализа с использованием стохастически индексированных лингвистических текстов на заданном базовом языке и формир produce morphological and syntactic analysis and stochastic indexing text documents on a given topic on each of the specified languages ​​in electronic form from the search engine with the presentation of tabular indexes text documents on a given topic and writing to the database stochastically indexed texts with simultaneous automatic learning system rules parsing using stochastically indexed linguistic texts in a given base language and form ванием базы знаний синтаксического анализа для базового языка и каждого из заданных иностранных языков, vaniem knowledge base to parse the language and each of the specified languages,

производят семантический анализ стохастически индексированных текстовых документов по заданной теме на заданном базовом языке в электронном виде с одновременным автоматическим обучением системы правилам семантического анализа и формированием базы знаний семантического анализа для базового языка и каждого из заданных иностранных языков, produced stochastically indexed semantic analysis of text documents on a given topic in a given base language in electronic form at the same time automatic learning systems to the rules of semantic analysis and semantic analysis of the knowledge base for the base language, and each of the specified languages,

формируют запрос пользователя на естественном заданном иностранном языке и представляют его в электронном виде после стохастического индексирования в форме вопросительного предложения, включающего вопросительное словосочетание и словосочетания, которые определяют семантику запроса, form a user query in a natural predetermined foreign language and represent it in electronic form after stochastic index in the form of an interrogative sentence, interrogative comprising phrase or phrases that define the semantics of the query,

преобразуют запрос пользователя в стохастически индексированном виде во множество новых запросов, эквивалентных исходному запросу на заданном иностранном языке, convert a user's query in the form of a stochastically indexed in a variety of new requests that are equivalent to the original query in a given foreign language,

в соответствии с запросом пользователя осуществляют предварительный выбор стохастически индексированных фрагментов текстовых документов на заданном иностранном языке в электронном виде, содержащих в совокупности все словосочетания преобразованного запроса, in accordance with the user's request is carried out pre-selection stochastically indexed fragments of text documents on a given foreign language in electronic form, containing a total of all the combinations of the converted query

формируют стохастически индексированную семантическую структуру на основе указанных фрагментов текстовых документов, forming a stochastically indexed semantic structure based on these pieces of text documents,

на основе сформированной стохастически индексированной семантической структуры с помощью логического вывода, обеспечивающего связь стохастически индексированных элементов различных текстов, и эквивалентного преобразования текста формируют краткий ответ системы, содержащий словосочетания в стохастически индексированном виде, которые определяют семантику запроса, а также группу слов ответа, соответствующую вопросительному словосочетанию запроса, based on the formed stochastically indexed semantic structure by inference providing communication stochastically indexed elements of various texts and equivalent text-form short system response containing the phrase to stochastically indexed form that define the semantics of the query and a group answer word corresponding to an interrogative phrase request,

проверяют релевантность полученного краткого ответа системы запросу путем замены группы слов ответа на соответствующее вопросительное словосочетание в стохастически индексированном виде, получения стохастически индексированного вопросительного предложения, сравнения полученного вопросительного предложения с запросом и при идентичности полученного вопросительного предложения и запроса принимают решение о релевантности краткого ответа системы запросу и представляют его на заданном иностранном языке. check the relevance obtained brief response system request by replacing the word group response to corresponding interrogative phrase in a stochastically indexed form preparation stochastically indexed interrogative sentence, comparing the obtained interrogative sentence with the request and the identity obtained interrogative sentence and the query decide the relevance of the search system brief answer and submit it at a given foreign language.

В случае неудачной попытки сформировать вопросительное предложение, идентичное запросу пользователя, запрашивают новые текстовые документы из поисковой системы для поиска ответа, релевантного запросу пользователя. In the case of an unsuccessful attempt to form interrogative sentence that is identical to the user's request, ask for new text documents from the search engine to find the answer, the relevant request of the user.

Дополнительно по запросу пользователя может быть сформирован полный ответ, содержащий более подробную информацию или совокупность конкретных знаний, при этом используют логический вывод для образования стохастически индексированной семантической структуры и необходимые эквивалентные преобразования указанной совокупности фрагментов текстов для получения стохастически индексированного нового текста, раскрывающего с возможной детализацией содержание полученного ранее краткого ответа. Additionally, the user's request may be formed complete response containing more information or a set of specific knowledge, the use inference for forming a stochastically indexed semantic structure and the required equivalent conversion of said plurality of text fragments to obtain a stochastically indexed new text, revealing a possible detailed content obtained in the above summary response.

При этом автоматическое обучение системы правилам морфологического анализа производят путем выделения в стохастически индексируемом тексте определенного набора словоформ каждого слова, получения стохастических индексов основы слова и заданного набора его окончаний или предлогов, произвольного доступа по указанным индексам к стохастически индексированным лингвистическим текстам, выделения из них фрагментов, связывающих указанный набор окончаний слова или предлогов с соответствующей данному слову частью речи, а также с полным набо Thus automatic learning system rules morphological analysis is performed by allocating a stochastically indexed text specific set wordforms each word, producing stochastic index-based word and a given set of its endings or prepositions, random access on these indexes to stochastically indexed linguistic texts, separation of these fragments, linking said set of word endings or prepositions with the corresponding part of the given word speech but also a full TOY ром окончаний или предлогов, получаемых при склонении или спряжении, преобразования данных фрагментов в формат правил продукций путем их стохастического индексирования, обеспечивая при этом корректность каждого правила путем независимого его формирования на основе нескольких фрагментов из соответствующих лингвистических текстов, и получения таблицы индексов правил продукций для базы знаний морфологического анализа. rum endings and prepositions obtained by declension or conjugation, transformation fragments of data in the production rules format by their stochastic index, while ensuring the correctness of each rule by the independence of its formation on the basis of several pieces of relevant linguistic texts and receiving index table production rules for the base knowledge of the morphological analysis.

Кроме того, при стохастическом индексировании лингвистических текстов после определения части речи каждого слова с помощью правил базы знаний морфологического анализа заполняют базу данных стохастически индексированного словаря стохастическими индексами основы каждого очередного слова и полного набора его окончаний или предлогов, а при формировании таблиц индексов текстов осуществляют стохастическое преобразование информации и получение уникальных двоичных комбинаций индексов основ слов, их окончаний, предлогов, предложений, аб In addition, a stochastic indexing linguistic texts after determining the part of speech of each word using the knowledge base of the morphological analysis of the rules fill the database stochastically indexed dictionary stochastic index-based for each regular expression and a complete set of its endings, or prepositions, and perform stochastic transformation in the formation of text table indexes information and obtain a unique binary combinations of indexes based on the words of their endings, prepositions, sentences, AB ацев и названий текстов, которые помещают в таблицы индексов базы стохастически индексированных текстов с обеспечением связности между указанными индексами, определенной в исходном тексте и обеспечивающей его восстановление по таблице индекса. atsev titles and text which are placed in the table base stochastically indexed text index with providing connectivity between said indices defined in the source code and its restoration by providing an index table.

Кроме того, автоматическое обучение системы правилам синтаксического анализа осуществляют путем поиска в стохастически индексированных лингвистических текстах фрагментов, описывающих порядок синтаксического разбора предложений, при этом реализуется логический вывод для получения стохастически индексированной семантической структуры, определяющей связь синтаксических элементов и структур с заданными частями речи слов, и формирования правил продукций, определяющих синтаксический разбор предложений по морфологическим характерис In addition, automatic learning parsing rules of the system is carried out by searching in a stochastically indexed linguistic texts fragments describing the procedure for parsing sentences, the implemented inference for stochastically indexed semantic structure defining communication syntax elements and structures with predetermined parts of speech of words, and Product formation rules defining parse sentences by the characteristic morphological тикам слов, обеспечивая при этом корректность каждого правила путем независимого его формирования на основе нескольких фрагментов из соответствующих лингвистических текстов, полученные правила заносят в базу знаний синтаксического анализа, по мере заполнения которой осуществляют ее стохастическое индексирование и представление в виде таблицы индексов. ticks words, while ensuring the correctness of each independent rule by its formation on the basis of several fragments from the respective linguistic texts received rules are entered into the knowledge base parsing, as filling which is exercised by the stochastic index, and represented as index table.

Кроме того, автоматическое обучение системы правилам семантического анализа текста осуществляют путем формирования запроса к таблицам индексов лингвистических текстов по стохастическим индексам основ слов и частей речи, не точно определенных членов предложения, и получения ответа в виде фрагмента текста, описывающего семантические характеристики, которыми должны обладать слова для их соответствия данному конкретному члену предложения, и по полученному ответу, используя стохастический индекс основы данного слова и требуемые семант In addition, the automatic learning system rules of semantic text analysis is performed by querying table indexes linguistic texts on stochastic index-based words and parts of speech is not exactly certain of the sentence, and receive a response in the form of text that describes the semantic characteristics required of words for their conformity with this particular part of the sentence, and to the response using stochastic index bases of the word and semantics required ческие характеристики, обращаются к таблицам индексов толковых словарей и энциклопедий общего и тематического назначения, при этом с помощью логического вывода делают попытку образовать стохастически индексированную семантическую структуру, связывающую данное слово и требуемые семантические характеристики, в положительном случае считают, что указанный член предложения определен точно, а фрагмент текста, релевантный запросу, преобразуют в правило продукций, обеспечивая при этом корректность каждого правила путем независимого его ф cal characteristics, refer to the table index of dictionaries and encyclopedias general and thematic destination, while using inference attempt to form a stochastically indexed semantic structure linking the word and the required semantic characteristics in the positive case, consider that part of the sentence given to determine exactly a piece of text, the relevant request is converted into a production rules, while ensuring the correctness of each rule by the independence of its f ормирования на основе нескольких фрагментов из соответствующих лингвистических текстов, которое включают в базу знаний семантического анализа, стохастически индексируют данную базу, представляют в виде таблицы индексов и применяют при семантическом анализе слов, как членов предложения, и отношений между словами, выраженных словосочетаниями. ormirovaniya based on several pieces of relevant linguistic texts, which include the knowledge base of the semantic analysis, stochastic index this database, are in the form of tables and indexes used in the semantic analysis of words as the sentence, and the relationship between words, phrases pronounced.

После образования таблицы индексов каждого текста и завершения его морфологического, синтаксического и семантического анализа формируют стохастические индексы наименований частей речи, членов предложения и вопросов к ним, которые соответствуют каждому слову в составе предложений, и записывают указанные индексы в ячейки таблицы индексов данного текста, что позволяет при поиске фрагментов текста автоматически определять, к какой части речи, члену предложения относится каждое слово, и формировать вопросы к нему. After formation of the index table of each text and the completion of its morphological, syntactic and semantic analysis form the stochastic index of names of parts of speech, of the sentence and questions to them that correspond to each word in sentences and write a specified index in a table cell indices of the text, which allows when searching for text fragments automatically determine what part of speech of the sentence relates each word, and form questions for him.

Затем, после получения всех таблиц индексов текстов, формируют таблицу индексов текстов по данной теме, строки которой поименованы неповторяющимися стохастическими индексами основ слов, а каждый столбец соответствует стохастическому индексу конкретного текста, при этом в ячейки таблицы записывают стохастические индексы абзацев, в которых в данном тексте содержится слово с соответствующим индексом основы, полученную таблицу индексов по данной теме применяют для предварительного поиска фрагментов, содержащих определенную совокупнос Then, after receiving all tables text indices form the index table of texts on the subject, where the rows are named recurring stochastic index, the words, and each column corresponds to a stochastic index specific text, while in the table is recorded stochastic codes paragraphs cell, in which in the text It contains the word with a corresponding index bases obtained index table on the subject used to preliminary search fragments containing specific sovokupnos ь словосочетаний запроса. s query phrases.

При этом эквивалентные преобразования исходного запроса пользователя осуществляют с использованием синонимов, близких по смыслу слов, а также замены частей речи и членов предложения с сохранением смыслового содержания исходного запроса на основе применения стохастически индексированных правил морфологического, синтаксического и семантического анализа для получения эквивалентных структур словосочетаний вопросительного предложения запроса и сохранения семантической связи между ними. Thus the equivalent transformation of the original user query is performed using synonyms, related words, and replacement of parts of speech and the sentence preserving semantic content of the original request on the basis of a stochastically indexed rules morphological, syntactical and semantic analysis to obtain equivalent structures interrogative sentence phrases query and save the semantic relationships between them.

Совокупность семантически связанных фрагментов текста, содержащих все слова запроса пользователя, формируют путем обращения по стохастическим индексам указанных основ слов к таблице индексов текстов по заданной теме, выбора стохастических индексов абзацев и соответствующих им текстов, содержащих в совокупности все словосочетания запроса, обращения по указанным индексам к таблице индексов каждого из выбранных текстов, логического вывода по таблицам индексов и эквивалентных преобразований текстов для образования стохастически инде The set of semantically related text fragments that contain all the words of the user query, formed by treatment of a stochastic index of said base words to the table on a given topic text index, selecting stochastic index paragraphs, and the corresponding text to them, containing a total of all combinations inquiry, request for said indices k index table each of the selected text, the inference from the tables and indexes equivalent transformations texts some other way to form a stochastically сированной семантической структуры, связывающей индексы группы слов ответа, соответствующего вопросительному словосочетанию запроса, а также все словосочетания запроса, определяющие семантику запроса и входящие в предварительно выбранные абзацы. pensate semantic structure linking group codes words response corresponding to an interrogative request phrase and all query phrase defining the semantics of the request and included in a pre-selected paragraph.

При этом успешно сформированная в процессе логического вывода стохастически индексированная семантическая структура, соответствующая запросу пользователя, принимается в качестве основы для формирования с использованием полученной совокупности фрагментов текста вопросительного предложения, идентичного запросу пользователя, которое образуют путем эквивалентного преобразования стохастических индексов основ слов запроса и их окончаний с помощью правил баз знаний для обеспечения требуемых семантических характеристик каждого слово The process successfully formed during inference stochastically indexed semantic structure corresponding to the user's request is accepted as the basis for the formation using the obtained plurality of pieces of text interrogative sentence, identical to user's request, which is formed by the equivalent conversion stochastic index-based query words and their terminations with using the rules of knowledge bases to provide the required semantic characteristics of each word сочетания текстового фрагмента, входящего в состав запроса, а также с использованием логического вывода на транзитивных зависимостях между словосочетаниями для объединения их в единое вопросительное предложение, идентичное запросу пользователя, которое содержит группу слов ответа, соответствующую вопросительному словосочетанию запроса. combining text fragment is part of the query, and using inference on transitive relationships between phrases for combining them into a single interrogative sentence, identical to user's request, which contains a group of words response corresponding interrogatory phrase query.

Корректность краткого ответа может быть обеспечена путем формирования нескольких идентичных стохастически индексированных семантических структур упомянутого ответа на основе различных, предварительно выбранных стохастически индексированных фрагментов текстовых документов. Correctness summary response may be provided by forming multiple identical stochastically indexed semantic structure of said response based on various preselected fragments stochastically indexed text documents.

В процессе поиска и формирования ответа с использованием таблиц индексов текстовых документов самообучение системы осуществляют путем формирования индексированных текстовых элементов, связывающих запрос и релевантный краткий ответ, для получения базы знаний, содержащей элементы типа "запрос-ответ", которую стохастически индексируют, представляют в виде таблицы индексов и применяют при грамматическом и семантическом анализе предложений текста, а также при формировании ответов на повторяющиеся запросы пользователей, содержащиеся в у In the search for and the formation response using the index tables of text documents self-learning system is carried out by forming the indexed text elements connecting request and the relevant short response for the knowledge base containing the elements of the type "request-response", which is stochastically indexed represent in tabular form indexes and is used for grammatical and semantic analysis of the proposed text, as well as the formation of the responses to repeated customer requests contained in at казанной индексированной базе знаний. It seemed indexed knowledge base.

При этом для формирования полного ответа, содержащего знания, релевантные запросу пользователя, на основе краткого ответа с помощью логического вывода по таблицам индексов, использованных при получении фрагмента текста, формируют стохастически индексированную семантическую структуру, связывающую группу слов ответа со стохастическими индексами основ слов предложений, поддерживающих транзитивную зависимость, обеспечивающую в своей совокупности полное раскрытие содержания краткого ответа в рамках сформированного фрагмента текста, з Thus to form the complete response containing knowledge relevant to the user's request, on the basis of a brief response via inference of the index table used in the preparation of a fragment of text, form a stochastically indexed semantic structure linking group Answer words with stochastic index-based word suggestions supporting transitive dependencies, providing in its totality the full disclosure of short answer within the generated text fragment, s атем с помощью эквивалентных преобразований предложений на основе указанной стохастически индексированной семантической структуры получают единый связанный текст полного ответа. Then, use of equivalent transformations proposals on the basis of said stochastically indexed semantic structure obtained single associated text complete response.

Эквивалентное преобразование стохастически индексированных фрагментов текста производят путем представления каждого предложения в виде совокупности стохастически индексированных словосочетаний, которые преобразуют с использованием правил баз знаний морфологического, синтаксического и семантического анализа путем эквивалентного преобразования стохастических индексов основ однокоренных слов, их окончаний и предлогов для образования новых частей речи или членов предложения с обеспечением неизменности связи указанных словосоче An equivalent transformation stochastically indexed text fragments produced by presentation of each sentence in the form of a plurality of stochastically indexed phrases are converted using knowledge bases morphological rules of syntactic and semantic analysis by equivalent conversion stochastic index-based single-root words and their endings and prepositions to form a new part of speech or of the sentence to ensure the stability of the connection of these slovosoche аний в рамках стохастически индексированной семантической структуры каждого предложения и согласования указанных предложений между собой при образовании из них нового фрагмента текста. REPRESENTATIONS within stochastically indexed semantic structure of each sentence and harmonization of these proposals with each other in the formation of these new text fragment.

При появлении в процессе стохастического индексирования текстовых документов в индексируемом тексте нового слова, не содержащегося в словаре стохастически индексированных слов и в лингвистических текстах, находят в данном словаре однокоренное слово с указанным новым словом, а в базе знаний морфологического анализа находят правила для эквивалентного преобразования найденного в словаре однокоренного слова в новое слово, при этом по виду эквивалентного преобразования определяют часть речи, к которой относится новое слово и все его сло When you are in the process of stochastic indexing text documents in the indexed text of a new word is not contained in the dictionary stochastically indexed words and linguistic texts found in the dictionary same root word with this new word, and in the knowledge base of the morphological analysis are rules for equivalent transformation found in root word dictionary in the new word, the equivalent of mind maps is determined by the part of speech to which the new word and all of its layers оформы, получаемые при склонении или спряжении, а при отсутствии однокоренных слов в словаре выбирают из текста определенный набор словоформ нового слова, по предлогам или окончаниям которых с помощью стохастически индексированного словаря или правил продукций морфологического анализа определяют часть речи, к которой оно относится, и полный набор его словоформ, получаемых при склонении или спряжении. Contents obtained by declination or conjugation, in the absence of cognate words in a dictionary is selected from the text of a specific set of word forms of the new word, by prepositions or endings which via a stochastically indexed dictionaries or production rules morphological analysis determines the part of speech to which it relates, and complete set his word forms obtained by declension or conjugation.

При этом для одновременного извлечения знаний из текстовых документов на заданных иностранных языках сначала осуществляют автоматическое обучение системы правилам морфологического, синтаксического, семантического анализа для заданного базового языка, производят формирование базы стохастически индексированного словаря и баз знаний морфологического, синтаксического, семантического анализа с использованием стохастически индексированных лингвистических текстов на заданном базовом языке, с помощью сформированных баз осуществляют Thus for simultaneous knowledge extraction from text documents to predetermined languages ​​is first performed an automatic training system rules morphological, syntactic, semantic analysis, for a given base language, produce formation base stochastically indexed dictionaries and knowledge bases of morphological, syntactic, semantic analysis using stochastically indexed linguistic texts on a given host language, with the help of the generated database is втоматическое формирование запросов для автоматического обучения системы любому из заданных иностранных языков, при этом производят предварительный выбор по автоматически сформированным запросам фрагментов лингвистических текстов на базовом языке, содержащих знания, необходимые для изучения заданного иностранного языка, эквивалентные преобразования указанных текстов, формирование стохастически индексируемых семантических структур и логический вывод на заданных структурах для формирования ответов, релевантных автоматическим з vtomaticheskoe querying for automatic learning system to any of the specified foreign language, in this case make a pre-selection by automatically generated requests linguistic fragments of texts in the base language, having the knowledge necessary for the study of a given foreign language equivalent conversion of these texts, the formation of a stochastically indexed semantic structures and inference on the given structures for generating responses relevant automatic h апросам, которые используют для формирования баз знаний морфологического, синтаксического и семантического анализа для любого из заданных иностранных языков, обеспечивающих извлечение знаний из текстовых документов на заданном иностранном языке. APROSAM that used to form the knowledge base of the morphological, syntactic and semantic analysis for any of the specified foreign languages, providing knowledge extraction from text documents in a given foreign language.

Краткое описание чертежей BRIEF DESCRIPTION OF DRAWINGS

Изобретение поясняется на примере, иллюстрируемом Фиг.1, где показана структурная схема интеллектуальной самообучающейся системы извлечения знаний из текстовых документов для поисковых систем; The invention is illustrated by the example shown Figure 1, there is shown a block diagram of intelligent self-learning system knowledge extraction from text documents for search engines; а также следующими таблицами: as well as the following tables:

Таблица 1- Фрейм предложения, Table 1 Frame suggestions

Таблица 2 - Индексы текста, Table 2 - Indices of the text,

Таблица 3 - Индексы текстов по данной теме. Table 3 - Indices of texts on the subject.

Предпочтительный вариант осуществления изобретения Preferred Embodiment

Ниже приведены определения терминов, используемых в настоящем описании. The following are definitions of terms used herein.

База знаний - один или несколько специальным образом организованных файлов, хранящих систематизированную совокупность понятий, правил и фактов, относящихся к некоторой предметной области. Knowledge Base - one or more specially organized files that store a systematic set of concepts, rules and facts pertaining to a certain subject area.

Вопросительное словосочетание - словосочетание с вопросительным местоимением или наречием в роли вопросительного слова, связанного с главным словом словосочетания (именем или глаголом). Interrogative phrase - a phrase with the interrogative pronoun or adverb as a question word, associated with the main word phrases (or the name of the verb).

Грамматический анализ - анализ морфологический и синтаксический. Grammatical analysis - morphological and syntactic analysis.

Знания - новая текстовая информация, не содержащаяся в явном виде в текстовых документах, которая автоматически формируется системой с использованием эквивалентных преобразований и логического вывода в виде ответа, релевантная запросу пользователя и направленная на решение его задач в соответствии с запросом. Knowledge - a new text message is not contained explicitly in text documents, which is automatically generated by the system with the use of equivalent transformations and logical deduction in the form of an answer relevant to the user query and aimed at solving its tasks in accordance with the request.

Лингвистические тексты - учебно-методические, научные, справочные (толковые словари, энциклопедии) и другие тексты, предназначенные для изучения данного языка. Linguistic - educational and methodical, scientific, reference (dictionaries, encyclopedias) and other texts intended for the study of the language.

Логический вывод - метод обработки знаний, имитирующий процесс рассуждений человека, который на основе отдельных языковых единиц позволяет синтезировать семантическую структуру с определенным смысловым содержанием. Inference - knowledge processing method for simulating the process of human reasoning, which is based on selected linguistic units allows the synthesis of the semantic structure with a particular semantic content.

Морфологический анализ - это разбор слов предложения для определения морфологического состава с последующим уточнением характеристик отдельных слов, относящихся к той или иной части речи, при этом вначале указываются постоянные морфологические признаки слова, не зависящие от его позиции в предложении, затем анализируется грамматическая форма слова, связанная с его склонением или спряжением. Morphological analysis - this analysis of words in the sentence to determine the morphological composition with subsequent specification of individual words characteristics related to one or another part of speech, the first specified constant morphological features of the word, does not depend on its position in the sentence, then analyzes the grammatical form of words related its declination or conjugation.

Основа слова - часть слова, выражающая его лексическое значение, при этом в склоняемых и спрягаемых словах имеются основа и окончание, а остальные слова содержат только основу. The basis of the word - of the word, expressing its lexical meaning, while in inflected words are the foundation and end, and the remaining words contain only the foundation.

Поисковая система - система, выполняющая автоматический поиск информации по ключевым словам, темам и т.д. Search system - a system that automatically searches for information by keywords, topics, etc.

Правила продукций - форма представления знаний в виде сложноподчиненного предложения "Если (условие), то (заключение)", в котором условие содержит различные словосочетания, включающие предикативные и другие виды отношений между объектами предметной области, объединенные логическими связками "и", а заключение содержит словосочетание или совокупность словосочетаний, определяющих семантическое следствие, которое истинно, или действие, которое активизируется, если истинны все словосочетания условия. Rules of production - a form of knowledge representation in the form of a complex sentence "If (condition) then (conclusion)" in which the condition includes various combinations, including predicative and other kinds of relations between domain objects, combined logical connectives "and", and shall contain the phrase or set of phrases that define semantic investigation, which is true, or the action that is activated when the conditions are true all phrases.

Релевантность - мера, определяющая, насколько полно тот или иной документ отвечает критериям, указанным в запросе пользователя. Relevance - a measure that determines how well a particular document meets the criteria specified in the user's request.

Семантическая структура - форма связи отдельных языковых единиц различных предложений с учетом видов отношений между ними, выражающая определенное смысловое содержание анализируемого текста. Semantic structure - form link the individual linguistic units of various kinds of proposals with the relationships between them, which expresses a certain semantic content of the analyzed text.

Семантический анализ - анализ смысла, значения отдельных языковых единиц: слов, словосочетаний предложения, их соотнесенности с определенными видами отношений между объектами предметной области и явлениями действительности. Semantic analysis - analysis of the meaning, the value of individual linguistic units: words, phrases, suggestions, and their correlation with certain types of relations between domain objects and phenomena of reality.

Синтаксический анализ - это разбор слов предложения для определения синтаксического состава с последующим уточнением характеристик отдельных слов, словосочетаний, их типов, форм связи между словами в словосочетании и предложении, строения предложений, структурных типов предложений. Parsing - a parsing words of the sentence to determine the syntactic structure subsequently clarified characteristics of individual words, phrases, and their types, shapes connections between words in a phrase and sentence structure offers, offers structural types.

Система искусственного интеллекта - программно-техническая система, содержащая в качестве основы подсистему логического вывода, базы знаний, а также в зависимости от класса другие программно-аппаратные средства искусственного интеллекта и предназначенная для поддержки интеллектуальной деятельности человека или его замены в ряде процессов управления. Artificial intelligence system - software and technical system, comprising, as a basis of inference subsystem, knowledge base, and depending on the class of the other software and hardware and artificial intelligence designed to support human intellectual activity or to replace it in a number of management processes.

Склонение слова - изменение существительных по падежам (для большинства имен и по числам), а для прилагательных и других согласуемых слов также по родам. Declination words - nouns change for case (for the majority of the names and numbers), and for adjectives and other words also negotiated for delivery.

Словосочетание - это синтаксическая единица, образующаяся соединением двух или более слов на основе подчинительной связи - согласования, управления или примыкания - и тех лексико-грамматических отношений, которые порождаются этой связью. The phrase - a syntactic unit, which is formed by joining two or more words based on subordinating connection - coordination, control or contiguity - and the lexical and grammatical relations that are generated by this link.

Словоформа - данное слово в данной грамматической форме. Word form - the word in the grammatical form.

Спряжение слова - изменение глагола по лицам, числам, временам и наклонениям, а в прошедшем времени и в сослагательном наклонении в единственном числе также по родам. Conjugation of words - to change the verb of persons, number, tense and mood, and in the past tense and the subjunctive mood in the singular also leave.

Эквивалентное преобразование - замена отдельных языковых единиц на другие с обеспечением их связи в рамках семантической структуры предложения или в определенной совокупности предложений текста, способных выражать то же смысловое содержание. Equivalent transformation - replacement of individual language units at others with their communication software within the semantic structure of a sentence or a certain set of sentences of text that can express the same semantic content.

Рассмотрим более подробно реализацию предложенного способа на примере построения и функционирования интеллектуальной самообучающейся системы извлечения знаний для поисковых систем (ИССИЗ), представленной на Фиг.1. Consider in more detail the implementation of the proposed method for the example of construction and operation of intelligent self-learning knowledge extraction system for search engines (ISSIZ) shown in Figure 1. Упомянутая стохастически индексированная система искусственного интеллекта включает: Said stochastically indexed artificial intelligence system includes:

- многоязычный лингвистический процессор (1); - multilingual linguistic processor (1);

- подсистему стохастического индексирования текстовых документов и выделения фрагментов текстов (2); - subsystem stochastic indexing text documents and highlight text fragments (2);

- подсистему управления режимом самообучения и извлечения знаний (3); - a subsystem control mode and the self-extracting knowledge (3);

- интерпретатор стохастически индексированных текстов и правил продукций (4); - interpreter stochastically indexed texts and production rules (4);

- подсистему эквивалентных преобразований текста (5); - subsystem of equivalent transformations of the text (5);

- подсистему логического вывода (6); - inference subsystem (6);

- базу данных стохастически индексированных словарей базового и новых слов (7); - database stochastically indexed dictionaries base and new words (7);

- базу стохастически индексированных лингвистических текстов (8); - database stochastically indexed linguistic texts (8);

- базу знаний "запрос-ответ" (9); - Knowledge base "request-response" (9);

- базу стохастически индексированных текстовых документов по заданным темам (10); - database stochastically indexed text documents on given topics (10);

- базу стохастически индексированных словарей иностранных слов (11); - database stochastically indexed dictionary of foreign words (11);

- базу знаний морфологического анализа (12); - the knowledge base of the morphological analysis (12);

- базу знаний синтаксического анализа (13); - knowledge base parsing (13);

- базу знаний семантического анализа (14); - knowledge base semantic analysis (14);

- базу стохастически индексированных словосочетаний (15). - database stochastically indexed word combinations (15).

Указанная система основана на использовании стохастического преобразования и индексирования символьной информации, формирования таблиц индексов правил продукций для управления режимом самообучения и индексов текстов. This system is based on a stochastic transformation and indexing character information, formation index tables productions rules for self-control mode and text indexes. Она обеспечивает доступ по стохастическим индексам к фрагментам текстовой информации, логический вывод и эквивалентные преобразования текста с использованием стохастически индексированных правил для извлечения знаний из выделенных фрагментов текста и представления их в формате правил продукций или в виде ответов на запросы пользователей. It provides access for stochastic index to the fragments of the text information, inference and equivalent text conversion using stochastically indexed rules for extracting knowledge from text selections and presenting them in the production rules format or as a response to user requests.

Создание ИССИЗ предполагает разработку механизма самообучения системы правилам морфологического, синтаксического и семантического анализа текстовой информации на основе лингвистических текстов. Creating ISSIZ involves the development of a system of self-learning mechanism of the rules of morphological, syntactic and semantic analysis of text information on the basis of linguistic texts. Указанные тексты содержат словари общеупотребительных слов, тематические словари, словари синонимов, толковые словари, учебно-методические тексты по грамматике заданных языков и др. These texts include dictionaries of common words, topical dictionaries, synonyms dictionaries, glossaries, educational texts grammar specified languages ​​etc..

Общение пользователя с системой осуществляется через многоязычный лингвистический процессор (1). user interaction with the system through multilingual linguistic processor (1). Он обеспечивает ввод запросов на естественном языке и выдачу ответов, формируемых системой. It provides input queries in natural language and issuing responses generated by the system. При этом обмен информации между пользователем и системой может осуществляться на заданных языках. In this case the exchange of information between the user and the system can be carried out at predetermined languages. Кроме этого лингвистический процессор (1) по команде подсистемы (3) управления режимом самообучения и извлечения знаний обеспечивает взаимодействие с подключенной к ИССИЗ поисковой системой. Additionally linguistic processor (1) by command subsystem (3) control mode and learning knowledge extraction provides interaction with ISSIZ connected to the search engine. Цель этого взаимодействия - ввод по запросу подсистемы (3) новых текстовых документов из поисковой системы на заданном языке по определенной теме для их последующей обработки. The purpose of this interaction - putting on request subsystem (3) new text documents from the search engine in a given language on a specific topic for further processing. Многоязычный лингвистический процессор (1) также обеспечивает ввод в систему лингвистических текстов на заданном языке в электронном виде. Multilingual linguistic processor (1) also provides input to the system of linguistic texts in a given language in electronic form.

Морфологический анализ лингвистических текстов и автоматическое обучение системы правилам морфологического анализа производят по команде подсистемы (3) управления режимом самообучения и извлечения знаний в процессе формирования базового словаря и записи его в базу данных (7) стохастически индексированных словарей базового и новых слов. Morphological analysis of linguistic texts, and automatic training system rules produce morphological analysis on command subsystem (3) control mode and learning knowledge extraction in the process of forming the base dictionary and write it in the data base (7) stochastically indexed dictionaries base and new words. Эти функции проводят одновременно с индексированием лингвистических текстов с помощью подсистемы (2) стохастического индексирования текстовых документов и выделения фрагментов текстов. These functions are performed simultaneously with the indexing of linguistic texts via the subsystem (2) of the stochastic text documents and indexing the selected text fragments.

Для формирования стохастически индексированного базового словаря используют словарь общеупотребительных слов в электронном виде, который вводят в систему через многоязычный лингвистический процессор (1) и определяют по заданным словоформам этого словаря часть речи каждого слова, его основу, и соответствующие наборы окончаний. For forming a stochastically indexed basic vocabulary dictionary of common words are used in electronic form, which is introduced into the system through multilingual linguistic processor (1) and determined according to specify the dictionary word forms part of speech of each word, its base and respective sets of terminals. Основу данного слова стохастически индексируют с помощью подсистемы (2) стохастического индексирования текстовых документов и выделения фрагментов текстов и записывают в базу данных (7) стохастически индексированных словарей базового и новых слов в таблицу стохастически индексированного базового словаря в столбец индексов основ слов. The basis of the words is stochastically indexed via the subsystem (2) of the stochastic text documents and indexing the selected text fragments and recorded in the database (7) stochastically indexed dictionaries base and new words in a table indexed by stochastically basic vocabulary in column indices bases words.

В результате описанной обработки слов указанного словаря в многоязычном лингвистическом процессоре (1) получают стохастические индексы основ всех слов и сами основы, а также определенный набор окончаний, которые заносят в базу данных (7) стохастически индексированных словарей базового и новых слов. As a result of the processing described in the dictionary of words of said multilingual linguistic processor (1) is prepared stochastic codes bases All the words themselves and bases, as well as a certain set of terminals that are entered into the database (7) stochastically indexed dictionaries base and new words.

Стохастически индексированный базовый словарь, записанный в базу данных (7) стохастически индексированных словарей базового и новых слов, имеет несколько форматов таблиц, каждая из которых соответствует определенной части речи. A stochastically indexed basic vocabulary recorded in a database (7) stochastically indexed dictionaries base and new words, has several formats of tables, each of which corresponds to a particular part of speech. В заголовке таблиц содержатся графы, включающие наименования морфологических характеристик (род, число, падеж, лицо, время и т.д.), а также вопросы, которые соответствуют словоформам данного слова, получаемым при его склонении или спряжении. The header contains tables, graphs, here including morphological characteristics (gender, number, case, person, time, etc.), as well as issues that match word forms of the word, obtainable by conjugation or its declination. При этом каждой основе соответствует строка, содержащая окончания указанных словоформ данного слова. Wherein each row corresponds to the basis, said closure comprising word forms of the word. Отметим, что в начале заполнения стохастически индексированного базового словаря, известно только несколько словоформ каждого слова, а именно те, которые приведены в словаре общеупотребительных слов. Note that at the beginning of filling stochastically indexed basic vocabulary, knows only a few words of each word forms, namely those listed in the dictionary of common words. Нахождение остальных словоформ и соответствующих им окончаний для заполнения таблиц стохастически индексированного базового словаря производят в режиме автоматического обучения системы правилам морфологического анализа после первоначального индексирования соответствующих лингвистических текстов. Finding the rest of word forms and their corresponding endings to fill tables stochastically indexed basic vocabulary is carried out in an automatic learning system rules morphological analysis after the initial indexing of relevant linguistic texts.

В основу этого механизма положено введение нового способа стохастической индексации текстовых документов, который реализуется в подсистеме (2) стохастического индексирования текстовых документов и выделения фрагментов текстов. The basis of this mechanism is necessary to introduce a new method for the stochastic text indexing documents, which is implemented in the subsystem (2) of the stochastic text documents and indexing the selected text fragments. Процедура базируется на функциях стохастического преобразования символьной информации и формирования стохастических индексов в виде уникальных двоичных комбинаций основ слов, предложений, абзацев и названий текстовых документов, включая библиографические данные. The procedure is based on the functions of the stochastic transformation of the character information and the formation of stochastic index as a unique binary combinations the basics of words, sentences, paragraphs, and text documents titles, including bibliographic data. При этом одновременно со стохастическим преобразованием символьной информации, формированием стохастических индексов {I ξi (u) } основ слов, предложений {I ξi (p) } , абзацев {I ξi (a) } и названия текста I ξi (t) , который находится в обработке, производится заполнение фреймов каждого предложения (Таблица 1) и формирование таблицы индексов данного текста (Таблица 2). Thus simultaneously with stochastic converting character information forming stochastic indexes {I ξi (u)} bases of words, sentences {I ξi (p)}, paragraphs {I ξi (a)} and name text I ξi (t), which is in processing carried filling frames each sentence (Table 1) and forming the text index table (Table 2).

Указанный фрейм (Таблица 1), который формируется в подсистеме (2) стохастического индексирования текстовых документов и выделения фрагментов текстов, содержит десять уровней (строк) слотов (ячеек). Said frame (Table 1) which is generated in the subsystem (2) of the stochastic text documents and indexing the selected text fragments comprises ten levels (rows) slots (cells). Эти уровни слотов заполняются в процессе стохастического индексирования текста, а также при выполнении морфологического, синтаксического и семантического анализа каждого предложения. These levels are filled slots in the stochastic text indexing, as well as in the performance of morphological, syntactic and semantic analysis of each proposal.

При стохастическом индексировании лингвистических текстов в слоты первого уровня записываются стохастические индексы основ слов {I ξij (u) } и их окончания. When stochastic language text indexing slots in a first-level stochastic codes recorded bases words {I ξij (u)} and their closure. Слоты второго уровня содержат слова в порядке следования в данном предложении с номером i. The slots contain the second level in the order of words in the sentence with i number. При этом предлоги, частицы, союзы и знаки препинания заносят в слоты тех слов, с которыми они связаны. At the same prepositions, particles, conjunctions and punctuation marks are entered into the slots of the words with which they are associated. Для заполнения слотов третьего уровня используются стохастические индексы основ слов {I ξij (u) } и их окончания, записанные в слоты первого уровня. To fill the slots used in the third level stochastic codes bases words {I ξij (u)} and their closure recorded in the slots of the first level.

По индексам основ слов производят доступ к строкам соответствующих таблиц стохастически индексированного базового словаря, поименованным идентичными индексами для определения части речи, к которой относится данное слово. By index-based access to the word lines produce respective tables stochastically indexed base vocabulary, the named identical indices to determine the part of speech to which this word belongs. Указанную информацию из базы данных (7) стохастически индексированных словарей базового и новых слов записывают в слоты третьего уровня фрейма предложения, соответствующие словам слотов второго уровня. This information from the database (7) stochastically indexed dictionaries base and new words written in the slots of the third level offers a frame corresponding to said slots of the second level.

Запись в слоты третьего уровня фрейма характеристик частей речи, а также заполнение слотов уровней с четвертого по десятый производят в процессе дальнейшего морфологического и синтаксического анализа текста, который осуществляют одновременно с обучением системы правилам морфологического и синтаксического анализа. An entry in the slots of the third frame performance level parts of speech, as well as the filling level of slots from fourth to tenth are produced in the process of further morphological and syntactic text analysis, which is performed simultaneously with the training system morphological rules and parse. Этот процесс будет рассмотрен ниже. This process will be discussed below.

На основе получения фреймов предложений текста с заполненными первыми четырьмя уровнями слотов в подсистеме (2) стохастического индексирования текстовых документов и выделения фрагментов текстов осуществляют формирование таблицы индексов данного текста. Based on receipt of frames proposals text with filled first four levels of slots in the subsystem (2) of the stochastic text documents and indexing text fragments allocation performed formation index table of the text.

Таблица 2 индексов текста представляет собой таблицу, строки которой поименованы стохастическими индексами {I ξi (u) } основ слов, столбцы обозначены индексами абзацев {I ξj (a) } в порядке их появления в тексте, а ячейки, расположенные на пересечении соответствующих столбцов и строк, содержат индексы списков {I ξij (s) } . Table 2 index text is a table whose rows are named stochastic indexes {I ξi (u)} bases words, the columns are designated indices paragraphs {I ξj (a)} in the order they appear in the text, and the cells located at the intersection of the respective column, and rows contain lists of indexes {I ξij (s)}. При этом сама информация, которая содержится в каждом списке, поименованная {I ξij (s) }, записана в отдельном файле и в общем случае должна включать следующие данные: Thus the information itself, which is contained in each list, a named {I ξij (s)}, recorded in a separate file, and in general should include the following information:

{I ξi (p) } - индекс предложения, в которое входит данное слово; {I ξi (p)} - the index of the proposal, which is part of the word;

N i (n) - номер предложения, в которое входит данное слово; N i (n) - number of proposals, which includes the word;

(u i u j ) - окончание, которое имеет данное слово в предложении (I ξi (p) N i (n) ) ; (u i u j) - end, which has a given word in the sentence (I ξi (p) N i (n));

I ξj-1 (u) - индекс предшествующего слова в предложении или абзаце текста, при этом, если I ξj (u) - первое слово в предложении (абзаце), то после индекса I ξj-1 (u) ставится точка. I ξj-1 (u) - the index of the previous word in a sentence or paragraph of text at the same time, if I ξj (u) - the first word in the sentence (paragraph), after the index I ξj-1 (u) a dot. I ξj-1 (u) может соответствовать слову, завершающему предыдущее предложение в рамках данного абзаца или предыдущего абзаца. I ξj-1 (u) may correspond to a word, completes the previous sentence within a paragraph of this or the previous paragraph. Если после I ξj-1 (u) ставится запятая, то это означает, что I ξj (u) может начинать причастный или деепричастный оборот, придаточное предложение или простое предложение в составе сложного; If after I ξj-1 (u) a comma, then it means that I ξj (u) can start the sacrament or verbal participle phrases, clause or simple sentence as part of a complex;

I ξ(j+1) (u) - индекс последующего слова в предложении, абзаце, тексте, при этом, если I ξ (j + 1) (u) - the index of the subsequent word in a sentence, a paragraph, the text at the same time, if

I ξj (u) - завершающее слово в предложении (абзаце), то перед I ξj-1 (u) ставится точка. I ξj (u) - the final word in the sentence (paragraph) before I ξj-1 (u) a dot.

I ξj-1 (u) может соответствовать слову, начинающему новое предложение данного абзаца или последующего абзаца. I ξj-1 (u) can match words that begin a new sentence of this paragraph or the subsequent paragraph. Если перед I ξj-1 (u) ставится запятая, то это означает, что I ξj (u) может завершать деепричастный, причастный обороты или простое предложение в составе сложного; If before I ξj-1 (u) a comma, then it means that I ξj (u) can terminate participial, participial or simple sentence as part of a complex;

I ξj (vu) - индекс вопроса к данному слову, как к члену предложения; I ξj (vu) - the index of the issue to the given word, as a member of the proposal;

I ξj (pu) - индекс наименования члена предложения, которому соответствует данное слово; I ξj (pu) - Index name of the sentence, which corresponds to the word;

I ξj (vpru) - индекс вопроса, которому соответствуют деепричастный, причастный обороты или придаточное предложение, которое начинает I ξj (u) ; I ξj (vpru) - the index of the issue, which correspond participial, participial phrase or clause that begins I ξj (u);

I ξj (pru) - индекс наименования члена предложения, которому соответствуют причастный, деепричастный обороты или придаточное предложение, начинающее I ξj (u) . I ξj (pru) - Index name of the sentence, which correspond to the sacrament, verbal participle phrases or subordinate clause, begins I ξj (u).

Указанные индексы и символы соответствуют слову с основой I ξi (u) в составе одного из предложений I ξj (p) абзаца I ξj (а) и имеют заданный формат, определяющий расположение индексов и символов в составе данной группы. The indices and symbols correspond to the base word I ξi (u) as a part of one of the proposals I ξj (p) paragraph I ξj (a) and have a predetermined format, which determines the location of the indices and symbols as part of the group. Если отдельные индексы отсутствуют, то вместо них на соответствующей позиции ставится знак "пробел". If the individual indexes are missing, instead the sign of the "gap" is placed on the corresponding position. Если данное слово I ξi (u) входит в n предложений {I ξi (p) } абзаца I ξi (a) , то указанных групп в составе списка также будет n . If the word I ξi (u) is included in the n proposals {I ξi (p)} paragraph I ξi (a), the said groups of the list will also be n.

Отметим, что первые шесть индексов списка I ξij (s) формируются в ходе стохастического индексирования текста. Note that the first list of six indices I ξij (s) are formed in the course of the stochastic text indexing. При этом по индексу I ξi (u) основы путем обращения к стохастически индексированному базовому словарю всегда можно определить, к какой части речи относится указанное слово. In this case, the index I ξi (u) a basis by reference to a stochastically indexed basic vocabulary is always possible to determine which part of speech applies to the specified word. Остальные данные списка I ξij (s) определяются после заполнения уровней четыре-десять фреймов предложений текста в процессе дальнейшего морфологического и синтаксического разбора, которые реализуются одновременно с самообучением системы правилам грамматического анализа предложений. Other data list I ξij (s) determined after filling levels four to ten frames sentences of text in the further morphological and syntactic analysis which are realized at the same time with self-learning system rules of grammatical analysis of sentences.

После стохастического индексирования всех лингвистических текстов, включая тексты, содержащие описания грамматического разбора предложений, их записывают в базу (8) стохастически индексированных лингвистических текстов и переходят к формированию правил морфологического анализа текста одновременно с заполнением базы данных (7) стохастически индексированных словарей базового и новых слов. After a stochastic index all linguistic texts, including texts containing descriptions of parsing sentences, they are recorded in the base (8) is stochastically indexed linguistic texts and go to the formation of the rules of the morphological analysis of the text at the same time filling a database (7) stochastically indexed dictionaries base and new words .

С этой целью из каждой таблицы стохастически индексированного базового словаря, которая содержит основы слов, относящихся к данной части речи, выбирают стохастический индекс основы каждого слова и заданного набора его окончаний или предлогов. For this purpose each table of a stochastically indexed base dictionary which contains bases of words relating to a given part of speech, a stochastic index selected bases of each word and a given set of its endings or prepositions. Затем осуществляют произвольный доступ по указанным индексам к базе (8) стохастически индексированных лингвистических текстов для выделения из них фрагментов, связывающих индекс части речи и указанный набор окончаний слова или предлогов с соответствующими данной части речи полным набором окончаний, предлогов или вопросов, получаемых при склонении или спряжении. Then, the random access on these indices to the base (8) stochastically indexed linguistic texts for the isolation of these fragments binding index part of speech and said set of word endings or prepositions with respective given part of speech full set endings, prepositions or matters obtained by declination or conjugation. После этого данный фрагмент текста поступает в интерпретатор (4) стохастически индексированных текстов и правил продукций, в котором формируют стохастически индексированную семантическую структуру в виде совокупности словосочетаний каждого предложения, входящего в данный фрагмент: Thereafter, active text fragment enters the shell (4) stochastically indexed text and production rules, wherein forming a stochastically indexed semantic structure as a set of phrases of each sentence included in the fragment:

Figure 00000002

где I ξi (u) I ξj (u) - стохастические индексы соответственно главного и зависимого основ слов данного словосочетания, I ξi (r) I ξj (r) - стохастические индексы частей речи главного и зависимого слов указанного словосочетания, I ξi (z) I ξj (z) - стохастические индексы соответственно морфологических характеристик частей речи главного и зависимого слов данного словосочетания, а знак → определяет связь между главным и зависимым словами данного словосочетания. where I ξi (u) I ξj ( u) - stochastic codes respectively the main and dependent bases words of the phrase, I ξi (r) I ξj (r) - stochastic codes parts of speech main and dependent words of said phrase, I ξi (z) I ξj (z) - stochastic codes respectively the morphological characteristics of the main parts of speech of words and phrases dependent, and the symbol → defines the relationship between the main and dependent words of the phrase.

Основным связующим звеном каждой стохастически индексированной семантической структуры, представленной выражением (1), является глагол, который определяет семантику связей внутри данной структурной схемы. Each main link stochastically indexed semantic structure represented by expression (1) is a verb which defines the semantics of the links within the block diagram. Связь между различными стохастически индексированными семантическими структурами (1), входящими в разные предложения, осуществляется при наличии в них идентичных словосочетаний, их синонимов, повторения главных слов или применения во втором предложении местоимения, соответствующего одному из словосочетаний первого предложения, а также местоимения в сочетании с главным словом. Communication between a stochastically indexed semantic structure (1) comprising the various proposals made in the presence of these identical phrases and their synonyms, repetition mots or application in the second sentence pronouns corresponding one of word combinations of the first sentence, and pronouns in combination with main word. В соответствии с этим находят предложения или части предложений, в которых стохастически индексированная семантическая структура, содержащая индексированные исходные данные запроса, соответствующим образом связана со стохастически индексированной семантической структурой с индексированными данными ответа. In accordance with this finding sentences or parts of sentences in which stochastically indexed semantic structure comprising indexed original request data accordingly associated with a stochastically indexed semantic structure with indexed data response. При этом для определения семантики глаголов производят обращение по стохастическим индексам их основ к базе (8) стохастически индексированных лингвистических текстов для доступа к таблицам индексов словарей синонимов. In order to determine the semantics of verbs accessed by stochastic indices of their bases to the base (8) is stochastically indexed linguistic texts to access the index table synonym dictionaries.

Если первая и вторая структурные схемы связаны между собой словосочетанием, содержащим определяемую часть речи, а значения глаголов, связанные с данной частью речи, идентичны или синонимичны глаголам запроса и предполагаемого ответа, то указанные структурные схемы поступают в подсистему (5) эквивалентных преобразований текста. If the first and second structural diagrams linked phrase comprising a defined part of speech and meaning of verbs associated with this part of speech, identical or synonymous Request verbs and the intended response, the specified block diagrams arrive in the area (5) equivalent transformations text. В подсистеме (5) производится преобразование двух указанных семантических структурных схем в единую стохастически индексированную семантическую структуру правила продукций, которая содержит условие, включающее запрос, и заключение (ответ). In subsystem (5) is made of said two semantic conversion circuits into a single structural stochastically indexed semantic structure Product rules, which includes a condition that includes a query and a conclusion (replies). Указанная стохастически индексированная семантическая структура имеет в общем случае следующий вид: Said stochastically indexed semantic structure generally has the following form:

Figure 00000003

Figure 00000004

где I ξi (su) - является стохастическим индексом соответствующего словосочетания where I ξi (su) - is stochastic index corresponding phrases

I ξi (su) : (I ξi (u) I ξi (r) I ξi (z) ) → (I ξj (su) (I ξj (r) (I ξj (z) ) из выражения (1), а секвенция ⇒ истолковывается в обычном логическом смысле как знак логического следования заключения, находящегося в правой части выражения (2), из условия в левой части выражения (2), если все словосочетания условия являются истинными (соответствуют исходным данным запроса). Отметим, что корректность каждого правила обеспечивается при этом путем независимого формирования описанным выше порядком идентичных стохастически индексированных семантических структур (2) на основе не I ξi (su): (I ξi (u) I ξi (r) I ξi (z)) → (I ξj (su) (I ξj (r) (I ξj (z)) from the expression (1), and sequent ⇒ interpreted in the usual logical sense as the sign of logical inference to sign located on the right side of the expression (2), from the condition at the left side of the expression (2) if all combinations conditions are true (corresponding to the original request information). note that the correctness of each wherein the rules provided by independently forming procedure identical stochastically indexed semantic structure (2) described above on the basis of not скольких фрагментов из соответствующих лингвистических текстов. How many pieces of relevant linguistic texts.

Каждое правило продукций, сформированное в подсистеме (5) эквивалентных преобразований в виде выражения (2), поступает в интерпретатор (4) стохастически индексированного текста и правил продукций, где осуществляют преобразование данного выражения (2) в текстовый формат правил продукций, представленный в виде "Если (условие), то (заключение)". Each rule Product formed in the partition (5) equivalent transformations of expressions (2), enters the shell (4) stochastically indexed text and production rules, which realize the transformation of the expression (2) into a text format production rules, represented as " if (condition) then (conclusion). " Полученное правило в индексированном виде поступает в базу знаний (11) морфологического анализа. It received generally in the form of an indexed fed into the knowledge base (11) of the morphological analysis. Порядок синтеза баз знаний, содержащих стохастически индексированные правила, будет описан ниже. Procedure for synthesis of knowledge bases containing stochastically indexed rules will be described below.

При формировании правил морфологического анализа текста одновременно с заполнением базы данных (7) стохастически индексированных словарей базового и новых слов первая стохастически индексированная семантическая структура (1) (структурная схема) содержит стохастические индексы основы слова, обозначающие часть речи и заданный набор его окончаний или предлогов. In the formation of the rules of the morphological analysis of the text at the same time filling the database (7) stochastically indexed dictionaries base and new words first stochastically indexed semantic structure (1) (block diagram) contains the stochastic index, the words denoting the part of speech and a predetermined set of his endings or prepositions. Вторая структурная схема (1) связывается с первой через идентичный индекс части речи и определяет полный набор окончаний, предлогов, вопросов, получаемых при склонении или спряжении данной части речи. The second block diagram (1) binds to the first identical to the index through the parts of speech, and defines a complete set of endings, prepositions, questions, received at the declension or conjugation of the parts of speech.

Путем обращения описанным выше порядком к таблицам индексов словарей синонимов, соответствующих лингвистическим текстам базы (8) стохастически индексированных лингвистических текстов, определяют соответствие семантики глаголов первой и второй семантических структур запросу и предполагаемому ответу. Described above by referring to the order table index dictionary of synonyms corresponding linguistic database (8) stochastically indexed linguistic texts matching semantics define first and second verbs semantic structures request and the intended response. Затем определяют словосочетание, связывающее первую и вторую структуры. Phrase is then determined, first and second connecting structures. При положительном результате две части указанного фрагмента текста поступают в подсистему (5) эквивалентных преобразований текста, затем в интерпретатор (4) стохастически индексированных текстов и правил продукций. If a positive result, the two parts of said section of text received in the area (5) the equivalent transformation of the text, then the interpreter (4) stochastically indexed text and production rules. В результате осуществляют преобразование данного фрагмента в формат правил продукций, представленный в виде "Если (условие), то (заключение)". As a result of this conversion is carried out in productions fragment format rules presented in the form of "If (condition), then (conclusion)." При этом в условие правила входят индексы словосочетаний, связывающих часть речи и заданный набор окончаний слова или предлогов, расположенных в формате словаря и определяющих изменения словоформы при склонении или спряжении данного слова. In this case, the rule condition includes indexes phrases linking part of speech and a predetermined set of endings of words or prepositions, located in a dictionary format and determine if changes in word form declination or conjugation of the word. Заключение содержит полный набор окончаний, предлогов и вопросов, получаемых при склонении или спряжении данного слова как соответствующей части речи. Conclusion contains a complete set of endings, prepositions and questions received during the declension or conjugation of the words as parts of speech. Сформированное правило продукций записывают в базу знаний (11) морфологического анализа. Product Formed generally recorded in the knowledge base (11) of the morphological analysis. После завершения формирования правил, определяющих части речи, по команде подсистемы (3) управления режимом самообучения и извлечения знаний переходят к синтезу правил эквивалентных преобразований однокоренных слов. After completion of rules defining parts of speech, on command subsystem (3) self-control mode and proceeds to retrieve knowledge synthesis rules equivalent transformations cognate words. Здесь используется предварительно записанное в базу знаний (11) морфологического анализа общее правило преобразования частей речи, основанное на применении таблиц стохастически индексированного базового словаря и выборе соответствующих фрагментов лингвистических текстов, которые описывают порядок образования одной части речи на базе другой однокоренной части речи: There is used a pre-recorded in the knowledge base (11) of the morphological analysis general rule conversion parts of speech based on the use of base tables stochastically indexed dictionaries and the selection of appropriate fragments linguistic texts which describe the procedure for forming one part of speech based on a different part of speech cognate:

" Если требуется преобразовать одну часть речи в другую, "If you need to convert one part of speech to another,

то сначала выделяем основу первой части речи, you must first select the basis of the first part of the speech,

обращаемся к формату стохастически индексированного базового словаря, format address to a stochastically indexed basic vocabulary,

ищем вторую часть речи, основа которой имеет общую часть, включающую корень (возможно два, возможно с приставкой, возможно с чередованием, добавлением, исключением отдельных гласных или согласных), с основой первой части речи, We are looking for a second part of the speech, which has a total base portion comprising a root (possibly two, possibly with prefix, possibly alternately, by the addition, except for some vowels or consonants), with the base of the first part of speech,

после выделения корня, используя основу этих частей речи, выделяем их суффиксы, After isolation of the root, using the basis of the parts of speech, we distinguish their suffixes

затем, путем обращения по стохастическим индексам основ слов частей речи к таблицам индексов лингвистических текстов выбираем фрагмент, в котором описан соответствующий способ преобразования одной части речи в другую, и проверяем по формату словаря, каким способом образована основа второй части речи по отношению к основе первой (заменой, отбрасыванием, прибавлением суффиксов), followed by treatment of the stochastic index-based word speech units to the tables of linguistic texts indices select fragment which describes a corresponding method for converting one part of speech to another, and check on the format of the dictionary, which way is formed the basis of the second part of speech with respect to the first base ( replacing, discarding, by adding suffixes)

далее определяем, соответствует ли данный способ замены части речи требуемому способу образования второй части речи из первой части речи, further determines whether the method for replacing parts of speech required a method for forming the second part of speech of the first part of speech,

в положительном случае принимаем вторую часть речи в качестве вновь образованной". in the positive case, we accept the second part of speech as the newly formed. "

В процессе преобразования конкретных слов с использованием общего правила на его основе формируется соответствующее частное правило с указанием преобразуемых частей речи, суффиксов и способа образования одной части речи из другой. In the process of converting specific words using a general rule based on it is formed the corresponding private rule specifying parts of speech to be converted, suffixes and method for forming one part of speech from another. Это происходит в интерпретаторе (4) стохастически индексированных текстов и правил продукций и в подсистеме (5) эквивалентных преобразований текста. This occurs in the shell (4) is stochastically indexed texts and production rules in the area (5) equivalent transformations of the text. Описанным выше порядком осуществляют преобразование данного фрагмента сначала в единую стохастически индексированную семантическую структуру правила продукций (2), а затем в формат правил продукций, представленный в виде "Если (условие), то (заключение)". The above-described procedure is carried out conversion of the first fragment in a single stochastically indexed semantic structure rules Product (2) and then in the production rules format shown in the form of "If (condition), then (conclusion)." Эти правила после стохастического индексирования заносятся в базу знаний (11) морфологического анализа. These rules, after the stochastic index recorded in the knowledge base (11) of the morphological analysis.

Если при индексировании очередного текстового документа появляется новое слово, основа которого не содержится в базовом словаре, то переходят к процедуре определения части речи нового слова и его окончаний при склонении или спряжении. If indexing another text document there is a new word, the basis of which is not contained in the basic dictionary, then go to the procedure for the determination of the question of a new word and its endings with declension or conjugation.

Для начала процесса определения, к какой части речи относится новое слово, выделяют из текста не менее двух различных словоформ этого слова, путем их сравнения определяют неизменяемую часть, которая предположительно является основой нового слова, и его окончание. To begin the process of determining what part of speech applies a new word, isolated from the text of at least two different word forms of the word, by comparing them to define an immutable part, which presumably is the basis of a new word, and its end. После этого определяют, есть ли в формате базового словаря слова, имеющие общий корень (возможно с приставкой) с новым словом. Thereafter, it is determined whether there is a basic dictionary format words having the same root (possibly with prefix) with a new word. Корнем является общая, нечленимая часть основ родственных слов (содержащая не менее двух букв, включая одну гласную), которую при добавлении приставок, суффиксов и окончаний используют для образования однокоренных частей речи. The root is the general, bases nechlenimaya part related words (comprising at least two letters including one vowel), which upon addition of prefixes, suffixes and endings are used to form one root parts of speech. В соответствии с этим выделение общего корня производят путем сравнения основы нового слова и основ слов из формата базового словаря до тех пор, пока не найдут общую неделимую часть двух сравниваемых основ - нового слова и очередного слова из базового словаря. In accordance with the allocation of a common root is performed by comparing the foundations of a new word, and the foundations of the words of the basic vocabulary format as long as they find a common and indivisible part of the two compared the basics - a new word and the next word of the basic vocabulary.

После этого производят обращение к базе знаний (12) морфологического анализа для выбора правила, позволяющего определить, к какой части речи относится новое слово. After that, make an appeal to the knowledge base (12) of the morphological analysis to select the rules for determining which part of speech applies a new word. С этой целью используют соответствующее правило эквивалентных преобразований. For this purpose, use appropriate rule equivalent transformations.

Чтобы использовать правила эквивалентных преобразований для определения части речи нового слова, полагают, что вторая часть речи в общем правиле эквивалентных преобразований, приведенном выше, относится к новому слову и является неизвестной, при этом первая часть речи, имеющая с ним общий корень, найдена в базовом словаре и поэтому известна. To use rules equivalent transformations to determine the part of speech of a new word, it is believed that the second part of the speech in the general rule of equivalent transformations above, refers to the new word is unknown, the first part of the speech, having with him a common root, found in the base dictionary and therefore known. Затем проверяют, возможно ли с помощью преобразований, описанных в правиле, получить из основы известной части речи основу нового слова, часть речи которого неизвестна. Then check whether it is possible with the help of the transformations described in the rule, get out of the base of the famous speech of the foundation of a new word, part of speech which is unknown. При этом используется семейство конкретных правил, полученных на основе общего правила и содержащихся в базе знаний (12) морфологического анализа, которые позволяют преобразовать известную (первую) часть речи в другие части речи. It uses a family of specific rules derived from a general rule, contained in the knowledge base (12) of the morphological analysis, which allows to convert a certain (first) part of speech in other parts of speech. Если в результате использования одного из правил удастся получить основу нового слова, то часть речи, к которой оно относится, станет известной - оно будет соответствовать второй части речи, указанной в правиле. If as a result of the use of one of the rules will be able to get the foundation of a new word, part of speech to which it relates will be known - it will meet the second part of speech specified in the rule. При этом с использованием правил продукций базы знаний (12) морфологического анализа можно более подробно определить характеристики каждой части речи. Thus using Product knowledge base rules (12), a morphological analysis can be more fully determine the characteristics of each part of speech. Например, если при морфологическом анализе текстов на русском языке правила базы знаний (12) морфологического анализа позволяют определить не только часть речи нового слова, но и окончание имени (сущ., прил.) в им.п., ед.ч., то, следовательно, они дают возможность уточнить, к какому типу склонения (1, 2, 3) относится новое слово. For example, if the morphological analysis of texts in Russian rules of the knowledge base (12) of the morphological analysis can determine not only the part of speech of a new word, but also the end of the name (n., Adj.) In im.p., singular, then therefore, they allow to specify which type of declination (1, 2, 3) is a new word. Для имен существительных, прилагательных, порядковых числительных, некоторых видов местоимений, а также причастий это позволяет точно определить полный набор их окончаний, получаемых при склонении. For nouns, adjectives, ordinal numbers, some types of pronouns and participles it allows you to accurately determine the full range of their endings, obtained by the decline. В данном случае для указанных частей речи достаточно найти в формате словаря соответствующее им слово, имеющее в им.п. In this case, for these parts of speech enough to find the corresponding word in the dictionary format is available in im.p. ед.ч. Singular такое же окончание, как в новом слове. the same ending as a new word. Полный набор окончаний указанных частей речи будет соответствовать набору окончаний нового слова, которые записывают в формат словаря новых слов вместе с его основой. A complete set of the endings of these parts of speech will correspond to the set of a new word endings that are written in the format of the dictionary of new words, along with its foundation. После этого формируют стохастический индекс основы, а все полученные характеристики нового слова записывают в формат словаря новых слов. Thereafter, the stochastic index-based, and all received characteristics of the new words recorded in the dictionary of new words format.

Если новое слово является глаголом, то после выделения его основы описанным выше порядком и обращения к базе знаний (12) морфологического анализа с помощью соответствующего правила определяют его часть речи и находят инфинитив. If a new word is a verb, then after separating its base as described above and the order of treatment to the knowledge base (12) morphological analysis with the appropriate rules determine the part of speech and find the infinitive. По суффиксу данного инфинитива (-ть или -ти), обращаясь к формату базового словаря, находят глагол, который имеет в неопределенной форме такой же суффикс (-ть или -ти). Suffix of the infinitive (or ti -t), referring to the format of the basic vocabulary, are verb infinitive form has the same suffix (or ti -t). При этом полный набор окончаний данного глагола, полученных после его спряжения и записанных в формате словаря, предположительно выбирают в качестве полного набора окончаний нового глагола. In this case, a full set of verb endings, obtained after conjugation and recorded in a dictionary format, presumably chosen as the new full set of verb endings. Для более точного определения, к какому типу спряжения (1, 2) относится данный глагол и, соответственно, для уточнения полного набора его окончаний в процессе индексирования текста находят предложение, в котором данный глагол представлен в форме 3-его л. For a more accurate determination of what type of conjugation (1, 2) is active and a verb, respectively, to update its full set of terminals in the indexing process are text sentence in which the active form of the verb is represented in the third liter. мн.ч. pl Для этого находят предложение, в котором есть подлежащее, выраженное существительным (местоимением) во мн.ч., которое координирует со сказуемым, выраженным данным глаголом с личным окончанием -ут/-ют (1 спряжение) или -ат/-ят (2 спряжение). To find this proposal which is the subject expressed a noun (pronoun) in the plural, which coordinates with the predicate expressed with personal data verb ending Ym / -yut (1 conjugations) or -AT / -yat (2 conjugations ). По личному окончанию отмеченного глагола в формате базового словаря находят глагол, имеющий идентичное с ним окончание в 3-ем л. By the end of the marked personal verb in the basic vocabulary are verb format having identical with it end at the 3rd l. мн.ч. pl При этом полный набор окончаний данного глагола принимают в качестве полного набора окончаний нового глагола и записывают вместе с его основой в формат словаря новых слов. In this case, a full set of verb endings accepted as a full set of new verb endings and recorded together with its basis in the dictionary of new words format. После получения стохастического индекса основы нового глагола всю указанную информацию записывают в формат словаря новых слов. After receiving the stochastic index foundations of a new verb All this information is recorded in the dictionary of new words format.

В процессе индексирования текста при появлении различных словоформ новых слов, не содержащихся в базе данных (7) стохастически индексированных словарей базового и новых слов, путем сравнения указанных словоформ в подсистеме (2) стохастического индексирования текстовых документов и выделения фрагментов текстов осуществляют выделение основы нового слова и определенного набора его окончаний. During indexing of the text the appearance of the various word forms new words that are not contained in the database (7) stochastically indexed dictionaries base and new word by comparing said word forms in the subsystem (2) stochastic indexing text documents and isolating fragments of texts carried selection basis of a new word, and a specific set of his endings. Затем формируют стохастический индекс основы нового слова и вместе с его окончаниями заносят в формат словаря новых слов базы данных (7) стохастически индексированных словарей базового и новых слов. Then form the basis for a new stochastic index words and with his endings are entered in the format of a dictionary of new words database (7) stochastically indexed dictionaries base and new words. После обработки заданного набора словоформ данного слова и соответственно заполнения формата словаря с различными видами его окончаний производят обращение к таблице индексированного базового словаря. After treatment with a specified set of words and word forms, respectively filling the dictionary format with various kinds of its endings to produce a treatment table indexed basic vocabulary. Данный словарь после заполнения содержит индексы и основы общеупотребительных слов, а также все виды окончаний различных частей речи и их типов, относящихся к данному слову, которые получены при его склонении или спряжении с указанием характеристик частей речи. This dictionary after filling contains codes and basis of common words as well as all kinds of terminations of various parts of speech and their types within the given word, which are obtained in its declination or conjugation specifying parts of speech characteristics. Запрос к словарю содержит стохастический индекс основы данного слова, саму основу, а также все виды окончаний, которые имели словоформы этого слова при обработке текстовых документов. Request to the dictionary contains a stochastic index bases of the word, the very foundation, as well as all kinds of endings that have word forms of the word in the processing of text documents. В базе данных (7) стохастически индексированных словарей базового и новых слов по окончаниям данного слова, используя формат словаря, находится слово, имеющее такие же окончания среди полного набора окончаний. In the database (7) stochastically indexed dictionaries base and new words in the word endings, using the format of the dictionary is a word that has the same among the complete set of closure endings. Это означает, что новое слово относится к такой же части речи, как и слово в словаре, имеющее идентичные окончания. This means that a new word refers to the same part of speech as the word in the dictionary, has identical end. После определения части речи, к которой относится новое слово, всю информацию, входящую в запрос, заносят в словарь новых слов в установленном формате. After determining the parts of speech, to which the new word, all the information included in the request, are entered in the dictionary of new words in the prescribed format. Одновременно с этим в интерпретаторе (4) стохастически индексированных текстов и правил продукций и в подсистеме (5) эквивалентных преобразований текста описанным выше порядком осуществляют преобразование данного фрагмента сначала в единую стохастически индексированную семантическую структуру (2) правила продукций, а затем в формат правил продукций, представленный в виде "Если (условие), то (заключение)". Simultaneously, the shell (4) stochastically indexed text and production rules and a subsystem (5) equivalent transformations text above procedure is carried out conversion of the fragment initially into a single stochastically indexed semantic structure (2) production rules and then Product rules format presented in the form of "If (condition) then (conclusion)."

В результате формируется правило продукций, в условие которого входит заданный набор окончаний данного слова, а заключение содержит наименование части речи данного слова, имеющего приведенные в условии окончания, а также расположенный в формате словаря полный набор окончаний, которые определяют изменения словоформы при склонении или спряжении данного слова. The result is a production rule, a condition which includes a predetermined set of the endings of words, and it shall contain the name of the part of speech of the word having given in condition closure and located in the dictionary format full set endings that detect changes word form when declination or conjugation of the words. Кроме этого в заключении содержатся вопросы к словоформам данной части речи при ее склонении или спряжении, которые расположены в порядке, определяемом форматом словаря. In addition, in the conclusion contained questions to the word forms of the parts of speech in its declension or conjugation, which are arranged in the order determined by a dictionary format.

Таким образом, в процессе обработки текстов, содержащих новые слова, которые представлены в своих различных словоформах, производится автоматическое определение их части речи, заполнение формата словаря новых слов в базе данных (7) стохастически индексированных словарей базового и новых слов, а также обучение системы правилам морфологического анализа. Thus, in the processing of texts containing the new words are presented in their various word forms, is automatic determination of their parts of speech format to fill a dictionary of new words in the database (7) stochastically indexed dictionaries base and new words, as well as the rules of the system training morphological analysis. Эти правила заносятся в базу знаний (12) морфологического анализа. These rules entered into the knowledge base (12) of the morphological analysis. По мере заполнения базы знаний (12) и ее стохастического индексирования описанным ниже порядком она наряду с форматом стохастически индексированного базового словаря используется для определения, к какой части речи относится новое слово и его характеристики, если оно не содержится в формате словаря новых слов. As you fill the knowledge base (12) and its stochastic index procedure described below is in addition to the format stochastically indexed basic vocabulary is used to determine what part of speech applies a new word and its characteristics, if not contained in the format of a dictionary of new words.

После завершения морфологического анализа и стохастического индексирования лингвистических текстов, формирования базы знаний (12) морфологического анализа, базы (8) стохастически индексированных лингвистических текстов, а также базы (7) стохастически индексированных словарей базового и новых слов переходят к стохастическому индексированию текстов по заданной теме с одновременным автоматическим обучением системы правилам синтаксического анализа. After completion of the morphological analysis and the stochastic index of linguistic texts, building a knowledge base (12) of the morphological analysis, the base (8) stochastically indexed linguistic texts, as well as the base (7) stochastically indexed dictionaries base and new words are transferred to the stochastic text indexing on a given topic with simultaneous automatic learning system parsing rules.

Автоматическое обучение системы правилам синтаксического анализа осуществляется по команде подсистемы (3) управления режимом самообучения и извлечения знаний путем поиска в базе (8) стохастически индексированных лингвистических текстов фрагментов, определяющего порядок синтаксического разбора предложений. Automatic learning system parsing rules implemented on command subsystem (3) self-control mode and retrieval by searching the knowledge base (8) stochastically indexed linguistic text fragments defining the order of parsing sentences. Сначала описанным выше порядком производят преобразование данных фрагментов в набор стохастически индексированных семантических структур правил продукций, имеющих в общем случае вид выражения (2). First, the procedure described above produce transformation data into a set of fragments stochastically indexed semantic structure production rules having the general form of the expression (2).

После этого в подсистеме (6) логического вывода с использованием полученных стохастически индексированных семантических структур (2) правил продукций, которые описывают порядок синтаксического разбора предложений, реализуется логический вывод для получения стохастически индексированных семантических структур новых правил продукций. Thereafter, the subsystem (6) inference using the derived stochastically indexed semantic structures (2) production rules that describe how to parse sentences implemented inference for stochastically indexed semantic structures of new production rules. Эти семантические структуры связывают синтаксические элементы с заданными частями речи при формировании правил продукций, определяющих синтаксический разбор предложений по морфологическим характеристикам слов. These semantic structure bind syntax elements with specified parts of speech in the formation of productions rules defining parse proposals on morphological characteristics of words. Полученные правила заносят в базу знаний (12) синтаксического анализа, по мере заполнения которой происходит ее стохастическое индексирование и представление в виде таблицы индекса. The resulting rules are entered into the knowledge base (12) parsing, as filling takes place which its stochastic index, and represented as a table index.

Как было отмечено выше, проведение синтаксического разбора текста начинается с определения порядка его реализации, который описан в учебно-методических текстовых документах по грамматике данного языка. As noted above, conducting parsing the text begins with the definition of the procedure for its implementation, which is described in the educational text documents grammar of the language. При этом для извлечения из указанных текстов знаний, определяющих порядок синтаксического разбора, подсистемой (3) управления режимом самообучения и извлечения знаний первоначально формируется запрос к базе (8) стохастически индексированных лингвистических текстов для доступа к таблицам индексов учебно-методических текстов. Thus for recovery of said knowledge texts, determining the order of parsing subsystem (3) control mode and learning knowledge extraction initially formed request to the base (8) stochastically indexed linguistic texts to access tables of indices teaching texts. По этому запросу, содержащему фразу "Порядок синтаксического разбора" на данном языке, в указанных текстах будут найдены абзацы, которые включают данную фразу и термины, определяющие последовательность проведения данного разбора. For this query containing the phrase "order of parsing" in this language, in the specified text in the paragraph will be found which include this phrase and terms determined by the sequence of this analysis.

После обработки описанным выше порядком фрагмента текста, полученного из соответствующих учебно-методических изданий, для русского языка, например, может быть сформировано следующее правило продукций: "Если необходимо провести синтаксический разбор предложения, то его порядок будет следующим: словосочетание (сочинительная или подчинительная связь), простое предложение (подлежащее, сказуемое, определение, дополнение, обстоятельство), вид простого предложения (повествовательное, вопросительное, побудительное), строение предложения (дву After processing the above described procedure text fragment obtained from the corresponding teaching publications, for the Russian language, for example, can be formed by the following production rules: "If necessary to parse the sentence, its procedure is as follows: the phrase (coordinative or subordinate connection) simple sentence (subject, predicate, define, supplement, circumstance), the kind of simple sentences (declarative, interrogative, motive), the structure of supply (two- составное или односоставное, нераспространенное или распространенное), сказуемое (простое, составное глагольное, составное именное), предложение с однородными членами, предложение с обособленными членами, предложение с прямой речью, сложносочиненное предложение, сложноподчиненное предложение с одним придаточным, сложноподчиненное предложение с несколькими придаточными, бессоюзное сложное предложение, сложное предложение с разными видами связи". composite or one-piece, non-proliferation or spread), verb (simple, compound verb, compound name), offer a homogeneous members, a proposal with separate members, offer a direct speech, compound sentence, complex sentence with a subordinate, complex sentences with multiple clauses, conjunctionless complex sentence, compound sentence with different types of communication. " После формирования этого правила в виде выражения (2) на основе индексов {I ξi (su) } словосочетаний формируется стохастический индекс самого правила продукций I ξi (рр) в виде уникальной двоичной комбинации заданной длины: After formation of this rule in the form of the expression (2) based on indexes {I ξi (su)} phrases generated stochastic index of the rules Product I ξi (pp) as a unique binary combination of a given length:

Figure 00000005

где F - функция стохастического преобразования правила продукций. where F - function stochastic transformation of productions rules.

Затем производится поочередное раскрытие содержания каждого из терминов, приведенных в заключение правила продукций (3), путем формирования соответствующих запросов к базе (8) стохастически индексированных лингвистических текстов. Next, the alternate disclosure of each of the terms listed in summary Product Rules (3), by forming respective queries to the database (8) stochastically indexed linguistic texts. В результате будет сформировано множество правил {I ξij (рр) } , определяющих каждый из синтаксических терминов, которые содержатся в правиле I ξi (рр) . As a result, a plurality of rules will {I ξij (pp)}, defining each of syntactic terms, which are contained in the rule I ξi (pp). При этом с использованием связей между правилами продукций, включающих в условие или в заключение идентичные синтаксические термины, в подсистеме (6) реализуется логический вывод. In this case, using connections between production rules, including a condition or conclusion identical syntactic terms, the subsystem (6) is realized by inference. В результате будет сформирована следующая последовательность логической связи правил продукций: As a result, the following sequence of logical connection production rules will be created:

Figure 00000006

Здесь индексы {I ξij (рр) } обозначают набор правил, соответствующих определенному уровню синтаксического разбора, который задан в правиле I ξi (рр) . Here the indices {I ξij (pp)} denote the set of rules corresponding to a level parsing, which is specified in Rule I ξi (pp). Например, это может быть словосочетание (сочинительная или подчинительная связь), простое предложение (подлежащее, сказуемое, определение, дополнение, обстоятельство), вид простого предложения (повествовательное, вопросительное, побудительное) и др. For example, it can be a phrase (or coordinative subordinate connection), a simple sentence (subject, predicate, determining addition, circumstance) form a simple sentence (declarative, an interrogative, agitation) and others.

Таким образом, в системе реализуется дедуктивный логический вывод, цель которого - связать синтаксические термины с определенными частями речи слов, их характеристиками и провести последовательный синтаксический анализ согласно приведенному выше правилу. Thus, the system is implemented deductive inference, which purpose - syntactic terms bind to certain parts of speech of words and their characteristics and have a serial parse under Rule above. Например, для русского языка в процессе указанного логического вывода для термина "подлежащее" может быть найден следующий фрагмент текста: "Подлежащее в предложении может быть выражено следующими словами: существительным в им.п., местоимением в им.п., инфинитивом, цельным словосочетанием". For example, for the Russian language in the course of said inference for the term "subject" next piece of text may be found: "The subject in the sentence can be expressed in the following words: in im.p. noun, pronoun in im.p., infinitive phrase unibody ". Полученный фрагмент текста поступает в интерпретатор (4), подсистему (5) эквивалентных преобразований текстов и подсистему (6) логического вывода. The resulting fragment enters the text interpreter (4), the area (5) equivalent transformations texts and subsystem (6) Inference. В результате описанных выше преобразований с использованием выражения (2) получим набор правил продукций, связывающих морфологические характеристики слов с наименованиями членов предложения: As a result of the above transformations using the expression (2) obtain a set of productions rules connecting morphological characteristics of words with the names of the sentence:

"Если в предложении есть слово, являющееся существительным в им.п., то это слово предположительно является подлежащим". "If the proposal is a word is a noun in im.p., this word is assumed to be subject to."

"Если в предложении есть слово, являющееся местоимением в им.п., то это слово предположительно является подлежащим". "If the proposal is a word which is a pronoun in im.p., this word is assumed to be subject to."

"Если в предложении есть слово, являющееся инфинитивом, то это слово предположительно является подлежащим". "If the proposal is the word, which is an infinitive, this word is assumed to be subject to."

"Если в предложении есть слова, относящиеся к цельному словосочетанию, то эти слова предположительно являются подлежащим". "If the offer includes words related to the wholeness of the phrase, these words are conceived to be."

В процессе извлечения фрагментов текстов для формирования правил продукций, определяющих словосочетания и отдельные члены предложения, в качестве исходной информации являются морфологические характеристики слов предложения. In the process of extracting text fragments to form productions of rules that define the phrase and the individual members of the proposal, are the morphological characteristics of the words of the sentence as the original information. По этим исходным данным выделяются фрагменты текста, в которых указанные данные посредством идентичных словосочетаний связаны с предполагаемым ответом, имеющим наименование члена предложения. For these initial data allocated pieces of text, wherein said data by identical phrases associated with the expected response, having the name of the sentence. Эти словосочетания соответствуют слову с исходными морфологическими характеристиками. These phrases correspond with the original word morphological characteristics.

Поэтому отмеченный фрагмент текста, определяющий связь между словом с данными морфологическими характеристиками и членом предложения, может быть переведен в стохастически индексированную семантическую структуру (2) с обеспечением описанным выше порядком ее корректности. Therefore, the marked text fragment defining communications between the data word and morphological characteristics member proposals can be placed in a stochastically indexed semantic structure (2) to ensure its correctness of the procedure described above. Затем стохастически индексированная семантическая структура (2) будет представлена в формате правила продукций: "Если (условие), то (заключение)". Then stochastically indexed semantic structure (2) will be presented in the format of production rules: "If (condition) then (conclusion)." Указанная процедура осуществляется с использованием интерпретатора (4), подсистемы (5) эквивалентных преобразований текста и правил продукций. This procedure is performed using an interpreter (4), the subsystem (5) equivalent transformations text and production rules. При этом в условие правила включаются исходные морфологические характеристики слова, а заключение содержит соответствующее указанному слову наименование члена предложения и вопрос, который ему соответствует. In this case, the rule condition included initial morphological characteristics of the word, and it shall contain the name of the corresponding specified word of the sentence and the question that corresponds to it.

В результате будут образованы правила продукций для определения главных членов предложения (подлежащее и сказуемое), второстепенных членов предложения (определение, дополнение, обстоятельство), а также образуемых ими словосочетаний. The result will be established production rules for identifying the main parts of the sentence (subject and predicate), minor parts of the sentence (the definition addition, circumstance), and they form phrases. При определении сказуемого указывается, к какому типу оно относится: простое глагольное, составное глагольное, составное именное. In determining the predicate indicates what type it belongs: the simple verb, compound verb, compound names. Прежде всего определяется предикативная основа предложения, в котором координируют подлежащее и сказуемое, а также другие словосочетания и соответствующие им виды отношений. It is primarily determined by a predicative basis of the proposal, which coordinated the subject and predicate, as well as other phrases and their corresponding kinds of relationships. Они включают подлежащее и определение, сказуемое и дополнение, сказуемое и обстоятельство и т.д. These include the subject and determining and predicate addition, predicate and circumstance, etc.

Таким образом, в процессе обработки текстовой информации при синтаксическом разборе предложения происходит самообучение системы правилам определения главных и второстепенных членов предложения. Thus, in the processing of textual information parsing offers self-learning system comes to the rules determining the primary and secondary parts of the sentence. Полученные при этом правила заносятся в базу знаний (13) синтаксического анализа. Obtained by this rule recorded in the knowledge base (13) parsing. Затем в соответствии с порядком синтаксического разбора начинается самообучение системы правилам определения обособленных членов предложения. Then, in accordance with the parsing procedure starts self-learning system of separate rules for determining the sentence. Исходными данными здесь являются части речи, члены предложения и их характеристики, которые после преобразования текста входят в условия правил продукций. Initial data here are part of speech of sentence and their characteristics, which, after the conversion of the text included in the terms of production rules. Заключения этих правил определяют вид группы обособленных членов, наименование члена предложения и вопрос, которым они соответствуют. The conclusions of these rules determine the form of separate groups of members, the name of the sentence and the question to which they correspond.

Таким образом, описывают обособленные согласованные определения (причастные обороты, прилагательные с зависимыми словами), обособленные несогласованные определения, обособленные приложения, обособленные дополнения, обособленные обстоятельства и др., включая соответствующие им вопросы. Thus, describe separate agreed definitions (Turnover involved, adjectives with dependent words) separate inconsistent definitions separate application, separate additions isolated circumstances et al., Including the relevant questions.

После этого в режиме самообучения происходит формирование правил продукций, позволяющих производить разбор простого предложения на основе исходных данных, определяющих, какими членами предложений являются слова, которые входят в данное предложение, какие словосочетания и обособленные группы членов предложения они образуют. After that, the self-study mode, there is a formation of productions rules, allowing to make a simple analysis of the proposals on the basis of input data, determining what parts of the sentence are the words that are included in the proposal, which phrases and isolated groups of the sentence they form. В результате будут получены правила продукций, позволяющие определить, является ли данное предложение двусоставным или односоставным (если односоставное, то к какому типу относится - неопределенно-личное, безличное, назывное и др.). The result will be obtained Product rules to determine whether the proposal is two-part or one-piece (if one-compound, then the type of the - indefinite private, impersonal, denominative et al.). При этом выделяются предложения с однородными членами, с обособленными членами предложения, с прямой речью. They point out proposals with similar members with separate members of the proposals with direct speech.

Затем на основе выделяемых фрагментов текста формируются правила продукций для синтаксического разбора сложных предложений. Then, based on the fragment of text generated productions rules for parsing complex sentences. Исходными данными, входящими в условия правил продукций, здесь являются типы и характеристики простых предложений, которые входят в состав сложных предложений. The initial data, the right-hand terms of production, here are the types and characteristics of simple sentences, which are part of complex sentences. При этом заключения правил позволяют определить, к какому типу относится данное сложное предложение: сложносочиненное предложение, сложноподчиненное предложение с одним придаточным, сложноподчиненное предложение с несколькими придаточными, бессоюзное сложное предложение, сложное предложение с разными видами связей. In this case, the rules allow the conclusion to determine what type of this complex sentence: compound sentence, complex sentence with a subordinate, complex sentences with multiple clauses, conjunctionless complex sentence, compound sentence with different types of connections. В заключение правил также определено, какой вопрос соответствует каждому из простых предложений в составе данного сложного предложения. In conclusion, the rules also determined which corresponds to each of a question of simple sentences composed of a complex sentence.

Все описанные уровни формирования правил продукций соответствуют схеме разбора предложения, формируемой в начале режима самообучения по команде подсистемы (3) управления режимом самообучения и извлечения знаний в виде логического выражения (4). All levels described Product formation rules correspond parsing scheme offers formed early in learning mode on command subsystem (3) self-control mode and extract knowledge in the form of a logical expression (4).

В результате реализации режима самообучения полученные правила продукций записываются в базу знаний (13) синтаксического анализа. As a result of self-learning mode received production rules are recorded in the knowledge base (13) parsing. Отметим, что самообучение системы правилам синтаксического разбора предложений производится непосредственно в процессе обработки исходных текстов по заданной теме путем анализа каждого предложения. Note that the self-learning system parsing rules proposals made directly during the processing of the source code for a given topic by analyzing each sentence. Указанный анализ позволяет заполнить уровни пять-десять фрейма каждого предложения текста, который в свою очередь используется для заполнения таблицы индексов данного текста (Таблица 2) и описанных выше списков, составляющих содержание каждой его ячейки. This assay allows the fill levels of five to ten of each sentence frame, which in turn is used to fill a given text index table (Table 2) and lists described above, the content of each of its constituent cells.

По мере заполнения базы знаний синтаксического анализа происходит ее стохастическое индексирование и представление в форме таблицы индекса. As you fill the knowledge base parsing going on its stochastic indexing and presentation in the form of an index table. Это существенно повышает эффективность разбора предложений за счет произвольного доступа по индексам условия, соответствующего правилам продукций, для получения искомого результата. This greatly improves the efficiency of analysis of proposals due to the random access conditions on the indices corresponding to the rules of productions, to produce the desired result.

Рассмотрим более подробно порядок стохастического индексирования баз знаний и их использования в процессе грамматического разбора предложений. Let us consider in more detail the procedure for a stochastic index knowledge bases and their use in parsing sentences.

После получения завершенного текста базы знаний в виде набора правил продукций, представленных в виде стохастически индексированного текста в формате "Если (условие), то (заключение)", каждое правило продукций поступает в интерпретатор (4) стохастически индексированных текстов и правил продукций. After receiving the complete text of the knowledge base in the form of a set of rules of productions presented in the form of a stochastically indexed text in the format of "If (condition) then (conclusion)," every rule products come into the interpreter (4) stochastically indexed texts and production rules. Здесь повторно формируют стохастически индексированную семантическую структуру (2), которая содержит совокупность всех словосочетаний данного правила: Here again forming a stochastically indexed semantic structure (2) which contains the set of all phrases of the rules:

Figure 00000007

При этом каждому словосочетанию ставится в соответствие индекс I ξi (su) : In this case, each phrase is associated with the index I ξi (su):

Figure 00000008

затем на основе этих индексов формируются уникальные стохастические индексы каждого правила продукций I ξi (рр) в соответствии с выражением (3). then, based on these indexes generated unique codes stochastic productions each rule I ξi (pp) in accordance with expression (3).

Далее производится формирование таблицы индекса для данной базы знаний в текстовом виде подобно тому, как индексируются обычные текстовые документы. Next is the formation of the index table for this knowledge in the form of text, just as indexed plain text documents. При этом в качестве абзаца принимается правило продукций с индексом (I ξi (рр) ). With this as a rule is adopted paragraph Product index (I ξi (pp)). В соответствии с этим входом в таблицу индекса правил продукций является строка, содержащая {I ξi (u) } основ слов словаря правил продукций (множества неповторяющихся основ слов, входящих в состав правил продукций). In accordance with this entry in the rules table Product index is a string containing {I ξi (u)} based on rule dictionary words Product (unduplicated bases plurality of words included in the Product Rules). Каждая ячейка строки, соответствующей определенному индексу (I ξi (u) ) , содержит индекс I ξi (su) словосочетания и индекс (I ξi (рр) ) правила, который включает данное слово, окончание и номер этого слова в составе правила продукций, а также индексы (I ξi-1 (u) ) и (I ξi+1 (u) ) , соответственно, предыдущего и последующего слова в данном правиле. Each cell line corresponding to a specific index (I ξi (u)), contains the index I ξi (su) phrases and index (I ξi (pp)) rules, which includes the word, the end and the number of words in the composition of production rules, also indexes (I ξi-1 (u)) and (I ξi + 1 (u)), respectively preceding and following the word in the rule. Это позволяет, как и для случая с текстовыми документами, сформировать на основе индекса текст любого правила продукций. This makes it possible, as in the case with text documents, create an index on the basis of the text of any production rules. При этом выражение The expression

Figure 00000009

записывается в виде строки таблицы базы (15) стохастически индексированных словосочетаний. It is written as a row of the table base (15) stochastically indexed expressions.

Исходные данные для обращения к индексу текста правил продукций извлекаются из фрейма разбираемого предложения. Initial data for the reference to the text index productions rules are extracted from the frame are examining the proposal. Как было представлено выше, данный фрейм после морфологического анализа содержит четыре уровня строк, включающих, соответственно, индексы основ слов {I ξi (u) } , слова в контексте предложения, части речи и характеристики, соответствующие данным словам, и вопросы к ним. As was presented above, this frame after morphological analysis comprises four layers of rows including, respectively, the indices bases words {I ξi (u)}, in the context of a sentence words, parts of speech and characteristics corresponding to said data, and issues them. Именно эта информация в разных сочетаниях входит в условия правил продукций и позволяет на основе логического вывода делать заключение, к какому члену предложения (точно или неточно) относится данная часть речи. It is this information in various combinations included in the terms of production rules and allows on the basis of logical inference to draw conclusions, to which part of the sentence (accurately or inaccurately) relates this part of the speech. При этом обращение к таблице индексов правил продукций производится по индексам основ слов {I ξi (u) } фрейма предложения, а также по значениям {I ξi (su) } словосочетаний условий или заключений правил. At the same time appeal to the index table productions rules made by index-based word {I ξi (u)} offers a frame, as well as the values of {I ξi (su)} phrases or terms of the rights of prisoners.

Для реализации функций логического вывода с помощью правил продукций применяется интерпретатор (4) стохастически индексированного текста и правил продукций. To implement the functions of inference using the productions rules applied shell (4) is stochastically indexed text and production rules. В результате правило продукций преобразуется в вид (2) стохастически индексированной семантической структуры. As a result, production rules is converted into the form (2) stochastically indexed semantic structure. При этом по словосочетаниям (I ξi (su) ) условий правил продукций (после обращения по индексам I ξi (su) к базе (15) стохатически индексированных словосочетаний и определения стохастических индексов {I ξi (u) } основ слов данного словосочетания) может производиться поиск соответствующих ячеек фрейма предложения и считывание из них наименований слов, характеристик частей речи или вопросов к ним. At the same time phrases (I ξi (su)) under production rules (after treatment in the indices I ξi (su) to the base (15) stohaticheski indexed phrases and definitions of stochastic indexes {I ξi (u)} foundations words of the phrase) can be carried out search the corresponding cells of the frame supply and reading of these kinds of words, the characteristics of the parts of speech or questions to him. По словосочетаниям {I ξj (su) } заключения должны заполняться соответствующие ячейки уровней 5-10 фрейма предложения, определяющих наименование членов предложения, их групп, обособленных членов, типов простых предложений в сложном предложении с указанием вопросов к ним. Phrase {I ξj (su)} conclusion must be filled with the appropriate levels of the cell 5-10 frame proposals defining the name of the sentence, they are groups of separate members, types of simple sentences in a complex sentence specifying the matters to them. При этом правила продукций проверяются по всем словосочетаниям условия, и в случае истинности всех словосочетаний условия, объединенных логическими связками "и" (во фрейме предложения найдены все характеристики и данные, описанные в словосочетаниях условия правила продукций), заключение считается истинным. At the same productions rules are checked phrases in all conditions, and if the truth conditions of all phrases, combined logical connectives "and" (in a frame offers found all the specifications described in phrases productions rules conditions), the conclusion is considered true. При этом данные, определяемые в словосочетаниях заключения правила, заносят в соответствующие ячейки фрейма предложения уровней 5-10. The data defined in phrases conclusion rules are entered in the corresponding cells of the frame offers levels 5-10. Если заключение содержит предварительный результат или словосочетание, по которому необходимо найти логически связанные правила, то их поиск производится путем обращения по индексам основ слов словосочетания к таблице индексов соответствующей базы знаний. If the report has a preliminary result or phrase for which you want to find a logically related rules, their search is carried out by treatment of index-based combinations of words to the index table corresponding to the knowledge base. При этом за счет произвольного доступа к таблицам на основе стохастических индексов исключается необходимость перебора на всем множестве правил продукций. At the same time due to the random access to tables based on stochastic index eliminates the need to iterate over the set of production rules. В результате обеспечивается линейность зависимости времени логического вывода от числа задействованных в обработке правил продукций. The result is a linear dependence of the number of inference involved in processing Product rules. Обращение к базе знаний и обработка правил продукций предназначены для заполнения всех ячеек фрейма предложения точными данными. Appeal to the knowledge base and product handling rules are designed to fill all the cells of the frame offers precise data.

Если в процессе синтаксического анализа отдельные члены предложения будут определены неточно, то для их точного определения система переходит к семантическому анализу слов этих предложений одновременно с реализацией режима самообучения правилам семантического анализа. If some of the sentence will be determined inaccurately during parsing, for their accurate determination of the system goes to the semantic analysis of the words of these proposals at the same time with the implementation of self-learning mode rules of semantic analysis. Это относится прежде всего к определению подлежащего, дополнения и обстоятельства, выраженным существительным с предлогом, деепричастным оборотом и др. This applies primarily to the definition of the subject, supplements and conditions expressed noun with preposition, verbal participle phrases et al.

Для точного определения членов предложения используется семантический анализ, который основан на функции разработанной ИССИЗ, обеспечивающей выделение из текстов абзацев и предложений, описывающих все возможные виды отношений между различными объектами. For an accurate determination of the sentence uses semantic analysis, which is based on the functions developed ISSIZ, providing a selection from text paragraphs and sentences, describing all possible relationships between different objects. Запросы системы на реализацию этой функции могут формироваться автоматически в подсистеме (3) управления режимом самообучения и извлечения знаний, если в результате синтаксического анализа не будет установлено точно, каким членом предложения являются части речи исследуемого предложения. Queries the system for the implementation of this function can be generated automatically in the subsystem (3) control mode and self-knowledge extraction, if the result of parsing is not established exactly how a member of the proposals are part of speech of the test proposals.

С этой целью используется подсистема (3) управления режимом самообучения и извлечения знаний, подсистема (6) логического вывода и интерпретатор (4) текста и правил продукций. For this purpose a subsystem (3) control mode and learning knowledge extraction subsystem (6) and the inference shell (4) of the text and production rules. Уточнение членов предложения в случае их неточного определения при синтаксическом анализе основано на выделении из множества текстов предложений, описывающих отношения между заданными объектами, и определении видов отношений между ними. Clarification of the sentence in the case of an inaccurate definition of parsing based on the allocation of the plurality of the proposed text, describing the relationship between the given objects, and determining the types of relationships between them. В результате автоматического формирования запросов системы и семантического анализа выделенных предложений между заданными объектами в интерпретаторе (4) стохастически индексированного текста и правил продукций могут быть определены следующие виды отношений: As a result, the automatic query semantic analysis system and selected offers between predetermined objects in the shell (4) stochastically indexed text and rules Product following types of relations may be defined:

- родо-видовые, - clan-specific,

- агрегатные (часть - целое), - aggregate (part - whole)

- объектные отношения, - object relations,

- определительные отношения, - attributive relations,

- обстоятельственные, - adverbial,

- допустимые, недопустимые. - acceptable, unacceptable.

В свою очередь обстоятельственные отношения подразделяются на следующие виды: In turn circumstantial relations are subdivided into the following types:

- образа действия, - mode of action,

- места, - place,

- времени, - time

- меры или степени, - measure or degree,

- причины, - causes,

- цели, - goal,

- условия, - conditions,

- уступки. - concessions.

В тексте указанные отношения между объектами описываются предикативной основой каждого предложения, которое состоит из подлежащего и сказуемого, а также словосочетаниями между различными членами предложения и прежде всего словосочетаниями, описывающими связь сказуемого с обстоятельством (обстоятельственные отношения) или с дополнением (объектные отношения). In the text of said relationships between objects are described predicative basis of each sentence, which consists of a subject and predicate, and word combinations between various members and deals primarily phrases describing the relationship with the predicate circumstance (adverbial relationship) or complement (object relations). При этом для классификации вида отношений решающую роль играют словосочетания, содержащие сказуемое и связанное с ним дополнение или обстоятельство. In this case, for the classification of types of relationships are crucial phrases containing the verb and the related supplement or circumstance. Именно по содержанию двух указанных членов предложения определяется, какой вид отношений имеется в данном предложении между объектами предметной области, выраженными подлежащим, а также дополнением или обстоятельством. It is the content of the two parts of the sentence is determined by what kind of relationship there is between this proposal in the domain objects, expression of the subject, as well as the addition or circumstance. При этом определительные отношения описывают свойства подлежащего, дополнения или обстоятельства с помощью словосочетаний, содержащих согласованные или несогласованные определения. Thus attributive relationships describe the properties of the subject, supplements or circumstance via phrases containing coordinated or uncoordinated definition. В процессе анализа членов предложения классификация вида описываемых им отношений позволяет практически точно определить члены предложения в наиболее сложных случаях, когда синтаксический анализ дает неточный результат. During the analysis of the sentence classification of types of relationship described by them to determine the sentence almost exactly in the most severe cases, when parsing gives an inaccurate result.

С целью классификации вида отношений в словосочетаниях в интерпретатор (4) по команде подсистемы управления (3) из таблиц индексов толковых словарей базы (8) стохастически индексированных лингвистических текстов записывают стохастические индексы типовых словосочетаний каждого из указанных выше отношений. For the purpose of the labeling species in phrases relationship to the interpreter (4) on the pitch control subsystem (3) of the index tables dictionaries base (8) stochastically indexed linguistic texts recorded phrases stochastic model indices of each of the above relations. При этом в процессе семантического анализа каждое из исследуемых словосочетаний с помощью логического вывода по таблице индексов текста толкового словаря и формирования стохастически индексированной семантической структуры соотносят с одним из индексов словосочетаний, записанных в интерпретатор (4). Thus during the semantic analysis of each of the test phrases using inference on the index table glossary text and forming a stochastically indexed semantic structure are correlated to one index phrases recorded in the shell (4). Порядок логического вывода по таблицам индексов текста будет представлен ниже при описании процесса формирования стохастически индексированной семантической структуры ответа системы. Procedure inference Tables text index will be presented below in the description of the process of forming a stochastically indexed semantic structure of the system response.

В общем случае для семантического анализа слов и словосочетаний предложений в системе используется пять источников информации, а именно: In general, for the semantic analysis of the words and phrases used in the system offers five sources of information, namely:

- база знаний (9), которая содержит текстовые элементы типа "запрос-ответ", формируемые в процессе функционирования ИССИЗ для обработки типовых запросов (эта база подробно будет описана ниже); - knowledge base (9), which contains the text elements of type "request-response" generated during operation ISSIZ for processing query model (this database will be described in detail below);

- база (8) стохастически индексированных лингвистических текстов, которая содержит таблицы индексов текстов толковых словарей, энциклопедий и базовых научно-методических материалов общего и специального назначения, позволяющих извлекать знания об объектах предметной области и видах отношений между ними; - the base (8) is stochastically indexed language text that contains a table of texts indexes dictionaries, encyclopedias, and basic scientific and methodological materials for general and special-purpose, allowing to extract knowledge about the subject area and the types of relationships between objects;

- база знаний (14) семантического анализа, которая содержит правила для точного определения членов предложения, обеспечения эквивалентности преобразования членов предложения, которые необходимы для семантического анализа и оценки релевантности формируемых ответов на поступающие запросы; - knowledge base (14) of semantic analysis that contains the rules for precise determination of the sentence, ensure equivalence conversion of the sentence which are necessary for the semantic analysis and assessment of relevance generated responses to requests; она подробно будет описана ниже; it will be described in detail below;

- база знаний (12) морфологического анализа, которая содержит правила для определения частей речи и их эквивалентных преобразований; - Knowledge base (12) of the morphological analysis, which contains rules for determining the parts of speech and their equivalent transformations;

- база знаний (13) синтаксического анализа, которая содержит правила для определения членов предложения и их эквивалентных преобразований. - Knowledge base (13) parser, which contains rules for the determination of the sentence and their equivalent transformations.

Первая из названных баз знаний образуется на основе стохастически индексированных кратких ответов, формируемых в ходе обработки запросов пользователей, и содержит множество текстовых элементов типа "запрос-ответ". The first of these knowledge base is formed on the basis of a stochastically indexed summary responses generated during processing of user requests, and comprises a plurality of text elements of the type "request-response". Эти знания представляют собой семантическую основу релевантных ответов на запросы пользователей и содержат вопросительные предложения. This knowledge is a semantic basis of relevant responses to user requests and contain interrogative sentences. Каждое из данных предложений идентично соответствующему запросу пользователя, в которое после вопросительного слова (или вопросительного словосочетания) дополнительно включена соответствующая ему группа слов ответа. Each of these proposals is identical to the corresponding user's request, in which after the question words (or phrases interrogative) further enabled the corresponding band response words. Эта группа может содержать одно или несколько словосочетаний, являться группой обособленных членов предложения или придаточным предложением. This group may contain one or more phrases are members of a group of separate sentences or subordinate clause. При этом в каждом элементе указанных знаний точно определен вопрос к группе слов ответа, что позволяет классифицировать отношения между объектами предметной области, которые представлены в данном предложении и, соответственно, определить, каким членом предложения является главное слово в словосочетании ответа. In this case, each element of the specified knowledge pinpointed the issue to a group of words to answer that allows to classify the relationship between domain objects that are presented in this proposal and, therefore, determine which member of the sentence is the key word in the phrase a reply.

Вторая база лингвистических текстов представлена множеством стохастически индексированных текстов, толковых словарей, энциклопедий, базовых научно-методических материалов как общего, так и тематического назначения. Second base of linguistic texts represented by a number of stochastically indexed texts, dictionaries, encyclopedias, scientific and basic teaching materials, both general and thematic destination. В их состав входит подробное описание общеупотребительной лексики, а также специальных терминов по данной теме. They contain a detailed description of the general vocabulary and specific terms for the topic. Эти текстовые материалы, представленные в виде таблиц индексов, используются для извлечения из них знаний, которые характеризуют базовые свойства различных типов объектов предметной области и отношения между ними, соотнося их с приведенной выше системой классификации. These text materials presented in the form of index tables are used for extraction of knowledge, which characterize the basic properties of various types of domain objects and relationships between them, relating them to the above classification system.

Третья база знаний (14) семантического анализа состоит из правил продукций, которые сформированы автоматически и предназначены для решения задач семантического анализа текста с использованием логического вывода и информации, содержащейся в первых двух базах знаний. Third knowledge base (14) semantic analysis consists of production rules, which are formed automatically and are designed to solve problems of semantic text analysis using inference and the information contained in the first two knowledge bases.

Базы знаний морфологического и синтаксического анализа применяются для эквивалентных преобразований текста в ходе семантического анализа. The knowledge base of the morphological and syntactic analysis are applied to equivalent transformations of the text in the semantic analysis. Более подробно процесс эквивалентных преобразований будет описан ниже при анализе функций обработки запроса. In more detail the process equivalent transformations will be described below when analyzing the request processing functionality.

Для обеспечения рациональной обработки знаний описанная выше первая база представлена в виде таблицы индекса, вход которой включает основу слов, находящихся в знаниях "запрос-ответ". To ensure the efficient processing of the knowledge base of the first described above is represented as a table index, which includes entrance to the foundation of words that are in knowledge "challenge-response". При этом каждая строка таблицы имеет ячейки, содержащие индекс текста, индекс и номер абзаца, на основе которого сформировано данное предложение, номер слова в его составе, окончание данного слова, а также индексы основ предыдущего и последующего слов в предложении. In addition, each row in the table has cells that contain the text index, and the index number of the paragraph, which is formed on the basis of this proposal, the word number in its composition, the end of the word, as well as indices based on the previous and subsequent words in a sentence. Это позволяет по запросу системы осуществлять произвольный доступ с использованием индексов основ слов к соответствующим строкам таблицы, выделять из них требуемые ячейки и при необходимости восстанавливать исходный текст соответствующего "запроса - ответа". This allows on-demand system to perform random access using index-based words to the corresponding rows of the table, isolated from these cells and required to restore the original text of the "request - response" if necessary.

Описанная база знаний позволяет при синтаксическом анализе предложения определять члены предложения в наиболее сложных случаях. Described knowledge base allows you to parse proposals to determine the sentence in the most difficult cases. Например, отличить подлежащее от прямого дополнения или косвенное дополнение от обстоятельства с точной классификацией его вида и др. Для этой цели система семантического анализа формирует соответствующий запрос к базе знаний. For example, to distinguish the subject of direct or indirect additions of circumstances exact classification of its kind and others. For this purpose, the semantic analysis system generates an appropriate request to the knowledge base. В первом случае, когда требуется уточнить подлежащее (например, в предложениях типа Дождь намочил зонт или Зонт намочил дождь ), по запросу системы определяют, для какого объекта является допустимым отношение, выраженное сказуемым. In the first case, when it is required to specify the subject (e.g., in the proposals type rain soaked wet umbrella or parasol rain) on demand system determines which object is permissible ratio expressed predicate. При этом очевидно, что объект, соответствующий допустимому отношению, принимается в качестве подлежащего. It is obvious that the object corresponding to the allowable ratio is adopted as the subject.

В случае, когда база знаний не позволяет дать ответ на указанный запрос, вопрос будет обращен к таблицам индексов текстов по данной проблематике для поиска словосочетания, содержащего требуемое отношение между объектами на всем множестве текстовых документов второй базы знаний по данной теме. In the case where the knowledge base does not permit a response to said request, a question is directed to tables indexes texts on the subject to search for phrases containing the desired relation between objects on the entire set of text documents a second knowledge base on the subject.

Во втором случае на основе запроса системы к базе знаний должно быть определено, на какой вопрос отвечает член предложения, который можно отнести как к дополнению, так и к обстоятельству и тем самым точно установить, каким членом предложения является данное слово. In the second case, on the basis of a system request to the knowledge base is to be determined, on any question is answered by a member of the offers, which can be attributed both to complement and to the circumstance, and thus to establish exactly how the proposal is a member of a given word. Для этой цели в запросе системы, обращенном к базе знаний, указывается требуемое слово и предполагаемый вопрос к нему. For this purpose, the query system, facing the knowledge base, the desired word is indicated and intended to question him. Если при этом в базе знаний находится соответствующий "запрос-ответ", у которого в словосочетании ответа главное слово и вопрос к нему совпадают, соответственно, с содержанием запроса системы, то это означает, что анализируемый член предложения точно отвечает на данный вопрос. If the knowledge base is appropriate "request-response", which in the phrase answers the key word and the same question to him, respectively, with the content of the request system, it means that the analyzed part of the sentence accurately answers the question. Следовательно, указанный результат обработки запроса системы позволяет точно определить, каким членом предложения является содержащееся в нем слово. Consequently, the said system request processing result allows us to determine exactly how a member of the proposal is contained therein word. Например, если анализируется предложение типа Мужчина прогуливается в парке или Мужчина прогуливается в костюме для уточнения, каким членом предложения (обстоятельством или дополнением) являются словосочетания в парке или в костюме , формируется два запроса системы. For example, if you analyze a sentence like man walking in the park or a man in a suit walking to clarify how a member of the offers (the fact or complement) are phrases in the park or in a suit, formed two prompted. Первый запрос содержит вопросительное слово где? The first request contains the question word where? и словосочетание в парке , поскольку в результате синтаксического анализа был сделан неточный вывод о том, что в парке - это обстоятельство места. and the phrase in the park as a result of parsing the inaccurate conclusion was made that in the park - this circumstance place. Во втором случае формируется следующий запрос системы: в чем? In the second case, a next request system: what? - в костюме . - in a suit. Если в результате обработки запроса системы будет дан положительный ответ на каждый из них, то это означает, что первое словосочетание является точно обстоятельством, а второе - дополнением. If as a result of the system processing the request a positive response to each of them will be given, it means that the first phrase is exactly the circumstance, and the second - a supplement. Если будет сформирован запрос системы, содержащий ошибочное утверждение (например , где? - в костюме ), то ответ будет отрицательным. If the query system will be formed, containing erroneous statement (for example, where - in a suit), then the answer is no. Это означает, что словосочетание в костюме не является обстоятельством места. This means that the phrase in the suit is not a circumstance places.

Описанный способ формирования запросов к первой базе знаний системы семантического анализа может быть использован и в более сложных случаях синтаксического анализа предложений. The described method of querying the knowledge base of the first semantic analysis system can be used in more complex cases, parsing sentences. Например, при определении, каким видом обстоятельства является деепричастный оборот (деепричастие), или при уточнении типа придаточного предложения. For example, in determining what kind of circumstances is participial turnover (gerund), or clarify the type of subordinate clause. Для этой цели формируется специальный запрос, содержащий данный деепричастный оборот или придаточное предложение, на основе которого с точностью до синонимов производится поиск их аналогов на множестве знаний типа "запрос-ответ". For this purpose, it formed a special request containing the verbal participle phrases, or subordinate clause, on which up to synonyms searched their counterparts on a variety of knowledge such as "challenge-response". Если указанные аналоги содержатся в группе слов ответа этой базы, то с использованием индексной таблицы текста они будут извлечены из нее. If the analogs are contained in a group of words to answer this framework, using the text of the index table, they will be extracted from it. Это позволит определить вопрос, которому соответствует определяемый деепричастный оборот или придаточное предложение и, следовательно, точно выявить, к какому типу они относятся. This will determine the issue, which corresponds to the defined verbal participle phrases, or subordinate clause and, therefore, to accurately identify what type they are.

Если в первой базе знаний не содержится запрашиваемых аналогов, то для точного определения членов предложения используется вторая и третья базы знаний в сочетании с подсистемой (6) логического вывода. If the first knowledge base does not contain the requested analogues, for the precise determination of the sentence using the second and third knowledge base combined with the subsystem (6) inference. Как было отмечено выше, третья база знаний составлена из правил продукций, которые позволяют с помощью семантического анализа уточнять наименования членов предложения, деепричастных оборотов или типов придаточных предложений в сложноподчиненных предложениях с целью формирования к ним соответствующих вопросов. As noted above, the third knowledge base is made up of production rules, which allow using semantic analysis to specify the name of the sentence, verbal participle phrases or types of subordinate clauses in complex sentences to form them on relevant issues.

Одним из основных вариантов проведения семантического анализа с использованием этой базы знаний является перевод с помощью правил продукций семантических определений, характерных для каждого члена предложения, в набор словосочетаний, содержащих определяемое слово и некое базовое слово. One of the main options of the semantic analysis with the use of this knowledge is translated using the production rules semantic definitions specific to each member of a sentence in a set of phrases containing the word defined and some basic word. Это базовое слово семантически связано только с данным членом предложения и однозначно ему соответствует (не может употребляться с другими членами предложения). This is a basic word semantically associated only with the member offers and uniquely corresponds to it (can not be used with other offers members). При формировании из исходного анализируемого текста словосочетания, описанного в правилах продукций, часто необходимо проводить эквивалентные преобразования исходного текста на основе правил баз знаний морфологического, синтаксического анализа с использованием логического вывода. In the formation of the initial analyte text phrases described in the rules productions it is often necessary to carry out the equivalent transformation of the source text based on the rules of the knowledge bases of morphological, syntactical analysis using inference.

После получения требуемого словосочетания проводится проверка его допустимости путем обращения ко второй индексированной базе текстов, которая позволяет производить выделение абзацев и отдельных предложений, содержащих требуемые словосочетания. After obtaining the desired combinations of its admissibility is checked by referring to the second indexed text base, which allows the selection of individual paragraphs and sentences containing phrases required. Если на множестве текстовых документов найдется одно или более предложений, в которых данное словосочетание используется, то отношения между словами данного словосочетания являются допустимыми. If the set of text documents there is one or more sentences in which this phrase is used, the relationship between the words of the phrase are valid. Поэтому считается, что исследуемое слово точно относится к данному члену предложения. It is therefore considered that the test word exactly belongs to this part of the sentence.

Вместо отдельных словосочетаний могут использоваться более сложные конструкции (например, причастный, деепричастный обороты, придаточные предложения в сложных предложениях). Instead of individual phrases more complex designs may be used (e.g., ownership, participial turnovers, clauses in complex sentences). Таким образом, сочетание семантических знаний, выраженных конкретными словосочетаниями, в совокупности с определением допустимости отношений между словами в них на множестве текстовых документов позволит точно определять члены предложения, если их синтаксический анализ не дает точный результат. Thus, the combination of semantic knowledge expressed specific phrases, in conjunction with the definition of the admissibility of the relationship between words in them on a variety of text documents will determine the sentence accurately if their syntactic analysis does not give an accurate result.

После завершения морфологического, синтаксического и семантического анализа предложений данного текстового документа на основе полученных при этом фреймов предложений полностью заполняется таблица индексов данного текста (Таблица 2), включая списки {I ξi (s) } , определяющие содержание каждой ячейки таблицы. After completion of the morphological, syntactical and semantic analysis of sentences of the text document on the basis of the obtained frames proposals is completely filled this text index table (Table 2), including lists {I ξi (s)}, determining the content of each table cell. После этого переходят к стохастическому индексированию следующего текста по данной теме. After that, go to the stochastic indexing the following text on the subject. Одновременно с этим реализуется автоматическое обучение и происходит заполнение базы знаний (14) семантического анализа правилами продукций, сформированными на основе соответствующих фрагментов текста описанным выше порядком с использованием стохастически индексированной семантической структуры (2). Simultaneously, the automatic learning is realized and the filling of the knowledge base (14) Product semantic analysis rules generated based on the corresponding text fragments described above order using a stochastically indexed semantic structure (2). Отметим, что корректность каждого правила обеспечивается при этом путем независимого формирования описанным выше порядком идентичных стохастически индексированных семантических структур (2) на основе нескольких фрагментов из соответствующих лингвистических текстов. Note that the correctness of each rule is provided in this case by independently forming the above-described procedure identical stochastically indexed semantic structures (2) on the basis of several fragments from the respective linguistic texts. Затем стохастически индексированная семантическая структура переводится в формат правил продукций, представленный в виде "Если (условие), то (заключение)". Then stochastically indexed semantic structure translates into production rules format, presented in the form of "If (condition) then (conclusion)." Это происходит в интерпретаторе (4) стохастически индексированных текстов и правил продукций и в подсистеме (5) эквивалентных преобразований текста. This occurs in the shell (4) is stochastically indexed texts and production rules in the area (5) equivalent transformations of the text.

После обработки всех представленных текстовых документов по данной теме формируется таблица индексов текстов по данной теме (Таблица 3). After processing all text index table presented text documents on the subject is formed on the subject (Table 3). Ее строки поименованы неповторяющимися индексами {I ξi (u) } основ слов, входящих в текстовые документы. Her lines are named non-recurring indexes {I ξi (u)} bases of words in text documents. Столбцы данной таблицы соответствуют стохастическим индексам {I ξi (t) } текстов, которые были обработаны в ходе грамматического и семантического анализа. The columns of this table correspond stochastic indexes {I ξi (t)} of texts which have been treated in the grammatical and semantic analysis. Ячейки этой таблицы содержат индексы {I ξi (s) } списков, содержащих индексы абзацев {I ξi (а) } каждого текста I ξi (t) , в которые входит соответствующий индекс I ξi (u) основы слова. The cells of this table contain indexes {I ξi (s)} lists containing paragraphs indexes {I ξi (a)} of each text I ξi (t), which include the corresponding index I ξi (u) the basics of speech. Записи списков хранятся в отдельном файле, доступ к которым производится по соответствующим индексам {I ξi (s) } . Lists of records are stored in a separate file to which access is made by the respective indices {I ξi (s)}.

После формирования указанных таблиц индексов и заполнения баз знаний в режиме самообучения ИССИЗ по команде подсистемы (3) управления режимом самообучения и извлечения знаний переходят к обработке запроса пользователя с целью извлечения знаний из текстовых документов, релевантных этому запросу. After the formation of said index tables and filling knowledge bases to self ISSIZ mode on command subsystem (3) control mode and learning knowledge extraction processing proceeds to the user query to extract knowledge from text documents relevant to the query.

В данном процессе широко используются эквивалентные преобразования как запроса пользователя, так и предложений фрагментов текста при извлечении из них знаний. This process is widely used as an equivalent conversion request of the user and offers text fragments when removed from their knowledge. Рассмотрим более подробно порядок преобразований предложений текста. Let us consider in more detail the procedure for transformation of the proposed text.

В ИССИЗ обеспечивают следующие уровни эквивалентных преобразований текста. In ISSIZ provide the following levels of equivalent transformations of the text.

Первый уровень преобразований реализуется внутри групп членов предложений - словосочетаний, содержащих подлежащее, сказуемое, дополнение, обстоятельство. First level changes implemented within groups of sentence - phrases containing the subject, predicate, addition, circumstance. При этом происходит изменение частей речи с целью замены согласованных определений на несогласованные. At the same time there is a change of parts of speech to replace the agreed definitions on uncoordinated. Этому уровню соответствуют преобразования терминов, например: компьютерная сеть - сеть компьютеров, компьютерное обслуживание - обслуживание компьютеров . This level corresponds to the transformation of terms, such as: computer network - a network of computers, computer maintenance - maintenance of computers.

Второму уровню преобразований соответствуют эквивалентные преобразования членов предложения внутри простых предложений как самостоятельных, так и составляющих сложные. The second level of transformation corresponds to an equivalent conversion of the sentence in simple sentences as independent and complex components. При этом реализуются следующие виды замены членов предложения с использованием преобразований однокоренных частей речи: At the same time implemented following the replacement of the sentence with the use of single-root transformation of parts of speech:

подлежащее заменяется на сказуемое, subject is replaced by a predicate

сказуемое - на подлежащее, predicate - on the subject,

дополнение - на подлежащее, addition - on the subject,

сказуемое - на обстоятельство и т.д. predicate - a circumstance, etc.

В частных случаях части речи могут не изменяться (изменяются только падежи). In special cases, part of speech can not be changed (only change one case).

Третий уровень эквивалентных преобразований соответствует преобразованию внутри сложных предложений. The third level equivalent transformations corresponds to the transformation within complex sentences. В этом случае придаточное предложение одного вида может быть заменено на придаточное предложение другого вида или на причастные, деепричастные обороты. In this case, the clause one kind may be replaced by clause or another species involved, verbal participle phrases. Иногда сложное предложение преобразуется в простое предложение путем замены союза на соответствующие предлоги, определяемые правилами. Sometimes a complex sentence is converted into a simple sentence by replacing the Union at the appropriate prepositions defined rules.

Рассмотрим пример эквивалентных преобразований с использованием замены членов предложения в словосочетаниях, а именно: замены согласованного определения на несогласованное и прямого дополнения на подлежащее. Consider the example of equivalent transformations with replacement of the sentence in phrases, such as: replacement of an agreed definition on an inconsistent and direct complement to the subject. Выберем в качестве исходного предложения следующее: "Программные и аппаратные средства защищают компьютерные программы". We choose as a starting sentence: "The software and hardware to protect computer programs." В системе исходное предложение с индексом I ξ1 (p) будет представлено приведенной ниже стохастически индексированной семантической структурой: The system source sentence index I ξ1 (p) will be presented below stochastically indexed semantic structure:

Figure 00000010

Эта структура содержит следующие словосочетания исходного предложения: This structure contains the following combinations of the source sentence:

I ξ12 (su) : = (программные и аппаратные средства), I ξ12 (su): = (software and hardware),

I ξ13 (su) : = (защищают), I ξ13 (su): = (protected)

I ξ14 (su) : = (компьютерные программы). I ξ14 (su): = (computer programs).

Произведем указанные выше эквивалентные преобразования членов предложения. We carry out equivalent transformations of the sentence indicated above. При этом будут образованы такие словосочетания: Here they will be formed such combinations:

I ξ22 (su) : = (программы компьютера), I ξ22 (su): = (a computer program)

I ξ23 (su) : = (защищаются), I ξ23 (su): = (protected)

I ξ24 (su) : = (программными и аппаратными средствами). I ξ24 (su): = (software and hardware).

В результате данных преобразований будет получено предложение, эквивалентное исходному предложению с индексом I ξ1 (p) , которое имеет индекс I ξ2 (p) и следующую стохастически индексированную семантическую структуру: As a result of transformation data is received bid equivalent to the original proposal with index I ξ1 (p), which has an index I ξ2 (p) and following a stochastically indexed semantic structure:

Figure 00000011

На основе этой структуры будет образовано предложение: "Программы компьютера защищаются программными и аппаратными средствами" , которое эквивалентно исходному. On the basis of this structure will be formed by the sentence: "Computer programs are protected by software and hardware", which is equivalent to the original. Отметим, что в новом предложении подлежащее I ξ22 (su) соответствует словосочетанию прямого дополнения I ξ14 (su) исходного предложения, в котором произведена замена согласованного определения на несогласованное. Note that the new proposal subject I ξ22 (su) corresponds to the phrase direct complement I ξ14 (su) of the source sentence, wherein the replaced agreed definition for mismatching. При этом подлежащее первого предложения I ξ12 (su) преобразовано в косвенное дополнение I ξ24 (su) во втором предложении, а сказуемое I ξ13 (su) стало иметь форму возвратного глагола I ξ23 (su) . Thus the subject of the first sentence I ξ12 (su) transformed into indirect I ξ24 (su) in the second sentence, and the predicate I ξ13 (su) have become a reflexive verbs I ξ23 (su). Указанные преобразования наиболее часто используются как для эквивалентных преобразований стохастически индексированных предложений текста, так и для запросов пользователей. These transformations are most often used for equivalent changes stochastically indexed text proposals, as well as for user requests.

Запрос пользователя формируют на естественном языке. Request for user is formed in a natural language. Затем преобразуют запрос пользователя во множество новых запросов, включающих вопросительное слово и словосочетания, определяющие семантику запроса, эквивалентных исходному запросу. Then converted to the user's request in a variety of new requests, including interrogative words and phrases that define the semantics of the query, equivalent to the original query. Указанные эквивалентные преобразования исходного запроса пользователя осуществляют с использованием синонимов, близких по смыслу слов, а также замены частей речи и членов предложения. Given the equivalent transformation of the original user query is performed using synonyms, related words, and replacement of parts of speech and sentence. При этом обеспечивается сохранение смыслового содержания исходного запроса на основе применения стохастически индексированных правил морфологического, синтаксического и семантического анализа для получения эквивалентных структур словосочетаний вопросительного предложения запроса и сохранения семантической связи между ними. This ensures preservation of the semantic content of the original request by applying rules stochastically indexed morphological, syntactical and semantic analysis to obtain equivalent structures interrogative sentence query phrases and preserving semantic connection therebetween.

После этого в соответствии с очередным преобразованным запросом пользователя осуществляют предварительный выбор фрагментов текстовых документов, содержащих в совокупности все словосочетания запроса. Thereafter, in accordance with the converted request another user performed preselect fragments of text documents containing a total of all the query phrases. Если данный запрос не обеспечил возможность предварительного выбора фрагментов текстовых документов, отвечающих указанным требованиям, то производят новое эквивалентное преобразование запроса. If the request did not provide the opportunity to pre-select pieces of text documents that meet these requirements, then generate a new equivalent transformation request.

Рассмотрим порядок обработки запроса и алгоритма формирования ответа на основе различных текстовых документов, абзацев и предложений. Consider the order of processing the request and response generation algorithm based on a variety of text documents, paragraphs, and sentences. После поступления очередного запроса пользователя в лингвистический процессор (1) он заносится в подсистему (2) стохастического индексирования и выделения фрагментов текстов, где производится формирование стохастических индексов основ слов и выделение их окончаний. Upon receipt of the next user request to the linguistic processor (1) it is entered into the subsystem (2) of the stochastic text indexing and isolating fragments which produced formation stochastic index words and bases the allocation of their terminations. После этого стохастически индексированный запрос через подсистему (3) управления режимом самообучения и извлечения знаний записывается в подсистему (6) логического вывода. Thereafter stochastically indexed request via subsystem (3) and the self-control mode is recorded in the knowledge extraction subsystem (6) Inference. Здесь на основе правил продукций баз знаний (12-13) сначала производят морфологический и синтаксический разбор запроса пользователя. Here, based on production rules knowledge bases (12-13) initially produce morphological and syntactic analysis of the user's request. Получают фрейм вопросительного предложения. Get frame interrogative sentence. Затем в интерпретаторе (4) вопросительное предложение представляют в виде совокупности словосочетаний, содержащих главные и зависимые слова, и соответствующих им стохастических индексов основ слов Then the interpreter (4) interrogative sentence represented as a set of phrases containing the main and dependent words and corresponding stochastic index words bases

Figure 00000012

где I ξi (u) I ξj (u) - стохастические индексы соответственно главного и зависимого основ слов данного словосочетания, where I ξi (u) I ξj ( u) - stochastic codes respectively the main and dependent bases words of the phrase,

I ξi (r) I ξj (r) - стохастические индексы частей речи главного и зависимого слов данного словосочетания, I ξi (r) I ξj ( r) - stochastic main parts of speech codes and dependent words of the phrase,

I ξi (z) I ξj (z) - стохастические индексы соответственно морфологических и синтаксических характеристик частей речи главного и зависимого слов данного словосочетания. I ξi (z) I ξj ( z) - stochastic codes respectively morphological and syntactic characteristics of the main parts of speech of words and phrases dependent.

На основе полученных индексов формируют стохастически индексированную семантическую структуры запроса, которая в общем случае имеет следующий вид: Based on the index form a stochastically indexed semantic structure of the query, which in general has the following appearance:

Figure 00000013

где I ξ1 (su) - индекс вопросительного словосочетания, where I ξ1 (su) - Index interrogative phrases

I ξ2 (su) - индекс словосочетания подлежащего, I ξ3 (su) - индекс словосочетания сказуемого, I ξ2 (su) → I ξ3 (su) - предикативная основа предложения , связывающая подлежащее и сказуемое , I ξ3 (su) → I ξ4 (su) связь между сказуемым и дополнением (обстоятельством), определяющая тип отношения в данном предложении, I ξ4 (su) - индекс словосочетаний дополнения (обстоятельства), I ξ5 (su) - индекс словосочетания обстоятельства (дополнения). I ξ2 (su) - index of phrases to be, I ξ3 (su) - phrases index predicate, I ξ2 (su) → I ξ3 (su) - predicative basis of a proposal that links the subject and predicate, I ξ3 (su) → I ξ4 ( the su) connection between predicate and complement (circumstance), which determines the type of relationship in this proposal, I ξ4 (su) - index additions phrases (circumstances), I ξ5 (su) - phrases index circumstances (add-on).

По полученным индексам выражений (6, 7) путем обращения к базе (10) стохастически индексированных текстов по заданным темам с использованием таблиц индексов текстов по заданной теме (Фиг.4) находят совокупность фрагментов, в которые входят все словосочетания запроса, включая вопросительное словосочетание. The obtained expressions indexes (6, 7) by referring to a database (10) for stochastically indexed text specify the art using text index table for a given topic (4) find the set of fragments which include all combinations request including the interrogative phrase. При этом каждый фрагмент текста может состоять из одного или нескольких абзацев. Thus, each text fragment may consist of one or more paragraphs.

Если будут найдены один или несколько текстов, отвечающих указанным условиям, то переходят к дальнейшей обработке абзацев этих текстов с использованием таблиц индексов каждого из них. If one or more texts that meet the above conditions are found, then proceed to the further processing of these texts paragraph by using index tables for each of them. Отметим: наличие в таблице индексов одного из текстов индекса I ξ1 (su) вопросительного словосочетания, содержащего индекс вопроса (в списке I ξi (s) одной из ячеек таблицы) и связанного с ним индекса основы главного слова, свидетельствует о том, что в указанном абзаце данного текста есть предложение, которое содержит группу слов ответа I ξ0 (su) , связанную с главным словом вопросительного словосочетания: (I ξ0 (su) → I ξ1 (su) ) . Note: the presence in the Index Table is one of the texts of the index I ξ1 (su) interrogative phrases containing question index (the list I ξi (s) of one of the cells in the table) and the related index-based main word indicates that in this paragraph of the text is a sentence that contains the word group Answer I ξ0 (su), associated with the main word interrogative combinations: (I ξ0 (su) → I ξ1 (su)).

Если не будет найден хотя бы один из текстов, отвечающий данным условиям, то переходят к эквивалентным преобразованиям запроса пользователя путем замены слов, которые не вошли в абзац текста, на синонимы и близкие по смыслу слова, а также применяя замену частей речи и членов предложения без изменения смысла запроса. If it finds at least one of the texts that meet these conditions, then transferred to equivalent transformation of the user query by replacing the words, which were not included in the paragraph of text, synonyms and related words and using replacement parts of speech and sentences without change request sense.

Дальнейшую обработку текста, отвечающего указанным выше условиям, производят по таблице индексов данного текста. The further processing of the text corresponding to the above conditions, the index table produced by this text. С этой целью, используя индексы вопросительного словосочетания I ξ1 (su) путем обращения к таблице индексов текста из базы (10), находят предложение, содержащее группу слов ответа, которая соответствует вопросительному словосочетанию запроса и связана с главным словом этого запроса. To this end, using the codes question phrases I ξ1 (su) by referring to the index table from a database of text (10), are bid response comprising a group of words, which corresponds to an interrogative request phrase and associated with the principal word of this request. Если словосочетания If the phrase

Figure 00000014

запроса при этом входят в разные абзацы различных текстов request at the same time included in the different paragraphs of various texts

Figure 00000015

то необходимым условием для формирования единого, логически связанного текста ответа является наличие хотя бы в одном из абзацев группы слов ответа I ξ0 (su) , соответствующего I ξ1 (su) вопросительного словосочетания запроса, и предикативной основы I ξ2 (su) → I ξ3 (su) выражения (7), в которую в общем виде входят индексы словосочетаний подлежащего и сказуемого. the prerequisite for the formation of a single, logically associated response text is the existence of at least one one of the above groups of words Answer I ξ0 (su), the corresponding I ξ1 (su) interrogative phrase query and predicate bases I ξ2 (su) → I ξ3 ( su) of the expression (7), which generally includes codes phrases subject and predicate. Если указанное условие выполняется, то выделенная совокупность абзацев используется при дальнейшей обработке, поскольку на основе предварительно выбранных абзацев можно попытаться сформировать единый, логически связанный текст ответа. If this condition is met, the selected set of paragraphs is used in further processing, because on the basis of pre-selected paragraphs, you can try to form a single logically associated reply. В противоположном случае необходимо перейти к вводу и индексированию новых текстов по данной теме. Otherwise, you must go to the capture and indexing of new texts on the subject.

Рассмотрим сначала более простой случай формирования релевантного ответа, когда фрагмент текста, содержащего все словосочетания запроса, может быть образован на основе одного или нескольких последовательных абзацев данного текста. We first consider the simple case of forming a relevant response when a piece of text that contains all the query phrases, may be formed on the basis of one or more consecutive paragraphs of text. В этом случае сначала формируют основу стохастически индексированной семантической структуры ответа пользователя в виде следующего выражения: In this case, first form the basis of a stochastically indexed semantic structure of the user response as the following expression:

Figure 00000016

где I ξ0 (su) - индекс группы слов ответа, I ξ1 (su) - индекс вопросительного словосочетания, I ξ2 (su) - индекс словосочетания подлежащего, I ξ3 (su) - индекс словосочетания сказуемого, I ξ2 (su) → I ξ3 (su) - предикативная основа предложения . where I ξ0 (su) - group index response words, I ξ1 (su) - index of question phrases, I ξ2 (su) - phrase index of the subject, I ξ3 (su) - phrase index predicate, I ξ2 (su) → I ξ3 (su) - predicative basis of the proposal. С этой целью после определения в данном фрагменте текста предложения, где в индексированном виде содержится группа слов ответа, связанная с главным словом вопросительного словосочетания (I ξ0 (su) → I ξ1 (su) ) , находят предложение, в которое входит предикативная основа (I ξ2 (su) → I ξ3 (su) ). For this purpose, after determining in this text fragment of the sentence with the indexed form contains a group of words response associated with the main word question phrases (I ξ0 (su) → I ξ1 (su)), are a bid, which includes predicative basis (I ξ2 (su) → I ξ3 ( su)).

Поскольку указанные группы слов в общем случае входят в разные выражения, то для образования семантической структурной схемы (8) реализуют процедуру логического вывода с использованием индексированных предложений данного фрагмента текста. Since these word groups in general are different in expression, to form a semantic structural scheme (8) realize a logical inference procedure using the present proposals indexed text fragment. С этой целью предложение c номером i , содержащее группу слов ответа, представляют в следующем виде: For this purpose, c bid number i, the response comprising a group of words are as follows:

Figure 00000017

где I ξ0 (su) - индекс группы слов ответа, I ξ1 (su) - индекс вопросительного словосочетания, I ξ2i (su) - индекс словосочетания подлежащего, I ξ3i (su) - индекс словосочетания сказуемого, I ξ2i (su) → I ξ3i (su) - предикативная основа предложения , I ξ3i (su) → I ξ4i (su) - связь между сказуемым и дополнением (обстоятельством), определяющая тип отношения в данном предложении, I ξ4i (su) - индекс словосочетаний дополнения (обстоятельства), I ξ5i (su) - индекс словосочетания обстоятельства (дополнения). where I ξ0 (su) - group index response words, I ξ1 (su) - index of question phrases, I ξ2i (su) - phrase index of the subject, I ξ3i (su) - phrase index predicate, I ξ2i (su) → I ξ3i (su) - predicative basis of the proposal, I ξ3i (su) → I ξ4i (su) - connection between predicate and complement (circumstance), which determines the type of relationship in this proposal, I ξ4i (su) - index additions phrases (circumstances), I of ξ5i (su) - index phrases circumstances (add-on).

Для реализации логического вывода на основе выражения (9) с использованием транзитивной зависимости формируется стохастически индексированная семантическая структура типа тема → рема предложения с номером i : To implement inference on the basis of the expression (9) using a transitive depending formed stochastically indexed semantic topic type structure → Rem offers a number i:

Figure 00000018

где тема является индексом I ξ2i (su) словосочетания подлежащего, а рема - индексом I ξ4i (su) словосочетания дополнения (обстоятельства). where the theme is the index I ξ2i (su) combinations of the subject, and Rem - index I ξ4i (su) supplement combinations (circumstances).

При этом предложение с номером j , содержащее предикативную основу запроса, имеет в общем случае следующую стохастически индексированную семантическую структуру: In this proposal with a number j, comprising predicative request basis has generally following a stochastically indexed semantic structure:

Figure 00000019

где I ξ2 (su) - индекс словосочетания подлежащего запроса, I ξ3 (su) - индекс словосочетания сказуемого запроса, I ξ2 (su) → I ξ3 (su) - предикативная основа предложения запроса , I ξ3 (su) → I ξ4j (su) - связь между сказуемым и дополнением (обстоятельством), определяющая тип отношения в данном предложении с номером j , I ξ4 (su) - индекс словосочетаний дополнения (обстоятельства), I ξ5j (su) - индекс словосочетания обстоятельства (дополнения). where I ξ2 (su) - phrases index subject request, I ξ3 (su) - phrases index predicate query, I ξ2 (su) → I ξ3 (su) - predicative base query suggestions, I ξ3 (su) → I ξ4j (su ) - the connection between predicate and complement (circumstance), which determines the type of relationship in this proposal with the number j, I ξ4 (su) - index additions phrases (circumstances), I ξ5j (su) - phrases index circumstances (add-on). Затем выражение (11) преобразуется в следующую семантическую структуру тема → рема предложения с номером j : Then, the expression (11) is transformed into the following semantic structure Topic → Rema offers a number j:

Figure 00000020

Отметим, что в текстовой информации между законченными предложениями имеется семантическая, а следовательно, и грамматическая (синтаксическая) связь. Note that in the text information between complete sentences has semantic, and hence the grammatical (syntax) bond. Существуют два способа структурной соотнесенности предложений - синтаксической связи между ними. There are two methods of structural relatedness offers - syntactic relations between them. Первый способ можно назвать цепной (последовательной), а второй - параллельной связью. The first method may be mentioned a chain (sequential), and the second - parallel connection.

Цепная связь отражает последовательное развитие мысли в связном тексте. Chain link reflects the consistent development of ideas in a coherent text. Тема - это исходный пункт, начало движения мысли, "данное", рема - развитие мысли, ее основа, ядро, "новое". Theme - a starting point, the beginning of the movement of thought, "this," Remus - the development of thought, its base, the core, the "new".

Синтаксический характер цепной связи выражается в структурной соотнесенности двух соседних предложений. Syntactic nature of the chain connection is expressed in the structural relatedness of two adjacent sentences. Обычно какой-либо член предшествующего предложения, например дополнение, в последующем предложении становится подлежащим. Typically, any member of the previous proposals, such as addition, become subject to the following sentence. Наиболее распространенные структурные виды цепной связи "дополнение - подлежащее", "дополнение - дополнение", "подлежащее - дополнение", "подлежащее - подлежащее" и др. The most common types of structural chain of communication "addition - subject to", "addition - addition", "subject - addition", "subject - subject" and others.

Структурная соотнесенность между предложениями при цепной связи выражается: а) с помощью лексического повтора (когда соотносящиеся члены предложений выражены одинаково); The structural relatedness between sentences in a chain connection is expressed: a) via the lexical repetition (when correlated members proposals expressed the same); б) посредством синонимической лексики; b) by synonymous vocabulary; в) с помощью местоимений. c) using pronouns.

Цепная связь - один из важнейших и наиболее распространенных способов связи самостоятельных предложений. Chain link - one of the most important and most common means of communication independent proposals.

Параллельная связь, как и цепная, заключается в структурной соотнесенности соединяемых предложений. Parallel connection, as a chain, is the structural relatedness of connected offers. Однако характер этой соотнесенности иной. However, the nature of this correlation is different. Основные структурные признаки параллельной связи предложений: а) параллелизм структуры (однотипность или синтаксическая близость соединяемых предложений); The main structural features of the parallel connection offers: a) The structure of parallelism (or syntactic uniformity proximity connected sentences); б) параллельный (сходный) порядок слов; b) parallel (similar to) the order of words; в) одинаковое грамматическое выражение всех или некоторых членов предложений. c) the same grammatical expression of all or some members of the proposals.

Семантическим "входом" как в цепную, так и в параллельную структуры связи абзаца является тема начального ее предложения в связанных предложениях данного абзаца или нескольких последовательных абзацев текста. Semantic "input" in the chain, and in the parallel connection structure of the paragraph is the topic of its initial proposals related sentences of this paragraph or several consecutive paragraphs of text.

В соответствии с этим на основе элементарной семантической структуры каждого предложения типа тема → рема с помощью логического вывода могут быть сформированы более сложные семантические структуры, определяющие связи между предложениями как последовательного, так и параллельного типа. Accordingly, on the basis of each sentence type semantic structure unit topic → Rem via inference can be formed more complex semantic structure defining communication between sentences as a serial or parallel type. Поэтому необходимым условием семантической связи между группой слов ответа, содержащейся в предложении с номером i , и предикативной основой предложения запроса, которая входит в состав предложения с номером j , является доказательство с помощью логического вывода их вхождения в единую семантическую структуру данного фрагмента текста. Therefore, a prerequisite semantic connection between a group of words response contained in the sentence with the number i, and the predicative basis RFP, which is part of the proposal numbered j, it is the proof using the inference of their entry into a single semantic structure of the text fragment. В стохастически индексированном виде эта структура может выглядеть следующим образом: This structure may appear as follows in the form of a stochastically indexed:

Figure 00000021

Логический вывод для установления семантической связи между указанными группами слов производят по таблице индексов текста базы (10) стохастически индексированных текстовых документов по заданным темам. Inference to establish communication between said semantic word groups produced by the text index table base (10) stochastically indexed text documents specify the art. С этой целью используется подсистема (6) логического вывода и подсистема (5) эквивалентных преобразований текста. For this purpose a subsystem (6) and the inference subsystem (5) equivalent transformations text. При этом логический вывод начинается с предложения с номером i , содержащего группу слов ответа, которая связана с главным словом вопросительного словосочетания, предикативную основу запроса, и имеет стохастически индексированную семантическую структуру (9). In this inference begins with offers for i number of words containing a group response, which is associated with the main word question phrases predicative request basis, and has a stochastically indexed semantic structure (9).

После представления названного предложения в виде семантической структуры типа тема → рема (10) по таблице индексов находят следующее предложение, в котором рема данного предложения переходит в тему следующего предложения. Following the presentation of the title offers a semantic structure type topic → Rem (10) of the index table are the following sentence, wherein Rema this proposal goes to the next sentence topic. Для этого используют ячейки, которые соответствуют индексу данного абзаца I ξj (а) и индексу словосочетания I ξ4i (su) , являющегося дополнением или обстоятельством предложения с номером i . For this purpose, the cells that correspond to the index of the paragraph I ξj (a) and combinations index I ξ4i (su), which is the complement or circumstance offers for i number. По этим ячейкам находят номер предложения данного абзаца, в котором данное словосочетание включает подлежащее. For these cells find room offers this paragraph in which this phrase includes the subject. Затем, используя адресную информацию ячейки, находят индекс сказуемого указанного предложения и связанные с ним индексы словосочетания дополнения или обстоятельства I ξ4k (su) , т.е. Then, using the address information of the cell, find the index of the predicate of the proposal and the related phrases indexes additions or circumstances I ξ4k (su), ie в соответствии с выражением (13) рему следующего предложения, логически связанного с предыдущим и т.д. in accordance with the expression (13) bumps next proposal is logically associated with the previous, etc. Логический вывод продолжается до тех пор, пока в очередном предложении, определяемом связью (I ξ2 (su) → I ξ4j (su) ) , не будут содержаться индексы (I ξ2 (su)I ξ3 (su) ) , которые соответствуют предикативной основе запроса. Inference continues as long as the next sentence, determines the relationship (I ξ2 (su) → I ξ4j (su)), no codes will contain (I ξ2 (su) → I ξ3 (su)), which correspond predicative basis request.

Если в ходе логического вывода индекс ремы I ξ4n (su) очередного предложения не совпадает с темой I ξ2n+1 (su) последующего предложения, то это означает, что в последующем предложении используется либо синоним данного слова, либо местоимение. If in the course of inference index theorem I ξ4n (su) next proposal does not coincide with the theme I ξ2n + 1 (su) subsequent offers, it means that in a subsequent sentence is used either a synonym of the word or pronoun. В первом случае по индексам основ слов I ξ2n+1 (su) этого словосочетания обращаются к таблице индексов словаря синонимов базы (8) стохастически индексированных лингвистических текстов. In the first case, the index-based words I ξ2n + 1 (su) of the phrase refer to Index Table synonym dictionary database (8) stochastically indexed linguistic texts. Здесь находят основы слов синонимов {I ξs (u) } , из которых можно образовать индекс I ξ4n (su) ремы предыдущего предложения. Here are the basics of words synonyms {I ξs (u)}, of which we can form the index I ξ4n (su) theorem of the previous sentence. Во втором случае индекс I ξ2n+1 (su) темы следующего предложения может соответствовать местоимению, согласованному со словосочетанием I ξ4n (su) , что проверяется по таблице индексов словаря базы данных (7). In the second case, the index I ξ2n + 1 (the su) threads the next sentence can match the pronoun, agreed with the phrase I ξ4n (su), which can be verified on the index table dictionary database (7). При выполнении первого или второго условия логический вывод продолжается, пока не будет найдено предложение, содержащее искомое словосочетание запроса, в данном случае (I ξ2 (su) → I ξ3 (su) ) предикативной основы запроса. When the first or second condition inference continues until a proposal is found which contains the required phrase query, in this case (I ξ2 (su) → I ξ3 (su)) predicative bases of the query. Таким образом, в ходе логического вывода будет синтезирована стохастически индексированная семантическая структура, описанная выражением (13). Thus, in the semantic structure described expression (13) it will be synthesized stochastically indexed during the inference.

Поскольку в рассматриваемом случае все словосочетания запроса входят в один абзац или в группу последовательных абзацев одного текста, то логический вывод в данном фрагменте текста будут продолжать с целью образования единой стохастически индексированной семантической структуры, содержащей все словосочетания запроса, включая словосочетания дополнения I ξ4 (su) и обстоятельства I ξ5 (su) : Since in this case all the query phrases included in one paragraph, or a group of consecutive paragraphs of text, the inference in this text fragment will continue to form a single stochastically indexed semantic structure containing all combinations request including combinations Supplement I ξ4 (su) and the circumstances I ξ5 (su):

Figure 00000022

С этой целью реализуют описанные выше функции логического вывода по схеме тема → рема до тех пор, пока все словосочетания запроса, входящие в различные предложения данного абзаца, будут включены в семантическую структуру (14). For this purpose inference implement the functions described above for Scheme topic → Rem as long as all query phrases included in a variety of proposals of this paragraph it will be included in the semantic structure (14). Отметим, что необходимым условием синтеза указанной семантической структуры (14) является соответствие словосочетаний запроса и идентичных им словосочетаний в тексте абзаца одним и тем же членам предложений. Note that a necessary condition for the synthesis of said semantic structure (14) is matching the query phrases, and their identical phrases in the text of the paragraph with the same members proposals. Поэтому, если некоторые словосочетания, идентичные словосочетаниям запроса в предложениях текста, относятся к другим членам предложения, то эти предложения подвергают эквивалентным преобразованиям с тем, чтобы указанные словосочетания относились к требуемым членам предложений. Therefore, if some phrases identical to phrases request in the proposed text, referring to other members of the supply side, these proposals are subjected to equivalent transformation so that these phrases were treated to the required parts of the sentence. Эти функции выполняют описанным выше порядком в подсистеме (5) эквивалентных преобразований текста. These functions are performed by the above described procedure in a subsystem (5) equivalent transformations text.

После образования семантической структуры (14) переходят к контролю ее непротиворечивости. After the formation of the semantic structure (14) pass to control its consistency. С этой целью проверяют семантическое соответствие словосочетания сказуемых {I ξ3i (su) }, входящих в каждое из предложений, на основе которых образована семантическая структура (14), базовым отношениям. To this end, semantic checking matching phrase predicates {I ξ3i (su)}, included in each of the proposals on the basis of which is formed by semantic structure (14), the base relations. К ним относятся родовидовые отношения, отношения типа "часть-целое" или "причина-следствие" (условие-заключение). They are of generic relations, relations of "part-whole" or "cause-effect" (condition-conclusion). Эти отношения определяются путем обращения по указанным индексам к базе (8) стохастически индексированных текстов для поиска семантических значений сказуемых {I ξ3i (su) } в таблицах индексов толковых словарей. These relationships are determined by inverting on these indices to the base (8) is stochastically indexed text search predicates of semantic values {I ξ3i (su)} in the Index Tables dictionaries. При этом проверяется идентичность семантических значений сказуемых {I ξ3i (su) } индексам указанных выше базовых отношений или их синонимов, записанных в интерпретатор (4). It checks the identity semantic values predicates {I ξ3i (su)} indices base relations or above their synonyms recorded in the shell (4). В случае выполнения данных условий в образованной семантической структуре (14) поддерживается транзитивная зависимость. In the case of these conditions formed in the semantic structure (14) is supported by a transitive relationship. Поэтому любое искомое словосочетание запроса с индексом I ξj (su) может быть перенесено в формируемое предложение ответа с использованием логического вывода на образованной семантической структуре типа тема → рема после словосочетания с индексом I ξj-1 (su) . Therefore, any desired query phrase index I ξj (su) can be moved in a bid response formed using inference formed on semantic topic type structure after phrases → Rem index I ξj-1 (su). Если это условие не выполняется, то данный абзац не содержит ответа, релевантного запросу пользователя. If this condition is not fulfilled, this paragraph does not answer, the relevant request of the user. В этом случае переходят к анализу следующего предварительно выбранного абзаца или совокупности последовательных абзацев. In this case, the analysis proceeds to the next preselected plurality of successive paragraph or paragraphs.

Описанную процедуру логического вывода для определения семантической связи между словосочетаниями запроса при нахождении их в различных предложениях абзаца производят до тех пор, пока не будет сформирован краткий ответ пользователю в виде предложения, содержащего группу слов ответа, вопросительное словосочетание, предикативную основу и все другие словосочетания, которые входят в ответ. Described inference procedure for determining a semantic relationship between phrases request when finding them in different paragraphs proposals produced as long as the short answer to the user in the form of a sentence containing a group answer words to be formed, interrogative phrase predicative basis and all other phrases that included in the response. При этом сформированный краткий ответ будет представлен в виде следующей стохастически индексированной семантической структуры: Thus formed short answer will be presented in the following stochastically indexed semantic structure:

Figure 00000023

где I ξ0 (su) - индекс группы слов ответа, I ξ1 (su) - индекс вопросительного словосочетания, I ξ2 (su) - индекс словосочетания подлежащего, I ξ3 (su) - индекс словосочетания сказуемого, I ξ2 (su) → I ξ3 (su) - предикативная основа предложения , I ξ3 (su) → I ξ4 (su) - связь между сказуемым и дополнением (обстоятельством), определяющая тип отношения в данном предложении, I ξ4 (su) - индекс словосочетаний дополнения (обстоятельства), I ξ5 (su) - индекс словосочетания обстоятельства (дополнения). where I ξ0 (su) - group index response words, I ξ1 (su) - index of question phrases, I ξ2 (su) - phrase index of the subject, I ξ3 (su) - phrase index predicate, I ξ2 (su) → I ξ3 (su) - predicative basis of the proposal, I ξ3 (su) → I ξ4 (su) - connection between predicate and complement (circumstance), which determines the type of relationship in this proposal, I ξ4 (su) - index additions phrases (circumstances), I of ξ5 (su) - index phrases circumstances (add-on).

При этом корректность краткого ответа обеспечивают путем формирования описанным выше порядком нескольких идентичных стохастически индексированных семантических структур (15) на основе различных, предварительно выбранных стохастически индексированных фрагментов текстовых документов. Thus correctness brief response achieved by forming the above-described order of several identical stochastically indexed semantic structures (15) based on various preselected fragments stochastically indexed text documents.

Сформированное выражение (15) означает, что в результате логического вывода получен краткий ответ, идентичный вопросительному предложению запроса. Formed expression (15) means that the result of inference obtained brief answer identical interrogative sentence request. Поэтому данный ответ является релевантным запросу пользователя. Therefore, the answer is relevant to the user query. Он может быть выдан пользователю после преобразования в текстовую форму на данном языке в виде знания, сформированного системой в соответствии с его запросом. It can be issued to the user after converting into text form on this language as a knowledge system formed in accordance with its request.

При необходимости получения по требованию пользователя более полного ответа переходят к преобразованию исходного абзаца текста, на основе которого сформирован краткий ответ, а при необходимости и последующих абзацев текста. If necessary, obtain on demand a better response to the conversion initial pass paragraph of text, on which is formed a short response, and if necessary subsequent paragraphs of text. Это производят с целью получения на основе указанных абзацев единой стохастически индексированной семантической структуры, дающей возможное уточнение краткого ответа в рамках данного фрагмента текста. This is done in order to obtain on the basis of said single paragraphs stochastically indexed semantic structure giving possible refinement brief answer within a given piece of text. Описанные функции формирования полного ответа будут представлены ниже. The described functions of forming a complete response will be presented below.

Если же в результате предварительного поиска по таблице индексов текстов не будут найдены тексты, содержащие абзацы, включающие все словосочетания ответа, то по полученным индексам запроса находят тексты, фрагменты которых в совокупности включают все словосочетания запроса. If as a result of the pre-search table text indexes are not texts will be found that contain paragraphs that include all the phrases response, then get the index of the query is the text fragments which together include all combinations of the request. Если такая совокупность не будет найдена, то это означает, что содержание базы (10) стохастически индексированных текстовых документов не позволяет сформировать ответ, релевантный запросу пользователя. If such set is found, it means that the content of the base (10) is stochastically indexed text documents does not allow to generate a response, the relevant request of the user. В этом случае необходимо перейти к вводу и индексированию новых текстов по данной теме из поисковой системы. In this case, you must go to the capture and indexing of new texts on the subject of the search engine.

В процессе предварительного выбора, используя таблицу индексов текстов по индексам словосочетаний S:{I ξi (u) → I ξj (u) } запроса, выбирают для каждого текста фрагменты в виде совокупности абзацев, содержащих все словосочетания запроса During the pre-selection using a text index table for indexes phrases S: {I ξi (u) → I ξj (u)} request is selected for each of the text fragments as a set of paragraphs having all query phrases

V:={I ξi (t) , I ξj (a) }, V: = {I ξi (t ), I ξj (a)},

где I ξi (t) , I ξj (a) - соответственно индекс текста и индекс абзаца данного текста, содержащих определенные словосочетания запроса пользователя. where I ξi (t), I ξj (a) - respectively the text index and the paragraph of text containing certain combinations user query. Если индексы I ξi (su) :{I ξi (u) I ξj (u) } словосочетаний запроса не входят в полном составе ни в один абзац (I ξi (t) , I ξj (a) ) хотя бы одного из текстов I ξi (t) , а содержатся в различных абзацах одного текста или в различных абзацах разных текстов V:={I ξi (t) , I ξj (a) } , то на основе предварительно выбранных абзацев фрагментов текстов необходимо сформировать единый логически связанный текст, содержащий все словосочетания запроса If the indices I ξi (su): {I ξi (u) → I ξj (u)} query phrases are not included in full or in one paragraph (I ξi (t), I ξj (a)) of at least one of the texts I ξi (t), and contained in different paragraphs of text or in different paragraphs various texts V: = {I ξi (t ), I ξj (a)}, then on the basis of pre-selected paragraph text fragments is necessary to form a single logically associated text containing all query phrases

S:={I ξi (su) }, включая вопросительное словосочетание. S: = {I ξi (su )}, including the interrogative phrase.

Если словосочетания S:={I ξi (su) }, при этом входят в разные абзацы различных текстов V:={I ξi (t) , I ξj (a) } , то необходимым условием для формирования единого, логически связанного текста ответа является наличие хотя бы в одном из абзацев индексов группы слов ответа I ξ0 (su) , главного слова вопросительного словосочетания I ξ1 (su) запроса и предикативной основы (I ξ2 (su) → I ξ3 (su) ) выражения (15), в которую в общем виде входят индексы словосочетаний подлежащего и сказуемого. If phrases S: = {I ξi (su )}, wherein included in different paragraphs various texts V: = {I ξi (t ), I ξj (a)}, the prerequisite for the formation of a single, logically associated response text is the presence of at least one of the paragraphs of the index group of words the answer I ξ0 (su), main word interrogative phrases I ξ1 (su) request and predicative bases (I ξ2 (su) → I ξ3 (su)) expression (15), in which generally includes codes phrases subject and predicate.

Если указанное условие выполняется, то выделенная совокупность абзацев используется при дальнейшей обработке, поскольку на основе предварительно выбранных абзацев можно попытаться сформировать единый, логически связанный текст ответа. If this condition is met, the selected set of paragraphs is used in further processing, because on the basis of pre-selected paragraphs, you can try to form a single logically associated reply. В противоположном случае необходимо перейти к вводу и индексированию новых текстов по данной теме. Otherwise, you must go to the capture and indexing of new texts on the subject.

При выполнении указанного условия переходят к формированию логически связанной совокупности указанных абзацев. When the specified conditions are transferred to the formation of said plurality of logically related paragraphs. С этой целью проверяют выполнение следующего условия: каждое словосочетание входит не менее чем в два различных абзаца: For this purpose, the following condition is checked: each phrase is included in at least two different paragraphs:

Figure 00000024

При невыполнении этого условия проверяется, есть ли в абзацах, содержащих только одно словосочетание запроса I ξi (su) , другое словосочетание I ξk (su) , которое содержится в других предварительно выбранных абзацах и связано со словосочетанием I ξi (su) одним из базовых семантических отношений. If not, it is checked whether there is a paragraph that contains only one phrase query I ξi (su), another phrase I ξk (su), which is contained in other pre-selected paragraphs and associated with the words I ξi (su) one of the basic semantic relations. Для проверки этого положения подсистема (3) управления режимом самообучения и извлечения знаний формирует запрос на поиск предложения в базе (8) стохастически индексированных лингвистических текстов, в которое входят указанные индексы, связанные отношением тема → рема: To check this position subsystem (3) control mode and self-knowledge extraction generates a request for proposals in the base (8) is stochastically indexed linguistic texts, which includes these indices are related by theme → Rem:

Figure 00000025

Найденное предложение поступает в интерпретатор (4) стохастически индексированного текста и правил продукций, где проверяют, соответствует ли отношение (16а) родо-видовым, агрегатным или причинно-следственным отношениям. Found bid enters the shell (4) stochastically indexed text and Product rules where it is checked whether the ratio corresponds to (16a) subsumption, aggregate or causal relationship.

При невыполнения условий (16) или (16а) считается, что данный фрагмент текста нельзя использовать для формирования ответа. When failure conditions (16) or (16a) is believed that this piece of text can not be used for forming the response.

Если эти условия выполняются, то переходят к проверке возможности сформировать на основе выделенных абзацев единую семантическую структуру. If these conditions are met, the process proceeds to the verification of possible form on the basis of the selected paragraphs single semantic structure. С этой целью, используя таблицу индексов каждого текста, содержащего предварительно выбранные абзацы, сначала формируют списки индексов словосочетаний. For this purpose, using the index table each text containing preselected paragraphs, lists of phrases is first formed indices. Данные индексы словосочетаний входят в абзац, обозначенный соответствующим индексом: These indices includes phrases in the paragraph labeled appropriate index:

Figure 00000026

Затем определяют, с какими из абзацев связан каждый данный абзац посредством идентичных индексов словосочетаний в списках указанных абзацев. It is then determined which of the related paragraphs each active paragraph by identical indices phrases in lists these paragraphs. На основе указанных списков для каждого индекса абзаца составляются новые списки, каждый из которых содержит индексы других абзацев, связанных с данным абзацем идентичными индексами словосочетаний. On the basis of these lists for each paragraph of the index compiled new lists, each of which contains the indices of other paragraphs related to this paragraph indexes identical phrases. Если при этом каждый из списков содержит не менее одного индекса абзаца, входящего не менее чем в один из других списков, то, используя прямые или транзитивные связи между списками, образуют единый список, в который входят индексы всех абзацев. If each of the lists contains at least one paragraph of the index included in at least one of the other lists, then by using direct or transitive relation between the lists to form a single list, which includes the indices of all paragraphs. В этом случае полагают, что предварительно выбранные абзацы образуют логически связанную совокупность абзацев в виде единого фрагмента текста. In this case it is believed that the pre-selected passages form a logically related set of passages in the form of a single text fragment. В противоположном случае считается, что данная совокупность абзацев не образует логическую структуру, необходимую для формирования единого фрагмента текста. In the opposite case it is assumed that the set of paragraphs does not form a logical structure necessary to form a single text fragment. При этом она исключается из процесса обработки, и переходят к предварительному выбору новых фрагментов текстов. At the same time it is removed from the treatment process, and proceeds to the pre-selection of new fragments of texts.

После определения того, что предварительно выбранные абзацы образуют единую структуру логически связанных абзацев, на основе соответствующих таблиц индексов каждого текста формируют единую таблицу текста. Upon determining that the pre-selected passages form a single coherent structure paragraphs, based on the corresponding index tables each form a single text table text. При этом указанные абзацы располагаются в последовательности, определяемой порядком следования входящих в них словосочетаний запроса в вопросительном предложении запроса. Wherein said passages are arranged in a sequence determined by the order of the incoming query phrases therein in interrogative sentence request. Полученный в результате фрагмент текста поступает в дальнейшую обработку для определения с помощью логического вывода вида семантических связей между предложениями абзацев, содержащих все словосочетания {I ξi (u) } запроса. The resulting fragment of text is supplied to the further processing for determining using inference form semantic relationships between paragraphs, sentences containing all the phrases {I ξi (u)} query. Цель реализации указанных функций - попытка сформировать на основе полученного фрагмента текста в соответствии с описанным выше алгоритмом стохастически индексированную семантическую структуру, включающую все словосочетания запроса. The purpose of the implementation of these functions - based on an attempt to form text fragment obtained in accordance with the algorithm described above stochastically indexed semantic structure including all query phrases. Затем полученная семантическая структура с использованием эквивалентных преобразований и логического вывода на транзитивных зависимостях в соответствии с описанным выше алгоритмом применяется для формирования семантической структуры (15) предложения, содержащего краткий ответ, релевантный запросу пользователя. Then, the resulting semantic structure using equivalent transformation and inference on transitive dependences in accordance with the algorithm described above is used to form the semantic structure (15) supply comprising a short answer relevant user request. При этом корректность краткого ответа обеспечивают путем формирования описанным выше порядком нескольких идентичных стохастически индексированных семантических структур (15) на основе различных, предварительно выбранных стохастически индексированных фрагментов текстовых документов. Thus correctness brief response achieved by forming the above-described order of several identical stochastically indexed semantic structures (15) based on various preselected fragments stochastically indexed text documents.

Полученный краткий ответ вместе с вопросительным словосочетанием при этом записывается в базу знаний (9) "запрос-ответ", которая используется для обработки повторяющихся типовых запросов пользователей, а также, как описано выше, при семантическом анализе индексируемых текстов. The resulting short response together with a question phrase thus recorded in the knowledge base (9) "request-response" which is used to process user requests repetitive model as well, as described above, when the semantic analysis of the text being indexed.

Если после образования семантической структуры выяснится, что между словосочетаниями {I ξi (su) } запроса в данном фрагменте текста не поддерживаются требуемые базовые семантические связи, то переходят к поиску новых текстов для формирования ответа пользователя. If it turns out after the formation of semantic structure between phrases {I ξi (su)} in the query text fragment is not supported by the required basic semantic links, the process proceeds to the search of new texts for generating a user response.

В случае положительного результата логического вывода будет сформировано предложение, содержащее краткий ответ, релевантный запросу, для выдачи его пользователю в текстовом виде на заданном языке. In the case of a positive result of inference is formed bid comprising a short answer relevant request for issuance to the user as text in a given language. Если при этом пользователь потребует дать ему более полный ответ, то переходят к формированию полного ответа на основе преобразования полученного ранее фрагмента текста в соответствии с описанным ниже алгоритмом. If the user requires to give it a more full response, the process proceeds to the formation of a complete answer based on the conversion obtained in the above text fragment in accordance with the algorithm described below.

Рассмотрим на примере порядок реализации описанного выше алгоритма формирования краткого ответа. Consider the example procedure for implementing the algorithm described above brief formation response. Допустим, что после эквивалентных преобразований поступившего запроса пользователя он принял в текстовом выражении следующий вид: "Какая программа используется при некорректном завершении работы с компьютером в результате пропадания напряжения в сети?" Let us assume that after equivalent transformations the user making the request, he received a text expression as follows: "Which program is used when incorrect shut down your computer as a result of power failure in the network?" Это обеспечило возможность предварительного выбора следующих двух логически связанных абзацев из разных текстовых документов, содержащих в совокупности все словосочетания преобразованного запроса. This provided the opportunity to preselect the next two paragraphs logically connected from different text documents containing a total of all the phrases of the converted query. Первый абзац: The first paragraph:

" На жестком диске могут возникать логические ошибки. Логические ошибки - это нарушения в файловой структуре. Для выявления логических ошибок используется программа "Проверка диска". Логические ошибки возникают при некорректном завершении работы с компьютером". "Logic errors may occur on your hard disk Logical errors -.. This is a violation in the file structure to identify logic errors using" Check Disk "Logic errors occur when incorrect shut down your computer.".

Второй абзац: "В результате пропадания напряжения в сети на жестком диске возникают нарушения в файловой структуре. В этом случае используется программа "Проверка диска". Second paragraph: Check Disk "As a result, in this case, the program voltage network failure on the hard disk there are disturbances in the file structure.". "

В стохастически индексированном виде, в котором происходит реальный процесс обработки запроса и формирования краткого ответа, текст запроса имеет следующий вид: In stochastically indexed form in which the actual process of query processing and forming a short response, the text query is:

Figure 00000027

При этом стохастическим индексам I ξ0j (su) соответствуют следующие словосочетания: In this case, the stochastic index I ξ0j (su) comply with the following phrases:

I ξ01 (su) : = (какая программа), I ξ01 (su): = (any program)

I ξ02 (su) : = (программа), I ξ02 (su): = (program)

I ξ03 (su) : = (используется), I ξ03 (su): = (used)

I ξ04 (su) : = (при некорректном завершении), I ξ04 (su): = (if incorrect completion)

I ξ05 (su) : = (работы с компьютером), I ξ05 (su): = (with a computer)

I ξ041 (su) : = (в результате пропадания), I ξ041 (su): = (resulting loss)

I ξ051 (su) : = (напряжения в сети). I ξ051 (su): = (mains voltage).

Предложения первого абзаца в стохастически индексированном виде будут представлены следующим образом: Suggestions in the first paragraph of a stochastically indexed will be represented as follows:

Figure 00000028

При этом стохастическим индексам I ξij (su) соответствуют следующие словосочетания: In this case, the stochastic index I ξij (su) comply with the following phrases:

I ξ12 (su) : = (логические ошибки), I ξ12 (su): = (logical errors)

I ξ13 (su) : = (могут возникать), I ξ13 (su): = (may occur)

I ξ14 (su) : = (на жестком диске), I ξ14 (su): = (hard disk)

I ξ22 (su) : = (логические ошибки) I ξ22 (su): = (logical errors)

I ξ23 (su) : = (- это), I ξ23 (su): = ( - it)

I ξ24 (su) : = (нарушения в файловой структуре), I ξ24 (su): = (violations in file structure)

I ξ32 (su) : = (программа "Проверка диска"), I ξ32 (su): = ( " Check Disk" program)

I ξ33 (su) : = (используется), I ξ33 (su): = (used)

I ξ34 (su) : = (для выявления), I ξ34 (su): = (to identify)

I ξ35 (su) : = (логических ошибок), I ξ35 (su): = (logical errors)

I ξ42 (su) : = (логические ошибки), I ξ42 (su): = (logical errors)

I ξ43 (su) : = (возникают), I ξ43 (su): = (arise)

I ξ44 (su) : = (при некорректном завершении), I ξ44 (su): = (if incorrect completion)

I ξ45 (su) : = (работы с компьютером). I ξ45 (su): = (using your computer).

Предложения второго абзаца в стохастически индексированном виде будут иметь следующий вид: Sentence of the second paragraph in a stochastically indexed form will be as follows:

Figure 00000029

При этом стохастическим индексам I ξij (su) соответствуют следующие словосочетания: In this case, the stochastic index I ξij (su) comply with the following phrases:

I ξ52 (su) : = (нарушения файловой структуры), I ξ52 (su): = (violation file structure)

I ξ53 (su) : = (возникают), I ξ53 (su): = (arise)

I ξ54 (su) : = (на жестком диске), I ξ54 (su): = (hard disk)

I ξ55 (su) : = (в результате пропадания), I ξ55 (su): = (resulting loss)

I ξ551 (su) : = (напряжения в сети), I ξ551 (su): = (mains voltage)

I ξ62 (su) : = (программа "Проверка диска"), I ξ62 (su): = ( " Check Disk" program)

I ξ63 (su) : = (используется), I ξ63 (su): = (used)

I ξ64 (su) : = (для выявления), I ξ64 (su): = (to identify)

I ξ65 (su) : = (логических ошибок), I ξ65 (su): = (logical errors)

I ξ651 (su) : = (в этом случае). I ξ651 (su): = (in this case).

На основе приведенных выше стохастически индексированных семантических структур описанным выше порядком будет образована стохастически индексированная семантическая структура, включающая все I ξij (su) словосочетаний запроса. Based on the above stochastically indexed semantic structures procedure described above is formed by a stochastically indexed semantic structure including all I ξij (su) query phrases. В качестве основы выбрана структура I ξ3 (р) , которая включает группу слов ответа I ξ32 (su) , соответствующую вопросительному словосочетанию I ξ31 (su) . As a base selected structure I ξ3 (p), which comprises a group of words Answer I ξ32 (su), corresponding interrogatory phrase I ξ31 (su). При этом учитывается идентичность (с точностью до основ слов) следующих индексов словосочетаний: This takes into account the identity (up to the foundations of words) the following indices phrases:

Figure 00000030

В результате указанная стохастически индексированная структура будет иметь следующий вид: As a result stochastically indexed said structure will have the following form:

Figure 00000031

Учитывая, отмеченную выше идентичность соответствующих индексов и тот факт, что зависимости между индексами в данной семантической структуре имеют родо-видовой и причинно-следственный характер, получим с использованием логического вывода на транзитивных зависимостях следующую структуру: Considering identity noted above respective indices and the fact that the relationship between the indices in the semantic structure are genus-specific and causal obtain using inference on transitive dependencies following structure:

Figure 00000032

В результате будет сформирована стохастически индексированная семантическая структура краткого ответа, которая в текстовом представлении будет иметь следующее вид: "Программа "Проверка диска" используется при некорректном завершении работы с компьютером в результате пропадания напряжения в сети" . As a result, a stochastically indexed semantic structure brief response will be formed, which in a tabular representation will have the following form: "Program" Check Disk "is used when incorrect finished using the computer as a result of power failure in the network."

Полученный краткий ответ после замены группы слов ответа "Программа "Проверка диска" на соответствующее вопросительное словосочетание "Какая программа" будет идентичен запросу: "Какая программа используется при некорректном завершении работы с компьютером в результате пропадания напряжения в сети?" . Это является критерием релевантности полученного краткого ответа запросу. Поэтому полученный краткий ответ может быть выдан пользователю. The resulting short answer after replacing the "Program" Check Disk Response Group of the words "at the appropriate interrogative phrase" Which program "will be identical to the query:" Which program is used when incorrect shut down your computer as a result of power failure in the network, "It is a measure of relevance obtained?. brief response request. Therefore the resulting short response can be issued to the user.

Для формирования полного ответа на основе предварительно выбранного абзаца или полученного фрагмента текста отбирают только те предложения, которые были задействованы в логическом выводе при формировании краткого ответа-предложения. To form the complete answer based on pre-selected paragraph or text fragment obtained select only those offers which have been involved in the inference in the formation of short-offer response. При этом из предложений указанных абзацев или фрагментов текстов выстраивают последовательности, обусловленные логическими связями. In this proposal mentioned paragraphs or fragments of text build sequence due logical connections. Порядок логических связей такой же, как при определении семантической связанности между словосочетаниями запроса. The order of the logical links is the same as in the determination of semantic relatedness between the query phrases. Эти словосочетания, входящие в состав разных предложений, связаны с теми словосочетаниями запроса, которые имеются в составе предложения, содержащего группу слов ответа и главное слово вопросительного словосочетания. These phrases are part of the various proposals associated with the query phrases that are in sentences containing a group of words and answer the main question word phrases. Порядок следования цепочек предложения определяется порядком следования соответствующих им словосочетаний запроса в сформированном ранее кратком предложении - ответе пользователю. Ranking is determined by the chain offers the order of the corresponding phrases in the query formed earlier brief sentence - the answer to the user. В процессе формирования полного ответа для обеспечения согласования предложений могут производить эквивалентные преобразования отдельных предложений путем замены частей речи или членов предложений без изменения смыслового содержания этих предложений. In the process of forming a complete answer to ensure alignment proposals can produce equivalent transformations by replacing individual sentences or speech parts offers members without changing the semantic content of these proposals. Если эквивалентные преобразования предложения требуют замены предлогов, то их производят с учетом того, какие характеристики должны иметь части речи при сочетании их с конкретными предлогами. If equivalent conversion proposals require replacement excuses, they make based on what features should be part of the speech by combining them with specific pretexts. В случае необходимости для согласования существительных или прилагательных, местоимений или причастий с новыми предлогами могут производить замену падежей указанных частей речи. If necessary for matching noun or adjective or participle pronouns new prepositions of cases can replace these parts of speech. Для этого используют соответствующие правила, связывающие предлог с падежами, в которых указанные части речи согласуются с данным предлогом. For this purpose, the relevant rules binding the preposition with the cases in which these parts of speech are consistent with this pretext.

Если вопросительное слово или словосочетание запроса (как? каким образом?) предполагает не короткий ответ в одном предложении, а представление последовательности действий или описаний какого-либо процесса или явления, в этом случае короткий ответ может быть предложением-зачином, содержащим группу слов ответа типа: "следующим образом", "таким образом". If the question word or query phrase (how? How?) Assumes no short answer in one sentence, and the representation of a sequence of actions or descriptions of any process or phenomenon, in this case, the short answer can be offer-introductions containing a group of words like response "follows", "thus". При этом в следующих предложениях ответа раскрывается содержание последовательности действий или описаний, содержащих ответ пользователю с требуемой полнотой. In the following response proposals disclosed content workflow descriptions or containing response to the user with the desired completeness. В случае отсутствия такой типовой группы слов ответа она может быть введена дополнительно для формирования предложения-зачина. In the absence of such an answer type group of words it can be further introduced for forming the proposals of intonation. После этого группа слов ответа в предложении-зачине принимается в качестве начальной темы будущего полного ответа. The group response words in a sentence, intonation is taken as the initial theme of the future complete response. Далее с помощью логического вывода выбирается последовательность предложений одного или нескольких абзацев, которые образуют совокупность семантически связанных предложений полного ответа на данный вопрос пользователя. Next, using inference sequence selected sentences of one or more paragraphs, which form a set of semantically related offers complete answer to the user's question. При этом границы ответа будут определяться непрерывной цепочкой логически связанных предложений, которая завершается при окончании одного из абзацев, если тема последнего предложения этого абзаца не связана с ремой первого предложения последующего абзаца. The boundaries response will be determined by a continuous chain of logically related proposals, which ends at the end of one of the paragraphs, if the last sentence of this paragraph is not related to the topic of the first sentence remoy subsequent paragraph. После формирования фрагмента текста, содержащего полный ответ, включая предложение-зачин, он выдается пользователю. After formation of the fragment of text containing a complete response, including bid-intonation, it is issued to the user.

Разработанный способ может быть использован для синтеза самообучающейся системы извлечения знаний из текстовых документов поисковых систем на заданном иностранном языке. The developed method can be used for the synthesis of a self-learning knowledge extraction system from text documents search engines on a given foreign language. Автоматическое обучение системы правилам морфологического, синтаксического и семантического анализа производят описанным выше порядком с использованием стохастически индексированных лингвистических текстов на заданном иностранном языке. Automatic system learning the rules of morphological, syntactic and semantic analysis produces the above-described procedure using a stochastically indexed linguistic texts in a given foreign language. Полученные правила, также представленные на заданном иностранном языке, стохастически индексируют и записывают в соответствующие базы знаний (12-14) морфологического, синтаксического и семантического анализа. The resulting rules are also presented on a given foreign language, stochastically indexed and recorded in the corresponding Knowledge Base (12-14), morphological, syntactic and semantic analysis. При этом производят заполнение базы данных (7) стохастически индексированных словарей базового и новых слов, а также баз (10) стохастически индексированных текстовых документов по заданным темам на данном иностранном языке. In this case, make the filling a database (7) stochastically indexed dictionaries base and new words, as well as the bases (10) stochastically indexed text documents on given topics in this foreign language.

После заполнения указанных баз данных и знаний описанным выше порядком осуществляют преобразования запросов пользователей на данном иностранном языке, предварительный выбор фрагментов текстовых документов по соответствующим темам. After filling these databases and knowledge conversion of user requests performed procedure described above in given foreign language text documents preselect fragments relevant art. Затем осуществляют эквивалентные преобразования данных фрагментов текстовых документов, образование стохастически индексированных семантических структур и логический вывод с использованием указанных структур для формирования краткого ответа, релевантного запросу на заданном иностранном языке. Then, the data conversion equivalent fragments of text documents, the formation of a stochastically indexed semantic structure and the inference with the use of said structures for forming a brief response of the relevant request for a predetermined foreign language.

Разработанный способ может быть использован также для синтеза самообучающейся системы извлечения знаний из текстовых документов поисковых систем на любом из множества заданных иностранных языков. The developed method can be used for the synthesis of a self-learning knowledge extraction system from text documents search results on any of a plurality of predetermined languages. Для этой цели используют описанный выше механизм самообучения в виде стохастически индексированной системы искусственного интеллекта, основанной на применении уникальных комбинаций двоичных сигналов стохастических индексов информации для стохастической индексации и поиска фрагментов лингвистических текстов на заданном базовом языке, содержащих описание процедур грамматического и семантического анализа. For this purpose, the above-described mechanism in the form of self-stochastically indexed artificial intelligence systems based on the use of unique combinations of binary signals stochastic index information to index and search a stochastic language text fragments at a predetermined basic language containing a description of grammatical and semantic analysis procedures. Данный механизм обеспечивает автоматическое обучение системы правилам грамматического и семантического анализа путем эквивалентных преобразований стохастически индексированных фрагментов текста на любом из заданных иностранных языков, логического вывода и формирования из указанных фрагментов текста связанных семантических структур, их стохастического индексирования для представления в формате правил продукций. This mechanism provides automatic learning systems to the rules of grammatical and semantic analysis by equivalent changes stochastically indexed text fragments on any of the specified foreign language, inference, and the formation of the said pieces of text related semantic structures of the stochastic index for submission to the productions rules format.

Сначала с помощью описанного выше механизма производят морфологический анализ и стохастическое индексирование лингвистических текстов на заданном базовом языке в электронном виде с одновременным автоматическим обучением системы правилам морфологического анализа. First, using the mechanism described above produce a morphological analysis and stochastic index of linguistic texts in a given base language in electronic form at the same time automatic system learning the rules of the morphological analysis. Это осуществляется одновременно с формированием базы данных (7) стохастически индексированных словарей и формированием таблиц индексов лингвистических текстов базы (8) для каждого из заданных иностранных языков, а также базы знаний (12) морфологического анализа, содержащей полученные правила продукций для заданного базового языка и каждого из заданных иностранных языков. This is accomplished simultaneously with the formation of the database (7) stochastically indexed dictionaries and the formation index tables linguistic database of texts (8) for each of predetermined languages, and also knowledge base (12) of the morphological analysis, containing rules obtained product to a predetermined basic language and each of the specified languages.

После этого производят морфологический и синтаксический анализ, а также стохастическое индексирование текстовых документов по заданной теме на каждом из заданных иностранных языков после получения их в электронном виде из поисковой системы. After that, the morphological and syntactic analysis and stochastic indexing text documents on a given topic on each of the specified foreign language after receiving them in electronic form from the search engine. При этом производят формирование таблиц индексов текстовых документов по заданной теме и запись их в базу (10) стохастически индексированных текстов с одновременным автоматическим обучением системы правилам синтаксического анализа. At the same time produce the formation of tables indexes text documents on a given topic and write them in the database (10) is stochastically indexed texts with simultaneous automatic learning system parsing rules. Указанное обучение производят описанным выше порядком с использованием стохастически индексированных лингвистических текстов на заданном базовом языке. Said training produce the above-described procedure using linguistic texts stochastically indexed at a predetermined basic language. При этом осуществляют формирование базы знаний (13) синтаксического анализа для базового языка и каждого из заданных иностранных языков. In this formation is carried knowledge base (13) for parsing the base language and each of the specified languages.

Затем производят семантический анализ стохастически индексированных текстовых документов по заданной теме на заданном базовом языке в электронном виде с одновременным автоматическим обучением системы правилам семантического анализа и формированием базы знаний (14) семантического анализа для базового языка и каждого из заданных иностранных языков. Then make a semantic analysis of stochastically indexed text documents on a given topic in a given base language in electronic form at the same time automatic learning systems to the rules of semantic analysis and knowledge base (14) of semantic analysis for the base language, and each of the specified languages.

После заполнения базы знаний (11-12) система переходит из режима автоматического обучения в режим обработки запросов пользователей. After filling in the knowledge base (11-12), the system switches from the automatic learning mode in processing user requests mode. При этом запрос пользователя формируют на естественном заданном иностранном языке и представляют его в электронном виде после стохастического индексирования в форме вопросительного предложения, включающего вопросительное словосочетание и словосочетания, которые определяют семантику запроса. In this form the user query in a natural predetermined foreign language and represent it in electronic form after stochastic index in the form of an interrogative sentence, interrogative comprising phrase or phrases that define the semantics of the query. После этого описанным выше порядком преобразуют запрос пользователя в стохастически индексированном виде во множество новых запросов, эквивалентных исходному запросу на заданном иностранном языке. After this procedure converts a user request as described above in the form of a stochastically indexed in a variety of new requests that are equivalent to the original query in a given foreign language. Затем в соответствии с запросом пользователя осуществляют предварительный выбор стохастически индексированных фрагментов текстовых документов на заданном иностранном языке в электронном виде, содержащих в совокупности все словосочетания преобразованного запроса. Then, in accordance with the user's request is performed preselect fragments stochastically indexed text documents on a given foreign language in electronic form, containing a total of all phrases of the converted query. Используя указанные фрагменты текстовых документов формируют стохастически индексированную семантическую структуру. Using text documents said fragments form a stochastically indexed semantic structure. На основе сформированной стохастически индексированной семантической структуры с помощью логического вывода, обеспечивающего связь стохастически индексированных элементов различных текстов, и эквивалентного преобразования текста формируют краткий ответ системы, содержащий словосочетания в стохастически индексированном виде, которые определяют семантику запроса, а также группу слов ответа, соответствующую вопросительному словосочетанию запроса. Based formed stochastically indexed semantic structure by inference providing communication stochastically indexed elements of various texts and equivalent text-form short system response containing the phrase to stochastically indexed form that define the semantics of the query and a group answer word corresponding to an interrogative phrase request. При этом обеспечивают корректность краткого ответа путем формирования нескольких идентичных стохастически индексированных семантических структур на основе различных, предварительно выбранных стохастически индексированных фрагментов текстовых документов. In this brief provide correct answer by forming several identical stochastically indexed semantic structure based on various preselected fragments stochastically indexed text documents.

Затем проверяют релевантность полученного краткого ответа системы запросу посредством замены группы слов ответа на соответствующее вопросительное словосочетание в стохастически индексированном виде, получения стохастически индексированного вопросительного предложения, сравнения полученного вопросительного предложения с запросом. Then check relevant request received short system response by replacing the word group corresponding to an answer to an interrogative phrase in a stochastically indexed form preparation stochastically indexed interrogative sentence, interrogative sentence obtained comparing with the request. На основе сравнения указанных предложений при идентичности полученного вопросительного предложения и запроса принимают решение о релевантности краткого ответа системы запросу и представляют его на заданном иностранном языке. Based on a comparison of these proposals when identity obtained interrogative sentence and request decide on the relevance of a brief response request system and present it in a given foreign language.

Рассмотрим теперь другой порядок применения данного способа для синтеза самообучающейся системы, обеспечивающей одновременное извлечение знаний из текстовых документов на любом из заданных иностранных языков. Consider now another procedure for application of this method for the synthesis of a self-learning system that provides simultaneous knowledge extraction from text documents on any of the specified languages. В этом случае сначала производят автоматическое обучение системы описанным выше порядком правилам морфологического, синтаксического и семантического анализа с использованием стохастически индексированных лингвистических текстов на заданном базовом языке. In this case, first make automatic learning system procedures described above, the rules of morphological, syntactic and semantic analysis using stochastically indexed linguistic texts in a given base language. При этом в состав базы (8) стохастически индексированных лингвистических текстов включают учебно-методические пособия по изучению каждого из заданных иностранных языков на выбранном базовом языке. In this part of the base (8) is stochastically indexed linguistic texts include educational tools for the study of each of the specified languages ​​in the selected core language. В базу (11) стохастически индексированных словарей иностранных слов записывают словари, обеспечивающие прямой и обратный перевод отдельных слов с базового языка на любой из заданных иностранных языков. The base (11) is stochastically indexed dictionary of foreign words written dictionaries, providing direct and reverse translation of individual words from the base language to any of the specified languages. Затем осуществляют формирование базы данных (7) стохастически индексированного словаря и баз знаний (12-14) морфологического, синтаксического, семантического анализа на заданном базовом языке. Then, the formation of the database (7) stochastically indexed dictionaries and knowledge bases (12-14), the morphological, syntactic, semantic analysis on the given host language. После этого подсистема управления (3) режимом автоматического обучения осуществляет автоматическое формирование запросов к указанным базам данных и знаний для предварительного выбора фрагментов лингвистических текстов на базовом языке, содержащих знания, необходимые для изучения каждого из заданных иностранных языков. The control subsystem (3) automatic learning mode provides automatic generation of queries to the specified data and knowledge bases for pre-selection of linguistic fragments of texts in the base language, having the knowledge necessary for the study of each of the specified languages. Затем производят эквивалентные преобразования текстов, формирования стохастически индексируемых семантических структур и логический вывод на заданных структурах для формирования ответов, релевантных автоматическим запросам. Then produce equivalent text conversion, forming a stochastically indexed semantic structure and at predetermined inference structures for generating responses relevant automatic requests. Эти ответы используют для формирования правил продукций морфологического, синтаксического и семантического анализа текстовых документов для каждого иностранного языка. These answers are used to generate production rules of morphological, syntactic and semantic analysis of text documents for each foreign language. Например, если базовым языком является русский язык, то при формировании базы знаний синтаксического анализа для изучения английского языка, среди автоматически формируемых правил могут быть следующие: For example, if the base language is Russian, then the formation of a knowledge base parsing to learn English, the following may be among the automatically generated rules:

1. Если существительное без предлога стоит в начале предложения, 1. If a noun without a preposition standing in the beginning of the sentence,

и это существительное стоит перед существительным с предлогом of (in, from), and a noun stands in front of the noun with the preposition of (in, from),

и за этим существительным следует глагол, and this should be a noun verb,

то первое существительное - подлежащее. the first noun - subject.

Например: The work of the engineer is on the table. For example: The work of the engineer is on the table.

2. Если словосочетание состоит из глагола-связки (глагол to be в личной форме) и именной части, выраженной прилагательным, 2. If a phrase consists of a verb-ligament (verb to be in personal form) and name of the expressed adjective

то это словосочетание - составное именное сказуемое. this phrase - a composite nominal predicate.

Например: The tree is big. For example: The tree is big.

Полученные правила после стохастического индексирования записывают в базы знаний (12-14) морфологического, синтаксического и семантического анализа для обеспечения извлечения знаний из текстовых документов на заданном иностранном языке в соответствии с запросами пользователей. Getting the right after the stochastic index recorded in the knowledge base (12-14), morphological, syntactic and semantic analysis for knowledge extraction from text documents in a given foreign language according to the user's request. При этом формирование базы данных стохастически индексированных словарей и таблиц индексированных текстовых документов по заданным темам производят с использованием соответствующего иностранного языка. The formation of the database stochastically indexed dictionaries and tables indexed text documents specify the art produced using the corresponding foreign language. Отметим, что в процессе семантического анализа текстовых документов по заданным темам на соответствующем иностранном языке для определения вида семантического отношения осуществляется перевод отдельных словосочетаний с помощью базы (11) стохастически индексированных словарей иностранных слов на базовый язык. Note that in the process of semantic analysis of text documents on given topics at the appropriate foreign language to determine the type of semantic relations are certain phrases translated using the base (11) is stochastically indexed dictionary of foreign words in the base language. Указанное словосочетание с помощью логического вывода по таблицам индексов толковых словарей на базовом языке соотносят с одним из видов семантических отношений, индексы которых записаны в интерпретаторе (4) стохастически индексированных текстов и правил продукций. Said phrase using logical deduction from the tables of indices dictionaries at the base language are correlated with a type of semantic relations, indexes, which are recorded in the shell (4) is stochastically indexed texts and production rules. Это позволяет использовать семантический анализ для уточнения описанным выше порядком принадлежности слов к членам предложения, а также для определения вида отношений между словосочетаниями при формировании стохастически индексированной семантической структуры ответа на запрос. This allows the use of semantic analysis to clarify the above described order of words belonging to the members of the proposal, as well as to determine the type of relationship between the phrases in the formation of a stochastically indexed semantic structure of a response to the request.

С помощью указанных баз данных и знаний по командам подсистемы (3) управления режимом самообучения и извлечения знаний осуществляют эквивалентное преобразование запросов пользователей на заданных иностранных языках. Using these data and knowledge bases Command subsystem (3) control mode and learning knowledge extraction is carried out equivalent transformation user requests at predetermined languages. Затем производят предварительный выбор фрагментов текстовых документов по заданным темам, их эквивалентные преобразования, формирование стохастически индексированных семантических структур и логический вывод на данных структурах. Then produce a pre-selection of text documents fragments specify the topics of their equivalent transformations, forming a stochastically indexed semantic structure and inference data structures. Это обеспечивает формирование ответов, релевантных запросам пользователей, на каждом из числа заданных иностранных языков. This ensures the formation of the responses that are relevant to users' requests, each of the specified languages.

Если при обработке запроса выясняется, что необходимо обращение к поисковой системе для ввода новых текстовых документов на одном из иностранных языков по заданной теме, то подсистема (3) управления режимом самообучения и извлечения знаний подключает многоязычный лингвистический процессор (1). If the request is processed turns out that you need to appeal to the search engine to enter new text documents in a foreign language on a given topic, the sub-system (3) control mode and self-knowledge extraction connects multilingual linguistic processor (1). В него поступает команда на ввод новых документов с указанием темы и наименования языка, которые представлены на базовом языке. It is commanded to enter a new document with the title and the name of the language, which are represented in the base language. Многоязычный лингвистический процессор (1) с помощью базы (11) стохастически индексированных словарей иностранных слов выбирает соответствующий словарь и производит перевод слов, обозначающих наименование темы, на соответствующий иностранный язык. Multilingual linguistic processor (1) with the base (11) is stochastically indexed dictionary of foreign words selects the appropriate dictionary and translation produces words denoting the name of the theme, to the appropriate foreign language. По полученной информации многоязычный лингвистический процессор (1) формирует формализованный запрос на заданном языке к поисковой системе для ввода новых документов на иностранном языке по соответствующей теме. According to information received multilingual linguistic processor (1) forms a formal request to the specified language to the search engine to enter new documents in a foreign language on the relevant topic. Указанные документы поступают в подсистему (2) стохастического индексирования текстовых документов и выделения фрагментов текстов для описанной выше обработки и ввода в базу (10) стохастически индексированных текстовых документов по заданным темам. These documents fed into the subsystem (2) of the stochastic text documents and indexing text fragments for isolation and input processing described above into the base (10) stochastically indexed text documents specify the art.

Промышленная применимость industrial applicability

Способ синтеза самообучающейся системы извлечения знаний из текстовых документов поисковых систем прежде всего может быть использован для создания на базе Internet глобальной индустрии знаний с использованием многоязычных систем извлечения знаний из текстов. A method of synthesis of a self-learning knowledge extraction system of the text document search systems may primarily be used to create Internet-based global industry knowledge using multilingual data mining systems of texts. Это обеспечит качественно новый информационный сервис в различных сферах - производственной, научной, образовательной, культурной и бытовой деятельности человека с учетом современных требований развития цивилизованного общества. This will provide a new information service in different areas - industrial, scientific, educational, cultural and social activity of the person to meet modern standards of a civilized society. Другим перспективным направлением промышленного применения указанного способа являются мобильные системы (мобильный Internet). Another promising direction industrial application of this method are mobile systems (mobile Internet). Это обусловлено возможностью создания интеллектуальных информационно-поисковых систем, обеспечивающих извлечение из больших объемов текстовых документов Internet конкретных знаний и сведений по запросам пользователей с минимизацией времени передачи и восприятия пользователем необходимой ему информации. This is due to the ability to create intelligent information retrieval systems to ensure the extraction of large volumes of text documents Internet-specific knowledge and information at the request of users while minimizing transmission time and the perception of the user information it needs. При этом запросы могут вводиться пользователем в систему на естественном языке и в речевой форме. In this case, users can enter queries in natural language and in verbal form. Важным направлением промышленного применения предложенного способа является создание нового поколения интеллектуальных обучающих систем по различным предметам и проблемным областям. An important area of ​​industrial application of the method is to create a new generation of intelligent tutoring systems on various subjects and areas of concern.

Таблица 1 Table 1
Фрейм предложения frame offers
Вопросы к простым предложениям Questions to the simple sentences Вопросы к простым предложениям формируются на основе базы знаний синтаксического анализа Questions to the simple sentences are formed on the basis of the knowledge base parsing
Наименование простых предложений в составе сложносочиненных или сложноподчиненных Name simple sentences as part of complex or slozhnosochinennogo Характеристики простых предложений Features simple sentences
Вопросы к группам членов предложения Questions to groups of sentence Вопросы к группам членов предложения формируются на основе вопросов к членам предложения, являющимся основой данной группы Questions to the groups of the sentence formed on the basis of questions to the members of the proposal, which is the basis of this group
Наименования групп членов предложения The names of groups offer members Группа подлежащего, Group to be,
группа сказуемого, Group predicate
группа дополнения, group of the complement,
группа обстоятельства, Group circumstances
группа обособленных членов предложения, a group of isolated parts of the sentence,
группа вводных слов, словосочетаний и вставных конструкций Group introductory words, phrases and insert designs
Вопросы к членам предложения Questions to the members of the proposal По формату словаря (включая предлоги) и таблице перевода вопросов к частям речи в вопросы к членам предложения To the size of vocabulary (including prepositions), and the translation table questions to the parts of speech in question the members of the proposal
Наименования членов предложения The names of the sentence Подлежащее, subject,
сказуемое (простое глагольное, составное глагольное, составное именное), predicate (simple verb, verb compound, compound names)
определение (согласованное, несогласованное), determining (coordinated, uncoordinated)
дополнение (прямое, косвенное), addition (direct and indirect)
обстоятельство (образа действия, места, времени, меры или степени, причины, цели, условия, уступки) circumstance (of manner, place, time, measure or degree, cause, purpose, condition, concession)
Вопросы к частям речи Questions to the parts of speech По формату словаря To the size of the dictionary
Части речи и их характеристики Parts of speech and their characteristics По формату словаря To the size of the dictionary
Слово Word В контексте предложения In the context of the proposal
Стохастические индексы основ слов Stochastic indices words bases Вычисляются по специальному алгоритму или выделяются из формата словаря Calculated using a special algorithm or stand out from the dictionary format

Таблица 2 table 2
Индексы текста text indexes
Индексы основ слов Index-based words Индексы абзацев indices paragraphs
I ξ1 (a) I ξ1 (a) I ξ2 (a) I ξ2 (a) ... ... I ξn (a) I ξn (a)
I ξ1 (u) I ξ1 (u) I ξ11 (s) I ξ11 (s) I ξ12 (s) I ξ12 (s) ... ... I ξ1n (s) I ξ1n (s)
I ξ2 (u) I ξ2 (u) I ξ21 (s) I ξ21 (s) I ξ22 (s) I ξ22 (s) ... ... I ξ2n (s) I ξ2n (s)
... ... ... ... ... ... ... ... ... ...
I ξm (u) I ξm (u) I ξm1 (s) I ξm1 (s) I ξm2 (s) I ξm2 (s) ... ... I ξmn (s) I ξmn (s)

Таблица 3 TABLE 3
Индексы текстов по данной теме Text indexes on this topic
Индексы основ слов Index-based words Индексы текстов text indexes
I ξ1 (t) I ξ1 (t) I ξ2 (t) I ξ2 (t) ... ... I ξn (t) I ξn (t)
I ξ1 (u) I ξ1 (u) I ξ11 (s) I ξ11 (s) I ξ12 (s) I ξ12 (s) ... ... I ξ1n (s) I ξ1n (s)
I ξ2 (u) I ξ2 (u) I ξ21 (s) I ξ21 (s) I ξ22 (s) I ξ22 (s) ... ... I ξ2n (s) I ξ2n (s)
... ... ... ... ... ... ... ... ... ...
I ξm (u) I ξm (u) I ξm1 (s) I ξm1 (s) I ξm2 (s) I ξm2 (s) ... ... I ξmn (s) I ξmn (s)

Claims (20)

  1. 1. Способ синтеза самообучающейся системы извлечения знаний на заданном языке из текстовых документов поисковых систем, при котором: 1. A method for the synthesis of a self-learning knowledge extraction system in a given language from text document search systems, in which:
    обеспечивают механизм самообучения в виде стохастически индексированной системы искусственного интеллекта, основанной на применении уникальных комбинаций двоичных сигналов стохастических индексов информации, provide learning mechanism in the form of a stochastically indexed artificial intelligence system based on the use of unique combinations of binary signals of stochastic index information,
    обеспечивают автоматическое обучение системы правилам грамматического и семантического анализа путем применения эквивалентных преобразований стохастически индексированных фрагментов текста, логического вывода и формирования из них связанных семантических структур и стохастического индексирования для представления в формате правил продукций, provide automatic learning systems to the rules of grammatical and semantic analysis through the use of equivalent transformations stochastically indexed text fragments, inference, and the formation of these structures and associated semantic indexing to represent stochastic in the production rules format
    производят морфологический анализ и стохастическое индексирование лингвистических текстов в электронном виде с одновременным автоматическим обучением системы правилам морфологического анализа, produce morphological analysis and stochastic index of linguistic texts in electronic form at the same time automatic system learning the rules of the morphological analysis,
    производят морфологический и синтаксический анализ, а также стохастическое индексирование текстовых документов по заданной теме в электронном виде на заданном языке с одновременным автоматическим обучением системы правилам синтаксического анализа, produce morphological and syntactic analysis and stochastic indexing text documents on a given topic in electronic form in a given language with simultaneous automatic learning system parsing rules,
    производят семантический анализ стохастически индексированных текстовых документов по заданной теме в электронном виде с одновременным автоматическим обучением системы правилам семантического анализа, produced stochastically indexed semantic analysis of text documents on a given topic in electronic form at the same time automatic learning systems to the rules of the semantic analysis,
    формируют запрос пользователя на естественном заданном языке и представляют его в электроном виде после стохастического индексирования в форме вопросительного предложения, forming the user request at a predetermined natural language and represent it in the form of an electron after a stochastic index in the form of an interrogative sentence,
    преобразуют запрос пользователя в стохастически индексированном виде во множество новых запросов, эквивалентных исходному запросу, convert a user's query in the form of a stochastically indexed in a variety of new requests that are equivalent to the original query,
    в соответствии с запросом пользователя осуществляют предварительный выбор стохастически индексированных фрагментов текстовых документов в электронном виде, содержащих в совокупности все словосочетания преобразованного запроса, in accordance with the user's request is performed preselect fragments stochastically indexed text documents in electronic form, containing a total of all the phrases of the converted request,
    формируют стохастически индексированную семантическую структуру с использованием указанных фрагментов текстовых документов, forming a stochastically indexed semantic structure by using said pieces of text documents,
    на основе указанной структуры с помощью логического вывода, обеспечивающего связь стохастически индексированных элементов различных текстов, и эквивалентного преобразования текста формируют краткий ответ системы, based on said structure by inference providing communication stochastically indexed elements of various texts and equivalent text-form short system response,
    проверяют релевантность полученного краткого ответа системы запросу путем формирования на его основе вопросительного предложения, сравнения полученного вопросительного предложения с запросом, relevant check request received short system response by forming on this basis an interrogative sentence, interrogative sentence obtained comparing with the request,
    при идентичности полученного вопросительного предложения и запроса принимают решение о релевантности краткого ответа системы запросу и представляют его на заданном языке. when the identity of the resulting interrogative sentence and request decide on the relevance of the brief response of the system request and submit it to the specified language.
  2. 2. Способ синтеза самообучающейся системы извлечения знаний на любом из заданных иностранных языках из текстовых документов поисковых систем, при котором: 2. A method of synthesis of a self-learning knowledge extraction system at any given foreign language text documents from search engines, in which:
    обеспечивают механизм самообучения в виде стохастически индексированной системы искусственного интеллекта, основанной на применении уникальных комбинаций двоичных сигналов стохастических индексов информации для стохастической индексации и поиска фрагментов лингвистических текстов на заданном базовом языке, содержащих описание процедур грамматического и семантического анализа, и автоматического обучения системы правилам грамматического и семантического анализа путем эквивалентных преобразований стохастически индексированны provide learning mechanism in the form of a stochastically indexed artificial intelligence system based on the use of unique combinations of binary signals of stochastic index information for the stochastic indexing and retrieval of fragments of linguistic texts in a given base language, containing a description of the grammatical and semantic analysis procedures, and automatic learning system rules of grammatical and semantic analysis by equivalent transformations stochastically indexing фрагментов текста, логического вывода и формирования из них связанных семантических структур, их стохастического индексирования для представления в формате правил продукций, fragments of text, inference, and the formation of their associated semantic structures of the stochastic index for submission to the productions rules format
    производят морфологический анализ и стохастическое индексирование лингвистических текстов на заданном базовом языке в электронном виде с одновременным автоматическим обучением системы правилам морфологического анализа, формированием базы данных стохастически индексированных словарей и формированием таблиц индексов лингвистических текстов для каждого из заданных иностранных языков, а также базы знаний морфологического анализа, содержащей полученные правила продукций для заданного базового языка и каждого из заданных иностранны produce morphological analysis and stochastic index of linguistic texts in a given base language in electronic form at the same time automatic learning systems to the rules of the morphological analysis, database formation stochastically indexed dictionaries and the formation index tables linguistic texts for each of the specified languages, as well as knowledge of the morphological analysis, Product obtained containing rules for a given language and the base of each of the predetermined foreignness х языков, languages,
    производят морфологический и синтаксический анализ, а также стохастическое индексирование текстовых документов по заданной теме на каждом из заданных иностранных языков в электронном виде из поисковой системы с представлением их в виде таблиц индексов текстовых документов по заданной теме и записью в базы стохастически индексированных текстов с одновременным автоматическим обучением системы правилам синтаксического анализа с использованием стохастически индексированных лингвистических текстов на заданном базовом языке и формир produce morphological and syntactic analysis and stochastic indexing text documents on a given topic on each of the specified languages ​​in electronic form from the search engine with the presentation of tabular indexes text documents on a given topic and writing to the database stochastically indexed texts with simultaneous automatic learning system rules parsing using stochastically indexed linguistic texts in a given base language and form ванием базы знаний синтаксического анализа для базового языка и каждого из заданных иностранных языков, vaniem knowledge base to parse the language and each of the specified languages,
    производят семантический анализ стохастически индексированных текстовых документов по заданной теме на заданном базовом языке в электронном виде с одновременным автоматическим обучением системы правилам семантического анализа и формированием базы знаний семантического анализа для базового языка и каждого из заданных иностранных языков, produced stochastically indexed semantic analysis of text documents on a given topic in a given base language in electronic form at the same time automatic learning systems to the rules of semantic analysis and semantic analysis of the knowledge base for the base language, and each of the specified languages,
    формируют запрос пользователя на естественном заданном иностранном языке и представляют его в электроном виде после стохастического индексирования в форме вопросительного предложения, включающего вопросительное словосочетание и словосочетания, которые определяют семантику запроса, form a user query in a natural predetermined foreign language and represent it in the form of an electron after a stochastic index in the form of an interrogative sentence, interrogative comprising phrase or phrases that define the semantics of the query,
    преобразуют запрос пользователя в стохастически индексированном виде во множество новых запросов, эквивалентных исходному запросу на заданном иностранном языке, convert a user's query in the form of a stochastically indexed in a variety of new requests that are equivalent to the original query in a given foreign language,
    в соответствии с запросом пользователя осуществляют предварительный выбор стохастически индексированных фрагментов текстовых документов на заданном иностранном языке в электронном виде, содержащих в совокупности все словосочетания преобразованного запроса, in accordance with the user's request is carried out pre-selection stochastically indexed fragments of text documents on a given foreign language in electronic form, containing a total of all the combinations of the converted query
    формируют стохастически индексированную семантическую структуру на основе указанных фрагментов текстовых документов, forming a stochastically indexed semantic structure based on these pieces of text documents,
    на основе сформированной стохастически индексированной семантической структуры с помощью логического вывода, обеспечивающего связь стохастически индексированных элементов различных текстов, и эквивалентного преобразования текста формируют краткий ответ системы, содержащий словосочетания в стохастически индексированном виде, которые определяют семантику запроса, а также группу слов ответа, соответствующую вопросительному словосочетанию запроса, based on the formed stochastically indexed semantic structure by inference providing communication stochastically indexed elements of various texts and equivalent text-form short system response containing the phrase to stochastically indexed form that define the semantics of the query and a group answer word corresponding to an interrogative phrase request,
    проверяют релевантность полученного краткого ответа системы запросу путем замены группы слов ответа на соответствующее вопросительное словосочетание в стохастически индексированном виде, получения стохастически индексированного вопросительного предложения, сравнения полученного вопросительного предложения с запросом и при идентичности полученного вопросительного предложения и запроса принимают решение о релевантности краткого ответа системы запросу и представляют его на заданном иностранном языке. check the relevance obtained brief response system request by replacing the word group response to corresponding interrogative phrase in a stochastically indexed form preparation stochastically indexed interrogative sentence, comparing the obtained interrogative sentence with the request and the identity obtained interrogative sentence and the query decide the relevance of the search system brief answer and submit it at a given foreign language.
  3. 3. Способ по п.1, отличающийся тем, что при неудачной попытке сформировать вопросительное предложение, идентичное запросу пользователя, запрашивают новые текстовые документы из поисковой системы для поиска ответа, релевантного запросу пользователя, 3. The method according to claim 1, characterized in that when an attempt to form an interrogative sentence that is identical to the user's request, ask for new text documents from the search engine to find the answer, the relevant request of the user,
  4. 4. Способ по п.1, отличающийся тем, что дополнительно по запросу пользователя формируют полный ответ, содержащий более подробную информацию или совокупность конкретных знаний, при этом используют логический вывод для образования стохастически индексированной семантической структуры и необходимые эквивалентные преобразования указанной совокупности фрагментов текстов для получения стохастически индексированного нового текста, раскрывающего с возможной детализацией содержание полученного ранее краткого ответа. 4. A method according to claim 1, characterized in that further user request form a complete response containing more information or a set of specific knowledge, the inference is used for forming a stochastically indexed semantic structure and the required equivalent conversion of said plurality of text fragments to obtain stochastically indexed new text, revealing a possible granularity content obtained in the above summary response.
  5. 5. Способ по п.1, отличающийся тем, что автоматическое обучение системы правилам морфологического анализа производят путем выделения в стохастически индексируемом тексте определенного набора словоформ каждого слова, получения стохастических индексов основы слова и заданного набора его окончаний или предлогов, произвольного доступа по указанным индексам к стохастически индексированным лингвистическим текстам, выделения из них фрагментов, связывающих указанный набор окончаний слова или предлогов с соответствующей данному слову часть 5. The method of claim 1, wherein the automatic learning system rules morphological analysis is performed by allocating the indexed text in stochastically defined set wordforms each word, producing stochastic index words and bases a given set of its endings or prepositions, random access on these indexes to stochastically indexed linguistic texts, separation of these fragments, binding the specified set of word endings or prepositions with a corresponding portion of the given word ю речи, а также с полным набором окончаний или предлогов, получаемых при склонении или спряжении, преобразования данных фрагментов в формат правил продукций путем их стохастического индексирования, обеспечивая при этом корректность каждого правила путем независимого его формирования на основе нескольких фрагментов из соответствующих лингвистических текстов, и получения таблицы индексов правил продукций для базы знаний морфологического анализа. th speech, as well as with full endings or prepositions obtained by declination or conjugation, transformation data fragments in Product rules format by their stochastic index, while ensuring the correctness of each rule by independent of its formation on the basis of multiple pieces of the relevant linguistic texts, and reception table index of production rules to the knowledge base of the morphological analysis.
  6. 6. Способ по п.5, отличающийся тем, что при стохастическом индексировании лингвистических текстов после определения части речи каждого слова с помощью правил базы знаний морфологического анализа заполняют базу данных стохастически индексированного словаря стохастическими индексами основы каждого очередного слова и полного набора его окончаний или предлогов. 6. A method according to claim 5, characterized in that the stochastic text indexing linguistic after determining the part of speech of each word using the knowledge base of rules filled morphological analysis database stochastically indexed dictionaries stochastic indices bases each regular expression and a complete set of its endings or prepositions.
  7. 7. Способ по п.6, отличающийся тем, что для формирования таблиц индексов текстов осуществляют стохастическое преобразование информации и получение уникальных двоичных комбинаций индексов основ слов, их окончаний, предлогов, предложений, абзацев и названий текстов, которые помещают в таблицы индексов базы стохастически индексированных текстов с обеспечением связности между указанными индексами, определенной в исходном тексте и обеспечивающей его восстановление по таблице индекса. 7. A method according to claim 6, characterized in that for forming the index tables carried stochastic text conversion and obtaining information unique binary combinations of indices bases words, their endings, prepositions, sentences, paragraphs, titles and text, which are placed in the base of the index table indexed by stochastically texts with providing connectivity between said indices defined in the source code and its restoration by providing an index table.
  8. 8. Способ по п.1, отличающийся тем, что автоматическое обучение системы правилам синтаксического анализа осуществляют путем поиска в стохастически индексированных лингвистических текстах фрагментов, описывающих порядок синтаксического разбора предложений, при этом реализуется логический вывод для получения стохастически индексированной семантической структуры, определяющей связь синтаксических элементов и структур с заданными частями речи слов, и формирования правил продукций, определяющих синтаксический разбор предложений по мо 8. The method of claim 1, wherein the automatic learning system parsing rules is performed by searching the stochastically indexed fragments linguistic texts describing the procedure for parsing sentences, the implemented inference for stochastically indexed semantic structure defining communication syntax elements and structures with specified parts of speech of words, and the formation of productions rules defining parse proposals for mo фологическим характеристикам слов, обеспечивая при этом корректность каждого правила путем независимого его формирования на основе нескольких фрагментов из соответствующих лингвистических текстов, полученные правила заносят в базу знаний синтаксического анализа, по мере заполнения которой осуществляют ее стохастическое индексирование и представление в виде таблицы индексов. fologicheskim characteristics words, while ensuring the correctness of each independent rule by its formation on the basis of several fragments from the respective linguistic texts received rules are entered into the knowledge base parsing, as filling which is exercised by the stochastic index, and represented as index table.
  9. 9. Способ по п.1, отличающийся тем, что автоматическое обучение системы правилам семантического анализа текста осуществляют путем формирования запроса к таблицам индексов лингвистических текстов по стохастическим индексам основ слов и частей речи, не точно определенных членов предложения, и получения ответа в виде фрагмента текста, описывающего семантические характеристики, которыми должны обладать слова для их соответствия данному конкретному члену предложения, и по полученному ответу, используя стохастический индекс основы данного 9. The method of claim 1, wherein the automatic learning system rules semantic analysis of the text is carried out by forming a query to the index table of linguistic texts on stochastic index, the words and parts of speech is not well defined parts of the sentence, and receiving a response in the form of text fragment describing the semantic characteristics that should have the words for their compliance with this particular part of the sentence, and to the response using stochastic index based on this слова и требуемые семантические характеристики, обращаются к таблицам индексов толковых словарей и энциклопедий общего и тематического назначения, при этом с помощью логического вывода делают попытку образовать стохастически индексированную семантическую структуру, связывающую данное слово и требуемые семантические характеристики, в положительном случае считают, что указанный член предложения определен точно, а фрагмент текста, релевантный запросу, преобразуют в правило продукций, обеспечивая при этом корректность каждого правила words and the required semantic characteristics, refer to the table index of dictionaries and encyclopedias general and thematic destination, while using inference attempt to form a stochastically indexed semantic structure linking the word and the required semantic characteristics in a positive case is considered that this part of the sentence precisely defined, and a piece of text, the relevant request is converted into a production rules, while ensuring the correctness of each rule путем независимого его формирования на основе нескольких фрагментов из соответствующих лингвистических текстов, которое включают в базу знаний семантического анализа, стохастически индексируют данную базу, представляют в виде таблицы индексов и применяют при семантическом анализе слов, как членов предложения, и отношений между словами, выраженных словосочетаниями. by independently of its formation on the basis of several pieces of relevant linguistic texts, which include the knowledge base of the semantic analysis, stochastic index this database, are in the form of index tables and is used in the semantic analysis of words as the sentence, and the relationships between words, expressions phrases.
  10. 10. Способ по п.9, отличающийся тем, что после образования таблицы индексов каждого текста и завершения его морфологического, синтаксического и семантического анализа формируют стохастические индексы наименований частей речи, членов предложения и вопросов к ним, которые соответствуют каждому слову в составе предложений, и записывают указанные индексы в ячейки таблицы индексов данного текста, что позволяет при поиске фрагментов текста автоматически определять, к какой части речи, члену предложения относится каждое слово, и формировать во 10. The method of claim 9, wherein after formation of the index table of each text and the completion of its morphological, syntactic and semantic analysis form the stochastic index of names of parts of speech, of the sentence and questions to them that correspond to each word as part of the proposals, and Writes the specified index in the table cell indices of the text, which allows searching for text fragments automatically determine what part of speech of the sentence relates each word and form in просы к нему. We ask him.
  11. 11. Способ по п.10, отличающийся тем, что после получения всех таблиц индексов текстов формируют таблицу индексов текстов по данной теме, строки которой поименованы неповторяющимися стохастическими индексами основ слов, а каждый столбец соответствует стохастическому индексу конкретного текста, при этом в ячейки таблицы записывают стохастические индексы абзацев, в которых в данном тексте содержится слово с соответствующим индексом основы, полученную таблицу индексов по данной теме применяют для предварительного поиска фрагментов, содер 11. A method according to claim 10, characterized in that, after receiving all text tables, indexes index table formed texts on the subject, where the rows are named recurring stochastic index, the words, and each column corresponds to a particular text stochastic index, the table is recorded in the cell stochastic codes paragraphs, which herein contains the word with a corresponding index bases obtained index table on the subject used to preliminary search fragments contain ащих определенную совокупность словосочетаний запроса. aschih certain set phrases request.
  12. 12. Способ по п.11, отличающийся тем, что эквивалентные преобразования исходного запроса пользователя осуществляют с использованием синонимов, близких по смыслу слов, а также замены частей речи и членов предложения с сохранением смыслового содержания исходного запроса на основе применения стохастически индексированных правил морфологического, синтаксического и семантического анализа для получения эквивалентных структур словосочетаний вопросительного предложения запроса и сохранения семантической связи между ними. 12. A method according to claim 11, characterized in that the equivalent transformation of the original user query is performed using synonyms, related words, and replacement of parts of speech of the sentence and the semantic content with preservation of the original request by applying rules stochastically indexed morphological, syntactical and semantic analysis to produce equivalent structures phrases interrogative sentence request and store semantic relationships between them.
  13. 13. Способ по п.12, отличающийся тем, что совокупность семантически связанных фрагментов текста, содержащих все слова запроса пользователя, формируют путем обращения по стохастическим индексам указанных основ слов к таблице индексов текстов по заданной теме, выбора стохастических индексов абзацев и соответствующих им текстов, содержащих в совокупности все словосочетания запроса, обращения по указанным индексам к таблице индексов каждого из выбранных текстов, логического вывода по таблицам индексов и эквивалентных преобразований тексто 13. A method according to claim 12, characterized in that the set of semantically related text fragments that contain all the words of the user query, formed by treatment of foundations said stochastic index words to text index table for a given topic selection stochastic index corresponding paragraph and text them, containing a total of all combinations inquiry, request for said indexes to the index table each of the selected text, the inference from the tables and indexes equivalent text conversion в для образования стохастически индексированной семантической структуры, связывающей индексы группы слов ответа, соответствующего вопросительному словосочетанию запроса, а также все словосочетания запроса, определяющие семантику запроса и входящие в предварительно выбранные абзацы. to form a stochastically indexed semantic structure linking group codes words response corresponding to an interrogative request phrase and all query phrase defining the semantics of the request and included in a pre-selected paragraph.
  14. 14. Способ по п.13, отличающийся тем, что успешно сформированная в процессе логического вывода стохастически индексированная семантическая структура, соответствующая запросу пользователя, принимается в качестве основы для формирования с использованием полученной совокупности фрагментов текста вопросительного предложения, идентичного запросу пользователя, которое образуют путем эквивалентного преобразования стохастических индексов основ слов запроса и их окончаний с помощью правил баз знаний для обеспечения требуемых семантических 14. The method of claim 13 wherein the successfully formed during inference stochastically indexed semantic structure corresponding to the user's request is accepted as the basis for the formation using the obtained plurality of pieces of text interrogative sentence, identical to user's request, which is formed by the equivalent converting stochastic index-based query words and their endings using knowledge database of rules for ensuring the required semantic характеристик каждого словосочетания текстового фрагмента, входящего в состав запроса, а также с использованием логического вывода на транзитивных зависимостях между словосочетаниями для объединения их в единое вопросительное предложение, идентичное запросу пользователя, которое содержит группу слов ответа, соответствующую вопросительному словосочетанию запроса. characteristics of each phrase text fragment is part of the query, and using inference on transitive relationships between phrases for combining them into a single interrogative sentence, identical to user's request, which contains a group of words response corresponding interrogatory phrase query.
  15. 15. Способ по п.14, отличающийся тем, что корректность краткого ответа обеспечивают путем формирования нескольких идентичных стохастически индексированных семантических структур упомянутого ответа на основе различных, предварительно выбранных стохастически индексированных фрагментов текстовых документов. 15. The method according to claim 14, characterized in that the correct answer is provided by a short forming several identical stochastically indexed semantic structure of said response based on various preselected fragments stochastically indexed text documents.
  16. 16. Способ по п.15, отличающийся тем, что в процессе поиска и формирования ответа с использованием таблиц индексов текстовых документов самообучение системы осуществляют путем формирования индексированных текстовых элементов, связывающих запрос и релевантный краткий ответ, для получения базы знаний, содержащей элементы типа "запрос - ответ", которую стохастически индексируют, представляют в виде таблицы индексов и применяют при грамматическом и семантическом анализе предложений текста, а также при формировании ответов на повторяющиеся з 16. The method according to claim 15, characterized in that in the search for and the formation response using text document index tables self-learning system is carried out by forming the indexed text elements connecting request and the relevant short response for the knowledge base containing the elements of type "request - the answer ", which stochastically index, are in the form of tables and indexes used in the grammatical and semantic analysis of the proposed text, as well as the formation of the responses to repeated апросы пользователей, содержащиеся в указанной индексированной базе знаний. Users APROSAM contained in said indexed knowledge base.
  17. 17. Способ по п.16, отличающийся тем, что для формирования полного ответа, содержащего знания, релевантные запросу пользователя, на основе краткого ответа с помощью логического вывода по таблицам индексов, использованных при получении фрагмента текста, формируют стохастически индексированную семантическую структуру, связывающую группу слов ответа со стохастическими индексами основ слов предложений, поддерживающих транзитивную зависимость, обеспечивающую в своей совокупности полное раскрытие содержания краткого ответа в рамках сформи 17. The method according to claim 16, characterized in that to form a complete response containing knowledge relevant to the user's request, on the basis of a brief response via inference of the index table used in the preparation of a fragment of text, form a stochastically indexed semantic structure linking group word response with stochastic index-based word suggestions, support transitive dependencies, provides in its totality the full disclosure of short answer within sformi ованного фрагмента текста, затем с помощью эквивалентных преобразований предложений на основе указанной стохастически индексированной семантической структуры получают единый связанный текст полного ответа. ovannogo text fragment and then with equivalent transformations proposals on the basis of said stochastically indexed semantic structure obtained single associated text complete response.
  18. 18. Способ по п.17, отличающийся тем, что эквивалентное преобразование стохастически индексированных фрагментов текста производят путем представления каждого предложения в виде совокупности стохастически индексированных словосочетаний, которые преобразуют с использования правил баз знаний морфологического, синтаксического и семантического анализа путем эквивалентного преобразования стохастических индексов основ однокоренных слов, их окончаний и предлогов для образования новых частей речи или членов предложения с обеспечением неи 18. The method according to claim 17, characterized in that the equivalent conversion stochastically indexed text fragments produced by presentation of each sentence in the form of a stochastically indexed set of phrases which is converted with the use of the rules of knowledge bases of morphological, syntactical and semantic analysis by equivalent conversion stochastic index cognate bases words, their endings and prepositions to form new parts of speech, or of the sentence with the provision of Nei менности связи указанных словосочетаний в рамках стохастически индексированной семантической структуры каждого предложения и согласования указанных предложений между собой при образовании из них нового фрагмента текста. mennosti regard these phrases as part of a stochastically indexed semantic structure of each sentence and harmonization of these proposals with each other in the formation of these new text fragment.
  19. 19. Способ по п.18, отличающийся тем, что при появлении в процессе стохастического индексирования текстовых документов в индексируемом тексте нового слова, не содержащегося в словаре стохастически индексированных слов и в лингвистических текстах, находят в данном словаре однокоренное слово с указанным новым словом, а в базе знаний морфологического анализа находят правила для эквивалентного преобразования найденного в словаре однокоренного слова в новое слово, при этом по виду эквивалентного преобразования определяют часть речи, к котор 19. The method according to claim 18, characterized in that when a stochastic process in indexing text documents indexed in the text of a new word not contained in the dictionary of words is stochastically indexed and linguistic texts, are found in this dictionary cognate word to said new word, and the knowledge base of the morphological analysis are rules for equivalent transformation found in the root word dictionary in the new word, the equivalent of mind maps is determined by the part of speech to which й относится новое слово и все его словоформы, получаемые при склонении или спряжении, а при отсутствии однокоренных слов в словаре выбирают из текста определенный набор словоформ нового слова, по предлогам или окончаниям которых с помощью стохастически индексированного словаря или правил продукций морфологического анализа определяют часть речи, к которой оно относится, и полный набор его словоформ, получаемых при склонении или спряжении. th refers a new word and all of its word forms obtained by declension or conjugation, and in the absence of cognate words in the dictionary selected from the text of a particular set of word forms new words for prepositions or endings that using stochastically indexed dictionary or production rules of the morphological analysis, the part of speech, to which it refers, and a full set of its word forms obtained by declension or conjugation.
  20. 20. Способ по п.19, отличающийся тем, что для одновременного извлечения знаний из текстовых документов на заданных иностранных языках сначала осуществляют автоматическое обучение системы правилам морфологического, синтаксического, семантического анализа для заданного базового языка, производят формирование базы стохастически индексированного словаря и баз знаний морфологического, синтаксического, семантического анализа с использованием стохастически индексированных лингвистических текстов на заданном базовом языке, с помощью сфор 20. The method according to claim 19, characterized in that for the simultaneous extraction of the knowledge of the text documents in given foreign language is first performed an automatic training system rules morphological, syntactic, semantic analysis for the given host language produce base forming a stochastically indexed dictionaries and morphological knowledge bases , syntactic, semantic analysis using stochastically indexed linguistic texts in a given host language, with the help of SFOR ированных баз осуществляют автоматическое формирование запросов для автоматического обучения системы любому из заданных иностранных языков, при этом производят предварительный выбор по автоматически сформированным запросам фрагментов лингвистических текстов на базовом языке, содержащих знания, необходимые для изучения заданного иностранного языка, эквивалентные преобразования указанных текстов, формирование стохастически индексируемых семантических структур и логический вывод на заданных структурах для формирования ответов, th e databases is performed automatically generating queries for automatic learning system claimed in predetermined languages, thus producing a pre-selection on automatically generated requests linguistic text fragments on the base language having the knowledge required for learning predetermined foreign language equivalent converting said text forming a stochastically indexed and semantic structures at predetermined inference structures for generating responses елевантных автоматическим запросам, которые используют для формирования баз знаний морфологического, синтаксического и семантического анализа для любого из заданных иностранных языков, обеспечивающих извлечение знаний из текстовых документов на заданном иностранном языке. elevantnyh automatic queries that used to form the knowledge base of the morphological, syntactic and semantic analysis for any of the specified foreign languages, providing knowledge extraction from text documents in a given foreign language.
RU2004131643A 2002-05-28 2002-05-28 Method for synthesis of self-teaching system for extracting knowledge from text documents for search engines RU2273879C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2004131643A RU2273879C2 (en) 2002-05-28 2002-05-28 Method for synthesis of self-teaching system for extracting knowledge from text documents for search engines

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2004131643A RU2273879C2 (en) 2002-05-28 2002-05-28 Method for synthesis of self-teaching system for extracting knowledge from text documents for search engines

Publications (2)

Publication Number Publication Date
RU2004131643A true RU2004131643A (en) 2005-04-20
RU2273879C2 true RU2273879C2 (en) 2006-04-10

Family

ID=35634772

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2004131643A RU2273879C2 (en) 2002-05-28 2002-05-28 Method for synthesis of self-teaching system for extracting knowledge from text documents for search engines

Country Status (1)

Country Link
RU (1) RU2273879C2 (en)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010050844A1 (en) * 2008-10-29 2010-05-06 Zakrytoe Aktsionernoe Obschestvo "Avicomp Services" Method of computerized semantic indexing of natural language text, method of computerized semantic indexing of collection of natural language texts, and machine-readable media
WO2013022384A1 (en) * 2011-08-09 2013-02-14 Serebrennikov Oleg Aleksandrovich Method for producing and using a recursive index of search engines
RU2488877C2 (en) * 2007-08-31 2013-07-27 Майкрософт Корпорейшн Identification of semantic relations in indirect speech
US8570818B2 (en) 2008-03-13 2013-10-29 Qualcomm Incorporated Address multiplexing in pseudo-dual port memory
RU2501078C2 (en) * 2008-04-11 2013-12-10 Майкрософт Корпорейшн Ranking search results using edit distance and document information
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
RU2517428C2 (en) * 2012-06-13 2014-05-27 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Самарский государственный университет путей сообщения" (СамГУПС) Method of generating quasi-structured models of factographic information content of documents
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
RU2549118C2 (en) * 2013-05-24 2015-04-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Iterative filling of electronic glossary
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
RU2592395C2 (en) * 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Resolution semantic ambiguity by statistical analysis
RU2592396C1 (en) * 2015-02-03 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Method and system for machine extraction and interpretation of text information
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
RU2607976C1 (en) * 2015-08-19 2017-01-11 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Extracting information from structured documents containing text in natural language
RU2618375C2 (en) * 2015-07-02 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Expanding of information search possibility
RU2632134C2 (en) * 2015-12-28 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Method and system of processing of search requests
RU2646386C1 (en) * 2016-12-07 2018-03-02 Общество с ограниченной ответственностью "Аби Продакшн" Extraction of information using alternative variants of semantic-syntactic analysis
RU2662699C2 (en) * 2014-01-23 2018-07-26 Общество с ограниченной ответственностью "Аби Продакшн" Comprehensive automatic processing of text information

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
НАСЫПНЫЙ В.В. и др. Построение интеллектуальной информационной поисковой системы, Москва, Прометей, 2001, с.3-24. НАСЫПНЫЙ В.В. Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта, Москва, Военное издательство, 1994, с.36-112. *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
RU2488877C2 (en) * 2007-08-31 2013-07-27 Майкрософт Корпорейшн Identification of semantic relations in indirect speech
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US8570818B2 (en) 2008-03-13 2013-10-29 Qualcomm Incorporated Address multiplexing in pseudo-dual port memory
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
RU2501078C2 (en) * 2008-04-11 2013-12-10 Майкрософт Корпорейшн Ranking search results using edit distance and document information
WO2010050844A1 (en) * 2008-10-29 2010-05-06 Zakrytoe Aktsionernoe Obschestvo "Avicomp Services" Method of computerized semantic indexing of natural language text, method of computerized semantic indexing of collection of natural language texts, and machine-readable media
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
WO2013022384A1 (en) * 2011-08-09 2013-02-14 Serebrennikov Oleg Aleksandrovich Method for producing and using a recursive index of search engines
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
RU2517428C2 (en) * 2012-06-13 2014-05-27 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Самарский государственный университет путей сообщения" (СамГУПС) Method of generating quasi-structured models of factographic information content of documents
RU2549118C2 (en) * 2013-05-24 2015-04-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Iterative filling of electronic glossary
RU2592395C2 (en) * 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Resolution semantic ambiguity by statistical analysis
RU2662699C2 (en) * 2014-01-23 2018-07-26 Общество с ограниченной ответственностью "Аби Продакшн" Comprehensive automatic processing of text information
RU2592396C1 (en) * 2015-02-03 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Method and system for machine extraction and interpretation of text information
RU2618375C2 (en) * 2015-07-02 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Expanding of information search possibility
RU2607976C1 (en) * 2015-08-19 2017-01-11 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Extracting information from structured documents containing text in natural language
RU2632134C2 (en) * 2015-12-28 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Method and system of processing of search requests
RU2646386C1 (en) * 2016-12-07 2018-03-02 Общество с ограниченной ответственностью "Аби Продакшн" Extraction of information using alternative variants of semantic-syntactic analysis

Also Published As

Publication number Publication date Type
RU2004131643A (en) 2005-04-20 application

Similar Documents

Publication Publication Date Title
Byrd et al. Tools and methods for computational lexicology
Abeillé Treebanks: Building and using parsed corpora
Al‐Sughaiyer et al. Arabic morphological analysis techniques: A comprehensive survey
Landauer et al. An introduction to latent semantic analysis
Baker Glossary of corpus linguistics
Jacquemin Spotting and discovering terms through natural language processing
Perfors et al. The learnability of abstract syntactic principles
Moens Automatic indexing and abstracting of document texts
McNamara et al. Automated evaluation of text and discourse with Coh-Metrix
Boyd-Graber et al. Adding dense, weighted connections to WordNet
US7860706B2 (en) Knowledge system method and appparatus
Madnani et al. Generating phrasal and sentential paraphrases: A survey of data-driven methods
Dagan et al. The PASCAL recognising textual entailment challenge
Navigli et al. Ontology learning and its application to automated terminology translation
US8275803B2 (en) System and method for providing answers to questions
Tufis et al. BalkaNet: Aims, methods, results and perspectives. a general overview
Kolomiyets et al. A survey on question answering technology from an information retrieval perspective
Hirschman et al. Natural language question answering: the view from here
Pang et al. Syntax-based alignment of multiple translations: Extracting paraphrases and generating new sentences
Chowdhury Natural language processing
Gardin Document analysis and linguistic theory
Seidenberg et al. Explaining derivational morphology as the convergence of codes
US20030028564A1 (en) Natural language method and system for matching and ranking documents in terms of semantic relatedness
Kraaij Variations on language modeling for information retrieval
Frank et al. Question answering from structured knowledge sources

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20160529