RU2518946C1 - Method for automatic semantic indexing of natural language text - Google Patents

Method for automatic semantic indexing of natural language text Download PDF

Info

Publication number
RU2518946C1
RU2518946C1 RU2012150734/08A RU2012150734A RU2518946C1 RU 2518946 C1 RU2518946 C1 RU 2518946C1 RU 2012150734/08 A RU2012150734/08 A RU 2012150734/08A RU 2012150734 A RU2012150734 A RU 2012150734A RU 2518946 C1 RU2518946 C1 RU 2518946C1
Authority
RU
Russia
Prior art keywords
semantically significant
text
level
occurrence
semantic
Prior art date
Application number
RU2012150734/08A
Other languages
Russian (ru)
Inventor
Александр Александрович Харламов
Original Assignee
Александр Александрович Харламов
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Александр Александрович Харламов filed Critical Александр Александрович Харламов
Priority to RU2012150734/08A priority Critical patent/RU2518946C1/en
Application granted granted Critical
Publication of RU2518946C1 publication Critical patent/RU2518946C1/en

Links

Images

Abstract

FIELD: information technology.
SUBSTANCE: method for automatic semantic indexing of natural language text comprises segmenting the text into elementary first level units (words) and sentences; forming second level units (standardised word forms); calculating the frequency of occurrence of each first level unit for adjacent first level units and merging the sequence of words into third level units (stable word combinations); identifying in each sentence a semantically significant entity and an attribute thereof (fourth level units); identifying in each sentence semantically significant relationships between semantically significant entities and between semantically significant entities and attributes; determining the frequency of occurrence of second level and third level units; forming, for each semantically significant relationship, a plurality of triads (fifth level units); on the plurality of the formed triads, separately indexing all semantically significant entities linked by semantically significant relationships with their frequency of occurrence, all attributes with their frequency of occurrence and all formed triads.
EFFECT: high accuracy of indexing natural language texts.
6 cl, 2 dwg, 23 tbl

Description

Область техники, к которой относится изобретениеFIELD OF THE INVENTION

Настоящее изобретение относится к области информационных технологий, а именно к способу автоматизированной семантической индексации текста на естественном языке.The present invention relates to the field of information technology, and in particular to a method for automated semantic indexing of text in a natural language.

Уровень техникиState of the art

В настоящее время известны различные способы автоматизированной индексации текстов на естественных языках.Currently, various methods are known for automated indexing of texts in natural languages.

Например, в патенте РФ №2268488 (опубл. 20.01.2006), описан способ, в котором кодируют слова, фразы, идиомы, предложения для последующей числовой обработки. В патенте РФ №2273879 (опубл. 10.04.2006) раскрыт способ проведения морфологического и синтаксического анализа текста с последующей индексацией. Патент ЕАПВ №002016 (опубл. 22.01.2001) раскрывает способ, в котором во фрагментах текста определяют уникальные блоки информации и используют их для последующей обработки и поиска. Способ по патенту США №6871174 (опубл. 22.03.2005) позволяет определить сходство текстов по текстовым фрагментам. В патенте США №6189002 (опубл. 13.02.2001) раскрыт способ, в котором текст разбивают на абзацы и слова, которые преобразуют в векторы упорядоченных элементов. Каждый элемент вектора соответствует абзацу, найденному применением заданной функции к числу появлений в этом абзаце слова, соответствующего этому элементу. Текстовый вектор рассматривается как семантический профиль документа. Однако все эти способы не учитывают семантической неоднозначности слов и выражений естественного языка.For example, in RF patent No. 2268488 (published on January 20, 2006), a method is described in which words, phrases, idioms, sentences are encoded for subsequent numerical processing. In the patent of the Russian Federation No. 2273879 (publ. 10.04.2006) a method for morphological and syntactic analysis of the text with subsequent indexation is disclosed. The EAPO patent No. 002016 (published on January 22, 2001) discloses a method in which unique blocks of information are determined in text fragments and used for subsequent processing and search. The method according to US patent No. 6871174 (publ. 22.03.2005) allows you to determine the similarity of texts by text fragments. In US patent No. 6189002 (publ. 13.02.2001) disclosed a method in which the text is divided into paragraphs and words, which are converted into vectors of ordered elements. Each element of the vector corresponds to a paragraph found by applying a given function to the number of occurrences in this paragraph of the word corresponding to this element. The text vector is considered as the semantic profile of the document. However, all these methods do not take into account the semantic ambiguity of words and expressions of the natural language.

Учет семантической неоднозначности осуществляется во многих известных способах. Например, в патенте РФ №2242048 (опубл. 10.12.2004), в патентах США №№6871199 (опубл. 22.03.2005), 7024407 (опубл. 04.04.2006) и 7383169 (опубл. 03.06.2008), в заявках на патент США №№2007/0005343 и 2007/0005344 (обе опубл. 04.01.2007), 2008/0097951 (опубл. 24.04.2008), в выложенных заявках Японии №№05-128149 (опубл. 25.05.1993), 06-195374 (опубл. 15.07.1994), 10-171806 (опубл. 26.06.1998) и 2005-182438 (опубл. 07.07.2005), в заявке ЕПВ №0853286 (опубл. 15.07.1998) описаны способы, обеспечивающие тем или иным образом устранение неоднозначности встречающихся в текстах слов и (или) выражений. Однако все эти способы имеют лишь частное применение и не затрагивают полноценной семантической индексации текста.Accounting for semantic ambiguity is carried out in many well-known methods. For example, in RF patent No. 2222048 (publ. 10.12.2004), in US patents No. 6871199 (publ. March 22, 2005), 7024407 (publ. 04.04.2006) and 7383169 (publ. 03.06.2008), in applications for US patent No. 2007/0005343 and 2007/0005344 (both publ. 04/04/2007), 2008/0097951 (publ. 04.24.2008), in Japanese applications laid out No. 05-128149 (publ. 05/25/1993), 06- 195374 (publ. 07/15/1994), 10-171806 (publ. 06/26/1998) and 2005-182438 (publ. 07/07/2005), in EPO application No. 0853286 (publ. 15.07.1998) methods are described that provide one or another way to eliminate the ambiguity of the words and / or expressions found in the texts. However, all these methods have only private application and do not affect the full semantic indexing of the text.

В заявке на патент США №2007/0073533 (опубл. 29.03.2007) охарактеризован способ, в котором в сегментированном тексте выделяют из каждого участка текста такие признаки, как: именованная сущность, тождество по референту, лексическая статья, семантико-структурное отношение, атрибутивная и меронимическая информация. Далее определяют для каждого участка текста его конституентную структуру в виде перечня конституентов и их порядка следования. Определяют функциональную структуру для каждого участка текста и, на основе функциональной структуры, находят предикатные тройки применением линеаризационных правил переноса значений. Объединяют конституентную структуру участка текста, перечень канонизированных предикатных троек и выявленные признаки, для формирования канонизированного представления участка текста, из которых и формируют индекс всего текста. Этот способ ограничен вследствие того, что для формирования индекса используются только предикатные тройки, остальные аргументы расширенной предикатной структуры остаются неиспользованными, что ухудшает точность семантического анализа.US Patent Application No. 2007/0073533 (published March 29, 2007) describes a method in which features such as a named entity, identity by reference, lexical article, semantic-structural relation, attributive attribute are distinguished from a segmented text from a segmented text. and meronymic information. Then, for each section of the text, its constituent structure is determined in the form of a list of constituents and their sequence. The functional structure is determined for each section of the text and, based on the functional structure, the predicate triples are found using linearization rules for transferring values. The constituent structure of the text section, the list of canonized predicate triples and the identified features are combined to form a canonized representation of the text section, from which the entire text index is formed. This method is limited due to the fact that only predicate triples are used to form the index, the remaining arguments of the extended predicate structure remain unused, which impairs the accuracy of semantic analysis.

Наиболее близкий к заявленной группе изобретений способ автоматизированной семантической индексации текста на естественном языке раскрыт в патенте РФ №2399959 (опубл. 20.09.2010). В этом способе текст в цифровой форме сегментируют на элементарные единицы первого уровня (слова); формируют для каждой элементарной единицы первого уровня (слова) элементарную единицу второго уровня (нормализованную словоформу); сегментируют текст в цифровой форме на предложения, соответствующие участкам индексируемого текста; выявляют в тексте, в процессе лингвистического анализа, элементарные единицы третьего уровня (устойчивые словосочетания); в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде, выявляют в каждом из сформированных предложений элементарные единицы четвертого уровня (семантически значимый объект и его атрибут) и семантически значимые отношения между выявленными семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами; формируют в пределах данного текста для каждого из выявленных семантически значимых отношений множество элементарных единиц пятого уровня (триад); индексируют на множестве сформированных триад все связанные семантически значимыми отношениями семантически значимые объекты, а также атрибуты, по отдельности, и все триады вида «семантически значимый объект - семантически значимое отношение - семантически значимый объект», а также все триады вида «семантически значимый объект - семантически значимое отношение - атрибут»; сохраняют в базе данных сформированные триады и полученные индексы вместе со ссылкой на исходный текст, из которого сформированы эти триады.Closest to the claimed group of inventions, a method for automated semantic indexing of text in a natural language is disclosed in the patent of the Russian Federation No. 2399959 (publ. 09/20/2010). In this method, text in digital form is segmented into elementary units of the first level (words); form for each elementary unit of the first level (words) an elementary unit of the second level (normalized word form); segment text in digital form into sentences corresponding to sections of indexed text; reveal in the text, in the process of linguistic analysis, elementary units of the third level (stable phrases); in the process of multi-stage semantic-syntactic analysis by referring to linguistic and heuristic rules preformed in the database in a predefined linguistic environment, elementary units of the fourth level (semantically significant object and its attribute) and semantically significant relationships between the identified semantically are revealed in each of the sentences significant objects, as well as between semantically significant objects and attributes; form within this text for each of the identified semantically significant relationships, a set of elementary units of the fifth level (triads); index on a set of formed triads all semantically significant objects connected by semantically significant relations, as well as attributes individually and all triads of the form “semantically significant object - semantically significant relation - semantically significant object”, as well as all triads of the form “semantically significant object - semantically significant” meaningful relation - attribute ”; save the generated triads and the resulting indexes in a database together with a link to the source text from which these triads are formed.

Недостатком данного способа является отсутствие ранжирования сформированных элементарных единиц второго, третьего и четвертого уровней, что приводит к неоправданно большому объему вычислений, связанному с необходимостью использовать для дальнейшей обработки весь сформированный индекс.The disadvantage of this method is the lack of ranking of the formed elementary units of the second, third and fourth levels, which leads to an unreasonably large amount of calculations associated with the need to use the entire generated index for further processing.

Раскрытие изобретенияDisclosure of invention

Цель настоящего изобретения состоит в расширении арсенала способов индексации текстов на естественных языках за счет использования методов их автоматизированного лингвистического анализа и последующего использования его результатов для построения семантических индексов.The purpose of the present invention is to expand the arsenal of methods for indexing texts in natural languages through the use of methods for their automated linguistic analysis and the subsequent use of its results for constructing semantic indexes.

Достижение этой цели и получение указанного технического результата обеспечиваются в настоящем изобретении посредством способа автоматизированной семантической индексации текста на естественном языке, заключающемся в том, что: представляют индексируемый текст в цифровой форме для последующей автоматической и (или) автоматизированной обработки; сегментируют текст в цифровой форме на элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова; сегментируют по графематическим правилам текст в цифровой форме на предложения; формируют на основе морфологического анализа для каждой элементарной единицы первого уровня, представляющей собой слово, элементарную единицу второго уровня, включающую в себя нормализованную словоформу, именуемую далее леммой; подсчитывают частоту встречаемости каждой элементарной единицы первого уровня для двух и более соседних единиц первого уровня в данном тексте и объединяют среди элементарных единиц первого уровня последовательности слов, следующих друг за другом в данном тексте, в элементарные единицы третьего уровня, представляющие собой устойчивые сочетания слов, в случае, если для каждых двух и более следующих друг за другом слов в данном тексте разности подсчитанных частот встречаемости этих слов для первого появления данной последовательности слов и для нескольких последующих их появлений для каждой пары слов последовательности остаются неизменными; выявляют, в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде, в каждом из сформированных предложений семантически значимый объект и его атрибут, являющиеся единицами четвертого уровня; сохраняют в памяти каждый семантически значимый объект и атрибут; выявляют, в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде, в каждом из сформированных предложений семантически значимые отношения между выявленными единицами четвертого уровня - семантически значимыми объектами, а также, между семантически значимыми объектами и атрибутами; присваивают каждому семантически значимому отношению соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится индексируемый текст; сохраняют в памяти каждое семантически значимое отношение вместе с присвоенным ему типом; выявляют частоты встречаемости элементарных единиц четвертого уровня на всем тексте; формируют в пределах данного текста для каждого из выявленных семантически значимых отношений, связывающих как соответствующие семантически значимые объекты, так и семантически значимый объект и его атрибут, множество триад, которые являются элементарными единицами пятого уровня; индексируют на множестве сформированных триад по отдельности все связанные семантически значимыми отношениями семантически значимые объекты с их частотами встречаемости, все атрибуты с их частотами встречаемости и все сформированные триады; сохраняют в базе данных сформированные элементарные единицы второго, третьего, четвертого и пятого уровней с их частотами встречаемости, а также полученные индексы вместе со ссылками на конкретные предложения данного текста.Achieving this goal and obtaining the indicated technical result are provided in the present invention by means of a method for automated semantic indexing of text in a natural language, which consists in the following: represent indexed text in digital form for subsequent automatic and (or) automated processing; segment the text in digital form into elementary units of the first level, including at least words; Segment digitally into sentences according to graphematic rules; form on the basis of morphological analysis for each elementary unit of the first level, which is a word, an elementary unit of the second level, which includes a normalized word form, hereinafter referred to as the lemma; calculate the frequency of occurrence of each elementary unit of the first level for two or more adjacent units of the first level in this text and combine among the elementary units of the first level the sequence of words following each other in this text into elementary units of the third level, which are stable combinations of words, if, for every two or more consecutive words in a given text, the difference in the calculated frequencies of occurrence of these words for the first occurrence of a given sequence with s and a number of subsequent occurrences for each pair of sequences of words remain unchanged; identify, in the process of multi-stage semantic-syntactic analysis by referring to linguistic and heuristic rules pre-generated in the database in a predefined linguistic environment, in each of the generated sentences, a semantically significant object and its attribute, which are units of the fourth level; store in memory every semantically significant object and attribute; reveal, in the process of multi-stage semantic-syntactic analysis by referring to linguistic and heuristic rules pre-generated in the database in a predefined linguistic environment, in each of the generated sentences there are semantically significant relations between the identified units of the fourth level - semantically significant objects, as well as between semantically significant significant objects and attributes; assign to each semantically significant relation the corresponding type from the subject ontology stored in the database on the subject matter of the subject area to which the indexed text belongs; store in memory each semantically significant relation together with the type assigned to it; identify the frequency of occurrence of elementary units of the fourth level throughout the text; form within the given text for each of the identified semantically significant relations, linking both the corresponding semantically significant objects and the semantically significant object and its attribute, a multitude of triads that are elementary units of the fifth level; index on a set of formed triads individually all semantically meaningful relations related semantically significant objects with their frequencies of occurrence, all attributes with their frequencies of occurrence and all formed triads; they store in the database the formed elementary units of the second, third, fourth and fifth levels with their frequencies of occurrence, as well as the obtained indices, together with links to specific sentences of this text.

Особенность способа по настоящему изобретению состоит в том, что для каждой единицы четвертого уровня могут фиксировать тождество по референции между соответствующим семантически значимым объектом, а также атрибутом, и соответствующей анафорической ссылкой при ее наличии в индексируемом тексте, заменяя каждую анафорическую ссылку на соответствующий ей антецедент.A feature of the method of the present invention is that for each unit of the fourth level they can fix the identity by reference between the corresponding semantically significant object, as well as the attribute, and the corresponding anaphoric link if it is in the indexed text, replacing each anaphoric link with the corresponding antecedent.

Еще одна особенность способа по настоящему изобретению состоит в том, что из упомянутых триад могут формировать семантическую сеть таким образом, что первая элементарная единица второго или третьего уровня последующей триады связывается с такой же второй элементарной единицей второго или третьего уровня предыдущей триады. При этом перед сохранением в базе данных сформированных триад и полученных индексов осуществляют, в процессе итеративной процедуры, перенормировку частот встречаемости в смысловой вес элементарных единиц второго и третьего уровней, являющихся вершинами семантической сети, таким образом, что элементарные единицы второго и третьего уровней, связанные в сети с большим числом элементарных единиц второго и третьего уровней с большой частотой встречаемости, увеличивают свой смысловой вес, а другие элементарные единицы второго и третьего уровней его равномерно теряют.Another feature of the method of the present invention is that from these triads can form a semantic network so that the first elementary unit of the second or third level of the subsequent triad is associated with the same second elementary unit of the second or third level of the previous triad. Moreover, before storing the generated triads and obtained indices in the database, the iterative procedure renormalizes the frequencies of occurrence into the semantic weight of the elementary units of the second and third levels, which are the vertices of the semantic network, so that the elementary units of the second and third levels connected in networks with a large number of elementary units of the second and third levels with a high frequency of occurrence increase their semantic weight, while other elementary units of the second and third ovney lose it evenly.

Еще одна особенность способа по настоящему изобретению состоит в том, что могут ранжировать сформированные элементарные единицы второго и третьего уровней по смысловому весу путем сравнения их смыслового веса с заранее заданным пороговым значением.Another feature of the method of the present invention is that they can rank the formed elementary units of the second and third levels by semantic weight by comparing their semantic weight with a predetermined threshold value.

Наконец, еще одна особенность способа по настоящему изобретению состоит в том, что могут удалять триады, в которых элементарные единицы второго и третьего уровней имеют смысловой вес ниже порогового.Finally, another feature of the method of the present invention is that they can remove triads in which elementary units of the second and third levels have a semantic weight below the threshold.

Краткое описание чертежейBrief Description of the Drawings

Настоящее изобретение поясняется далее описанием конкретного примера его осуществления и прилагаемыми чертежами.The present invention is further explained by the description of a specific example of its implementation and the accompanying drawings.

На Фиг.1 приведена условная блок-схема, поясняющая заявленный способ.Figure 1 shows the conditional block diagram explaining the claimed method.

На Фиг.2 приведена схема обработки текста на основе многоступенчатого семантико-синтаксического анализа для выявления семантически значимых объектов, атрибутов и семантически значимых отношений.Figure 2 shows the text processing scheme based on multi-stage semantic-syntactic analysis to identify semantically significant objects, attributes and semantically significant relationships.

Подробное описание изобретенияDETAILED DESCRIPTION OF THE INVENTION

Способ по настоящему изобретению может быть реализован практически в любой вычислительной среде, к примеру, на персональном компьютере, подключенном к внешним базам данных. Этапы осуществления способа иллюстрируются на Фиг.1.The method of the present invention can be implemented in almost any computing environment, for example, on a personal computer connected to external databases. The steps of the method are illustrated in FIG.

Все дальнейшие пояснения даются в применении к русскому языку, который является одним из самых высокофлективных языков, хотя предложенный способ применим к семантической индексации текстов на любых естественных языках.All further explanations are given as applied to the Russian language, which is one of the most highly inflected languages, although the proposed method is applicable to the semantic indexing of texts in any natural languages.

Прежде всего, подлежащий индексации текст необходимо представить в электронной форме для последующей автоматизированной обработки. Этот этап на Фиг.1 условно обозначен ссылочной позицией 1 и может быть выполнен любым известным способом, например, сканированием текста с последующим распознаванием с помощью общеизвестных средств типа ABBYY FineReader. Если же текст поступает на индексацию из электронной сети, к примеру, из Интернета, то этап его представления в электронной форме выполняется заранее, до размещения этого текста в сети.First of all, the text to be indexed must be submitted in electronic form for subsequent automated processing. This step in figure 1 is conventionally indicated by the reference number 1 and can be performed in any known manner, for example, by scanning the text and subsequent recognition using well-known means such as ABBYY FineReader. If the text is sent for indexing from an electronic network, for example, from the Internet, then the stage of its submission in electronic form is performed in advance, before this text is posted on the network.

Специалистам должно быть понятно, что операции этого и последующих этапов осуществляются с запоминанием промежуточных результатов, например, в оперативном запоминающем устройстве (ОЗУ).Professionals should be clear that the operations of this and subsequent steps are carried out with storing intermediate results, for example, in random access memory (RAM).

Преобразованный в электронную форму текст поступает на обработку, в процессе которой сначала этот текст сегментируется на элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова. В упомянутом патенте РФ №2399959 эти элементарные единицы первого уровня именуются токенами (token). Токеном может быть любой текстовый объект из следующего множества: слова, состоящие каждое из последовательности букв и, возможно, дефисов; последовательность пробелов; знаки препинания; числа. Иногда сюда же относят такие последовательности символов, как А300, i150b и т.п. Выделение токенов всегда осуществляется по достаточно простым правилам, например, как в упомянутом патенте РФ №2399959. На Фиг.1 этот этап условно обозначен ссылочной позицией 2.The text converted into electronic form is sent for processing, during which the text is first segmented into elementary units of the first level, including at least words. In the mentioned patent of the Russian Federation No. 2399959, these elementary units of the first level are called tokens. A token can be any text object from the following set: words consisting of each sequence of letters and, possibly, hyphens; sequence of spaces; punctuation marks; numbers. Sometimes sequences of symbols such as А300, i150b, etc. are also included here. Tokens are always allocated according to fairly simple rules, for example, as in the aforementioned RF patent No. 2399959. In figure 1, this step is conventionally indicated by the reference position 2.

Вслед за этим, на этапе 3 (Фиг.1) сегментируют индексируемый текст в цифровой форме на предложения, соответствующие участкам данного текста. Такую сегментацию проводят по графематическим правилам. К примеру, самым простым правилом для выделения предложений является: «Предложением является последовательность токенов, начинающаяся с заглавной буквы и заканчивающаяся точкой».Following this, in step 3 (FIG. 1), the indexed text is digitally segmented into sentences corresponding to sections of the given text. Such segmentation is carried out according to graphematical rules. For example, the simplest rule for highlighting sentences is: “A sentence is a sequence of tokens, starting with a capital letter and ending with a period”.

Далее для каждой элементарной единицы первого уровня (для каждого токена), представляющей собой слово, на основе морфологического анализа формируют соответствующую элементарную единицу второго уровня, представляющую собой нормализованную словоформу, именуемую далее леммой. К примеру, для слова «иду» нормализованной словоформой будет «идти», для слова «красивого» нормализованной словоформой будет «красивый», а для слова «стеной» нормализованная словоформа - «стена». Кроме того, для каждой словоформы указывается часть речи, к которой относится данное слово, и его морфологические характеристики. Естественно, что для разных частей речи эти характеристики различны. К примеру, для существительных и прилагательных это род (мужской - женский - средний), число (единственное - множественное), падеж; для глаголов это вид (совершенный - несовершенный), лицо, число (единственное - множественное) и т.д. Таким образом, для заданного слова его нормализованная словоформа (лемма) + морфологические характеристики, в том числе часть речи, являются его морфом. Одно и то же слово может иметь несколько морфов. Например, слово «стекло» имеет два морфа - один для существительного среднего рода и один для глагола в прошедшем времени. Этот этап условно обозначен на Фиг.1 ссылочной позицией 4.Further, for each elementary unit of the first level (for each token), which is a word, on the basis of morphological analysis, the corresponding elementary unit of the second level is formed, which is a normalized word form, hereinafter referred to as the lemma. For example, for the word “go” the normalized word form will be “go”, for the word “beautiful” the normalized word form will be “beautiful”, and for the word “wall” the normalized word form will be “wall”. In addition, for each word form, the part of speech to which the given word belongs and its morphological characteristics are indicated. Naturally, for different parts of speech, these characteristics are different. For example, for nouns and adjectives it is a gender (masculine - feminine - average), number (singular - plural), case; for verbs, it is a form (perfect - imperfect), person, number (singular - plural), etc. Thus, for a given word, its normalized word form (lemma) + morphological characteristics, including part of speech, are its morph. One and the same word can have several morphs. For example, the word "glass" has two morphs - one for a noun of the middle gender and one for a past tense verb. This step is conventionally indicated in figure 1 by reference numeral 4.

Следующий этап, условно обозначенный на Фиг.1 ссылочной позицией 5, состоит в том, что для каждой из упомянутых элементарных единиц первого уровня в упомянутом тексте подсчитывают частоту встречаемости. Иначе говоря, определяют, сколько раз каждое слово встречается в обрабатываемом тексте. Эту операцию осуществляют автоматически, например, простым подсчетом частоты встречаемости каждого токена, либо так, как это описано в патенте РФ №2167450 (опубл. 20.05.2001), либо в упомянутом патенте США №6189002. Одновременно с подсчетом частоты встречаемости находят для каждых двух и более следующих друг за другом слов в данном тексте разности подсчитанных частот встречаемости этих слов в первое появление этой последовательности слов и в последующие их появления. Если эти разности для первого появления данной последовательности слов и для нескольких последующих их появлений остаются неизменными, такую последовательность слов, следующих друг за другом в данном тексте (т.е. элементарных единиц второго уровня), объединяют в элементарные единицы третьего уровня, представляющие собой устойчивые словосочетания.The next step, conventionally indicated in FIG. 1 by reference numeral 5, is that for each of the mentioned first level elementary units, the frequency of occurrence is calculated in the said text. In other words, they determine how many times each word occurs in the processed text. This operation is carried out automatically, for example, by simply calculating the frequency of occurrence of each token, either as described in the patent of the Russian Federation No. 2164450 (publ. 05.20.2001), or in the aforementioned US patent No. 6189002. Simultaneously with the calculation of the frequency of occurrence, for every two or more words that follow in a given text, the differences in the calculated frequencies of occurrence of these words are found in the first occurrence of this sequence of words and in their subsequent occurrences. If these differences for the first occurrence of a given sequence of words and for several subsequent occurrences of them remain unchanged, such a sequence of words following each other in this text (i.e., elementary units of the second level) is combined into elementary units of the third level, which are stable collocations.

Далее, на следующем этапе, обозначенном на Фиг.1 ссылочной позицией 6, с целью выявления семантически значимых объектов и атрибутов, выполняют многоступенчатый семантико-синтаксический анализ. Такой многоступенчатый семантико-синтаксический анализ выполняют путем обращения к сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде. Такой средой может быть, например, лингвистическая среда, упомянутая в вышеуказанной заявке на патент США №2007/0073533, либо в вышеуказанных патентах РФ №2242048 и РФ №2399959, либо любая иная лингвистическая среда, определяющая соответствующие правила, которые позволяют устранять синтаксические и семантические неоднозначности слов и выражений реального текста. Лингвистические и эвристические правила в выбранной среде именуются далее правилами.Further, in the next step, indicated in FIG. 1 by reference numeral 6, in order to identify semantically significant objects and attributes, a multi-stage semantic-syntactic analysis is performed. Such multistage semantic-syntactic analysis is performed by referring to the linguistic and heuristic rules generated in the database in a predetermined linguistic environment. Such an environment may be, for example, the linguistic environment mentioned in the aforementioned application for US patent No. 2007/0073533, or in the above patents of the Russian Federation No. 2242048 and the Russian Federation No. 2399959, or any other linguistic environment that defines the relevant rules that allow you to eliminate syntactic and semantic ambiguities of words and expressions of the real text. Linguistic and heuristic rules in the selected environment are referred to below as rules.

Выявление семантически значимых объектов и атрибутов, которые считаются элементарными единицами четвертого уровня, производится в предложении на множестве элементарных единиц первого, второго и (или) третьего уровней.The identification of semantically significant objects and attributes, which are considered elementary units of the fourth level, is performed in the sentence on the set of elementary units of the first, second and (or) third levels.

Для каждого семантически значимого объекта и атрибута, т.е. элементарной единицы четвертого уровня, с присвоенным ему типом находят соответствующую ему анафорическую ссылку (если она есть). Например, в предложении «Механика - часть физики, которая изучает закономерности механического движения и причины, вызывающие или изменяющие это движение» анафорической ссылкой к слову «механика» будет местоимение «которая», тогда как слово «механика» будет антецедентом для этой анафоры, и еще, анафорической ссылкой к слову «механическое» будет местоимение «это», тогда как слово «механическое» будет антецедентом для этой анафоры. Этот этап нахождения анафорической ссылки условно обозначен на Фиг.1 ссылочной позицией 7. Каждую анафорическую ссылку заменяют на соответствующий ей антецедент. После этого каждый выявленный семантически значимый объект и атрибут сохраняют в соответствующей памяти.For each semantically significant object and attribute, i.e. elementary units of the fourth level, with the type assigned to it, find the corresponding anaphoric link (if any). For example, in the sentence “Mechanics is a part of physics that studies the laws of mechanical motion and the causes that cause or change this movement”, the anaphoric reference to the word “mechanics” will be the pronoun “which”, while the word “mechanics” will be an antecedent for this anaphora, and also, the anaphoric reference to the word “mechanical” will be the pronoun “this,” while the word “mechanical” will be an antecedent for this anaphora. This step of finding the anaphoric link is conventionally indicated in FIG. 1 by the reference numeral 7. Each anaphoric link is replaced with its corresponding antecedent. After that, each identified semantically significant object and attribute is stored in the corresponding memory.

На следующем этапе, обозначенном на Фиг.1 ссылочной позицией 8, выполняют многоступенчатый семантико-синтаксический анализ, с помощью которого на основе элементарных единиц первого, второго, третьего и четвертого уровней находят с помощью упомянутых правил семантически значимые отношения между семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами.At the next stage, denoted by reference numeral 8 in FIG. 1, a multi-stage semantic-syntactic analysis is performed, with which, on the basis of elementary units of the first, second, third and fourth levels, semantically significant relations between semantically significant objects are found using the above rules, and between semantically significant objects and attributes.

На этапе, обозначенном на Фиг.1 ссылочной позицией 9, каждому семантически значимому отношению присваивают соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится индексируемый текст. После этого каждое семантически значимое отношение сохраняют в соответствующей памяти вместе с присвоенным ему типом и найденными для него морфологическими и семантическими атрибутами.At the step indicated by reference numeral 9 in FIG. 1, each semantically significant relation is assigned the corresponding type from the subject ontology stored in the database on the subject of the subject area to which the indexed text belongs. After that, each semantically significant relation is stored in the corresponding memory together with the type assigned to it and the morphological and semantic attributes found for it.

После этого на этапе, обозначенном на Фиг.1 ссылочной позицией 10, выявляют частоты встречаемости семантически значимых объектов и атрибутов, на всем данном тексте. Эту операцию выполняют практически так же, как на этапе 4 для элементарных единиц второго уровня.After that, at the stage indicated in FIG. 1 by reference numeral 10, the occurrence frequencies of semantically significant objects and attributes are identified throughout this text. This operation is performed in almost the same way as in step 4 for elementary units of the second level.

На этапе, обозначенном на Фиг.1 ссылочной позицией 11, сохраненные семантически значимые объекты, а также атрибуты, и семантически значимые отношения используют для формирования триад. При этом в пределах индексируемого текста для каждого из выявленных семантически значимых отношений, связывающих определенные семантически значимые объекты, формируют множество триад двух типов. Каждая из множества триад первого типа включает семантически значимое отношение и два семантически значимых объекта, которые связываются этим семантически значимым отношением. Каждая из множества триад второго типа включает семантически значимое отношение, один семантически значимый объект, а также его атрибут, которые связываются этим семантически значимым отношением. Если обозначить два семантически значимых объекта через Oi и Oj, а связывающее их семантически значимое отношение через Rij, то каждую из триад первого типа можно условно представить (изобразить) как Oi→Rij→Oj. Каждая из триад второго типа может быть представлена как Oi→Am, где Am являются соответствующими атрибутами. В этих записях индексы i, j, m представляют собой целые числа.In the step indicated by reference numeral 11 in FIG. 1, stored semantically meaningful objects, as well as attributes, and semantically meaningful relationships are used to form triads. Moreover, within the limits of the text being indexed, for each of the identified semantically significant relations that connect certain semantically significant objects, many triads of two types are formed. Each of the many triads of the first type includes a semantically meaningful relationship and two semantically meaningful objects that are linked by this semantically meaningful relationship. Each of the many triads of the second type includes a semantically significant relation, one semantically significant object, as well as its attribute, which are associated with this semantically significant relation. If two semantically significant objects are denoted by O i and O j , and the semantically significant relation connecting them is denoted by R ij , then each of the triads of the first type can be conditionally represented (depicted) as O i → R ij → O j . Each of the triads of the second type can be represented as O i → A m , where A m are the corresponding attributes. In these entries, the indices i, j, m are integers.

Затем, на этапе, обозначенном на Фиг.1 ссылочной позицией 12, выполняют индексацию текста. При этом индексируют по отдельности на множестве сформированных триад все связанные семантически значимыми отношениями семантически значимые объекты с их частотами встречаемости, все атрибуты с их частотами встречаемости и все сформированные триады.Then, in the step indicated in FIG. 1 by reference numeral 12, the text is indexed. At the same time, individually associated with semantically significant relations, all semantically significant objects with their frequencies of occurrence, all attributes with their frequencies of occurrence, and all formed triads are indexed individually on the set of formed triads.

Для этого на множестве сформированных триад индексируют все семантически значимый объект и его атрибут по отдельности, с их частотами встречаемости, и все триады вида «семантически значимый объект - семантически значимое отношение - семантически значимый объект», а также все триады вида «семантически значимый объект - семантически значимое отношение - атрибут». Сформированные на этапе 11 триады и полученные на этапе 12 индексы вместе со ссылкой на конкретные предложения исходного текста, из которого сформированы эти триады, сохраняют в базе данных (этап 13 на Фиг.1).To do this, on the set of formed triads, the entire semantically significant object and its attribute are individually indexed, with their frequencies of occurrence, and all triads of the form “semantically significant object - semantically significant relation - semantically significant object”, as well as all triads of the form “semantically significant object - semantically significant relation is an attribute. ” The indices generated in step 11 of the triad and the indices obtained in step 12, together with a link to specific sentences of the source text from which these triads are generated, are stored in the database (step 13 in FIG. 1).

Для специалистов очевидно, что упоминавшиеся на отдельных этапах запоминающие устройства могут на деле быть как разными устройствами, так и одним запоминающим устройством достаточного объема. Точно так же отдельные базы данных, упоминавшиеся на соответствующих этапах, могут быть не только физически раздельными базами данных, но и единственной базой данных. Более того, упомянутые запоминающие устройства (памяти) могут быть выполнены на той же самой единственной базе данных, либо объединяться с одной из упомянутых баз данных. Специалистам также понятно, что заявленные в настоящем изобретении способы выполняются в соответствующей вычислительной среде под управлением соответствующих программ, которые записаны на машиночитаемых носителях, предназначенных для непосредственного участия в работе компьютера.For specialists, it is obvious that the storage devices mentioned at separate stages can in fact be both different devices, and one storage device of sufficient volume. Similarly, the individual databases mentioned at the respective stages can be not only physically separate databases, but also the only database. Moreover, said storage devices (memories) may be executed on the same single database, or be combined with one of said databases. Those skilled in the art will also understand that the methods claimed in the present invention are executed in an appropriate computing environment under the control of appropriate programs that are recorded on computer-readable media intended for direct participation in a computer.

Особенность способа по настоящему изобретению состоит в том, что из упомянутых триад могут формировать семантическую сеть таким образом, что первый семантически значимый объект последующей триады связывается с таким же вторым семантически значимым объектом предыдущей триады. При этом перед сохранением в базе данных сформированных триад и полученных индексов осуществляется, в процессе итеративной процедуры, перенормировка частот встречаемости семантически значимых объектов и атрибутов в смысловой вес семантически значимых объектов и атрибутов, являющихся вершинами семантической сети, таким образом, что семантически значимые объект и атрибут, связанные в сети с большим числом семантически значимых объектов и атрибутов с большой частотой встречаемости, увеличивают свой смысловой вес, а другие семантически значимый объект и его атрибут его равномерно теряют (этап 14 на Фиг.1).A feature of the method of the present invention is that from these triads can form a semantic network so that the first semantically significant object of the subsequent triad is associated with the same second semantically significant object of the previous triad. Moreover, before storing the generated triads and obtained indices in the database, the iterative procedure performs renormalization of the frequencies of occurrence of semantically significant objects and attributes into the semantic weight of semantically significant objects and attributes that are the vertices of the semantic network, so that the semantically significant object and attribute connected in a network with a large number of semantically significant objects and attributes with a high frequency of occurrence, increase their semantic weight, while others semantically a significant object and its attribute uniformly lose it (step 14 in FIG. 1).

Еще одна особенность способа по настоящему изобретению состоит в том, что сформированные семантически значимый объект и его атрибут могут ранжироваться по смысловому весу путем сравнения их смыслового веса с заранее заданным пороговым значением (этап 15 на Фиг.1).Another feature of the method of the present invention is that the generated semantically significant object and its attribute can be ranked by semantic weight by comparing their semantic weight with a predetermined threshold value (step 15 in FIG. 1).

Наконец, еще одна особенность способа по настоящему изобретению состоит в том, что могут удалять триады, в которых семантически значимый объект и его атрибут имеют смысловой вес ниже порогового (этап 16 на Фиг.1).Finally, another feature of the method of the present invention is that they can remove triads in which the semantically significant object and its attribute have a semantic weight below the threshold (step 16 in FIG. 1).

ПримерExample

Для иллюстрации осуществления заявленного способа автоматизированной семантической индексации текста на естественном языке рассмотрим следующий пример. Пусть имеется некоторый русскоязычный текст по курсу физики, представленный на Интернет-сайте http://www.kodges.ru/. Таким образом, можно считать, что преобразование текстов в электронную форму, обозначенное на Фиг.1 ссылочной позицией 1, уже выполнено.To illustrate the implementation of the claimed method of automated semantic indexing of text in a natural language, consider the following example. Let there be some Russian-language text on the physics course presented on the Internet site http://www.kodges.ru/. Thus, we can assume that the conversion of texts into electronic form, indicated in FIG. 1 by reference numeral 1, has already been completed.

Типичным примером такого текста является следующий фрагмент из учебника Т.И.Трофимовой «Курс физики», Москва, «Высшая школа», 2001: «Механика - часть физики, которая изучает закономерности механического движения и причины, вызывающие или изменяющие это движение. Механическое движение - это изменение с течением времени взаимного расположения тел или их частей.…»A typical example of such a text is the following fragment from the textbook of T. I. Trofimova “The Course of Physics”, Moscow, “Higher School”, 2001: “Mechanics is a part of physics that studies the laws of mechanical motion and the causes that cause or change this movement. Mechanical movement is a change over time in the relative position of bodies or their parts. ... "

В соответствии с заявленным способом автоматизированной семантической индексации текста на естественном языке используют предварительно созданную базу синтаксических правил и словарей, в рамках которых будет осуществляться обработка текста и построение семантического индекса. Подобные базы готовятся экспертами-лингвистами, которые на основании своего опыта и знаний определяют последовательность и состав синтаксической обработки текста, характерные для конкретного языка.In accordance with the claimed method of automated semantic indexing of text in a natural language, a previously created base of syntactic rules and dictionaries is used, within which text processing and construction of a semantic index will be carried out. Such databases are prepared by linguistic experts who, based on their experience and knowledge, determine the sequence and composition of the syntactic processing of the text that are specific to a particular language.

Экспертами-лингвистами предварительно строится множество графематических и синтаксических правил, которые позволяют с помощью использования также предварительно построенных экспертами-лингвистами соответствующих лингвистических словарей, в дальнейшем в обрабатываемых текстах автоматически выявлять конкретные сведения, соответствующие семантически значимым объектам и атрибутам и семантически значимым отношениям, которые могут иметь место в каждой паре семантически значимых объектов или в каждой паре из семантически значимого объекта и его атрибута.Linguistic experts preliminarily construct a variety of graphematical and syntactic rules that allow using the linguistic dictionaries previously constructed by expert linguists to automatically identify further specific information in the processed texts corresponding to semantically significant objects and attributes and semantically significant relationships that may have place in each pair of semantically significant objects or in each pair of semantically significant object and its attribute.

Кроме спецификации предметной области и правил в соответствии с изложенными выше способами используются словари общей и специальной лексики.In addition to the specification of the subject area and the rules in accordance with the above methods, dictionaries of general and special vocabulary are used.

В соответствии с заявленным способом автоматизированной семантической индексации текста на естественном языке сначала осуществляют сегментацию текста на элементарные единицы - токены (ссылочная позиция 2 на Фиг.1) и морфологический анализ токенов, представляющих собой слова (ссылочная позиция 3 на Фиг.1). В результате выполнения этого этапа исходный текст трансформируется во множество токенов и морфов, которые представлены в Таблице 1 и Таблице 2, соответственно.In accordance with the claimed method of automated semantic indexing of text in a natural language, the text is first segmented into elementary units — tokens (reference position 2 in FIG. 1) and morphological analysis of tokens representing words (reference position 3 in FIG. 1). As a result of this step, the source text is transformed into many tokens and morphs, which are presented in Table 1 and Table 2, respectively.

Далее после сегментации текста на токены и морфологического анализа токенов - слов осуществляют выделение устойчивых словосочетаний (ссылочная позиция 4 на Фиг.1). Для этого подсчитывают частоту встречаемости слов в последовательностях из двух и более слов в тексте. Затем сравнивают разности частот встречаемости слов в последовательности для первого появления данной последовательности слов и для нескольких последующих их появлений.Then, after segmenting the text into tokens and morphological analysis of tokens - words, stable phrases are allocated (reference position 4 in FIG. 1). To do this, calculate the frequency of occurrence of words in sequences of two or more words in the text. Then, the differences in the frequencies of occurrence of words in the sequence are compared for the first occurrence of a given sequence of words and for several subsequent occurrences of them.

Частоты встречаемости слов при первом появлении последовательности и при ее последующем появлении, а также разности этих частот представлены в Таблице 3.The frequency of occurrence of words at the first appearance of the sequence and at its subsequent appearance, as well as the difference of these frequencies are presented in Table 3.

В результате выполнения этого этапа исходный текст, кроме элементарных единиц первого и второго уровней, дополняется множеством единиц третьего уровня - устойчивыми словосочетаниями. Словосочетания для нашего примера представлены в Таблице 4.As a result of this stage, the source text, in addition to elementary units of the first and second levels, is supplemented by many units of the third level - stable phrases. The phrases for our example are presented in Table 4.

После выполнения вышеуказанных этапов осуществляют фрагментацию обрабатываемого текста на предложения (ссылочная позиция 5 на Фиг.1). В результате выполнения этого этапа сформированные выше множества дополняются множеством предложений, представленным в Таблице 5.After the above steps are completed, the processed text is fragmented into sentences (reference position 5 in FIG. 1). As a result of this step, the sets formed above are supplemented by the set of sentences presented in Table 5.

Таким образом, после выполнения всех рассмотренных выше этапов обрабатываемый текст будет сегментирован на предложения, каждое из которых размечено множествами аннотаций элементарных единиц первого, второго и третьего уровней.Thus, after all the above steps are completed, the processed text will be segmented into sentences, each of which is marked with sets of annotations of elementary units of the first, second and third levels.

Вслед за этим, в соответствии с заявленным способом осуществляют выявление семантически значимых объектов и атрибутов (элементарных единиц четвертого уровня) (ссылочная позиция 6 на Фиг.1). Оно производится в каждом предложении на множестве элементарных единиц первого, второго и (или) третьего уровней путем применения упомянутого заранее сформированного множества лингвистических и эвристических правил с использованием заранее же сформированных соответствующих лингвистических словарей.Following this, in accordance with the claimed method, semantically significant objects and attributes (elementary units of the fourth level) are identified (reference position 6 in FIG. 1). It is made in each sentence on the set of elementary units of the first, second and (or) third levels by applying the aforementioned pre-formed set of linguistic and heuristic rules using the pre-formed corresponding linguistic dictionaries.

Так, например, в предложении «Механика - часть физики, которая изучает закономерности механического движения и причины, вызывающие или изменяющие это движение» рассматриваемого текста с помощью множества правил, соответствующая которому схема обработки сигналов представлена на Фиг.2 (пункты обработки 1-7), а используемые в этом правиле словари представлены в Таблицах 6-16, выделяются семантически значимый объект «механика». Другие семантически значимый объект и его атрибут выделяются с помощью того же самого множества правил. В результате в исходном тексте выделяют семантически значимый объект и его атрибут. Множество таких семантически значимых объектов и атрибутов для рассматриваемого примера представлено в Таблице 17.So, for example, in the sentence “Mechanics is a part of physics that studies the laws of mechanical motion and the causes that cause or change this motion” of the text in question using a variety of rules, the corresponding signal processing scheme is presented in Figure 2 (processing points 1-7) , and the dictionaries used in this rule are presented in Tables 6-16, the semantically significant object “mechanics” is highlighted. Other semantically significant objects and their attributes are distinguished using the same set of rules. As a result, a semantically significant object and its attribute are distinguished in the source text. The set of such semantically significant objects and attributes for the considered example are presented in Table 17.

Далее осуществляется построение простых синтаксических групп, соответствующих атрибутивному уровню описания (Таблицы 7 и 8): признак объекта/субъекта/действия + объект/субъект/действие, мера признака объекта/субъекта/действия + объект/субъект/действие.Next, we construct simple syntactic groups corresponding to the attribute level of description (Tables 7 and 8): feature of an object / subject / action + object / subject / action, measure of the feature of an object / subject / action + object / subject / action.

Далее в предложениях текста выявляются и раскрываются анафорические ссылки (если они имеются в индексируемом тексте). Для этого в пределах всего обрабатываемого текста в процессе выполнения этапа, обозначенного на Фиг.1 ссылочной позицией 7, находят местоимения, которые могут быть анафорическими ссылками на соответствующие слова, и для местоимений, которые действительно таковыми являются, фиксируют тождество по референции между соответствующим семантически значимым объектом и его анафорической ссылкой. Так в предложении «Механика - часть физики, которая изучает закономерности механического движения и причины, вызывающие или изменяющие это движение» местоимение «это» заменяется на слово «механическое»: «Механика - часть физики, которая изучает закономерности механического движения и причины, вызывающие или изменяющие механическое движение».Further in sentences of the text anaphoric links are revealed and revealed (if they are in the indexed text). To do this, within the entire text being processed, during the stage indicated in FIG. 1 by the reference numeral 7, pronouns are found that can be anaphoric references to the corresponding words, and for pronouns that really are, they fix the identity by reference between the corresponding semantically significant object and its anaphoric reference. So in the sentence “Mechanics is the part of physics that studies the laws of mechanical motion and the causes that cause or change this movement”, the pronoun “this” is replaced by the word “mechanical”: “Mechanics is the part of physics that studies the laws of mechanical motion and the causes that cause or changing mechanical motion. "

После этого объединяют фрагменты в простые предложения, в том числе с помощью подчинительных союзов (Таблица 10).After that, the fragments are combined into simple sentences, including using subordinate unions (Table 10).

Далее осуществляется выявление предикативного минимума (в том числе, основных семантически значимых объектов) предложения путем сравнения его структуры со словарем шаблонов минимальных структурных схем предложений (Таблица 11). Результат для нашего примера приведен в Таблице 12.Then, the predicative minimum (including the main semantically significant objects) of the sentence is identified by comparing its structure with the dictionary of templates of minimal structural sentence schemes (Table 11). The result for our example is shown in Table 12.

Далее осуществляется построение синтаксических групп внутри полученных простых предложений, в которых актанты предикатов - главные слова, с помощью синтаксических правил, выявляющих синтаксические связи между словами. Построенные группы приведены в Таблице 13.Next, the construction of syntactic groups is carried out inside the received simple sentences, in which the predicate actants are the main words, with the help of syntactic rules that reveal the syntactic relations between words. The constructed groups are shown in Table 13.

Выделение остальных членов простого предложения (остальных семантически значимых объектов и атрибутов) и семантически значимых связей осуществляется последовательным сравнением слов предложения с актантной структурой глагола из словаря валентностей глаголов.The selection of the remaining members of a simple sentence (other semantically significant objects and attributes) and semantically significant relationships is carried out by a consistent comparison of the words of the sentence with the actual structure of the verb from the dictionary of valencies of verbs.

Фрагмент используемого словаря валентности глаголов для глаголов «являться» и «изучать» приведен в Таблице 14. Жирными буквами выделены варианты, подходящие для текста примера.A fragment of the used dictionary of the valency of the verbs for the verbs “to appear” and “to study” is shown in Table 14. Variants in bold letters are suitable for the text of the example.

Заполненные валентные гнезда для предикатов текста примера приведены в Таблице 15.The filled valence nests for predicates of the example text are shown in Table 15.

Таким образом, выявляется множество семантически значимых объектов и атрибутов. Для указанного примера они сведены в Таблицу 16.Thus, a lot of semantically significant objects and attributes are revealed. For this example, they are summarized in Table 16.

После выполнения предыдущих этапов на множестве выделенных элементарных единиц первого, второго, третьего и четвертого уровней с помощью упомянутых правил находят семантически значимые отношения между семантически значимыми объектами (этап 8 на Фиг.1). Так, например, в предложении «Механика - часть физики, которая изучает закономерности механического движения и причины, вызывающие или изменяющие это движение» рассматриваемого текста с помощью множества правил, соответствующая которому схема обработки сигналов представлена на Фиг.2 (пункты обработки 1-8), а используемые в этом правиле словари представлены в Таблицах 6-15, выделяется семантически значимое отношение «есть». Другие семантически значимые отношения выделяются с помощью того же самого множества правил. Семантически значимым отношениям присваивается их тип. В результате в исходном тексте выделяют семантически значимые отношения. Множество таких семантически значимых отношений с присвоенным им типом для рассматриваемого примера представлено в Таблице 17.After performing the previous steps on the set of selected elementary units of the first, second, third and fourth levels, using the above-mentioned rules, semantically significant relations between semantically significant objects are found (step 8 in FIG. 1). So, for example, in the sentence "Mechanics is a part of physics that studies the laws of mechanical motion and the causes that cause or change this motion" of the text in question using a variety of rules, the corresponding signal processing scheme is presented in Figure 2 (processing points 1-8) , and the dictionaries used in this rule are presented in Tables 6-15, the semantically significant relation “is” stands out. Other semantically significant relationships are distinguished using the same set of rules. Semantically significant relationships are assigned their type. As a result, semantically significant relationships are distinguished in the source text. Many such semantically significant relationships with the type assigned to them for the example in question are presented in Table 17.

Таким образом, после выполнения всех рассмотренных выше этапов обработки исходный текст будет размечен множеством аннотаций, соответствующих семантически значимым объектам, их атрибутам и семантически значимым отношениям между семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами.Thus, after all the above processing steps have been completed, the source text will be marked out with a lot of annotations corresponding to semantically significant objects, their attributes and semantically significant relations between semantically significant objects, and also between semantically significant objects and attributes.

После этого на этапе, обозначенном на Фиг.1 ссылочной позицией 9, выявляют частоты встречаемости семантически значимых объектов и атрибутов на всем данном тексте. Эту операцию выполняют практически так же, как на этапе 4 для элементарных единиц второго уровня. Фрагмент такого частотного словаря для нашего примера представлен в Таблице 18.After this, at the stage indicated in FIG. 1 by reference numeral 9, the occurrence frequencies of semantically significant objects and attributes throughout this text are detected. This operation is performed in almost the same way as in step 4 for elementary units of the second level. A fragment of such a frequency dictionary for our example is presented in Table 18.

На следующем этапе, обозначенном на Фиг.1 ссылочной позицией 10, выполняется формирование триад, соответствующих сохраненным семантически значимым объектам и семантически значимым отношениям. Так для исходного текста, содержащего предложения «Механика - часть физики, которая изучает закономерности механического движения и причины, вызывающие или изменяющие это движение»,…, «Механическое движение - это изменение с течением времени взаимного расположения тел или их частей»,… фрагмент множества таких триад для нашего примера представлен в Таблице 19. По сути дела, сформированное множество триад составляет исходные данные для построения семантического индекса, обработанного на предыдущих этапах текста.In the next step, indicated at 10 by reference numeral 10, triad formation is performed corresponding to stored semantically significant objects and semantically significant relationships. So for the source text containing the sentence “Mechanics is a part of physics that studies the laws of mechanical motion and the causes that cause or change this motion”, ..., “Mechanical motion is a change over time in the relative position of bodies or their parts”, ... a fragment of the set such triads for our example are presented in Table 19. In fact, the generated set of triads makes up the initial data for constructing a semantic index processed in the previous stages of the text.

На этапе, обозначенном на Фиг.1 ссылочной позицией 11, строят семантический индекс следующим образом: сначала из множества триад, полученных на предыдущем этапе, формируют подмножества триад, каждое из которых соответствует одному семантически значимому объекту с его атрибутами, и каждое полученное подмножество триад используют как вход для одного из стандартных индексаторов, например, широко известного свободно распространяемого индексатора Lucene, индексатора поисковой машины Яндекс, индексатора Google или любого другого индексатора, с выхода которого получают уникальный для заданного подмножества триад индекс. Аналогичную последовательность действий выполняют для всех подмножеств триад вида «семантически значимый объект - семантически значимое отношение - семантически значимый объект» и триад вида «семантически значимый объект - семантически значимое отношение - атрибут», получая множество соответствующих уникальных индексов, которые в совокупности и составляют семантический индекс текста.In the step indicated by reference numeral 11 in FIG. 1, a semantic index is constructed as follows: first, from the set of triads obtained in the previous step, subsets of triads are formed, each of which corresponds to one semantically significant object with its attributes, and each obtained subset of triads is used as an input for one of the standard indexers, for example, the widely known Lucene freely distributed indexer, Yandex search engine indexer, Google indexer or any other indexer, from whose ode receives an index that is unique to a given subset of triads. A similar sequence of actions is performed for all subsets of triads of the form "semantically significant object - semantically significant relation - semantically significant object" and triads of the form "semantically significant object - semantically significant relation - attribute", receiving a set of corresponding unique indices, which together constitute the semantic index text.

Сформированные на этапе 10 триады и полученные на этапе 11 индексы вместе со ссылкой на исходный текст, из которого сформированы эти триады, сохраняют в базе данных (этап 16 на Фиг.1).The indices generated in step 10 of the triad and the indices obtained in step 11, together with a link to the source text from which these triads are generated, are stored in the database (step 16 in FIG. 1).

В соответствии с заявленным способом - до сохранения в базе данных - из упомянутых триад могут формировать семантическую сеть так, что первый семантически значимый объект или атрибут последующей триады связывается с таким же вторым семантически значимым объектом или атрибутом предыдущей триады (этап 12 на Фиг.1). Пример фрагмента такой семантической сети приведен в Таблице 20.In accordance with the claimed method — before being stored in the database — a semantic network can be formed from the triads so that the first semantically significant object or attribute of the subsequent triad is associated with the same second semantically significant object or attribute of the previous triad (step 12 in FIG. 1) . An example of a fragment of such a semantic network is shown in Table 20.

При этом перед сохранением в базе данных сформированных триад и полученных индексов осуществляют, в процессе итеративной процедуры, перенормировку частот встречаемости семантически значимых объектов в смысловой вес семантически значимых объектов, являющихся вершинами семантической сети, таким образом, что семантически значимый объект и его атрибут, связанные в сети с большим числом семантически значимых объектов и атрибутов с большой частотой встречаемости, увеличивают свой смысловой вес, а другие семантически значимый объект и его атрибут его равномерно теряют (этап 13 на Фиг.1). Пример перенормированных в смысловые веса численных значений весовых коэффициентов понятий семантической сети приведен в Таблице 21.In this case, before storing the generated triads and obtained indices in the database, the iterative procedure renormalizes the frequencies of occurrence of semantically significant objects into the semantic weight of semantically significant objects that are the vertices of the semantic network, so that the semantically significant object and its attribute are connected in networks with a large number of semantically significant objects and attributes with a high frequency of occurrence increase their semantic weight, while other semantically significant objects and their its attribute is evenly lost (step 13 in FIG. 1). An example of the renormalized into semantic weights of the numerical values of the weighting coefficients of the concepts of the semantic network is given in Table 21.

Далее, сформированные семантически значимый объект и его атрибут ранжируют по смысловому весу путем сравнения их смыслового веса с заранее заданным пороговым значением (этап 14 на Фиг.1). Пример сохраненных отранжированных семантически значимых объектов и атрибутов представлен в Таблице 22.Next, the generated semantically significant object and its attribute are ranked by semantic weight by comparing their semantic weight with a predetermined threshold value (step 14 in FIG. 1). An example of stored ranked semantically significant objects and attributes is presented in Table 22.

Наконец (Таблица 23), удаляют семантически значимый объект и его атрибут, которые имеют смысловой вес ниже порогового (порог, например, равен 50). Этому действию соответствует этап 15 на Фиг.1.Finally (Table 23), delete the semantically significant object and its attribute, which have a semantic weight below the threshold (the threshold, for example, is 50). This action corresponds to step 15 in figure 1.

Следует отметить, что три последние процедуры (этапы 13-15 на Фиг.1) являются опциональными, но предпочтительными, поскольку позволяют уменьшить объем вычислений и повысить удобство для пользователя при визуализации результатов анализа (семантической сети).It should be noted that the last three procedures (steps 13-15 in FIG. 1) are optional, but preferable, since they reduce the amount of computation and increase user convenience in visualizing the results of the analysis (semantic network).

Таким образом, настоящее изобретение обеспечивает более точное построение индексов текстов на естественных языках за счет удаления из него семантически мало значимых (в данном тексте) объектов и атрибутов (которые имеют смысловой вес ниже порогового). Основное отличие этого способа от известных способов индексации состоит в том, что подсчитываются частоты встречаемости семантически значимых объектов и атрибутов с последующей их итеративной перенормировкой в смысловые веса. Объединение триад, построенных из семантически значимых объектов и их атрибутов с помощью семантически значимых отношений в семантическую сеть, необходимую для итеративной перенормировки частот встречаемости в смысловой вес, обеспечивает ассоциативную навигацию по документам и коллекциям документов, а также высокоточный и быстрый поиск релевантных информационным потребностям пользователя фактов и документов, особенно в применении к текстам на высокофлективных языках.Thus, the present invention provides a more accurate construction of indices of texts in natural languages by removing from it semantically little significant (in this text) objects and attributes (which have a semantic weight below the threshold). The main difference between this method and the known indexing methods is that the occurrence frequencies of semantically significant objects and attributes are calculated, followed by iterative renormalization to semantic weights. The combination of triads constructed from semantically significant objects and their attributes with the help of semantically significant relations into the semantic network, necessary for iterative renormalization of the frequencies of occurrence into semantic weight, provides associative navigation through documents and collections of documents, as well as high-precision and quick search for facts relevant to the user's information needs and documents, especially when applied to texts in highly inflected languages.

Таблица 1Table 1 Сегментация текста на токеныToken text segmentation ТокенToken ПозицияPosition НачалоStart Конецthe end 1one механикаMechanics 1one 1one 88 22 частьpart 22 1212 1616 33 физикиphysicists 33 18eighteen 2323 ... ... ... ... ...

Таблица 2table 2 Леммы и морфыLemmas and morphs Пози-
ция
Position
nation
ЛеммыLemmas МорфыMorphs
1one механикаMechanics (механика; Им. п. Ж.р. Ед.ч. Существ. Неодуш.)(mechanics; Named after J.R. Unit of Existence. Inanimate) 22 частьpart (часть; Им. п. Ж.р. Ед.ч. Существ. Неодуш.)(part; Nom. J.R. Unit of Existence. Inanimate.) 33 физикаphysics (физика; Род. п. Ж.р. Ед.ч. Существ. Неодуш.)(physics; Rod. p. J.R. Unit of Existence. Inanimate.) (физика; Вин. п. Ж.р. Мн.ч. Существ. Неодуш.)(physics; Winn. p. J.R. Mn.Ch. Existence. Inanimate.) ...

Таблица 3Table 3 Частоты встречаемости первых и последующих слов последовательности в тексте, а также разности частот встречаемости для разных слов в последовательностиFrequencies of occurrence of the first and subsequent words of the sequence in the text, as well as differences in the frequencies of occurrence for different words in the sequence Повторение последовательности слов в текстеRepeating a sequence of words in a text Слова последовательностиSequence words Частота встречаемостиFrequency of occurrence Разница частотFrequency difference 1one 1one векторvector 1one импульсаmomentum 1one 00 22 векторvector 22 импульсаmomentum 22 00 33 векторvector 33 импульсаmomentum 33 00 22 1one векторvector 4four скоростиspeed 1one 33 22 векторvector 55 скоростиspeed 22 33 33 векторvector 66 скоростиspeed 33 33 ... ... ...

Таблица 4Table 4 Устойчивые словосочетания слов в текстеStable word combinations in the text СловосочетаниеCollocation 1one Вектор импульсаPulse vector 22 Вектор скоростиSpeed vector 33 Векторная величинаVector quantity ... ...

Таблица 5Table 5 Множество предложений текстаLots of text suggestions Предложения текстаText suggestions Единицы 1 уровняLevel 1 Units Единицы 2 уровняLevel 2 Units Единицы 3 уровняLevel 3 Units 1one Механика - часть физики, которая изучает закономерности механического движения и причины, вызывающие или изменяющие это движение.Mechanics is a part of physics that studies the laws of mechanical motion and the causes that cause or change this movement. Механика - часть физики, которая изучает закономерности механического движения и причины, вызывающие или изменяющие это движениеMechanics is a part of physics that studies the laws of mechanical motion and the causes that cause or change this movement. Механика - часть физики, которая, изучает закономерность механического движения и причины, вызывающие или изменяющие это движениеMechanics is a part of physics that studies the laws of mechanical motion and the causes that cause or change this movement. механическое движениеmechanical movement ...

Таблица 6Table 6 Результаты фрагментации предложений после объединения однородных рядовResults of fragmentation of sentences after combining homogeneous series № предл.Offer No. Сегменты предложенияOffer Segments Тип сегментаSegment type 1one Механика - часть физики,Mechanics are part of physics, ТИРЕDASH которая изучает закономерности механического движения и причины,which studies the laws of mechanical motion and causes, Глагол в личной формеPersonal verb вызывающие или изменяющие это движениеcausing or altering this movement ПричастиеParticiple 22 Механическое движение - это изменение с течением времени взаимного расположения тел или их частейMechanical movement is a change over time in the relative position of bodies or their parts ТИРЕDASH ...

Таблица 7Table 7 Элементы атрибутивного уровня описанияDescription attribute level elements Компоненты предложенияOffer Components Морфологические признакиMorphological features Объект/СубъектObject / Subject Существительное, местоимение-существительноеNoun pronoun ДействиеAct ГлаголVerb Признак объектаItem Feature Полное прилагательное, порядковое числительное, местоимение-прилагательное, согласованное с объектом/субъектом по роду, числу и падежуFull adjective, ordinal, pronoun-adjective, consistent with the object / subject by gender, number and case Признак действияSign of action НаречиеAdverb Мера признакаAttribute measure Наречие, наречное числительноеAdverb, adverbial numeral

Таблица 8Table 8 Синтаксические группы, соответствующие атрибутивному уровню описанияSyntactic groups corresponding to the attribute level of description № предл.Offer No. Элементы синтаксической группыSyntax Group Elements ПозицииLine items Синтаксическая группаSyntax group 1one признак объекта + объектfeature of the object + object 7+87 + 8 механического движенияmechanical movement 1one признак объекта + объектfeature of the object + object 14+1514 + 15 это движениеthis movement 22 признак объекта + объектfeature of the object + object 16+1716 + 17 механическое движениеmechanical movement ...

Таблица 9Table 9 КореференцииCore Conferences Номер предложенияOffer Number АнтецедентAntecedent АнафораAnaphora 1one частьpart котораяwhich is 1one механическогоmechanical этогоof this 22 телtel ихthem ...

Таблица 10Table 10 Полученные простые предложения в результате укрупнения фрагментов и разрешения анафорReceived simple sentences as a result of enlarging fragments and resolving anaphora № предложенияOffer No. Составляющие простые предложенияSimple sentences 1one Механика - часть физики. Часть изучает закономерности механического движения и причины, вызывающие или изменяющие механическое движениеMechanics are part of physics. The part studies the laws of mechanical motion and the causes that cause or change mechanical motion 22 Механическое движение - это изменение с течением времени взаимного расположения тел или частей телMechanical movement is a change over time in the relative position of bodies or parts of bodies ...

Таблица 11Table 11 Минимальные структурные схемы предложений (фрагмент)Minimum block diagrams of sentences (fragment) № п/пNo. p / p Минимальные структурные схемыMinimum structural diagrams Примеры предложенийExamples of offers 1one NlV(f)NlV (f) Грачи прилетели. Дела делаются людьми.The Rooks Have Arrived. Things are done by people. 22 N1 Cop(f)Adj1N1 Cop (f) Adj1 Ночь была тихая (тихой, тиха).The night was quiet (quiet, quiet). N1 Cop(f)Adj5N1 Cop (f) Adj5 Ночь тихая (тиха).The night is quiet (quiet). N1 Cop(i)Adj(f)N1 Cop (i) Adj (f) Ночь была тише дня.The night was quieter than the day. 33 N1 Cop(f) N1N1 Cop (f) N1 Он (был) студент.He (was) a student. N1 Cop(f) N5N1 Cop (f) N5 Он был студентом.He was a student. ...

Таблица 12Table 12 Предикативный минимум простых предложений, входящих в состав предложений исходного текстаThe predictive minimum of simple sentences that are part of the source text sentences № предл.Offer No. Составляющие простые предложенияSimple sentences Шаблон минимальных структурных схемMinimal Structural Pattern Template Предикативный минимум (Субъект-Предикат)Predictive minimum (Subject-Predicate) 1one Механика - часть физикиMechanics are a part of physics существительное в именительном падеже+копула1+существительное в именительном падежеnoun in the nominative case + copula 1+ noun in the nominative case Механика - являться частьюMechanics - be part of Часть изучает закономерности механического движения и причины, вызывающие или изменяющие механическое движениеThe part studies the laws of mechanical motion and the causes that cause or change mechanical motion существительное в именительном падеже + спрягаемая форма глаголаnoun in the nominative case + conjugated form of the verb Часть - изучатьPart - to study 22 Механическое движение - это изменение с течением времени взаимного расположения тел или частей телMechanical movement is a change over time in the relative position of bodies or parts of bodies существительное в именительном падеже + копула + существительное в именительном падежеnoun in the nominative case + copula + noun in the nominative case Движение -являться изменениемMovement is change ...

Таблица 13Table 13 Синтаксические группы, полученные из исходного текста с помощью синтаксических правилSyntactic groups derived from source text using syntax rules № предл.Offer No. Фрагменты предложенияOffer snippets Синтаксические группыSyntax Groups Название групп и правилName of groups and rules 1one Механика - часть физики,которая изучает закономерности механического движения и причины, вызывающие или изменяющие это движениеMechanics is a part of physics that studies the laws of mechanical motion and the causes that cause or change this movement. часть физики;part of physics; Генитивное2 определение в постпозицииGenitive 2 posture determination закономерности движенияpatterns of movement Генитивное определение в постпозицииGenitive determination in postposition механического движенияmechanical movement Объект + Признак объектаObject + Object Tag причины, вызывающие или изменяющие это движениеreasons causing or changing this movement Объект + Признак объектаObject + Object Tag 22 Механическое движение - это изменение с течением времени взаимного расположения тел или их частейMechanical movement is a change over time in the relative position of bodies or their parts механическое движениеmechanical movement Объект + Признак объектаObject + Object Tag с течением времениover time Предложная группа + Генитивное определение в постпозицииPrepositional Group + Genitive Definition in Postposition изменение расположенияchange of location Генитивное определение в постпозицииGenitive determination in postposition расположения телlocation of bodies Генитивное определение в постпозицииGenitive determination in postposition расположения частейarrangement of parts Генитивное определение в постпозицииGenitive determination in postposition ... 1 «Копула» в данном случае - это связь, выраженная с помощью слова, обозначающего действие (глагола), например, вспомогательных слов «быть» и «иметь» 1 “Copula” in this case is a connection expressed using a word denoting an action (verb), for example, auxiliary words “to be” and “to have” 2 Под «генитивным определением» понимается определение, показывающее принадлежность, обладание, отношение части к целому, т.е. определение, отвечающее на вопрос «чей?». 2 “Genitive definition” means a definition showing ownership, possession, the relationship of a part to the whole, i.e. a definition that answers the question "whose?".

Таблица 14Table 14 Словарь валентности для глаголов «являться», «изучать»The valency dictionary for the verbs "appear", "study" ГлаголVerb Семанти-
ческий класс
Semanti
class
Валентные гнездаVale nests Морфологические признаки актантовMorphological characteristics of actants Шаблон минимальных структурных схемMinimal Structural Pattern Template
1*71 * 7 1-N11-N1 NIVfNivf *7 - N (в, на)6, Adv* 7 - N (in, on) 6, Adv являтьсяto be Предложения, отображающие ситуацию собственно бытияSentences reflecting the situation of being 10*71 0 * 7 10 - N3; NO1 0 - N3; NO InfInf *7 - N3 (в, на)6, Adv* 7 - N3 (in, on) 6, Adv 10*71 0 * 7 10 - N01 0 - N0 Vpl3Vpl3 *7 - N (в, на) 6, Adv* 7 - N (in, on) 6, Adv изучатьto study Предложения, отображающие ситуацию познанияSuggestions reflecting the situation of knowledge 1 212 1 - N11 - N1 NIVfNivf 1 2(ся)1 2 2 - N4, *N(o)62 - N4, * N (o) 6 2(ся) - N32 (x) - N3 10 21 0 2 10 - N3; N01 0 - N3; N0 InfInf 10 2(ся)1 0 2 (s) 2 - N4, *N(о)62 - N4, * N (o) 6 2(ся) - N32 (x) - N3 10 21 0 2 10 - NO1 0 - NO Vpl3Vpl3 10 2(ся)1 0 2 (s) 2 - N4, *N(o)62 - N4, * N (o) 6 2(ся) - N32 (x) - N3

Пояснения к таблице:Explanations for the table:

цифровые индексы в столбце «Валентные гнезда» указывают на необходимое заполнение определенных валентно обусловленных ячеек (1 - левосторонний актант, или субъект действия; 2, 3, 4, 5, 6, 7 - правосторонние актанты и, соответственно: объект, адресат, инструмент, исходный, конечный, промежуточный локативы);the digital indices in the “Valenced Nests” column indicate the necessary filling of certain valency-conditioned cells (1 - left-sided actant, or subject of action; 2, 3, 4, 5, 6, 7 - right-sided actants and, accordingly: object, addressee, instrument, initial, final, intermediate locatives);

звездочка при цифровом индексе в столбце «Валентность» указывает на необязательное заполнение данной валентно обусловленной ячейки предиката;an asterisk with a digital index in the “Valency” column indicates the optional filling of this valence-conditioned predicate cell;

10 - надстрочный символ «0» при цифре указывает на нулевое заполнение ячейки субъекта;1 0 - superscript character "0" with a number indicates zero filling of the cell of the subject;

(о), (в) (на) - буквенные символы между N и цифровым индексом, обозначающим падеж имени существительного, называет предлог, с которым возможно заполнение данной ячейки;(o), (c) (on) - the alphabetic characters between N and the digital index denoting the case of a noun, indicate the pretext with which the filling of this cell is possible;

N - имя существительное;N is a noun;

N1 - цифровой индекс при N обозначает номер падежа в парадигме по порядку (N1 N2 N3 N4 N5 N6);N1 - the digital index at N denotes the case number in the paradigm in order (N1 N2 N3 N4 N5 N6);

Adj - имя прилагательное;Adj is an adjective;

Adv - наречие;Adv is an adverb;

Vf - спрягаемая форма глагола;Vf is the conjugated form of the verb;

Inf - неопределенная форма глагола (инфинитив);Inf - indefinite form of the verb (infinitive);

Vpl3 - форма множественного числа третьего лица глагола;Vpl3 - the plural form of the third person verb;

2(ся) - буквенный символ при цифровом символе 2 в столбце «Валентность» указывает на то, что заполнение данной ячейки валентности (с семантикой объекта) происходит в рамках слова и не требует дополнительного формального выражения.2 (sya) - the letter symbol with the number 2 symbol in the “Valency” column indicates that the filling of this valency cell (with the semantics of the object) occurs within the word and does not require additional formal expression.

Таблица 15Table 15 Заполнение валентных гнезд для предикатов текста примераFill valencies for example text predicates № предл.Offer No. ПредикатPredicate 1. Субъект1. Subject 2. Объект2. Object 3. Адресат3. Addressee 4. Инструмент4. Tool 5-7. Локативы5-7. Locatives 1one являтьсяto be механикаMechanics частьюpart -- -- физикиphysicists 1one изучатьto study частьpart закономерности, причиныpatterns, causes -- -- -- 22 являтьсяto be движениеtraffic изменениемchange -- -- --

Таблица 16Table 16 Множество семантически значимых объектов и атрибутов (фрагмент)Many semantically significant objects and attributes (fragment) ПредложениеSentence Семантически значимые объектыSemantically significant objects АтрибутыAttributes 1one Механика - часть физики, которая изучает закономерности механического движения и причины, вызывающие или изменяющие это движениеMechanics is a part of physics that studies the laws of mechanical motion and the causes that cause or change this movement. механика, часть, физика, закономерность, механическое движение, причина, механическое движениеmechanics, part, physics, regularity, mechanical motion, reason, mechanical motion вызывающая, изменяющаяprovocative ...

Таблица 17Table 17 Отношения между семантически значимыми объектами, и между семантически значимыми объектами и атрибутамиRelations between semantically significant objects, and between semantically significant objects and attributes Семантически значимый объект 1Semantically significant object 1 Семантически значимый объект 2Semantically significant object 2 Семантически значимое отношениеSemantically significant relationship Тип семантически значимого отношенияType of semantically significant relationship механикаMechanics частьpart естьthere is часть-целоеwhole part частьpart физикиphysicists чегоwhy чегоwhy механикаMechanics закономерностьregularity изучатьto study получать информациюget information закономерностьregularity механическое движениеmechanical movement чегоwhy чегоwhy механикаMechanics причинаcause изучатьto study получать информациюget information причинаcause механическое движениеmechanical movement чегоwhy чегоwhy

Семантически значимый объектSemantically significant object АтрибутAttribute Семантически значимое отношениеSemantically significant relationship Тип семантически значимого отношенияType of semantically significant relationship причинаcause вызывающаяprovocative какаяwhich какаяwhich причинаcause изменяющаяchanging какаяwhich какаяwhich

Таблица 18Table 18 Частота встречаемости семантически значимых объектов и атрибутовThe frequency of occurrence of semantically significant objects and attributes Семантически значимый объект или атрибутSemantically significant object or attribute Частота встречаемостиFrequency of occurrence 1one отсчетCountdown 5959 22 свободныйfree 1717 33 изменяющийmodifying 5151 4four запускlaunch 4four 55 ракетаrocket 1616 ... 1one момент инерцииmoment of inertia 1717 22 плоскостьplane 20twenty 33 кинетическая энергияkinetic energy 1313 ... ... ракетаrocket 1616 ...

Таблица 19Table 19 Множество триад (фрагмент)Many triads (fragment) ТриадыTriads 1one механика - есть - частьmechanics - is - part 22 часть - чего - физикаpart - what - physics 33 механика - изучает - закономерностьmechanics - studies - regularity 4four закономерность - чего - механическое движениеregularity - of what - mechanical movement 55 механическое движение - есть - изменениеmechanical movement - is - change ...

Таблица 20Table 20 Семантическая сеть из триад (фрагмент)Semantic network of triads (fragment) Главное словоMain word ОтношениеAttitude Подчиненное словоSubordinate Word 1one механикаMechanics естьthere is частьpart 22 частьpart чегоwhy физикаphysics 33 механикаMechanics изучаетis studying закономерностьregularity 4four закономерностьregularity чегоwhy механическое движениеmechanical movement 55 механическое движениеmechanical movement естьthere is изменениеchange ...

Таблица 21Table 21 Смысловой вес семантически значимых объектов и атрибутовThe semantic weight of semantically significant objects and attributes Семантически значимый объект или атрибутSemantically significant object or attribute Частота встречаемостиFrequency of occurrence 1one момент инерцииmoment of inertia 9797 22 плоскостьplane 2121 33 кинетическая энергияkinetic energy 9696 ... ... ракетаrocket 1212 ...

Таблица 22Table 22 Отранжированные по смысловому весу семантически значимый объект и его атрибут (фрагмент)Semantically significant object and its attribute (fragment), ranked by semantic weight Семантически значимый объект или атрибутSemantically significant object or attribute Частота встречаемостиFrequency of occurrence 1one момент инерцииmoment of inertia 9797 22 кинетическая энергияkinetic energy 9696 ... ... плоскостьplane 2121 ... ракетаrocket 1212 ...

Таблица 23Table 23 Существенные в тексте семантически значимые объекты и атрибуты (фрагмент)Essential semantically significant objects and attributes in the text (fragment) Семантически значимый объект или атрибутSemantically significant object or attribute Частота встречаемостиFrequency of occurrence 1one момент инерцииmoment of inertia 9797 22 кинетическая энергияkinetic energy 9696 ...

Claims (6)

1. Способ автоматизированной семантической индексации текста на естественном языке, заключающийся в том, что:
- представляют индексируемый текст в цифровой форме для последующей автоматической и (или) автоматизированной обработки;
- сегментируют текст в цифровой форме на элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова;
- сегментируют по графематическим правилам текст в цифровой форме на предложения;
- формируют для каждой элементарной единицы первого уровня, представляющей собой слово, на основе морфологического анализа элементарные единицы второго уровня, включающие в себя нормализованную словоформу;
- подсчитывают частоту встречаемости каждой элементарной единицы первого уровня для двух и более соседних единиц первого уровня в данном тексте и объединяют среди упомянутых элементарных единиц первого уровня последовательности слов, следующих друг за другом в данном тексте, в элементарные единицы третьего уровня, представляющие собой устойчивые сочетания слов, в случае, если для каждых двух и более следующих друг за другом слов в данном тексте разности подсчитанных частот встречаемости этих слов для первого появления данной последовательности слов и для нескольких последующих их появлений для каждой пары слов последовательности остаются неизменными;
- выявляют, в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде, в каждом из сформированных предложений семантически значимый объект и его атрибут - единицы четвертого уровня;
- сохраняют в памяти каждый семантически значимый объект и атрибут;
- выявляют, в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде, в каждом из сформированных предложений семантически значимые отношения между выявленными единицами четвертого уровня - семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами;
- присваивают каждому семантически значимому отношению соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится индексируемый текст; сохраняют в памяти каждое семантически значимое отношение вместе с присвоенным ему типом;
- выявляют частоты встречаемости элементарных единиц четвертого уровня на всем тексте;
- формируют в пределах данного текста для каждого из выявленных семантически значимых отношений, связывающих как соответствующие семантически значимые объекты, так и семантически значимый объект и его атрибут, множество триад, которые являются элементарными единицами пятого уровня;
- индексируют на множестве сформированных триад по отдельности все связанные семантически значимыми отношениями семантически значимые объекты с их частотами встречаемости, все атрибуты с их частотами встречаемости и все сформированные триады;
- сохраняют в базе данных сформированные элементарные единицы второго, третьего, четвертого и пятого уровней с их частотами встречаемости, а также полученные индексы вместе со ссылками на конкретные предложения данного текста.
1. The method of automated semantic indexing of text in a natural language, which consists in the fact that:
- submit indexed text in digital form for subsequent automatic and (or) automated processing;
- segment the text in digital form into elementary units of the first level, including at least words;
- segment text in digital form into sentences according to graphematical rules;
- form for each elementary unit of the first level, which is a word, on the basis of morphological analysis, elementary units of the second level, including a normalized word form;
- calculate the frequency of occurrence of each elementary unit of the first level for two or more adjacent units of the first level in this text and combine among the mentioned elementary units of the first level sequences of words following one after another in this text into elementary units of the third level, which are stable combinations of words , if for every two or more consecutive words in a given text the difference is in the calculated frequencies of occurrence of these words for the first occurrence of a given sequence telnosti words and a number of subsequent occurrences for each pair of sequences of words remain unchanged;
- identify, in the process of multi-stage semantic-syntactic analysis by referring to linguistic and heuristic rules pre-generated in the database in a predefined linguistic environment, in each of the generated sentences, a semantically significant object and its attribute are units of the fourth level;
- store in memory each semantically significant object and attribute;
- identify, in the process of multistage semantic-syntactic analysis by referring to linguistic and heuristic rules pre-generated in the database in a predefined linguistic environment, in each of the generated sentences, semantically significant relationships between the identified units of the fourth level - semantically significant objects, as well as between semantically significant objects and attributes;
- assign to each semantically significant relation the corresponding type from the subject ontology stored in the database on the subject of the subject area to which the indexed text belongs; store in memory each semantically significant relation together with the type assigned to it;
- identify the frequency of occurrence of elementary units of the fourth level throughout the text;
- form within the given text for each of the identified semantically significant relations that connect both the corresponding semantically significant objects and the semantically significant object and its attribute, a lot of triads, which are elementary units of the fifth level;
- index on the set of formed triads individually all associated semantically significant relations semantically significant objects with their frequencies of occurrence, all attributes with their frequencies of occurrence and all formed triads;
- save in the database the formed elementary units of the second, third, fourth and fifth levels with their frequencies of occurrence, as well as the resulting indices, together with links to specific sentences of this text.
2. Способ по п.1, в котором для каждой единицы четвертого уровня фиксируют тождество по референции между соответствующим семантически значимым объектом, а также атрибутом и соответствующей анафорической ссылкой при ее наличии в индексируемом тексте, заменяя каждую анафорическую ссылку на соответствующий ей антецедент.2. The method according to claim 1, in which for each unit of the fourth level the identity is fixed by reference between the corresponding semantically significant object, as well as the attribute and the corresponding anaphoric link, if any, in the indexed text, replacing each anaphoric link with the corresponding antecedent. 3. Способ по п.1, в котором формируют из упомянутых триад семантическую сеть таким образом, что первая элементарная единица второго или третьего уровня последующей триады связывается с такой же второй элементарной единицей второго или третьего уровня предыдущей триады.3. The method according to claim 1, in which a semantic network is formed from the said triads in such a way that the first elementary unit of the second or third level of the subsequent triad is associated with the same second elementary unit of the second or third level of the previous triad. 4. Способ по п.3, в котором после сохранения в базе данных сформированных триад и полученных индексов осуществляют, в процессе итеративной процедуры, перенормировку частот встречаемости в смысловой вес элементарных единиц второго и третьего уровней, являющихся вершинами семантической сети, таким образом, что элементарные единицы второго и третьего уровней, связанные в сети с большим числом элементарных единиц второго и третьего уровней с большой частотой встречаемости, увеличивают свой смысловой вес, а другие элементарные единицы второго и третьего уровней его равномерно теряют.4. The method according to claim 3, in which, after the generated triads and the obtained indices are saved in the database, iteratively renormalizes the frequencies of occurrence into the semantic weight of the elementary units of the second and third levels, which are the vertices of the semantic network, so that the elementary units of the second and third levels connected in a network with a large number of elementary units of the second and third levels with a high frequency of occurrence increase their semantic weight, and other elementary units of the second and on the third level it evenly lose. 5. Способ по п.1, в котором ранжируют по смысловому весу сформированные элементарные единицы второго и третьего уровней сравнением их смыслового веса с заранее заданным пороговым значением.5. The method according to claim 1, in which the generated elementary units of the second and third levels are ranked by semantic weight by comparing their semantic weight with a predetermined threshold value. 6. Способ по п.1, в котором удаляют триады, в которых элементарные единицы второго и третьего уровней имеют смысловой вес ниже порогового значения. 6. The method according to claim 1, in which triads are deleted in which the elementary units of the second and third levels have a semantic weight below a threshold value.
RU2012150734/08A 2012-11-27 2012-11-27 Method for automatic semantic indexing of natural language text RU2518946C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2012150734/08A RU2518946C1 (en) 2012-11-27 2012-11-27 Method for automatic semantic indexing of natural language text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2012150734/08A RU2518946C1 (en) 2012-11-27 2012-11-27 Method for automatic semantic indexing of natural language text

Publications (1)

Publication Number Publication Date
RU2518946C1 true RU2518946C1 (en) 2014-06-10

Family

ID=51216538

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2012150734/08A RU2518946C1 (en) 2012-11-27 2012-11-27 Method for automatic semantic indexing of natural language text

Country Status (1)

Country Link
RU (1) RU2518946C1 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2595489C2 (en) * 2014-06-18 2016-08-27 Самсунг Электроникс Ко., Лтд. Allocation of time expressions for texts in natural language
RU2606873C2 (en) * 2014-11-26 2017-01-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Creation of ontologies based on natural language texts analysis
RU2618374C1 (en) * 2015-11-05 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Identifying collocations in the texts in natural language
RU2630427C2 (en) * 2016-08-12 2017-09-07 Дмитрий Владимирович Мительков Method and system of semantic processing text documents
RU2639280C2 (en) * 2014-09-18 2017-12-20 Общество с ограниченной ответственностью "Аби Продакшн" Method and system for generation of articles in natural language dictionary
RU2685968C1 (en) * 2018-06-07 2019-04-23 Игорь Петрович Рогачев Method of transforming a structured data array comprising main lingvo-logical objects (ollo)
CN110781312A (en) * 2019-09-19 2020-02-11 平安科技(深圳)有限公司 Text classification method and device based on semantic representation model and computer equipment
RU2714899C1 (en) * 2019-11-10 2020-02-20 Игорь Петрович Рогачев Method of forming an ontological database of a structured data array
CN112036182A (en) * 2020-07-31 2020-12-04 中国科学院信息工程研究所 Knowledge representation learning method and system for introducing attribute semantics from multiple angles
RU2779526C2 (en) * 2018-05-15 2022-09-08 Айфлайтек Ко., Лтд. Method and device for text translation at discourse level
US11694041B2 (en) 2018-05-15 2023-07-04 Iflytek Co., Ltd. Chapter-level text translation method and device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7171349B1 (en) * 2000-08-11 2007-01-30 Attensity Corporation Relational text index creation and searching
US7383169B1 (en) * 1994-04-13 2008-06-03 Microsoft Corporation Method and system for compiling a lexical knowledge base
RU2399959C2 (en) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7383169B1 (en) * 1994-04-13 2008-06-03 Microsoft Corporation Method and system for compiling a lexical knowledge base
US7171349B1 (en) * 2000-08-11 2007-01-30 Attensity Corporation Relational text index creation and searching
RU2399959C2 (en) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2595489C2 (en) * 2014-06-18 2016-08-27 Самсунг Электроникс Ко., Лтд. Allocation of time expressions for texts in natural language
RU2639280C2 (en) * 2014-09-18 2017-12-20 Общество с ограниченной ответственностью "Аби Продакшн" Method and system for generation of articles in natural language dictionary
RU2606873C2 (en) * 2014-11-26 2017-01-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Creation of ontologies based on natural language texts analysis
RU2618374C1 (en) * 2015-11-05 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Identifying collocations in the texts in natural language
RU2630427C2 (en) * 2016-08-12 2017-09-07 Дмитрий Владимирович Мительков Method and system of semantic processing text documents
RU2779526C2 (en) * 2018-05-15 2022-09-08 Айфлайтек Ко., Лтд. Method and device for text translation at discourse level
US11694041B2 (en) 2018-05-15 2023-07-04 Iflytek Co., Ltd. Chapter-level text translation method and device
RU2685968C1 (en) * 2018-06-07 2019-04-23 Игорь Петрович Рогачев Method of transforming a structured data array comprising main lingvo-logical objects (ollo)
CN110781312A (en) * 2019-09-19 2020-02-11 平安科技(深圳)有限公司 Text classification method and device based on semantic representation model and computer equipment
CN110781312B (en) * 2019-09-19 2022-07-15 平安科技(深圳)有限公司 Text classification method and device based on semantic representation model and computer equipment
RU2714899C1 (en) * 2019-11-10 2020-02-20 Игорь Петрович Рогачев Method of forming an ontological database of a structured data array
CN112036182A (en) * 2020-07-31 2020-12-04 中国科学院信息工程研究所 Knowledge representation learning method and system for introducing attribute semantics from multiple angles

Similar Documents

Publication Publication Date Title
RU2518946C1 (en) Method for automatic semantic indexing of natural language text
US10810379B2 (en) Statistics-based machine translation method, apparatus and electronic device
RU2399959C2 (en) Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media
CN109726389B (en) Chinese missing pronoun completion method based on common sense and reasoning
Biemann et al. Text: Now in 2D! a framework for lexical expansion with contextual similarity
US8332434B2 (en) Method and system for finding appropriate semantic web ontology terms from words
CN109783806B (en) Text matching method utilizing semantic parsing structure
Lee et al. A discriminative model for joint morphological disambiguation and dependency parsing
Salaev et al. Simreluz: Similarity and relatedness scores as a semantic evaluation dataset for uzbek language
RU2538304C1 (en) Method for automatic semantic classification of natural language texts
Anbukkarasi et al. Neural network-based error handler in natural language processing
Sorokin et al. Automatic spelling correction for Russian social media texts
Islam et al. Applications of corpus-based semantic similarity and word segmentation to database schema matching
Vilares et al. On the feasibility of character n-grams pseudo-translation for Cross-Language Information Retrieval tasks
Sanjanasri et al. Deep learning-based techniques to enhance the precision of phrase-based statistical machine translation system for Indian languages
Shivachi et al. Learning syllables using CONV-LSTM model for Swahili word representation and part-of-speech tagging
RU2538303C1 (en) Method for automatic semantic comparison of natural language texts
Atlam et al. A new approach for Arabic text classification using Arabic field‐association terms
Liang Spell checkers and correctors: A unified treatment
Lee Natural Language Processing: A Textbook with Python Implementation
Balashov The boundaries of meaning: a case study in neural machine translation
Nou et al. Khmer POS tagger: a transformation-based approach with hybrid unknown word handling
Bindu et al. Design and development of a named entity based question answering system for Malayalam language
Modrzejewski Improvement of the Translation of Named Entities in Neural Machine Translation
Mindaye et al. The Need for Amharic WordNet

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20151128