RU2538304C1 - Method for automatic semantic classification of natural language texts - Google Patents
Method for automatic semantic classification of natural language texts Download PDFInfo
- Publication number
- RU2538304C1 RU2538304C1 RU2013139069/08A RU2013139069A RU2538304C1 RU 2538304 C1 RU2538304 C1 RU 2538304C1 RU 2013139069/08 A RU2013139069/08 A RU 2013139069/08A RU 2013139069 A RU2013139069 A RU 2013139069A RU 2538304 C1 RU2538304 C1 RU 2538304C1
- Authority
- RU
- Russia
- Prior art keywords
- level
- semantic
- text
- semantically significant
- elementary units
- Prior art date
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Область техники, к которой относится изобретениеFIELD OF THE INVENTION
Настоящее изобретение относится к области информационных технологий, а именно к способу автоматизированной семантической классификации текстов на естественном языке.The present invention relates to the field of information technology, and in particular to a method for automated semantic classification of texts in natural language.
Уровень техникиState of the art
Существуют различные способы автоматизированной семантической (т.е. смысловой) классификации текстов на естественных языках (см., например, патенты РФ №2107943 (опубл. 27.03.1998) и №2108622 (опубл. 10.04.1998), а также заявку ЕПВ №0241717 (опубл. 21.10.1987)).There are various ways of automated semantic (i.e. semantic) classification of texts in natural languages (see, for example, patents of the Russian Federation No. 2107943 (publ. 03/27/1998) and No. 2108622 (publ. 10.04.1998), as well as the application EPO No. 0241717 (publ. 21.10.1987)).
Вообще говоря, семантическую классификацию текстов на естественном языке нельзя осуществлять непосредственно, поскольку классифицировать в данном случае нужно не по наличию конкретных слов в тексте, а по тому смыслу, который стоит за целыми предложениями и даже абзацами или разделами. Поэтому обычно семантическую классификацию текстов предваряют семантической индексацией этих текстов, которая осуществляется различными способами. При этом важное значение имеет устранение семантической неоднозначности этих текстов.Generally speaking, the semantic classification of texts in natural language cannot be carried out directly, since in this case it is necessary to classify not by the presence of specific words in the text, but by the meaning behind whole sentences and even paragraphs or sections. Therefore, usually the semantic classification of texts is preceded by the semantic indexing of these texts, which is carried out in various ways. Moreover, the elimination of the semantic ambiguity of these texts is important.
Такие способы семантической индексации текстов для их последующего сравнения с устранением семантической неоднозначности описаны, например, в патенте РФ №2242048 (опубл. 10.12.2004), в патентах США №6871199 (опубл. 22.03.2005), 7024407 (опубл. 04.04.2006) и 7383169 (опубл. 03.06.2008), в заявках на патент США №2007/0005343 и 2007/0005344 (обе опубл. 04.01.2007), 2008/0097951 (опубл. 24.04.2008), в выложенных заявках Японии №05-128149 (опубл. 25.05.1993), 06-195374 (опубл. 15.07.1994), 10-171806 (опубл. 26.06.1998) и 2005-182438 (опубл. 07.07.2005), в заявке ЕПВ №0853286 (опубл. 15.07.1998).Such methods of semantic indexing of texts for their subsequent comparison with the elimination of semantic ambiguity are described, for example, in RF patent No. 2242048 (publ. 10.12.2004), in US patents No. 6871199 (publ. 22.03.2005), 7024407 (publ. 04.04.2006 ) and 7383169 (publ. 06/03/2008), in applications for US patent No. 2007/0005343 and 2007/0005344 (both publ. 04.01.2007), 2008/0097951 (publ. 04.24.2008), in Japanese applications laid out No. 05 -128149 (publ. 05/25/1993), 06-195374 (publ. 07/15/1994), 10-171806 (publ. 06/26/1998) and 2005-182438 (publ. 07/07/2005), in EPO application No. 858586 (publ. . 07.15.1998).
Наиболее близким к заявленному изобретению можно считать способ автоматизированной семантической индексации текста на естественном языке, раскрытый в патенте РФ №2399959 (опубл. 20.09.2010). В этом способе текст в цифровой форме сегментируют на элементарные единицы первого уровня (слова); формируют для каждой элементарной единицы первого уровня (слова) элементарную единицу второго уровня (нормализованную словоформу); сегментируют текст в цифровой форме на предложения, соответствующие участкам индексируемого текста; выявляют в тексте, в процессе лингвистического анализа, элементарные единицы третьего уровня (устойчивые словосочетания); в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде, выявляют в каждом из сформированных предложений элементарные единицы четвертого уровня (семантически значимый объект и его атрибут) и семантически значимые отношения между выявленными семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами; формируют в пределах данного текста для каждого из выявленных семантически значимых отношений множество элементарных единиц пятого уровня (триад); индексируют на множестве сформированных триад все связанные семантически значимыми отношениями семантически значимые объекты, а также атрибуты, по отдельности, и все триады вида «семантически значимый объект - семантически значимое отношение - семантически значимый объект», а также все триады вида «семантически значимый объект - семантически значимое отношение - атрибут»; сохраняют в базе данных сформированные триады и полученные индексы вместе со ссылкой на исходный текст, из которого сформированы эти триады.Closest to the claimed invention can be considered a method of automated semantic indexing of text in a natural language, disclosed in the patent of the Russian Federation No. 2399959 (publ. 09/20/2010). In this method, text in digital form is segmented into elementary units of the first level (words); form for each elementary unit of the first level (words) an elementary unit of the second level (normalized word form); segment text in digital form into sentences corresponding to sections of indexed text; reveal in the text, in the process of linguistic analysis, elementary units of the third level (stable phrases); in the process of multi-stage semantic-syntactic analysis by referring to linguistic and heuristic rules preformed in the database in a predefined linguistic environment, elementary units of the fourth level (semantically significant object and its attribute) and semantically significant relationships between the identified semantically are revealed in each of the sentences significant objects, as well as between semantically significant objects and attributes; form within this text for each of the identified semantically significant relationships, a set of elementary units of the fifth level (triads); index on a set of formed triads all semantically significant objects connected by semantically significant relations, as well as attributes individually and all triads of the form “semantically significant object - semantically significant relation - semantically significant object”, as well as all triads of the form “semantically significant object - semantically significant” meaningful relation - attribute ”; save the generated triads and the resulting indexes in a database together with a link to the source text from which these triads are formed.
Недостатком данного способа является отсутствие ранжирования сформированных элементарных единиц четвертого уровня по степени их релевантности к тексту, что приводит к неоправданно большому объему вычислений, связанному с необходимостью использовать для дальнейшей обработки весь сформированный индекс.The disadvantage of this method is the lack of ranking of the formed elementary units of the fourth level in terms of their relevance to the text, which leads to an unreasonably large amount of calculations associated with the need to use the entire generated index for further processing.
Раскрытие изобретенияDisclosure of invention
Цель настоящего изобретения состоит в расширении арсенала способов семантической классификации текстов на естественных языках за счет ускорения процесса сравнения текстов.The purpose of the present invention is to expand the arsenal of methods for the semantic classification of texts in natural languages by accelerating the process of comparing texts.
Достижение этой цели и получение указанного технического результата обеспечиваются в настоящем изобретении посредством способа автоматизированной семантической классификации текстов на естественном языке, заключающегося в том, что: представляют каждый классифицируемый текст в цифровой форме для последующей автоматической и(или) автоматизированной обработки; осуществляют индексацию каждого классифицируемого текста в цифровой форме, получая: элементарные единицы первого уровня, включающие в себя по меньшей мере слова, элементарные единицы второго уровня, каждая из которых представляет собой нормализованную словоформу, элементарные единицы третьего уровня, каждая из которых представляет собой устойчивое словосочетание в тексте, элементарные единицы четвертого уровня, каждая из которых является семантически значимым объектом и атрибутом, и элементарные единицы пятого уровня, каждая из которых представляет собой триаду либо из двух семантически значимых объектов и семантически значимого отношения между ними, либо из семантически значимого объекта и атрибута и связывающего их семантически значимого отношения; выявляют частоты встречаемости элементарных единиц четвертого уровня и частоты встречаемости семантически значимых отношений; сохраняют в базе данных сформированные элементарные единицы второго, третьего, четвертого и пятого уровней с выявленными частотами встречаемости элементарных единиц четвертого уровня и семантически значимых отношений, а также полученные индексы вместе со ссылками на конкретные предложения данного текста; формируют из триад семантическую сеть таким образом, что первая элементарная единица четвертого уровня последующей триады связывается с такой же второй элементарной единицей четвертого уровня предыдущей триады; осуществляют, в процессе итеративной процедуры, перенормировку частот встречаемости в смысловой вес элементарных единиц четвертого уровня, являющихся вершинами семантической сети, таким образом, что элементарные единицы четвертого уровня, связанные в сети с большим числом других элементарных единиц четвертого уровня с большой частотой встречаемости, увеличивают свой смысловой вес, а прочие элементарные единицы четвертого уровня его равномерно теряют; ранжируют элементарные единицы четвертого уровня по смысловому весу путем сравнения смыслового веса каждой из них с заранее заданным пороговым значением и удаляют элементарные единицы четвертого уровня, имеющие смысловой вес ниже порогового значения; сохраняют в памяти оставшиеся элементарные единицы четвертого уровня со смысловым весом выше порогового, а также семантически значимые отношения между оставшимися элементарными единицами четвертого уровня; выявляют степени пересечения семантической сети классифицируемого текста и семантических сетей текстовых выборок, каковые текстовые выборки составлены из ранее классифицированных текстов и описывают предметные области семантической классификации, при этом степень пересечения выявляют как по вершинам семантических сетей, так и по связям между этими вершинами с учетом смысловых весов вершин рассматриваемых семантических сетей и весовых характеристик их связей, и принимают выявленную степень пересечения семантических сетей классифицируемого текста и конкретной текстовой выборки в качестве величины, характеризующей семантическое подобие классифицируемого текста и данной текстовой выборки; выбирают в качестве класса для классифицируемого текста по меньшей мере одну из предметных областей, степени пересечения семантической сети которых с семантической сетью классифицируемого текста оказываются больше заранее заданного порога.The achievement of this goal and the receipt of the specified technical result is provided in the present invention by means of an automated semantic classification of texts in natural language, which consists in the following: represent each classified text in digital form for subsequent automatic and (or) automated processing; indexing each classified text in digital form, obtaining: elementary units of the first level, including at least words, elementary units of the second level, each of which is a normalized word form, elementary units of the third level, each of which is a stable phrase in text, elementary units of the fourth level, each of which is a semantically significant object and attribute, and elementary units of the fifth level, each ryh triad represents either of the two named entities and named relations therebetween, or from semantically meaningful object and the attribute and linking them semantically meaningful relations; identify the frequency of occurrence of elementary units of the fourth level and the frequency of occurrence of semantically significant relationships; save in the database the formed elementary units of the second, third, fourth and fifth levels with the detected frequencies of occurrence of elementary units of the fourth level and semantically significant relations, as well as the resulting indices, together with links to specific sentences of this text; form a semantic network of triads in such a way that the first elementary unit of the fourth level of the subsequent triad is associated with the same second elementary unit of the fourth level of the previous triad; carry out, in the course of an iterative procedure, renormalization of the frequencies of occurrence into the semantic weight of elementary units of the fourth level, which are the vertices of the semantic network, so that elementary units of the fourth level, connected in a network with a large number of other elementary units of the fourth level with a high frequency of occurrence, increase their semantic weight, and other elementary units of the fourth level evenly lose it; rank elementary units of the fourth level by semantic weight by comparing the semantic weight of each of them with a predetermined threshold value and delete elementary units of the fourth level having semantic weight below the threshold value; retain in memory the remaining elementary units of the fourth level with a semantic weight above the threshold, as well as semantically significant relations between the remaining elementary units of the fourth level; reveal the degree of intersection of the semantic network of classified text and semantic networks of text samples, which text samples are composed of previously classified texts and describe the subject areas of semantic classification, while the degree of intersection is revealed both by the vertices of the semantic networks and by the relationships between these vertices, taking into account semantic weights vertices of the considered semantic networks and weight characteristics of their connections, and take the identified degree of intersection of semantic networks erentiable text and a particular text sample as the quantity characterizing the semantic similarity of the classified text and this text sample; at least one of the subject areas is selected as a class for the classified text, the degrees of intersection of the semantic network of which with the semantic network of the classified text are greater than a predetermined threshold.
Особенность способа по настоящему изобретению состоит в том, что при превышении заранее заданного порога степенями пересечения для нескольких предметных областей, предметные области могут ранжировать по степени их близости к классифицируемому тексту.A feature of the method of the present invention is that when a predetermined threshold is exceeded by degrees of intersection for several subject areas, subject areas can be ranked by their degree of proximity to the classified text.
При этом могут выбирать заданное заранее число предметных областей, к которым относится классифицируемый текст.Moreover, they can choose a predetermined number of subject areas to which the classified text belongs.
Еще одна особенность способа по настоящему изобретению состоит в том, что индексацию осуществляют в процессе выполнения следующих этапов: сегментируют текст в цифровой форме на элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова; сегментируют по графематическим правилам текст в цифровой форме на предложения; формируют для каждой элементарной единицы первого уровня, представляющей собой слово, на основе морфологического анализа элементарные единицы второго уровня, включающие в себя нормализованную словоформу; подсчитывают частоту встречаемости каждой элементарной единицы первого уровня для двух и более соседних единиц первого уровня в данном тексте и объединяют среди элементарных единиц первого уровня последовательности слов, следующих друг за другом в данном тексте, в элементарные единицы третьего уровня, представляющие собой устойчивые сочетания слов, в случае, если для каждых двух и более следующих друг за другом слов в данном тексте разности подсчитанных частот встречаемости этих слов для первого появления данной последовательности слов и для нескольких последующих их появлений для каждой пары слов последовательности остаются неизменными; выявляют, в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде, в каждом из сформированных предложений семантически значимые объекты и атрибуты - элементарные единицы четвертого уровня; для каждой элементарной единицы четвертого уровня фиксируют тождество по референции между соответствующим семантически значимым объектом, а также атрибутом, и соответствующей анафорической ссылкой при ее наличии в классифицируемом тексте, заменяя каждую анафорическую ссылку на соответствующий ей антецедент; сохраняют в памяти каждый семантически значимый объект и атрибут; выявляют, в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде, в каждом из сформированных предложений семантически значимые отношения между выявленными единицами четвертого уровня - семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами; присваивают каждому семантически значимому отношению соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится классифицируемый текст; выявляют на всем тексте частоты встречаемости элементарных единиц четвертого уровня и частоты встречаемости упомянутых семантически значимых отношений; сохраняют в памяти каждое выявленное семантически значимое отношение вместе с присвоенным ему типом; формируют в пределах данного текста для каждого из выявленных семантически значимых отношений, связывающих как соответствующие семантически значимые объекты, так и семантически значимый объект и его атрибут, множество триад, которые являются элементарными единицами пятого уровня; индексируют на множестве сформированных триад по отдельности все связанные семантически значимыми отношениями семантически значимые объекты с их частотами встречаемости, все атрибуты с их частотами встречаемости, и все сформированные триады.Another feature of the method of the present invention is that indexing is carried out in the process of performing the following steps: segment the text in digital form into elementary units of the first level, including at least words; Segment digitally into sentences according to graphematic rules; form for each elementary unit of the first level, which is a word, based on morphological analysis, elementary units of the second level, including a normalized word form; calculate the frequency of occurrence of each elementary unit of the first level for two or more adjacent units of the first level in this text and combine among the elementary units of the first level the sequence of words following each other in this text into elementary units of the third level, which are stable combinations of words, if, for every two or more consecutive words in a given text, the difference in the calculated frequencies of occurrence of these words for the first occurrence of a given sequence with s and a number of subsequent occurrences for each pair of sequences of words remain unchanged; identify, in the process of multi-stage semantic-syntactic analysis by referring to linguistic and heuristic rules pre-formed in the database in a predefined linguistic environment, in each of the generated sentences semantically significant objects and attributes are elementary units of the fourth level; for each elementary unit of the fourth level, the identity is fixed by reference between the corresponding semantically significant object, as well as the attribute, and the corresponding anaphoric reference, if any, in the classified text, replacing each anaphoric reference with the corresponding antecedent; store in memory every semantically significant object and attribute; reveal, in the process of multi-stage semantic-syntactic analysis by referring to linguistic and heuristic rules pre-formed in the database in a predefined linguistic environment, in each of the generated sentences, semantically significant relationships between identified fourth-level units - semantically significant objects, as well as between semantically significant objects and attributes; assign to each semantically significant relation the corresponding type from the subject ontology stored in the database on the subject of the subject area to which the classified text belongs; identify throughout the text the frequency of occurrence of elementary units of the fourth level and the frequency of occurrence of the mentioned semantically significant relationships; store in memory each identified semantically significant relation together with the type assigned to it; form within the given text for each of the identified semantically significant relations, linking both the corresponding semantically significant objects and the semantically significant object and its attribute, a multitude of triads that are elementary units of the fifth level; on a set of formed triads individually index all semantically significant relations related semantically significant objects with their frequencies of occurrence, all attributes with their frequencies of occurrence, and all formed triads.
Еще одна особенность способа по настоящему изобретению состоит в том, что степень пересечения двух семантических сетей вычисляют как сумму совпадений элементарных единиц пятого уровня этих двух семантических сетей.Another feature of the method of the present invention is that the degree of intersection of two semantic networks is calculated as the sum of the coincidences of the elementary units of the fifth level of these two semantic networks.
При этом осуществляют этапы, на которых: выбирают в качестве базовой сети ту из двух семантических сетей, в которой после ранжирования и удаления вершин со смысловыми весами ниже порогового значения осталось больше вершин, чем в другой, выбираемой в качестве сравниваемой; находят для каждой вершины базовой сети в сравниваемой сети вершину, являющуюся той же самой элементарной единицей четвертого уровня, т.е. тем же самым семантически значимым объектом, или тем же самым атрибутом; вычисляют, для каждой найденной вершины в каждой из базовой и сравниваемой сетей, величины всех связанных с данной вершиной триад как площади треугольников, стороны которых соответствуют компонентам каждой из этих триад, а угол между сторонами пропорционален весу семантически значимого отношения; выбирают для каждой пары триад, связанных с парой конкретных вершин в базовой и сравниваемой сетях, меньшую из вычисленных величин в качестве степени пересечения упомянутых триад в базовой и сравниваемой сетях; суммируют для каждой из связанных с данной вершиной вершин все выбранные вычисленные величины, получая степень пересечения для данной пары вершин базовой и сравниваемой сетей; нормируют найденную сумму на число семантически значимых объектов и атрибутов, связанных с данной вершиной в той из базовой и сравниваемой сетей, которая содержит больше связанных с данной вершиной вершин; суммируют нормированные суммы по всем вершинам той из базовой и сравниваемой сетей, которая содержит больше вершин; нормируют полученную сумму на число оставшихся в этой сети элементарных единиц четвертого уровня, получая степень пересечения двух семантических сетей.At the same time, the stages are carried out in which: one of the two semantic networks is selected as the basic network, in which, after ranking and removing vertices with semantic weights, more vertices remain below the threshold value than in the other, which is chosen as the comparison one; find for each vertex of the core network in the compared network a vertex that is the same elementary unit of the fourth level, i.e. the same semantically significant object, or the same attribute; calculate, for each vertex found in each of the base and compared networks, the values of all triads associated with a given vertex as the area of triangles whose sides correspond to the components of each of these triads, and the angle between the sides is proportional to the weight of the semantically significant relation; choose for each pair of triads associated with a pair of specific vertices in the base and the compared networks, the smaller of the calculated values as the degree of intersection of the mentioned triads in the base and the compared networks; summarize for each vertex associated with a given vertex all selected calculated values, obtaining the degree of intersection for a given pair of vertices of the base and compared networks; normalize the found amount to the number of semantically significant objects and attributes associated with a given vertex in that of the base and compared networks, which contains more vertices associated with this vertex; summarize the normalized sums for all the vertices of that of the base and compared networks, which contains more vertices; normalize the amount received to the number of elementary units of the fourth level remaining in this network, obtaining the degree of intersection of two semantic networks.
Краткое описание чертежейBrief Description of the Drawings
Настоящее изобретение поясняется далее описанием конкретного примера его осуществления и прилагаемыми чертежами.The present invention is further explained by the description of a specific example of its implementation and the accompanying drawings.
На Фиг.1 приведена условная блок-схема, поясняющая заявленный способ.Figure 1 shows the conditional block diagram explaining the claimed method.
На Фиг.2 приведена блок-схема, поясняющая предпочтительный способ индексации текста.2 is a flowchart illustrating a preferred method for indexing text.
Подробное описание изобретенияDETAILED DESCRIPTION OF THE INVENTION
Способ по настоящему изобретению может быть реализован практически в любой вычислительной среде, к примеру, на персональном компьютере, подключенном к внешним базам данных. Этапы осуществления способа иллюстрируются на Фиг.1.The method of the present invention can be implemented in almost any computing environment, for example, on a personal computer connected to external databases. The steps of the method are illustrated in FIG.
Все дальнейшие пояснения даются в применении к русскому языку, который является одним из самых высокофлективных языков, хотя предложенный способ применим к семантической классификации текстов на любых естественных языках.All further explanations are given as applied to the Russian language, which is one of the most highly inflected languages, although the proposed method is applicable to the semantic classification of texts in any natural languages.
Прежде всего, каждый из подлежащих семантической классификации текстов необходимо представить в электронной форме для последующей автоматизированной обработки. Этот этап на Фиг.1 условно обозначен ссылочной позицией 1 и может быть выполнен любым известным способом, например, сканированием текста с последующим распознаванием с помощью общеизвестных средств типа ABBYY FineReader. Если же текст поступает на классификацию из электронной сети, к примеру, из Интернета, то этап его представления в электронной форме выполняется заранее, до размещения этого текста в сети.First of all, each of the texts subject to semantic classification must be submitted in electronic form for subsequent automated processing. This step in figure 1 is conventionally indicated by the reference number 1 and can be performed in any known manner, for example, by scanning the text and subsequent recognition using well-known means such as ABBYY FineReader. If the text is received for classification from an electronic network, for example, from the Internet, then the stage of its submission in electronic form is carried out in advance, before this text is posted on the network.
Специалистам должно быть понятно, что операции этого и последующих этапов осуществляются с запоминанием промежуточных результатов, например, в оперативном запоминающем устройстве (ОЗУ).Professionals should be clear that the operations of this and subsequent steps are carried out with storing intermediate results, for example, in random access memory (RAM).
Преобразованный в электронную форму текст поступает на обработку, в процессе которой осуществляется индексация. Эта индексация (этап 2 на Фиг.1) может производиться так же, как это раскрыто, например, в упомянутом в патенте РФ №2399959 или в заявке на патент США 2007/0073533 (опубл. 29.03.2007). В процессе этой индексации получают элементарные единицы текста разных уровней. Элементарные единицы первого уровня включают в себя, по меньшей мере, слова; каждая из элементарных единиц второго уровня представляет собой нормализованную словоформу; каждая из элементарных единиц третьего уровня представляет собой последовательность следующих друг за другом слов в обрабатываемом тексте; каждая из элементарных единиц четвертого уровня является семантически значимым объектом, или атрибутом; каждая из элементарных единиц пятого уровня представляет собой триаду либо из двух семантически значимых объектов и семантически значимого отношения между ними, либо семантически значимый объект и его атрибут, и связывающее их семантически значимое отношение.The text converted into electronic form is sent for processing, during which indexation is carried out. This indexing (step 2 in FIG. 1) can be done in the same way as it is disclosed, for example, in the aforementioned patent of the Russian Federation No. 2399959 or in the patent application US 2007/0073533 (publ. March 29, 2007). In the process of this indexing, elementary text units of different levels are obtained. Elementary units of the first level include at least words; each of the elementary units of the second level is a normalized word form; each of the elementary units of the third level is a sequence of successive words in the processed text; each of the fourth-level elementary units is a semantically significant object or attribute; each of the elementary units of the fifth level is a triad of either two semantically significant objects and a semantically significant relationship between them, or a semantically significant object and its attribute, and a semantically significant relation connecting them.
Предпочтительно, однако, индексировать текст с помощью способа, заявленного в заявке на патент РФ 2012150734 (приоритет от 27.11.2012) и проиллюстрированного на Фиг.2. В этом способе текст в цифровой форме сначала сегментируется на элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова. В упомянутом патенте РФ №2399959 эти элементарные единицы первого уровня именуются токенами (token). Токеном может быть любой текстовый объект из следующего множества: слова, состоящие каждое из последовательности букв и, возможно, дефисов; последовательность пробелов; знаки препинания; числа. Иногда сюда же относят такие последовательности символов как А300, i150b, и т.п. Выделение токенов всегда осуществляется по достаточно простым правилам, например, как в упомянутом патенте РФ №2399959. На Фиг.2 этот этап условно обозначен ссылочной позицией 21.It is preferable, however, to index the text using the method claimed in the patent application of the Russian Federation 2012150734 (priority from 11/27/2012) and illustrated in FIG. 2. In this method, the text in digital form is first segmented into elementary units of the first level, including at least words. In the mentioned patent of the Russian Federation No. 2399959, these elementary units of the first level are called tokens. A token can be any text object from the following set: words consisting of each sequence of letters and, possibly, hyphens; sequence of spaces; punctuation marks; numbers. Sometimes sequences of symbols such as А300, i150b, etc. are also included here. Tokens are always allocated according to fairly simple rules, for example, as in the aforementioned RF patent No. 2399959. In Fig.2, this step is conventionally indicated by reference numeral 21.
Вслед за этим, на этапе 22 (Фиг.2) сегментируют индексируемый текст в цифровой форме на предложения, соответствующие участкам данного текста. Такую сегментацию проводят по графематическим правилам. К примеру, самым простым правилом для выделения предложений является: «Предложением является последовательность токенов, начинающаяся с заглавной буквы и заканчивающаяся точкой».Following this, at step 22 (FIG. 2), indexed text is digitally segmented into sentences corresponding to portions of the given text. Such segmentation is carried out according to graphematical rules. For example, the simplest rule for highlighting sentences is: “A sentence is a sequence of tokens, starting with a capital letter and ending with a period”.
Далее для каждой элементарной единицы первого уровня (для каждого токена), представляющей собой слово, на основе морфологического анализа формируют соответствующую элементарную единицу второго уровня, представляющую собой нормализованную словоформу, именуемую далее леммой. К примеру, для слова «иду» нормализованной словоформой будет «идти», для слова «красивого» нормализованной словоформой будет «красивый», а для слова «стеной» нормализованная словоформа - «стена». Кроме того, для каждой словоформы указывается часть речи, к которой относится данное слово, и его морфологические характеристики. Естественно, что для разных частей речи эти характеристики различны. К примеру, для существительных и прилагательных это род (мужской - женский - средний), число (единственное - множественное), падеж; для глаголов это вид (совершенный - несовершенный), лицо, число (единственное - множественное); и т.д. Таким образом, для заданного слова его нормализованная словоформа (лемма) + морфологические характеристики, в том числе часть речи, являются его морфом. Одно и то же слово может иметь несколько морфов. Например, слово «стекло» имеет два морфа - один для существительного среднего рода и один для глагола в прошедшем времени. Этот этап условно обозначен на Фиг.2 ссылочной позицией 23.Further, for each elementary unit of the first level (for each token), which is a word, on the basis of morphological analysis, the corresponding elementary unit of the second level is formed, which is a normalized word form, hereinafter referred to as the lemma. For example, for the word “go” the normalized word form will be “go”, for the word “beautiful” the normalized word form will be “beautiful”, and for the word “wall” the normalized word form will be “wall”. In addition, for each word form, the part of speech to which the given word belongs and its morphological characteristics are indicated. Naturally, for different parts of speech, these characteristics are different. For example, for nouns and adjectives it is a gender (masculine - feminine - average), number (singular - plural), case; for verbs it is a form (perfect - imperfect), person, number (singular - plural); etc. Thus, for a given word, its normalized word form (lemma) + morphological characteristics, including part of speech, are its morph. One and the same word can have several morphs. For example, the word "glass" has two morphs - one for a noun of the middle gender and one for a past tense verb. This step is conventionally indicated in figure 2 by reference numeral 23.
Следующий этап, условно обозначенный на Фиг.2 ссылочной позицией 24, состоит в том, что для каждой из упомянутых элементарных единиц первого уровня в упомянутом тексте подсчитывают частоту встречаемости. Иначе говоря, определяют, сколько раз каждое слово встречается в обрабатываемом тексте. Эту операцию осуществляют автоматически, например, простым подсчетом частоты встречаемости каждого токена, либо так, как это описано в патенте РФ №2167450 (опубл. 20.05.2001), либо в патенте США №6189002 (опубл. 13.02.2001). Одновременно с подсчетом частоты встречаемости находят для каждых двух и более следующих друг за другом слов в данном тексте разности подсчитанных частот встречаемости этих слов в первое появление этой последовательности слов и в последующие их появления. Если эти разности для первого появления данной последовательности слов и для нескольких последующих их появлений остаются неизменными, такую последовательность слов, следующих друг за другом в данном тексте, (т.е. элементарных единиц второго уровня) объединяют в элементарные единицы третьего уровня, представляющие собой устойчивые словосочетания.The next step, conventionally indicated in FIG. 2 by reference numeral 24, is that for each of the mentioned first level elementary units, the frequency of occurrence is counted in said text. In other words, they determine how many times each word occurs in the processed text. This operation is carried out automatically, for example, by simply calculating the frequency of occurrence of each token, either as described in the patent of the Russian Federation No. 2164450 (publ. 05/20/2001), or in US patent No. 6189002 (publ. 13.02.2001). Simultaneously with the calculation of the frequency of occurrence, for every two or more words that follow in a given text, the differences in the calculated frequencies of occurrence of these words are found in the first occurrence of this sequence of words and in their subsequent occurrences. If these differences for the first occurrence of a given sequence of words and for several subsequent occurrences of them remain unchanged, such a sequence of words following each other in this text (i.e., elementary units of the second level) are combined into elementary units of the third level, which are stable collocations.
Далее, на следующем этапе, обозначенном на Фиг.2 ссылочной позицией 25, с целью выявления семантически значимых объектов и атрибутов, выполняют многоступенчатый семантико-синтаксический анализ. Такой многоступенчатый семантико-синтаксический анализ выполняют путем обращения к сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде. Такой средой может быть, например, лингвистическая среда, упомянутая в вышеуказанной заявке на патент США №2007/0073533 либо в вышеуказанных патентах РФ №2242048 и РФ №2399959, либо любая иная лингвистическая среда, определяющая соответствующие правила, которые позволяют устранять синтаксические и семантические неоднозначности слов и выражений реального текста. Лингвистические и эвристические правила в выбранной среде именуются далее правилами.Further, in the next step, indicated in FIG. 2 by the reference numeral 25, in order to identify semantically significant objects and attributes, a multi-stage semantic-syntactic analysis is performed. Such multistage semantic-syntactic analysis is performed by referring to the linguistic and heuristic rules generated in the database in a predetermined linguistic environment. Such a medium may be, for example, the linguistic medium mentioned in the aforementioned application for US patent No. 2007/0073533 or in the above patents of the Russian Federation No. 2242048 and the Russian Federation No. 2399959, or any other linguistic medium that defines the appropriate rules that allow to eliminate syntactic and semantic ambiguities words and expressions of real text. Linguistic and heuristic rules in the selected environment are referred to below as rules.
Выявление семантически значимых объектов и атрибутов, которые считаются элементарными единицами четвертого уровня, производится в предложении на множестве элементарных единиц первого, второго и(или) третьего уровней.The identification of semantically significant objects and attributes, which are considered elementary units of the fourth level, is performed in the sentence on the set of elementary units of the first, second and (or) third levels.
Для каждого семантически значимого объекта, или атрибута, т.е. элементарной единицы четвертого уровня с присвоенными им типами находят соответствующую ему анафорическую ссылку (если она есть). Например, в предложении «Механика - часть физики, которая изучает закономерности механического движения и причины, вызывающие или изменяющие это движение» анафорической ссылкой к слову «механика» будет местоимение «которая», тогда как слово «механика» будет антецедентом для этой анафоры, и еще, анафорической ссылкой к слову «механическое» будет местоимение «это», тогда как слово «механическое» будет антецедентом для этой анафоры. Этот этап нахождения анафорической ссылки условно обозначен на Фиг.2 ссылочной позицией 26. Каждую анафорическую ссылку заменяют на соответствующий ей антецедент. После этого каждый выявленный семантически значимый объект и атрибут сохраняют в соответствующей памяти.For each semantically significant object or attribute, i.e. elementary units of the fourth level with the types assigned to them find the corresponding anaphoric link (if any). For example, in the sentence “Mechanics is a part of physics that studies the laws of mechanical motion and the causes that cause or change this movement”, the anaphoric reference to the word “mechanics” will be the pronoun “which”, while the word “mechanics” will be an antecedent for this anaphora, and also, the anaphoric reference to the word “mechanical” will be the pronoun “this,” while the word “mechanical” will be an antecedent for this anaphora. This step of finding the anaphoric link is conventionally indicated in FIG. 2 by reference numeral 26. Each anaphoric link is replaced with its corresponding antecedent. After that, each identified semantically significant object and attribute is stored in the corresponding memory.
На следующем этапе, обозначенном на Фиг.2 ссылочной позицией 27, выполняют многоступенчатый семантико-синтаксический анализ, с помощью которого на основе элементарных единиц первого, второго, третьего и четвертого уровней находят с помощью упомянутых правил семантически значимые отношения между семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами.In the next step, indicated by a reference numeral 27 in FIG. 2, a multi-stage semantic-syntactic analysis is performed, with which, on the basis of elementary units of the first, second, third and fourth levels, semantically significant relations between semantically significant objects are found using the above rules, and between semantically significant objects and attributes.
На этапе, обозначенном на Фиг.2 ссылочной позицией 28, каждому семантически значимому отношению присваивают соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится индексируемый текст. После этого каждое семантически значимое отношение сохраняют в соответствующей памяти вместе с присвоенным ему типом и найденными для него морфологическими и семантическими атрибутами.At the step indicated by reference numeral 28 in FIG. 2, each semantically significant relation is assigned a corresponding type from the subject ontology stored in the database on the subject of the subject area to which the indexed text belongs. After that, each semantically significant relation is stored in the corresponding memory together with the type assigned to it and the morphological and semantic attributes found for it.
После этого на этапе, обозначенном на Фиг.2 ссылочной позицией 29, выявляют частоты встречаемости семантически значимых объектов и атрибутов, а также частоты встречаемости семантически значимых отношений между семантически значимыми объектами и между семантически значимыми объектами и атрибутами на всем данном тексте. Эту операцию выполняют практически так же, как на этапе 24 для элементарных единиц первого уровня.After that, at the stage indicated by reference numeral 29 in FIG. 2, the occurrence frequencies of semantically significant objects and attributes, as well as the occurrence frequencies of semantically significant relationships between semantically significant objects and between semantically significant objects and attributes throughout the entire text, are detected. This operation is performed in almost the same way as in step 24 for elementary units of the first level.
На этапе, обозначенном на Фиг.2 ссылочной позицией 30, сохраненные семантически значимые объекты, а также атрибуты, и семантически значимые отношения используют для формирования триад. При этом в пределах индексируемого текста для каждого из выявленных семантически значимых отношений, связывающих определенные семантически значимые объекты и атрибуты, формируют множество триад двух типов. Каждая из множества триад первого типа включает семантически значимое отношение и два семантически значимых объекта, которые связываются этим семантически значимым отношением. Каждая из множества триад второго типа включает семантически значимое отношение, один семантически значимый объект, а также его атрибут, которые связываются этим семантически значимым отношением. Если обозначить два семантически значимых объекта через Oi и Oj, а связывающее их семантически значимое отношение через Rij, то каждую из триад первого типа можно условно представить (изобразить) как Oi→Rij→Oj. Каждая из триад второго типа может быть представлена как Oi→Rim→Am, где Am являются соответствующим атрибутом, a Rim связывающее семантически значимый объект и атрибут семантически значимое отношение. В этих записях индексы i, j, m представляют собой целые числа.In the step indicated in FIG. 2 by reference numeral 30, stored semantically meaningful objects, as well as attributes, and semantically meaningful relationships are used to form triads. Moreover, within the limits of the text being indexed, for each of the identified semantically meaningful relationships that connect certain semantically meaningful objects and attributes, many triads of two types are formed. Each of the many triads of the first type includes a semantically meaningful relationship and two semantically meaningful objects that are linked by this semantically meaningful relationship. Each of the many triads of the second type includes a semantically significant relation, one semantically significant object, as well as its attribute, which are associated with this semantically significant relation. If two semantically significant objects are denoted by O i and O j , and the semantically significant relation connecting them is denoted by R ij , then each of the triads of the first type can be conditionally represented (depicted) as O i → R ij → O j . Each of the triads of the second type can be represented as O i → R im → A m , where A m are the corresponding attribute, and R im associates the semantically significant object and the attribute is a semantically significant relation. In these entries, the indices i, j, m are integers.
Затем, на этапе, обозначенном на Фиг.2 ссылочной позицией 31, выполняют индексацию текста. При этом индексируют по отдельности на множестве сформированных триад все связанные семантически значимыми отношениями семантически значимые объекты с их частотами встречаемости, все атрибуты с их частотами встречаемости, и все сформированные триады.Then, in the step indicated by reference numeral 31 in FIG. 2, the text is indexed. In this case, individually associated with the semantically significant relations, all semantically significant objects with their frequency of occurrence, all attributes with their frequency of occurrence, and all formed triads are indexed individually on the set of formed triads.
Для этого на множестве сформированных триад индексируют все семантически значимые объекты и их атрибуты по отдельности, с их частотами встречаемости, и все триады вида «семантически значимый объект - семантически значимое отношение - семантически значимый объект», а также все триады вида «семантически значимый объект - семантически значимое отношение - атрибут». Сформированные на этапе 30 триады и полученные на этапе 31 индексы вместе со ссылкой на конкретные предложения исходного текста, из которого сформированы эти триады, сохраняют в базе данных (этап 32 на Фиг.2).To do this, on the set of formed triads, all semantically significant objects and their attributes are separately indexed, with their frequencies of occurrence, and all triads of the form “semantically significant object - semantically significant relation - semantically significant object”, as well as all triads of the form “semantically significant object - semantically significant relation is an attribute. ” The indices generated in step 30 of the triad and the indices obtained in step 31, together with a link to specific sentences of the source text from which these triads are generated, are stored in the database (step 32 in FIG. 2).
Для специалистов очевидно, что упоминавшиеся на отдельных этапах запоминающие устройства могут на деле быть как разными устройствами, так и одним запоминающим устройством достаточного объема. Точно так же отдельные базы данных, упоминавшиеся на соответствующих этапах, могут быть не только физически раздельными базами данных, но и единственной базой данных. Более того, упомянутые запоминающие устройства (памяти) могут хранить ту же самую единственную базу данных, либо хранить по отдельности упомянутые базы данных. Специалистам также понятно, что заявленные в настоящем изобретении способы выполняются в соответствующей вычислительной среде под управлением соответствующих программ, которые записаны на машиночитаемых носителях, предназначенных для непосредственного участия в работе компьютера.For specialists, it is obvious that the storage devices mentioned at separate stages can in fact be both different devices, and one storage device of sufficient volume. Similarly, the individual databases mentioned at the respective stages can be not only physically separate databases, but also the only database. Moreover, said storage devices (memories) may store the same single database, or store said databases separately. Those skilled in the art will also understand that the methods claimed in the present invention are executed in an appropriate computing environment under the control of appropriate programs that are recorded on computer-readable media intended for direct participation in a computer.
Возвратимся к блок-схеме Фиг.1. На этапе 3 выявляют частоты встречаемости элементарных единиц четвертого уровня (т.е. семантически значимых объектов и атрибутов), а также выявляют частоты встречаемости семантически значимых отношений. Отметим, что сформированные элементарные единицы четвертого уровня сохраняют в базе данных вместе с выявленными частотами встречаемости. Кроме того, сохраняют в базе данных полученные индексы вместе со ссылками на конкретные предложения данного текста.Returning to the block diagram of FIG. 1. At stage 3, the frequencies of occurrence of elementary units of the fourth level (i.e., semantically significant objects and attributes) are identified, as well as the frequencies of occurrence of semantically significant relationships are identified. Note that the formed elementary units of the fourth level are stored in the database along with the identified frequency of occurrence. In addition, the resulting indexes are stored in the database along with links to specific sentences of the text.
Затем на этапе 4 в способе по настоящему изобретению формируют семантическую сеть таким образом, что первый семантически значимый объект последующей триады связывается с таким же вторым семантически значимым объектом предыдущей триады. При этом в процессе итеративной процедуры осуществляют перенормировку частот встречаемости семантически значимых объектов и атрибутов в смысловой вес семантически значимых объектов и атрибутов, которые являются вершинами семантической сети. Эту перенормировку осуществляют таким образом, что семантически значимые объекты и атрибуты, связанные в сети с большим числом семантически значимых объектов и атрибутов с большой частотой встречаемости, увеличивают свой смысловой вес, а другие семантически значимые объекты и атрибуты его равномерно теряют (этап 5 на Фиг.1).Then, in step 4, a semantic network is formed in the method of the present invention such that the first semantically significant object of the subsequent triad is associated with the same second semantically significant object of the previous triad. At the same time, in the course of the iterative procedure, the frequency of occurrence of semantically significant objects and attributes is renormalized into the semantic weight of semantically significant objects and attributes, which are the vertices of the semantic network. This renormalization is carried out in such a way that semantically significant objects and attributes connected in a network with a large number of semantically significant objects and attributes with a high frequency of occurrence increase their semantic weight, while other semantically significant objects and attributes evenly lose it (step 5 in FIG. one).
Далее элементарные единицы четвертого уровня ранжируют по смысловому весу путем сравнения их смыслового веса с заранее заданным пороговым значением (этап 6 на Фиг.1).Next, the elementary units of the fourth level are ranked by semantic weight by comparing their semantic weight with a predetermined threshold value (step 6 in FIG. 1).
Элементарные единицы четвертого уровня со смысловым весом ниже порогового удаляют (этап 7 на Фиг.1). Оставшиеся элементарные единицы четвертого уровня с весом выше порогового сохраняют в памяти (этап 8). Сохраняют в памяти также семантически значимые отношения между семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами, оставшимися в семантической сети.The elementary units of the fourth level with a semantic weight below the threshold are removed (step 7 in FIG. 1). The remaining elementary units of the fourth level with a weight above the threshold are stored in memory (step 8). The semantically significant relations between semantically significant objects and also between semantically significant objects and attributes remaining in the semantic network are also stored in memory.
Далее, на этапе 9 выявляют степени пересечения построенной семантической сети классифицируемого текста и семантических сетей текстовых выборок. Эти текстовые выборки составляют из ранее классифицированных текстов. Они описывают предметные области той семантической классификации, для которой осуществляется обработка классифицируемого текста. При этом степень пересечения семантических сетей выявляют как по их вершинам, так и по связям между этими вершинами с учетом смысловых весов вершин рассматриваемых семантических сетей и весовых характеристик их связей.Next, at step 9, the degree of intersection of the constructed semantic network of classified text and semantic networks of text samples is revealed. These text samples are composed of previously classified texts. They describe the subject areas of the semantic classification for which the classified text is processed. Moreover, the degree of intersection of semantic networks is revealed both by their vertices and by the relationships between these vertices, taking into account the semantic weights of the vertices of the considered semantic networks and the weight characteristics of their relationships.
Выявленную степень пересечения семантических сетей классифицируемого текста и конкретной текстовой выборки принимают в качестве величины, характеризующей семантическое подобие классифицируемого текста и данной текстовой выборки. После этого выбирают в качестве класса для классифицируемого текста по меньшей мере одну из предметных областей, степени пересечения семантической сети которых с семантической сетью классифицируемого текста оказываются больше заранее заданного порога (этап 10 на Фиг.1).The revealed degree of intersection of the semantic networks of the classified text and the specific text selection is taken as a value characterizing the semantic similarity of the classified text and this text selection. After that, at least one of the subject areas, the degree of intersection of the semantic network of which with the semantic network of the classified text are greater than a predetermined threshold, is selected as a class for the classified text (step 10 in FIG. 1).
Степень пересечения двух семантических сетей, сформированных описанным выше способом, вычисляется как сумма совпадений элементарных единиц пятого уровня этих двух семантических сетей. В принципе, это вычисление может проводиться различными известными специалистам методами.The degree of intersection of two semantic networks formed in the manner described above is calculated as the sum of the coincidences of the elementary units of the fifth level of these two semantic networks. In principle, this calculation can be carried out by various methods known to those skilled in the art.
Предпочтительно, степень пересечения может вычисляться как сумма пересечений элементарных единиц пятого уровня этих двух сетей. Для этого выбирают в качестве базовой сети ту из двух семантических сетей, в которой после ранжирования и удаления вершин со смысловыми весами ниже порогового значения (см. этап 7 на Фиг.1) осталось больше вершин, чем в другой, выбираемой в качестве сравниваемой. Для каждой вершины базовой сети находят в сравниваемой сети вершину, являющуюся той же самой элементарной единицей четвертого уровня, т.е. тем же самым семантически значимым объектом, или тем же самым атрибутом. Для каждой найденной вершины в каждой из базовой и сравниваемой сетей вычисляют величины всех связанных с данной вершиной триад как площади треугольников, стороны которых соответствуют компонентам каждой из этих триад. Это вычисление площади можно осуществлять как нормированное на 100% скалярное произведение на векторах
Далее выбирают для каждой пары триад, связанных с парой конкретных вершин в базовой и сравниваемой сетях, меньшую из вычисленных величин в качестве степени пересечения триад в базовой и сравниваемой сетях. Все выбранные вычисленные величины суммируют для каждой из вершин, получая степень пересечения для данной пары вершин базовой и сравниваемой сетей. Найденную сумму нормируют на число семантически значимых объектов и атрибутов, связанных с данной вершиной в той из базовой и сравниваемой сетей, которая содержит больше вершин. Полученные нормированные суммы суммируют теперь уже по всем вершинам той из базовой и сравниваемой сетей, которая содержит больше вершин. Наконец, полученную итоговую сумму нормируют на число оставшихся в этой сети элементарных единиц четвертого уровня, т.е. семантически значимых объектов и атрибутов получая степень пересечения семантических сетей.Next, choose for each pair of triads associated with a pair of specific vertices in the base and the compared networks, the smaller of the calculated values as the degree of intersection of the triads in the base and the compared networks. All selected calculated values are summed for each of the vertices, obtaining the degree of intersection for a given pair of vertices of the base and compared networks. The found sum is normalized to the number of semantically significant objects and attributes associated with a given vertex in that of the base and compared networks, which contains more vertices. The obtained normalized sums are now summed over all the vertices of that of the base and compared networks, which contains more vertices. Finally, the resulting total amount is normalized to the number of elementary units of the fourth level remaining in this network, i.e. semantically significant objects and attributes receiving the degree of intersection of semantic networks.
Очевидно, что в случае отсутствия в сравниваемой сети какой-либо вершины степень пересечения для этой вершины принимается равной нулю.Obviously, if there is no vertex in the compared network, the degree of intersection for this vertex is taken equal to zero.
ПримерExample
Для иллюстрации осуществления заявленного способа автоматизированной семантической классификации текста на естественном языке рассмотрим следующий пример. Пусть имеется некоторый русскоязычный текст, представленный на Интернет-сайте http://www.unn.ru/rus/priem.htm, и несколько (например, три) выборки текстов, характеризующих классы (предметные области), представленные на этом же сайте. Таким образом, можно считать, что преобразование текстов в электронную форму, обозначенное на Фиг.1 ссылочной позицией 1, уже выполнено.To illustrate the implementation of the claimed method of automated semantic classification of text in natural language, consider the following example. Let there be some Russian-language text presented on the Internet site http://www.unn.ru/eng/priem.htm, and several (for example, three) samples of texts characterizing the classes (subject areas) presented on the same site. Thus, we can assume that the conversion of texts into electronic form, indicated in FIG. 1 by reference numeral 1, has already been completed.
Типичным примером такого текста является следующий фрагмент:A typical example of such text is the following snippet:
«Во всем мире экзамен по математике - это письменное решение задач. Письменный характер испытаний считается повсюду столь же обязательным признаком демократического общества, как выборы из нескольких кандидатов. Действительно, на устном экзамене студент полностью беззащитен. Мне случалось слышать, принимая экзамены на кафедре дифференциальных уравнений механико-математического факультета МГУ, экзаменаторов, которые топили за соседним столом студентов, дававших безукоризненные ответы (возможно, превосходящие уровень понимания преподавателя). Известны и такие случаи, когда топили нарочно (иногда от этого можно спасти, вовремя войдя в аудиторию)».“Throughout the world, a math exam is a written solution to problems. The written nature of the trials is everywhere considered as an indispensable feature of a democratic society as the election of several candidates. Indeed, in an oral exam, a student is completely defenseless. I happened to hear, while taking exams at the Department of Differential Equations of the Faculty of Mechanics and Mathematics of Moscow State University, examiners who drowned students at the next table who gave impeccable answers (possibly exceeding the level of understanding of the teacher). There are also known cases when they drowned on purpose (sometimes it can be saved from this by entering the audience on time). ”
В соответствии с заявленным способом автоматизированной семантической классификации текстов на естественном языке используют предварительно созданную базу синтаксических правил и словарей, в рамках которых будет осуществляться обработка текста и построение семантического индекса. Подобные базы готовятся экспертами-лингвистами, которые на основании своего опыта и знаний определяют последовательность и состав синтаксической обработки текста, характерных для конкретного языка.In accordance with the claimed method of automated semantic classification of texts in natural language, a previously created base of syntactic rules and dictionaries is used, within which text processing and construction of a semantic index will be carried out. Such databases are prepared by linguistic experts, who, based on their experience and knowledge, determine the sequence and composition of the syntactic processing of the text specific to a particular language.
Экспертами-лингвистами предварительно строится множество синтаксических правил, которые позволяют с помощью использования также предварительно построенных экспертами-лингвистами соответствующих лингвистических словарей в дальнейшем в обрабатываемых текстах автоматически выявлять конкретные сведения, соответствующие семантически значимым объектам, атрибутам семантически значимых объектов и семантически значимым отношениям, которые могут иметь место между семантически значимыми объектами или между семантически значимыми объектами и атрибутами.Linguistic experts preliminarily construct many syntactic rules that allow using the corresponding linguistic dictionaries also previously constructed by expert linguists to automatically identify specific information in processed texts corresponding to semantically significant objects, attributes of semantically significant objects, and semantically significant relationships that may have space between semantically significant objects or between semantically significant objects Tami and attributes.
Кроме спецификации предметной области и правил в соответствии с изложенными выше способами используются словари общей и специальной лексики.In addition to the specification of the subject area and the rules in accordance with the above methods, dictionaries of general and special vocabulary are used.
В соответствии с заявленным способом автоматизированного семантического сравнения текстов на естественном языке сначала осуществляют сегментацию текста на элементарные единицы - токены (ссылочная позиция 21 на Фиг.2) и морфологический анализ токенов-слов (ссылочная позиция 23 на Фиг.2). В результате выполнения этого этапа исходный текст трансформируется во множество токенов и морфов, которые представлены в Таблице 1 и Таблице 2, соответственно.In accordance with the claimed method of automated semantic comparison of texts in natural language, the text is first segmented into elementary units — tokens (reference position 21 in FIG. 2) and morphological analysis of word tokens (reference position 23 in FIG. 2). As a result of this step, the source text is transformed into many tokens and morphs, which are presented in Table 1 and Table 2, respectively.
Вводные слова и вставные конструкции не несут никакой синтаксической нагрузки, поэтому токены этого типа из дальнейшего анализа исключаются.Introductory words and plug-in constructions do not carry any syntactical load, therefore tokens of this type are excluded from further analysis.
Токены-географические названия рассматриваются как одно слово, с морфом, соответствующим морфу главного слова.Geographic tokens are considered as one word, with a morph corresponding to the morph of the main word.
Далее, после сегментации текста на токены и морфологического анализа токенов-слов осуществляют выделение устойчивых словосочетаний (ссылочная позиция 24 на Фиг.2). Для этого подсчитывают частоту встречаемости слов в последовательностях из двух и более слов в тексте. Затем сравнивают разности частот встречаемости слов в последовательности для первого появления данной последовательности слов и для нескольких последующих их появлений.Further, after segmenting the text into tokens and morphological analysis of the word tokens, stable phrases are extracted (reference position 24 in FIG. 2). To do this, calculate the frequency of occurrence of words in sequences of two or more words in the text. Then, the differences in the frequencies of occurrence of words in the sequence are compared for the first appearance of a given sequence of words and for several subsequent occurrences of them.
Частоты встречаемости слов при первом появлении последовательности и при ее последующем появлении, а также разности этих частот представлены в Таблице 3.The frequency of occurrence of words at the first appearance of the sequence and at its subsequent appearance, as well as the difference of these frequencies are presented in Table 3.
В результате выполнения этого этапа исходный текст, кроме элементарных единиц первого и второго уровней, дополняется множеством единиц третьего уровня - устойчивыми словосочетаниями. Словосочетания для нашего примера представлены в Таблице 4.As a result of this stage, the source text, in addition to elementary units of the first and second levels, is supplemented by many units of the third level - stable phrases. The phrases for our example are presented in Table 4.
После выполнения вышеуказанных этапов осуществляют фрагментацию обрабатываемого текста на предложения (ссылочная позиция 22 на Фиг.2). В результате выполнения этого этапа сформированные выше множества дополняются множеством предложений, представленных в Таблице 5.After the above steps are completed, the processed text is fragmented into sentences (reference position 22 in FIG. 2). As a result of this step, the sets formed above are supplemented by the set of proposals presented in Table 5.
Таким образом, после выполнения всех рассмотренных выше этапов обрабатываемый текст будет сегментирован на предложения, каждое из которых размечено множествами аннотаций элементарных единиц первого, второго и третьего уровней.Thus, after all the above steps are completed, the processed text will be segmented into sentences, each of which is marked with sets of annotations of elementary units of the first, second and third levels.
Вслед за этим, в соответствии с заявленным способом автоматизированного семантического сравнения текстов на естественном языке, осуществляется выявление семантически значимых объектов и атрибутов (элементарных единиц четвертого уровня) (ссылочная позиция 25 на Фиг.2). Оно производится в каждом предложении на множестве элементарных единиц первого, второго и(или) третьего уровней путем применения заранее сформированного множества лингвистических и эвристических правил с использованием заранее же сформированных соответствующих лингвистических словарей.Following this, in accordance with the claimed method of automated semantic comparison of texts in natural language, the semantically significant objects and attributes (elementary units of the fourth level) are identified (reference position 25 in FIG. 2). It is made in each sentence on the set of elementary units of the first, second and (or) third levels by applying a pre-formed set of linguistic and heuristic rules using the pre-formed corresponding linguistic dictionaries.
Семантико-синтаксическая обработка предложения проводится в несколько этапов. Все этапы будем проводить на тексте, выбранном нами для примера.Semantic-syntactic processing of sentences is carried out in several stages. We will carry out all stages on the text that we have chosen as an example.
1. Членение предложения по знакам пунктуации и союзам (союзным словам и словосочетаниям) на начальные фрагменты и определение типа фрагмента на основе его морфологических характеристик. Для этого используется словарь союзов, союзных слов и словосочетаний.1. Subdivision of sentences on punctuation marks and unions (union words and phrases) into initial fragments and determining the type of fragment based on its morphological characteristics. For this, a dictionary of unions, union words and phrases is used.
Границы фрагментов ставятся по всем знакам препинания и союзам (союзным словам и словосочетаниям) без запятой. Кроме того, по словарю союзов определяется, нет ли такого сложного союза, начало которого в соседнем слева фрагменте, а конец в данном. В нашем случае таким союзным словосочетанием является «до тех пор, пока». Если такой союз есть, то запятую переносят перед всем союзом.Borders of fragments are set for all punctuation marks and unions (union words and phrases) without a comma. In addition, the dictionary of unions determines whether there is such a complex union, the beginning of which is in the fragment to the left of the left, and the end is in this. In our case, such an allied phrase is “as long as”. If there is such a union, then a comma is transferred before the whole union.
Тип фрагмента - одно из следующих значений, указанных в таблице 6. По порядку, указанному в таблице 6, ищется во фрагменте словоформа с соответствующим омонимом, остальные омонимы найденной словоформы не рассматриваются.The fragment type is one of the following values indicated in table 6. In the order indicated in table 6, the word form with the corresponding homonym is searched in the fragment, the remaining homonyms of the found word form are not considered.
2. Объединение исходных отрезков с простыми случаями однородных рядов прилагательных, наречий, существительных и т.п. Признаком однородности выступает наличие сочинительного союза (или запятой), до и после которого должны находиться словоформы одной части речи, у которых есть омонимы, имеющие одинаковую морфологическую информацию. Остальные омонимы не рассматриваются при дальнейшем анализе, таким образом, происходит частичное снятие омонимии.2. Combining the original segments with simple cases of homogeneous series of adjectives, adverbs, nouns, etc. A sign of homogeneity is the presence of a compositional union (or comma), before and after which there should be word forms of one part of speech, which have homonyms that have the same morphological information. The remaining homonyms are not considered during further analysis, thus, partial removal of homonymy occurs.
В нашем примере сочинительным союзом «как» соединены сегменты 2.1 и 2.2, поскольку у токенов 14 («характер») и 26 («выборы») таблицы 1 есть омонимы одной части речи, имеющие одинаковую морфологическую информацию - Им.п. или Вин.п. Тип полученного сегмента - 1.In our example, segments 2.1 and 2.2 are connected by a “like” conjunctive union, since the tokens 14 (“character”) and 26 (“choices”) of Table 1 have homonyms for one part of speech that have the same morphological information - Im.p. or Win.p. The type of segment received is 1.
3. Построение простых синтаксических групп, соответствующих атрибутивному уровню описания (табл.8): признак объекта/субъекта/действия + объект/субъект/действие, мера признака объекта/субъекта/действия + объект/субъект/действие.3. Construction of simple syntactic groups corresponding to the attribute level of description (Table 8): attribute of an object / subject / action + object / subject / action, measure of an attribute of an object / subject / action + object / subject / action.
Далее в предложениях текста выявляются и раскрываются анафорические ссылки. Для этого в пределах всего обрабатываемого текста в процессе выполнения этапа, обозначенного на Фиг.2 ссылочной позицией 26, находят местоимения, которые могут быть анафорическими ссылками на соответствующие слова, и для местоимений, которые действительно таковыми являются, фиксируют тождество по референции между соответствующим семантически значимым объектом и его анафорической ссылкой. В нашем примере анафоры отсутствуют.Further in sentences of the text anaphoric links are revealed and revealed. To do this, within the entire text being processed, during the stage indicated in FIG. 2 by the reference numeral 26, pronouns are found that can be anaphoric references to the corresponding words, and for pronouns that really are, they fix the identity by reference between the corresponding semantically significant object and its anaphoric reference. In our example, there are no anaphora.
4. Вложение контактно расположенных фрагментов (причастных, деепричастных оборотов, придаточных определительных, etc.) и установление иерархии на фрагментах. Причастный оборот и придаточное определительное будут являться признаком соответствующего объекта, деепричастный оборот - признаком действия.4. Attachment of contact-located fragments (participial, participial revolutions, accessory definitive, etc.) and establishing a hierarchy on fragments. The participial turnover and the adjunctive definitive will be a sign of the corresponding object, the participial turnover - a sign of action.
В нашем примере выполняются следующие вложения:In our example, the following attachments are made:
- фрагмент 4.2 (табл.7) с типом 6 «принимая экзамены на кафедре дифференциальных уравнений механико-математического факультета» является деепричастным оборотом с главным словом «принимая», следовательно, весь фрагмент 4.2 подчиняется глаголу предыдущего фрагмента «слышать»,- a fragment 4.2 (Table 7) with type 6 “taking exams at the Department of Differential Equations of the Faculty of Mechanics and Mathematics” is a participle with the main word “accepting”, therefore, the whole fragment 4.2 obeys the verb of the previous fragment “hear”,
- фрагмент 4.5 (табл.8) с типом 5 «дававших безукоризненные ответы» является причастным оборотом с главным словом «дававших», согласованным с существительным «студентов» предыдущего фрагмента по роду и числу, следовательно, весь фрагмент 4.5 подчиняется существительному «студентов», являясь его признаковым описанием. Таким образом, весь фрагмент 4.5 - атрибут (признак) существительного «студентов».- fragment 4.5 (Table 8) with type 5 “giving perfect answers” is the sacrament with the main word “giving”, consistent with the noun “students” of the previous fragment by gender and number, therefore, the whole fragment 4.5 is subordinate to the noun “students”, being its indicative description. Thus, the whole fragment 4.5 is an attribute (attribute) of the noun “students”.
Во втором столбце таблицы 10 показаны полученные после вложения укрупненные фрагменты предложения.The second column of table 10 shows the enlarged fragments of the proposal received after the attachment.
5. Построение множества однозначных морфологических интерпретаций каждого фрагмента.5. The construction of many unique morphological interpretations of each fragment.
В пределах каждого предложения осуществляется частичное снятие омонимии на морфологическом уровне путем:Within each sentence, partial removal of homonymy is carried out at the morphological level by:
1) выделения групп существительных, согласованных с одним или несколькими прилагательными/причастиями/местоимениями-прилагательными, находящимися в однородной связи (так называемый атрибутивный уровень, описанный выше в п.3);1) the allocation of groups of nouns consistent with one or more adjectives / participles / pronouns-adjectives that are in homogeneous connection (the so-called attributive level described above in clause 3);
2) анализа местоположения тире, что снимает омонимию, во-первых, со слово формы «это», поскольку тире перед данной словоформой указывает на то, что «это» - частица, во-вторых, с существительных до и после тире, т.к. у ближайшего к тире существительного справа возможен только именительный падеж, а слева - именительный или творительный. Так, в нашем примере словоформ «это» (токен 8, табл.2) является частицей, а словоформы «экзамен» (токен 4, табл.2) и «решение» (токен 10, табл.2) могут быть употреблены только в винительном падеже;2) analysis of the location of the dash, which removes homonymy, firstly, from the word of the form “this”, since the dash before this wordform indicates that “this” is a particle, and secondly, from nouns before and after the dash, etc. to. the closest to the dash of a noun on the right is only a nominative case, and on the left is a nominative or instrumental. So, in our example, the word forms “this” (token 8, Table 2) are particles, and the word forms “exam” (token 4, Table 2) and “solution” (token 10, Table 2) can only be used in accusative case;
3) выявления причастных оборотов, стоящих после существительного, и деепричастных оборотов, поскольку такие обороты выделяются запятыми, а существительные, входящие в них зависят от глагольной формы и не могут быть в именительном падеже. Так, в нашем примере словоформы «экзамен» (токен 45, табл.2) и «ответы» (токен 65, табл.2), не могут быть в именительном падеже;3) the identification of participial phrases following the noun and participle phrases, since such phrases are separated by commas, and nouns included in them depend on the verb form and cannot be in the nominative case. So, in our example, the word forms “exam” (token 45, Table 2) and “answers” (token 65, Table 2) cannot be in the nominative case;
4) выявления предлогов, при этом у подчиненного предлогу существительного убираются те омонимы, которые имеют падеж, не употребляемый с данным предлогом (используется модель управления предлога). В нашем примере:4) identifying prepositions, while those homonyms that have a case not used with this preposition are removed from the subordinate of the preposition of the noun (the preposition management model is used). In our example:
- предлог «из» (токен 27, табл.1) перед словоформой «кандидатов» (токен 29, табл. 1) не может управлять существительным в винительном падеже;- the preposition “from” (token 27, Table 1) before the word form of “candidates” (token 29, Table 1) cannot manage a noun in the accusative case;
- предлог «на» (токен 46, табл.1) перед словоформой «кафедре» (токен 47, табл.1) не может управлять существительным в дательном падеже;- the preposition “on” (token 46, table 1) before the word form “department” (token 47, table 1) cannot control a noun in the dative case;
- словоформа «мне» (токен 40, табл.1), перед которой предлог отсутствует, не может иметь предложный падеж,- the word form "me" (token 40, Table 1), before which there is no excuse, cannot have a prepositional case,
следовательно, эти омонимы убираются из рассмотрения.therefore, these homonyms are removed from consideration.
В таблице 2 варианты омонимов, которые исключены из рассмотрения в результате частичного снятия омонимии на морфологическом уровне, выделены серым цветом.In table 2, variants of homonyms that are excluded from consideration as a result of partial removal of homonymy at the morphological level are highlighted in gray.
6. Объединение фрагментов в простые предложения в составе сложноподчиненного с помощью подчинительных союзов. Подчинительные союзы выступают как границы простых предложений (табл.10, столбец 3).6. Combining fragments into simple sentences as part of a complex subject using subordinate unions. Subordinate unions act as boundaries of simple sentences (Table 10, column 3).
7. Выявление предикативного минимума (в том числе, основных семантически значимых объектов, и основных семантически-значимых связей - предикатов) предложения путем сравнения его структуры со словарем шаблонов минимальных структурных схем предложений, фрагмент которого приведен в Таблице 11. Результат для нашего примера приведен в Таблице 12.7. Identification of the predicative minimum (including the main semantically significant objects, and the main semantically significant relationships - predicates) of a sentence by comparing its structure with a dictionary of templates of minimal structural sentence schemes, a fragment of which is shown in Table 11. The result for our example is given in Table 12.
8. Выделение остальных членов простого предложения (остальных семантически значимых объектов и атрибутов) и остальных семантически значимых связей осуществляется последовательным сравнением слов предложения с актантной структурой глагола из словаря валентностей глаголов. Заполненные валентные гнезда для предикатов текста примера приведены в Таблице 13.8. The selection of the remaining members of a simple sentence (other semantically significant objects and attributes) and other semantically meaningful relationships is carried out by a consistent comparison of the words of the sentence with the actual structure of the verb from the dictionary of valencies of verbs. The filled valence nests for predicates of the example text are shown in Table 13.
Более подробно рассмотрим предикат топили. Согласно семантической классификации, используемой в словаре валентностей глаголов, он прогнозирует ситуацию воздействия субъекта на объект. Глаголы этого класса имеют формальное выражение вида «существительное в именительном падеже - глагол - существительное в родительном падеже». Таким образом, выявляются основные семантически значимые объекты «экзаменатор», «студент», и основное семантически значимое отношение «воздействие».We consider the predicate stoked in more detail. According to the semantic classification used in the dictionary of valencies of verbs, he predicts the situation of the subject's influence on the object. Verbs of this class have a formal expression of the form "noun in the nominative case - verb - noun in the genitive case". Thus, the main semantically significant objects “examiner”, “student”, and the main semantically significant relationship “impact” are identified.
9. Построение синтаксических групп внутри полученных простых предложений, в которых актанты предикатов - главные слова, с помощью синтаксических правил, выявляющих синтаксические связи между словами. Построенные группы приведены в Таблице 14.9. The construction of syntactic groups inside the received simple sentences, in which the predicate actants are the main words, with the help of syntactic rules that reveal the syntactic relations between words. The constructed groups are shown in Table 14.
Таким образом, выявляется множество остальных семантически значимых объектов и атрибутов, а также остальных семантически отношений. Для указанного примера они сведены в Таблицу 15.Thus, many other semantically significant objects and attributes are revealed, as well as other semantically related relationships. For this example, they are summarized in Table 15.
После выполнения предыдущих этапов на множестве выделенных элементарных единиц первого, второго, третьего и четвертого уровней с помощью упомянутых правил находят семантически значимые отношения между семантически значимыми объектами. Так, например, в предложении «Во всем мире экзамен по математике - это письменное решение задач» рассматриваемого текста с помощью множества правил, соответствующая которому схема обработки сигналов представлена на Фиг.2 (пункты обработки 1-9), а используемые в этом правиле словари представлены в Таблицах 6-16, выделяются семантически значимое отношение «есть». Другие семантически значимые отношения выделяются с помощью того же самого множества правил. Каждому семантически значимому отношению присваивается его тип. В результате в исходном тексте выделяют семантически значимые отношения. Множество таких семантически значимых отношений с присвоенными им типами для рассматриваемого примера представлено в Таблице 16.After performing the previous steps on the set of selected elementary units of the first, second, third and fourth levels, using the above-mentioned rules, semantically significant relations between semantically significant objects are found. So, for example, in the sentence "A mathematics exam is a written solution to problems" in the text under consideration using a variety of rules, the corresponding signal processing scheme is shown in Figure 2 (processing points 1-9), and the dictionaries used in this rule are presented in Tables 6-16, the semantically significant relation “is” stands out. Other semantically significant relationships are distinguished using the same set of rules. Each semantically significant relation is assigned its type. As a result, semantically significant relationships are distinguished in the source text. Many of these semantically significant relationships with the types assigned to them for the example in question are presented in Table 16.
Таким образом, после выполнения всех рассмотренных выше этапов обработки исходный текст будет размечен множеством аннотаций, соответствующих семантически значимым объектам, атрибутам и семантически значимым отношениям между семантически значимыми объектами, а также между семантически значимыми объектам и атрибутами.Thus, after all the above processing steps have been completed, the source text will be marked out with a lot of annotations corresponding to semantically significant objects, attributes and semantically significant relationships between semantically significant objects, as well as between semantically significant objects and attributes.
После этого на этапе, обозначенном на Фиг.2 ссылочной позицией 29, выявляют частоты встречаемости семантически значимых объектов и атрибутов, а также семантически значимых отношений между семантически значимыми объектами и между семантически значимыми объектами и атрибутами на всем данном тексте. Эту операцию выполняют практически так же, как на этапе 24 для элементарных единиц первого уровня. Фрагмент такого частотного словаря для нашего примера представлен в Таблицах 17 и 18.After that, at the step indicated by reference numeral 29 in FIG. 2, the occurrence frequencies of semantically significant objects and attributes, as well as semantically significant relationships between semantically significant objects and between semantically significant objects and attributes throughout the entire text are detected. This operation is performed in almost the same way as in step 24 for elementary units of the first level. A fragment of such a frequency dictionary for our example is presented in Tables 17 and 18.
Следующий этап, обозначенный на Фиг.2 ссылочной позицией 30, является техническим и выполняется для формирования триад, соответствующих сохраненным семантически значимым объектам, атрибутам и семантически значимым отношениям. Фрагмент множества таких триад для нашего примера представлен в Таблице 19. По сути дела, сформированное множество триад составляет исходные данные для построения семантического индекса, обработанного на предыдущих этапах текста.The next step, indicated by reference numeral 30 in FIG. 2, is technical and is performed to form triads corresponding to stored semantically significant objects, attributes, and semantically significant relationships. A fragment of the set of such triads for our example is presented in Table 19. In fact, the generated set of triads makes up the initial data for constructing the semantic index processed in the previous stages of the text.
На этапе, обозначенном на Фиг.2 ссылочной позицией 31, строят семантический индекс следующим образом: сначала из множества триад, полученных на предыдущем этапе, формируют подмножества триад, каждое из которых соответствует одному семантически значимому объекту с его атрибутами, и каждое полученное подмножество триад используют как вход для одного из стандартных индексаторов, например широко известного свободно распространяемого индексатора Lucene, индексатора поисковой машины Яндекс, индексатора Google или любого другого индексатора, с выхода которого получают уникальный для заданного подмножества триад индекс. Аналогичную последовательность действий выполняют для всех подмножеств триад, соответствующих триадам вида «семантически значимый объект - семантически значимое отношение - семантически значимый объект» и триадам вида «семантически значимый объект - семантически значимое отношение - атрибут», получая множество соответствующих уникальных индексов, которые в совокупности и составляют семантический индекс текста.In the step indicated by reference numeral 31 in FIG. 2, a semantic index is constructed as follows: first, from the set of triads obtained in the previous step, subsets of triads are formed, each of which corresponds to one semantically significant object with its attributes, and each obtained subset of triads is used as an input for one of the standard indexers, for example, the widely known Lucene freely distributed indexer, Yandex search engine indexer, Google indexer or any other indexer, from but which are unique to a given subset of triads index. A similar sequence of actions is performed for all subsets of triads corresponding to triads of the form “semantically significant object - semantically significant relation - semantically significant object” and triads of the form “semantically significant object - semantically significant relation - attribute”, receiving a set of corresponding unique indices, which together and make up the semantic index of the text.
На этапе, обозначенном на Фиг.2 ссылочной позицией 32, сформированные на этапе 30 триады и полученные на этапе 31 индексы вместе со ссылкой на исходный текст, из которого сформированы эти триады, сохраняют в базе данных.In the step indicated by reference numeral 32 in FIG. 2, the indices generated in step 30 of the triad and the indices obtained in step 31, together with a link to the source text from which these triads are generated, are stored in the database.
В соответствии со способом автоматизированного семантического сравнения текстов на естественном языке из упомянутых триад могут формировать семантическую сеть таким образом, что первый семантически значимый объект последующей триады связывается с таким же вторым семантически значимым объектом предыдущей триады. Пример фрагмента такой семантической сети приведен в Таблице 20.In accordance with the method of automated semantic comparison of texts in natural language from these triads, a semantic network can be formed in such a way that the first semantically significant object of the subsequent triad is associated with the same second semantically significant object of the previous triad. An example of a fragment of such a semantic network is shown in Table 20.
При этом перед сохранением в базе данных сформированных триад и полученных индексов осуществляется, в процессе итеративной процедуры, перенормировка частот встречаемости семантически значимых объектов и атрибутов, а также частот встречаемости семантически значимых отношений, в смысловой вес семантически значимых объектов и атрибутов, являющихся вершинами семантической сети, таким образом, что семантически значимые объекты или атрибуты, связанные в сети с большим числом семантически значимых объектов или атрибутов, с большой частотой встречаемости увеличивают свой смысловой вес, а другие семантически значимые объекты или атрибуты его равномерно теряют. Пример перенормированных в смысловые веса численных значений весовых коэффициентов понятий семантической сети приведен в Таблице 21. Аналогичным образом обрабатываются выборки текстов, описывающих классы (в данном примере - три), которые должны быть подвергнуты сравнению с классифицируемым текстом.Moreover, before storing the generated triads and obtained indices in the database, the iterative procedure performs renormalization of the frequencies of occurrence of semantically significant objects and attributes, as well as the frequencies of occurrence of semantically significant relations, into the semantic weight of semantically significant objects and attributes that are the vertices of the semantic network, so that semantically significant objects or attributes connected in the network with a large number of semantically significant objects or attributes with a high frequency occurrences increase their semantic weight, while other semantically significant objects or attributes evenly lose it. An example of the renormalized into semantic weights of the numerical values of the weighting coefficients of the concepts of the semantic network is shown in Table 21. In the same way, samples of texts describing classes (in this example, three) are processed that must be compared with the classified text.
Далее вычисляют степени пересечения семантических сетей классифицируемого текста и выборок текстов, характеризующих классы (предметные области), как по вершинам, так и по их связям с учетом смысловых весов вершин семантических сетей и весовых характеристик их связей. Пример значений степеней пересечений семантических сетей классифицируемого текста и выборок текстов, описывающих классы (предметные области), приведен в Таблице 22. Степень пересечения классифицируемого текста с классом «Математика» говорит о большем их смысловом подобии, по сравнению с другими классами.Next, the degrees of intersection of the semantic networks of the classified text and the samples of texts characterizing the classes (subject areas) are calculated, both by vertices and by their relationships, taking into account the semantic weights of the vertices of the semantic networks and the weight characteristics of their relationships. An example of the values of the degrees of intersection of the semantic networks of the classified text and the samples of texts describing the classes (subject areas) are given in Table 22. The degree of intersection of the classified text with the class “Mathematics” indicates their greater semantic similarity compared to other classes.
Если выставить порог по отнесению классифицируемого текста к предметным областям (классам) равным 2,00000, текст не попадает ни в один из заданных классов. При выставлении порога равным 1,50000, текст попадает в предметную область «Математика».If the threshold for classifying classified text as subject areas (classes) is set to 2.00000, the text does not fall into any of the specified classes. When setting the threshold to 1.50,000, the text falls into the subject area “Mathematics”.
Степень пересечения двух семантических сетей, принадлежащих классифицируемому тексту и выборкам текстов, описывающих классы (предметные области), вычисляется как сумма степеней пересечений элементарных единиц пятого уровня этих двух сетей. Эта сумма формируется по всем вершинам той из сетей, у которой больше вершин. Для каждой вершины этой сети находится вершина в другой сети, являющаяся той же элементарной единицей четвертого уровня - тем же семантически значимым объектом или тем же атрибутом. Если такой вершины во второй сети не находится, степень пересечения для этой вершины приравнивается к нулю. Пример значений степеней пересечения вершин семантических сетей классифицируемого текста и выборки текстов, характеризующей один из классов, приведен в Таблице 23.The degree of intersection of two semantic networks belonging to the classified text and samples of texts describing classes (subject areas) is calculated as the sum of the degrees of intersection of the fifth level elementary units of these two networks. This sum is formed over all the vertices of the network with more vertices. For each vertex of this network, there is a vertex in another network, which is the same elementary unit of the fourth level - the same semantically significant object or the same attribute. If such a vertex is not in the second network, the degree of intersection for this vertex is equal to zero. An example of the values of the degrees of intersection of the vertices of the semantic networks of a classified text and a sample of texts characterizing one of the classes is shown in Table 23.
Для каждой вершины одной семантической сети (для каждого семантически значимого элемента или атрибута - элементарных единиц четвертого уровня) посчитаем степень пересечения с соответствующей вершиной другой семантической сети. В приведенном примере рассматриваем, например, вершину «функция», которая имеется в семантических сетях обоих сравниваемых текстов. Эта степень пересечения вычисляется как сумма степеней пересечения всех семантически значимых объектов и атрибутов, связанных с этой вершиной. В семантических сетях классифицируемого текста и выборки текстов, характеризующей класс «Математика», это «уравнение», «производная», «балл», «решение уравнения» и др., в одной семантической сети, и «уравнение», «производная», «решение уравнения», «порядок» и др. - в другой семантической сети.For each vertex of one semantic network (for each semantically significant element or attribute - elementary units of the fourth level), we calculate the degree of intersection with the corresponding vertex of another semantic network. In the given example, we consider, for example, the vertex “function”, which is available in the semantic networks of both compared texts. This degree of intersection is calculated as the sum of the degrees of intersection of all semantically significant objects and attributes associated with this vertex. In the semantic networks of a classified text and a selection of texts characterizing the "Mathematics" class, these are "equation", "derivative", "score", "equation solution", etc., in one semantic network, and "equation", "derivative", “Solution of an equation”, “order”, etc. - in another semantic network.
Для вершин «функция» вычисляются нормированные на 100% скалярные произведения 99×99×sin(52,2°)/100=77,44 и 99×99×sin(75,6°)/100=94,93 с вершинами «уравнение». И так для всех вершин семантической сети, семантический вес которых превысил пороговое значение (выбранное равным 70 в данном примере).For the “function” vertices, the scalar products normalized to 100% are calculated 99 × 99 × sin (52.2 °) / 100 = 77.44 and 99 × 99 × sin (75.6 °) / 100 = 94.93 with the vertices “ the equation". And so for all the vertices of the semantic network, whose semantic weight exceeded the threshold value (chosen equal to 70 in this example).
Суммарная степень пересечения двух семантических сетей по вершине «функция» - 177,49 по всем соседним с ней вершинам семантических сетей нормируется на наибольшее число 120 оставшихся после удаления подпороговых вершин в одной из двух семантических сетей сравниваемых текстов.The total degree of intersection of two semantic networks along the vertex “function” - 177.49 for all vertices of semantic networks adjacent to it is normalized to the largest number of 120 remaining after removal of subthreshold vertices in one of the two semantic networks of the compared texts.
Степень пересечения семантических сетей, таким образом, вычисляется суммированием наименьших степеней пересечения из двух пар одноименных семантически значимых понятий или атрибутов двух сравниваемых сетей (см. Таблицу 24). При этом вычисляются семантические пересечения смысловых весов каждого семантически значимого объекта, или атрибута, связанных с этой вершиной в этих двух сетях. Эти семантические пересечения вычисляются как нормированные на 100% скалярные произведения смысловых весов первой и второй вершин, а угол между ними берется пропорциональным нормированной на 100% частоте встречаемости связывающего их семантически значимого отношения. К полученной сумме добавляется меньшее из скалярных произведений. Если во второй сети для данной вершины не находится соответствующего семантически значимого объекта, или атрибута, степень пересечения по этому семантически значимому объекту, или атрибуту, приравнивается нулю. После суммирования по всем семантически значимым объектам или атрибутам, связанным с текущей вершиной, нормируют полученную сумму на наибольшее в двух сетях число семантически значимых объектов и атрибутов, связанных с этой вершины, и переходят к следующей вершине.The degree of intersection of semantic networks is thus calculated by summing the smallest degrees of intersection of two pairs of the same semantically significant concepts or attributes of the two compared networks (see Table 24). In this case, semantic intersections of semantic weights of each semantically significant object or attribute associated with this vertex in these two networks are calculated. These semantic intersections are calculated as normalized to 100% scalar products of the semantic weights of the first and second vertices, and the angle between them is taken proportional to the normalized at 100% frequency of occurrence of a semantically significant relationship connecting them. The lesser of the scalar products is added to the amount received. If there is no corresponding semantically significant object or attribute in the second network for a given vertex, the degree of intersection over this semantically significant object or attribute is equal to zero. After summing over all semantically significant objects or attributes associated with the current vertex, the resulting sum is normalized to the largest number of semantically significant objects and attributes associated with this vertex in the two networks and go to the next vertex.
Полученная по всем вершинам в одной из сетей (с наибольшим числом вершин) сумма нормируется на число сохраненных после применения обработки на этапе 7 (см. Фиг.1) элементарных единиц четвертого уровня.The sum obtained for all vertices in one of the networks (with the largest number of vertices) is normalized to the number of elementary units of the fourth level saved after applying the processing in step 7 (see Fig. 1).
Предметная область (класс) «Математика» оказывается предметной областью (классом), к которому относится классифицируемый текст.The subject area (class) "Mathematics" is the subject area (class) to which the classified text belongs.
Следует еще раз подчеркнуть, что хотя в заявленном способе экспертами-лингвистами предварительно строится множество синтаксических правил и соответствующих лингвистических словарей (в силу чего в названии заявленного способа употреблено определение «автоматизированного»), раскрытая выше семантическая классификация текстов осуществляется без вмешательства оператора.It should be emphasized once again that although the linguistic experts preliminarily construct a lot of syntactic rules and corresponding linguistic dictionaries in the claimed method (as a result of which the definition of “automated” is used in the name of the claimed method), the semantic classification of texts described above is carried out without operator intervention.
Таким образом, настоящее изобретение обеспечивает способ семантической классификации текстов на естественном языке практически без участия оператора. Основное отличие этого способа от известных способов состоит в том, что подсчитываются частоты встречаемости элементарных единиц четвертого уровня, т.е. семантически значимых объектов и атрибутов с последующей их перенормировкой в смысловые веса. Объединение триад из семантически значимых объектов и атрибутов с помощью семантически значимых отношений в семантическую сеть обеспечивает быструю классификацию текстов, особенно текстов на высоко флективных языках.Thus, the present invention provides a method for semantic classification of texts in natural language with virtually no operator. The main difference of this method from known methods is that the frequencies of occurrence of elementary units of the fourth level are calculated semantically significant objects and attributes with their subsequent renormalization into semantic weights. Combining triads of semantically significant objects and attributes using semantically significant relationships into a semantic network provides a quick classification of texts, especially texts in highly inflected languages.
Пояснение к таблице 11:Explanation of table 11:
V(f) - спрягаемые формы глагола (не инфинитив);V (f) - conjugated forms of the verb (not infinitive);
Cop(f) - спрягаемые формы связки служебных слов быть, стать, являться;Cop (f) - conjugated forms of a bunch of official words to be, become, appear;
Inf - инфинитив глагола или связки;Inf - infinitive of a verb or connective;
N1, N5 - именительный, творительный падеж субстантива;N1, N5 - nominative, instrumental case of the substantive;
Adj1, Adj5 - именительный, творительный падеж прилагательных и страдательных причастий;Adj1, Adj5 - nominative, instrumental case of adjectives and passive participles;
Adj(f) - краткие формы и компоративы прилагательных и страдательных причастий.Adj (f) - short forms and corporate bodies of adjectives and passive participles.
Предложения с шаблоном Cop(f) N1 могут быть назывными, т.е. глагол-связка там не присутствует в явном виде. В этом случае полагаем предикат - нулевой, обозначаемый как NULL.Sentences with the pattern Cop (f) N1 can be called, i.e. the link verb is not present there explicitly. In this case, we assume that the predicate is zero, denoted as NULL.
Claims (6)
- представляют каждый классифицируемый текст в цифровой форме для последующей автоматической и (или) автоматизированной обработки;
- осуществляют индексацию каждого классифицируемого текста в цифровой форме, получая:
- элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова,
- элементарные единицы второго уровня, каждая из которых представляет собой нормализованную словоформу,
- элементарные единицы третьего уровня, каждая из которых представляет собой устойчивое словосочетание в упомянутом тексте,
- элементарные единицы четвертого уровня, каждая из которых является семантически значимым объектом и атрибутом, и
- элементарные единицы пятого уровня, каждая из которых представляет собой триаду либо из двух семантически значимых объектов и семантически значимого отношения между ними, либо из семантически значимого объекта и атрибута и связывающего их семантически значимого отношения;
- выявляют частоты встречаемости элементарных единиц четвертого уровня и частоты встречаемости упомянутых семантически значимых отношений;
- сохраняют в базе данных сформированные элементарные единицы второго, третьего, четвертого и пятого уровней с выявленными частотами встречаемости элементарных единиц четвертого уровня и семантически значимых отношений, а также полученные индексы вместе со ссылками на конкретные предложения данного текста;
- формируют из упомянутых триад семантическую сеть таким образом, что первая элементарная единица четвертого уровня последующей триады связывается с такой же второй элементарной единицей четвертого уровня предыдущей триады;
- осуществляют, в процессе итеративной процедуры, перенормировку упомянутых частот встречаемости в смысловой вес элементарных единиц четвертого уровня, являющихся вершинами семантической сети, таким образом, что элементарные единицы четвертого уровня, связанные в сети с большим числом других элементарных единиц четвертого уровня с большой частотой встречаемости, увеличивают свой смысловой вес, а прочие элементарные единицы четвертого уровня его равномерно теряют;
- ранжируют элементарные единицы четвертого уровня по смысловому весу путем сравнения смыслового веса каждой из них с заранее заданным пороговым значением и удаляют элементарные единицы четвертого уровня, имеющие смысловой вес ниже порогового значения;
- сохраняют в памяти оставшиеся элементарные единицы четвертого уровня со смысловым весом выше порогового, а также семантически значимые отношения между оставшимися элементарными единицами четвертого уровня;
- выявляют степени пересечения упомянутой семантической сети классифицируемого текста и семантических сетей текстовых выборок, каковые текстовые выборки составлены из ранее классифицированных текстов и описывают предметные области упомянутой семантической классификации, при этом упомянутую степень пересечения выявляют как по вершинам упомянутых семантических сетей, так и по связям между этими вершинами с учетом смысловых весов вершин рассматриваемых семантических сетей и весовых характеристик их связей, и принимают выявленную степень пересечения семантических сетей классифицируемого текста и конкретной текстовой выборки в качестве величины, характеризующей семантическое подобие классифицируемого текста и данной текстовой выборки;
- выбирают в качестве класса для классифицируемого текста, по меньшей мере, одну из упомянутых предметных областей, степени пересечения семантической сети которых с семантической сетью упомянутого классифицируемого текста оказываются больше заранее заданного порога.1. The method of automated semantic classification of texts in natural language, which consists in the fact that:
- present each classified text in digital form for subsequent automatic and (or) automated processing;
- carry out the indexation of each classified text in digital form, receiving:
- elementary units of the first level, including at least words,
- elementary units of the second level, each of which is a normalized word form,
- elementary units of the third level, each of which is a stable phrase in the said text,
- elementary units of the fourth level, each of which is a semantically significant object and attribute, and
- elementary units of the fifth level, each of which is a triad of either two semantically significant objects and a semantically significant relationship between them, or from a semantically significant object and attribute and a semantically meaningful relation connecting them;
- identify the frequency of occurrence of elementary units of the fourth level and the frequency of occurrence of the mentioned semantically significant relationships;
- store in the database the formed elementary units of the second, third, fourth and fifth levels with the identified frequencies of occurrence of elementary units of the fourth level and semantically significant relationships, as well as the resulting indices, together with links to specific sentences of this text;
- form a semantic network from said triads in such a way that the first elementary unit of the fourth level of the subsequent triad is associated with the same second elementary unit of the fourth level of the previous triad;
- carry out, in the course of an iterative procedure, renormalization of the mentioned frequencies of occurrence into the semantic weight of elementary units of the fourth level, which are the vertices of the semantic network, so that elementary units of the fourth level connected in the network with a large number of other elementary units of the fourth level with a high frequency of occurrence, increase their semantic weight, and other elementary units of the fourth level evenly lose it;
- rank elementary units of the fourth level by semantic weight by comparing the semantic weight of each of them with a predetermined threshold value and delete elementary units of the fourth level having semantic weight below the threshold value;
- retain in memory the remaining elementary units of the fourth level with a semantic weight above the threshold, as well as semantically significant relations between the remaining elementary units of the fourth level;
- reveal the degree of intersection of the mentioned semantic network of classified text and semantic networks of text samples, which text samples are composed of previously classified texts and describe the subject areas of the mentioned semantic classification, while the said degree of intersection is revealed both by the vertices of the mentioned semantic networks, and by the relationships between these vertices, taking into account the semantic weights of the vertices of the considered semantic networks and the weight characteristics of their relationships, and take the identified stump semantic nets crossing the classified text and text specific sample as the quantity characterizing the semantic similarity of the classified text and this text sample;
- choose, as a class for the classified text, at least one of the mentioned subject areas, the degree of intersection of the semantic network of which with the semantic network of said classified text are greater than a predetermined threshold.
- сегментируют текст в цифровой форме на элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова;
- сегментируют по графематическим правилам текст в цифровой форме на предложения;
- формируют для каждой элементарной единицы первого уровня, представляющей собой слово, на основе морфологического анализа элементарные единицы второго уровня, включающие в себя нормализованную словоформу;
- подсчитывают частоту встречаемости каждой элементарной единицы первого уровня для двух и более соседних единиц первого уровня в данном тексте и объединяют среди упомянутых элементарных единиц первого уровня последовательности слов, следующих друг за другом в данном тексте, в элементарные единицы третьего уровня, представляющие собой устойчивые сочетания слов, в случае, если для каждых двух и более следующих друг за другом слов в данном тексте разности подсчитанных частот встречаемости этих слов для первого появления данной последовательности слов и для нескольких последующих их появлений для каждой пары слов последовательности остаются неизменными;
- выявляют, в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде, в каждом из сформированных предложений семантически значимые объекты и атрибуты - единицы четвертого уровня;
- для каждой элементарной единицы четвертого уровня фиксируют тождество по референции между соответствующим семантически значимым объектом, а также атрибутом, и соответствующей анафорической ссылкой при ее наличии в классифицируемом тексте, заменяя каждую анафорическую ссылку на соответствующий ей антецедент;
- сохраняют в памяти каждый семантически значимый объект и атрибут;
- выявляют, в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде, в каждом из сформированных предложений семантически значимые отношения между выявленными единицами четвертого уровня - семантически значимыми объектами, а также между семантически значимыми объектами и их атрибутами;
- присваивают каждому семантически значимому отношению соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится классифицируемый текст;
- выявляют на всем тексте частоты встречаемости элементарных единиц четвертого уровня и частоты встречаемости упомянутых семантически значимых отношений;
- сохраняют в памяти каждое выявленное семантически значимое отношение вместе с присвоенным ему типом;
- формируют в пределах данного текста для каждого из выявленных семантически значимых отношений, связывающих как соответствующие семантически значимые объекты, так и семантически значимый объект и его атрибут, множество триад, которые являются элементарными единицами пятого уровня;
- индексируют на множестве сформированных триад по отдельности все связанные семантически значимыми отношениями семантически значимые объекты с их частотами встречаемости, все атрибуты с их частотами встречаемости, и все сформированные триады.4. The method according to claim 1, wherein said indexing is carried out in the process of performing the following steps:
- segment the text in digital form into elementary units of the first level, including at least words;
- segment text in digital form into sentences according to graphematical rules;
- form for each elementary unit of the first level, which is a word, on the basis of morphological analysis, elementary units of the second level, including a normalized word form;
- calculate the frequency of occurrence of each elementary unit of the first level for two or more adjacent units of the first level in this text and combine among the mentioned elementary units of the first level sequences of words following one after another in this text into elementary units of the third level, which are stable combinations of words , if for every two or more consecutive words in a given text the difference is in the calculated frequencies of occurrence of these words for the first occurrence of a given sequence telnosti words and a number of subsequent occurrences for each pair of sequences of words remain unchanged;
- identify, in the process of multi-stage semantic-syntactic analysis by referring to linguistic and heuristic rules pre-generated in the database in a predefined linguistic environment, in each of the generated sentences, semantically significant objects and attributes are units of the fourth level;
- for each elementary unit of the fourth level, the identity is fixed by reference between the corresponding semantically significant object, as well as the attribute, and the corresponding anaphoric reference, if any, in the classified text, replacing each anaphoric reference with the corresponding antecedent;
- store in memory each semantically significant object and attribute;
- identify, in the process of multistage semantic-syntactic analysis by referring to linguistic and heuristic rules pre-generated in the database in a predefined linguistic environment, in each of the generated sentences, semantically significant relationships between the identified units of the fourth level - semantically significant objects, as well as between semantically significant objects and their attributes;
- assign to each semantically significant relation the corresponding type from the subject ontology stored in the database on the subject of the subject area to which the classified text belongs;
- identify throughout the text the frequency of occurrence of elementary units of the fourth level and the frequency of occurrence of the mentioned semantically significant relationships;
- store in memory each identified semantically significant relation together with the type assigned to it;
- form within the given text for each of the identified semantically significant relations that connect both the corresponding semantically significant objects and the semantically significant object and its attribute, a multitude of triads, which are elementary units of the fifth level;
- index on the set of formed triads individually all related semantically meaningful relations semantically significant objects with their frequencies of occurrence, all attributes with their frequencies of occurrence, and all formed triads.
- выбирают в качестве базовой сети ту из упомянутых двух семантических сетей, в которой после ранжирования и удаления вершин со смысловыми весами ниже упомянутого порогового значения осталось больше вершин, чем в другой, выбираемой в качестве сравниваемой;
- находят для каждой вершины упомянутой базовой сети в упомянутой сравниваемой сети вершину, являющуюся той же самой элементарной единицей четвертого уровня, т.е. тем же самым семантически значимым объектом, или тем же самым атрибутом;
- вычисляют, для каждой найденной вершины в каждой из упомянутых базовой и сравниваемой сетей, величины всех связанных с данной вершиной упомянутых триад как площади треугольников, стороны которых соответствуют компонентам каждой из этих триад, а угол между сторонами пропорционален весу семантически значимого отношения;
- выбирают для каждой пары упомянутых триад, связанных с парой конкретных вершин в упомянутых базовой и сравниваемой сетях, меньшую из упомянутых вычисленных величин в качестве степени пересечения упомянутых триад в упомянутых базовой и сравниваемой сетях;
- суммируют для каждой из связанных с данной вершиной вершин все выбранные вычисленные величины, получая степень пересечения для данной пары вершин упомянутых базовой и сравниваемой сетей;
- нормируют найденную сумму на число упомянутых семантически значимых объектов и атрибутов, связанных с данной вершиной в той из упомянутых базовой и сравниваемой сетей, которая содержит больше связанных с данной вершиной вершин;
- суммируют нормированные суммы по всем вершинам той из упомянутых базовой и сравниваемой сетей, которая содержит больше вершин;
- нормируют полученную сумму на число оставшихся в этой сети элементарных единиц четвертого уровня, получая упомянутую степень пересечения двух семантических сетей. 6. The method according to claim 5, in which:
- choose one of the two semantic networks as the basic network, in which, after ranking and removing vertices with semantic weights, more vertices remain below the threshold value than the other, which is chosen as the comparison;
- find for each vertex of said core network in said comparative network a vertex that is the same elementary unit of the fourth level, i.e. the same semantically significant object, or the same attribute;
- calculate, for each vertex found in each of the aforementioned base and compared networks, the values of all the triads referred to this vertex as the area of triangles, the sides of which correspond to the components of each of these triads, and the angle between the sides is proportional to the weight of the semantically significant relation;
- choose for each pair of said triads associated with a pair of specific vertices in said basic and compared networks, the smaller of said calculated values as the degree of intersection of said triads in said basic and compared networks;
- summarize for each vertex associated with a given vertex all selected calculated values, obtaining the degree of intersection for a given pair of vertices of the mentioned base and compared networks;
- normalize the found amount to the number of the mentioned semantically significant objects and attributes associated with a given vertex in that of the aforementioned base and compared networks, which contains more vertices associated with a given vertex;
- summarize the normalized sums for all the vertices of that of the mentioned base and compared networks, which contains more vertices;
- normalize the received amount to the number of elementary units of the fourth level remaining in this network, obtaining the mentioned degree of intersection of two semantic networks.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013139069/08A RU2538304C1 (en) | 2013-08-22 | 2013-08-22 | Method for automatic semantic classification of natural language texts |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2013139069/08A RU2538304C1 (en) | 2013-08-22 | 2013-08-22 | Method for automatic semantic classification of natural language texts |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2538304C1 true RU2538304C1 (en) | 2015-01-10 |
Family
ID=53288036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2013139069/08A RU2538304C1 (en) | 2013-08-22 | 2013-08-22 | Method for automatic semantic classification of natural language texts |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2538304C1 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2628897C1 (en) * | 2016-07-25 | 2017-08-22 | Общество С Ограниченной Ответственностью "Дс-Системс" | Method of classifiying texts received as result of speech recognition |
RU2635213C1 (en) * | 2016-09-26 | 2017-11-09 | Самсунг Электроникс Ко., Лтд. | Text summarizing method and device and machine-readable media used for its implementation |
RU2679988C1 (en) * | 2017-12-11 | 2019-02-14 | Общество с ограниченной ответственностью "Аби Продакшн" | Extracting information objects with the help of a classifier combination |
RU2744720C1 (en) * | 2020-05-12 | 2021-03-15 | Андрей Павлович Жураковский | System of automated monitoring of the military-political situation |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2242048C2 (en) * | 2003-02-18 | 2004-12-10 | Онтос Аг | Method for automated processing of text information materials |
US7383169B1 (en) * | 1994-04-13 | 2008-06-03 | Microsoft Corporation | Method and system for compiling a lexical knowledge base |
RU2399959C2 (en) * | 2008-10-29 | 2010-09-20 | Закрытое акционерное общество "Авикомп Сервисез" | Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media |
-
2013
- 2013-08-22 RU RU2013139069/08A patent/RU2538304C1/en not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7383169B1 (en) * | 1994-04-13 | 2008-06-03 | Microsoft Corporation | Method and system for compiling a lexical knowledge base |
RU2242048C2 (en) * | 2003-02-18 | 2004-12-10 | Онтос Аг | Method for automated processing of text information materials |
RU2399959C2 (en) * | 2008-10-29 | 2010-09-20 | Закрытое акционерное общество "Авикомп Сервисез" | Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2628897C1 (en) * | 2016-07-25 | 2017-08-22 | Общество С Ограниченной Ответственностью "Дс-Системс" | Method of classifiying texts received as result of speech recognition |
RU2635213C1 (en) * | 2016-09-26 | 2017-11-09 | Самсунг Электроникс Ко., Лтд. | Text summarizing method and device and machine-readable media used for its implementation |
RU2679988C1 (en) * | 2017-12-11 | 2019-02-14 | Общество с ограниченной ответственностью "Аби Продакшн" | Extracting information objects with the help of a classifier combination |
RU2744720C1 (en) * | 2020-05-12 | 2021-03-15 | Андрей Павлович Жураковский | System of automated monitoring of the military-political situation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844368B (en) | Method for man-machine conversation, neural network system and user equipment | |
Benajiba et al. | Arabic named entity recognition: A feature-driven study | |
Levy | Memory and surprisal in human sentence comprehension | |
RU2399959C2 (en) | Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media | |
RU2518946C1 (en) | Method for automatic semantic indexing of natural language text | |
US20160357731A1 (en) | Method for Automatically Detecting Meaning and Measuring the Univocality of Text | |
CN109783806B (en) | Text matching method utilizing semantic parsing structure | |
Broda et al. | Measuring Readability of Polish Texts: Baseline Experiments. | |
De Silva | Survey on publicly available sinhala natural language processing tools and research | |
KR100481580B1 (en) | Apparatus for extracting event sentences in documents and method thereof | |
RU2538304C1 (en) | Method for automatic semantic classification of natural language texts | |
Kwankajornkiet et al. | Automatic multiple-choice question generation from Thai text | |
Nama et al. | Sentiment analysis of movie reviews: A comparative study between the naive-bayes classifier and a rule-based approach | |
Joshi et al. | Word embeddings in low resource Gujarati language | |
RU2538303C1 (en) | Method for automatic semantic comparison of natural language texts | |
KR20020036059A (en) | Method for disambiguating word-sense based on semantic informations extracted from definitions in dictionary | |
Aljameel et al. | Survey of string similarity approaches and the challenging faced by the Arabic language | |
Lee | N-Gram Language Model | |
MANAYE | Designing Geez Next Word Prediction Model Using Statistical Approach | |
Gupta | Use of Language technology to improve matching and retrieval in Translation Memory | |
Kikuchi et al. | Quality estimation for japanese haiku poems using neural network | |
DeVille et al. | Text as Data: Computational Methods of Understanding Written Expression Using SAS | |
Mock | A Quantitative Analysis of Commencement Speeches | |
Wimalasuriya | Automatic text summarization for sinhala | |
Gebre | Part of speech tagging for Amharic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20160823 |