Claims (16)
1. Способ автоматизированной семантической индексации текста на естественном языке, содержащий этапы, на которых:1. A method of automated semantic indexing of text in a natural language, containing stages in which:
представляют индексируемый текст в электронной форме для последующей автоматической и (или) автоматизированной обработки;submit indexed text in electronic form for subsequent automatic and (or) automated processing;
сегментируют текст в электронной форме на элементарные единицы, именуемые далее токенами;segment text in electronic form into elementary units, hereinafter referred to as tokens;
выявляют в тексте, в процессе лингвистического анализа, устойчивые словосочетания;identify in the text, in the process of linguistic analysis, stable phrases;
формируют предложения, соответствующие участкам текста;form sentences corresponding to sections of the text;
выявляют в каждом предложении с выявленными словосочетаниями, в процессе многоступенчатого семантико-синтаксического анализа с помощью обращения к сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде, именуемым далее правилами, семантически значимые объекты, именуемые далее именованными сущностями, и семантически значимые отношения между именованными сущностями, именуемые далее именованными отношениями;identify in each sentence with identified phrases, in the process of multi-stage semantic-syntactic analysis by using the linguistic and heuristic rules generated in the database in a predefined linguistic environment, hereinafter referred to as rules, semantically significant objects, hereinafter referred to as named entities, and semantically significant relations between named entities, hereinafter referred to as named relationships;
формируют в пределах индексируемого текста для каждого из выявленных именованных отношений, связывающих определенные именованные сущности, множество триад, причем единственная триада первого типа соответствует связи, устанавливаемой именованным отношением между двумя именованными сущностями, каждая из триад второго типа соответствует значению конкретного атрибута одной из этих сущностей, а каждая из триад третьего типа соответствует значению конкретного атрибута самого именованного отношения;form within the indexed text for each of the identified named relationships that bind certain named entities, many triads, and the only triad of the first type corresponds to the relationship established by the named relationship between two named entities, each of the triads of the second type corresponds to the value of a specific attribute of one of these entities, and each of the triads of the third type corresponds to the value of a specific attribute of the named relationship itself;
индексируют на множестве сформированных триад все связанные именованными отношениями именованные объекты по отдельности, все пары вида «именованная сущность - именованное отношение» и все триады вида «именованная сущность - именованное отношение - именованная сущность» с учетом атрибутов соответствующих именованных сущностей и (или) именованных отношений;on a set of triads formed, all named objects connected separately by named relations, all pairs of the type “named entity - named relation” and all triads of the type “named entity - named relation - named entity” are indexed, taking into account the attributes of the corresponding named entities and (or) named relations ;
сохраняют в базе данных сформированные триады и полученные индексы вместе со ссылкой на исходный текст, из которого сформированы эти триады.save the generated triads and the resulting indices in the database together with a link to the source text from which these triads are formed.
2. Способ по п.1, в котором упомянутые токены, именуемые далее элементарными единицами первого уровня, выбирают из группы, состоящей из слов в виде последовательностей букв или букв и дефисов, чисел, знаков препинания и последовательностей пробелов.2. The method according to claim 1, in which the aforementioned tokens, hereinafter referred to as elementary units of the first level, are selected from the group consisting of words in the form of sequences of letters or letters and hyphens, numbers, punctuation marks and sequences of spaces.
3. Способ по п.1, в котором формируют для каждого токена, представляющего собой слово, на основе морфологического анализа соответствующие элементарные единицы второго уровня, именуемые далее морфами.3. The method according to claim 1, in which corresponding elementary units of the second level, hereinafter referred to as morphs, are formed for each token representing a word, based on morphological analysis.
4. Способ по п.1, в котором в процессе упомянутого лингвистического анализа при формировании словосочетаний преобразуют в каждом предложении последовательности элементарных единиц первого и (или) второго уровней (т.е. токенов и морфов) с помощью обращения к сохраненным в базе данных словарям и морфологическим связям в упомянутые словосочетания, именуемые далее элементарными единицами третьего уровня.4. The method according to claim 1, in which, in the process of the mentioned linguistic analysis, when forming phrases, sequences of elementary units of the first and (or) second levels (ie tokens and morphs) are transformed in each sentence by accessing dictionaries stored in the database and morphological relationships in the mentioned phrases, hereinafter referred to as elementary units of the third level.
5. Способ по п.1, в котором в процессе упомянутого многоступенчатого семантико-синтаксического анализа выполняют этапы, на которых:5. The method according to claim 1, in which in the process of the aforementioned multi-stage semantic-syntactic analysis, the steps are performed in which:
упомянутые именованные объекты, считающиеся элементарными единицами четвертого уровня, выявляют в предложении на множестве элементарных единиц первого, второго и (или) третьего уровней;said named objects, considered to be elementary units of the fourth level, are identified in the sentence on the set of elementary units of the first, second and (or) third levels;
формируют с помощью упомянутых правил для каждой именованной сущности морфологические атрибуты из морфологических атрибутов элементарных единиц второго и (или) третьего уровней, составляющих данную именованную сущность;form using the above-mentioned rules for each named entity morphological attributes from the morphological attributes of elementary units of the second and (or) third levels that make up this named entity;
формируют с помощью упомянутых правил для каждой именованной сущности семантические атрибуты из атрибутов элементарных единиц второго и (или) третьего уровней, составляющих данную именованную сущность;form using the above-mentioned rules for each named entity semantic attributes from the attributes of elementary units of the second and (or) third levels that make up this named entity;
присваивают каждой именованной сущности соответствующий тип из хранящейся в базе данных предметной онтологии по тематике каждой предметной области, к которой относится индексируемый текст;assign to each named entity the corresponding type from the subject ontology stored in the database on the subject of each subject area to which the indexed text belongs;
сохраняют в памяти каждую именованную сущность вместе с присвоенным ей типом и найденными для нее морфологическими и семантическими атрибутами.they store in memory each named entity together with the type assigned to it and the morphological and semantic attributes found for it.
6. Способ по п.5, в котором находят для каждой именованной сущности с присвоенным ей типом соответствующую анафорическую ссылку, считающуюся элементарной единицей пятого уровня, и запоминают ее в базе данных вместе с типом и атрибутами именованной сущности, являющейся антецедентом данной анафорической ссылки, и с указанием тождества по референции между этой именованной сущностью и ее анафорической ссылкой;6. The method according to claim 5, in which, for each named entity with the type assigned to it, the corresponding anaphore link is considered to be an elementary unit of the fifth level, and it is stored in the database along with the type and attributes of the named entity, which is the antecedent of this anaphore link indicating the identity by reference between this named entity and its anaphoric reference;
упомянутые именованные отношения, считающиеся элементарными единицами шестого уровня, находят с помощью упомянутых правил на основе элементарных единиц первого, второго, третьего, четвертого и (или) пятого уровней;said named relations, considered to be elementary units of the sixth level, are found using said rules on the basis of elementary units of the first, second, third, fourth and (or) fifth levels;
находят с помощью упомянутых правил для каждого именованного отношения морфологические атрибуты из составляющих данное именованное отношение элементарных единиц второго уровня;using the above-mentioned rules, find morphological attributes from the components of the given named relation of elementary units of the second level for each named relation;
находят с помощью упомянутых правил для каждого именованного отношения семантические атрибуты из элементарных единиц первого, второго, третьего и (или) четвертого уровней;using the above-mentioned rules, they find semantic attributes from elementary units of the first, second, third and (or) fourth levels for each named relation;
присваивают каждому именованному отношению соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится индексируемый текст;assign to each named relation the corresponding type from the subject ontology stored in the database on the subject of the subject area to which the indexed text belongs;
сохраняют в памяти каждое именованное отношение вместе с присвоенным ему типом и найденными для него морфологическими и семантическими атрибутами.each named relation is stored in memory together with the type assigned to it and the morphological and semantic attributes found for it.
7. Способ по п.1, в котором перед сохранением в базе данных сформированных триад и полученных индексов осуществляют свертку каждой группы объектов, связанных отношениями тождества по референции, в единый объект, множество атрибутов которого является объединением атрибутов объектов данной группы, связанных отношениями тождества по референции.7. The method according to claim 1, in which before storing the generated triads and obtained indices in the database, each group of objects related by the relations of identity by reference is convolved into a single object, the set of attributes of which is a combination of attributes of objects of this group connected by identity relations by reference.
8. Способ автоматизированной семантической индексации коллекции текстов на естественном языке, содержащий все этапы способа по п.1 в применении к очередному индексируемому тексту, после чего при запоминании в базе данных сформированных триад и полученных индексов очередного текста осуществляют сравнение, с помощью сформированных в базе данных лингвистических и эвристических правил в заранее заданной лингвистической среде, вновь выявленных именованных объектов и именованных отношений с уже имеющимися в базе данных именованными объектами и именованными отношениями и, в случае идентификации одинаковых именованных объектов и (или) именованных отношений, дублирующую информацию в базе данных не запоминают, а к соответствующим именованным объектам и (или) именованным отношениям добавляют ссылки на очередные тексты, в которых они присутствуют, и ссылки на текстовые фрагменты в пределах каждого из очередных текстов, из которых они выделены.8. A method for automated semantic indexing of a collection of texts in natural language, containing all the steps of the method according to claim 1 as applied to the next indexed text, after which, when the generated triads and the obtained indices of the next text are stored in the database, they are compared using the ones generated in the database linguistic and heuristic rules in a predefined linguistic environment, newly identified named objects and named relations with named objects already in the database by named relations and, if identical named objects and (or) named relations are identified, duplicate information is not stored in the database, and links to the next texts in which they are present are added to the corresponding named objects and (or) named relations, and links to text fragments within each of the next texts from which they are selected.
9. Способ по п.8, в котором упомянутые токены, именуемые далее элементарными единицами первого уровня, выбирают из группы состоящей из слов в виде последовательностей букв или букв и дефисов, чисел, знаков препинания и последовательностей пробелов.9. The method of claim 8, in which the aforementioned tokens, hereinafter referred to as elementary units of the first level, are selected from the group consisting of words in the form of sequences of letters or letters and hyphens, numbers, punctuation marks and sequences of spaces.
10. Способ по п.8, в котором формируют для каждого токена, представляющего собой слово, на основе морфологического анализа соответствующие элементарные единицы второго уровня, именуемые далее морфами.10. The method of claim 8, in which the corresponding elementary units of the second level, hereinafter referred to as morphs, are formed for each token representing a word, based on morphological analysis.
11. Способ по п.8, в котором в процессе упомянутого лингвистического анализа при формировании словосочетаний преобразуют в каждом предложении последовательности элементарных единиц первого и (или) второго уровней (т.е. токенов и морфов) с помощью обращения к сохраненным в базе данных словарям и морфологическим связям в упомянутые словосочетания, именуемые далее элементарными единицами третьего уровня.11. The method according to claim 8, in which, in the process of said linguistic analysis, when generating phrases, sequences of elementary units of the first and (or) second levels (ie, tokens and morphs) are transformed in each sentence by accessing dictionaries stored in the database and morphological relationships in the mentioned phrases, hereinafter referred to as elementary units of the third level.
12. Способ по п.8, в котором в процессе упомянутого многоступенчатого семантико-синтаксического анализа выполняют этапы, на которых:12. The method according to claim 8, in which in the process of the aforementioned multi-stage semantic-syntactic analysis, the steps are performed in which:
упомянутые именованные объекты, считающиеся элементарными единицами четвертого уровня, выявляют в предложении на множестве элементарных единиц первого, второго и (или) третьего уровней;said named objects, considered to be elementary units of the fourth level, are identified in the sentence on the set of elementary units of the first, second and (or) third levels;
формируют с помощью упомянутых правил для каждой именованной сущности морфологические атрибуты из морфологических атрибутов элементарных единиц второго и (или) третьего уровней, составляющих данную именованную сущность;form using the above-mentioned rules for each named entity morphological attributes from the morphological attributes of elementary units of the second and (or) third levels that make up this named entity;
формируют с помощью упомянутых правил для каждой именованной сущности семантические атрибуты из атрибутов элементарных единиц второго и (или) третьего уровней, составляющих данную именованную сущность;form using the above-mentioned rules for each named entity semantic attributes from the attributes of elementary units of the second and (or) third levels that make up this named entity;
присваивают каждой именованной сущности соответствующий тип из хранящейся в базе данных предметной онтологии по тематике каждой предметной области, к которой относится индексируемый текст;assign to each named entity the corresponding type from the subject ontology stored in the database on the subject of each subject area to which the indexed text belongs;
сохраняют в памяти каждую именованную сущность вместе с присвоенным ей типом и найденными для нее морфологическими и семантическими атрибутами.they store in memory each named entity together with the type assigned to it and the morphological and semantic attributes found for it.
13. Способ по п.12, в котором находят для каждой именованной сущности с присвоенным ей типом соответствующую анафорическую ссылку, считающуюся элементарной единицей пятого уровня, и сохраняют ее в базе данных вместе с типом и атрибутами именованной сущности, являющейся антецедентом данной анафорической ссылки, и с указанием тождества по референции между этой именованной сущностью и ее анафорической ссылкой;13. The method according to p. 12, in which for each named entity with the assigned type the corresponding anaphore link is considered to be an elementary unit of the fifth level, and it is stored in the database along with the type and attributes of the named entity, which is the antecedent of this anaphore link indicating the identity by reference between this named entity and its anaphoric reference;
упомянутые именованные отношения, считающиеся элементарными единицами шестого уровня, находят с помощью упомянутых правил на основе элементарных единиц первого, второго, третьего, четвертого и (или) пятого уровней;said named relations, considered to be elementary units of the sixth level, are found using said rules on the basis of elementary units of the first, second, third, fourth and (or) fifth levels;
находят с помощью упомянутых правил для каждого именованного отношения морфологические атрибуты из составляющих данное именованное отношение элементарных единиц второго уровня;using the above-mentioned rules, find morphological attributes from the components of the given named relation of elementary units of the second level for each named relation;
находят с помощью упомянутых правил для каждого именованного отношения семантические атрибуты из элементарных единиц первого, второго, третьего и (или) четвертого уровней;using the above-mentioned rules, they find semantic attributes from elementary units of the first, second, third and (or) fourth levels for each named relation;
присваивают каждому именованному отношению соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится индексируемый текст;assign to each named relation the corresponding type from the subject ontology stored in the database on the subject of the subject area to which the indexed text belongs;
сохраняют в памяти каждое именованное отношение вместе с присвоенным ему типом и найденными для него морфологическими и семантическими атрибутами.each named relation is stored in memory together with the type assigned to it and the morphological and semantic attributes found for it.
14. Способ по п.8, в котором перед сохранением в базе данных сформированных триад и полученных индексов осуществляют свертку каждой группы объектов, связанных отношениями тождества по референции, в единый объект, множество атрибутов которого является объединением атрибутов объектов данной группы, связанных отношениями тождества по референции.14. The method according to claim 8, in which before storing the generated triads and the resulting indices in the database, each group of objects connected by the relations of identity by reference is convolved into a single object, the set of attributes of which is a combination of attributes of objects of this group connected by identity relations by reference.
15. Машиночитаемый носитель, предназначенный для непосредственного участия в работе компьютера и содержащий программу для осуществления способа по п.1.15. Machine-readable medium intended for direct participation in the computer and containing a program for implementing the method according to claim 1.
16. Машиночитаемый носитель, предназначенный для непосредственного участия в работе компьютера и содержащий программу для осуществления способа по п.8.
16. Machine-readable medium intended for direct participation in the computer and containing a program for implementing the method of claim 8.