RU2008142648A - METHOD FOR AUTOMATED SEMANTIC TEXT INDEXATION IN NATURAL LANGUAGE, METHOD FOR AUTOMATED SEMANTIC TEXT INDEXATION IN NATURAL LANGUAGE AND MACHINE READABLE WEAR - Google Patents

METHOD FOR AUTOMATED SEMANTIC TEXT INDEXATION IN NATURAL LANGUAGE, METHOD FOR AUTOMATED SEMANTIC TEXT INDEXATION IN NATURAL LANGUAGE AND MACHINE READABLE WEAR Download PDF

Info

Publication number
RU2008142648A
RU2008142648A RU2008142648/12A RU2008142648A RU2008142648A RU 2008142648 A RU2008142648 A RU 2008142648A RU 2008142648/12 A RU2008142648/12 A RU 2008142648/12A RU 2008142648 A RU2008142648 A RU 2008142648A RU 2008142648 A RU2008142648 A RU 2008142648A
Authority
RU
Russia
Prior art keywords
named
attributes
elementary units
text
database
Prior art date
Application number
RU2008142648/12A
Other languages
Russian (ru)
Other versions
RU2399959C2 (en
Inventor
Владимир Фёдорович Хорошевский (RU)
Владимир Фёдорович Хорошевский
Виктор Петрович Клинцов (RU)
Виктор Петрович Клинцов
Original Assignee
Закрытое акционерное общество "Авикомп Сервисез" (RU)
Закрытое акционерное общество "Авикомп Сервисез"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Закрытое акционерное общество "Авикомп Сервисез" (RU), Закрытое акционерное общество "Авикомп Сервисез" filed Critical Закрытое акционерное общество "Авикомп Сервисез" (RU)
Priority to RU2008142648/12A priority Critical patent/RU2399959C2/en
Priority to EP09823885A priority patent/EP2350871A1/en
Priority to PCT/RU2009/000111 priority patent/WO2010050844A1/en
Publication of RU2008142648A publication Critical patent/RU2008142648A/en
Application granted granted Critical
Publication of RU2399959C2 publication Critical patent/RU2399959C2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

1. Способ автоматизированной семантической индексации текста на естественном языке, содержащий этапы, на которых: ! представляют индексируемый текст в электронной форме для последующей автоматической и (или) автоматизированной обработки; ! сегментируют текст в электронной форме на элементарные единицы, именуемые далее токенами; ! выявляют в тексте, в процессе лингвистического анализа, устойчивые словосочетания; ! формируют предложения, соответствующие участкам текста; ! выявляют в каждом предложении с выявленными словосочетаниями, в процессе многоступенчатого семантико-синтаксического анализа с помощью обращения к сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде, именуемым далее правилами, семантически значимые объекты, именуемые далее именованными сущностями, и семантически значимые отношения между именованными сущностями, именуемые далее именованными отношениями; ! формируют в пределах индексируемого текста для каждого из выявленных именованных отношений, связывающих определенные именованные сущности, множество триад, причем единственная триада первого типа соответствует связи, устанавливаемой именованным отношением между двумя именованными сущностями, каждая из триад второго типа соответствует значению конкретного атрибута одной из этих сущностей, а каждая из триад третьего типа соответствует значению конкретного атрибута самого именованного отношения; ! индексируют на множестве сформированных триад все связанные именованными отношениями именованные объекты по отдельности, все пары вида «именованная сущность - именов� 1. A method of automated semantic indexing of text in a natural language, containing stages in which:! submit indexed text in electronic form for subsequent automatic and (or) automated processing; ! segment text in electronic form into elementary units, hereinafter referred to as tokens; ! identify in the text, in the process of linguistic analysis, stable phrases; ! form sentences corresponding to sections of the text; ! identify in each sentence with identified phrases, in the process of multi-stage semantic-syntactic analysis by using the linguistic and heuristic rules generated in the database in a predefined linguistic environment, hereinafter referred to as rules, semantically significant objects, hereinafter referred to as named entities, and semantically significant relations between named entities, hereinafter referred to as named relationships; ! form within the indexed text for each of the identified named relationships that bind certain named entities, many triads, and the only triad of the first type corresponds to the relationship established by the named relationship between two named entities, each of the triads of the second type corresponds to the value of a specific attribute of one of these entities, and each of the triads of the third type corresponds to the value of a specific attribute of the named relationship itself; ! index on a set of triads formed all associated named objects individually, all pairs of the form “named entity - name�

Claims (16)

1. Способ автоматизированной семантической индексации текста на естественном языке, содержащий этапы, на которых:1. A method of automated semantic indexing of text in a natural language, containing stages in which: представляют индексируемый текст в электронной форме для последующей автоматической и (или) автоматизированной обработки;submit indexed text in electronic form for subsequent automatic and (or) automated processing; сегментируют текст в электронной форме на элементарные единицы, именуемые далее токенами;segment text in electronic form into elementary units, hereinafter referred to as tokens; выявляют в тексте, в процессе лингвистического анализа, устойчивые словосочетания;identify in the text, in the process of linguistic analysis, stable phrases; формируют предложения, соответствующие участкам текста;form sentences corresponding to sections of the text; выявляют в каждом предложении с выявленными словосочетаниями, в процессе многоступенчатого семантико-синтаксического анализа с помощью обращения к сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде, именуемым далее правилами, семантически значимые объекты, именуемые далее именованными сущностями, и семантически значимые отношения между именованными сущностями, именуемые далее именованными отношениями;identify in each sentence with identified phrases, in the process of multi-stage semantic-syntactic analysis by using the linguistic and heuristic rules generated in the database in a predefined linguistic environment, hereinafter referred to as rules, semantically significant objects, hereinafter referred to as named entities, and semantically significant relations between named entities, hereinafter referred to as named relationships; формируют в пределах индексируемого текста для каждого из выявленных именованных отношений, связывающих определенные именованные сущности, множество триад, причем единственная триада первого типа соответствует связи, устанавливаемой именованным отношением между двумя именованными сущностями, каждая из триад второго типа соответствует значению конкретного атрибута одной из этих сущностей, а каждая из триад третьего типа соответствует значению конкретного атрибута самого именованного отношения;form within the indexed text for each of the identified named relationships that bind certain named entities, many triads, and the only triad of the first type corresponds to the relationship established by the named relationship between two named entities, each of the triads of the second type corresponds to the value of a specific attribute of one of these entities, and each of the triads of the third type corresponds to the value of a specific attribute of the named relationship itself; индексируют на множестве сформированных триад все связанные именованными отношениями именованные объекты по отдельности, все пары вида «именованная сущность - именованное отношение» и все триады вида «именованная сущность - именованное отношение - именованная сущность» с учетом атрибутов соответствующих именованных сущностей и (или) именованных отношений;on a set of triads formed, all named objects connected separately by named relations, all pairs of the type “named entity - named relation” and all triads of the type “named entity - named relation - named entity” are indexed, taking into account the attributes of the corresponding named entities and (or) named relations ; сохраняют в базе данных сформированные триады и полученные индексы вместе со ссылкой на исходный текст, из которого сформированы эти триады.save the generated triads and the resulting indices in the database together with a link to the source text from which these triads are formed. 2. Способ по п.1, в котором упомянутые токены, именуемые далее элементарными единицами первого уровня, выбирают из группы, состоящей из слов в виде последовательностей букв или букв и дефисов, чисел, знаков препинания и последовательностей пробелов.2. The method according to claim 1, in which the aforementioned tokens, hereinafter referred to as elementary units of the first level, are selected from the group consisting of words in the form of sequences of letters or letters and hyphens, numbers, punctuation marks and sequences of spaces. 3. Способ по п.1, в котором формируют для каждого токена, представляющего собой слово, на основе морфологического анализа соответствующие элементарные единицы второго уровня, именуемые далее морфами.3. The method according to claim 1, in which corresponding elementary units of the second level, hereinafter referred to as morphs, are formed for each token representing a word, based on morphological analysis. 4. Способ по п.1, в котором в процессе упомянутого лингвистического анализа при формировании словосочетаний преобразуют в каждом предложении последовательности элементарных единиц первого и (или) второго уровней (т.е. токенов и морфов) с помощью обращения к сохраненным в базе данных словарям и морфологическим связям в упомянутые словосочетания, именуемые далее элементарными единицами третьего уровня.4. The method according to claim 1, in which, in the process of the mentioned linguistic analysis, when forming phrases, sequences of elementary units of the first and (or) second levels (ie tokens and morphs) are transformed in each sentence by accessing dictionaries stored in the database and morphological relationships in the mentioned phrases, hereinafter referred to as elementary units of the third level. 5. Способ по п.1, в котором в процессе упомянутого многоступенчатого семантико-синтаксического анализа выполняют этапы, на которых:5. The method according to claim 1, in which in the process of the aforementioned multi-stage semantic-syntactic analysis, the steps are performed in which: упомянутые именованные объекты, считающиеся элементарными единицами четвертого уровня, выявляют в предложении на множестве элементарных единиц первого, второго и (или) третьего уровней;said named objects, considered to be elementary units of the fourth level, are identified in the sentence on the set of elementary units of the first, second and (or) third levels; формируют с помощью упомянутых правил для каждой именованной сущности морфологические атрибуты из морфологических атрибутов элементарных единиц второго и (или) третьего уровней, составляющих данную именованную сущность;form using the above-mentioned rules for each named entity morphological attributes from the morphological attributes of elementary units of the second and (or) third levels that make up this named entity; формируют с помощью упомянутых правил для каждой именованной сущности семантические атрибуты из атрибутов элементарных единиц второго и (или) третьего уровней, составляющих данную именованную сущность;form using the above-mentioned rules for each named entity semantic attributes from the attributes of elementary units of the second and (or) third levels that make up this named entity; присваивают каждой именованной сущности соответствующий тип из хранящейся в базе данных предметной онтологии по тематике каждой предметной области, к которой относится индексируемый текст;assign to each named entity the corresponding type from the subject ontology stored in the database on the subject of each subject area to which the indexed text belongs; сохраняют в памяти каждую именованную сущность вместе с присвоенным ей типом и найденными для нее морфологическими и семантическими атрибутами.they store in memory each named entity together with the type assigned to it and the morphological and semantic attributes found for it. 6. Способ по п.5, в котором находят для каждой именованной сущности с присвоенным ей типом соответствующую анафорическую ссылку, считающуюся элементарной единицей пятого уровня, и запоминают ее в базе данных вместе с типом и атрибутами именованной сущности, являющейся антецедентом данной анафорической ссылки, и с указанием тождества по референции между этой именованной сущностью и ее анафорической ссылкой;6. The method according to claim 5, in which, for each named entity with the type assigned to it, the corresponding anaphore link is considered to be an elementary unit of the fifth level, and it is stored in the database along with the type and attributes of the named entity, which is the antecedent of this anaphore link indicating the identity by reference between this named entity and its anaphoric reference; упомянутые именованные отношения, считающиеся элементарными единицами шестого уровня, находят с помощью упомянутых правил на основе элементарных единиц первого, второго, третьего, четвертого и (или) пятого уровней;said named relations, considered to be elementary units of the sixth level, are found using said rules on the basis of elementary units of the first, second, third, fourth and (or) fifth levels; находят с помощью упомянутых правил для каждого именованного отношения морфологические атрибуты из составляющих данное именованное отношение элементарных единиц второго уровня;using the above-mentioned rules, find morphological attributes from the components of the given named relation of elementary units of the second level for each named relation; находят с помощью упомянутых правил для каждого именованного отношения семантические атрибуты из элементарных единиц первого, второго, третьего и (или) четвертого уровней;using the above-mentioned rules, they find semantic attributes from elementary units of the first, second, third and (or) fourth levels for each named relation; присваивают каждому именованному отношению соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится индексируемый текст;assign to each named relation the corresponding type from the subject ontology stored in the database on the subject of the subject area to which the indexed text belongs; сохраняют в памяти каждое именованное отношение вместе с присвоенным ему типом и найденными для него морфологическими и семантическими атрибутами.each named relation is stored in memory together with the type assigned to it and the morphological and semantic attributes found for it. 7. Способ по п.1, в котором перед сохранением в базе данных сформированных триад и полученных индексов осуществляют свертку каждой группы объектов, связанных отношениями тождества по референции, в единый объект, множество атрибутов которого является объединением атрибутов объектов данной группы, связанных отношениями тождества по референции.7. The method according to claim 1, in which before storing the generated triads and obtained indices in the database, each group of objects related by the relations of identity by reference is convolved into a single object, the set of attributes of which is a combination of attributes of objects of this group connected by identity relations by reference. 8. Способ автоматизированной семантической индексации коллекции текстов на естественном языке, содержащий все этапы способа по п.1 в применении к очередному индексируемому тексту, после чего при запоминании в базе данных сформированных триад и полученных индексов очередного текста осуществляют сравнение, с помощью сформированных в базе данных лингвистических и эвристических правил в заранее заданной лингвистической среде, вновь выявленных именованных объектов и именованных отношений с уже имеющимися в базе данных именованными объектами и именованными отношениями и, в случае идентификации одинаковых именованных объектов и (или) именованных отношений, дублирующую информацию в базе данных не запоминают, а к соответствующим именованным объектам и (или) именованным отношениям добавляют ссылки на очередные тексты, в которых они присутствуют, и ссылки на текстовые фрагменты в пределах каждого из очередных текстов, из которых они выделены.8. A method for automated semantic indexing of a collection of texts in natural language, containing all the steps of the method according to claim 1 as applied to the next indexed text, after which, when the generated triads and the obtained indices of the next text are stored in the database, they are compared using the ones generated in the database linguistic and heuristic rules in a predefined linguistic environment, newly identified named objects and named relations with named objects already in the database by named relations and, if identical named objects and (or) named relations are identified, duplicate information is not stored in the database, and links to the next texts in which they are present are added to the corresponding named objects and (or) named relations, and links to text fragments within each of the next texts from which they are selected. 9. Способ по п.8, в котором упомянутые токены, именуемые далее элементарными единицами первого уровня, выбирают из группы состоящей из слов в виде последовательностей букв или букв и дефисов, чисел, знаков препинания и последовательностей пробелов.9. The method of claim 8, in which the aforementioned tokens, hereinafter referred to as elementary units of the first level, are selected from the group consisting of words in the form of sequences of letters or letters and hyphens, numbers, punctuation marks and sequences of spaces. 10. Способ по п.8, в котором формируют для каждого токена, представляющего собой слово, на основе морфологического анализа соответствующие элементарные единицы второго уровня, именуемые далее морфами.10. The method of claim 8, in which the corresponding elementary units of the second level, hereinafter referred to as morphs, are formed for each token representing a word, based on morphological analysis. 11. Способ по п.8, в котором в процессе упомянутого лингвистического анализа при формировании словосочетаний преобразуют в каждом предложении последовательности элементарных единиц первого и (или) второго уровней (т.е. токенов и морфов) с помощью обращения к сохраненным в базе данных словарям и морфологическим связям в упомянутые словосочетания, именуемые далее элементарными единицами третьего уровня.11. The method according to claim 8, in which, in the process of said linguistic analysis, when generating phrases, sequences of elementary units of the first and (or) second levels (ie, tokens and morphs) are transformed in each sentence by accessing dictionaries stored in the database and morphological relationships in the mentioned phrases, hereinafter referred to as elementary units of the third level. 12. Способ по п.8, в котором в процессе упомянутого многоступенчатого семантико-синтаксического анализа выполняют этапы, на которых:12. The method according to claim 8, in which in the process of the aforementioned multi-stage semantic-syntactic analysis, the steps are performed in which: упомянутые именованные объекты, считающиеся элементарными единицами четвертого уровня, выявляют в предложении на множестве элементарных единиц первого, второго и (или) третьего уровней;said named objects, considered to be elementary units of the fourth level, are identified in the sentence on the set of elementary units of the first, second and (or) third levels; формируют с помощью упомянутых правил для каждой именованной сущности морфологические атрибуты из морфологических атрибутов элементарных единиц второго и (или) третьего уровней, составляющих данную именованную сущность;form using the above-mentioned rules for each named entity morphological attributes from the morphological attributes of elementary units of the second and (or) third levels that make up this named entity; формируют с помощью упомянутых правил для каждой именованной сущности семантические атрибуты из атрибутов элементарных единиц второго и (или) третьего уровней, составляющих данную именованную сущность;form using the above-mentioned rules for each named entity semantic attributes from the attributes of elementary units of the second and (or) third levels that make up this named entity; присваивают каждой именованной сущности соответствующий тип из хранящейся в базе данных предметной онтологии по тематике каждой предметной области, к которой относится индексируемый текст;assign to each named entity the corresponding type from the subject ontology stored in the database on the subject of each subject area to which the indexed text belongs; сохраняют в памяти каждую именованную сущность вместе с присвоенным ей типом и найденными для нее морфологическими и семантическими атрибутами.they store in memory each named entity together with the type assigned to it and the morphological and semantic attributes found for it. 13. Способ по п.12, в котором находят для каждой именованной сущности с присвоенным ей типом соответствующую анафорическую ссылку, считающуюся элементарной единицей пятого уровня, и сохраняют ее в базе данных вместе с типом и атрибутами именованной сущности, являющейся антецедентом данной анафорической ссылки, и с указанием тождества по референции между этой именованной сущностью и ее анафорической ссылкой;13. The method according to p. 12, in which for each named entity with the assigned type the corresponding anaphore link is considered to be an elementary unit of the fifth level, and it is stored in the database along with the type and attributes of the named entity, which is the antecedent of this anaphore link indicating the identity by reference between this named entity and its anaphoric reference; упомянутые именованные отношения, считающиеся элементарными единицами шестого уровня, находят с помощью упомянутых правил на основе элементарных единиц первого, второго, третьего, четвертого и (или) пятого уровней;said named relations, considered to be elementary units of the sixth level, are found using said rules on the basis of elementary units of the first, second, third, fourth and (or) fifth levels; находят с помощью упомянутых правил для каждого именованного отношения морфологические атрибуты из составляющих данное именованное отношение элементарных единиц второго уровня;using the above-mentioned rules, find morphological attributes from the components of the given named relation of elementary units of the second level for each named relation; находят с помощью упомянутых правил для каждого именованного отношения семантические атрибуты из элементарных единиц первого, второго, третьего и (или) четвертого уровней;using the above-mentioned rules, they find semantic attributes from elementary units of the first, second, third and (or) fourth levels for each named relation; присваивают каждому именованному отношению соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится индексируемый текст;assign to each named relation the corresponding type from the subject ontology stored in the database on the subject of the subject area to which the indexed text belongs; сохраняют в памяти каждое именованное отношение вместе с присвоенным ему типом и найденными для него морфологическими и семантическими атрибутами.each named relation is stored in memory together with the type assigned to it and the morphological and semantic attributes found for it. 14. Способ по п.8, в котором перед сохранением в базе данных сформированных триад и полученных индексов осуществляют свертку каждой группы объектов, связанных отношениями тождества по референции, в единый объект, множество атрибутов которого является объединением атрибутов объектов данной группы, связанных отношениями тождества по референции.14. The method according to claim 8, in which before storing the generated triads and the resulting indices in the database, each group of objects connected by the relations of identity by reference is convolved into a single object, the set of attributes of which is a combination of attributes of objects of this group connected by identity relations by reference. 15. Машиночитаемый носитель, предназначенный для непосредственного участия в работе компьютера и содержащий программу для осуществления способа по п.1.15. Machine-readable medium intended for direct participation in the computer and containing a program for implementing the method according to claim 1. 16. Машиночитаемый носитель, предназначенный для непосредственного участия в работе компьютера и содержащий программу для осуществления способа по п.8. 16. Machine-readable medium intended for direct participation in the computer and containing a program for implementing the method of claim 8.
RU2008142648/12A 2008-10-29 2008-10-29 Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media RU2399959C2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
RU2008142648/12A RU2399959C2 (en) 2008-10-29 2008-10-29 Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media
EP09823885A EP2350871A1 (en) 2008-10-29 2009-03-06 Method of computerized semantic indexing of natural language text, method of computerized semantic indexing of collection of natural language texts, and machine-readable media
PCT/RU2009/000111 WO2010050844A1 (en) 2008-10-29 2009-03-06 Method of computerized semantic indexing of natural language text, method of computerized semantic indexing of collection of natural language texts, and machine-readable media

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2008142648/12A RU2399959C2 (en) 2008-10-29 2008-10-29 Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media

Publications (2)

Publication Number Publication Date
RU2008142648A true RU2008142648A (en) 2010-05-10
RU2399959C2 RU2399959C2 (en) 2010-09-20

Family

ID=42129031

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2008142648/12A RU2399959C2 (en) 2008-10-29 2008-10-29 Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media

Country Status (3)

Country Link
EP (1) EP2350871A1 (en)
RU (1) RU2399959C2 (en)
WO (1) WO2010050844A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014104943A1 (en) * 2012-12-27 2014-07-03 Abbyy Development Llc Finding an appropriate meaning of an entry in a text
US9772995B2 (en) 2012-12-27 2017-09-26 Abbyy Development Llc Finding an appropriate meaning of an entry in a text

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2452002C1 (en) * 2011-03-04 2012-05-27 Сергей Иванович Колесник Method of creating multilingual automatic index for electronic digital pilot book
US9552352B2 (en) * 2011-11-10 2017-01-24 Microsoft Technology Licensing, Llc Enrichment of named entities in documents via contextual attribute ranking
US8997008B2 (en) 2012-07-17 2015-03-31 Pelicans Networks Ltd. System and method for searching through a graphic user interface
RU2518946C1 (en) * 2012-11-27 2014-06-10 Александр Александрович Харламов Method for automatic semantic indexing of natural language text
RU2538303C1 (en) * 2013-08-07 2015-01-10 Александр Александрович Харламов Method for automatic semantic comparison of natural language texts
RU2538304C1 (en) * 2013-08-22 2015-01-10 Александр Александрович Харламов Method for automatic semantic classification of natural language texts
RU2565473C2 (en) * 2013-11-01 2015-10-20 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Российский государственный гуманитарный университет" (РГГУ) Method of constructing corpus based on internet forums
RU2665239C2 (en) * 2014-01-15 2018-08-28 Общество с ограниченной ответственностью "Аби Продакшн" Named entities from the text automatic extraction
RU2544739C1 (en) * 2014-03-25 2015-03-20 Игорь Петрович Рогачев Method to transform structured data array
EA201700031A1 (en) * 2014-06-27 2017-05-31 Игорь Петрович РОГАЧЕВ METHOD first converting the original data files, METHOD FOR FORMING RELATIONSHIPS MAP components often STRUCTURED logical constructions convert the original data files, a method of searching in the transformed data sets using the card RELATIONS components and systems and apparatus for implementing these methods
RU2618374C1 (en) * 2015-11-05 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Identifying collocations in the texts in natural language
CN107402912B (en) * 2016-05-19 2019-12-31 北京京东尚科信息技术有限公司 Method and device for analyzing semantics
RU2619193C1 (en) * 2016-06-17 2017-05-12 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Multi stage recognition of the represent essentials in texts on the natural language on the basis of morphological and semantic signs
RU2646386C1 (en) * 2016-12-07 2018-03-02 Общество с ограниченной ответственностью "Аби Продакшн" Extraction of information using alternative variants of semantic-syntactic analysis
CN106933809A (en) * 2017-03-27 2017-07-07 三角兽(北京)科技有限公司 Information processor and information processing method
CN107203511B (en) * 2017-05-27 2020-07-17 中国矿业大学 Network text named entity identification method based on neural network probability disambiguation
RU2713568C1 (en) * 2019-11-10 2020-02-05 Игорь Петрович Рогачев Method of transforming structured data array
RU2717718C1 (en) * 2019-11-10 2020-03-25 Игорь Петрович Рогачев Method of transforming a structured data array containing simple judgments
RU2717719C1 (en) * 2019-11-10 2020-03-25 Игорь Петрович Рогачев Method of forming a data structure containing simple judgments

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
RU2273879C2 (en) * 2002-05-28 2006-04-10 Владимир Владимирович Насыпный Method for synthesis of self-teaching system for extracting knowledge from text documents for search engines
US7305336B2 (en) * 2002-08-30 2007-12-04 Fuji Xerox Co., Ltd. System and method for summarization combining natural language generation with structural analysis
US7346493B2 (en) * 2003-03-25 2008-03-18 Microsoft Corporation Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system
US20070073533A1 (en) * 2005-09-23 2007-03-29 Fuji Xerox Co., Ltd. Systems and methods for structural indexing of natural language text

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014104943A1 (en) * 2012-12-27 2014-07-03 Abbyy Development Llc Finding an appropriate meaning of an entry in a text
US9772995B2 (en) 2012-12-27 2017-09-26 Abbyy Development Llc Finding an appropriate meaning of an entry in a text

Also Published As

Publication number Publication date
RU2399959C2 (en) 2010-09-20
EP2350871A1 (en) 2011-08-03
WO2010050844A1 (en) 2010-05-06

Similar Documents

Publication Publication Date Title
RU2008142648A (en) METHOD FOR AUTOMATED SEMANTIC TEXT INDEXATION IN NATURAL LANGUAGE, METHOD FOR AUTOMATED SEMANTIC TEXT INDEXATION IN NATURAL LANGUAGE AND MACHINE READABLE WEAR
Wen et al. Emotion classification in microblog texts using class sequential rules
CN104636466B (en) Entity attribute extraction method and system for open webpage
Ghiasvand et al. UWM: Disorder mention extraction from clinical text using CRFs and normalization using learned edit distance patterns
Khattak et al. A survey on sentiment analysis in Urdu: A resource-poor language
Bjarnadóttir The database of modern Icelandic inflection (Beygingarlýsing íslensks nútímamáls)
CN107357777B (en) Method and device for extracting label information
Ljubešić et al. Predicting the level of text standardness in user-generated content
Do et al. Korean twitter emotion classification using automatically built emotion lexicons and fine-grained features
Srinivasan et al. Segmenting web-domains and hashtags using length specific models
Ghosh et al. A rule based extractive text summarization technique for Bangla news documents
Alegria et al. TweetNorm: a benchmark for lexical normalization of Spanish tweets
Hämäläinen et al. Revisiting NMT for normalization of early English letters
JP2014219872A (en) Utterance selecting device, method and program, and dialog device and method
Fischbach et al. Fine-grained causality extraction from natural language requirements using recursive neural tensor networks
Jariwala Optimal feature extraction based machine learning approach for sarcasm type detection in news headlines
Peng et al. Research on tree kernel-based personal relation extraction
Hulden et al. Boosting statistical tagger accuracy with simple rule-based grammars.
Vandeghinste et al. METIS-II: machine translation for low resource languages
Patel et al. Influence of Gujarati STEmmeR in supervised learning of web page categorization
Karmani et al. Building a standardized Wordnet in the ISO LMF for aeb language
Dhanjal et al. Gravity based Punjabi question answering system
Naemi et al. Informal-to-formal word conversion for persian language using natural language processing techniques
Han et al. unimelb: Spanish Text Normalisation.
Goethals et al. SCAP-TT

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20110324

MM4A The patent is invalid due to non-payment of fees

Effective date: 20121030

NF4A Reinstatement of patent

Effective date: 20150220

MM4A The patent is invalid due to non-payment of fees

Effective date: 20161030