RU2004131643A - Способ синтеза сомообучающейся системы извлечения знаний из текстовых документов для поисковых систем - Google Patents
Способ синтеза сомообучающейся системы извлечения знаний из текстовых документов для поисковых систем Download PDFInfo
- Publication number
- RU2004131643A RU2004131643A RU2004131643/09A RU2004131643A RU2004131643A RU 2004131643 A RU2004131643 A RU 2004131643A RU 2004131643/09 A RU2004131643/09 A RU 2004131643/09A RU 2004131643 A RU2004131643 A RU 2004131643A RU 2004131643 A RU2004131643 A RU 2004131643A
- Authority
- RU
- Russia
- Prior art keywords
- text
- stochastically indexed
- given
- stochastic
- word
- Prior art date
Links
Landscapes
- Machine Translation (AREA)
Claims (20)
1. Способ синтеза самообучающейся системы извлечения знаний на заданном языке из текстовых документов поисковых систем, при котором: обеспечивают механизм самообучения в виде стохастически индексированной системы искусственного интеллекта, основанной на применении уникальных комбинаций двоичных сигналов стохастических индексов информации, обеспечивают автоматическое обучение системы правилам грамматического и семантического анализа путем применения эквивалентных преобразований стохастически индексированных фрагментов текста, логического вывода и формирования из них связанных семантических структур и стохастического индексирования для представления в формате правил продукций, производят морфологический анализ и стохастическое индексирование лингвистических текстов в электронном виде с одновременным автоматическим обучением системы правилам морфологического анализа, производят морфологический и синтаксический анализ, а также стохастическое индексирование текстовых документов по заданной теме в электронном виде на заданном языке с одновременным автоматическим обучением системы правилам синтаксического анализа, производят семантический анализ стохастически индексированных текстовых документов по заданной теме в электронном виде с одновременным автоматическим обучением системы правилам семантического анализа, формируют запрос пользователя на естественном заданном языке и представляют его в электроном виде после стохастического индексирования в форме вопросительного предложения, преобразуют запрос пользователя в стохастически индексированном виде во множество новых запросов, эквивалентных исходному запросу, в соответствии с запросом пользователя осуществляют предварительный выбор стохастически индексированных фрагментов текстовых документов в электронном виде, содержащих в совокупности все словосочетания преобразованного запроса, формируют стохастически индексированную семантическую структуру с использованием указанных фрагментов текстовых документов, на основе указанной структуры с помощью логического вывода, обеспечивающего связь стохастически индексированных элементов различных текстов, и эквивалентного преобразования текста формируют краткий ответ системы, проверяют релевантность полученного краткого ответа системы запросу путем формирования на его основе вопросительного предложения, сравнения полученного вопросительного предложения с запросом, при идентичности полученного вопросительного предложения и запроса принимают решение о релевантности краткого ответа системы запросу и представляют его на заданном языке.
2. Способ синтеза самообучающейся системы извлечения знаний на любом из заданных иностранных языках из текстовых документов поисковых систем, при котором: обеспечивают механизм самообучения в виде стохастически индексированной системы искусственного интеллекта, основанной на применении уникальных комбинаций двоичных сигналов стохастических индексов информации для стохастической индексации и поиска фрагментов лингвистических текстов на заданном базовом языке, содержащих описание процедур грамматического и семантического анализа, и автоматического обучения системы правилам грамматического и семантического анализа путем эквивалентных преобразований стохастически индексированных фрагментов текста, логического вывода и формирования из них связанных семантических структур, их стохастического индексирования для представления в формате правил продукций, производят морфологический анализ и стохастическое индексирование лингвистических текстов на заданном базовом языке в электронном виде с одновременным автоматическим обучением системы правилам морфологического анализа, формированием базы данных стохастически индексированных словарей и формированием таблиц индексов лингвистических текстов для каждого из заданных иностранных языков, а также базы знаний морфологического анализа, содержащей полученные правила продукций для заданного базового языка и каждого из заданных иностранных языков, производят морфологический и синтаксический анализ, а также стохастическое индексирование текстовых документов по заданной теме на каждом из заданных иностранных языков в электронном виде из поисковой системы с представлением их в виде таблиц индексов текстовых документов по заданной теме и записью в базы стохастически индексированных текстов с одновременным автоматическим обучением системы правилам синтаксического анализа с использованием стохастически индексированных лингвистических текстов на заданном базовом языке и формированием базы знаний синтаксического анализа для базового языка и каждого из заданных иностранных языков, производят семантический анализ стохастически индексированных текстовых документов по заданной теме на заданном базовом языке в электронном виде с одновременным автоматическим обучением системы правилам семантического анализа и формированием базы знаний семантического анализа для базового языка и каждого из заданных иностранных языков, формируют запрос пользователя на естественном заданном иностранном языке и представляют его в электроном виде после стохастического индексирования в форме вопросительного предложения, включающего вопросительное словосочетание и словосочетания, которые определяют семантику запроса, преобразуют запрос пользователя в стохастически индексированном виде во множество новых запросов, эквивалентных исходному запросу на заданном иностранном языке, в соответствии с запросом пользователя осуществляют предварительный выбор стохастически индексированных фрагментов текстовых документов на заданном иностранном языке в электронном виде, содержащих в совокупности все словосочетания преобразованного запроса, формируют стохастически индексированную семантическую структуру на основе указанных фрагментов текстовых документов, на основе сформированной стохастически индексированной семантической структуры с помощью логического вывода, обеспечивающего связь стохастически индексированных элементов различных текстов, и эквивалентного преобразования текста формируют краткий ответ системы, содержащий словосочетания в стохастически индексированном виде, которые определяют семантику запроса, а также группу слов ответа, соответствующую вопросительному словосочетанию запроса, проверяют релевантность полученного краткого ответа системы запросу путем замены группы слов ответа на соответствующее вопросительное словосочетание в стохастически индексированном виде, получения стохастически индексированного вопросительного предложения, сравнения полученного вопросительного предложения с запросом и при идентичности полученного вопросительного предложения и запроса принимают решение о релевантности краткого ответа системы запросу и представляют его на заданном иностранном языке.
3. Способ по п.1, отличающийся тем, что при неудачной попытке сформировать вопросительное предложение, идентичное запросу пользователя, запрашивают новые текстовые документы из поисковой системы для поиска ответа, релевантного запросу пользователя,
4. Способ по п.1, отличающийся тем, что дополнительно по запросу пользователя формируют полный ответ, содержащий более подробную информацию или совокупность конкретных знаний, при этом используют логический вывод для образования стохастически индексированной семантической структуры и необходимые эквивалентные преобразования указанной совокупности фрагментов текстов для получения стохастически индексированного нового текста, раскрывающего с возможной детализацией содержание полученного ранее краткого ответа.
5. Способ по п.1, отличающийся тем, что автоматическое обучение системы правилам морфологического анализа производят путем выделения в стохастически индексируемом тексте определенного набора словоформ каждого слова, получения стохастических индексов основы слова и заданного набора его окончаний или предлогов, произвольного доступа по указанным индексам к стохастически индексированным лингвистическим текстам, выделения из них фрагментов, связывающих указанный набор окончаний слова или предлогов с соответствующей данному слову частью речи, а также с полным набором окончаний или предлогов, получаемых при склонении или спряжении, преобразования данных фрагментов в формат правил продукций путем их стохастического индексирования, обеспечивая при этом корректность каждого правила путем независимого его формирования на основе нескольких фрагментов из соответствующих лингвистических текстов, и получения таблицы индексов правил продукций для базы знаний морфологического анализа.
6. Способ по п.5, отличающийся тем, что при стохастическом индексировании лингвистических текстов после определения части речи каждого слова с помощью правил базы знаний морфологического анализа заполняют базу данных стохастически индексированного словаря стохастическими индексами основы каждого очередного слова и полного набора его окончаний или предлогов.
7. Способ по п.6, отличающийся тем, что для формирования таблиц индексов текстов осуществляют стохастическое преобразование информации и получение уникальных двоичных комбинаций индексов основ слов, их окончаний, предлогов, предложений, абзацев и названий текстов, которые помещают в таблицы индексов базы стохастически индексированных текстов с обеспечением связности между указанными индексами, определенной в исходном тексте и обеспечивающей его восстановление по таблице индекса.
8. Способ по п.1, отличающийся тем, что автоматическое обучение системы правилам синтаксического анализа осуществляют путем поиска в стохастически индексированных лингвистических текстах фрагментов, описывающих порядок синтаксического разбора предложений, при этом реализуется логический вывод для получения стохастически индексированной семантической структуры, определяющей связь синтаксических элементов и структур с заданными частями речи слов, и формирования правил продукций, определяющих синтаксический разбор предложений по морфологическим характеристикам слов, обеспечивая при этом корректность каждого правила путем независимого его формирования на основе нескольких фрагментов из соответствующих лингвистических текстов, полученные правила заносят в базу знаний синтаксического анализа, по мере заполнения которой осуществляют ее стохастическое индексирование и представление в виде таблицы индексов.
9. Способ по п.1, отличающийся тем, что автоматическое обучение системы правилам семантического анализа текста осуществляют путем формирования запроса к таблицам индексов лингвистических текстов по стохастическим индексам основ слов и частей речи, не точно определенных членов предложения, и получения ответа в виде фрагмента текста, описывающего семантические характеристики, которыми должны обладать слова для их соответствия данному конкретному члену предложения, и по полученному ответу, используя стохастический индекс основы данного слова и требуемые семантические характеристики, обращаются к таблицам индексов толковых словарей и энциклопедий общего и тематического назначения, при этом с помощью логического вывода делают попытку образовать стохастически индексированную семантическую структуру, связывающую данное слово и требуемые семантические характеристики, в положительном случае считают, что указанный член предложения определен точно, а фрагмент текста, релевантный запросу, преобразуют в правило продукций, обеспечивая при этом корректность каждого правила путем независимого его формирования на основе нескольких фрагментов из соответствующих лингвистических текстов, которое включают в базу знаний семантического анализа, стохастически индексируют данную базу, представляют в виде таблицы индексов и применяют при семантическом анализе слов, как членов предложения, и отношений между словами, выраженных словосочетаниями.
10. Способ по п.9, отличающийся тем, что после образования таблицы индексов каждого текста и завершения его морфологического, синтаксического и семантического анализа формируют стохастические индексы наименований частей речи, членов предложения и вопросов к ним, которые соответствуют каждому слову в составе предложений, и записывают указанные индексы в ячейки таблицы индексов данного текста, что позволяет при поиске фрагментов текста автоматически определять, к какой части речи, члену предложения относится каждое слово, и формировать вопросы к нему.
11. Способ по п.10, отличающийся тем, что после получения всех таблиц индексов текстов формируют таблицу индексов текстов по данной теме, строки которой поименованы неповторяющимися стохастическими индексами основ слов, а каждый столбец соответствует стохастическому индексу конкретного текста, при этом в ячейки таблицы записывают стохастические индексы абзацев, в которых в данном тексте содержится слово с соответствующим индексом основы, полученную таблицу индексов по данной теме применяют для предварительного поиска фрагментов, содержащих определенную совокупность словосочетаний запроса.
12. Способ по п.11, отличающийся тем, что эквивалентные преобразования исходного запроса пользователя осуществляют с использованием синонимов, близких по смыслу слов, а также замены частей речи и членов предложения с сохранением смыслового содержания исходного запроса на основе применения стохастически индексированных правил морфологического, синтаксического и семантического анализа для получения эквивалентных структур словосочетаний вопросительного предложения запроса и сохранения семантической связи между ними.
13. Способ по п.12, отличающийся тем, что совокупность семантически связанных фрагментов текста, содержащих все слова запроса пользователя, формируют путем обращения по стохастическим индексам указанных основ слов к таблице индексов текстов по заданной теме, выбора стохастических индексов абзацев и соответствующих им текстов, содержащих в совокупности все словосочетания запроса, обращения по указанным индексам к таблице индексов каждого из выбранных текстов, логического вывода по таблицам индексов и эквивалентных преобразований текстов для образования стохастически индексированной семантической структуры, связывающей индексы группы слов ответа, соответствующего вопросительному словосочетанию запроса, а также все словосочетания запроса, определяющие семантику запроса и входящие в предварительно выбранные абзацы.
14. Способ по п.13, отличающийся тем, что успешно сформированная в процессе логического вывода стохастически индексированная семантическая структура, соответствующая запросу пользователя, принимается в качестве основы для формирования с использованием полученной совокупности фрагментов текста вопросительного предложения, идентичного запросу пользователя, которое образуют путем эквивалентного преобразования стохастических индексов основ слов запроса и их окончаний с помощью правил баз знаний для обеспечения требуемых семантических характеристик каждого словосочетания текстового фрагмента, входящего в состав запроса, а также с использованием логического вывода на транзитивных зависимостях между словосочетниями для объединения их в единое вопросительное предложение, идентичное запросу пользователя, которое содержит группу слов ответа, соответствующую вопросительному словосочетанию запроса.
15. Способ по п.14, отличающийся тем, что корректность краткого ответа обеспечивают путем формирования нескольких идентичных стохастически индексированных семантических структур упомянутого ответа на основе различных, предварительно выбранных стохастически индексированных фрагментов текстовых документов.
16. Способ по п.15, отличающийся тем, что в процессе поиска и формирования ответа с использованием таблиц индексов текстовых документов самообучение системы осуществляют путем формирования индексированных текстовых элементов, связывающих запрос и релевантный краткий ответ, для получения базы знаний, содержащей элементы типа “запрос – ответ”, которую стохастически индексируют, представляют в виде таблицы индексов и применяют при грамматическом и семантическом анализе предложений текста, а также при формировании ответов на повторяющиеся запросы пользователей, содержащиеся в указанной индексированной базе знаний.
17. Способ по п.16, отличающийся тем, что для формирования полного ответа, содержащего знания, релевантные запросу пользователя, на основе краткого ответа с помощью логического вывода по таблицам индексов, использованных при получении фрагмента текста, формируют стохастически индексированную семантическую структуру, связывающую группу слов ответа со стохастическими индексами основ слов предложений, поддерживающих транзитивную зависимость, обеспечивающую в своей совокупности полное раскрытие содержания краткого ответа в рамках сформированного фрагмента текста, затем с помощью эквивалентных преобразований предложений на основе указанной стохастически индексированной семантической структуры получают единый связанный текст полного ответа.
18. Способ по п.17, отличающийся тем, что эквивалентное преобразование стохастически индексированных фрагментов текста производят путем представления каждого предложения в виде совокупности стохастически индексированных словосочетаний, которые преобразуют с использования правил баз знаний морфологического, синтаксического и семантического анализа путем эквивалентного преобразования стохастических индексов основ однокоренных слов, их окончаний и предлогов для образования новых частей речи или членов предложения с обеспечением неизменности связи указанных словосочетаний в рамках стохастически индексированной семантической структуры каждого предложения и согласования указанных предложений между собой при образовании из них нового фрагмента текста.
19. Способ по п.18, отличающийся тем, что при появлении в процессе стохастического индексирования текстовых документов в индексируемом тексте нового слова, не содержащегося в словаре стохастически индексированных слов и в лингвистических текстах, находят в данном словаре однокоренное слово с указанным новым словом, а в базе знаний морфологического анализа находят правила для эквивалентного преобразования найденного в словаре однокоренного слова в новое слово, при этом по виду эквивалентного преобразования определяют часть речи, к которой относится новое слово и все его словоформы, получаемые при склонении или спряжении, а при отсутствии однокоренных слов в словаре выбирают из текста определенный набор словоформ нового слова, по предлогам или окончаниям которых с помощью стохастически индексированного словаря или правил продукций морфологического анализа определяют часть речи, к которой оно относится, и полный набор его словоформ, получаемых при склонении или спряжении.
20. Способ по п.19, отличающийся тем, что для одновременного извлечения знаний из текстовых документов на заданных иностранных языках сначала осуществляют автоматическое обучение системы правилам морфологического, синтаксического, семантического анализа для заданного базового языка, производят формирование базы стохастически индексированного словаря и баз знаний морфологического, синтаксического, семантического анализа с использованием стохастически индексированных лингвистических текстов на заданном базовом языке, с помощью сформированных баз осуществляют автоматическое формирование запросов для автоматического обучения системы любому из заданных иностранных языков, при этом производят предварительный выбор по автоматически сформированным запросам фрагментов лингвистических текстов на базовом языке, содержащих знания, необходимые для изучения заданного иностранного языка, эквивалентные преобразования указанных текстов, формирование стохастически индексируемых семантических структур и логический вывод на заданных структурах для формирования ответов, релевантных автоматическим запросам, которые используют для формирования баз знаний морфологического, синтаксического и семантического анализа для любого из заданных иностранных языков, обеспечивающих извлечение знаний из текстовых документов на заданном иностранном языке.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2004131643/09A RU2273879C2 (ru) | 2002-05-28 | 2002-05-28 | Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2004131643/09A RU2273879C2 (ru) | 2002-05-28 | 2002-05-28 | Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2004131643A true RU2004131643A (ru) | 2005-04-20 |
RU2273879C2 RU2273879C2 (ru) | 2006-04-10 |
Family
ID=35634772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2004131643/09A RU2273879C2 (ru) | 2002-05-28 | 2002-05-28 | Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2273879C2 (ru) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
RU2662699C2 (ru) * | 2014-01-23 | 2018-07-26 | Общество с ограниченной ответственностью "Аби Продакшн" | Исчерпывающая автоматическая обработка текстовой информации |
RU2618375C2 (ru) * | 2015-07-02 | 2017-05-03 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Расширение возможностей информационного поиска |
AU2008292781B2 (en) * | 2007-08-31 | 2012-08-09 | Microsoft Technology Licensing, Llc | Identification of semantic relationships within reported speech |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US7760562B2 (en) | 2008-03-13 | 2010-07-20 | Qualcomm Incorporated | Address multiplexing in pseudo-dual port memory |
US8812493B2 (en) | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
RU2399959C2 (ru) * | 2008-10-29 | 2010-09-20 | Закрытое акционерное общество "Авикомп Сервисез" | Способ автоматизированной обработки текста на естественном языке путем его семантической индексации, способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители |
US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
RU2459242C1 (ru) * | 2011-08-09 | 2012-08-20 | Олег Александрович Серебренников | Способ создания и использования рекурсивного индекса поисковых машин |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
RU2517428C2 (ru) * | 2012-06-13 | 2014-05-27 | Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Самарский государственный университет путей сообщения" (СамГУПС) | Способ формирования квазиструктурированных моделей фактографического информационного наполнения документов |
RU2549118C2 (ru) * | 2013-05-24 | 2015-04-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Итеративное пополнение электронного словника |
US10956433B2 (en) | 2013-07-15 | 2021-03-23 | Microsoft Technology Licensing, Llc | Performing an operation relative to tabular data based upon voice input |
RU2592395C2 (ru) * | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
RU2592396C1 (ru) * | 2015-02-03 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Способ и система для машинного извлечения и интерпретации текстовой информации |
RU2607976C1 (ru) * | 2015-08-19 | 2017-01-11 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Извлечение информации из структурированных документов, содержащих текст на естественном языке |
RU2632134C2 (ru) * | 2015-12-28 | 2017-10-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система обработки поисковых запросов |
RU2646386C1 (ru) * | 2016-12-07 | 2018-03-02 | Общество с ограниченной ответственностью "Аби Продакшн" | Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора |
RU2717719C1 (ru) * | 2019-11-10 | 2020-03-25 | Игорь Петрович Рогачев | Способ формирования структуры данных, содержащей простые суждения |
RU2717718C1 (ru) * | 2019-11-10 | 2020-03-25 | Игорь Петрович Рогачев | Способ преобразования структурированного массива данных, содержащего простые суждения |
-
2002
- 2002-05-28 RU RU2004131643/09A patent/RU2273879C2/ru not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
RU2273879C2 (ru) | 2006-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2004131643A (ru) | Способ синтеза сомообучающейся системы извлечения знаний из текстовых документов для поисковых систем | |
Tablan et al. | A natural language query interface to structured information | |
KR100546743B1 (ko) | 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템 | |
US20050071150A1 (en) | Method for synthesizing a self-learning system for extraction of knowledge from textual documents for use in search | |
US20040030540A1 (en) | Method and apparatus for language processing | |
Kate et al. | Conversion of natural language query to SQL query | |
Bashir et al. | Arabic natural language processing for Qur’anic research: a systematic review | |
Moini et al. | Do we need discipline-specific academic word lists? Linguistics academic word list (LAWL) | |
Stratica et al. | Using semantic templates for a natural language interface to the CINDI virtual library | |
KR20030006201A (ko) | 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템 | |
AlAgha | Using linguistic analysis to translate arabic natural language queries to SPARQL | |
Clementeena et al. | A literature survey on question answering system in natural language processing | |
KR100745367B1 (ko) | 템플릿에 기반한 기록정보 색인 및 검색 방법과 이를이용한 질의응답 시스템 | |
Litkowski | Question Answering Using XML-Tagged Documents. | |
Ahmad et al. | Efficient transformation of a natural language query to SQL for Urdu | |
Veronis | Error in natural language dialogue between man and machine | |
Singh | Interfaces to query relational databases in natural language | |
JP3176750B2 (ja) | 自然言語の翻訳装置 | |
Attard | Natural Language Processing Model for Maltese Syntax | |
Амирбекова et al. | SEMANTIC MARKUP IS ONE OF THE COMPONENTS OF THE NATIONAL LANGUAGE CORPUS | |
KOMAC et al. | SLOVENIAN LANGUAGE RESOURCES AT YOUR FINGERTIPS: FRAN, FRANČEK, THE TERMINOLOGIŠČE WEB PORTAL, AND THE LANGUAGE ADVISORY SERVICE | |
Hoque | Question Answering System Over Linked Data | |
Gearailt | Dictionary characteristics in cross-language information retrieval | |
Kadhem et al. | English to Arabic example-based machine translation system | |
Elmurodovna | APPLICATIONS OF COMPUTATIONAL LINGUISTICS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20160529 |