RU62263U1 - Система формирования семантических данных для поиска и анализа текстовых документов - Google Patents

Система формирования семантических данных для поиска и анализа текстовых документов Download PDF

Info

Publication number
RU62263U1
RU62263U1 RU2006144132/22U RU2006144132U RU62263U1 RU 62263 U1 RU62263 U1 RU 62263U1 RU 2006144132/22 U RU2006144132/22 U RU 2006144132/22U RU 2006144132 U RU2006144132 U RU 2006144132U RU 62263 U1 RU62263 U1 RU 62263U1
Authority
RU
Russia
Prior art keywords
semantic
found
documents
queries
module
Prior art date
Application number
RU2006144132/22U
Other languages
English (en)
Inventor
Михаил Григорьевич Крейнес
Александр Александрович Афонин
Original Assignee
Михаил Григорьевич Крейнес
Александр Александрович Афонин
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Михаил Григорьевич Крейнес, Александр Александрович Афонин filed Critical Михаил Григорьевич Крейнес
Priority to RU2006144132/22U priority Critical patent/RU62263U1/ru
Application granted granted Critical
Publication of RU62263U1 publication Critical patent/RU62263U1/ru

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Изобретение относится к области вычислительной техники, в частности, к системам формирования семантических данных для поиска и анализа текстовых документов. Техническим результатом является повышение точности семантического поиска и анализа текстовой информации путем формирования семантических данных для поиска и анализа текстовой информации, гарантирующих точный и воспроизводимый семантический и тематический анализ найденных текстов. Технический результат достигается тем, что система содержит модуль выборки семантических характеристик (запросов), соответствующих тексту-образцу, модуль выборки семантических характеристик (запросов), соответствующих найденному документу, первый и второй модули памяти, и модуль формирования семантических характеристик для количественного оценивания смысловой и тематической близости теста образца и найденных документов. 6 ил.

Description

Изобретение относится к области вычислительной техники, в частности, к системам формирования семантических данных для поиска и анализа текстовых документов.
Классическая задача информационного поиска, с которой и началось развитие этой области, - это поиск документов, удовлетворяющих запросу, в рамках некоторой статической (на момент выполнения поиска) коллекции документов. Например, эта задача решается в рамках большинства современных справочных систем, таких как справочная система по операционной системе Windows.
Однако за последние сорок лет исследований список актуальных задач информационного поиска значительно расширился и теперь включает вопросы семантического поиска и анализа текстов, моделирования, классификации и кластеризации документов, проектирования архитектур поисковых систем и пользовательских интерфейсов, языки запросов, и т.д.
Для эффективного решения этого широкого спектра задач информационного поиска традиционных подходов и методов оказывается недостаточно.
Особенность поставленной технической задачи заключается в формировании семантических данных для систем поиска текстовой информации, содержательно и тематически похожей на заданный пользователем образец, гарантирующих точный и воспроизводимый анализ найденных документов с целью получения количественных оценок их содержательного и тематического соответствия тексту образцу.
Для решения поставленной задачи должно выполняться формирование семантических данных, характеризующих смысловую и тематическую близость текста образца и найденных документов. Указанных данных должно быть достаточно для сравнения и количественного оценивания близости содержания текста образца и найденного документа.
Предлагаемое решение ориентировано на случай, когда по тексту образцу формируются лингвистические данные (с использованием системы формирования лингвистических данных для поиска и анализа текстовых документов [2]), для их последующего преобразования в семантические характеристики-запросы, используемые при поиске и анализе текстовой информации.
Аналогично, по найденным документам определяются их лингвистические данные [2] для их преобразования в подобные поисковым запросам семантические характеристики найденных документов. Последующий анализ соответствия образца и каждого найденного документа выполняется на основании семантических данных, получаемых в результате сравнения вышеуказанных семантических характеристик-запросов, соответствующих документу образцу и найденным документам.
Известны системы, которые могли бы быть использованы для решения поставленной задачи [1, 2].
Первая из известных систем содержит блоки приема и хранения запросов, соединенные с блоками управления и обработки данных, блоки поиска и селекции, подключенные к блокам хранения данных и отображения, синхронизирующие входы которых соединены с выходами блока управления, и использует принципы поиска по ключевым словам и метод human annotation [1]. В основе работы системы лежит метод сопоставления текстов и ряд других механизмов.
Существенный недостаток данной системы состоит в ее невысоком быстродействии, обусловленном длительными циклами поиска и анализа данных.
Известна и другая система, содержащая блок приема данных документа образца, информационный и синхронизирующий входы которого являются первыми информационным и синхронизирующими входами системы, блок приема данных о корпусе документов, информационный и синхронизирующий входы которого являются вторыми информационным и синхронизирующими входами системы, блок задания критерия выбора найденных документов, информационный и
синхронизирующий входы которого являются третьими информационным и синхронизирующими входами системы, блок передачи данных о корпусе документов, информационный выход которого является вторым информационным выходом системы, блок подсчета числа найденных документов, предназначенным для выдачи итоговых данных на табло отображения, блок приема данных найденных документов, информационный и синхронизирующий входы которого являются четвертыми информационным и синхронизирующими входами системы, а один информационный выход блока приема данных найденных документов является четвертым информационным выходом системы [2].
Недостаток известного технического решения состоит в том, что оно не обеспечивает получение точности поиска и анализа текстовой информации при непосредственном лингвистическом формировании по данным текстовых документов (текста-образца и найденных документов) данных для поиска и анализа информации.
Цель изобретения - повышение точности поиска и анализа текстовой информации путем реализации процедур формирования по семантическим характеристикам текстовых документов (текста-образца и найденных документов) множеств (точнее говоря - матриц) наборов семантических данных, точно, полно и воспроизводимо характеризующих семантическую и тематическую близость текстовых документов. Формируемые данные предназначены для точного и воспроизводимого количественного оценивания семантической и тематической близости текста-образца и найденных документов.
Поставленная цель достигается тем, в систему формирования семантических данных для поиска и анализа текстовых документов,
содержащую модуль выборки семантических характеристик (запросов), соответствующих тексту-образцу, информационный вход которого предназначен для приема запросов, составляющих анализируемые семантические характеристики текста-образца, и является первым информационным входом системы, синхронизирующий вход модуля выборки семантических характеристик (запросов), соответствующих тексту-образцу, предназначен для приема синхронизирующих сигналов занесения запросов, составляющих анализируемые семантические характеристики текста-образца, и является синхронизирующим входом системы, модуль выборки семантических характеристик (запросов), соответствующих найденному документу, информационный вход которого предназначен для приема запросов, составляющих анализируемые семантические характеристики найденных документов, и является вторым информационным входом системы, а один синхронизирующий вход модуля выборки семантических характеристик (запросов), соответствующих найденному документу, подключен к первому синхронизирующему входу системы, первый модуль памяти, информационный и синхронизирующий входы которого соединены с информационным и синхронизирующим выходами модуля выборки семантических характеристик (запросов), соответствующих тексту-образцу соответственно, и второй модуль памяти, информационный и синхронизирующий входы которого соединены с информационным и синхронизирующим выходами модуля выборки семантических характеристик (запросов), соответствующих найденному документу, соответственно, введен модуль формирования семантических данных для количественного оценивания смысловой и тематической
близости текста образца и найденных документов, управляющий вход которого является управляющим входом системы, предназначенным для задания числа I запросов, составляющих анализируемые семантические структуры текста образца и найденных документов, равного или меньше числа различных допустимых значений минимальной относительной частоты словоупотребления для определения анализируемых подмножеств словарного состава документов, по которым сформированы семантические характеристики текста-образца и найденных документов, один информационный вход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста образца и найденных документов является третьим информационным входом системы, предназначенным для приема числа найденных документов, второй информационный вход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста образца и найденных документов, предназначенный для приема идентификатора и I анализируемых запросов, соответствующих тексту образцу, подключен к информационному выходу первого модуля памяти, третий информационный вход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста образца и найденных документов, предназначенный для приема идентификатора и I анализируемых запросов, соответствующих найденному документу, соединен с информационным выходом второго модуля памяти, один синхронизирующий вход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста образца и найденных документов является
вторым синхронизирующим входом системы, предназначенным для получения синхронизирующих сигналов занесения числа найденных документов, а второй синхронизирующий вход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста образца и найденных документов соединен со вторым синхронизирующим выходом модуля выборки семантических характеристик (запросов), соответствующих найденному документу, один информационный выход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста-образца и найденных документов предназначен для выдачи числа I запросов, составляющих анализируемые семантические структуры текста образца, и является первым информационным выходом системы, а другой информационный выход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости документа образца и найденных документов является вторым информационным выходом системы, предназначенным для выдачи семантических данных для количественного оценивания смысловой и тематической близости текста-образца и каждого найденного документа в форме матрицы размерностью I×I, элемент (i,j) которой является набором кодов слов, общих для соответствующего тексту образцу запроса i, где i=1,...,I, и соответствующего найденному документу запроса j, где j=1,...,I, причем каждому коду слова приписаны два значения его весов в указанных запросах, а в случае отсутствия общих кодов слов элемент (i,j) является нулем, при этом один синхронизирующий выход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста-образца и найденных документов является первым
синхронизирующим выходом системы, предназначенным для управления передачей семантических характеристик (запросов), соответствующих тексту-образцу, а другой синхронизирующий выход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста-образца и найденных документов является вторым синхронизирующим выходом системы, предназначенным для управления передачей семантических характеристик (запросов), соответствующих найденному документу, а третий синхронизирующий выход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста-образца и найденных документов подключен ко второму синхронизирующему входу модуля выборки семантических характеристик (запросов), соответствующих найденному документу, второй синхронизирующий выход которого соединен со вторым синхронизирующим входом модуля выборки семантических характеристик (запросов), соответствующих тексту-образцу.
Рассматриваемая система предназначена для формирования по семантическим характеристикам текста-образца и найденных документов семантических данных для точного и воспроизводимого количественного оценивания смысловой и тематической близости текста-образца и найденных документов.
Для формирования семантических характеристик документов используются лингвистические данные в форме наборов подмножеств словарного состава отдельных документов, различающихся допустимыми значениями минимальной относительной частоты словоупотребления, получаемые с помощью системы формирования лингвистических данных для поиска и анализа текстовых документов [2].
Подобно известным техническим решениям система использует семантические характеристики-запросы, полученные в результате преобразования и анализа текста-образца и найденных документов, и формирует семантические данные для количественного оценивания семантического и тематического соответствия образца и каждого найденного документа.
Сущность изобретения поясняется чертежами, где на фиг.1 представлена структурная схема системы, на фиг.2 - структурная схема модуля выборки семантических характеристик (запросов), соответствующих тексту-образцу, на фиг.3 - структурная схема модуля выборки семантических характеристик (запросов), соответствующих найденному документу, на фиг.4 - структурная схема модуля формирования семантических характеристик для количественного оценивания смысловой и тематической близости теста образца и найденных документов, на фиг 5 - приведен пример алгоритма обработки семантических характеристик текста-образца и найденного документа, на фиг.6 - приведен пример выходных данных системы.
Система (фиг.1) содержит модуль 1 выборки семантических характеристик (запросов), соответствующих тексту-образцу, модуль 2 выборки семантических характеристик (запросов), соответствующих найденному документу, первый 3 и второй 4 модули памяти, и модуль 5 формирования семантических характеристик для количественного оценивания смысловой и тематической близости теста образца и найденных документов.
На фиг.1 также показаны первый 10, второй 11 и третий 12 информационные входы системы, первый 13 и второй 14 синхронизирующие и управляющий 15 входы системы, а также первый 16 и второй 17 информационные, первый 18 и второй 19
синхронизирующие выходы системы, сигнальный выход 25 системы.
Модуль 1 (фиг.2) выборки семантических характеристик (запросов), соответствующих тексту-образцу содержит регистр 20, счетчик 21, компаратор 22, счетчик 23 и элемент 24 задержки. На чертеже показаны информационный 10, первый 13 и второй 26 синхронизирующие входы, а также информационный 27 и синхронизирующий 28 выходы.
Модуль 2 (фиг.3) выборки семантических характеристик (запросов), соответствующих найденному документу содержит регистры 30, счетчики 31, 32, компаратор 33, элемент 34 ИЛИ, элементы 36-37 задержки. На чертеже показаны информационный 11, первый 38 и второй 39 синхронизирующие входы, информационный 40, первый 42 и второй 43 синхронизирующие выходы.
Модули 3 и 4 памяти (фиг.1) выполнены в виде оперативных запоминающих устройств, имеющих адресные входы 71, 73, входы 72, 74 считывания и информационные 75, 76 выходы.
Модуль 5 (фиг.4) формирования семантических характеристик для количественного оценивания смысловой и тематической близости теста образца и найденных документов содержит элемент счетчики 50, 51, сумматор 52, матричный блок 53 для анализа текста-образца и найденного документа, элементы 54-56 задержки.
На чертеже показаны информационные 57-59, счетный 60 и синхронизирующие 61, 62 входы, а также информационные 16, 17, синхронизирующие 18, 19 и 66, а также сигнальный 25 выходы.
Работа системы начинается с получения управляющих данных, определяющих число I запросов, составляющих
анализируемые семантические структуры текста образца и найденных документов. Число запросов I равно или меньше числа различных допустимых значений минимальной относительной частоты словоупотребления для определения анализируемых подмножеств словарного состава документов с использованием системы формирования лингвистических данных для поиска и анализа текстовых документов [2].
Затем система получает общее число найденных документов, а также семантические характеристики текста-образца и семантические характеристики каждого из найденных документов (по информационным входам 10 и 11, соответственно) от сервера формирования запросов, которые сохраняются в модулях 3, 4 памяти.
Для каждой пары - текста-образца и найденного документа система выполняет формирование семантических данных для поиска и анализа текстовых документов.
Формат входных данных системы представляет собой следующую структуру:
Идентификатор документа s Число запросов F № запроса i Число слов в запросе Ksi Код слова Вес слова ... ... ...
где идентификатор текста-образца - s=0, семантические характеристики текста-образца - F запросов, каждый запрос i=1,...,F состоит из числа Ksi пар чисел-кодов слов с весами, где Ksi - число слов в запросе i, s=0, для каждого найденного документа s=1,...,S, где S - общее число найденных документов, - s - идентификатор документа и его семантические структуры - F запросов, каждый запрос is=1,...,F состоит из числа Ksi пар чисел-кодов слов с весами, где Ksi - число слов в запросе i.
Решение задачи формирования семантических данных для поиска и анализа текстовой информации реализуется следующим образом.
На управляющий вход 15 системы поступает значение числа I запросов, составляющих анализируемые семантические структуры текста образца и найденных документов, а на информационный вход 12 поступают данные о числе найденных документов, которые по синхронизирующему сигналу, поступающему на синхронизирующие входы модулей 1 и 2, заносятся в соответствующие регистры 20 и 30 модулей 1 и 2.
Синхронизирующий сигнал с входа 12 через вход 38 задерживается элементом 36 на время занесения управляющих данных в регистры 20 и 30 модулей 1 и 2, затем проходит элемент 34 ИЛИ, и, во-первых, через выход 43 модуля 2 выдается на вход 26 модуля 1.
С входа 26 этот импульс поступает на синхронизирующий вход компаратора 22 модуля 1, который сравнивает код числа запросов регистра 20 с показаниями счетчика 21. Учитывая, что показания счетчика 21 к этому моменту времени равны нулю, то компаратор 22 на своем выходе 69 формирует импульс выборки данных, который поступает на счетный вход счетчика 23, фиксирующего первую единицу и формирующего первый адрес выборки семантических характеристик текста образца из модуля 3 памяти. Сформированный адрес выборки с выхода 27 модуля 1 поступает на адресный 71 вход модуля 3 памяти.
Кроме того, импульс с выхода 69 компаратора 22 поступает на счетный вход счетчика 21, фиксирующего факт считывания первой записи из модуля 3 памяти, а также задерживается элементом 24 на время срабатывания счетчика 23 и через выход 28 модуля 1 поступает на вход считывания модуля 3 памяти.
Параллельно с этим, синхронизирующий импульс с выхода 67 компаратора 33 поступает на синхронизирующий вход компаратора 33, сравнивающего код заданного числа найденных документов в регистре 30 с показаниями счетчика 31.
Учитывая, что к этому моменту времени показания счетчика 31 равны нулю, поскольку счетчик 31 находится в исходном состоянии, то компаратор 33 на выходе 67 формирует импульс, который с выхода 67 поступает на вход счетчика 32, формирующего первый адрес считывания семантических характеристик найденного документа, который с выхода 40 модуля 2 поступает на адресный вход 62 модуля 4 памяти.
Кроме того, импульс с выхода 67 компаратора 33 поступает на счетный вход счетчика 31, фиксирующего факт считывания первой записи из модуля 4 памяти, а также задерживается элементом 37 на время срабатывания счетчика 32 и через выход 42 модуля 2 поступает на вход считывания модуля 4 памяти.
Данные семантических характеристик (запросов), соответствующих найденному документу, и данные семантических характеристик (запросов), соответствующих тексту-образцу, с выходов соответствующих модулей памяти 3, 4 поступают на информационные входы 57, 59 модуля 5.
Одновременно с этим, синхронизирующий импульс с выхода 43 модуля 2 поступает на счетный вход 59 модуля 5 формирования семантических данных для количественного оценивания смысловой и тематической близости текста-образца и найденных документов осуществляет в соответствии с алгоритмом, приведенным на фиг.5, обработку семантических характеристик текста-образца и найденного документа с целью подготовки семантических данных и выдает их в качестве выходных данных системы в форме матрицы размерностью I×I, элемент (i,j) которой является набором кодов слов, общих для соответствующего тексту образцу запроса i, где i=1,...,I, и соответствующего найденному документу запроса j, где j=1,...,I, причем каждому коду слова приписаны два значения его весов в указанных запросах, а в случае отсутствия общих кодов слов элемент (i,j) является нулем.
С этой целью по каждому синхронизирующему импульсу, поступающему на счетный вход 59 счетчик 50 формирует адрес соответствующего элемента строки матрицы, а счетчик 51 адрес соответствующего столбца данного элемента.
Для этого каждый синхронизирующий импульс с входа 59 поступает на счетный вход счетчика 50, который ведет подсчет элементов строки матрицы. Как только счетчик зафиксирует заданное количество элементов в строке, на выходе счетчика 50 формируется импульс переноса, который поступает на счетный вход счетчика 51 строк (столбцов матрицы).
Параллельно с этим, каждый из входных импульсов с входа 59 модуля 5 задерживается элементом 54 на время выборки данных из модулей 3, 4 памяти и срабатывания счетчиков 50, 51 и затем поступает на синхронизирующий вход сумматора 52, формирующего адрес соответствующего элемента матрицы блока 53, на информационные входы которого поступают коды счетчиков 50. 51.
Кроме того, синхронизирующий импульс с выхода элемента 54 задерживается элементом 55 на время срабатывания сумматора 52 и затем поступает на вход управления анализом данных в соответствующем элементе (ячейке) матрицы блока 53.
По окончании процедуры анализа текста-образца и первого найденного документа модуль 5 осуществляет выдачу результирующей матрицы на выход 17.
Кроме того, синхронизирующий импульс с выхода элемента 55 задерживается элементом 56 на время срабатывания блока 53 модуля 5 и с выхода 60 модуля 5 подается сигнал на выборку семантических характеристик второго найденного документа. Для этого синхронизирующий импульс с выхода 60 модуля 5 поступает на вход 39 модуля 2 и работа системы повторяется описанным выше образом.
Этот процесс повторяется до тех пор, пока число найденных документов, для которых сформированы семантические данные, не станет равным общему числу найденных документов S, что будет зафиксировано импульсом переноса на выходе счетчика 51, который поступает на сигнальный выход 25 системы.
По этому сигналу работа системы заканчивается выдачей результирующей матрицы семантических данных для текста образца и документа S, пример которой приведен на фиг.6.
В результате работы системы для каждой пары текст-образец и найденный документ будут сформированы семантические данные для количественного оценивания смысловой и тематической близости текста-образца и каждого найденного документа в форме матрицы размерностью I×I, элемент (i,j) которой является набором кодов слов, общих для соответствующего тексту образцу запроса i, где i=1,...,I, и соответствующего найденному документу запроса j, где j=1,...,I, причем каждому коду слова приписаны два значения его весов в указанных запросах, а в случае отсутствия общих кодов слов элемент (i,j) является нулем.
Таким образом, введение нового модуля и новых конструктивных связей позволило существенно повысить точность и воспроизводимость количественного оценивания смысловой и тематической близости документов в результате реализации процедур формирования матрицы семантических данных для поиска и анализа текстовых документов.
Источники информации, принятые во внимание при составлении описания заявки:
1. Патент США №5136708 М. кл. G06F 15/16, 1992
2. Патент РФ № (Решение о выдаче патента по заявке №2006136098 от 12.10.2006) - прототип

Claims (1)

  1. Система формирования семантических данных для поиска и анализа текстовых документов, содержащая модуль выборки семантических характеристик (запросов), соответствующих тексту-образцу, информационный вход которого предназначен для приема запросов, составляющих анализируемые семантические характеристики текста-образца, и является первым информационным входом системы, синхронизирующий вход модуля выборки семантических характеристик (запросов), соответствующих тексту-образцу, предназначен для приема синхронизирующих сигналов занесения запросов, составляющих анализируемые семантические характеристики текста-образца, и является первым синхронизирующим входом системы, модуль выборки семантических характеристик (запросов), соответствующих найденному документу, информационный вход которого предназначен для приема запросов, составляющих анализируемые семантические характеристики найденных документов, и является вторым информационным входом системы, а один синхронизирующий вход модуля выборки семантических характеристик (запросов), соответствующих найденному документу, подключен к первому синхронизирующему входу системы, первый модуль памяти, информационный и синхронизирующий входы которого соединены с информационным и синхронизирующим выходами модуля выборки семантических характеристик (запросов), соответствующих тексту-образцу соответственно, и второй модуль памяти, информационный и синхронизирующий входы которого соединены с информационным и синхронизирующим выходами модуля выборки семантических характеристик (запросов), соответствующих найденному документу, соответственно, отличающаяся тем, что она содержит модуль формирования семантических данных для количественного оценивания смысловой и тематической близости текста-образца и найденных документов, управляющий вход которого является управляющим входом системы, предназначенным для задания числа I запросов, составляющих анализируемые семантические структуры текста-образца и найденных документов, равного или меньше числа различных допустимых значений минимальной относительной частоты словоупотребления для определения анализируемых подмножеств словарного состава документов, по которым сформированы семантические характеристики текста-образца и найденных документов, один информационный вход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста-образца и найденных документов является третьим информационным входом системы, предназначенным для приема числа найденных документов, второй информационный вход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста-образца и найденных документов, предназначенный для приема идентификатора и I анализируемых запросов, соответствующих тексту-образцу, подключен к информационному выходу первого модуля памяти, третий информационный вход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста-образца и найденных документов, предназначенный для приема идентификатора и I анализируемых запросов, соответствующих найденному документу, соединен с информационным выходом второго модуля памяти, один синхронизирующий вход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста-образца и найденных документов является вторым синхронизирующим входом системы, предназначенным для получения синхронизирующих сигналов занесения числа найденных документов, а второй синхронизирующий вход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста-образца и найденных документов соединен со вторым синхронизирующим выходом модуля выборки семантических характеристик (запросов), соответствующих найденному документу, один информационный выход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста-образца и найденных документов предназначен для выдачи числа I запросов, составляющих анализируемые семантические структуры текста-образца, и является первым информационным выходом системы, а другой информационный выход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости документа-образца и найденных документов является вторым информационным выходом системы, предназначенным для выдачи семантических данных для количественного оценивания смысловой и тематической близости текста-образца и каждого найденного документа в форме матрицы размерностью I×I, элемент (i, j) которой является набором кодов слов, общих для соответствующего тексту-образцу запроса i, где i=1, ..., I, и соответствующего найденному документу запроса j, где j=1, ..., I, причем каждому коду слова приписаны два значения его весов в указанных запросах, а в случае отсутствия общих кодов слов элемент (i, j) является нулем, при этом один синхронизирующий выход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста-образца и найденных документов является первым синхронизирующим выходом системы, предназначенным для управления передачей семантических характеристик (запросов), соответствующих тексту-образцу, а другой синхронизирующий выход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста-образца и найденных документов является вторым синхронизирующим выходом системы, предназначенным для управления передачей семантических характеристик (запросов), соответствующих найденному документу, а третий синхронизирующий выход модуля формирования семантических данных для количественного оценивания смысловой и тематической близости текста-образца и найденных документов подключен ко второму синхронизирующему входу модуля выборки семантических характеристик (запросов), соответствующих найденному документу, второй синхронизирующий выход которого соединен со вторым синхронизирующим входом модуля выборки семантических характеристик (запросов), соответствующих тексту-образцу.
    Figure 00000001
RU2006144132/22U 2006-12-13 2006-12-13 Система формирования семантических данных для поиска и анализа текстовых документов RU62263U1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2006144132/22U RU62263U1 (ru) 2006-12-13 2006-12-13 Система формирования семантических данных для поиска и анализа текстовых документов

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2006144132/22U RU62263U1 (ru) 2006-12-13 2006-12-13 Система формирования семантических данных для поиска и анализа текстовых документов

Publications (1)

Publication Number Publication Date
RU62263U1 true RU62263U1 (ru) 2007-03-27

Family

ID=37999653

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2006144132/22U RU62263U1 (ru) 2006-12-13 2006-12-13 Система формирования семантических данных для поиска и анализа текстовых документов

Country Status (1)

Country Link
RU (1) RU62263U1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2568272C2 (ru) * 2014-04-16 2015-11-20 Александр Алексеевич Бурба Устройство для содержательного анализа текстовой информации

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2568272C2 (ru) * 2014-04-16 2015-11-20 Александр Алексеевич Бурба Устройство для содержательного анализа текстовой информации

Similar Documents

Publication Publication Date Title
CN100378724C (zh) 基于移动配置概念的句子结构分析方法及使用其的自然语言搜索方法
US6941513B2 (en) System and method for text structuring and text generation
Xu et al. Syntax-enhanced pre-trained model
CN100568242C (zh) 用于提取新复合词的系统和方法
US20090192954A1 (en) Semantic Relationship Extraction, Text Categorization and Hypothesis Generation
CN110378346B (zh) 建立文字识别模型的方法、装置、设备和计算机存储介质
CN101271461A (zh) 跨语言检索请求的转换及跨语言信息检索方法和系统
CN106055539B (zh) 姓名消歧的方法和装置
CN110427483A (zh) 文本摘要评测方法、装置、系统及评测服务器
CN116522334A (zh) 基于图神经网络的rtl级硬件木马检测方法及存储介质
Lansdall-Welfare et al. History playground: a tool for discovering temporal trends in massive textual corpora
RU62263U1 (ru) Система формирования семантических данных для поиска и анализа текстовых документов
Ramachandran et al. A Novel Method for Text Summarization and Clustering of Documents
WO2018138205A1 (en) Model search method and device based on semantic model framework
US20240037328A1 (en) Method and system for filtering ill corpus
Baralis et al. Highlighter: Automatic highlighting of electronic learning documents
CN103019924A (zh) 输入法智能性评测系统和方法
RU62719U1 (ru) Система семантического метапоиска, анализа и индексации информации
RU60751U1 (ru) Система формирования лингвистических данных для поиска и анализа текстовых документов
CN113722421B (zh) 一种合同审计方法和系统,及计算机可读存储介质
Terko et al. Neurips conference papers classification based on topic modeling
Shaik et al. A study of text summarization in the medical domain using BERT and its variants
RU80597U1 (ru) Система построения агрегированного интегрального представления знаний о тематике и содержании коллекции текстовых документов
Qun et al. An efficient entropy of sum approach for measuring diversity and interdisciplinarity
KR100431190B1 (ko) 주제 적응 품사 태깅 시스템 및 방법

Legal Events

Date Code Title Description
MM1K Utility model has become invalid (non-payment of fees)

Effective date: 20071214