RU62719U1 - SYSTEM OF SEMANTIC METAPOARGING, ANALYSIS AND INDEXING OF INFORMATION - Google Patents

SYSTEM OF SEMANTIC METAPOARGING, ANALYSIS AND INDEXING OF INFORMATION Download PDF

Info

Publication number
RU62719U1
RU62719U1 RU2006135491/22U RU2006135491U RU62719U1 RU 62719 U1 RU62719 U1 RU 62719U1 RU 2006135491/22 U RU2006135491/22 U RU 2006135491/22U RU 2006135491 U RU2006135491 U RU 2006135491U RU 62719 U1 RU62719 U1 RU 62719U1
Authority
RU
Russia
Prior art keywords
documents
output
input
unit
data
Prior art date
Application number
RU2006135491/22U
Other languages
Russian (ru)
Inventor
Геннадий Семенович Осипов
Илья Александрович Тихомиров
Иван Валентинович Смирнов
Original Assignee
Институт Системного Анализа Российской Академии Наук
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Институт Системного Анализа Российской Академии Наук filed Critical Институт Системного Анализа Российской Академии Наук
Priority to RU2006135491/22U priority Critical patent/RU62719U1/en
Application granted granted Critical
Publication of RU62719U1 publication Critical patent/RU62719U1/en

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Изобретение относится к области вычислительной техники, в частности, к системам семантического метапоиска, анализа и индексации информации. Техническим результатом является повышение точности и полноты поиска информации путем применения оригинальных методов компьютерной лингвистики, машинного обучения и авторских алгоритмов поиска и анализа информации. Технический результат достигается тем, что система содержит блок приема данных документа образца, блок приема данных о корпусе документов, блок формирования анализируемых подмножеств словарного состава документов, блок передачи анализируемых подмножеств слов документов, блок передачи данных о корпусе документов, блок задания критерия выбора найденного документа, блок приема данных найденных документов, блок формирования данных для оценки близости документов, блок подсчета числа найденных документов, блок выдачи данных для оценки близости документов. 10 ил.The invention relates to the field of computer engineering, in particular, to systems of semantic meta-search, analysis and indexing of information. The technical result is to increase the accuracy and completeness of information retrieval by applying the original methods of computer linguistics, machine learning and authoring algorithms for searching and analyzing information. The technical result is achieved by the fact that the system comprises a unit for receiving data of a sample document, a unit for receiving data on a document body, a unit for generating analyzed subsets of a vocabulary of documents, a unit for transmitting analyzed subsets of a document’s documents, a unit for transmitting data on a body of documents, a unit for specifying a selection criterion for a found document, a unit for receiving data of found documents, a unit for generating data for assessing proximity of documents, a unit for counting the number of found documents, a unit for issuing data for evaluating bl Soest documents. 10 ill.

Description

Изобретение относится к области вычислительной техники, в частности, к системам семантического метапоиска, анализа и индексации информации.The invention relates to the field of computer engineering, in particular, to systems of semantic meta-search, analysis and indexing of information.

Классическая задача информационного поиска, с которой и началось развитие этой области, - это поиск документов, удовлетворяющих запросу, в рамках некоторой статической (на момент выполнения поиска) коллекции документов. Например, эта задача решается в рамках большинства современных справочных систем, таких как справочная система по операционной системе Windows.The classic task of information retrieval, with which the development of this area began, is the search for documents that satisfy the query, within the framework of some static (at the time of the search) collection of documents. For example, this problem is solved within the framework of most modern help systems, such as the help system for the Windows operating system.

Однако за тридцать лет исследований список задач информационного поиска значительно расширился и теперь включает вопросы моделирования, However, over thirty years of research, the list of information retrieval tasks has expanded significantly and now includes modeling issues,

классификации и кластеризации документов, проектирования архитектур поисковых систем и пользовательских интерфейсов, языки запросов, и т.д.classification and clustering of documents, design of search engine architectures and user interfaces, query languages, etc.

Особенность поставленной технической задачи состоит в том, чтобы система информационного поиска смогла бы выполнить функции поиска и анализа текстов, содержательно и тематически соответствующих тексту образца. При этом решение поставленной задачи должно осуществляться путем преобразования текста образца в запрос, используемый для поиска и анализа найденной информации, определения по найденным документам их характеристик и анализа соответствия образца и каждого найденного документа на основании указанных характеристик.The peculiarity of the stated technical problem is that the information retrieval system could fulfill the functions of searching and analyzing texts that substantively and thematically correspond to the sample text. In this case, the task should be solved by converting the text of the sample into a query used to search and analyze the information found, determine their characteristics from the documents found and analyze the conformity of the sample and each document found based on these characteristics.

Известны системы, которые могли бы быть использованы для решения поставленной задачи (1, 2).Known systems that could be used to solve the problem (1, 2).

Первая из известных систем содержит блоки приема и хранения запросов, соединенные с блоками управления и обработки данных, блоки поиска и селекции, подключенные к блокам хранения данных и отображения, синхронизирующие входы которых соединены с выходами блока управления, и использует принципы поиска по ключевым словам и метод human annotation (1). В основе работы системы лежит метод сопоставления текстов и ряд других механизмов.The first of the known systems contains request reception and storage units connected to control and data processing units, search and selection units connected to data storage and display units, the synchronizing inputs of which are connected to the control unit outputs, and uses the principles of keyword search and method human annotation (1). The system is based on the method of comparing texts and a number of other mechanisms.

Существенный недостаток данной системы состоит в ее невысоком быстродействии, обусловленном длительными циклами поиска и анализа данных.A significant drawback of this system is its low speed, due to the long cycles of searching and analyzing data.

Известна и другая система, содержащая блоки обработки данных, информационные входы которых соединены с блоками приема запросов и управления, а выходы подключены к первой группе блоков памяти, центральный процессор, входы которого соединены с выходами блоков памяти первой группы и блоков обработки данных, а выходы соединены с входами блоков памяти второй группы и блоков отображения данных (2).Another system is known that contains data processing units, the information inputs of which are connected to the request and control receiving units, and the outputs are connected to the first group of memory units, the central processor, the inputs of which are connected to the outputs of the memory units of the first group and data processing units, and the outputs are connected with the inputs of the memory blocks of the second group and data display blocks (2).

Данная система реализует технологию поиска ключевым словам, позволяющего получить базовое множество страниц. Затем ведется поиск This system implements keyword search technology that allows you to get a basic set of pages. Then the search is conducted

документов, которые имеют ссылки на эти страницы или на которые ссылаются страницы из базового множества.documents that have links to these pages or to which pages from the base set link.

Система классифицирует страницы базового множества и связанные с ними страницы по количеству ссылок на них. Страница, ссылку на которую посчитало нужным поместить на свой сайт значительное число Web-мастеров, получает название authority и считается ценным источником информации. Узел, имеющий ссылки на множество authority-страниц, называется хабом (hub) и рассматривается как ценный источник ссылок.The system classifies the pages of the base set and related pages by the number of links to them. The page, the link to which it was deemed necessary to place a significant number of Webmasters on its website, is called authority and is considered a valuable source of information. A node that has links to many authority pages is called a hub and is considered a valuable source of links.

Последнее из перечисленных выше технических решений наиболее близко к описываемому.The last of the above technical solutions is closest to the described.

Его недостатки заключаются в невысокой точности выполнения запросов текстовых образов, обусловленной тем, что выполнение процедуры поиска текстов реализуется лишь по кратким аннотациям образов текстовых документов по единственному запросу.Its disadvantages lie in the low accuracy of query execution of text images, due to the fact that the execution of the text search procedure is realized only by brief annotations of the images of text documents for a single request.

Цель изобретения - повышение точности и полноты поиска путем применения оригинальных методов компьютерной лингвистики, машинного обучения и авторских алгоритмов поиска и анализа информации.The purpose of the invention is to increase the accuracy and completeness of the search by applying the original methods of computer linguistics, machine learning and authoring algorithms for searching and analyzing information.

Поставленная цель достигается тем, что в систему, содержащую блок приема данных документа образца, информационный и синхронизирующий входы которого являются первыми информационным и синхронизирующими входами системы, при этом первый информационный вход системы предназначен для приема данных документа образца, а первый синхронизирующий вход системы предназначен для приема синхронизирующих сигналов занесения данных документа образца в блок приема данных документа образца, при этом выход блока приема данных документа образца является первым информационным выходом системы, предназначенным для выдачи данных текстового образца на информационный вход сервера хранилища данных, блок приема данных о корпусе документов, информационный и синхронизирующий входы которого являются вторыми This goal is achieved by the fact that in a system containing a block for receiving data from a sample document, the information and synchronizing inputs of which are the first information and synchronizing inputs of the system, while the first information input of the system is designed to receive data from a sample document, and the first synchronizing input of the system is designed to receive synchronization signals of entering data of a sample document into a block for receiving data of a sample document, wherein the output of the block for receiving data from a sample document is first data output system designed for data output text sample input data to an information storage server, receiving a data block on the body of documents, information, and timing inputs of which are the second

информационным и синхронизирующими входами системы, при этом второй информационный вход системы предназначен для приема данных о частотах словоупотребления в корпусе документов, а второй синхронизирующий вход системы предназначен для приема синхронизирующих сигналов занесения данных о частотах словоупотребления в корпусе документов в блок приема данных о корпусе документов, блок задания критерия выбора найденных документов, информационный и синхронизирующий входы которого являются третьими информационным и синхронизирующими входами системы, при этом третий информационный вход системы предназначен для приема данных критерия, а третий синхронизирующий вход системы предназначен для приема синхронизирующих сигналов занесения данных критерия в блок задания критерия выбора найденных документов, блок передачи данных о корпусе документов, информационный выход которого является вторым информационным выходом системы, предназначенным для выдачи данных о частотах словоупотребления в корпусе документов, блок подсчета числа найденных документов, выход которого является третьим информационным выходом системы, предназначенным для выдачи итоговых данных на табло отображения, блок приема данных найденных документов, информационный и синхронизирующий входы которого являются четвертыми информационным и синхронизирующими входами системы, при этом четвертый информационный вход системы предназначен для приема найденных документов с информационного выхода поискового сервера, четвертый синхронизирующий вход системы предназначен для приема синхронизирующих сигналов с синхронизирующего выхода поискового сервера, а один информационный выход блока приема данных найденных документов является четвертым информационным выходом системы, предназначенным для выдачи найденных документов на информационный вход сервера хранилища документов, отличающаяся тем, что система содержит блок information and synchronizing inputs of the system, while the second information input of the system is designed to receive data on word usage frequencies in the document body, and the second synchronizing input of the system is designed to receive synchronizing signals for entering data on word usage frequencies in the document body into the data receiving unit of the document body assignment criteria for the selection of documents found, the information and synchronizing inputs of which are the third information and synchronizing inputs system, the third information input of the system is intended to receive criterion data, and the third synchronizing input of the system is designed to receive synchronization signals of entering criterion data into the block for specifying the criterion for selecting the documents found, the data transmission block about the document body, the information output of which is the second information output a system designed to provide data on word usage frequencies in the document body, a unit for counting the number of documents found, the output of which is the third information output of the system, intended for the issuance of the final data on the display panel, the data reception unit of the found documents, the information and synchronization inputs of which are the fourth information and synchronization inputs of the system, while the fourth information input of the system is designed to receive the documents found from the information output of the search server , the fourth synchronizing input of the system is designed to receive synchronizing signals from the synchronizing output of searches server, and one information output of the data receiving unit of the found documents is the fourth information output of the system, intended for issuing the found documents to the information input of the document storage server, characterized in that the system comprises a unit

формирования анализируемых подмножеств словарного состава документов, один информационный вход которого соединен с выходом блока приема данных документа образца, другой информационный вход блока формирования анализируемых подмножеств словарного состава документов подключен к выходу блока приема данных о корпусе текстов, один синхронизирующий вход блока формирования анализируемых подмножеств словарного состава документов соединен с первым синхронизирующим входом системы, а другой синхронизирующий вход блока формирования анализируемых подмножеств словарного состава документов подключен ко второму синхронизирующему входу системы, при этом информационные выходы группы блока формирования анализируемых подмножеств словарного состава документов соединены с соответствующими информационными входами группы блока передачи данных о корпусе документов, блок передачи анализируемых подмножеств слов документов, информационный вход которого соединен с информационным выходом блока формирования анализируемых подмножеств словарного состава документов, один синхронизирующий вход блока передачи анализируемых подмножеств слов документов подключен к синхронизирующему выходу блока формирования анализируемых подмножеств словарного состава документов, а другой синхронизирующий вход блока передачи анализируемых подмножеств слов документов является сигнальным входом системы, при этом управляющие выходы группы блока передачи анализируемых подмножеств слов документов соединены с соответствующими управляющими входами группы блока передачи данных о корпусе документов, а первый синхронизирующий выход блока передачи анализируемых подмножеств слов документов подключен к синхронизирующему входу блока передачи данных о корпусе документов, блок формирования данных для оценки близости документов, один информационный вход которого соединен с выходом блока задания the formation of the analyzed subsets of the vocabulary of documents, one information input of which is connected to the output of the sample document data receiving unit, the other information input of the block of the analyzed subsets of the vocabulary of documents is connected to the output of the text data receiving block, one clock input of the block of the formation of the analyzed subsets of the vocabulary of documents connected to the first synchronizing input of the system, and the other synchronizing input of the analysis forming unit subsets of the vocabulary of the documents is connected to the second synchronizing input of the system, while the information outputs of the group of the unit for generating the analyzed subsets of the vocabulary of the documents are connected to the corresponding information inputs of the group of the data transmission unit of the document body, the transmission unit of the analyzed subsets of the word documents, the information input of which is connected to the information the output of the unit for the formation of the analyzed subsets of the vocabulary of documents, one synchrony the synchronizing input of the transmission unit of the analyzed subsets of documents words is connected to the synchronizing output of the generating unit of the analyzed subsets of the vocabulary of documents, and the other synchronizing input of the transmission unit of the analyzed subsets of documents is the signal input of the system, while the control outputs of the transmission unit of the transmission unit of the analyzed subsets of documents are connected to the corresponding control the group inputs of the data transmission unit about the document body, and the first synchronizing output transmission block subsets analyzed words documents connected to the clock input of the data transmission unit housing documents, data forming unit for estimating the proximity of documents, one data input of which is connected to the output setting unit

критерия выбора найденных документов, другой информационный вход блока формирования данных для оценки близости документов подключен ко второму выходу блока приема найденных документов, первый синхронизирующий вход блока формирования данных для оценки близости документов соединен с четвертым синхронизирующим входом системы, а второй синхронизирующий вход блока формирования данных для оценки близости документов подключен ко второму синхронизирующему выходу блока передачи анализируемых подмножеств слов документов, при этом первый управляющий выход блока формирования данных для оценки близости документов соединен с первым управляющим входом блока формирования анализируемых подмножеств словарного состава документов, второй управляющий выход блока формирования данных для оценки близости документов подключен ко второму управляющему входу блока формирования анализируемых подмножеств словарного состава документов, первый синхронизирующий выход блока формирования данных для оценки близости документов соединен со счетным входом блока подсчета числа найденных документов, а установочный выход блока формирования данных для оценки близости документов подключен к установочному входу блока приема данных найденных документов, и блок выдачи данных для оценки близости документов, первый и второй синхронизирующие входы которого соединены со вторым и третьим синхронизирующими выходами блока формирования данных для оценки близости документов соответственно, третий синхронизирующий вход блока выдачи данных для оценки близости документов подключен к сигнальному входу системы, а четвертый синхронизирующий вход блока выдачи данных для оценки близости документов подключен ко второму синхронизирующему выходу блока формирования анализируемых подмножеств словарного состава документов, при этом информационный выход блока выдачи данных для оценки близости the selection criterion for the documents found, another information input of the data generating unit for assessing the proximity of documents is connected to the second output of the receiving unit for found documents, the first synchronizing input of the data generating unit for assessing the proximity of documents is connected to the fourth synchronizing input of the system, and the second synchronizing input of the data generating unit for evaluating proximity of documents is connected to the second synchronizing output of the transmission unit of the analyzed subsets of document words, while the first the control output of the data generation unit for assessing the proximity of documents is connected to the first control input of the formation unit of the analyzed subsets of the vocabulary of documents, the second control output of the data generation unit for assessing the proximity of documents is connected to the second control input of the unit of the analyzed subsets of the vocabulary of documents, the first synchronizing output of the formation unit data for assessing the proximity of documents connected to the counting input of the unit for counting the number of found d documents, and the installation output of the data generation unit for assessing the proximity of documents is connected to the installation input of the data receiving unit of the found documents, and the data output unit for assessing the proximity of documents, the first and second synchronizing inputs of which are connected to the second and third synchronizing outputs of the data generation unit for assessing proximity documents, respectively, the third synchronizing input of the data output unit for assessing the proximity of documents is connected to the signal input of the system, and the fourth synchronization uyuschy input data output unit for estimating the proximity of documents connected to the second output of the synchronizing unit for generating the vocabulary of the subsets analyzed documents, the information output unit output the data to estimate the closeness

документов является адресным выходом системы, предназначенным для выдачи адресов считывания и записи данных на адресный вход сервера базы данных, первый синхронизирующий выход блока формирования матрицы оценки близости является первым синхронизирующим выходом системы, предназначенным для выдачи сигналов управления записью данных на первый канал прерывания сервера базы данных, второй синхронизирующий выход блока выдачи данных для оценки близости документов является вторым синхронизирующим выходом системы, предназначенным для выдачи сигналов управления считыванием данных на вход второго канала прерывания сервера базы данных, сигнальный выход блока выдачи данных для оценки близости документов является сигнальным выходом системы, предназначенным для выдачи сигналов управления на вход третьего канала прерывания сервера базы данных, а управляющий выход блока выдачи данных для оценки близости документов соединен с управляющим входом блока формирования анализируемых подмножеств словарного состава документов.of documents is the address output of the system, intended for issuing read and write addresses to the address input of the database server, the first synchronizing output of the proximity matrix generation unit is the first synchronizing output of the system, for issuing control signals for writing data to the first channel of the database server interrupt, the second synchronizing output of the data output unit for assessing the proximity of documents is the second synchronizing output of the system designed to output of the control signals for reading data to the input of the second channel for interrupting the database server, the signal output of the data output unit for assessing the proximity of documents is the signal output of the system intended for issuing control signals for the input of the third channel for interrupting the database server, and the control output of the data output unit for evaluating the proximity of documents is connected to the control input of the unit for the formation of the analyzed subsets of the vocabulary of the documents.

Сущность изобретения поясняется чертежами, где на фиг.1 представлена структурная схема системы, на фиг.2 - структурная схема блока селекции наборов слов с весовыми коэффициентами, на фиг.3 - структурная схема блока идентификации временных циклов выполнения запросов, на фиг.4 - структурная схема блока выдачи запросов, на фиг.5 - структурная схема блока идентификации входных документов, на фиг.6 - структурная схема блоков селекции опорных адресов документирования данных, на фиг.7 - структурная схема блока формирования сигналов записи и считывания найденных документов, на фиг.8 - структурная схема блока формирования сигналов записи найденных документов, на фиг.9 - структурная схема блока интеграции сигналов записи найденных документов.The invention is illustrated by drawings, where Fig. 1 is a structural diagram of a system, Fig. 2 is a structural diagram of a selection block of word sets with weight coefficients, Fig. 3 is a structural diagram of a block for identifying time cycles for query execution, and Fig. 4 is a structural diagram of a block for issuing queries, FIG. 5 is a block diagram of a block for identifying input documents, FIG. 6 is a block diagram of a selection block of reference addresses for documenting data, FIG. 7 is a block diagram of a block for generating recording and reading signals found documents 8 - block diagram of the block forming recording signals retrieved documents, 9 - a block diagram of the integration block write signals retrieved documents.

Система (фиг.1) содержит блок 1 приема данных документа образца, блок 2 приема данных о корпусе документов, блок 3 формирования The system (Fig. 1) contains a block 1 for receiving data from a sample document, a block 2 for receiving data about a document body, a block 3 for generating

анализируемых подмножеств словарного состава документов, блок 4 передачи анализируемых подмножеств слов документов, блок 5 передачи данных о корпусе документов, блок 6 задания критерия выбора найденного документа, блок 7 приема данных найденных документов, блок формирования данных для оценки близости документов, блок 9 подсчета числа найденных документов, и блок 10 выдачи данных для оценки близости документов.analyzed subsets of the vocabulary of documents, block 4 for transmitting analyzed subsets of words of documents, block 5 for transmitting data about the document body, block 6 for specifying the criteria for selecting a found document, block 7 for receiving data from found documents, block for generating data for assessing the proximity of documents, block 9 for counting the number of found documents, and a data output unit 10 for assessing the proximity of documents.

На фиг.1 также показаны первый 21, второй 22, третий 23 и четвертый 24 информационные входы системы, первый 25, второй 26, третий 27 и четвертый 28 синхронизирующие входы системы, сигнальный 29 вход системы, а также первый 31, второй 32, третий 33 и четвертый 34 информационные выходы системы, адресный 35 выход системы, первый 36 и второй 37 синхронизирующие выходы системы и сигнальный выход 38 системы.Figure 1 also shows the first 21, second 22, third 23 and fourth 24 information inputs of the system, the first 25, second 26, third 27 and fourth 28 clock inputs of the system, signal 29 system input, as well as the first 31, second 32, third 33 and fourth 34 information outputs of the system, address 35 system output, the first 36 and second 37 synchronizing outputs of the system and the signal output 38 of the system.

Блок 1 (фиг.1) приема данных документа образца выполнен в виде регистра, имеющего информационный 21 и синхронизирующий 25 входы, а также информационные выход, соединенный с первым информационным выходом системы 31 и информационным входом 55 блока 3.Block 1 (Fig. 1) of receiving data from a sample document is made in the form of a register having information 21 and synchronizing 25 inputs, as well as information output connected to the first information output of system 31 and information input 55 of block 3.

Блок 2 (фиг.1) приема данных о корпусе документов выполнен в виде регистра, имеющего информационный 22 и синхронизирующий 26 входы, а также информационный 15 выход.Block 2 (Fig. 1) of receiving data about the document body is made in the form of a register having information 22 and synchronizing 26 inputs, as well as information 15 output.

Блок 3 (фиг.2) формирования анализируемых подмножеств словарного состава документов содержит программируемое постоянное запоминающее устройство (ПЗУ) 40, дешифратор 41, регистры 42-44, элементы 45-47 И, первую 48 и вторую 49 группы элементов И, группу 50 элементов ИЛИ, элемент 51 ИЛИ, элементы 52-54 задержки. На чертеже показаны информационные 55, 56 и синхронизирующие 57, 58 входы, управляющие 59, 60 входы, а также группа 61-63 информационных выходов, информационный 64 и синхронизирующий 65 выходы.Block 3 (figure 2) of the formation of the analyzed subsets of the vocabulary of documents contains programmable read-only memory (ROM) 40, a decoder 41, registers 42-44, elements 45-47 AND, the first 48 and second 49 groups of elements AND, a group of 50 elements OR , OR element 51, delay elements 52-54. The drawing shows information 55, 56 and clock inputs 57, 58, control inputs 59, 60, as well as a group of 61-63 information outputs, information 64 and clock 65 outputs.

Блок 4 (фиг.3) передачи анализируемых подмножеств слов документов содержит элемент 69 И, счетчик 70, компаратор 71, регистр 72, элемент 73 ИЛИ и элемент 74 задержки. На чертеже показаны управляющий вход 68, информационный 75 вход, первый 76 и второй 77 синхронизирующие входы, а также группа управляющих выходов 78-80 и синхронизирующие 81, 82 выходы.Block 4 (Fig. 3) for transmitting analyzed subsets of document words contains an AND element 69, a counter 70, a comparator 71, a register 72, an OR element 73, and a delay element 74. The drawing shows the control input 68, information 75 input, the first 76 and second 77 synchronization inputs, as well as a group of control outputs 78-80 and synchronizing 81, 82 outputs.

Блок 5 (фиг.4) передачи данных о корпусе документов содержит группы 85-87 элементов И, и группу элементов 87 ИЛИ. На чертеже показаны информационные 89-91 входы, управляющие 92-94 входы, и синхронизирующий 95 вход, а также информационный выход 32.Block 5 (Fig. 4) of transmitting data about the document body contains groups of 85-87 AND elements, and a group of OR elements 87. The drawing shows information 89-91 inputs, controlling 92-94 inputs, and a synchronizing 95 input, as well as information output 32.

Блок 6 (фиг.1) задания критерия выбора найденных документов выполнен в виде регистра, имеющего информационный 23 и синхронизирующий 27 входы, а также информационный выход 16.Block 6 (Fig. 1) of setting the selection criteria for the documents found is made in the form of a register having information 23 and synchronizing 27 inputs, as well as information output 16.

Блок 7 (фиг.1) приема данных найденных документов выполнен в виде регистра, имеющего информационный 24 и синхронизирующий 28 входы, а также первый 17 и второй 18 информационные выходы.Block 7 (Fig. 1) of receiving data of the documents found is made in the form of a register having information 24 and synchronizing 28 inputs, as well as first 17 and second 18 information outputs.

Блок 8 (фиг.5) формирования данных для оценки близости документов содержит компаратор 100, триггер 101, элементы 102, 103 И, элемент 104 задержки. На чертеже показаны информационные 105, 106 входы, первый 107 и второй 108 синхронизирующие входы, а также первый 109 и второй 110 управляющие выходы, первый 111, второй 112 и третий 113 синхронизирующие выходы, и установочный выход 114.Block 8 (Fig. 5) of data generation for assessing the proximity of documents comprises a comparator 100, a trigger 101, elements 102, 103, and a delay element 104. The drawing shows information inputs 105, 106, first 107 and second 108 clock inputs, as well as first 109 and second 110 control outputs, first 111, second 112 and third 113 clock outputs, and installation output 114.

Блок 9 (фиг.1) подсчета числа найденных документов выполнена виде счетчика, имеющего счетный вход и информационный 33 выходы.Block 9 (figure 1) counting the number of documents found is made in the form of a counter having a counting input and 33 information outputs.

Блок 10 (фиг.6) выдачи данных для оценки близости документов содержит первый 11-1 и второй 11-2 модули селекции опорных адресов найденных документов, модуль 12 формирования сигналов записи и считывания найденных документов поиска, модуль 13 формирования сигналов записи найденных документов поиска и модуль 14 интеграции сигналов записи найденных документов.Block 10 (Fig.6) data output for assessing the proximity of documents contains the first 11-1 and second 11-2 modules for selecting the reference addresses of the found documents, module 12 for generating recording and reading signals for the searched documents, module 13 for generating recording signals for the found search documents and module 14 integration of the recording signals of the found documents.

На чертеже показаны синхронизирующие 16-19 входы блока, информационный 35 выход, первый 36 и второй 37 синхронизирующие выходы, сигнальный 38 и управляющий 148 выходы блока.The drawing shows the synchronizing 16-19 inputs of the block, information 35 output, the first 36 and second 37 synchronizing outputs, signal 38 and control 148 outputs of the block.

Модули 11-1 и 11-2 (фиг.7) выполнены идентично и содержат ПЗУ 120, регистр 121, триггер 122, элементы 123, 124 И, элемент 125 ИЛИ, элементы 126, 127 задержки. На чертеже показаны синхронизирующий 130 вход, а также информационный 131 и синхронизирующий 132 выходы.Modules 11-1 and 11-2 (Fig.7) are identical and contain ROM 120, register 121, trigger 122, elements 123, 124 AND, element 125 OR, elements 126, 127 of delay. The drawing shows a synchronizing 130 input, as well as information 131 and synchronizing 132 outputs.

Модуль 12 (фиг.8) формирования сигналов записи и считывания найденных документов содержит компаратор 134, сумматор 135, реверсивный счетчик 136, триггер 137, группу 138 элементов И, элементы 139-142 ИЛИ, триггер 143, элемент 144 И, элементы 145-1, 145-2, 146-1, 146-2, 146-3 задержки. На чертеже показаны информационный 151 и синхронизирующие 147, 152, 153 входы, а также управляющий 148, информационный 154, первый 155, второй 156 и третий 157 синхронизирующие выходы.Module 12 (Fig. 8) of generating signals for writing and reading documents found contains a comparator 134, an adder 135, a reverse counter 136, a trigger 137, a group of 138 AND elements, elements 139-142 OR, a trigger 143, an 144 element AND, elements 145-1 , 145-2, 146-1, 146-2, 146-3 delays. The drawing shows information 151 and synchronizing inputs 147, 152, 153, as well as control 148, information 154, first 155, second 156 and third 157 synchronizing outputs.

Модуль 13 (фиг.9) формирования сигналов записи найденных документов содержит сумматор 160, счетчик 161, триггер 162, группу 163 элементов И, элемент 164 задержки. На чертеже показаны информационный 165 и синхронизирующий 166 входы, а также информационный 167, и синхронизирующий 168 выходы.Module 13 (Fig. 9) for generating recording signals for documents found includes an adder 160, a counter 161, a trigger 162, a group of 163 AND elements, an delay element 164. The drawing shows information 165 and synchronizing 166 inputs, as well as information 167, and synchronizing 168 outputs.

Модуль 14 (фиг.8) интеграции сигналов записи найденных документов содержит группу элементов 170 ИЛИ, и элемент 171 ИЛИ. На чертеже показаны информационные 172, 173 и синхронизирующие 174, 175 входы, а также информационный 35 и синхронизирующий 36 выходы.Module 14 (Fig. 8) of the integration of the recording signals of the found documents contains a group of OR elements 170, and an OR element 171. The drawing shows information 172, 173 and synchronizing inputs 174, 175, as well as information 35 and synchronizing 36 outputs.

Все узлы и элементы системы выполнены на стандартных потенциально-импульсных элементах.All nodes and elements of the system are made on standard potential-impulse elements.

Рассматриваемая система предназначена для поиска и анализа текстов, содержательно похожих на предложенный пользователем образец. Образец может быть найден пользователем системы в доступных информационных ресурсах или сформулирован самостоятельно.The system under consideration is intended for the search and analysis of texts that are substantively similar to the sample proposed by the user. The sample can be found by the user of the system in the available information resources or formulated independently.

Подобно известным техническим решениям система выполняет преобразование текста-образца в запрос, используемый для поиска и анализа найденной информации, по найденным документам определяет их характеристики и анализирует соответствие образца и каждого найденного документа на основании указанных характеристик.Like well-known technical solutions, the system converts the sample text into a query used to search and analyze the information found, determines their characteristics from the documents found and analyzes the conformity of the sample and each document found based on the specified characteristics.

К отличительным чертам предлагаемой формы запроса относятся следующие признаки.The distinctive features of the proposed request form include the following features.

Во-первых, тексту образца соответствует множество запросов, каждый из которых состоит из набора слов с весовыми коэффициентами в отличие от стандартной ситуации, при которой строится единственный запрос. В результате этого формируется набор запросов вместо единственного запроса.Firstly, the text of the sample corresponds to many queries, each of which consists of a set of words with weighting coefficients, in contrast to the standard situation in which a single query is constructed. As a result of this, a set of requests is formed instead of a single request.

Во-вторых, запросы, соответствующие тексу образца, отличаются друг от друга минимальными относительными частотами словоупотребления слов (число словоупотреблений на 100000 слов), входящих в запросы, в представительном для языка текста образца (или для конкретной предметной области) корпусе текстов. Каждое слово в запросе характеризуется весовым коэффициентом, определяющим важность слова в данном запросе.Secondly, the queries corresponding to the sample text differ from each other in the minimum relative frequencies of word usage (the number of word usage per 100,000 words) included in the queries in the representative text body (or for a specific subject area) of the texts. Each word in the query is characterized by a weight coefficient that determines the importance of the word in this query.

В-третьих, для характеристики найденных документов используется множество запросов, которые соответствовали бы найденному документу в случае его использования в качестве образца. При этом запрос может быть пустым (не содержать элементов).Thirdly, to characterize the documents found, many queries are used that would correspond to the document found if it was used as a sample. In this case, the request may be empty (do not contain elements).

Алгоритм работы системы можно представить следующим образом.The algorithm of the system can be represented as follows.

На первом шаге алгоритма для текста образца формируется набор запросов любым подходящим для этого способом (1, 2).At the first step of the algorithm, a set of queries is generated for the sample text in any suitable way (1, 2).

На втором шаге алгоритма по каждому запросу из набора запросов выполняется поиск документов в хранилище данных. Критерием выбора документа для дальнейшего анализа является наличие в документе заданного числа слов из запроса.At the second step of the algorithm, for each request from the set of queries, documents are searched in the data warehouse. The criterion for selecting a document for further analysis is the presence in the document of a given number of words from the query.

На третьем шаге для каждого найденного документа формируется набор запросов, соответствующих случаю использования найденного документа в качестве образца для поиска. При этом для построения набора запросов должна использоваться та же процедура, что и при формировании набора запросов для текста образца на первом шаге алгоритма.In the third step, for each document found, a set of queries is generated corresponding to the case of using the found document as a template for the search. At the same time, the same procedure should be used to construct a set of queries as in the formation of a set of queries for sample text at the first step of the algorithm.

На четвертом шаге выполняется анализ всех найденных документов с целью определения количественной оценки их соответствия тексту образца и найденным документам. При этом для текста образца и каждого найденного документа формируется матрица, элементами которой являются количественные оценки близости запросов, соответствующих тексту образца и найденному документу.In the fourth step, an analysis of all the documents found is carried out in order to determine a quantitative assessment of their compliance with the sample text and the documents found. At the same time, a matrix is formed for the sample text and each document found, the elements of which are quantitative estimates of the proximity of queries corresponding to the sample text and the found document.

Оценки близости запросов получаются как результат вычисления функции, аргументами которой являются весовые коэффициенты слов, присутствующие в обоих запросах. Количественная оценка соответствия найденного документа образцу является функцией вышерассмотренной матрицы.Estimates of the proximity of queries are obtained as a result of calculating a function whose arguments are the word weights present in both queries. A quantitative assessment of the correspondence of a found document to a sample is a function of the matrix considered above.

На пятом шаге найденные документы упорядочиваются по убыванию величины полученной оценки.In the fifth step, the documents found are sorted in decreasing order of magnitude.

Описанный алгоритм реализуется системой следующим образом.The described algorithm is implemented by the system as follows.

Через информационный вход 21 системы на информационный вход блока 1 поступает кодограмма запроса, которая синхронизирующим импульсом, поступающим с входа 25 системы на синхронизирующий вход блока 1, заносит кодограмму запроса в блок 1.Through the information input 21 of the system, the information code of the block 1 receives the request codogram, which records the request code in block 1 with the clock pulse coming from the input 25 of the system to the synchronizing input of block 1.

Кроме того, задается значение критерия выбора документа поиска, которое через информационный вход 23 системы заносится синхронизирующим импульсом с входа 27 системы в блок 6. С выхода 16 блока 6 значение критерия выбора найденного документа поступает на вход 105 блока 8.In addition, the value of the selection criterion for the search document is set, which through the information input 23 of the system is entered by the synchronizing pulse from the input 27 of the system to block 6. From the output 16 of block 6, the value of the selection criterion for the found document is input to block 105 105.

Поступившая кодограмма запроса имеет следующую структуру:The received request codogram has the following structure:

КОДTHE CODE КОДTHE CODE Тип запроса текстового образцаText Sample Request Type Содержание запроса текстового образцаText Sample Request Content

С выхода блока 1 раздел кодограммы, представляющий содержательную часть текстового образца сразу же выдается на выход 31 системы.From the output of block 1, the section of the codogram representing the substantial part of the text sample is immediately issued to the output 31 of the system.

Другой раздел кодограммы с выхода блока 1 через информационный вход 55 блока 3 поступает на одни входы элементов 48 И группы, на другие входы которых с выхода 109 блока 8 через вход 59 блока 3 подается высокий разрешающий потенциал триггера 101 блока 8, находящегося в исходном состоянии.Another section of the codogram from the output of block 1 through the information input 55 of block 3 is fed to one of the inputs of elements 48 And of the group, the other inputs of which from the output 109 of block 8 through the input 59 of block 3 are supplied with a high resolution potential of the trigger 101 of block 8, which is in the initial state.

В результате этого код типа запроса текстового образца через элементы 48 И группы, элементы 50 ИЛИ группы поступает на вход дешифратора 41, который расшифровывает тип поступившего запроса и открывает по одному входу один из элементов 45-47 И.As a result of this, a code sample request type code through elements 48 AND groups, elements 50 OR groups is input to the decoder 41, which decrypts the type of incoming request and opens one input from one of elements 45-47 I.

Параллельно с этим процессом, синхронизирующий импульс с входа 25 системы через вход 57 блока 3 проходит элемент 51 ИЛИ, задерживается элементом 52 на время занесения кодограммы запроса в блок 1 и срабатывания дешифратора 41 блока 3, после чего поступает на другие входы элементов 45-47 И.In parallel with this process, the synchronizing pulse from the input 25 of the system through the input 57 of block 3 passes the element 51 OR, is delayed by element 52 for the time the codogram of the request is entered into block 1 and the decoder 41 of block 3 is triggered, after which it goes to the other inputs of elements 45-47 AND .

Учитывая то обстоятельство, что открытым по одному входу будет только один из элементов 45-47 И, то пройдя соответствующий элемент И, синхронизирующий импульс поступает на вход считывания соответствующей фиксированной ячейки памяти постоянного запоминающего устройства 40, где хранится набор запросов в виде слов с соответствующими весовыми коэффициентами и число слов в наборе.Given the fact that only one of the elements 45-47 I will be open at one input, then passing through the corresponding element I, the synchronizing pulse is fed to the read input of the corresponding fixed memory cell of the permanent storage device 40, where a set of requests is stored in the form of words with corresponding weight coefficients and the number of words in the set.

Структура кодограммы, хранимой в фиксированной ячейке памяти ПЗУ, имеет следующий вид:The structure of the codogram stored in a fixed memory cell of the ROM has the following form:

кодthe code КОДTHE CODE ...... КОДTHE CODE КОДTHE CODE 1-ое слово1st word 2-е слово2nd word ...... №-ое словоNo. word Количество слов в набореNumber of words in a set

Коды слов из блока 40 памяти считывается на соответствующие входы регистров 42-44, а код количества слов в наборе считывается через выход 64 блока 3 и вход 75 блока 4 на информационный вход регистра 72 блока 4.The word codes from the block 40 of the memory are read to the corresponding inputs of the registers 42-44, and the code of the number of words in the set is read through the output 64 of the block 3 and the input 75 of the block 4 to the information input of the register 72 of the block 4.

Параллельно с описанным процессом, тот же импульс считывания с выхода элемента 52 блока 3 задерживается элементом задержки 53 на время считывания содержимого фиксированной ячейки ПЗУ 40 и затем с выхода элемента 53 поступает как на синхронизирующие входы регистров 42-44, занося в них считанные данные, так и после задержки элементом 54 на время занесения данных в регистры 42-44, с выхода 65 блока 3 поступает на вход 76 блока 4, где, во-первых, сразу же поступает на синхронизирующий вход регистра 72, занося в него код количества слов в наборе, а, во-вторых, проходит элемент 73 ИЛИ и поступает на счетный вход счетчика 70, фиксирующего факт начала выдачи первого слова из набора запросов.In parallel with the described process, the same read pulse from the output of element 52 of block 3 is delayed by the delay element 53 for the duration of reading the contents of the fixed cell ROM 40 and then from the output of element 53 it arrives at both the synchronizing inputs of registers 42-44, entering the read data into them, and after the delay by the element 54 for the time of entering the data into the registers 42-44, from the output 65 of the block 3 goes to the input 76 of the block 4, where, firstly, it immediately goes to the synchronizing input of the register 72, entering the code of the number of words in the set and, secondly, about the OR element 73 goes and enters the counting input of the counter 70, fixing the fact of the start of the first word from the set of queries.

Высокий потенциал с выхода первого разряда счетчика 70 через выход 78 блока 4 поступает на вход 92 блока 5, где подается на одни входы элементов 85 И, на другие входы 89 которых с выхода 61 блока 3 выдается код первого слова запроса с соответствующим весовым коэффициентом.The high potential from the output of the first discharge of the counter 70 through the output 78 of block 4 goes to the input 92 of block 5, where it is fed to one of the inputs of the 85 And elements, to the other inputs 89 of which the output of the block 61 block 3 gives the code of the first query word with the corresponding weight coefficient.

Одновременно с поступлением синхронизирующего импульса на счетный вход счетчика 70 блока 4, синхронизирующий импульс с выхода элемента 73 ИЛИ блока 4 задерживается элементом 74 на время срабатывания счетчика 70, и далее поступает на синхронизирующий вход компаратора 71, на информационные входы которого подается число слов в наборе с выхода регистра 72 и показания счетчика 70.Simultaneously with the arrival of the synchronizing pulse to the counting input of the counter 70 of block 4, the synchronizing pulse from the output of the OR element 73 of block 4 is delayed by the element 74 for the time the counter 70 operates, and then it goes to the synchronizing input of the comparator 71, to the information inputs of which the number of words in the set with the output of the register 72 and the counter 70.

Учитывая, что к этому моменту времени показания счетчика 70 намного меньше числа слов в наборе в регистре 72, то на выходе 81 блока 4 формируется импульс, поступающий на синхронизирующий вход 95 блока 5, где проходит на входы элементов 85-87 И групп. Поскольку в открытом состоянии к этому моменту времени находятся только элементы 85 И группы, то код первого слова запроса через элементы 88 ИЛИ группы выдается на выход 32 системы и далее поступает на вход управления сервера базы поисковых данных, который переходит на подпрограмму выполнения первого запроса по поиску данных.Given that at this point in time the readings of the counter 70 are much less than the number of words in the set in the register 72, then an output is generated at the output 81 of the block 4, which arrives at the synchronizing input 95 of the block 5, where it passes to the inputs of the elements 85-87 AND groups. Since only elements 85 AND groups are in the open state at this point in time, the code of the first query word through elements 88 OR of the group is output to system 32 and then goes to the control input of the search database server, which goes to the first search query execution routine data.

При обнаружении запрашиваемых данных сервер хранилища данных выдает коды найденных данных на информационный вход 24 системы, откуда они поступают на информационный вход блока 7, в который и заносятся синхронизирующим импульсом сервера поисковой базы данных, поступающим на вход 28 системы.Upon detection of the requested data, the data warehouse server issues codes of the found data to the information input 24 of the system, from where they are fed to the information input of block 7, into which the synchronizing pulse of the search database server is sent to the system input 28.

Структура принятой кодограммы имеет следующий вид:The structure of the adopted codogram is as follows:

КОДTHE CODE КОДTHE CODE Признак найденного документаSign of the found document Содержание найденного документаContent of the document found

Признак найденного документа с выхода 17 блока 7 поступает на вход 106 блока 8, а содержание найденного документа с выхода 18 блока 7 выдается на выход 34 системы.The sign of the found document from the output 17 of the block 7 goes to the input 106 of the block 8, and the content of the found document from the output 18 of the block 7 is issued to the output 34 of the system.

Одновременно с этим, синхронизирующий импульс с входа 28 системы через вход 107 блока 8 задерживается элементом 104 задержки блока 8 и поступает на синхронизирующий вход компаратора 100, на вход 105 которого выдается код значения критерия выбора найденного документа, а на вход 106 поступает код признака найденного документа.At the same time, the synchronizing pulse from the input 28 of the system through the input 107 of block 8 is delayed by the delay element 104 of block 8 and fed to the synchronizing input of the comparator 100, the input 105 of which gives the code of the value of the selection criterion for the found document, and the input 106 receives the code of the sign of the found document .

По синхронизирующему импульсу компаратор 100 блока 8 сравнивает входные коды, и, если код признака найденного документа не соответствует критерию выбора найденного документа, то на выходе В компаратора 100 формируется импульс, который с выхода 114 блока 8 поступает на установочный вход 19 блока 7 и возвращает его в исходное состояние.By a synchronizing pulse, the comparator 100 of block 8 compares the input codes, and if the feature code of the found document does not meet the selection criteria of the found document, then a pulse is generated at the output of the comparator 100, which from the output 114 of the block 8 goes to the installation input 19 of the block 7 and returns it in the initial state.

Если же признак найденного документа соответствует значению критерия выбора найденного документа, то на выходе А компаратора 100 формируется сигнал, поступающий как на выход 111, так и через открытый высоким потенциалом с инверсного выхода триггера 101 элемент 103 И на выход 112 блока 8.If the sign of the found document corresponds to the value of the selection criterion for the found document, then at the output A of the comparator 100 a signal is generated that goes both to the output 111 and through the element 103 And open to the output 112 of the block 8 with the high potential from the inverse output of the trigger 101.

С выхода 111 блока 8 импульс поступает на счетный вход 114 блока 9, который фиксирует число найденных документов, удовлетворяющих критерию их отбора, которое выдается на выход 33 системы.From the output 111 of block 8, the pulse enters the counting input 114 of block 9, which fixes the number of documents found that satisfy the selection criterion, which is issued to the output 33 of the system.

С выхода 112 блока 8 тот же импульс поступает на вход 16 блока 10 для запуска процедуры занесения найденного документа в базу данных сервера, откуда он через вход 130 модуля 11-1 подается на входы элементов 123, 124 И. Однако открытым по одному входу будет только элемент 124 И, так как на один из его входов подается высокий потенциал с инверсного выхода триггера 122, находящегося в исходном состоянии.From the output 112 of block 8, the same pulse is fed to input 16 of block 10 to start the procedure for entering the found document into the server database, from where it is fed to the inputs of elements 123, 124 I through the input 130 of module 11-1. However, only one input will be open element 124 And, since one of its inputs is supplied with a high potential from the inverse output of the trigger 122, which is in the initial state.

В результате синхронизирующий импульс с входа 130 проходит элемент 124 И, и поступает на вход фиксированной ячейки памяти ПЗУ 120, где хранится опорный адрес буферной зоны памяти сервера, отведенной для хранения найденных документов.As a result, the synchronizing pulse from the input 130 passes the element 124 And, and is fed to the input of a fixed memory cell ROM 120, where the reference address of the buffer zone of the server’s memory reserved for storing the found documents is stored.

Тот же синхронизирующий импульс с выхода элемента 124 И задерживается элементом 126 на время считывания кода из ПЗУ 120, и, во-первых, поступает на синхронизирующий вход регистра 121, занося в него опорный адрес записи.The same clock pulse from the output of element 124 AND is delayed by element 126 while reading the code from ROM 120, and, firstly, it goes to the clock input of register 121, entering the reference address of the record into it.

Во-вторых, этот же импульс поступает на единичный вход триггера 122 и устанавливает его в единичное состояние, при котором элемент 124 И будет закрыт, а элемент 123 И - открыт.Тем самым будет подготовлена цепь прохождения следующего синхронизирующего импульса с входа 130.Secondly, the same pulse is applied to the single input of trigger 122 and sets it to a single state, in which the 124 I element will be closed and the And element 123 will be open, thereby preparing the circuit for passing the next synchronizing pulse from the input 130.

И, наконец, в-третьих, импульс с выхода элемента задержки 126 проходит элемент 125 ИЛИ, вновь задерживается элементом 127 на время занесения кода адреса в регистр 121 и далее поступает на выход 132 модуля 11-1.And finally, thirdly, the pulse from the output of the delay element 126 passes through the OR element 125, is again delayed by the element 127 for the time the address code is entered in the register 121, and then it goes to the output 132 of the module 11-1.

Код адреса записи с выхода 131 модуля 11-1 через вход 151 модуля 12 выдается на один вход сумматора 135, к другому входу которого подключен выход счетчика 136, соединенный также с одним входом компаратора 134, на другой вход 148 которого постоянно подан «нулевой код».The write address code from the output 131 of module 11-1 through the input 151 of module 12 is issued to one input of the adder 135, to the other input of which is connected the output of the counter 136, also connected to one input of the comparator 134, the other input 148 of which is constantly supplied with a “zero code” .

Синхронизирующий импульс с входа 152 модуля 12, во-первых, сразу же через элемент 140 ИЛИ поступает на синхронизирующий вход сумматора 135, который суммирует код опорного адреса с входа 151 с нулевым кодом счетчика 136, находящегося к этому моменту времени в исходном состоянии и выдает оставшийся без изменения код адреса записи на вход элементов 138 И группы.The clock pulse from the input 152 of the module 12, firstly, immediately through the OR element 140 is supplied to the synchronization input of the adder 135, which sums the reference address code from the input 151 with the zero code of the counter 136, which is in the initial state at this point in time and gives out without changing the code of the address of the entry to the input of elements 138 AND groups.

Во-вторых, этот же импульс проходит элемент 141 ИЛИ и поступает на прямой вход триггера 137, устанавливая последний в единичное состояние, при котором высоким потенциалом с прямого выхода открываются элементы 138 И группы по другому входу, подключая тем самым выход сумматора 135 к выходу 154.Secondly, the same pulse passes through the OR element 141 and enters the direct input of the trigger 137, setting the latter to a single state, in which the high potential from the direct output opens the 138 And groups of the other input, thereby connecting the output of the adder 135 to the output 154 .

В результате этого опорный адрес записи с входа 172 модуля 14 через элементы 170 ИЛИ группы выдается на адресный 35 выход системы.As a result, the reference address of the record from the input 172 of the module 14 through the elements 170 OR group is issued to the address 35 of the output of the system.

В-третьих, синхронизирующий импульс с входа 152 блока 12 задерживается элементом 145-1 на время формирования итогового кода на адресном 35 выходе системы и через выход 155 модуля 12 поступает на вход 174 блока 14, проходит элемент 171 ИЛИ и выдается на выход 36 системы в качестве сигнала управления записью.Thirdly, the synchronizing pulse from the input 152 of block 12 is delayed by the element 145-1 for the duration of the formation of the final code at the address 35 of the system output and through the output 155 of the module 12 is supplied to the input 174 of the block 14, the OR element 171 passes and is output to the system output 36 in recording control signal quality.

Этот сигнал поступает на вход первого канала прерывания сервера базы данных, по которому сервер переходит на подпрограмму записи содержимого блока 7 с его выхода 18 через информационный выход системы 34 в базу данных по адресу, сформированному на выходе 35 системы.This signal is fed to the input of the first interrupt channel of the database server, through which the server goes to the subroutine for recording the contents of block 7 from its output 18 through the information output of the system 34 to the database at the address generated at the output of the system 35.

Кроме того, импульс с выхода элемента 145-1 задержки модуля 12 поступает на счетный вход счетчика 136, фиксируя факт первой записи, а также после задержки элементом 145-2 на время записи данных в базу данных системы, данный импульс проходит вход элемента 142 ИЛИ, устанавливая триггер 137 в исходное состояние. Возвращаясь в исходное состояние триггер 137 закрывает элементы 138 И группы по одному входу и, тем самым, отключает выход сумматора 135 от адресного 35 выхода системы.In addition, the pulse from the output of the delay element 145-1 of the module 12 is supplied to the counting input of the counter 136, fixing the fact of the first recording, and also after the delay by the element 145-2 for the time of writing data to the system database, this pulse passes the input of the element 142 OR, setting trigger 137 to its original state. Returning to the initial state, the trigger 137 closes the elements 138 And groups on one input and, thereby, disconnects the output of the adder 135 from the address 35 of the system output.

Описанный процесс продолжается до тех пор, пока сервер хранилища данных не выдаст сигнала об окончании выполнения запроса, который поступает на сигнальный вход 29 системы, откуда он поступает как на вход 77 блока 4, так и на вход 147 модуля 12. Пройдя через соответствующие входы блока 4 и модуля 12 сигнал окончания выполнения запроса поступает на входы элементов 69 И блока 4 и 144 И модуля 12. Состоянием указанных элементов И управляет триггер 143, который к настоящему моменту времени находится в исходном состоянии, при котором высоким потенциалом с выхода 148 модуля 12 элемент 69 И будет открыт, а элемент 144 И модуля 12 будет закрыт низким потенциалом с прямого выхода триггера 143.The described process continues until the data warehouse server issues a signal about the completion of the request, which is sent to the signal input 29 of the system, from where it goes both to the input 77 of block 4 and to the input 147 of module 12. Having passed through the corresponding inputs of the block 4 and module 12, the signal that the request is completed is sent to the inputs of elements 69 AND of unit 4 and 144 AND of module 12. The state of these elements AND is controlled by trigger 143, which is currently in the initial state, at which high potential with output Yes 148 12 module element 69 and will be opened, and the element 144 and the module will be closed 12 low-potential direct output latch 143.

В результате этого сигнал об окончании выполнения запроса проходит через элемент 73 ИЛИ и поступает на счетный вход счетчика 70, увеличивая его показания на единицу. В результате этого счетчик 70 выдаст высокий потенциал на очередной выход 79, откуда высокий потенциал через вход 93 поступает на входы элементов 86 И группы, подключая выход 62 регистра 43 ко входу 90 блока 5 и через элементы 88 ИЛИ к выходу 32, выдавая слово запроса из заданного набора. После чего процесс поиска и документирования документов продолжается описанным выше образом.As a result, the signal about the completion of the request passes through the OR element 73 and enters the counting input of the counter 70, increasing its readings by one. As a result of this, the counter 70 will give a high potential to the next output 79, from where the high potential through the input 93 goes to the inputs of the elements 86 And groups, connecting the output 62 of the register 43 to the input 90 of the block 5 and through the elements 88 OR to the output 32, giving the query word from given set. After that, the process of searching and documenting documents continues as described above.

Описанный процесс поиска и анализа документов будет продолжаться до тех пор, пока компаратор 71 по синхронизирующему сигналу не зафиксирует факт равенства показаний счетчика 70 и регистра 72 выдачей импульса на выход 82 блока 4.The described process of searching and analyzing documents will continue until the comparator 71 on the synchronizing signal does not record the fact of equality of the readings of the counter 70 and the register 72 by issuing a pulse to the output 82 of block 4.

С выхода 82 блока 4 синхронизирующий импульс поступает как на вход 153 модуля 12 и далее через элемент 141 ИЛИ на единичный вход триггера 137, устанавливая его в единичное состояние, при котором высоким потенциалом с прямого выхода открываются элементы 138 И группы по другому входу, подключая тем самым выход сумматора 135 к выходу 154.From the output 82 of block 4, the synchronizing pulse is fed to input 153 of module 12 and then through the element 141 OR to the single input of trigger 137, setting it to a single state, in which the high potential from the direct output opens the elements 138 AND of the group on the other input, connecting the output of adder 135 to output 154.

В результате этого адрес записи последнего найденного документа, сохраненный в сумматоре 135, с выхода 154 блока 12 поступает на вход 172 блока 14 и далее через элементы 170 ИЛИ группы выдается на адресный 35 выход системы.As a result, the address of the record of the last found document stored in the adder 135, from the output 154 of the block 12 is fed to the input 172 of the block 14 and then through the elements 170 OR group is issued to the address 35 output of the system.

Во-вторых, синхронизирующий импульс с входа 153 задерживается элементом 146-1 на время срабатывания триггера 137, и выдается на выход 156 модуля 12, откуда выдается на выход 37 в качестве сигнала управления считыванием данных. С выхода 37 системы сигнал поступает на вход второго канала прерывания сервера базы данных.Secondly, the synchronizing pulse from the input 153 is delayed by the element 146-1 for the duration of the trigger 137, and is output 156 of the module 12, from which it is output 37 as a control signal for reading data. From the output 37 of the system, the signal is input to the second channel of the interruption of the database server.

По этому сигналу сервер переходит на подпрограмму считывания содержимого ячейки базы данных по указанному на выходе 35 адресу, и выдачи кодограммы признака первого из найденных документов на информационный вход 22 системы. Кодограмма признака документа заносится в блок 2 синхронизирующим импульсом сервера базы данных, поступающим на вход 26 системы.By this signal, the server goes to the subroutine for reading the contents of the database cell at the address indicated on output 35, and issuing a codogram of the sign of the first of the found documents to the information input 22 of the system. The codogram of the document characteristic is entered into block 2 by the synchronizing pulse of the database server, which is input to the system 26.

С выхода 15 блока 2 данная кодограмма через вход 56 блока 3, элементы 49 И группы, открытые высоким потенциалом, поступающим на вход 60 блока 3 с выхода 110 блока 8, и элементы 50 ИЛИ группы подается на вход дешифратора 41. Одновременно с этим процессом, синхронизирующий импульс с входа 26 системы через вход 58 блока 3 проходит элемент 51 ИЛИ, задерживается элементом 52 задержки на время занесения кодограммы признака найденного документа в блок 2 и срабатывания дешифратора 41.From the output 15 of block 2, this codogram through the input 56 of block 3, elements 49 AND of the group, opened by high potential, arriving at the input 60 of block 3 from the output 110 of block 8, and the elements 50 of the OR group are fed to the input of the decoder 41. At the same time, the synchronizing pulse from the input 26 of the system through the input 58 of block 3 passes the element 51 OR, is delayed by the element 52 of the delay for the time of entering the codogram of the sign of the found document in block 2 and the operation of the decoder 41.

Дальнейший процесс формирования набора запросов и их выдачи на выход 32 системы, а также отбора найденных документов и их документирования с помощью модулей 11-2, 13 и 14 осуществляется описанным выше образом.The further process of generating a set of requests and issuing them to the system output 32, as well as selecting the documents found and documenting them using modules 11-2, 13 and 14, is carried out as described above.

Отличие этого процесса состоит лишь в том, что при считывании признаков найденных документов из хранилища данных, каждый из импульсов считывания с входа 153 после задержки элементами 146-1 и 146-2 поступает на вычитающий вход счетчика 136 и уменьшает его показания на единицу.The difference of this process consists only in the fact that when reading the signs of the documents found from the data warehouse, each of the read pulses from the input 153 after a delay by the elements 146-1 and 146-2 goes to the subtracting input of the counter 136 and reduces its readings by one.

Синхронизирующий импульс с выхода элемента 146-2, во-первых, через элемент 139 ИЛИ поступает на установочный вход сумматора 135, сбрасывая его в исходное состояние. Во-вторых, этот импульс поступает на вычитающий вход реверсивного счетчика 136, уменьшая его показания на единицу.The clock pulse from the output of the element 146-2, firstly, through the element 139 OR is supplied to the installation input of the adder 135, resetting it to its original state. Secondly, this pulse is fed to the subtracting input of the reverse counter 136, reducing its readings by one.

В-третьих, данный импульс задерживается элементом 146-3 на время срабатывания реверсивного счетчика 136 и поступает на синхронизирующий вход компаратора 134.Thirdly, this pulse is delayed by element 146-3 for the duration of operation of the reverse counter 136 and is supplied to the synchronizing input of the comparator 134.

Компаратор 134 сравнивает показания реверсивного счетчика 136 с нулевым кодом, подаваемым на его другой вход, и пока показания счетчика 136 больше нулевого кода, то на выходе 149 компаратора 134 формируется сигнал, который, во-первых, через элемент 140 ИЛИ поступает на синхронизирующий вход сумматора 135, который по этому сигналу суммирует код опорного адреса с входа 151 с уменьшенными на единицу показаниями реверсивного счетчика 136 и выдает итоговый адрес на адресный 35 выход системы.The comparator 134 compares the readings of the reverse counter 136 with a zero code supplied to its other input, and while the readings of the counter 136 are greater than the zero code, a signal is generated at the output 149 of the comparator 134, which, firstly, passes through the OR element 140 to the synchronizing input of the adder 135, which, by this signal, sums the code of the reference address from input 151 with the readings of the reverse counter 136 reduced by one and gives the final address to the address 35 of the system output.

Описанный процесс считывания признаков найденных документов базы данных продолжается до тех пор, пока компаратор 134 не зафиксирует факт равенства нулю показаний реверсивного счетчика 136, свидетельствующего о том, что все записи найденных документов в базе данных выданы для формирования новых наборов запросов.The described process of reading the signs of the found database documents continues until the comparator 134 records the fact that the readings of the reverse counter 136 are equal to zero, indicating that all records of the found documents in the database were issued to generate new sets of queries.

Этот факт будет подтвержден выдачей импульса на выход 150 компаратора 134, который поступает на установочные входы реверсивного счетчика 136, сумматора 135 и триггера 137, а также на прямой вход триггера 143, устанавливая последний в единичное состояние, при котором высоким потенциалом элемент 144 И будет открыт, а низким потенциалом с инверсного выхода триггера 143, выдаваемого через выход 148 на вход 68 блока 4 элемент 69 И блока 4 будет закрыт.This fact will be confirmed by the issuance of a pulse to the output 150 of the comparator 134, which is fed to the installation inputs of the counter 136, the adder 135 and the trigger 137, as well as to the direct input of the trigger 143, setting the latter to a single state in which the 144 And element will be open with a high potential and low potential from the inverse output of the trigger 143, issued through the output 148 to the input 68 of the block 4, the element 69 AND of the block 4 will be closed.

В результате этого с приходом сигнала об окончании выполнения очередного запроса на вход 29 системы последний с входа 147 блока 12 проходит элемент 144 И, выдается через выход 57 на вход второго канала прерывания сервера базы данных.As a result of this, with the arrival of the signal about the completion of the next request for input 29 of the system, the last one from the input 147 of block 12 passes through the And element 144, it is issued through output 57 to the input of the second channel of the database server interrupt.

По этому сигналу сервер переходит на подпрограмму приема данных с выхода 31 и выполнения анализа всех найденных документов с целью определения количественной оценки их соответствия тексту образца и найденным документам. При этом для текста образца и каждого найденного документа блок 10 формирует матрицу, элементами которой являются количественные оценки близости запросов, соответствующих тексту образца и найденному документу.By this signal, the server switches to the data reception routine from output 31 and analyzes all the documents found in order to determine a quantitative assessment of their compliance with the sample text and the documents found. At the same time, for the sample text and each document found, block 10 forms a matrix, the elements of which are quantitative estimates of the proximity of queries corresponding to the sample text and the found document.

Оценки близости запросов получаются как результат вычисления функции, аргументами которой являются весовые коэффициенты слов, присутствующие в обоих запросах. Количественная оценка соответствия найденного документа образцу является функцией вышерассмотренной матрицы. После чего все найденные документы упорядочиваются по убыванию величины полученной оценки.Estimates of the proximity of queries are obtained as a result of calculating a function whose arguments are the word weights present in both queries. A quantitative assessment of the correspondence of a found document to a sample is a function of the matrix considered above. After that, all documents found are sorted in decreasing order of magnitude.

Таким образом, введение новых блоков и новых конструктивных связей позволило существенно повысить точность и полноту поиска информации путем применения оригинальных методов компьютерной лингвистики, машинного обучения и авторских алгоритмов поиска и анализа информации.Thus, the introduction of new blocks and new constructive relationships has significantly improved the accuracy and completeness of information retrieval through the use of original methods of computer linguistics, machine learning, and proprietary algorithms for searching and analyzing information.

Источники информации, принятые во внимание при составлении описания заявки:Sources of information taken into account when drawing up the description of the application:

1. Патент США №5136708 М. кл. G 06 F 15/16, 19921. US patent No. 5136708 M. cl. G 06 F 15/16, 1992

2. Патент США №5129083 М. кл. G 06 F 12/00, 15/40, 1992 (прототип).2. US Patent No. 5129083 M. cl. G 06 F 12/00, 15/40, 1992 (prototype).

Claims (1)

Система семантического метапоиска, анализа и индексации информации, содержащая блок приема данных документа образца, информационный и синхронизирующий входы которого являются первыми информационным и синхронизирующими входами системы, при этом первый информационный вход системы предназначен для приема данных документа образца, а первый синхронизирующий вход системы предназначен для приема синхронизирующих сигналов занесения данных документа образца в блок приема данных документа образца, при этом выход блока приема данных документа образца является первым информационным выходом системы, предназначенным для выдачи данных текстового образца на информационный вход сервера хранилища данных, блок приема данных о корпусе документов, информационный и синхронизирующий входы которого являются вторыми информационным и синхронизирующими входами системы, при этом второй информационный вход системы предназначен для приема данных о частотах словоупотребления в корпусе документов, а второй синхронизирующий вход системы предназначен для приема синхронизирующих сигналов занесения данных о частотах словоупотребления в корпусе документов в блок приема данных о корпусе документов, блок задания критерия выбора найденных документов, информационный и синхронизирующий входы которого являются третьими информационным и синхронизирующими входами системы, при этом третий информационный вход системы предназначен для приема данных критерия, а третий синхронизирующий вход системы предназначен для приема синхронизирующих сигналов занесения данных критерия в блок задания критерия выбора найденных документов, блок передачи данных о корпусе документов, информационный выход которого является вторым информационным выходом системы, предназначенным для выдачи данных о частотах словоупотребления в корпусе документов, блок подсчета числа найденных документов, выход которого является третьим информационным выходом системы, предназначенным для выдачи итоговых данных на табло отображения, блок приема данных найденных документов, информационный и синхронизирующий входы которого являются четвертыми информационным и синхронизирующими входами системы, при этом четвертый информационный вход системы предназначен для приема найденных документов с информационного выхода поискового сервера, четвертый синхронизирующий вход системы предназначен для приема синхронизирующих сигналов с синхронизирующего выхода поискового сервера, а один информационный выход блока приема данных найденных документов является четвертым информационным выходом системы, предназначенным для выдачи найденных документов на информационный вход сервера хранилища документов, отличающаяся тем, что система содержит блок формирования анализируемых подмножеств словарного состава документов, один информационный вход которого соединен с выходом блока приема данных документа образца, другой информационный вход блока формирования анализируемых подмножеств словарного состава документов подключен к выходу блока приема данных о корпусе текстов, один синхронизирующий вход блока формирования анализируемых подмножеств словарного состава документов соединен с первым синхронизирующим входом системы, а другой синхронизирующий вход блока формирования анализируемых подмножеств словарного состава документов подключен ко второму синхронизирующему входу системы, при этом информационные выходы группы блока формирования анализируемых подмножеств словарного состава документов соединены с соответствующими информационными входами группы блока передачи данных о корпусе документов, блок передачи анализируемых подмножеств слов документов, информационный вход которого соединен с информационным выходом блока формирования анализируемых подмножеств словарного состава документов, один синхронизирующий вход блока передачи анализируемых подмножеств слов документов подключен к синхронизирующему выходу блока формирования анализируемых подмножеств словарного состава документов, а другой синхронизирующий вход блока передачи анализируемых подмножеств слов документов является сигнальным входом системы, при этом управляющие выходы группы блока передачи анализируемых подмножеств слов документов соединены с соответствующими управляющими входами группы блока передачи данных о корпусе документов, а первый синхронизирующий выход блока передачи анализируемых подмножеств слов документов подключен к синхронизирующему входу блока передачи данных о корпусе документов, блок формирования данных для оценки близости документов, один информационный вход которого соединен с выходом блока задания критерия выбора найденных документов, другой информационный вход блока формирования данных для оценки близости документов подключен ко второму выходу блока приема найденных документов, первый синхронизирующий вход блока формирования данных для оценки близости документов соединен с четвертым синхронизирующим входом системы, а второй синхронизирующий вход блока формирования данных для оценки близости документов подключен ко второму синхронизирующему выходу блока передачи анализируемых подмножеств слов документов, при этом первый управляющий выход блока формирования данных для оценки близости документов соединен с первым управляющим входом блока формирования анализируемых подмножеств словарного состава документов, второй управляющий выход блока формирования данных для оценки близости документов подключен ко второму управляющему входу блока формирования анализируемых подмножеств словарного состава документов, первый синхронизирующий выход блока формирования данных для оценки близости документов соединен со счетным входом блока подсчета числа найденных документов, а установочный выход блока формирования данных для оценки близости документов подключен к установочному входу блока приема данных найденных документов, и блок выдачи данных для оценки близости документов, первый и второй синхронизирующие входы которого соединены со вторым и третьим синхронизирующими выходами блока формирования данных для оценки близости документов соответственно, третий синхронизирующий вход блока выдачи данных для оценки близости документов подключен к сигнальному входу системы, а четвертый синхронизирующий вход блока выдачи данных для оценки близости документов подключен ко второму синхронизирующему выходу блока формирования анализируемых подмножеств словарного состава документов, при этом информационный выход блока выдачи данных для оценки близости документов является адресным выходом системы, предназначенным для выдачи адресов считывания и записи данных на адресный вход сервера базы данных, первый синхронизирующий выход блока формирования матрицы оценки близости является первым синхронизирующим выходом системы, предназначенным для выдачи сигналов управления записью данных на первый канал прерывания сервера базы данных, второй синхронизирующий выход блока выдачи данных для оценки близости документов является вторым синхронизирующим выходом системы, предназначенным для выдачи сигналов управления считыванием данных на вход второго канала прерывания сервера базы данных, сигнальный выход блока выдачи данных для оценки близости документов является сигнальным выходом системы, предназначенным для выдачи сигналов управления на вход третьего канала прерывания сервера базы данных, а управляющий выход блока выдачи данных для оценки близости документов соединен с управляющим входом блока формирования анализируемых подмножеств словарного состава документов.
Figure 00000001
The system of semantic meta-search, analysis and indexing of information, containing a block for receiving data from a sample document, the information and synchronizing inputs of which are the first information and synchronizing inputs of the system, while the first information input of the system is designed to receive data from the sample document, and the first synchronizing input of the system is designed to receive synchronizing signals of entering data of a sample document into a block of receiving data of a sample document, while the output of the block of receiving data of a document This sample is the first information output of the system, intended for issuing text sample data to the information input of the data warehouse server, the data reception unit for the document body, the information and synchronizing inputs of which are the second information and synchronizing inputs of the system, while the second information input of the system is designed to receive data on usage frequencies in the document body, and the second synchronizing input of the system is designed to receive synchronizing signals in entering data on word usage frequencies in the document case into the data receiving unit about the document case, a block for specifying the selection criteria for the documents found, the information and synchronizing inputs of which are the third information and synchronizing inputs of the system, while the third information input of the system is designed to receive the criterion data, and the third synchronizing input of the system is intended for receiving synchronizing signals of entering the criterion data into the block for setting the criterion for selecting the documents found, a unit for transmitting data about a document body, the information output of which is the second information output of the system, intended for issuing data on the frequencies of word usage in the document body, a unit for counting the number of documents found, the output of which is the third information output of the system, for issuing the final data on the display board, the data receiving unit of the documents found, the information and synchronizing inputs of which are the fourth information and synchronizing inputs of the system This means that the fourth information input of the system is designed to receive documents found from the information output of the search server, the fourth synchronization input of the system is designed to receive synchronization signals from the synchronization output of the search server, and one information output of the data receiving unit of the found documents is the fourth information output of the system for issuing the found documents to the information input of the document storage server, characterized in that the system with holds the unit for generating the analyzed subsets of the vocabulary of documents, one information input of which is connected to the output of the unit for receiving data of the sample document, another information input of the unit for generating the analyzed subsets of the vocabulary of documents is connected to the output of the unit for receiving data on the text body, one synchronizing input of the unit for generating the analyzed subsets of the vocabulary the composition of the documents is connected to the first synchronizing input of the system, and the other synchronizing input of the block of forms the analyzed subsets of the vocabulary of documents is connected to the second synchronizing input of the system, while the information outputs of the group of the formation of the analyzed subsets of the vocabulary of documents are connected to the corresponding information inputs of the group of the data transmission unit of the document body, the transmission unit of the analyzed subsets of document words, the information input of which is connected to information output of the unit for the formation of the analyzed subsets of the vocabulary of documents, od n the synchronizing input of the transmission unit of the analyzed subsets of documents words is connected to the synchronizing output of the generating unit of the analyzed subsets of the vocabulary of documents, and the other synchronizing input of the transmission unit of the analyzed subsets of documents is the signal input of the system, while the control outputs of the transmission unit of the transmission unit of the analyzed subsets of documents are connected to the corresponding the control inputs of the group of the data transmission unit about the document body, and the first synchronization The output output of the transmission unit of the analyzed subsets of documents words is connected to the synchronizing input of the data transmission unit about the document body, the data generation unit for assessing the proximity of documents, one information input of which is connected to the output of the unit for specifying the selection of found documents, another information input of the data forming unit for assessing proximity of documents is connected to the second output of the reception unit of the found documents, the first synchronizing input of the data generation unit to assess the proximity of the document is connected to the fourth synchronizing input of the system, and the second synchronizing input of the data generating unit for assessing the proximity of documents is connected to the second synchronizing output of the transmitting unit of the analyzed subsets of document words, while the first control output of the data forming unit for assessing the proximity of documents is connected to the first control input of the forming unit analyzed subsets of the vocabulary of documents, the second control output of the data generation unit to assess the proximity of of kumentov is connected to the second control input of the formation unit of the analyzed subsets of the vocabulary of the documents, the first synchronizing output of the data generation unit to assess the proximity of documents is connected to the counting input of the counting unit for the number of documents found, and the installation output of the data generation unit to assess the proximity of documents is connected to the installation input of the reception unit data of found documents, and a data output unit for assessing the proximity of documents, the first and second synchronizing inputs of which connected to the second and third synchronizing outputs of the data generating unit for assessing the proximity of documents, respectively, the third synchronizing input of the data issuing unit for assessing the proximity of documents is connected to the signal input of the system, and the fourth synchronizing input of the data issuing unit for assessing the proximity of documents is connected to the second synchronizing output of the generating unit analyzed subsets of the vocabulary of documents, while the information output of the data output unit for assessing the proximity of a document nt is the address output of the system intended for issuing read and write addresses to the address input of the database server, the first synchronizing output of the proximity matrix generation unit is the first synchronizing output of the system for issuing control signals for writing data to the first channel of the database server interrupt, the second synchronizing output of the data output unit for assessing the proximity of documents is the second synchronizing output of the system designed to issue a signal The control system for reading data to the input of the second channel of the database server interruption, the signal output of the data output unit for assessing the proximity of documents is the signal output of the system designed to issue control signals to the input of the third channel of the database server interruption, and the control output of the data output unit for evaluating the proximity documents is connected to the control input of the unit for the formation of the analyzed subsets of the vocabulary of the documents.
Figure 00000001
RU2006135491/22U 2006-10-09 2006-10-09 SYSTEM OF SEMANTIC METAPOARGING, ANALYSIS AND INDEXING OF INFORMATION RU62719U1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2006135491/22U RU62719U1 (en) 2006-10-09 2006-10-09 SYSTEM OF SEMANTIC METAPOARGING, ANALYSIS AND INDEXING OF INFORMATION

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2006135491/22U RU62719U1 (en) 2006-10-09 2006-10-09 SYSTEM OF SEMANTIC METAPOARGING, ANALYSIS AND INDEXING OF INFORMATION

Publications (1)

Publication Number Publication Date
RU62719U1 true RU62719U1 (en) 2007-04-27

Family

ID=38107381

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2006135491/22U RU62719U1 (en) 2006-10-09 2006-10-09 SYSTEM OF SEMANTIC METAPOARGING, ANALYSIS AND INDEXING OF INFORMATION

Country Status (1)

Country Link
RU (1) RU62719U1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2446460C1 (en) * 2010-11-18 2012-03-27 Учреждение Российской академии наук Институт Системного Анализа РАН (ИСА РАН) Method and system for filtering web content

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2446460C1 (en) * 2010-11-18 2012-03-27 Учреждение Российской академии наук Институт Системного Анализа РАН (ИСА РАН) Method and system for filtering web content

Similar Documents

Publication Publication Date Title
KR101027864B1 (en) Machine-learned approach to determining document relevance for search over large electronic collections of documents
US20070073534A1 (en) Corpus expansion system and method thereof
US20060212288A1 (en) Topic specific language models built from large numbers of documents
CN108304375A (en) A kind of information identifying method and its equipment, storage medium, terminal
US20140101544A1 (en) Displaying information according to selected entity type
US20140101606A1 (en) Context-sensitive information display with selected text
JP5146979B2 (en) Ambiguity resolution device and computer program in natural language
JPH07295989A (en) Device that forms interpreter to analyze data
CN109918555B (en) Method, apparatus, device and medium for providing search suggestions
US20140101542A1 (en) Automated data visualization about selected text
KR20130036863A (en) Document classifying system and method using semantic feature
Hossny et al. Feature selection methods for event detection in Twitter: a text mining approach
Lacerra et al. CSI: A coarse sense inventory for 85% word sense disambiguation
CN116010552A (en) Engineering cost data analysis system and method based on keyword word library
Harrando et al. Explainable zero-shot topic extraction using a common-sense knowledge graph
Papanikolaou et al. Protest event analysis: A longitudinal analysis for Greece
RU62719U1 (en) SYSTEM OF SEMANTIC METAPOARGING, ANALYSIS AND INDEXING OF INFORMATION
Bakar The development of an integrated corpus for Malay language
JP4539616B2 (en) Opinion collection and analysis apparatus, opinion collection and analysis method used therefor, and program thereof
US20220366135A1 (en) Extended open information extraction system
Dawar et al. Text categorization by content using Naïve Bayes approach
RU60751U1 (en) LINGUISTIC DATA FORMATION SYSTEM FOR SEARCH AND ANALYSIS OF TEXT DOCUMENTS
RU62263U1 (en) SYSTEM OF FORMATION OF SEMANTIC DATA FOR SEARCH AND ANALYSIS OF TEXT DOCUMENTS
KR100431190B1 (en) A system and method for tagging topic adoptive pos(part-of-speech)
CN105426551A (en) Classical Chinese searching method and device

Legal Events

Date Code Title Description
MM1K Utility model has become invalid (non-payment of fees)

Effective date: 20071010

NF1K Reinstatement of utility model

Effective date: 20101127

MM1K Utility model has become invalid (non-payment of fees)

Effective date: 20111010

NF1K Reinstatement of utility model

Effective date: 20120720

MM1K Utility model has become invalid (non-payment of fees)

Effective date: 20131010