RU2473119C1 - Method and system for semantic search of electronic documents - Google Patents

Method and system for semantic search of electronic documents Download PDF

Info

Publication number
RU2473119C1
RU2473119C1 RU2011132873/08A RU2011132873A RU2473119C1 RU 2473119 C1 RU2473119 C1 RU 2473119C1 RU 2011132873/08 A RU2011132873/08 A RU 2011132873/08A RU 2011132873 A RU2011132873 A RU 2011132873A RU 2473119 C1 RU2473119 C1 RU 2473119C1
Authority
RU
Russia
Prior art keywords
electronic documents
information
search
module
documents
Prior art date
Application number
RU2011132873/08A
Other languages
Russian (ru)
Inventor
Геннадий Семенович Осипов
Илья Александрович Тихомиров
Илья Владимирович Соченков
Иван Валентинович Смирнов
Original Assignee
Учреждение Российской академии наук Институт Системного Анализа РАН (ИСА РАН)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Учреждение Российской академии наук Институт Системного Анализа РАН (ИСА РАН) filed Critical Учреждение Российской академии наук Институт Системного Анализа РАН (ИСА РАН)
Priority to RU2011132873/08A priority Critical patent/RU2473119C1/en
Application granted granted Critical
Publication of RU2473119C1 publication Critical patent/RU2473119C1/en

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

FIELD: information technology.
SUBSTANCE: method for semantic search of electronic documents involves supplementing the index structure of an electronic document with markers which occupy the same and fixed size in computer memory, which store, depending on their type, both the metadata of the electronic documents and information on inclusions of natural language words in the electronic documents, obtained via linguistic analysis. The disclosed system for semantic search of electronic documents includes the corresponding modules: a module for forming a collection and extracting metadata of electronic documents, a module for storing index structures of electronic documents, a module for forming and providing the user of the search system with a list of electronic documents ranked according to relevancy, a module for forming markers which store metadata of electronic documents, a module for linguistic analysis of text in the natural language and forming markers which store information on inclusions of natural language words.
EFFECT: more complete and accurate search of electronic documents.
4 cl, 3 dwg

Description

Предлагаемая группа изобретений относятся к компьютерным системам и, более конкретно, к системам и способам обработки индексной структуры для информационного поиска гипертекстовых документов.The proposed group of inventions relates to computer systems and, more specifically, to systems and methods for processing the index structure for the information retrieval of hypertext documents.

Системы информационного поиска предназначены для выявления в большой совокупности (коллекции) электронных документов таких электронных документов, которые в наибольшей степени соответствуют информационной потребности пользователя, сформулированной в виде запроса к системе. Существуют различные способы формулировки запроса, например с помощью ключевых слов естественного языка, в виде текстового описания ситуации или вопроса. Если в результате поиска несколько документов удовлетворяют запросу пользователя, то результаты поиска упорядочиваются по убыванию степени соответствия документов запросу, то есть выполняется ранжирование по релевантности. Основными критериями оценки качества работы системы информационного поиска являются полнота результатов поиска, их точность, а также скорость обработки поискового запроса.Information retrieval systems are designed to identify in a large aggregate (collection) of electronic documents such electronic documents that most closely match the user's information needs, formulated as a request to the system. There are various ways to formulate a query, for example using natural language keywords, in the form of a textual description of a situation or question. If as a result of the search several documents satisfy the user's request, then the search results are sorted in descending order of the degree to which the documents match the request, that is, ranking by relevance is performed. The main criteria for assessing the quality of the information search system are the completeness of the search results, their accuracy, as well as the speed of processing the search query.

Система информационного поиска обычно включает в себя средство индексирования, которое идентифицирует и извлекает электронные документы из коллекции, строит на основе информации извлеченных документов их описания, которые помещает в индексную структуру данных. Индексная структура обычно организуется в виде обратного индекса (inverted index) слов естественного языка. Обратный индекс представляет собой структуру данных, реализуемую в виде хэш-таблицы или В-дерева (возможно, с некоторыми модификациями), хранящую информацию о проиндексированных документах. Как правило, в обратный индекс помещается информация о тех признаках документов, по которым предполагается осуществлять поиск. В качестве таких признаков могут выступать, например, слова естественного языка, а значениями является совокупность вхождений этих слов в конкретные электронные документы. Пользователь системы информационного поиска формулирует свою информационную потребность и заполняет поисковую форму, отображаемую на компьютерном дисплее. Сформулированный пользователем запрос передается системе поиска. Система поиска выполняет просмотр индексной базы данных на предмет записей, которые соответствуют запросу пользователя, формируя список результатов. Список результатов идентифицирует те электронные документы, которые, по мнению системы, удовлетворяют информационную потребность пользователя.The information retrieval system usually includes an indexing tool that identifies and extracts electronic documents from the collection, builds descriptions based on the information of the extracted documents, which it places in the index data structure. The index structure is usually organized as an inverted index of natural language words. A reverse index is a data structure implemented in the form of a hash table or a B-tree (possibly with some modifications) that stores information about indexed documents. As a rule, the reverse index contains information about those characteristics of documents that are supposed to be searched. Such signs may be, for example, words of a natural language, and the meanings are the totality of occurrences of these words in specific electronic documents. The user of the information retrieval system formulates his informational need and fills out the search form displayed on the computer display. The request formulated by the user is transmitted to the search system. The search system scans the index database for records that match the user's query, forming a list of results. The list of results identifies those electronic documents that, according to the system, satisfy the information needs of the user.

Известные машины поиска сортируют результата поиска на основе содержимого электронных документов, например на основе количества появлений слов запроса в каждом документе - RU 2383922. Также известны системы, использующие дополнительную информацию о запросе пользователя и о хранимых электронных документах с целью предоставления пользователю наиболее точных и полных результатов - RU 2383922, RU 2343537. В этих системах для определения электронных документов, в наибольшей степени соответствующих информационной потребности пользователя, применяются методы учета метаинформации о документах. В качестве метаинформации выступают сведения об авторах документа, дате публикации или обработки поисковой системой, информационном источнике, а также отдельные структурные элементы, такие как заголовок документа, сноски, ссылки на другие документы. При этом результаты поиска могут быть подвергнуты фильтрации по соответствующим метаданным, и документы, не соответствующие заданным значениям метаданных, исключаются из поисковой выдачи. Наряду с метаинформацией при поиске может быть учтена дополнительная информация, содержащаяся в тексте электронных документов: например, совместная встречаемость слов естественного языка, связи между словами, составляющими устойчивые словосочетания, и иные связи между сущностями, входящими в состав документа, - RU 2377645, RU 2388050. Для учета подобной информации она, наряду с метаданными, должна быть помещена в базу данных системы информационного поиска с целью обработки на этапе поиска.Known search engines sort the search result based on the contents of electronic documents, for example, based on the number of occurrences of query words in each document - RU 2383922. Systems are also known that use additional information about a user's request and stored electronic documents in order to provide the user with the most accurate and complete results. - RU 2383922, RU 2343537. In these systems, for the determination of electronic documents that are most relevant to the user's information needs, they are used Methods for registration of meta information about the documents. The meta-information is information about the authors of the document, the date of publication or processing by the search system, the information source, as well as individual structural elements, such as the title of the document, footnotes, links to other documents. In this case, the search results can be filtered by the corresponding metadata, and documents that do not match the specified metadata values are excluded from the search results. In addition to meta-information, the search can take into account additional information contained in the text of electronic documents: for example, the joint occurrence of natural language words, the relationship between words that make up stable phrases, and other relationships between the entities that make up the document - RU 2377645, RU 2388050 To account for such information, it, along with metadata, should be placed in the database of the information retrieval system for processing at the search stage.

Из вышесказанного следует, что в современных системах информационного поиска имеется тенденция к расширению возможностей формулировки поискового запроса, то есть пользователь не ограничивается только вводом ключевых слов, но и имеет возможность задавать метаинформацию, характеризующую целевые электронные документы. Кроме того, имеется потребность в обработке естественно-языковых запросов, сформулированных в виде описания некоторой ситуации или вопроса, и поиске электронных документов, содержащих близкие по смыслу ситуации или ответ на заданный вопрос. На решение указанной проблемы направлены предложенные способ и устройство семантического поиска электронных документов.From the above it follows that in modern information search systems there is a tendency to expand the possibilities of formulating a search query, that is, the user is not limited only to entering keywords, but also has the ability to specify meta-information characterizing target electronic documents. In addition, there is a need to process natural language queries formulated as a description of a certain situation or question, and to search for electronic documents containing situations that are close in meaning or an answer to a asked question. To solve this problem, the proposed method and device for the semantic search of electronic documents are directed.

Соответственно, техническим результатом изобретения является повышение полноты и точности поиска электронных документов, которое достигается при использовании способа и системы семантического поиска электронных документов.Accordingly, the technical result of the invention is to increase the completeness and accuracy of the search for electronic documents, which is achieved by using the method and system of semantic search for electronic documents.

При осуществлении предложенного способа семантического поиска электронных документов:When implementing the proposed method of semantic search for electronic documents:

- формируют аппаратными средствами поисковой системы коллекцию электронных документов, каждый из которых обладает уникальным идентификатором (например, URI);- form a collection of electronic documents with the hardware of the search system, each of which has a unique identifier (for example, a URI);

- выделяют метаинформацию о документах;- highlight meta-information about documents;

- электронные документы подвергают лингвистическому анализу;- electronic documents are subjected to linguistic analysis;

- на основе проведенного анализа преобразуют коллекцию электронных документов поисковой системы в индексную структуру, организованную в виде инвертированного индекса слов естественного языка, содержащего информацию о вхождениях слов естественного языка в электронные документы, а также метаинформацию об электронных документах;- based on the analysis, they transform the collection of electronic documents of the search system into an index structure organized in the form of an inverted index of natural language words containing information about occurrences of natural language words in electronic documents, as well as meta-information about electronic documents;

- выполняют анализ поискового запроса;- perform a search query analysis;

- выполняют поиск документов, содержащих слова поискового запроса;- perform a search for documents containing the words of the search query;

- выполняют отбор документов, метаинформация которых соответствует метаинформации, заданной в запросе;- perform the selection of documents whose meta-information corresponds to the meta-information specified in the request;

- осуществляют ранжирование документов по близости к поисковому запросу на основе сопоставления информации о вхождениях слов в документах и поисковом запросе;- carry out the ranking of documents in proximity to a search query based on a comparison of information about occurrences of words in documents and a search query;

- выдают в качестве результата идентификаторы электронных документов, ранжированные по степени близости к поисковому запросу.- give as a result the identifiers of electronic documents, ranked by the degree of proximity to the search query.

Согласно предложенному способу индексная структура дополняется маркерами, предназначенными для храненияAccording to the proposed method, the index structure is supplemented with markers designed for storage

- метаинформации электронных документов;- meta-information of electronic documents;

- информации о вхождениях слов естественного языка в электронные документы.- information about occurrences of natural language words in electronic documents.

Под маркером понимается структура данных в обратном индексе, содержащая метаинформацию о документе или о вхождении некоторого слова в документ. В зависимости от своего типа маркер содержит набор полей, хранящих информацию о некотором документе или вхождении слова в документ. В обратном индексе маркеры хранятся в упорядоченных списках по следующему принципу: по номеру документа, а при совпадении номера документа - по типу и по смещению информационного вхождения слова в документ (по номеру предложения и по смещению в предложении), при совпадении смещений - по типу маркера. В памяти компьютера все маркеры вне зависимости от своего типа и конкретных значений хранимой информации имеют одинаковый фиксированный размер.A marker is a data structure in a reverse index that contains meta-information about a document or about the occurrence of a word in a document. Depending on its type, the marker contains a set of fields that store information about a certain document or the occurrence of a word in a document. In the reverse index, markers are stored in ordered lists according to the following principle: according to the document number, and if the document number matches - according to the type and offset of the information occurrence of the word in the document (according to the offer number and according to the offset in the sentence), when the offsets match - according to the marker type . In the computer memory, all markers, regardless of their type and specific values of the stored information, have the same fixed size.

Для формирования маркеров, содержащих информацию о вхождениях слов естественного языка в электронные документы, выполняют лингвистический анализ указанных текстовых документов и помещают в маркеры информацию оTo generate markers containing information about occurrences of natural language words in electronic documents, a linguistic analysis of the specified text documents is performed and information about

- позициях отдельных вхождений слов естественного языка в электронные документы,- positions of individual occurrences of natural language words in electronic documents,

- связях между вхождениями слов естественного языка в электронных документах, например семантических, синтаксических, кореферентных и др.,- the relationships between occurrences of natural language words in electronic documents, for example, semantic, syntactic, coreferential, etc.,

- весовых коэффициентах слов естественного языка, входящих в электронные документы, и др.- weighting coefficients of natural language words included in electronic documents, etc.

При получении запроса на поиск электронных документов от пользователя поисковой системы выполняют лингвистический анализ запроса, производят выборку информации из обратного индекса и сопоставляют образ запроса с полученной информацией для определения степени соответствия запроса и найденных электронных документов; формируют и передают пользователю поисковой системы перечень идентификаторов электронных документов, ранжированных по релевантности.Upon receipt of a request for the search for electronic documents from a user of the search system, a linguistic analysis of the request is performed, information is retrieved from the reverse index and the image of the request is compared with the received information to determine the degree of compliance of the request and the found electronic documents; form and transmit to the user of the search engine a list of identifiers of electronic documents, ranked by relevance.

Технический результат достигается за счет:The technical result is achieved due to:

- сопоставления расширенной лингвистической информации о словах запроса и вхождениях слов в документы при оценке близости документов к поисковому запросу (например, сопоставление форм вхождений слов в тексты документов и запроса, сравнение значений синтаксем в документах и в запросе и т.п.);- comparing extended linguistic information about query words and occurrences of words in documents when assessing the proximity of documents to a search query (for example, matching forms of occurrences of words in documents and query texts, comparing syntax values in documents and in a query, etc.);

- сопоставления метаинформации запроса и документов при информационном поиске документов и исключения из результатов документов, не удовлетворяющих критериям поиска по метаданным;- Comparison of the meta-information of the request and documents in the information search of documents and exclusion from the results of documents that do not meet the search criteria for metadata;

- эффективного хранения метаинформации о документах и информации о вхождениях слов в документы в индексной структуре в виде последовательностей маркеров фиксированного размера, что позволяет вычислительно эффективно производить выборку информации из индексной структуры и производить оценку близости документов к поисковому запросу.- effective storage of meta-information about documents and information about occurrences of words in documents in the index structure in the form of sequences of fixed-size markers, which allows computationally efficient sampling of information from the index structure and assessment of the proximity of documents to the search query.

Система семантического поиска электронных документов включает совокупность взаимосвязанных друг с другом модулей системы информационного поиска:The semantic search system of electronic documents includes a set of interconnected modules of the information search system:

1) модуль формирования коллекции и выделения метаинформации электронных документов;1) a module for generating a collection and highlighting the meta-information of electronic documents;

2) модуль хранения индексных структур электронных документов;2) a module for storing index structures of electronic documents;

3) модуль формирования и выдачи пользователю поисковой системы перечня электронных документов, ранжированных по релевантности.3) a module for generating and issuing to the user of a search engine a list of electronic documents ranked by relevance.

Для осуществления вышеописанного способа работы система снабжена также модулем формирования маркеров, хранящих метаинформацию электронных документов; модулем лингвистического анализа текста на естественном языке и формирования маркеров, хранящих информацию о вхождениях слов естественного языка.To implement the above-described method of operation, the system is also equipped with a module for generating markers storing meta-information of electronic documents; module of linguistic analysis of natural language text and the formation of markers that store information about occurrences of natural language words.

Предложенные способ и система поясняются чертежами.The proposed method and system is illustrated by drawings.

Фиг.1 - схема взаимодействия рабочих модулей системы семантического поиска электронных документов.Figure 1 - interaction diagram of the working modules of the semantic search system of electronic documents.

Фиг.2 - обобщенная схема обратного индекса на основе маркеров, имеющих фиксированный размер в памяти компьютера.Figure 2 is a generalized diagram of the inverse index based on markers having a fixed size in the computer's memory.

Фиг.3 - схема компьютерной системы, пригодной для реализации изобретения.Figure 3 - diagram of a computer system suitable for implementing the invention.

Система семантического поиска электронных документов состоит из аппаратных взаимосвязанных друг с другом модулей системы информационного поиска (фиг.1).The semantic search system of electronic documents consists of hardware interconnected modules of the information retrieval system (Fig. 1).

Модуль формирования коллекции и выделения метаинформации электронных документов 1 обеспечивает постоянное пополнение коллекции электронных документов из внешних информационных источников, например из Интернета. Указанный модуль 1 представляет собой совокупность распределенных серверов или один сервер, содержащий в участке памяти машинные команды, исполнение которых обеспечивает функциональность модуля 1, электронное представление документов.The module for generating a collection and highlighting the meta-information of electronic documents 1 provides for the constant replenishment of the collection of electronic documents from external information sources, for example, from the Internet. The specified module 1 is a collection of distributed servers or one server containing machine instructions in the memory area, the execution of which provides the functionality of module 1, the electronic presentation of documents.

Модуль хранения индексных структур электронных документов 2 представляет собой совокупность распределенных серверов или один сервер, содержащий в участке памяти машинные команды, исполнение которых обеспечивает функциональность модуля 2, а также хранящий индексные структуры электронных документов в участке памяти, который может располагаться как в оперативной памяти (оперативном запоминающем устройстве), так и на устройстве долговременного хранения информации (например, в виде файлов на жестких дисках).The module for storing index structures of electronic documents 2 is a set of distributed servers or one server containing machine instructions in the memory section, the execution of which provides the functionality of module 2, as well as storing index structures of electronic documents in the memory section, which can be located in random access memory (random access memory storage device), and on a device for long-term storage of information (for example, in the form of files on hard drives).

Модуль формирования и выдачи пользователю поисковой системы перечня электронных документов, ранжированных по релевантности, 3 представляет собой совокупность распределенных серверов или один сервер, содержащий в участке памяти машинные команды, исполнение которых обеспечивает функциональность модуля 3. Модуль 3 позволяет пользователю сформировать поисковый запрос на естественном языке, задать метаинформацию, характеризующую интересующие пользователя документы. Модуль 3 использует функциональность модуля лингвистического анализа текста на естественном языке и формирования маркеров, хранящих информацию о вхождениях слов естественного языка для построения образа запроса. Модуль 3 использует функциональность модуля хранения индексных структур электронных документов 2 для выборки фрагментов индекса, соответствующих образу запроса, и осуществляет ранжирование результатов поиска путем определения близости запроса и электронных документов на основе сопоставления образа запроса и выбранных фрагментов индекса.The module for generating and issuing to the user of the search system a list of electronic documents ranked by relevance, 3 is a collection of distributed servers or one server containing machine instructions in a memory location, the execution of which provides the functionality of module 3. Module 3 allows the user to generate a search query in a natural language, set meta-information characterizing the documents of interest to the user. Module 3 uses the functionality of the module for linguistic analysis of natural language text and the formation of markers that store information about occurrences of natural language words to build a query image. Module 3 uses the functionality of the module for storing index structures of electronic documents 2 to select index fragments that correspond to the image of the request, and performs ranking of search results by determining the proximity of the request and electronic documents based on the comparison of the image of the request and the selected index fragments.

Модуль 4 формирования маркеров, хранящих метаинформацию электронных документов, представляет собой совокупность распределенных серверов или один сервер, содержащий в участке памяти машинные команды, исполнение которых обеспечивает функциональность модуля 4. Модуль 4 выделяет метаинформацию электронных документов и сохраняет ее в виде метаинформационных маркеров, которые помещаются в обратный индекс - передаются в модуль хранения индексных структур электронных документов 2.Module 4 for generating markers storing the meta-information of electronic documents is a set of distributed servers or one server containing machine instructions in the memory section, the execution of which ensures the functionality of module 4. Module 4 selects the meta-information of electronic documents and stores it in the form of meta-information markers that are placed in reverse index - transferred to the storage module of index structures of electronic documents 2.

Модуль лингвистического анализа текста на естественном языке и формирования маркеров, хранящих информацию о вхождениях слов естественного языка, 5 представляет собой совокупность распределенных серверов или один сервер, содержащий в участке памяти машинные команды, исполнение которых обеспечивает функциональность модуля 5. Модуль 5 используется для построения индексных структур, содержащих информацию о вхождениях слов естественного языка в тексты электронных документов. Указанные индексные структуры помещаются в модуль хранения индексных структур электронных документов 2. Модуль 5 также используется для построения образа запроса пользователя.The module for linguistic analysis of natural language text and the formation of markers that store information about occurrences of words in the natural language, 5 is a set of distributed servers or one server containing machine instructions in the memory area, the execution of which provides the functionality of module 5. Module 5 is used to build index structures containing information about occurrences of natural language words in the texts of electronic documents. The indicated index structures are placed in the storage module of the index structures of electronic documents 2. Module 5 is also used to build the image of the user's request.

В целом предложенные система и способ могут быть реализованы на широком классе компьютерных систем, например на портативных компьютерах, на мультипроцессорных вычислительных системах, а также на распределенных вычислительных системах, в которых задачи выполняются удаленными компьютерами под управлением одного или нескольких процессоров (фиг.3). В распределенных компьютерных системах программные модули могут находиться на устройствах хранения данных как локальных, так и удаленным компьютером и загружаться в оперативную память непосредственно через сетевой интерфейс.In general, the proposed system and method can be implemented on a wide class of computer systems, for example, laptop computers, multiprocessor computing systems, as well as distributed computing systems in which tasks are performed by remote computers controlled by one or more processors (Fig. 3). In distributed computer systems, program modules can be located on the data storage devices of both local and remote computers and loaded into RAM directly via the network interface.

При работе системы, так же как и при работе известных поисковых систем, формируют аппаратными средствами поисковой системы соответствующую коллекцию электронных документов, каждый из которых обладает уникальным идентификатором (например, URL-адресом). Затем преобразуют коллекцию электронных документов поисковой системы в индексную структуру, организованную в виде инвертированного индекса слов естественного языка, а на этапе поиска выполняют поиск и анализ метаинформации о словах естественного языка в указанных документах.When the system works, as well as when the well-known search engines work, they form the hardware of the search engine a corresponding collection of electronic documents, each of which has a unique identifier (for example, a URL address). Then, the collection of electronic documents of the search system is transformed into an index structure organized in the form of an inverted index of natural language words, and at the search stage, meta-information about natural language words in the indicated documents is searched and analyzed.

Индексную структуру дополняют маркерами, хранящими метаинформацию (заголовок, сведения об авторах, дате публикации, формате документа и др.). Такие маркеры, содержащие базовую метаинформацию об электронном документе, помещаются в упорядоченный список маркеров, соответствующий каждому слову, входящему в электронный документ, помещаемый в индекс (фиг.2).The index structure is supplemented with markers that store meta-information (title, information about the authors, publication date, document format, etc.). Such markers containing basic meta-information about the electronic document are placed in an ordered list of markers corresponding to each word included in the electronic document placed in the index (figure 2).

В ходе лингвистического анализа электронного документа определяют:In the course of linguistic analysis of an electronic document determine:

- смещение вхождения слова от начала текста;- offset of the word from the beginning of the text;

- номер предложения, в котором находится вхождение;- number of the offer in which the entry is located;

- смещение в словах от начала предложения, в котором находится вхождение;- the offset in words from the beginning of the sentence in which the entry is located;

- вес вхождения - действительное число, определяющее информационную значимость вхождения в тексте документа;- entry weight - a real number that determines the informational significance of the entry in the text of the document;

- тег языка HTML или иную метку, соответствующую вхождению;- HTML language tag or other label corresponding to the entry;

- ассоциативные, синтаксические и семантические связи вхождения слова с другими вхождениями слов в текст.- associative, syntactic and semantic relations of the occurrence of a word with other occurrences of words in the text.

После лингвистического анализа документов дополняют индексную структуру маркерами, хранящими информацию, полученную в ходе лингвистического анализа. При этом, если часть информации, связанной с вхождением слова в документ, отсутствует (например, синтаксические или семантические связи), то соответственный маркер не помещается в индекс. Это способствует уменьшению размеров занимаемой памяти индексами поисковой системы.After a linguistic analysis of documents, the index structure is supplemented with markers that store information obtained during linguistic analysis. Moreover, if some of the information related to the occurrence of a word in a document is missing (for example, syntactic or semantic relations), then the corresponding marker is not placed in the index. This helps to reduce the size of the occupied memory by search engine indexes.

Схема организации данных в виде упорядоченных последовательностей маркеров в обратном индексе позволяет реализовать в системе семантического поиска эффективные алгоритмы индексирования, поиска и ранжирования электронных документов.The data organization scheme in the form of ordered sequences of markers in the reverse index makes it possible to implement efficient algorithms for indexing, searching, and ranking electronic documents in a semantic search system.

После получения запроса поиск электронных документов от пользователя поисковой системы формируют и передают пользователю поисковой системы перечень электронных документов, ранжированных по релевантности. Одновременное использование маркеров, хранящих в индексной структуре результаты лингвистического анализа метаданных документов, повышает качество проведения информационного поиска электронных документов.After receiving the request, the search for electronic documents from the user of the search system generates and transmits to the user of the search system a list of electronic documents ranked by relevance. The simultaneous use of markers that store the results of a linguistic analysis of document metadata in the index structure improves the quality of the information search for electronic documents.

Таким образом, предложен способ и система, отличающиеся от известных прототипов:Thus, the proposed method and system, different from the known prototypes:

- методами хранения и использования метаинформации электронных документов в индексных структурах в памяти компьютера;- methods for storing and using meta-information of electronic documents in index structures in computer memory;

- методами хранения и использования лингвистической информации о вхождениях слов в электронные документы в индексных структурах в памяти компьютера;- methods for storing and using linguistic information about occurrences of words in electronic documents in index structures in computer memory;

- методами извлечения информации из индексных структур и ее сопоставления с пользовательскими запросами.- methods for extracting information from index structures and comparing it with user queries.

Claims (4)

1. Способ семантического поиска электронных документов, при котором формируют аппаратными средствами поисковой системы коллекцию электронных документов, каждый из которых обладает уникальным идентификатором;
выделяют метаинформацию электронных документов;
извлекают тексты электронных документов из их электронного представления;
выполняют лингвистический анализ текстов электронных документов;
формируют инвертированный индекс слов естественного языка с привоением каждой лексеме соответствующего списка маркеров различных типов, занимающих одинаковый и фиксированный размер в компьютерной памяти и содержащих, в зависимости от своего типа, для каждого электронного документа, в тексте которого присутствует хотя бы одно вхождение лексемы:
метаинформацию об электронном документе,
информацию о вхождении слова в электронный документ для каждого вхождения;
получают запрос на поиск электронных документов от пользователя поисковой системы, содержащий фразу или предложение на естественном языке, а также метаинформацию документов, интересующих пользователя;
осуществляют выборку информации из инвертированного индекса соответственно словам и метаинформации запроса;
формируют и передают пользователю поисковой системы перечень идентификаторов найденных электронных документов.
1. A method for the semantic search of electronic documents, in which a collection of electronic documents is formed by the hardware of the search system, each of which has a unique identifier;
highlight meta-information of electronic documents;
extract texts of electronic documents from their electronic presentation;
perform linguistic analysis of texts of electronic documents;
they form an inverted index of natural language words with each lexeme being presented with an appropriate list of markers of various types that occupy the same and fixed size in computer memory and contain, depending on their type, for each electronic document in the text of which there is at least one occurrence of a token:
meta-information about an electronic document,
information about the occurrence of a word in an electronic document for each occurrence;
receive a request for the search for electronic documents from a user of a search engine containing a phrase or sentence in a natural language, as well as meta-information of documents of interest to the user;
select information from the inverted index according to the words and meta-information of the request;
form and transmit to the user of the search engine a list of identifiers of the found electronic documents.
2. Способ по п.1, отличающийся тем, что присваиваемые маркеры содержат дополнительную метаинформацию об электронном документе.2. The method according to claim 1, characterized in that the assigned markers contain additional meta-information about the electronic document. 3. Способ по п.1, отличающийся тем, что присваиваемые маркеры содержат дополнительную информацию о вхождении слова в электронный документ.3. The method according to claim 1, characterized in that the assigned markers contain additional information about the occurrence of a word in an electronic document. 4. Система семантического поиска электронных документов, включающая совокупность взаимосвязанных друг с другом модулей системы информационного поиска:
модуль формирования коллекции и выделения метаинформации электронных документов;
модуль хранения индексных структур электронных документов;
модуль формирования и выдачи пользователю поисковой системы перечня электронных документов, ранжированных по релевантности;
модуль формирования маркеров, хранящих метаинформацию электронных документов;
модуль лингвистического анализа текста на естественном языке и формирования маркеров, хранящих информацию о вхождениях слов естественного языка.
4. The system of semantic search for electronic documents, including a set of interconnected modules of the information search system:
module for the collection and allocation of meta-information of electronic documents;
module for storing index structures of electronic documents;
a module for generating and issuing to the user of a search engine a list of electronic documents ranked by relevance;
a module for generating markers storing meta-information of electronic documents;
module for linguistic analysis of natural language text and the formation of markers that store information about occurrences of natural language words.
RU2011132873/08A 2011-08-05 2011-08-05 Method and system for semantic search of electronic documents RU2473119C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2011132873/08A RU2473119C1 (en) 2011-08-05 2011-08-05 Method and system for semantic search of electronic documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2011132873/08A RU2473119C1 (en) 2011-08-05 2011-08-05 Method and system for semantic search of electronic documents

Publications (1)

Publication Number Publication Date
RU2473119C1 true RU2473119C1 (en) 2013-01-20

Family

ID=48806657

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2011132873/08A RU2473119C1 (en) 2011-08-05 2011-08-05 Method and system for semantic search of electronic documents

Country Status (1)

Country Link
RU (1) RU2473119C1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2564629C1 (en) * 2014-03-31 2015-10-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Method of clustering of search results depending on semantics
RU2606309C2 (en) * 2015-06-09 2017-01-10 Общество С Ограниченной Ответственностью "Яндекс" Method to create annotated search index and server used therein
RU2656982C1 (en) * 2017-03-27 2018-06-07 Федеральное государственное автономное образовательное учреждение высшего образования "Волгоградский государственный университет" Method of information retrieval of linguistic models of expression of business relations in documents of archival fund
RU2728899C1 (en) * 2019-10-02 2020-08-03 Федеральное государственное бюджетное научное учреждение "Федеральный исследовательский центр картофеля имени А.Г. Лорха" Method of forming unified information system (uis)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2236699C1 (en) * 2003-02-25 2004-09-20 Открытое акционерное общество "Телепортал. Ру" Method for searching and selecting information with increased relevance
US20070094304A1 (en) * 2005-09-30 2007-04-26 Horner Richard M Associating subscription information with media content
US20070156669A1 (en) * 2005-11-16 2007-07-05 Marchisio Giovanni B Extending keyword searching to syntactically and semantically annotated data
RU2343537C2 (en) * 2003-03-31 2009-01-10 Майкрософт Корпорейшн Computer search with help of associative links
RU2393536C2 (en) * 2008-03-21 2010-06-27 Общество с ограниченной ответственностью "Передовые сервисы и технологии" Method of unified semantic processing of information, which provides for, within limits of single formal model, presentation, control of semantic accuracy, search and identification of objects description

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2236699C1 (en) * 2003-02-25 2004-09-20 Открытое акционерное общество "Телепортал. Ру" Method for searching and selecting information with increased relevance
RU2343537C2 (en) * 2003-03-31 2009-01-10 Майкрософт Корпорейшн Computer search with help of associative links
US20070094304A1 (en) * 2005-09-30 2007-04-26 Horner Richard M Associating subscription information with media content
US20070156669A1 (en) * 2005-11-16 2007-07-05 Marchisio Giovanni B Extending keyword searching to syntactically and semantically annotated data
RU2393536C2 (en) * 2008-03-21 2010-06-27 Общество с ограниченной ответственностью "Передовые сервисы и технологии" Method of unified semantic processing of information, which provides for, within limits of single formal model, presentation, control of semantic accuracy, search and identification of objects description

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Губин М.В. «Модели и методы представления текстового документа в системах информационного поиска», диссертация, 2005 г., найдена в Интернете 06.06.2012 по адресу url: http://maxgubin.com/articles/thesis.pdf. *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2564629C1 (en) * 2014-03-31 2015-10-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Method of clustering of search results depending on semantics
RU2606309C2 (en) * 2015-06-09 2017-01-10 Общество С Ограниченной Ответственностью "Яндекс" Method to create annotated search index and server used therein
US9773035B1 (en) 2015-06-09 2017-09-26 Yandex Europe Ag System and method for an annotation search index
RU2656982C1 (en) * 2017-03-27 2018-06-07 Федеральное государственное автономное образовательное учреждение высшего образования "Волгоградский государственный университет" Method of information retrieval of linguistic models of expression of business relations in documents of archival fund
RU2728899C1 (en) * 2019-10-02 2020-08-03 Федеральное государственное бюджетное научное учреждение "Федеральный исследовательский центр картофеля имени А.Г. Лорха" Method of forming unified information system (uis)

Similar Documents

Publication Publication Date Title
US11977570B2 (en) Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation
US9864808B2 (en) Knowledge-based entity detection and disambiguation
US9715493B2 (en) Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model
US8819047B2 (en) Fact verification engine
Lops et al. Content-based and collaborative techniques for tag recommendation: an empirical evaluation
KR101060594B1 (en) Keyword Extraction and Association Network Configuration for Document Data
Rinaldi An ontology-driven approach for semantic information retrieval on the web
Hienert et al. Digital library research in action–supporting information retrieval in sowiport
US20090254540A1 (en) Method and apparatus for automated tag generation for digital content
US9311388B2 (en) Semantic and contextual searching of knowledge repositories
CA3010817C (en) Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation
RU2473119C1 (en) Method and system for semantic search of electronic documents
Yang Metadata effectiveness in internet discovery: An analysis of digital collection metadata elements and internet search engine keywords
JP2009288870A (en) Document importance calculation system, and document importance calculation method and program
Buscaldi et al. Using the semantics of texts for information retrieval: a concept-and domain relation-based approach
Barman et al. Developing Assamese Information Retrieval System Considering NLP Techniques: an attempt for a low resourced language
JP2010282403A (en) Document retrieval method
Tsapatsoulis Web image indexing using WICE and a learning-free language model
Manna et al. Information retrieval-based question answering system on foods and recipes
US8930373B2 (en) Searching with exclusion tokens
Naing et al. Core: A Search and Browsing Tool for Semantic Instances of Web Sites
Leveling et al. University of Hagen at GeoCLEF2006: Experiments with Metonymy Recognition in Documents.
Garrido et al. Knowledge obtention combining information extraction techniques with linked data
Kaptein et al. Recall oriented search on the web using semantic annotations
Sathianesan et al. Personalized semantic based blog retrieval

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20160806