RU2729224C2 - Information retrieval method and corporate information retrieval system - Google Patents

Information retrieval method and corporate information retrieval system Download PDF

Info

Publication number
RU2729224C2
RU2729224C2 RU2019100812A RU2019100812A RU2729224C2 RU 2729224 C2 RU2729224 C2 RU 2729224C2 RU 2019100812 A RU2019100812 A RU 2019100812A RU 2019100812 A RU2019100812 A RU 2019100812A RU 2729224 C2 RU2729224 C2 RU 2729224C2
Authority
RU
Russia
Prior art keywords
information
search
management system
database management
document
Prior art date
Application number
RU2019100812A
Other languages
Russian (ru)
Other versions
RU2019100812A3 (en
RU2019100812A (en
Inventor
Максим Сергеевич Багаев
Ольга Львовна Багаева
Original Assignee
Общество с ограниченной ответственностью "МАКСИОЛ"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "МАКСИОЛ" filed Critical Общество с ограниченной ответственностью "МАКСИОЛ"
Priority to RU2019100812A priority Critical patent/RU2729224C2/en
Publication of RU2019100812A3 publication Critical patent/RU2019100812A3/ru
Publication of RU2019100812A publication Critical patent/RU2019100812A/en
Application granted granted Critical
Publication of RU2729224C2 publication Critical patent/RU2729224C2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Abstract

FIELD: computer equipment.SUBSTANCE: invention relates to computer engineering. Disclosed is an information retrieval method implemented in a corporate information retrieval system configured to extract results from a plurality of different sources, comprising steps of receiving a request at an input; at the output, this request is issued in a set of different sources, wherein it is characterized by a hierarchical multi-tree list view of search results in form of one or more sets of related graphs, which nodes do not contain cycles, but can have duplicates and intersections with other sets or branches, wherein there can be a non-unique path, characterized by a sequence of nodes, from root to node, tree roots have a list representation and can be opened if necessary or interacting with the user interactively; includes execution of search requests; performing search query analysis by means of morphological analysis; accessing a search index database through a corporate information retrieval system and extracting search results therefrom; generating search results using a corporate information search system based on the right of the user making the request, and rights associated with the source information; filling a search index base; using information on document structure; aggregation of obtained information from files into documents, wherein files are considered as version of document; merging, via a corporate information search system, versions of files into a document for constructing a common index; finding, through a corporate information retrieval system, documents with similar structural data from meta-information for subsequent output of found information to a user in the presence of necessary rights; combining these documents through the corporate information retrieval system into higher-level structures, such as "project", "direction"; display when searching results in the form of "project", "direction".EFFECT: technical result is possibility of searching information with provision of information aggregation, information presentation form and compliance with information security requirements when providing access to documents.2 cl, 1 dwg

Description

Изобретение предназначено для крупных и средних предприятий, с большим объемом документов в информационной системе (ИС) предприятия и большим числом сотрудников. The invention is intended for large and medium-sized enterprises, with a large volume of documents in the information system (IS) of the enterprise and a large number of employees.

Особую актуальность корпоративная система поиска информации (КСПИ) приобретает в компаниях имеющих разветвленную организационную структуру в разных регионах страны или земного шара.The corporate information retrieval system (KSPI) acquires particular relevance in companies with an extensive organizational structure in different regions of the country or the world.

Корпоративный поиск – это функция, которая должна быстро и просто приводить пользователя к небольшому количеству результатов из миллионов документов. Это задача сильно отличается от поиска в Интернет, осуществляемого по огромному массиву информации. Enterprise search is a feature that should quickly and easily lead a user to a small number of results from millions of documents. This task is very different from searching the Internet over a huge amount of information.

Известна Система управления информацией (патент GB2338324, МПК G06F17/30, оп. 15.12.1999), используемая при поиске данных из множества блоков данных, такая как сборник научных статей, обеспечивает отображение группы единиц данных в виртуальном пространстве и указание каждым блоком данных его корреляции с критерием поиска. Между различными блоками данных предоставляются ссылки, которые помогают перемещаться по данным во время поиска. Кроме того, может быть дано указание на предыдущий или текущий поиск другим поисковым устройством, на котором будет отображаться путь поиска пользователей через группу единиц данных.Known Information Management System (patent GB2338324, IPC G06F17 / 30, op. 12/15/1999), used when searching for data from a plurality of data blocks, such as a collection of scientific articles, provides a display of a group of data units in virtual space and each data block indicates its correlation with search criteria. Links are provided between the various blocks of data to help navigate the data during searches. In addition, an indication of a previous or current search can be given by another search device, which will display the search path for users through a group of data units.

Недостаток известного технического решения заключается в том, что построены только связи документов, не определяя их версионность.The disadvantage of the known technical solution is that only document links are built without determining their versioning.

Известен Компьютеризированный метод (патент US6738678, МПК G06F17/30, оп. 18.05.2004), который определяет ранжирование документов, включая информационный контент. В настоящем методе используется анализ контента и связности. Входной набор документов представляется в виде графа окрестности в памяти. На графике каждый узел представляет один документ, и каждый направленный фронт, соединяющий пару узлов, представляет собой связь между двумя документами. Входной набор документов, представленных на графике, оценивается в соответствии с содержимым документов. Подмножество документов выбирается из набора входных данных, если ранжирование содержимого выбранных документов превышает первый заданный порог. Узлы, представляющие любые документы, отличные от выбранных документов, удаляются из графика. Выбранный поднабор документов оценивается в соответствии с привязкой документов, а выходной набор документов, превышающий второй заданный порог, выбирается для представления пользователям. Known Computerized method (patent US6738678, IPC G06F17 / 30, op. 18.05.2004), which determines the ranking of documents, including information content. This method uses content and connectivity analysis. The input set of documents is represented as a neighborhood graph in memory. In the graph, each node represents one document, and each directional front that connects a pair of nodes represents a link between the two documents. The input set of documents presented in the graph is evaluated according to the content of the documents. A subset of documents is selected from the input dataset if the content ranking of the selected documents exceeds the first specified threshold. Nodes representing any documents other than the selected documents are removed from the schedule. The selected subset of documents is evaluated according to the document anchor, and the output document set that exceeds a second predetermined threshold is selected for presentation to users.

Наиболее близким техническим решением, принятым в качестве прототипа является СПОСОБ, СИСТЕМА И КОМПЬЮТЕРНЫЙ ПРОГРАММНЫЙ ПРОДУКТ ДЛЯ ПОИСКА, НАВИГАЦИИ И РАНЖИРОВАНИЯ ДОКУМЕНТОВ В ПЕРСОНАЛЬНОЙ СЕТИ (Патент РФ 2388050, МПК G06F17/30, оп. 27.04.2010). В способе определяют ненаправленную взвешенную связь между двумя из упомянутого множества документов на основе подобия; определяют направленную взвешенную связь между, по меньшей мере, двумя из упомянутого множества документов; добавляют упомянутые определенные ненаправленные взвешенные связи к упомянутым определенным направленным взвешенным связям для создания гибридной сети, имеющей связи, и выполняют алгоритм анализа связей, получающий связи упомянутой гибридной сети в качестве своих входных данных, причем упомянутый алгоритм включает в себя, по меньшей мере, анализ связей вперед и анализ связей назад. Выходными данными упомянутого алгоритма является набор оценок в анализе связей. The closest technical solution adopted as a prototype is the METHOD, SYSTEM AND COMPUTER SOFTWARE FOR SEARCHING, NAVIGATION AND RANKING OF DOCUMENTS IN THE PERSONAL NETWORK (RF Patent 2388050, IPC G06F17 / 30, op. 27.04.2010). The method determines an undirected weighted relationship between two of said plurality of documents based on similarity; determine directional weighted relationship between at least two of the above-mentioned plurality of documents; add said certain non-directional weighted links to said certain directional weighted links to create a hybrid network having links, and perform a link analysis algorithm receiving links of said hybrid network as its input, said algorithm including at least link analysis forward and backward link analysis. The output of this algorithm is a set of estimates in the analysis of links.

Недостаток заключается в том, известное техническое решение является универсальным и касается только построения связей между документами, но отсутствуют связи между версиями документов. The disadvantage is that the known technical solution is universal and concerns only the construction of links between documents, but there are no links between versions of documents.

Задача изобретения заключается в разработке способа агрегировании информации, формы представления и соответствия требованиям информационной безопасности (ИБ) при предоставлении доступа к документам. The objective of the invention is to develop a method for aggregating information, presentation forms and compliance with information security (IS) requirements when providing access to documents.

Техническим результатом от применения изобретения является предоставление возможности поиска информации с обеспечением агрегирования информации, формы представления информации и соответствия требованиям информационной безопасности (ИБ) при предоставлении доступа к документам. The technical result from the application of the invention is to provide the ability to search for information with the provision of information aggregation, the form of information presentation and compliance with information security (IS) requirements when providing access to documents.

Это достигается за счет того, что способ извлечения информации, реализуемый This is achieved due to the fact that the information retrieval method implemented

в корпоративной системе поиска информации, выполненной с возможностью извлечения результатов из совокупности различных источников, содержащий этапы, на которых на входе принимают запрос; на выходе выдают этот запрос в совокупности различных источников, согласно изобретению, характеризуется иерархическим мульти - древовидном списочном представлении результатов поиска в виде одного или многих наборов связанных графов, узлы которых не содержат циклы, но могут иметь дубли и пересечения с другими наборами или ветвями, при этом могут иметь неуникальный путь, характеризующийся последовательностью узлов, от корня до узла, корни деревьев имеют списочное представление, и могут раскрываться при необходимости или при взаимодействии с пользователем интерактивно. Способ включает выполнение поисковых запросов посредством веб-интерфейса, мобильного приложения, или в иной системе посредством программного интерфейса приложения API, предоставляющего услуги, как основной интерфейс пользователя, может быть использована поисковая строка; далее проведение разбора поискового запроса при помощи морфологического анализа, используя базу или иное хранилище похожих слов или их компонентов, для расширения возможности поиска; применяя корпоративную систему поиска информации; обращение к базе поискового индекса через корпоративную систему поиска информации и извлечения из нее результатов поиска в виде ссылки, документа, проекта, файла, объекта, контактной информации для взаимодействия с владельцем информации; формирование результатов поиска используя корпоративную систему поиска информации, исходя из полномочий пользователя, делающего запрос и полномочий связанных с исходной информацией; наполнение базы поискового индекса через взаимодействие корпоративной системы поиска информации с информационной системой компании и получение от нее информации для создания поискового индекса, на основании которого осуществляется поиск; использование информации о структуре документа для повышения качества индексации, поиска и отображения документа; агрегирование полученной информации из файлов в документы, при этом файлы рассматриваются как версии документа; объединение через корпоративную систему поиска информации версий файлов в документ для построения общего индекса; нахождение через корпоративную систему поиска информации документов с похожими структурными данными из мета - информации для последующего вывода найденной информации пользователю при наличии у него необходимых полномочий; объединение по данным признакам через корпоративную систему поиска информации этих документов в более верхнеуровневые структуры, такие как "проект", "направление"; отображение при проведении поиска результатов в виде "проекта", "направления", в котором может быть указано наименование "проекта", создатели, владельцы "проекта", "направления" и прочая информация доступная пользователю, согласно его полномочий.in a corporate information retrieval system, capable of extracting results from a set of various sources, containing stages at which a request is received at the input; at the output, this query is issued in a set of different sources , according to the invention, it is characterized by a hierarchical multi-tree list representation of search results in the form of one or many sets of connected graphs, the nodes of which do not contain cycles, but may have duplicates and intersections with other sets or branches, when This can have a non-unique path, characterized by a sequence of nodes, from root to node, the roots of trees have a list view, and can be expanded when necessary or when interacting with the user interactively. The method includes executing search queries through a web interface, a mobile application, or in another system through an API providing services, as the main user interface, a search string can be used; further parsing the search query using morphological analysis, using a database or other storage of similar words or their components, to expand the search capabilities; using a corporate information retrieval system; accessing the search index base through the corporate information search system and extracting search results from it in the form of a link, document, project, file, object, contact information to interact with the information owner; formation of search results using the corporate information retrieval system, based on the authority of the user making the request and the authority associated with the initial information; filling the search index base through the interaction of the corporate information search system with the company's information system and receiving information from it to create a search index, on the basis of which the search is carried out; using information about the structure of the document to improve the quality of indexing, search and display of the document; aggregation of the information received from files into documents, while the files are considered as versions of the document; combining file versions into a document through the corporate search system to build a common index; finding documents with similar structural data from meta-information through the corporate information search system for the subsequent display of the found information to the user if he has the necessary powers; combining these documents according to these characteristics through the corporate information search system into higher-level structures, such as "project", "direction"; displaying the search results in the form of a "project", "direction", in which the name of the "project", creators, owners of the "project", "directions" and other information available to the user, according to his authority, can be indicated.

Это достигается также за счет того, что корпоративная система поиска информации (КСПИ), содержит основные структуры, в виде агента источника данных (АИД), системы управления Базой Данных (СУБД), системы агрегирования информации (САИ), системы интерфейса пользователя (СИП); агент источника данных АИД предназначен для поставки документов, файлов, извлечения ключевых слов, ранжирования ключевых слов, индексации, считывания свойств, полномочий или иной мета - информации, а также для использования технологии преобразования графического изображения текста в компьютерный текст с помощью алгоритма распознавания графических образов (OCR), формирования индексной информации, которая поступает в систему управления базой данных СУБД, агент источника данных АИД содержит набор фильтров, которые обеспечивают разбор различных форматов файлов, причем мета - информация поступает и от агента и из фильтра, из которого она извлекается, формирования поискового индекса для сохранения в системе управления базой данных СУБД, причем агент источника данных АИД может быть реализован на нескольких функциональных информационных системах (ИС); система управления базой данных СУБД предназначена для хранения: морфологических словоформ для расширения возможностей поиска, штатной или организационной структуры предприятия полученной из информационных систем ИС предприятия, полномочий, поискового индекса; система агрегирования информации САИ предназначена для проведения концентрирования отдельных потоков информации в единую структуру, с возможностью формирования индексной информации для объединения файлов в документы, документов в проекты; система интерфейса пользователя СИП предназначена для реализации взаимодействия с пользователем, посредством различных программных и аппаратных средств; при этом выход агента источника данных АИД соединен со входом системы управления базой данных СУБД, и система управления базой данных СУБД соединена с системой агрегирования информации САИ и с системой интерфейса пользователя СИП; агент источника данных АИД осуществляет взаимодействие с информационной системой, файловыми серверами, системой документооборота, интранет и интернет-сайтами, получает оттуда информацию и полномочия, агент источника данных АИД полностью считывает сам файл, выбирает из системы всю информацию о полномочиях, название файла, наименование файла, теги, флаги, то есть внешние атрибуты файла и отправляет вместе со всей мета - информацией, полномочия, дату создания, создателя, которую он взял из информационной системы ИС, в систему управления базой данных СУБД; агент источника данных АИД предназначен для обработки информации, содержит модуль распознавания (OCR), формирует индексную информацию, которую можно поместить в систему управления базой данных СУБД, содержит набор фильтров, которые обеспечивают разбор различных форматов файлов, причем мета - информация поступает и от агента и из фильтра, который ее извлекает; в систему управления базой данных СУБД поступает мета - информация, а также информация для создания поискового индекса; система управления базой данных СУБД является компонентом корпоративной системы поиска информации, которая хранит индексы, при поступлении запроса через систему интерфейса пользователя СИП, происходит обращение к системе управления базой данных СУБД и получение необходимой информации из системы управления базой данных СУБД, при этом выборка осуществляется на основании информации, которая храниться в системе управления базой данных СУБД с использованием морфологии, разбора запроса; агент источника данных АИД выполнен с возможностью сжимать и отправлять полученную информацию на сервер, где находится система управления базой данных СУБД, там информация разворачивается и вкладывается в систему управления базой данных СУБД, так как каналы связи могут быть слабыми; система интерфейса пользователя СИП формирует запросы к системе управления базой данных СУБД для извлечения информации, с учетом морфологии, разбора слов, осуществляет сами запросы и уточнения, система интерфейса пользователя СИП осуществляет двухсторонний обмен информацией с системой управления базой данных СУБД.This is also achieved due to the fact that the corporate information retrieval system (KSPI) contains the main structures in the form of a data source agent (AID), a database management system (DBMS), an information aggregation system (AIS) , a user interface system (SIP) ; AID data source agent is intended for delivery of documents, files, extraction of keywords, ranking of keywords, indexing, reading properties, powers or other meta - information, as well as for using the technology of converting a graphic image of text into computer text using a graphic recognition algorithm ( OCR), the formation of index information that enters the database management system of the DBMS, the agent of the AID data source contains a set of filters that provide parsing of various file formats, and meta-information comes from both the agent and the filter from which it is extracted, the formation of a search an index to be stored in the DBMS database management system, and the AID data source agent can be implemented on several functional information systems (IS); database management system DBMS is designed to store: morphological word forms to expand search capabilities, staff or organizational structure of the enterprise obtained from the information systems of the enterprise's IS, authority, search index; AIS information aggregation system is designed to concentrate individual streams of information into a single structure, with the ability to generate index information to combine files into documents, documents into projects; the SIP user interface system is designed to implement interaction with the user through various software and hardware; wherein the output of the AID data source agent is connected to the input of the DBMS database management system, and the DBMS database management system is connected to the AIS information aggregation system and to the VIS user interface system; AID data source agent interacts with the information system, file servers, document management system, intranet and Internet sites, receives information and powers from there, AID data source agent completely reads the file itself, selects from the system all information about powers, file name, file name , tags, flags, that is, the external attributes of the file and sends along with all the meta - information, authority, date of creation, the creator, which he took from the IS information system, to the DBMS database management system; the AID data source agent is designed to process information, contains a recognition module (OCR), generates index information that can be placed in the database management system of the DBMS, contains a set of filters that provide parsing of various file formats, and meta-information comes from the agent and from the filter that extracts it; meta - information, as well as information for creating a search index, is sent to the DBMS database management system; database management system DBMS is a component of the corporate information retrieval system that stores indexes, when a request is received through the SIP user interface system, the DBMS database management system is accessed and the necessary information is obtained from the DBMS database management system, while the selection is based on information stored in the DBMS database management system using morphology, parsing the request; the AID data source agent is configured to compress and send the received information to the server where the DBMS database management system is located, where the information is deployed and embedded in the DBMS database management system, since the communication channels may be weak; the SIP user interface system generates requests to the DBMS database management system to retrieve information, taking into account the morphology, parsing words, performs the requests and clarifications themselves, the SIP user interface system carries out a two-way exchange of information with the DBMS database management system.

Новые существенные признаки данного изобретения:New essential features of this invention:

1. Иерархическое мульти-древовидное списочное представление результатов поиска, а именно в виде одного или многих наборов связанных графов, где узлы графа не содержат циклы, но могут иметь дубли и пересечения с другими наборами или ветвями, а также иметь не уникальный путь (последовательностью узлов) от корня до узла, при этом корни деревьев могут иметь списочное представление и раскрываться при необходимости или при взаимодействии с пользователем как результат поиска, использование дерева как способа интерактивно уточнять запрос поиск.1. Hierarchical multi-tree list representation of search results, namely in the form of one or many sets of connected graphs, where the graph nodes do not contain cycles, but may have duplicates and intersections with other sets or branches, and also have a non-unique path (sequence of nodes) from a root to a node, while the roots of trees can have a list representation and expand when necessary or when interacting with a user as a search result, using a tree as a way to interactively refine a search query.

2. Агрегирование информации – то есть объединение версий документа/файлов в документ, объединение документов в проект, и так далее по доступной иерархии; возможно использование агрегированного индекса для поиска.2. Aggregation of information - that is, combining versions of a document / files into a document, combining documents into a project, and so on along the available hierarchy; it is possible to use an aggregated index for search.

3. Последовательное агрегирование версий документа, в связи с накоплением отличий первоначальной версии к конечной.3. Sequential aggregation of document versions, due to the accumulation of differences between the initial version and the final one.

4. Соответствие требованиям современной Информационной Безопасности – а именно управление полномочиями при поиске.4. Compliance with the requirements of modern Information Security - namely, the management of permissions in the search.

Существенные отличия заявляемого изобретения от известных технических решений.Significant differences between the claimed invention and known technical solutions.

1. Корпоративный поиск - поиск может работать с изначально закрытой информацией. В известных решениях интернет поиск - поиск для всех изначально открытой информации.1. Corporate search - search can work with initially closed information. In known solutions, Internet search is a search for all initially open information.

2. Работа с дублями - возможность консолидации всех версий, оперирование сущностью "Документ", который может в себя включать множество версий и множество файлов. В известных решениях работа с дублями - интернет поиск дубли исключает, они ищут самую первую версию или наиболее востребованную пользователями и считают ее наиболее релевантной.2. Working with duplicates - the ability to consolidate all versions, operating on the "Document" entity, which may include many versions and many files. In known solutions, work with duplicates - the Internet excludes duplicate search, they are looking for the very first version or the most demanded by users and consider it the most relevant.

3. Может проходить агрегирование информации (агрегирование документов в проекты, и далее по иерархии). Возможность использования иерархии, в пределах которой может рассматриваться поиск документов. В иерархии возможно использовать дополнительные свойства документа (дата создания, автор создания) и полномочия документа, которые могут предоставлять системы хранения документа, а также в КСПИ возможно выделение у документа - тегов (слово, словосочетание, которое может использоваться в поиске). В известных решениях выдаются различные документы, нет агрегации в проекты, может быть огромное количество документов, в которых пользователь может запутаться.3. Aggregation of information can take place (aggregation of documents into projects, and further along the hierarchy). The possibility of using a hierarchy within which the search for documents can be considered. In the hierarchy, it is possible to use additional document properties (date of creation, author of creation) and document permissions, which can be provided by document storage systems, and in the KSPI it is also possible to select tags from a document (a word, a phrase that can be used in a search). In the known solutions, various documents are issued, there is no aggregation into projects, there can be a huge number of documents in which the user can get confused.

4. В системе не используется анализ релевантности на основании информации от пользователей. В известных решениях при поиске учитывается релевантность анализа документа на основании информации от пользователей. Накапливается статистика, сколько пользователей посмотрело и сколько времени на просмотр затрачено. 4. The system does not use relevance analysis based on information from users. In known solutions, the search takes into account the relevance of document analysis based on information from users. Statistics are accumulated on how many users have viewed and how much time was spent on viewing.

5. В поисковой системе может учитываться вся информация, все версии. В известных решениях на основании графов строят связи документов, чтобы выбрать необходимый документ, отбрасывая ненужные версии. 5. The search engine can take into account all information, all versions. In known solutions, based on graphs, document links are built to select the required document, discarding unnecessary versions.

6. В КСПИ могут отсутствовать ссылки с документа на документ. Ранжирование по этим признакам также может отсутствовать. (Проект не может быть более популярным, если на него кто-то ссылается). КСПИ может работать с закрытой информацией. В известных решениях ранжируют при поиске документов на основании ссылок документа на документ. Больше ссылок (больше пользователей посмотрело) - считается более релевантным. 6. The KSPI may lack links from document to document. There may also be no ranking for these attributes. (A project cannot be more popular if someone links to it). KSPI can work with classified information. In known solutions, when searching for documents, they are ranked based on document-to-document links. More links (more users viewed) is considered more relevant.

7. В процессе поиска - могут вырисовываться две самостоятельные опции:7. During the search, two independent options may appear:

а. иерархическое мульти-древовидное списочное представлении результатов поиска;and. hierarchical multi-tree list view of search results;

б. возможность управлять полномочиями, в соответствии с полномочиями возможно отображение или документа, или указывается средство, способ для связи с владельцем документа, чтобы была возможность получить сам документ (в результате поиска - документ или отдел разработавший документ - ФИО начальника отдела, телефон, е-мейл). А также существует возможность запросить полномочия на разыскиваемый документ через корпоративные системы запроса полномочий (систему IDM и т.д.). В известных решениях найденная информация представлена в виде ссылок на документы.b. the ability to manage powers, in accordance with the powers, it is possible to display either a document, or indicate a means, a method for communicating with the owner of the document, so that it is possible to get the document itself (as a result of the search - the document or the department that developed the document - full name of the head of the department, phone, e-mail ). And it is also possible to request authorization for the wanted document through corporate authorization request systems (IDM system, etc.). In known solutions, the information found is presented in the form of links to documents.

8. КСПИ может оперировать с сущностью документа, то есть информация из всех версий может консолидироваться и использоваться для поиска этого документа. Документы могут также не относиться к одному проекту, а быть разбросанными по разным системам хранения данных. В известных решениях информация не консолидируется, предоставляются пользователю различные варианты документов.8. KSPI can operate with the essence of the document, that is, information from all versions can be consolidated and used to search for this document. Documents may also not belong to one project, but be scattered across different data storage systems. In the known solutions, the information is not consolidated; different versions of documents are provided to the user.

9. В КСПИ поиск может вестись не отдельного документа, а всего проекта целиком. В известных решениях ведется поиск отдельного документа.9. In KSPI, the search can be conducted not for a separate document, but for the entire project. Known solutions search for a separate document.

10. Поисковый индекс может строиться по объекту - "документ" состоящего из множества файлов-версий документа. Индекс, возможно используемый в предлагаемой системе - агрегированный. Он может содержать в себе информацию из всех версий документа. (информация в разных версиях документа может принципиально отличаться). В известных решениях поисковый индекс - строится по одному файлу (он же документ). 10. The search index can be built on the basis of an object - a "document" consisting of many file versions of the document. The index possibly used in the proposed system is aggregated. It can contain information from all versions of the document. (information in different versions of the document may differ fundamentally). In known solutions, the search index is built one file at a time (aka document).

11. При наличии объекта - "проект" поиск может проходить по множеству файлов и множеству версий. Есть возможность провести дополнительную агрегацию на верхний уровень - выше уровня документа. (например проект, проекты, каталог отдела). В известных решениях ведется поиск только отдельного документа, нет агрегации.11. If there is an object - "project", the search can go through many files and many versions. It is possible to carry out additional aggregation at the top level - above the document level. (eg project, projects, department directory). In the known solutions, only a single document is searched, there is no aggregation.

12. Удовлетворительный результат поиска - это предоставление всех версии документа, или проекта, или проекты, или наименование отдела, который этим занимается (является владельцем данной информации), в зависимости от полномочий запрашивающего лица. В известных решениях результат поиска - открытый документ. Данный поиск и его результаты не зависят от полномочий лица, осуществляющего поиск.12. A satisfactory search result is the provision of all versions of a document, or a project, or projects, or the name of the department that deals with this (is the owner of this information), depending on the authority of the requestor. In known solutions, the search result is an open document. This search and its results are independent of the authority of the searcher.

Сущность технического решения.The essence of the technical solution.

КСПИ предоставляет для пользователя возможность делать поисковые запросы посредством веб - интерфейса, мобильного приложения, или в иной системе посредством программного интерфейса приложения (API), предоставляющей услуги. Как основной интерфейс пользователя может быть использована поисковая строка.KSPI provides the user with the ability to make search queries through a web interface, a mobile application, or in another system through an application programming interface (API) providing services. The search bar can be used as the main user interface.

Поисковая система предназначена для крупных и средних предприятий, с большим объемом документов в ИС предприятия и большим числом сотрудников. Особую актуальность КСПИ приобретает в Компаниях имеющих разветвленную организационную структуру в разных регионах страны или земного шара. The search engine is intended for large and medium-sized enterprises with a large volume of documents in the enterprise's IS and a large number of employees. The KSPI acquires particular relevance in Companies with an extensive organizational structure in different regions of the country or the world.

Новизна КСПИ заключается в агрегировании информации, форме представления и соответствия требованиям ИБ при предоставлении доступа к документам. The novelty of the KSPI lies in the aggregation of information, the form of presentation and compliance with IS requirements when providing access to documents.

Результатом поиска может служить документ, проект, объект, верхнеуровневая структура ИС и/или контактная информация для взаимодействия с владельцем информации. КСПИ формирует результат поиска исходя из полномочий пользователя делающего запрос и полномочий связанных с исходной информацией.The search result can be a document, project, object, top-level structure of the IS and / or contact information for interacting with the owner of the information. KSPI generates a search result based on the authority of the user making the request and the authority associated with the initial information.

Поисковый запрос может быть разобран при помощи морфологического анализа, может быть использована база или иное хранилище похожих слов или их компонентов, которые расширяют возможности поиска. A search query can be parsed using morphological analysis, a database or other storage of similar words or their components can be used, which expands the search capabilities.

КСПИ взаимодействует с ИС Компании и получает от нее информацию для создания поискового индекса на основании, которого осуществляется поиск.KSPI interacts with the Company's IS and receives information from it to create a search index on the basis of which the search is carried out.

С ИС Компании КСПИ может получать информацию о составе групп безопасности, считывать информацию о полномочиях с самих вложенных файлов, директорий или иных структур хранения данных.With the IS of the Company, KSPI can receive information about the composition of security groups, read information about permissions from the attached files themselves, directories or other data storage structures.

КСПИ также может получать информацию о штатной структуре предприятия, контактную информацию, и другую дополнительную информацию в виде тегов, флагов самого документа, свойств документа и прочей мета - информации для последующего вывода найденной информации пользователю при наличии у него необходимых полномочий. KSPI can also receive information about the staff structure of the enterprise, contact information, and other additional information in the form of tags, flags of the document itself, document properties and other meta - information for the subsequent display of the found information to the user if he has the necessary powers.

Использование информации о структуре документа, может использоваться для повышения качества индексации, поиска и отображения документа. Using information about the structure of the document can be used to improve the quality of indexing, search and display of the document.

Полученная информация о файлах может агрегироваться в документы. КСПИ может объединять версии и файлы в документ, чтобы построить общий индекс. Однако возможен вывод и отдельных документов. The obtained information about files can be aggregated into documents. CSPI can combine versions and files into a document to build a common index. However, the output of individual documents is also possible.

Так же КСПИ может находить документы с похожими структурными данными (заголовки, теги, дата создания, прочая мета - информация), по данным признакам КСПИ может объединять эти документы в "проект", при проведении поиска результат может отображаться в виде "проекта". В нем может быть указано наименование проекта, создатели, владельцы "проекта" и прочая информация доступная пользователю, согласно его полномочий. Аналогичными методами проекты могут объединяться в более высокоуровневые структуры.Also KSPI can find documents with similar structural data (titles, tags, date of creation, other meta - information), according to these features, KSPI can combine these documents into a "project", when searching, the result can be displayed as a "project". It can indicate the name of the project, the creators, owners of the "project" and other information available to the user, according to his authority. Projects can be combined into higher-level structures using similar methods.

Для ясного понимания, данное описание касается упрощенных вариантов осуществления настоящего изобретения. Многие варианты осуществления настоящего технического решения будут обладать гораздо большей сложностью. For clear understanding, this description relates to simplified embodiments of the present invention. Many embodiments of the present technical solution will be much more complex.

Предоставление информации Пользователю.Providing information to the User.

После отправки поискового запроса (в запросе может быть одно или несколько слов), пользователь может получить ответ в агрегированном виде, в виде свернутых иерархических структур (деревьев). Корнями являются структуры верхнего уровня, например Государства или Регионы, в которых представлена компания. По мере развертывания дерева могут открыться такие группы как: After sending a search query (the query may contain one or several words), the user can receive an aggregate response in the form of collapsed hierarchical structures (trees). The roots are top-level structures, such as the States or Regions in which the company is represented. As the tree expands, groups such as:

a) регион;a) region;

b) организации;b) organizations;

c) подразделения;c) divisions;

d) проекты, структуры и пр.d) projects, structures, etc.

e) документ/ы;e) document / s;

f) версии документа.f) document versions.

Данный список не является полным или исключительным, возможно представление в дереве других групп, специалисты в данной области могут создавать другие группы, остающиеся в границах объема настоящей технологии. Список может формироваться на основании статистической информации в автоматическом режиме. Данный список групп не должен интерпретироваться как единственный вариант осуществления этого элемента настоящей технологии и/или то, что было описано выше, является единственным вариантом осуществления этого элемента настоящей технологии.This list is not complete or exclusive, other groups may be represented in the tree, those skilled in the art may create other groups that remain within the scope of the present technology. The list can be formed on the basis of statistical information in automatic mode. This list of groups should not be interpreted as the only embodiment of this element of the present technology and / or what has been described above is the only embodiment of this element of the present technology.

Пользователь при развертывании дерева может дойти:The user when expanding the tree can reach:

1) до проекта, документа и версий документа при наличии у него полномочий:1) before the project, document and document versions, if he has the authority:

2) до каталога отдела (подразделения), при отсутствии у него полномочий, с предоставлением пользователю информации о:2) to the directory of the department (unit), in the absence of authority, providing the user with information about:

a) подразделении владельце;a) subdivision owner;

b) руководителе подразделения;b) the head of the department;

c) владельце ресурса;c) resource owner;

d) контактной информации;d) contact information;

Данный список не является полным или исключительным, возможно предоставление другой информации.This list is not complete or exclusive, other information may be provided.

Данный список информации не должен интерпретироваться как единственный вариант осуществления этого элемента настоящей технологии и/или то, что было описано выше, является единственным вариантом осуществления этого элемента настоящей технологии.This list of information should not be interpreted as the only embodiment of this element of the present technology and / or what has been described above is the only embodiment of this element of the present technology.

На основании полученной информации пользователь может запросить необходимые ему полномочия, к примеру:Based on the information received, the user can request the necessary powers, for example:

- ФИО и должность могут подсказать, к кому необходимо обратиться за необходимыми полномочиями. Телефон или е-мейл может быть предоставлен для запросов полномочий. - Full name and position can tell who you need to contact for the necessary authority. A telephone or email can be provided for authorization requests.

При наличии интегрированной системы управления учетными данными (IDM), пользователь может запросить полномочия на просмотр документов в автоматическом режиме. With an Integrated Identity Management (IDM) system, the user can request permission to view documents automatically.

Возможно, что с запрашиваемыми документами (версиями, файлами, документами, проектами, объектами) ведется работа в других подразделениях, данная информация также может отобразиться в дереве при наличии такой информации и полномочий пользователя для ее получения. В иерархии версий может отобразиться, что с данным проектом (версией, файлом, документом, объектом) работал сторонний отдел (или сторонние отделы) и результаты работы другого отдела, возможно, будут храниться в другом каталоге, ресурсе или ИС. В зависимости от наличия у пользователя необходимых полномочий, он сможет увидеть полную развернутую информацию. Если же нет полномочий, он сможет запросить необходимую информацию и у стороннего отдела, используя контактную информацию или запросить полномочия через систему IDM, при ее наличии в Компании. Реализация управления безопасностью является опциональной и основывается на специфике заказчика.It is possible that other departments are working with the requested documents (versions, files, documents, projects, objects), this information can also be displayed in the tree if there is such information and the user's authority to obtain it. In the hierarchy of versions, it may appear that a third-party department (or third-party departments) worked with this project (version, file, document, object) and the results of the work of another department may be stored in another directory, resource or IS. Depending on whether the user has the necessary permissions, he will be able to see the full detailed information. If there is no authority, he will be able to request the necessary information from a third-party department using contact information or request authority through the IDM system, if available in the Company. The implementation of security management is optional and is customer specific.

На рисунке показана схема работы КСПИ.The figure shows the scheme of work of the KSPI.

КСПИ состоит из следующих основных структур: АИД 1, СУБД 2, САИ 3, СИП 4. Все примеры и используемые в настоящем описании условные конструкции предназначены для того, чтобы можно было понять принцип настоящего технического решения, а не для установления границ ее объема. Специалисты в данной области могут разработать различные схемы, отдельно не описанные и не показанные в данном описании, но которые воплощают собой принципы настоящей технологии и находятся в границах ее объема. KSPI consists of the following basic structures: AID 1, DBMS 2, AIS 3, SIP 4. All examples and conditional constructions used in this description are intended to understand the principle of this technical solution, and not to establish the boundaries of its scope. Those of skill in the art can devise various schemes, not separately described or shown in this description, but which embody the principles of the present technology and are within its scope.

Агент источника данных - АИД (1) - может осуществлять:Data source agent - AID (1) - can carry out:

a) поставку документов (файлов);a) supply of documents (files);

b) парсинг (разбор) текстовой информации в том числе и OCR преобразование документов;b) parsing (analysis) of text information, including OCR conversion of documents;

c) экстракцию (извлечение) ключевых слов;c) extraction (extraction) of keywords;

d) ранжирование ключевых слов;d) ranking of keywords;

f) считывание свойств, полномочий или иной мета - информации;f) reading properties, powers or other meta - information;

e) формирование поискового индекса для сохранения в СУБДe) formation of a search index for saving in the DBMS

Данный список функционала АИД не должен интерпретироваться как единственный вариант осуществления этого элемента настоящей технологии и/или то, что было описано выше, является единственным вариантом осуществления этого элемента настоящей технологии. АИД может быть реализован на нескольких функциональных ИС с различным функциональным разделением.This list of AID functionality should not be interpreted as the only embodiment of this element of the present technology and / or what has been described above is the only embodiment of this element of the present technology. AID can be implemented on several functional ICs with different functional divisions.

Система Управления Базой Данных СУБД (2) это структура, в которой осуществляется хранение:Database Management System DBMS (2) is a structure in which storage is carried out:

а) морфологических словоформ для расширения возможностей поиска;a) morphological word forms to expand search capabilities;

б) штатной или организационной структуры предприятия полученной из ИС предприятия;b) staff or organizational structure of the enterprise obtained from the enterprise's IP;

в) полномочий;c) powers;

г) поискового индекса.d) search index.

Данный список хранимой в СУБД информации не должен интерпретироваться как единственный вариант осуществления этого элемента настоящей технологии и/или то, что было описано выше, является единственным вариантом осуществления этого элемента настоящей технологии.This list of information stored in the DBMS should not be interpreted as the only embodiment of this element of the present technology and / or what has been described above is the only embodiment of this element of the present technology.

Система Агрегирования Информации САИ (3) это структура, в которой осуществляется анализ отдельных блоков информации с целью выявления общностей и формирования поисковой информации для объединения файлов в документы, документов в проекты.The AIS Information Aggregation System (3) is a structure in which the analysis of individual blocks of information is carried out in order to identify communities and generate search information for combining files into documents, documents into projects.

Система Интерфейса Пользователя СИП (4) может реализовать взаимодействие с пользователем, посредством различных программных и аппаратных средств. The SIP User Interface System (4) can implement interaction with the user through various software and hardware.

Все заявленные здесь принципы, аспекты и варианты осуществления настоящего изобретения, равно как и конкретные примеры, предназначены для обозначения их структурных и функциональных основ, вне зависимости от того, известны ли они на данный момент или будут разработаны в будущем.All principles, aspects and embodiments of the present invention as claimed herein, as well as specific examples, are intended to indicate their structural and functional bases, whether they are currently known or will be developed in the future.

Взаимодействие компонентов системы:Interaction of system components:

1. Агент источника данных (АИД), который осуществляет взаимодействие с информационной системой (файловый сервер, система документооборота, интранет и интернет-сайты)(все что содержит в себе файлы), получает оттуда информацию, полномочия. АИД полностью считывает сам файл, берет из информационной системы всю информацию о полномочиях, название документа/файла, наименование документа/файла, теги, флаги, то есть внешние атрибуты файла. АИД содержит набор фильтров, которые обеспечивают разбор различных форматов файлов/документов. Фильтры извлекают как и текстовую информацию, так и мета-информацию. Например - документ Microsoft Word содержит в себе информацию: сам текст, разметку, заголовки, и другую мета - информацию (кто создатель, дата создания и т.д.). Данный документ/файл является контейнером, содержащим различную информацию. Фильтр является средством унификации на уровне парсинга различных форматов данных. Список фильтров может расширяться по мере необходимости осуществлять обработку новых форматов данных. Вся полученная информация из АИД поступает в СУБД для формирования поискового индекса. АИД может содержать в себе модуль распознавания текста в графической информации (OCR).1. Data Source Agent (AID), which interacts with the information system (file server, document management system, intranet and Internet sites) (everything that contains files), receives information and powers from there. AID completely reads the file itself, takes from the information system all information about the authority, the name of the document / file, the name of the document / file, tags, flags, that is, the external attributes of the file. AID contains a set of filters that provide parsing of various file / document formats. Filters extract both text information and meta information. For example - a Microsoft Word document contains information: the text itself, markup, headings, and other meta - information (who is the creator, date of creation, etc.). This document / file is a container containing various information. The filter is a means of parsing unification of various data formats. The list of filters can be expanded as needed to process new data formats. All information received from the AID goes to the DBMS to form a search index. AID may contain a text-to-image recognition (OCR) module.

2. Система управления Базой Данных (СУБД) - это компонент системы, который хранит информацию необходимую для осуществления поиска. При поступлении запроса через СИП, происходит обращение к системе управления базой данных СУБД и получение необходимой информации из системы управления базой данных СУБД. Выборка осуществляется на основании информации, которая храниться в системе управления базой данных СУБД с использованием морфологии, разбора запроса. Возможна ситуация когда полученную информацию АИД сжимает и отправляет на сервер, где находиться СУБД, там информация разворачивается и вкладывается в систему управления базой данных СУБД, так как каналы связи могут быть слабыми. Может быть и другая архитектура. Сжатие - опционально, может быть, может не быть.2. The Database Management System (DBMS) is a component of the system that stores the information necessary for searching. When a request is received through the SIP, the DBMS database management system is accessed and the necessary information is received from the DBMS database management system. The selection is carried out on the basis of information stored in the database management system of the DBMS using morphology, parsing the request. A situation is possible when the AID compresses the information received and sends it to the server where the DBMS is located, where the information is deployed and embedded in the DBMS database management system, since the communication channels may be weak. There may be other architecture as well. Compression - optional, maybe not.

3. САИ осуществляет взаимодействие с системой управления базой данных СУБД и занимается анализом поисковой информации с целью выявления общностей у хранимой информации, выявление общностей позволяет объединять версии документов в документы, документы в проекты двигаясь вверх. Объединение в более верхнеуровневые структуры не является обязательным.3. AIS interacts with the database management system of the DBMS and analyzes search information in order to identify the commonality of the stored information, identifying commonality allows you to combine versions of documents into documents, documents into projects moving up. Consolidation into higher-level structures is optional.

4. СИП (веб интерфейс, API и т.д.) - с помощью которого может взаимодействовать пользователь и/или иная система. Пользовательский интерфейс формирует запросы к системе управления базой данных СУБД для извлечения информации. С учетом морфологии. разбора слов осуществляет сами запросы и уточнения. Интерфейс осуществляет двухсторонний обмен информацией с системой управления базой данных СУБД. 4. SIP (web interface, API, etc.) - through which the user and / or other system can interact. The user interface generates queries to the database management system DBMS to retrieve information. Taking into account the morphology. parsing performs the queries and clarifications themselves. The interface carries out a two-way exchange of information with the database management system DBMS.

Примеры работы поискаExamples of how search works

Пример 1: поиск в корпоративной сетиExample 1: searching the corporate network

1. Пользователь вводит в поисковую строку любое слово или словосочетание относящееся к интересующей его теме. Например - он может ввести слово - план 2019 года. Далее пользователь запускает в работу поисковую систему. 1. The user enters into the search box any word or phrase related to the topic of interest. For example - he can enter the word - plan 2019. Next, the user launches a search engine.

2. Интерфейсная часть посылает запрос на поисковый сервер или группу серверов, на которых хранится информация. 2. The front-end sends a request to a search server or a group of servers where information is stored.

3. Начинается морфологический разбор запроса поиска, то есть используется база или иное хранилище подобных слов, которые расширяют возможности поиска. 3. The morphological parsing of the search query begins, that is, a base or other storage of similar words is used, which expands the search capabilities.

4. Расширенный запрос поступает в базу, и оттуда достаются нужные документы или разные версии разыскиваемого документа в виде файлов.4. The extended request enters the database, and from there the necessary documents or different versions of the sought document are obtained in the form of files.

5. Пользователю предоставляется информация в агрегированном виде, в виде свернутых иерархических структур (деревьев). Каждая структура начинается с глобальной группы, объединяющую верхнеуровневую группу документов, к примеру по региональному, организационном или иному общему признаку (Регион или Головная Организация), который является корневым.5. The user is provided with information in an aggregated form, in the form of collapsed hierarchical structures (trees). Each structure begins with a global group that unites the top-level group of documents, for example, by regional, organizational or other common feature (Region or Head Organization), which is the root.

6. Глобальный признак общий для большинства документов в этой структуре, затем дерево открывается дальше - ветви дерева - ветви иерархии образованные общими признаками с меньшим весом объектов под ними, конечными листьями дерева являются документы или версии документов. Как пример - первым уровнем от корня является - каталог - Регион или Головная Организация. В дальнейшем дерево открывается до следующих уровней - это будет - Организация, затем - отделы, потом - проекты, структуры и т.п., в конце документы или версии документов.6. A global feature is common for most documents in this structure, then the tree opens further - tree branches - hierarchy branches formed by common features with less weight of objects under them, the final leaves of the tree are documents or document versions. As an example - the first level from the root is - directory - Region or Head Organization. In the future, the tree opens up to the next levels - it will be - Organization, then - departments, then - projects, structures, etc., at the end - documents or document versions.

7. Отличительной особенностью системы поиска может быть представление результатов поиска в соответствии с полномочиями лица, которое запрашивает информацию. То есть у пользователя может быть, а может и не быть полномочий для просмотра запрашиваемых им документов или организационных групп. 7. A distinctive feature of the search system can be the presentation of search results in accordance with the authority of the person who requests the information. That is, the user may or may not have the authority to view the requested documents or organizational groups.

8. Если у пользователя есть необходимые полномочия (программа поиска получает информацию об полномочиях каждого конкретного пользователя из информационной системы предприятия, в которой работает данный пользователь) поисковая система представит ему информацию в агрегированном виде, а пользователь, получив информацию в свернутом виде, сможет ее развернуть (получая дополнительную информацию на каждом уровне) до проекта, до документа и до конкретной версии разыскиваемого документа.8. If the user has the necessary permissions (the search program receives information about the permissions of each specific user from the information system of the enterprise in which this user works), the search engine will present information to him in an aggregated form, and the user, having received information in a collapsed form, will be able to expand it (by getting additional information at each level) to the project, to the document and to the specific version of the document being sought.

9. Если же у пользователя нет достаточных полномочий для просмотра данного документа, программа поиска предоставляет ему информацию также в агрегированном виде, но пользователь при разворачивании уровней сможет получить только общую информацию о разыскиваемом им документе. Система может предоставить контактные данные о владельце (создателе, руководителе - занимающего максимальную должность) этого подразделения или отдела, в котором создавался или находится интересующий пользователя документ.9. If the user does not have sufficient authority to view this document, the search program provides him with information also in an aggregated form, but the user, when expanding the levels, will be able to get only general information about the document he is looking for. The system can provide contact information about the owner (creator, manager - holding the maximum position) of this department or department in which the document of interest was created or is located.

10. Пользователь может использовать полученную контактную информацию (к примеру ФИО владельца, должность, телефон, е-мейл), предоставленную системой поиска для получения доступа к запрашиваемому документу. Например, позвонить по контактным телефонам, написать на е-мейл владельца документа. При применении на предприятии системы автоматизации управления полномочиями - пользователь сможет запросить полномочия в автоматическом режиме. Пользователь также может запросить полномочия на поиск – те возможность искать в данном каталоге/ресурсе согласовав это с владельцем ресурса. Полномочия на поиск не означают возможности читать документы. 10. The user can use the received contact information (for example, the owner's name, position, phone number, e-mail) provided by the search system to gain access to the requested document. For example, call the contact numbers, write to the e-mail of the owner of the document. When the enterprise uses an automation system for managing authorizations, the user will be able to request authorizations in automatic mode. The user can also request permissions to search - those are the ability to search in a given directory / resource by agreeing with the owner of the resource. Search authority does not mean being able to read documents.

11. Возможна и такая ситуация, что с разыскиваемым документом проводится работа в других отделах или предприятиях (в крупном холдинге, объединенном в единую информационную сеть). Данная информация также отобразиться в результате поиска документа. В иерархии версий может отобразиться какой отдел работал или работает с какой версией документа и где и у кого храниться на данный момент версия документа. Если есть полномочия на просмотр - то покажется вся информация, если нет - то только информация у кого можно запросить необходимые полномочия.11. It is also possible that the document is being dealt with in other departments or enterprises (in a large holding united into a single information network). This information will also be displayed when searching for a document. The hierarchy of versions can display which department worked or is working with which version of the document and where and who currently stores the version of the document. If you have permission to view, then all the information will be displayed, if not, then only information from whom you can request the necessary permission.

12. Опция проверка полномочий может быть в системе поиска информации, а может и не быть. В зависимости от пожеланий заказчика. В случае если данной опции не будет - результат поиска можно будет открыть до конечной информации - до версий документов.12. The option check credentials may or may not be in the information retrieval system. Depending on the wishes of the customer. If this option is not available, the search result can be opened to the final information - to document versions.

Пример 2 (Интернет поиск).Example 2 (Internet search).

Пользователь запрашивает информацию о программном обеспечении – к примеру об игре. Так как пользователь ленив, то он пишет в запросе просто название игры и только (далее “ИГРА”). Система возвращает ему результат в виде нескольких деревьев, корнями являются типовые уточнения запроса с этой игрой: The user requests information about the software, such as a game. Since the user is lazy, he writes in the request just the name of the game and nothing more (hereinafter “GAME”). The system returns the result to it in the form of several trees, the roots are typical query refinements with this game:

- обзоры “ИГРА”- reviews "GAME"

- прохождение “ИГРА”- passing "GAME"

- приобретение “ИГРА”- purchase of "IGRA"

- чит-коды “ИГРА”- cheat codes "GAME"

- скачать “ИГРА”- download "GAME"

и т.д. ранжируя по популярности запросов.etc. ranking by popularity of requests.

Пользователь сразу видит, что ему необходимо уточнить, что именно он хочет получить. Он может в начале раскрыть дерево “обзоры” и увидеть там:The user immediately sees that he needs to clarify what exactly he wants to get. He can at the beginning open the tree of “overviews” and see there:

- обзоры на русском;- reviews in Russian;

- обзоры на английском;- reviews in English;

- обзоры на других языках;- reviews in other languages;

Т.е. в принципе очевидные варианты уточнения.Those. in principle, obvious options for clarification.

К примеру, он выбирает – обзоры на русском и он получает типовой ответ поисковика с таким уточнением.For example, he chooses - reviews in Russian and he receives a typical search engine response with such a clarification.

Затем пользователь выбирает “скачать” и получает различные источники, где эту игру предлагают скачать сгруппированные по типам: Then the user selects "download" and gets various sources where this game is offered to download, grouped by type:

- торрент - трекеры;- torrent trackers;

- сайты официальной продажи;- sites of official sale;

- FTP сервера;- FTP server;

и т.д. и т.п.etc. etc.

Пример 3 (интернет поиск).Example 3 (internet search).

Пользователь интересуется здоровьем и делает запрос по названию болезни (далее “Болезнь”).The user is interested in health and makes a request for the name of the disease (hereinafter “Disease”).

В результате запроса он получает типовой набор уточнений:As a result of the request, it receives a typical set of refiners:

- диагностика “Болезнь”;- Diagnostics "Disease";

- лечение “Болезнь”;- "Disease" treatment;

- симптомы “Болезнь”;- "Disease" symptoms;

- фото “Болезнь”;- photo “Disease”;

и т.д.etc.

Предположим пользователь уже знает какая именно "Болезнь" его интересует и хочет получить информацию о современных методах лечения – для этого он начинает раскрывать дерево “лечение”.Suppose the user already knows what kind of "Disease" he is interested in and wants to receive information about modern methods of treatment - for this he begins to open the "treatment" tree.

Далее он получает:Then he gets:

- традиционные методики лечения “Болезнь”;- traditional methods of treatment "Disease";

- препараты для лечения “Болезнь”;- drugs for the treatment of "Disease";

- медицинские центры лечения “Болезнь”;- medical treatment centers “Disease”;

- зарубежные клиники лечения “Болезнь”;- foreign clinics of treatment "Disease";

- народные методики лечения “Болезнь”;- folk methods of treatment "Disease";

Соответственно он сразу видит картину и может ориентироваться и принимать решение куда ему идти, а не открывать каждый сайт на первой странице в надежде найти нужную ему информацию. Accordingly, he immediately sees the picture and can navigate and decide where to go, and not open every site on the first page in the hope of finding the information he needs.

К примеру он выбрал препараты – в ответ он получает весь список препаратов.For example, he chose drugs - in response, he receives the entire list of drugs.

А уже открывая нужный, он может получить: And already opening the right one, he can get:

- описание;- description;

- применение; - application;

- приобретение;- acquisition;

Т.е. все что нужно – прочитал про применение – раскрыл ветку приобретение и заказал препарат в магазине, предварительно выбрав магазин в своем городе (а не перебирая все магазины, или не делая отдельный поиск на каждую ветку).Those. all that is needed - read about the application - opened the purchase branch and ordered the drug in the store, having previously selected a store in your city (and not going through all the stores, or not doing a separate search for each branch).

Пример 4 (интернет поиск).Example 4 (internet search).

Пользователь не знает, что он ищет и хочет узнать, что же это – для показа сложности задачи представим, что иностранец хочет понять значение слова “Коса” в Русском языке. Он делает запрос "Коса" и соответственно система поиска должна вернуть ему все варианты включая исправления:The user does not know what he is looking for and wants to know what it is - to show the complexity of the problem, let's imagine that a foreigner wants to understand the meaning of the word "Spit" in Russian. He makes a request for "Spit" and, accordingly, the search system should return him all options, including corrections:

- Коса (причёска) — волосы, сплетённые между собой в длину;- Braid (hairstyle) - hair, woven together in length;

- Коса́ — сельскохозяйственный ручной носимый инструмент для скашивания травы;- Scythe - agricultural hand-held wearable tool for mowing grass;

- Коса – отмель на реке;- Spit - a sandbank on the river;

- Коса (провода) — пучок проводов в автомобиле, связывающий двигатель, коробку передач и компьютер;- Scythe (wires) - a bundle of wires in the car connecting the engine, gearbox and computer;

- Коза - животное;- The goat is an animal;

и т.д.etc.

Т.е. пользователь сразу поймет, с чем он имеет дело и куда можно уточнять запросThose. the user will immediately understand what he is dealing with and where the request can be specified

Из примеров видно, что интерактивное уточнение вопросов в пределах иерархического мульти-древовидного списочного представления результатов поиска очень удобен пользователю и будет актуален особенно для мобильных пользователей где ввод дополнительной текстовой информации затруднен.The examples show that the interactive clarification of questions within a hierarchical multi-tree list view of search results is very user-friendly and will be relevant especially for mobile users where it is difficult to enter additional text information.

В интернет поиске нет исходной навязанной иерархии, но она может быть сформирована на основе уже имеющейся типовой информации исходя из статистической информации о поиске.In Internet search, there is no initial imposed hierarchy, but it can be formed on the basis of already available typical information based on statistical information about the search.

Данный способ может позволить уточнять запрос поиска пользователем в интерактивном режиме (в реальном времени) или являться статической структурой, раскрываемой в реальном времени.This method can allow the user to refine the search query in an interactive mode (in real time) or be a static structure that is disclosed in real time.

Пользователь может дойти до конечного документа на сайте - то есть в конце интерактивного поиска выводится ссылка на страница сайта с разыскиваемой информацией.The user can reach the final document on the site - that is, at the end of the interactive search, a link is displayed to the site page with the information sought.

Claims (2)

1. Способ извлечения информации, реализуемый в корпоративной системе поиска информации, выполненной с возможностью извлечения результатов из совокупности различных источников, содержащий этапы, на которых на входе принимают запрос; на выходе выдают этот запрос в совокупности различных источников, отличающийся тем, что он характеризуется иерархическим мульти-древовидным списочным представлением результатов поиска в виде одного или многих наборов связанных графов, узлы которых не содержат циклы, но могут иметь дубли и пересечения с другими наборами или ветвями, при этом могут иметь неуникальный путь, характеризующийся последовательностью узлов, от корня до узла, корни деревьев имеют списочное представление и могут раскрываться при необходимости или при взаимодействии с пользователем интерактивно; включает выполнение поисковых запросов посредством веб-интерфейса, мобильного приложения, или в иной системе посредством программного интерфейса приложения API, предоставляющего услуги, как основной интерфейс пользователя, может быть использована поисковая строка; далее проведение разбора поискового запроса при помощи морфологического анализа, используя базу или иное хранилище похожих слов или их компонентов, для расширения возможности поиска, применяя корпоративную систему поиска информации; обращение к базе поискового индекса через корпоративную систему поиска информации и извлечение из нее результатов поиска в виде ссылки, документа, проекта, файла, объекта, контактной информации для взаимодействия с владельцем информации; формирование результатов поиска, используя корпоративную систему поиска информации, исходя из полномочий пользователя, делающего запрос, и полномочий, связанных с исходной информацией; наполнение базы поискового индекса через взаимодействие корпоративной системы поиска информации с информационной системой компании и получение от нее информации для создания поискового индекса, на основании которого осуществляется поиск; использование информации о структуре документа для повышения качества индексации, поиска и отображения документа; агрегирование полученной информации из файлов в документы, при этом файлы рассматриваются как версии документа; объединение через корпоративную систему поиска информации версий файлов в документ для построения общего индекса; нахождение через корпоративную систему поиска информации документов с похожими структурными данными из мета-информации для последующего вывода найденной информации пользователю при наличии у него необходимых полномочий; объединение по данным признакам через корпоративную систему поиска информации этих документов в более верхнеуровневые структуры, такие как "проект", "направление"; отображение при проведении поиска результатов в виде "проекта", "направления", в котором может быть указано наименование "проекта", создатели, владельцы "проекта", "направления" и прочая информация, доступная пользователю согласно его полномочиям.1. A method for extracting information, implemented in a corporate information retrieval system, capable of extracting results from a set of different sources, comprising stages at which a request is received at the input; at the output, this query is issued in a set of different sources, characterized in that it is characterized by a hierarchical multi-tree list representation of search results in the form of one or many sets of connected graphs, the nodes of which do not contain cycles, but may have duplicates and intersections with other sets or branches , while they can have a non-unique path, characterized by a sequence of nodes, from root to node, the roots of trees have a list representation and can be opened when necessary or when interacting with the user interactively; involves executing search queries through a web interface, a mobile application, or in another system through the API providing services, as the main user interface, a search bar can be used; further parsing a search query using morphological analysis, using a database or another repository of similar words or their components, to expand the search capabilities, using a corporate information retrieval system; accessing the search index base through the corporate information search system and extracting search results from it in the form of a link, document, project, file, object, contact information to interact with the information owner; formation of search results using the corporate information retrieval system, based on the authority of the user making the request and the authority associated with the initial information; filling the search index base through the interaction of the corporate information search system with the company's information system and receiving information from it to create a search index, on the basis of which the search is carried out; using information about the structure of the document to improve the quality of indexing, search and display of the document; aggregation of the information received from files into documents, while the files are considered as versions of the document; combining file versions into a document through the corporate search system to build a common index; finding documents with similar structural data from meta-information through the corporate information search system for the subsequent display of the found information to the user if he has the necessary powers; combining these documents according to these characteristics through the corporate information search system into higher-level structures, such as "project", "direction"; displaying the search results in the form of a "project", "direction", in which the name of the "project", creators, owners of the "project", "directions" and other information available to the user according to his authority can be indicated. 2. Корпоративная система поиска информации (КСПИ) для осуществления способа по п.1, содержащая основные структуры в виде агента источника данных, системы управления базой данных, системы агрегирования информации, системы интерфейса пользователя; агент источника данных предназначен для поставки документов, файлов, извлечения ключевых слов, ранжирования ключевых слов, индексации, считывания свойств, полномочий или иной мета-информации, а также для использования технологии преобразования графического изображения текста в компьютерный текст с помощью алгоритма распознавания графических образов, формирования индексной информации, которая поступает в систему управления базой данных; агент источника данных содержит набор фильтров, которые обеспечивают разбор различных форматов файлов, причем мета-информация поступает и от агента и из фильтра, из которого она извлекается, формирования поискового индекса для сохранения в системе управления базой данных, причем агент источника данных может быть реализован на нескольких функциональных информационных системах; система управления базой данных предназначена для хранения: морфологических словоформ для расширения возможностей поиска, штатной или организационной структуры предприятия полученной из информационных систем предприятия, полномочий, поискового индекса; система агрегирования информации предназначена для проведения концентрирования отдельных потоков информации в единую структуру; с возможностью формирования индексной информации для объединения файлов в документы, документов в проекты; система интерфейса пользователя предназначена для реализации взаимодействия с пользователем посредством различных программных и аппаратных средств; при этом выход агента источника данных соединен со входом системы управления базой данных, и система управления базой данных соединена с системой агрегирования информации и с системой интерфейса пользователя; агент источника данных осуществляет взаимодействие с информационной системой, файловыми серверами, системой документооборота, интранет и интернет-сайтами, получает оттуда информацию и полномочия, агент источника данных полностью считывает сам файл, выбирает из системы всю информацию о полномочиях, название файла, наименование файла, теги, флаги, то есть внешние атрибуты файла и отправляет вместе со всей мета-информацией, полномочия, дату создания, создателя, которую он взял из информационной системы, в систему управления базой данных; агент источника данных предназначен для обработки информации, содержит модуль распознавания, формирует индексную информацию, которую можно поместить в систему управления базой данных, содержит набор фильтров, которые обеспечивают разбор различных форматов файлов, причем мета-информация поступает и от агента и из фильтра, который ее извлекает; в систему управления базой данных поступает мета-информация, а также информация для создания поискового индекса; система управления базой данных является компонентом корпоративной системы поиска информации, которая хранит индексы, при поступлении запроса через систему интерфейса пользователя, происходит обращение к системе управления базой данных и получение необходимой информации из системы управления базой данных; при этом выборка осуществляется на основании информации, которая храниться в системе управления базой данных с использованием морфологии, разбора запроса; агент источника данных выполнен с возможностью сжимать и отправлять полученную информацию на сервер, где находится система управления базой данных, там информация разворачивается и вкладывается в систему управления базой данных, так как каналы связи могут быть слабыми; система интерфейса пользователя формирует запросы к системе управления базой данных для извлечения информации, с учетом морфологии, разбора слов, осуществляет сами запросы и уточнения, система интерфейса пользователя осуществляет двухсторонний обмен информацией с системой управления базой данных.2. Corporate information retrieval system (KSPI) for implementing the method according to claim 1, containing basic structures in the form of a data source agent, a database management system, an information aggregation system, a user interface system; the data source agent is intended for the delivery of documents, files, extraction of keywords, ranking of keywords, indexing, reading properties, powers or other meta-information, as well as for using the technology of converting a graphic image of text into computer text using an algorithm for recognizing graphic images, generating index information that enters the database management system; the data source agent contains a set of filters that provide parsing of various file formats, and the meta-information comes from both the agent and the filter from which it is extracted, forming a search index for saving in the database management system, and the data source agent can be implemented on several functional information systems; the database management system is designed to store: morphological word forms to expand search capabilities, staff or organizational structure of an enterprise obtained from enterprise information systems, powers, search index; the information aggregation system is designed to concentrate individual information flows into a single structure; with the ability to generate index information for combining files into documents, documents into projects; the user interface system is designed to implement interaction with the user through various software and hardware; wherein the output of the data source agent is connected to the input of the database management system, and the database management system is connected to the information aggregation system and to the user interface system; the data source agent interacts with the information system, file servers, document management system, intranet and Internet sites, receives information and powers from there, the data source agent completely reads the file itself, selects from the system all information about authority, file name, file name, tags , flags, that is, the external attributes of the file and sends, along with all the meta-information, authority, creation date, creator, which he took from the information system, to the database management system; the data source agent is designed to process information, contains a recognition module, generates index information that can be placed in the database management system, contains a set of filters that provide parsing of various file formats, and meta-information comes from both the agent and the filter that extracts; the database management system receives meta-information, as well as information for creating a search index; the database management system is a component of the corporate information retrieval system that stores indexes; when a request is received through the user interface system, the database management system is accessed and the necessary information is obtained from the database management system; the selection is carried out on the basis of information that is stored in the database management system using morphology, parsing the request; the data source agent is configured to compress and send the received information to the server where the database management system is located, where the information is deployed and embedded in the database management system, since the communication channels may be weak; the user interface system generates requests to the database management system to retrieve information, taking into account morphology, parsing words, performs the requests and clarifications themselves, the user interface system carries out a two-way exchange of information with the database management system.
RU2019100812A 2019-01-10 2019-01-10 Information retrieval method and corporate information retrieval system RU2729224C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2019100812A RU2729224C2 (en) 2019-01-10 2019-01-10 Information retrieval method and corporate information retrieval system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2019100812A RU2729224C2 (en) 2019-01-10 2019-01-10 Information retrieval method and corporate information retrieval system

Publications (3)

Publication Number Publication Date
RU2019100812A3 RU2019100812A3 (en) 2020-07-10
RU2019100812A RU2019100812A (en) 2020-07-10
RU2729224C2 true RU2729224C2 (en) 2020-08-05

Family

ID=71509460

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019100812A RU2729224C2 (en) 2019-01-10 2019-01-10 Information retrieval method and corporate information retrieval system

Country Status (1)

Country Link
RU (1) RU2729224C2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2811451C2 (en) * 2022-04-07 2024-01-11 Общество с ограниченной ответственностью "Е-СОФТ" System for data aggregation and indexing for their output to user

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112950293A (en) * 2021-04-07 2021-06-11 华能四川水电有限公司 Enterprise external data acquisition and analysis system
CN116401212B (en) * 2023-06-07 2023-08-11 东营市第二人民医院 Personnel file quick searching system based on data analysis
CN116521776B (en) * 2023-07-03 2023-09-05 陕西省君凯电子科技有限公司 Quick information query system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2338324A (en) * 1998-06-02 1999-12-15 Univ Brunel Information management system
US6738678B1 (en) * 1998-01-15 2004-05-18 Krishna Asur Bharat Method for ranking hyperlinked pages using content and connectivity analysis
US20090327271A1 (en) * 2008-06-30 2009-12-31 Einat Amitay Information Retrieval with Unified Search Using Multiple Facets
RU2388050C2 (en) * 2004-09-16 2010-04-27 Теленор Аса Method, system and computer software for searching, navigation and ranking documents in personal area network
US20110265189A1 (en) * 2006-03-01 2011-10-27 Oracle International Corporation Re-ranking search results from an enterprise system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738678B1 (en) * 1998-01-15 2004-05-18 Krishna Asur Bharat Method for ranking hyperlinked pages using content and connectivity analysis
GB2338324A (en) * 1998-06-02 1999-12-15 Univ Brunel Information management system
RU2388050C2 (en) * 2004-09-16 2010-04-27 Теленор Аса Method, system and computer software for searching, navigation and ranking documents in personal area network
US20110265189A1 (en) * 2006-03-01 2011-10-27 Oracle International Corporation Re-ranking search results from an enterprise system
US20090327271A1 (en) * 2008-06-30 2009-12-31 Einat Amitay Information Retrieval with Unified Search Using Multiple Facets

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2811451C2 (en) * 2022-04-07 2024-01-11 Общество с ограниченной ответственностью "Е-СОФТ" System for data aggregation and indexing for their output to user

Also Published As

Publication number Publication date
RU2019100812A3 (en) 2020-07-10
RU2019100812A (en) 2020-07-10

Similar Documents

Publication Publication Date Title
US7885918B2 (en) Creating a taxonomy from business-oriented metadata content
KR101691247B1 (en) Semantic trading floor
Adar et al. Haystack: Per-user information environments
US7778952B2 (en) Displaying facts on a linear graph
US7873670B2 (en) Method and system for managing exemplar terms database for business-oriented metadata content
RU2729224C2 (en) Information retrieval method and corporate information retrieval system
US20120005198A1 (en) Dynamic visualization of search results on a graphical user interface
US8001154B2 (en) Library description of the user interface for federated search results
EP1266300A1 (en) System and method for creating a semantic web and its applications in browsing, searching, profiling, personalization and advertising
CN103310025A (en) Unstructured-data description method and device
US20220075833A1 (en) Web services for data aggregation and application for path traversal in knowledge graphs
EP2131293A1 (en) Method for mapping an X500 data model onto a relational database
Venlet et al. Descriptive metadata for web archiving: literature review of user needs
Krohn et al. Concept lattices for knowledge management
Rauber et al. Austrian online archive processing: analyzing archives of the world wide web
Schatz et al. Searching in a Hyperlibrary
Roy et al. Discovery Layer in Library Retrieval: VuFind as an Open Source Service for Academic Libraries in Developing Countries
WO2021251996A1 (en) Digital data processing systems and methods for digital content retrieval and generation
Kuroiwa et al. Dynamic personalization for book recommendation system using web services and virtual library enhancements
Majeed et al. SIREA: Image retrieval using ontology of qualitative semantic image descriptions
Lin et al. Building a topic map repository
Collins et al. Magnifying the ILS with Endeca
Mettai et al. Digital repositories’ Discovery services: between opportunities and challenges
Zenkert et al. Practice-Oriented Approaches for Information and Metadata Management in a Content Management System-Learnings from the Smart City Project LOKAL-digital
Simeonov et al. Development of base ontology for a digital library of the Bulgarian museums’ collections