WO2009031915A1

WO2009031915A1 - Système et procédés de stockage, de recherche et d'extraction des informations sur la base d'ensembles de données faiblement organisés et décentralisés

Info

Publication number: WO2009031915A1
Application number: PCT/RU2007/000475
Authority: WO
Inventors: Vladimir Vladimirovich Krylov; Dmitry Maximovich Ponomarev
Original assignee: Obschestvo S Ogranichennoi Otvetstvennostiyu 'meralabs'
Priority date: 2007-09-03
Filing date: 2007-09-03
Publication date: 2009-03-12
Also published as: US8156117B2; US20100223262A1

Description

СПОСОБ И СИСТЕМА ХРАНЕНИЯ, ПОИСКА И ИЗВЛЕЧЕНИЯ

ИНФОРМАЦИИ НА ОСНОВЕ СЛАБООРГАНИЗОВАННЫХ И

ДЕЦЕНТРАЛИЗОВАННЫХ НАБОРОВ ДАННЫХ

Область техники Данное изобретение относится к системе хранения и способам поиска и извлечения информации, представимой в виде множества информационных сущностей. Предшествующий уровень техники

Вот уже много лет в области компьютерных технологий большой интерес представляют системы хранения информации, или иначе - системы управления базами данных (СУБД). Существует два наиболее распространенных класса систем хранения, которые охватывают большинство существующих на данный момент СУБД.

Первый наиболее обширный и популярный класс таких систем составляют так называемые реляционные СУБД. К настоящему моменту существует большое количество изобретений, так или иначе связанных с реляционными базами данных. Так, например, в патенте США 20030154197, который называется «Cпocoб и аппаратура для гибкого хранения реляционных дaнныx» описывается способ и система для создания гибкого приложения баз данных, позволяющего пользователям добавлять, обновлять и удалять столбцы данных, а также опционально - отображаемые атрибуты этих столбцов в таблице реляционной СУБД. Набор записей данных хранится в четырех или более специальных таблицах как подборка данных. Такая структура таблиц позволяет пользовательским компьютерам получать более гибкий доступ к серверу СУБД и управление данными по компьютерной сети.

Все большее распространение получают системы хранения структурированных данных, представленных в виде ХМL-документов, также основанные на реляционных принципах. Например, в патенте США 20060101320 под названием «Cиcтeмa и способ хранения, индексирования и извлечения ХМL-документов с использованием реляционных баз дaнныx» раскрывается способ и система хранения, поиска и извлечения XML документов с использованием уже существующих систем реляционных баз данных. Суть способа заключается в трансформации структурированных XML- документов таким образом, чтобы они были пригодны для хранения в таблицах обычных реляционных баз данных. В процессе такой трансформации ХМL-документы «paзбиpaютcя» на составляющие их элементы и с каждым таким элементом (узлом XML- документа) ассоциируются несколько атрибутов метаданных, описывающих название этого элемента, данные, которые в нем содержатся, а также путь, по которому из корня ХМL-документа можно добраться до данного узла. Затем каждый элемент сохраняется в одном или нескольких столбцах таблицы данных реляционной базы.

Поиск хранимых ХМL-документов производится путем преобразования поисковых запросов, сформулированных на языках ХРаth и/или ХQuеrу в SQL-запросы к реляционной базе данных. Результаты поиска подвергаются обратному процессу восстановления на их основе искомых ХМL-документов.

Следует отметить, что у всех способов и систем, основанных на реляционных принципах хранения данных, есть общие недостатки. Использование изобретения, описываемого в данном документе, позволяет устранить ряд важнейших ограничений, накладываемых реляционным подходом :

• В известных технических решениях имеется единый центр управления всеми процессами, связанными с хранением данных.

Необходима децентрализация, которая позволяет распределить все вычислительные ресурсы и пропускную способность вычислительных систем, необходимые для хранения и обработки данных, между всеми узлами хранилища (и всеми вычислительными машинами, на которых данное хранилище развернуто). Такой подход, во-первых, позволяет обеспечить большую устойчивость и надежность системы хранения за счет отсутствия единого узла, выход из строя которого, делает всю систему неработоспособной (т.н. siпglе роiпt оf fаiluге), а также за счет широких возможностей дублирования данных, хранимых в одноранговой сети устройств хранения, а во-вторых, благодаря децентрализации появляются возможности практически неограниченного масштабирования хранилища по объему ресурсов памяти для хранения, по количеству хранимых объектов данных, а также огромный потенциал масштабирования по количеству поисковых запросов, которые система способна обработать в единицу времени (то есть по интенсивности запросов).

• При реляционном подходе к хранению, данные информационных объектов распределяются на множестве взаимосвязанных таблиц в соответствии с заранее спроектированной реляционной структурой, при этом в процессе обработки поисковых запросов зачастую производится сборка искомого объекта данных из множества записей в различных таблицах, что при широкой, разветвленной реляционной структуре и большом объеме хранимых данных приводит к существенному замедлению обработки таких поисковых запросов.

Необходим иной подход, при котором вся информация о каком-либо объекте сконцентрирована в одном месте, в одном объекте данных, и по запросу пользователь разом получает весь объект. При этом трудоемкость поисковых процедур может быть значительно снижена (например, станет пропорциональной логарифму от количества хранимых объектов).

• В случае реляционной базы физическая конфигурация сервера хранения данных определяется еще на этапе проектирования базы и в дальнейшей не подлежит изменению. Если же база становится слишком большой и интенсивность обращений к ней велика настолько, что вычислительных ресурсов и каналов связи физического сервера оказывается недостаточно, то для расширения этих ресурсов, либо добавления в систему новых серверов, требуется полная остановка работы базы, возможно пересмотр ее реляционной модели данных, оптимизация размещения реляционной структуры по физическим устройствам хранения и дальнейший запуск. Очевидно, что все эти процедуры сопряжены со значительными накладными расходами.

Необходимо решение, при котором если физический сервер оказывается перегруженным, то нужно просто подключить в сеть еще один или несколько дополнительных компьютеров, чтобы база данных могла наращиваться дальше. То есть необходима система, которая автоматически масштабируется по физическим ресурсам.

Вторым наиболее распространенным классом систем хранения данных являются распределенные, или пиринговые (одноранговые), СУБД. В таких системах данные сохраняются не централизованно на отдельных специализированных устройствах — серверах хранения данных, а распределенным образом, на множестве узлов в одноранговой сети, образованной устройствами хранения, оснащенными специальным программным обеспечением. Именно к этому классу относится способ хранения данных, описанный в данном изобретении.

Большинство способов хранения данных в децентрализованных СУБД используют для поиска хранимой информации механизм хеш-кодов. Например, в патенте США 20060242155 под названием «Cиcтeмы и методы распределенного и децентрализованного хранения и извлечения дaнныx» раскрывается способ и система распределенного и децентрализованного хранения и извлечения данных. Данные представляются в этом изобретении в виде битовых потоков мультимедийной информации. Каждый битовый поток разбивается на отдельные фрагменты, которые хранятся в узлах одноранговой сети децентрализованного хранилища. При поступлении битового потока данных в систему, на его основе вычисляется значение хеш-кода. Это значение определяет адрес узла, в который передается битовый поток для сохранения.

Каждый узел хранит локальную таблицу маршрутизации, содержащую информацию об одном или нескольких своих соседях. По меньшей мере одна из локальных таблиц маршрутизации содержит данные о хеш-коде, на основе которого можно определить адрес узла, в который требуется отправить битовый поток на сохранение.

Использование хеш-кодов при сохранении и извлечении данных из распределенных СУБД накладывает ряд ограничений на гибкость поисковых запросов в таких базах данных. Например, поиск может производиться только по полному совпадению поискового запроса и атрибутов данных, адресуемых хеш-кодами. Если же данные поискового запроса отличаются хотя бы на один бит от атрибутов искомых объектов, то эти объекты не будут найдены. Хотя они могут при этом быть релевантны поисковому запросу. Необходимо решение, которое позволяет преодолеть этот недостаток и сделать поиск более гибким.

Кроме того, в основе методов вычисления релевантности ответов на запросы в современных поисковых системах лежит совпадение ключевых слов искомых данных со словами поисковых запросов. При этом учитывается множество возможных форм представления ключевых слов определяемых такими параметрами как падеж, лицо, род и т.д., но не учитывается степень близости внутренней структуры маски запроса и искомых информационных объектов. Таким образом, необходимы способы поиска с учетом упорядоченности слов в поисковом запросе. Сущность изобретения В настоящем изобретении предлагается способ сохранения информации в виде слабоструктурированного и децентрализованного набора активных единиц хранения, наделенных системой логических связей между собой, а также поиска и извлечения информации из полученного таким образом набора. Предлагаемое решение позволяет преодолеть вышеприведенное недостатки решений, известных из уровня техники. Поскольку в рамках предложенного в данном изобретении способа для сохранения и извлечения данных используется не хеш-коды, а специально разработанная метрика, учитывающая особенности внутренней структуры хранимых объектов данных, а также позволяющая трактовать степень близости искомых атрибутов соответствующим атрибутам запросов, появляется возможность так называемого «нeчeткoгo» поиска. При нечетком поиске будут найдены информационные объекты, семантически близкие к поисковому запросу, но при этом необязательно полностью с ним совпадающие. При этом найденные объекты будут иметь разные степени релевантности поисковому запросу.

Генерация активных единиц хранения (AEX) производится в два этапа. На первом этапе для любой сущности (объекта) произвольной предметной области, подлежащей хранению, в соответствии с данным изобретением создается информационное описание, представляющее собой некий информационный объект (ИО), имеющий древовидную структуру внутреннего представления.

Этому информационному объекту присваивается уникальный идентификационный код, который становится унифицированным идентификатором ресурса (URI) для активной единицы хранения, в состав которой входит данный информационный объект. В дальнейшем указанный URI используется в качестве адреса этой активной единицы хранения при поиске и извлечении информации из децентрализованного хранилища. После того, как информационный объект будет создан и включен в состав формируемой AEX, наступает второй этап ее формирования. На втором этапе в состав активной единицы хранения включается специализированный агент, представляющий собой набор программных модулей. Этот программный агент позволяет данной AEX собирать и поддерживать информацию о связях с другими активными единицами хранения, а также производить поиск в децентрализованном хранилище информационных объектов, релевантных поисковым запросам.

Таким образом, сформированная активная единица хранения состоит из информационного объекта, содержащего описание хранимой информационной сущности, а также программного агента, выполняющего ряд функций по обеспечению достижимости информационного объекта в ответ на поисковые запросы, а также осуществлению поиска других активных единиц хранения.

Способ добавления активной единицы хранения в децентрализованное хранилище состоит в том, что для новой добавляемой AEX формируются логические связи с некоторым, выбираемом по определенному алгоритму, множеством других уже существующих в данном хранилище активных единиц хранения. В результате все множество взаимосвязанных единиц хранения представляет собой так называемую логическую одноранговую сеть хранения.

Наряду с логической сетью хранения, образованной логическими связями AEX следует различать также физическую одноранговую сеть, образованную устройствами хранения, в памяти которых размещаются все активные единицы хранения. Логическая сеть хранения является наложенной на физическую сеть. При этом обеспечивается полная независимость этих двух сетей в децентрализованном хранилище, то есть физическое размещение информационных объектов в устройствах хранения в общем случае не зависит от логических связей между ними. Хотя в некоторых вариантах изобретения в целях оптимизации такая зависимость может существовать. Удаление активной единицы хранения осуществляется в соответствии со специально разработанным алгоритмом, гарантированно обеспечивающим целостность одноранговой логической сети хранения.

Формирование логических связей между отдельными активными единицами хранения производится в соответствии со степенью информационной близости ИО, входящих в состав данных AEX. Чем более близки между собой указанные информационные объекты, тем выше вероятность того, что активные единицы хранения, содержащие их, сформируют логическую связь между собой.

Степень близости информационных объектов друг другу определяется с помощью вычисления метрики по алгоритму, являющемуся частью данного изобретения.

Поиск информации производится путем формирования на основе поискового запроса специального запросного информационного объекта, именуемого также поисковой маской, и последующим осуществлением поиска в логической сети хранения AEX, содержащих наиболее релевантные данной маске информационные объекты.

Способ поиска активных единиц хранения, содержащих релевантные ИО, заключается в последовательном перемещении точки текущей активности поискового процесса между различными AEX в логической сети хранения и определении меры информационной близости поисковой маски и содержащихся в рассматриваемых активных единицах хранения информационных объектов на каждом шаге этого движения.

Перемещение точки текущей активности поискового процесса между активными единицами хранения в логической сети производится по логическим связям, существующим между ними. Перемещение точки текущей активности в процессе поиска производится в направлении увеличения меры информационной близости между поисковой маской и текущими рассматриваемыми информационными объектами или, что то же самое, в направлении уменьшения метрического расстояния между маской и ИО.

Одним из технических результатов настоящего изобретения является новый способ хранения информации в виде слабоструктурированного и децентрализованного набора активных единиц хранения, образующих одноранговую сеть логических связей между собой, имеющий потенциально неограниченную масштабируемость по объему хранения (реальные ограничения будут обусловлены лишь возможностями оборудования); а также новый способ поиска информации в такой логической сети хранения. Краткое описание чертежей

Фиг.1 иллюстрирует внутреннюю структуру активной единицы хранения, а также принцип физического размещения хранилища AEX на хостирующих платформах различных вычислительных устройств. Фиг.2 иллюстрирует то, как соотносятся между собой логическая сеть хранения, состоящая из AEX и логических связей между ними, и физическая сеть, состоящая из вычислительных устройств, в памяти которых физически хранятся все AEX. Также на этом чертеже показан способ доступа внешних систем к логической сети хранения для поиска необходимой информации и управления хранилищем. Фиг.З иллюстрирует способ удаления активных единиц хранения из логической сети.

Фиг.4 иллюстрирует способ поиска активных единиц хранения, соответствующих поисковой маске, в логической сети хранения.

Подробное описание изобретения В соответствии с настоящим изобретением, сохраняемая информация представляется в виде множества так называемых активных единиц хранения (AEX). При этом для каждой информационной сущности (объекта данных), подлежащей хранению, создается своя уникальная активная единица хранения, которая является полным представлением соответствующей информационной сущности в хранилище, а также позволяет осуществлять поиск и извлечение данных, составляющих указанную информационную сущность. Внутренняя структура AEX представлена на фиг.l.

Формирование активных единиц хранения производится в два этапа. На первом этапе для любой сущности (объекта) произвольной предметной области создается информационное описание, здесь и далее именуемое термином «инфopмaциoнный oбъeкт» (ИО). Сформированный информационный объект становится составной частью активной единицы хранения (см. фиг.l).

ИО может содержать любые данные относительно описываемой им сущности в контексте той предметной области, в рамках которой производится описание.

В хранилище могут находиться информационные объекты, описывающие сущности разных предметных областей и все активные единицы хранения, содержащие эти разные ИО, так же будут образовывать логическую сеть связей между собой.

Например, если областью применения предлагаемого способа является хранение информации о единицах продукции, то информационный объект, описывающий единицу продукции, может содержать ЕРС-код единицы продукции, сведения о производителе, о типе продукции, к которому принадлежит данная единица, о дате выпуска, сроке годности, текущем местоположении и др. При этом ЕРС-код является ключом, связывающим информационный объект с единицей продукции. Одним из вариантов осуществления этой связи является запись ЕРС-кода в метку радиочастотной идентификации (РЧИ), закрепляемую на единице продукции. Затем код считывается при помощи устройства считывания РЧИ и направляется в построенное на основе данного изобретения хранилище информации, в котором осуществляется поиск соответствующего единице продукции информационного объекта. Возможен также поиск по обратному критерию, при этом поиске по заданным характеристикам единицы продукции выполняется поиск ее информационного описания, включая ЕРС-код. В качестве другого примера: если предметной областью является так называемый

«Internet оf Things» — сообщество электронных устройств, распределенных по всему миру и взаимодействующих между собой посредством глобальной коммуникационной инфраструктуры, в роли которой выступают Интернет и сети сотовой связи, а сущностями, подлежащими описанию, являются все электронные устройства, участвующие в сообществе Iпtеmеt оf Тhiпgs, то информационные объекты, описывающие эти устройства, могут содержать данные о предоставляемых ими услугах, о способах их адресации, о протоколах взаимодействия с ними и т.д. Использование предлагаемого способа в этом случае даст множество полезных эффектов, например, будет решена задача глобального обнаружения электронных устройств в пределах всего Интернет. Это, в свою очередь, позволит всем электронным устройствам автоматически (без участия человека) находить друг друга, договариваться о способах взаимодействия и динамически кооперироваться между собой для достижения каких-либо общих целей.

В соответствии с настоящим изобретением, внутренняя структура информационных объектов представляется в специальной древовидной форме. Типы элементов данных в этой структуре и их взаимное расположение определяются специальными нотациями (схемами данных), специфичными для каждой предметной области в отдельности. Например, в системах инвентаризации имущества будут использоваться нотации одного типа, в системах товарообмена (торговли) — совершенно другие нотации, характерные для этой предметной области, а в системах управления домашним хозяйством - третий тип нотаций, отличный от двух предыдущих.

При практической реализации информационные объекты могут иметь вид XML- документов (стандарта XML, разработанного организацией WЗС: http://www.w3.org/XML/) с древовидной структурой, формируемой в соответствии с нотацией, имеющей вид ХМL-схемы (стандарт XML Sсhеmа, также разработанный в WЗС: http://www.w3.org/XML/Schema). При этом для каждой предметной области создается своя ХМL-схема, соответствующая задачам описания сущностей данной предметной области. При построении технических систем на основе данного изобретения можно использовать схемы данных, ставшие отраслевыми стандартами в соответствующих предметных областях. В различных вариантах реализации изобретения каждый информационный объект может быть представлен либо в виде одного, либо в виде нескольких взаимосвязанных между собой ХМL-документов. В некоторых вариантах изобретения ХМL-документы представляются в виде файлов в файловой системе вычислительных машин, хранящих информационные объекты, в других вариантах ХМL-документы могут быть представлены в виде записей, хранимых в XML- базах данных.

Способ формирования (генерации) описываемых информационных объектов может быть реализован различными путями. В частности, информационные объекты могут генерироваться технической системой автоматически на основе данных, которые вводятся в эту систему пользователями, или поступают в нее из иных источников. В процессе генерации внутренней структуры информационных объектов им присваиваются уникальные идентификационные коды (УИК). Способ размещения УИК в структуре информационных объектов при этом должен регламентироваться нотациями, на основе которых данные ИО генерируются.

В качестве УИК могут выступать любые цифровые коды, обеспечивающие уникальность всех информационных объектов в рамках создаваемой с использованием настоящего изобретения системы. В частности, могут использоваться коды, принятые для идентификации объектов в соответствующих предметных областях. В конкретных вариантах реализации данного изобретения могут, например, использоваться коды системы универсальной идентификации цифровых объектов - продуктов деятельности людей, примерами которых могут быть книги, фильмы, музыкальные произведения и т.д., представленные в электронной цифровой форме - (Digitаl Оbjесt Idепtifiсаtог), электронные коды продуктов еРС (Еlесtгопiс Рrоduсt Соdе) организации ЕАN/UСС, а также глобальные уникальные идентификаторы объектов (Glоbаllу Uпiquе Idепtifiеrs -

GUIDs), широко используемые в компьютерном программном обеспечении. Присвоенные информационным объектам уникальные идентификационные коды в дальнейшем используются при адресации содержащих эти ИО активных единиц хранения в логической сети хранения (описана ниже), сформированной по способу, предлагаемому в настоящем изобретении.

После того как будет образована внутренняя структура информационного объекта, и он будет включен в состав формируемой активной единицы хранения, наступает второй этап. На втором этапе формирования в состав активной единицы хранения добавляется специализированный программный агент, позволяющий этой AEX запоминать ссылки на другие AEX в логической сети хранения и при необходимости модифицировать список ссылок: добавлять новые и удалять старые, не актуальные ссылки (см. фиг.l). Также в состав программного агента входят средства, позволяющие данной активной единице хранения осуществлять поиск других, релевантных поисковому запросу, AEX в логической сети хранения.

При практической реализации программные агенты представляются в виде программных модулей, выполняющих соответствующие функции. В одном из вариантов реализации все необходимые для работы агента программные модули предоставляются специализированной хостирующей платформой, на которой размещается децентрализованное хранилище (см. фиг.l). При таком подходе эти модули являются общими для всех активных единиц хранения, размещаемых на данной вычислительной машине. Однако при этом для каждой активной единицы хранения в рамках платформы создается свой логический домен, моделирующий отдельный программный агент со всеми необходимыми функциями. Например, такой подход может быть использован при построении системы серверов, на которых будет размещаться хранилище, содержащее большое множество активных единиц хранения.

В другом варианте для каждой AEX предоставляется свой собственный набор программных модулей и своя хостирующая платформа. Например, это может быть в случае, когда активная единица хранения (точнее, информационный объект, входящий в ее состав) описывает конкретное электронное устройство и размещается в нем же, на его вычислительной платформе (см. фиг.l).

После того, как активная единица хранения будет оснащена информационным объектом и программным агентом, содержащим все необходимые программные модули, она сохраняется в памяти запоминающего устройства (физического устройства хранения) и добавляется в логическую сеть хранения (способ добавления AEX описан ниже).

В соответствии с настоящим изобретением, логическая сеть хранения представляет собой однородную одноранговую сеть, в узлах которой находятся активные единицы хранения, соединенные между собой множеством логических связей. Логическая сеть хранения проиллюстрирована на фиг 2. В данном описании в контексте логической сети вместо термина «aктивнaя единица хранения)) иногда будет использоваться термин «yзeл» сети. Оба этих термина следует считать эквивалентными друг другу и взаимозаменяемыми. Термины «лoгичecкaя ceть», «лoгичecкaя сеть xpaнeния», «лoгичecкaя одноранговая ceть» также следует считать эквивалентными и взаимозаменяемыми.

Отличительной особенностью данного изобретения является то, что в его практической реализации активные единицы хранения могут быть размещены на любом количестве вычислительных машин (а следовательно, и хостирующих платформ), объединенных между собой линиями связи (иллюстрация размещения логической сети хранения представлена на фиг.2). При этом добавление каждой вычислительной машины в общую систему хранилища происходит прозрачно и не требует никакой дополнительной переконфигурации. Если количество единиц хранения в хранилище, образованном несколькими вычислительными машинами, становится настолько большим, что ресурсы этих ЭВМ не позволяют дальнейшее расширение размеров хранилища, то пользователи могут просто установить дополнительные компьютеры со специализированной хостирующей платформой на них и обеспечить им коммуникацию с другими компьютерами хранилища. Тем самым в систему будет внесен дополнительный вычислительный ресурс, позволяющий дальнейшее наращивание количества активных единиц хранения без остановки работы и переконфигурации всего хранилища в целом. При этом вновь поступающие в систему AEX автоматически размещаются на «cвoбoдныx» хостирующих платформах, а на логическом уровне не имеет значения — на какой конкретно ЭВМ находится та или иная активная единица хранения - будет просто производиться наращивание количества узлов в одноранговой логической сети хранения (см. фиг.2).

Все AEX в логической сети взаимосвязаны между собой. При этом каждая конкретная активная единица хранения имеет связи с некоторым ограниченным подмножеством всех AEX, принадлежащих данной сети. Связи между активными единицами хранения в одноранговой логической сети носят логический (в противоположность физическому) характер и для удобства обозначения в настоящем описании именуются термином «лoгичecкиe cвязи». На графовой модели логической сети хранения логическим связям между отдельными AEX соответствуют ребра графа (в то время как самим активным единицам хранения соответствуют вершины графа). В конкретной реализации настоящего изобретения логические связи представляют собой ссылки одних единиц хранения на другие. В одном из вариантов эти ссылки имеют вид уникальных идентификаторов ресурсов (URI) информационных объектов, входящих в состав соответствующих активных единиц хранения в логической сети хранения. Ссылки для каждого узла логической сети хранятся в специальном списке ссылок, ассоциированном с этим узлом (см. фиг.l). Физически информационные объекты, входящие в состав активных единиц хранения и списки ссылок могут храниться в файловой системе запоминающих устройств, на которых размещается хранилище, а программные агенты, принадлежащие AEX, физически являются частью хостирующей платформы.

Если провести аналогию между узлами и абонентами телефонной сети, то список ссылок может рассматриваться аналогично телефонной записной книжке абонента. При этом отличительной особенностью является то, что нигде не существует общего списка всех ссылок, т.е. не существует общей телефонной книги сети, а список абонентов и их номеров распределен между всеми телефонными книжками, хранящимися у абонентов.

В одном из вариантов реализации изобретения список ссылок описывается с помощью универсального языка описания связей между объектами ХLiпk (язык ХLiпk является стандартом, разработанным в WЗС: http://www.w3.org/XMIУLinkшg). Использование языка ХLiпk позволяет описать структуру связей всех активных единиц хранения в логической сети хранения единым гибким и удобным способом, опираясь на широко известный международный стандарт.

Логические связи между активными единицами хранения могут быть симметричными и асимметричными. Симметричные логические связи представляют собой двунаправленные ссылки между AEX. Другими словами, если между объектами А и В есть симметричная логическая связь, то это означает, что объект А имеет ссылку на объект В, и объект В имеет ссылку на объект А.

Асимметричные логические связи представляют собой однонаправленные ссылки между отдельными AEX, то есть, если между объектами А и В имеется асимметричная логическая связь, то это означает, что либо объект А имеет ссылку на объект В, либо объект В имеет ссылку на объект А. В обратном направлении ссылки нет.

В одном из вариантов изобретения логические связи между всеми активными единицами хранения в логической сети являются симметричными, в другом варианте - в этой сети присутствуют как симметричные, так и асимметричные логические связи между AEX. Способ формирования логических связей AEX в логической сети хранения обеспечивает такую их структуру, при которой вся сеть активных единиц хранения моделируется связным графом. Это свойство означает, что путем последовательного перехода по логическим связям между отдельными узлами сети можно из любого ее узла попасть в любой другой. Набор узлов, по которым осуществлялся переход от одной произвольной активной единицы хранения к другой в одноранговой логической сети хранения здесь и далее именуется термином «пyть». Количество логических связей, через которые проходит путь именуется термином «длинa пyти».

Отличительной особенностью способа формирования логических связей между узлами в настоящем изобретении является то, что он обеспечивает свойства «тecнoгo миpa» (Smаll Wогld) для одноранговой логической сети хранения. Суть этого свойства состоит в том, что в многомиллионной сети активных единиц хранения каждая пара узлов оказывается связанной между собой путем, проходящем в среднем не более чем через 5-6 промежуточных узлов, и это достигается при сравнительно небольшом числе логических связей каждого узла данной сети с другими. Количество логических связей, которые имеет каждый из узлов логической сети хранения, может быть описано как случайная величина, имеющая степенной закон распределения.

Формирование логических связей активных единиц хранения осуществляется в процессе добавления их в логическую сеть. В одном из вариантов настоящего изобретения способ добавления AEX заключается в следующем: информационный объект, принадлежащий добавляемой активной единице хранения последовательно сравнивается с одним или несколькими ИО, входящими в состав уже имеющихся в хранилище активных единиц хранения, и при каждом таком сравнении измеряется степень информационной близости между ним и текущим сравниваемым информационным объектом логической сети хранения. Способ измерения информационной близости ИО является отличительной особенностью данного изобретения и описывается ниже.

По мере осуществления процедур сравнения в пространстве логической сети хранения с задаваемыми метриками (в метризованном пространстве логической сети), выбирается некоторое множество активных единиц хранения, информационные объекты которых имеют минимальное (среди всех своих соседей) метрическое расстояние до ИО, содержащегося в данной добавляемой единице хранения. Такие единицы хранения называются локальными минимумами (в том смысле, что с точки зрения добавляемой AEX они представляют собой локальные минимумы в метризованном пространстве). Выбранные таким образом активные единицы хранения имеют наибольшую степень информационной близости к добавляемой AEX в том смысле, что входящие в их состав информационные объекты наиболее близки по метрике к ИО, принадлежащему добавляемой единице хранения.

Затем добавляемая активная единица хранения устанавливает, средствами программного агента, входящего в состав активной единицы хранения, логические связи, с другими AEX из выбранного множества, подключаясь тем самым в логическую сеть хранения. Мощность упомянутого множества выбранных AEX является параметром присоединения к логической сети хранения и характеризует качество ее сборки, а также эффективность работы конкретных алгоритмов поиска в логической сети. Способ удаления активных единиц хранения из логической сети в одном из вариантов настоящего изобретения заключается в том, что удаляемая AEX на первом этапе реально не удаляется из логической сети, а лишь маркируется как единица хранения, подлежащая удалению. При этом данная активная единица хранения утрачивает свои свойства в качестве объекта поиска в логической сети. То есть ее уже невозможно будет найти, однако она сохраняет все логические связи с другими AEX в сети и продолжает обеспечивать функции маршрутизации проходящих через нее поисковых запросов, гарантируя тем самым целостность внутренней структуры логической сети хранения. При этом даже при совпадении информации удаляемого ИО с АЗО удаляемый объект не включается в число подлежащих извлечению. При этом информационные объекты всех вновь добавляемых активных единиц хранения сравниваются с ИО удаляемой единицы хранения и если какая-то из вновь добавляемых AEX оказывается достаточно близкой к удаляемой активной единице хранения (имеется ввиду близость по метрике их соответствующих информационных объектов), то она добавляется в логическую сеть хранения путем замещения удаляемой AEX. Критерием достаточной близости является выполнение следующего соотношения: M < T, где M - метрическое расстояние между добавляемой активной единицей хранения и удаляемой AEX, а Г - некий порог, являющийся параметром процедуры замещения. Этот параметр подлежит оптимизации при конкретной практической реализации данного изобретения. Замещение активной единицы хранения А активной единицей хранения В заключается в том, что В наследует все логические связи, принадлежавшие А и тем самым как бы встает на ее место в структуре логической сети хранения. Активная единица хранения А при этом полностью удаляется как из логической сети, так и из физического хранилища (из памяти запоминающих устройств хранилища). Однако в другом варианте изобретения замещаемая активная единица хранения из физического хранилища не удаляется. Вместо этого информационный объект и список ссылок на другие AEX, входившие в состав данной активной единицы хранения архивируются и сохраняются в физическом хранилище для последующих нужд, например, для доступа органов внутренних дел, специальных служб, историков, журналистов и т.д. В другом варианте изобретения при поступлении команды на удаление активной единицы хранения, она сразу же удаляется из логической сети и из физического хранилища. А те активные единицы хранения, с которыми удаляемая AEX образовывала логические связи (их множество обозначается как N), соединяются между собой логическими связями по специальному алгоритму «cшивaния» (см. иллюстрацию на фиг.З). Алгоритм «cшивaния» в данном варианте заключается в том, что из всех активных единиц хранения, принадлежащих множеству TV, выбирается одна, наиболее близкая по метрике к удаляемой AEX. И она заменяет собой вакантное место удаляемой единицы хранения, то есть все остальные элементы множества N образуют с этой AEX логические связи.

В третьем варианте изобретения используется комплексный способ удаления активных единиц хранения, включающий в себя оба описанных выше способа. Выбор конкретного способа удаления AEX в данном варианте производится в зависимости от количества логических связей, имеющихся у данной удаляемой активной единицы хранения. При этом учитываются следующие соображения: чем больше таких логических связей имеет удаляемая AEX, тем большее влияние на топологию логической сети хранения оказывает ее удаление, кроме того, логическая сеть хранения построена таким образом, что распределение степеней вершин в графовой модели этой сети имеет степенной характер, а это означает, что общее количество активных единиц хранения, имеющих большое число логических связей, гораздо меньше чем единиц хранения, имеющих малое число связей.

Чем больше степень удаляемой вершины, тем большее предпочтение будет отдаваться способу замещения активных единиц хранения. И наоборот, чем меньшее количество логических связей удаляемые AEX имеют, тем более вероятно, что они будут удалены с помощью способа «cшивaния».

При внесении каких-либо модификаций в информационные объекты, входящие в состав активных единиц хранения, находящихся в логической сети, упомянутые AEX динамически перестраивают свои логические связи и тем самым как бы меняют свое местоположение в логической сети хранения. То есть в графовой модели логической сети узлы, соответствующие этим активным единицам хранения, будут иметь логические связи с некоторым множеством узлов, отличным от первоначального множества узлов, с которыми были связи до модификации информационного объекта. Перестройка логических связей активных единиц хранения обеспечивается средствами программных агентов, входящих в их состав. В одном из вариантов изобретения перестройка логических связей активной единицы хранения при модификации информационного объекта, входящего в ее состав, производится путем удаления данной AEX из логической сети хранения с последующим повторным ее добавлением.

Способ определения меры информационной близости информационных объектов, входящих в состав активных единиц хранения, в соответствии с настоящим изобретением основывается на представлении ИО в виде помеченных деревьев (lаbеlеd tгееs) с заданными корнями (называемыми в данном описании «глaвными кopнями») и ориентированных таким образом, что существуют направленные пути от корней этих деревьев до любых их вершин. В целях упрощения здесь и далее такие деревья будут называться помеченными корневыми деревьями.

Помеченное корневое дерево в данном контексте выступает в роли математической модели внутренней структуры информационного объекта. Корнем дерева в данном случае является главный родительский элемент, лежащий в основе древовидной структуры ИО. Вершинами дерева являются все элементы, образующие внутреннюю структуру ИО. Термины «вepшинa» дерева и «yзeл» дерева следует считать эквивалентными и взаимозаменяемыми. Корень является частным случаем вершины дерева. Метки (lаbеls) вершин дерева представляют собой значения, содержащиеся в данных элементах внутренней структуры ИО. В качестве меток вершин в информационных объектах могут выступать слова естественного языка, числа и прочие мнемонические обозначения.

Здесь и далее введены следующие условные обозначения:

Ti - дерево, моделирующее i-ый информационный элемент;

Ri - корень z^'-оrо дерева; щ - количество вершин z-ого дерева. Для определения меры информационной близости между отдельными ИО вводится понятие метрики или метрического расстояния. Метрика между двумя информационными объектами J₁ с щ вершинами и корнем R^ и J₂ с n₂ вершинами и корнем R₂, в общем случае определяется как метрический тензор, задаваемый матрицей размером щ х n₂: Ip(T₁₅I, T₂, ^₂ )}_ПlxЛ2 , где r\ , r₂ - две вершины (соответственно из T₁, Ti), которые названы временными корнями.

В такой матрице каждый элемент с индексом ij формируется путем вычисления метрической функции р между двумя изоморфно трансформированными деревьями J₁ и J₂, причем дерево J₁ трансформируется путем объявления г-ого его узла временным корнем дерева и перестройки всей структуры дерева относительно этого узла (причем направления всех дуг дерева в процессе трансформации не меняется), а Ti трансформируется аналогичным образом, но только с объявлением его у^'-ого узла временным корнем. При этом, после изоморфной трансформации деревья не будут уже являться ориентированными от корня. Трансформация дерева по г-му узлу называется г-м ракурсом информационного объекта. У каждого ИО количество возможных ракурсов равняется количеству узлов в нем. Нетрансформированное дерево представляет основной или главный ракурс информационного объекта. Все остальные возможные ракурсы называются вспомогательными (или временными). Описанная выше метрика между двумя ИО здесь и далее обозначается термином

«тeнзopнaя мeтpикa». Наряду с тензорной метрикой определяется главная метрика

как значение метрической функции от двух нетрансформированных деревьев, то есть ИО в главных ракурсах.

Помимо этого, вводится функция релевантности rel(r,T), равная расстоянию в дереве T от корня до вершины г. Расстояние определяется как длина пути, измеряемая количеством дуг от корня дерева до произвольной его вершины г. Как видно из определения, функция релевантности принимает неотрицательные целочисленные значения.

Также задается интегральная метрика: p_ы (T₁ , T₂ ) = ∑ Σ W(VeZ(V₁ , T₁ ))w(rel(r₂ , T₂ ))p(T_λ , r_λ , T₂ , r₂ ) , w - вес релевантности. Вес r^Цr₂e Г₂ релевантности фактически играет роль индикатора, указывающего насколько важно положение той или иной вершины в структуре дерева при вычислении информационной близости двух ИО. В соответствии с настоящим методом он вводится как параметр системы, удовлетворяющий следующему требованию: значение веса релевантности убывает по мере роста его аргумента, то есть функции релевантности. Другими словами, чем ближе к корню дерева располагается та или иная вершина, тем выше ее важность и тем больший вклад она вносит в общий результат вычисления интегральной метрики. При увеличении расстояния от корня дерева, соответственно, картина обратная.

Чем больше различаются между собой сравниваемые ИО и по внутренней структуре и по значениям элементов, тем большее значение принимает /Эцц.

Следует отметить, что главная метрика p_mai_п является частным случаем интегральной метрики ры при весе релевантности, определенном как 1 для аргумента, равного 0, и определенном как 0 для всех остальных значений аргумента. Интегральная и тензорная метрики выступают в качестве критериев, на основе которых в способах данного изобретения принимаются решения. Эти метрики используются как мера информационной близости ИО (а, следовательно, и активных единиц хранения, содержащих эти ИО) и в способе добавления AEX в логическую сеть хранения, и в способе их модификации и удаления из сети, а также эти метрики используются в способе поиска активных единиц хранения, содержащих информационные объекты, релевантные поисковым запросам. При этом, в зависимости от конкретных потребностей, применяется либо интегральная (в частном случае дающая главную метрику), либо тензорная метрика. Метрическая функция

определяется через меру общности двух деревьев T\ и Г₂

следующим образом:

При этом мера общности

равна мощности (количеству вершин) наибольшего общего корневого поддерева (или мощности двух максимальных изоморфных (с учетом весов вершин) корневых поддеревьев) у этих двух деревьев, изоморфно трансформированных относительно заданных временных корней r_\ и r₂ соответственно. Корневым поддеревом в данном описании называется такое поддерево рассматриваемого корневого дерева, которое имеет тот же самый корень, что и само корневое дерево. Числовой параметр а выбирается при этом отрицательным (для обеспечения обратной пропорциональности метрической функции мере общности) и в одном из вариантов изобретения он принимает значения меньше -1.

Метрическая функция фактически является средством измерения степени сходства (общности) внутренних структур двух информационных объектов. Однако с ее помощью оценивается сходство структур двух ИО лишь по количеству общих вершин. Функции релевантности в совокупности с весами релевантности дополняют метрическую функцию и совместно с ней позволяют более точно оценивать сходство внутренних структур информационных объектов, уже с учетом уровня значимости всех узлов в их внутренних структурах.

Следует отметить, что одним из свойств метрической функции является то, что при мере общности двух деревьев, равной нулю (это имеет место в случаях, когда временные корни сравниваемых деревьев имеют различные значения), она не определена

(т.к. при ее вычислении производится деление на 0). В таких случаях метрическая функция доопределяется значением «бecкoнeчнocть», которое обозначается символом ∞.

Учитывая описанное выше свойство метрической функции, в одном из вариантов изобретения производится оптимизация представления тензорной метрики. Способ оптимизации заключается в хранении только тех элементов тензорной метрики, которые не принимают значения ∞ либо значения, большего некоторого порога β, являющегося параметром оптимизации.

В соответствии с настоящим изобретением, способ поиска активных единиц хранения в логической сети состоит из нескольких последовательных этапов (иллюстрация способа поиска представлена на фиг.4). На первом этапе на основе поискового запроса формируется специальная информационная сущность, именуемая также поисковой маской или маской поиска. Для поисковой маски создается древовидная внутренняя структура, аналогичная структуре информационных объектов, входящих в состав активных единиц хранения в логической сети. При формировании масок поиска используются те же самые нотации (схемы данных), на которых основаны информационные объекты данного хранилища. Однако, в отличие от ИО, поисковые маски могут строго не соответствовать этим нотациям. Схемы данных лишь определяют внутреннюю структуру поисковых масок в целом, это как бы ориентир, на основе которого строится дерево элементов маски поиска. При этом каждому узлу в структуре каждого из искомых информационных объектов ставится в соответствие узел в структуре поисковой маски (имеющий точно такое же местоположение в дереве). Значение данных в узле маски называется частичным критерием поиска информационных объектов. Здесь и далее понятия «пoиcк информационного oбъeктa» и «пoиcк активной единицы хранения, содержащей искомый информационный oбъeкт» следует считать эквивалентными и взаимозаменяемыми.

В качестве примера вышесказанному - если имеется логическая сеть хранения музыкальных произведений, и поисковый запрос содержит название искомого музыкального произведения, то на основе этого запроса будет сформирована маска, в структуре которой в том месте, где у информационных объектов располагаются названия произведений, будет указана искомая информация, выступающая в качестве частичного критерия поиска, означающего, что нужно искать те музыкальные произведения, которые имеют название, соответствующее этому частичному критерию.

Совокупность всех частичных критериев поиска (всех значений данных в узлах маски, с учетом ее внутренней структуры) определяет полный критерий поиска информационных объектов по данной маске.

Если информационный объект соответствует полному критерию поиска, то он называется полностью релевантным поисковому запросу, на основе которого была сформирована маска, определяющая этот полный критерий. Если же информационный объект не соответствует полному критерию поиска, однако соответствует некоторым его частичным критериям, то такой объект называется частично релевантным поисковому запросу. В случае, когда информационный объект не соответствует ни одному частичному критерию поиска, он называется нерелевантным данному поисковому запросу.

Активная единица хранения называется релевантной (либо частично релевантной) поисковому запросу (маске поиска), если информационный объект, входящий в ее состав является релевантным (либо частично релевантным) этому поисковому запросу.

Частичные критерии поиска могут быть однозначно определенными

(однозначными) и неоднозначно определенными (неоднозначными). Однозначный частичный критерий поиска задается одним конкретным искомым значением элемента в структуре дерева поисковой маски. Этому критерию будут соответствовать все информационные объекты хранилища, у которых соответствующий элемент в дереве их описания имеет значение, точно совпадающее с данным частичным критерием.

Неоднозначный частичный критерий поиска определяет некий диапазон возможных значений искомого элемента в структуре дерева маски, при этом такому критерию будут соответствовать все информационные объекты хранилища, значения соответствующих узлов которых принадлежат указанному диапазону.

Например, если маска запроса содержит элемент, описывающий заголовок музыкального произведения, и дан только один вариант описания заголовка, то этот элемент - однозначный частичный критерий. Такому частичному критерию будут соответствовать все музыкальные произведения, имеющие данное значение заголовка.

Если же, например, маска поиска содержит элемент, описывающий некоторое множество возможных значений цвета автомобиля (синий, черный, красный и т.д.), то этот элемент - неоднозначный частичный критерий. Такому неоднозначному критерию будут соответствовать все автомобили, имеющие цвет, принадлежащий множеству описываемых значений (либо синий, либо черный, либо красный и т.д.).

В соответствии с настоящим изобретением существует несколько способов спецификации диапазона возможных значений у неоднозначных частичных критериев поиска: • «Любoe значение)) - регламентирует, что данному частичному, критерию соответствуют все информационные объекты с любым значением соответствующего элемента в своей внутренней структуре.

• «Любoe значение из списка...» - регламентирует, что данному частичному критерию соответствуют все информационные объекты, имеющие значение соответствующего элемента своей внутренней структуры, принадлежащее множеству указанных вариантов (списку возможных значений).

• «Бoлынe, чем α», «нe меньше, чем α», «нe больше, чем α», «мeньшe, чем α», «бoльшe а, но меньше β» и т.д - этот способ спецификации используется для частичных критериев поиска, значения которых могут быть представлены в числовой форме и регламентирует то, что данному частичному критерию соответствуют все информационные объекты, значения соответствующего элемента внутренней структуры которых принадлежат указанному диапазону.

• «3a исключением значений из списка... » - регламентирует, что данному частичному критерию соответствуют все информационные объекты, значения соответствующих элементов которых не совпадают с указанными в списке вариантами.

После того как поисковая маска будет сформирована, производится непосредственно сам процесс поиска активных единиц хранения, содержащих информационные объекты, соответствующие данной маске в логической сети хранения (см. фиг.4). При этом, в зависимости от условий поиска и требований к поисковой процедуре может производиться поиск информационных объектов с различной степенью релевантности поисковой маске (а, следовательно, и поисковому запросу). Требуемая степень релевантности результатов поисковой маске является параметром поискового способа и задается каждый раз при инициации очередной процедуры поиска. При этом ее значение либо конфигурируется автоматически исходя из требований к поисковой процедуре, либо каждый раз задается пользователем. В дальнейшем, для простоты описания, понятие «peлeвaнтнocть» будет использоваться для обозначения релевантности с заранее заданной степенью.

Упомянутая выше поисковая процедура носит распределенный характер и в ней принимают участие программные агенты всех активных единиц хранения, находящихся в логической сети хранения (более подробно об этом смотри ниже).

Наряду с требуемой степенью релевантности результатов поиска, дополнительными параметрами поисковой процедуры могут быть: максимальное количество активных единиц хранения, которые могут быть рассмотрены в ходе этой процедуры поиска; максимальная длительность поисковой процедуры по времени и т.д. Инициаторами процедур поиска в логической сети хранения в соответствии с данным способом могут быть либо сами активные единицы хранения, находящиеся в этой сети, либо внешние по отношению к этой сети сущности, например приложения, обслуживающие логическую сеть хранения и предоставляющие пользователям услуги на ее основе. Отличительной особенностью настоящего изобретения является то, что в одном из его вариантов после формирования поисковой маски из поискового запроса, на основе этой маски создается специальный активный запросный объект (АЗО), который помещается в логическую сеть хранения, при этом используется тот же самый способ размещения в логической сети, что и при добавлении активных единиц хранения - активный запросный объект устанавливает множество логических связей с AEX в сети и точно также, на правах обычной активной единицы хранения участвует в маршрутизации движения точек текущей активности поисковых процессов (описаны ниже), а также сам может являться предметом поиска, либо инициатором поиска.

Важнейшей функцией активных запросных объектов является поддержание актуальности информации о результатах поисковых запросов, на которые они ориентированы. Например, если в логической сети хранения с информацией об автомобилях размещается АЗО, ориентированный на запрос вида: «cкoлькo автомобилей такой-то конкретной марки имeeтcя», то этот объект будет периодически инициировать запросы данного вида и хранить их результаты. Конкретный временной график инициации поисковых запросов посредством данного активного запросного объекта будет определяться множеством параметров, важнейшими из которых являются: требуемая степень актуальности («cвeжecти») предоставляемой информации о результатах поиска, динамика обновления данных в логической сети хранения, степень загруженности узлов логической сети поисковыми запросами, возможности вычислительных систем и каналов их связей при физической реализации хранилища и т.д.

В другом варианте изобретения активные запросные объекты не размещаются среди активных единиц хранения, а образуют свою собственную логическую сеть, построенную по тем же самым принципам, что и сеть хранения AEX, описывающих сущности предметной области. Такая логическая сеть активных запросных объектов в данном описании именуется термином «мeтa-ceть».

При этом каждому из активных запросных объектов, находящихся в мета-сети, будет соответствовать некоторое множество AEX из логической сети хранения, релевантных поисковому запросу, на который данный АЗО ориентирован (с заданной степенью релевантности).

Все активные запросные объекты из мета-сети будут периодически инициировать поисковые запросы к логической сети активных единиц хранения с целью поддержания актуальности своей информации, на предоставление которой они ориентированы.

В контексте описания способа поиска большое значение имеет термин «тoчкa вxoдa» поискового процесса. Точкой входа называется активная единица хранения или узел на графовой модели логической сети хранения, через который инициируется процесс поиска AEX, содержащей информационный объект, релевантный поисковой маске (см. иллюстрацию на фиг.2).

В одном из вариантов настоящего изобретения в качестве точек входа могут выступать любые узлы логической сети хранения. Если какая-либо активная единица хранения инициирует поиск других AEX₅ то она сама принимает на себя роль точки входа для поискового процесса.

Инициация поискового процесса активной единицей хранения может производиться либо по инициативе пользователей, либо автоматически, без участия человека как составная часть более сложных процессов взаимодействия электронных устройств.

В тех вариантах реализации изобретения, где имеются сценарии инициации поисковых запросов пользователями, требуется обеспечить пользовательские интерфейсы для ввода поисковых запросов с последующей инициацией поисковой процедуры через одну из активных единиц хранения в логической сети.

Выбор конкретной AEX определяется условиями реализации технических систем на основе данного изобретения. Например, если активная единица хранения является частью более сложной системы, какого-либо программного или аппаратно- программного устройства, то она предоставляет этому устройству услуги по поиску других аналогичных устройств, являясь при этом точкой входа в логическую сеть хранения для данного конкретного экземпляра системы, то есть все поисковые процедуры инициируются данным устройством через указанную AEX.

В другом варианте используется некое ограниченное подмножество узлов логической сети хранения, выступающих в качестве точек входа, а также некоторый специализированный сервер балансировки нагрузки точек входа, осуществляющий распределение нагрузки между различными точками входа в логической сети хранения.

При этом во все активные единицы хранения, вновь добавляемые в логическую сеть, записывается адрес этого сервера, представляемый в конкретном варианте осуществления изобретения в виде URL. Физически сервер балансировки нагрузки может размещаться на любой вычислительной машине, имеющей доступ в физическую компьютерную сеть хранилища. В том числе, такой сервер может располагаться на одной из ЭВМ, содержащей хостирующую платформу и входящей в состав децентрализованного хранилища. В другом варианте изобретения сервер балансировки нагрузки может быть представлен в виде отдельного сервиса, внешнего по отношению к распределенной системе хранения. Физически такой сервис может быть размещен на отдельном вычислительном устройстве, соединенном линиями связи с распределенным хранилищем. В результате, если какая-либо активная единица хранения инициирует запрос на поиск других AEX в логической сети хранения, то она сначала запрашивает сервер балансировки нагрузки, который выдает адрес точки входа, через которую затем инициируется сам процесс поиска. Количество точек входа и их загрузка в такой системе динамически конфигурируются сервером балансировки нагрузки точек входа в зависимости от интенсивности поисковых запросов в данный момент времени, а также от пропускной способности точек входа по обслуживанию поисковых запросов.

Поскольку, как будет показано ниже, процесс поиска носит распределенный характер и в нем попеременно задействуются те или иные узлы логической сети хранения, в данном описании вводится специальный термин — «тoчкa текущей активности поискового процесса)) или «тeкyщaя точка пoиcкa», обозначающий текущую точку (активную единицу хранения) логической сети, которая задействуется в данный момент времени в поисковых операциях или, другими словами, в которой сосредоточена поисковая активность данной конкретной процедуры поиска (см. фиг.4).

Следует отметить, что в соответствии с данным изобретением все поисковые операции в логической сети хранения носят распределенный, децентрализованный характер и выполняются средствами программных агентов активных единиц хранения. При этом в каждый момент времени в процессе поиска задействованы программные агенты тех AEX, в которых в этот момент находится текущая точка поиска.

В процессе поиска точка текущей поисковой активности последовательно перемещается от точки входа к другим узлам логической сети хранения по логическим связям, которые между этими узлами имеются (см. фиг.4). Отличительной особенностью при этом является то, что в каждой активной единице хранения, в которую перемещается текущая точка поиска, производится сравнение информационного объекта, входящего в ее состав с маской поиска по метрике, описанной выше.

Как уже упоминалось ранее, это сравнение производится средствами программного агента данной AEX. Физически сравнение производится средствами хостирующей платформы, которая и предоставляет программные агенты активным единицам хранения. Цель сравнения - определить степень информационной близости между запросной маской и информационным объектом, принадлежащим данной текущей активной единице хранения, то есть, другими словами, определить насколько данная AEX соответствует (релевантна) поисковому запросу. После того, как это сравнение будет произведено, принимается решение, достигнут ли конечный результат в задаче поиска. Это решение зависит во-первых, от того, является ли рассматриваемая текущая активная единица хранения релевантной поисковому запросу с той степенью релевантности, которая заложена в данной поисковой процедуре, а во вторых, от того, не найдено ли требуемое количество релевантных AEX.

Максимальное количество релевантных запросу активных единиц хранения, которое требуется найти, также является одним из параметров поисковой процедуры и определяется конкретными задачами и ситуациями поиска. Это требуемое количество в каждом отдельном случае может варьироваться от одной единицы, например, в запросах вида: «нaйти хотя бы один объект, удовлетворяющий определенным критериями до неограниченной величины, например: «нaйти все объекты, удовлетворяющие некоторым критериям)) или «cкoлькo всего в хранилище находится таких объектов)).

Если данная AEX релевантна поисковому запросу и уже были найдены все другие релевантные единицы хранения, составляющие требуемое множество, то информация об этой AEX возвращается в тот узел или внешнюю по отношению к логической сети хранения сущность, которые инициировали поиск и на этом процедура поиска завершается.

Если же не все требуемое множество активных единиц хранения было найдено и/или данная AEX не обладает достаточной степенью релевантности, то процесс поиска продолжается и дальнейшим шагом в нем является выбор последующего узла-кандидата, в который затем перемещается точка текущей поисковой активности и вся вышеописанная процедура рекурсивно повторяется.

Выбор нужного узла-кандидата может производиться из множества всех активных единиц хранения, с которыми у текущего узла (текущего на момент нахождения в нем поисковой активности) имеются логические связи, а также из всех

AEX, являющихся «coceдями» (по логическим связям) узлов, расположенных на всем предшествующем пути перемещения поискового процесса (см. фиг.4).

Отличительной особенностью способа выбора последующих узлов-кандидатов является то, что в результате точка текущей активности поискового процесса перемещается в направлении увеличения релевантности узлов поисковой маске (то есть в направлении увеличения меры информационной близости маски и информационных объектов, находящихся в активных единицах хранения). При этом на каких-то конкретных участках перемещения поисковая активность может переходить (откатываться) и на менее релевантные узлы, но в целом, она всегда будет двигаться в направлении увеличения релевантности. И поэтому можно ожидать, что основное количество искомых активных единиц хранения (а следовательно и содержащихся в них информационных объектов) будет находиться на конечных участках путей перемещения поисковой активности по логической сети хранения.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ

1. Система хранения, поиска и извлечения множества информационных объектов произвольной предметной области, содержащая распределенную вычислительную систему, состоящую из одного или нескольких вычислительных устройств, соединенных между собой линиями связи, связную логическую сеть хранения, каждый узел которой представляет собой активную единицу хранения (AEX), причем связи между узлами упомянутой сети образованы ссылками одних активных единиц хранения на другие, при этом каждая активная единица хранения размещается на одном из вычислительных устройств упомянутой распределенной вычислительной системы и содержит: по меньшей мере один из упомянутого множества информационных объектов, каждый из которых представлен в виде древовидной структуры, список ссылок на некоторое множество других активных единиц хранения, посредством которого данная AEX принимает участие в работе логической сети хранения и ассоциированный программный агент, позволяющий выполнять над данной AEX операции, связанные с поиском, добавлением и извлечением информации по запросам пользователя, используя упомянутый список ссылок.

2. Система по п.l, в которой внутренняя структура информационных объектов регламентируется нотациями, специфичными для предметных областей, которым принадлежат ИО.

3. Система по п.l, в которой ИО представляют собой электронные документы, имеющие вид ХМL-документов.

4. Система по п.З, в которой ХМL-документы имеют вид ХМL-файлов в файловой системе вычислительных машин, хранящих ИО.

5. Система по п.2, в которой нотации имеют вид ХМL-схем стандарта XML Sсhеmа.

6. Система по п.l, в которой информационным объектам присваиваются уникальные идентификационные коды (УИК).

7. Система по п.6, в которой УИК представляют собой электронные коды продуктов (EPC).

8. Система по п.6, в которой УИК представляют собой глобальные уникальные идентификаторы объектов (GUID).

9. Система по п.l, в которой ссылки между ИО являются однонаправленными.

10. Система по п.l, в которой ссылки между ИО являются как двунаправленными так и однонаправленными.

11. Система по п.l, в которой ссылки имеют вид уникальных идентификаторов ресурсов (URI) объектов.

12. Система по п.l, в которой ссылки между ИО описываются в виде XML- документов формата ХLiпk.

13. Система по п.l, в которой используется подмножество узлов логической сети хранения в качестве точек входа в эту сеть, при этом имеется специализированный сервер, осуществляющий динамическую балансировку нагрузки точек входа и задающий общее количество точек входа.

14. Система по п.13, в которой сервер динамической балансировки нагрузки точек входа физически реализуется на хостирующей платформе одного из вычислительных устройств распределенной вычислительной системы.

15. Система по п.13, в которой сервер динамической балансировки нагрузки точек входа физически реализуется в виде отдельного сервиса, внешнего по отношению к распределенной системе хранения информационных объектов.

16. Система по п.13, в которой при каждом клиентском обращении к логической сети хранения инфраструктура динамической балансировки нагрузки точек входа выполняет роль посредника и выдает клиентской системе ссылку на один из узлов логической сети, который становится для данной клиентской системы точкой входа в логическую сеть хранения.

17. Система по п.16, в которой выбор конкретной точки входа осуществляется в зависимости от интенсивности поисковых запросов в данный момент времени, а также от пропускной способности точек входа по обслуживанию поисковых запросов.

18. Система по п.l, в которой при внесении модификаций в информационные объекты активных единиц хранения, находящихся в логической сети хранения, AEX динамически перестраивают свои логические связи.

19. Система по п.18, в которой динамическая перестройка логических связей активной единицы хранения в логической сети производится средствами программного агента, входящего в ее состав.

20. Система по п.l, в которой программный агент каждой активной единицы хранения производит сравнение ИО, входящего в ее состав, с ИО любой другой AEX и по результатам сравнения вычисляет значение метрического расстояния между сравниваемыми ИО.

21. Система по п.20, в которой метрическое расстояние между двумя ИО определяется как матрица размером щ * л₂: Ip(T₁ , r_x ,T₂, r₂)} _{п Xп} , где T₁, T₂ - корневые деревья, моделирующие внутреннюю структуру сравниваемых ИО, r_\, ri - две вершины (соответственно из J₁, J₂), которые названы временными корнями, щ , и₂ - количество узлов в структуре первого и второго ИО соответственно; при этом

где c(Г_l5Гi,J₂,r₂) - мера общности, равная мощности (количеству вершин) наибольшего общего поддерева у двух деревьев сравниваемых ИО, изоморфно трансформированных относительно заданных временных корней r_\ и r₂ соответственно, а - числовой параметр, принимающий значения а <— 1.

22. Система по п.21, в которой задается главное значение метрического расстояния

как значение метрической функции от двух нетрансформированных деревьев.

23. Система по п.21, в которой задается интегральное значение метрического расстояния между двумя ИО

Pm (⁷ _{I »} ^T ₂ ) = ∑ ∑ w(rel(r_x , T_x ))w(rel(r₂ , T₂ ))ρ(T_λ ,r_x,T₂,r₂) , где rel(r, T) - функция пeT_ЛeT₂ релевантности, равная расстоянию в дереве T от корня до вершины г, причем расстояние определяется как длина пути, измеряемая количеством дуг от корня дерева до произвольной его вершины г, а w — вес релевантности, указывающий насколько важно положение вершины в структуре дерева при вычислении информационной близости двух ИО.

24. Способ добавления информации о новых объектах произвольной предметной области к системе хранения и поиска множества информационных объектов по п.l, согласно которому а) представляют информацию о новых объектах в виде древовидной структуры, создавая таким образом информационный объект (ИО) в связной логической сети хранения упомянутой системы, б) с каждым созданным ИО ассоциируют программный агент, предназначенный для выполнения операций в отношении этого ИО, а также список ссылок на другие ИО, находящиеся в логической сети хранения, формируя таким образом активную единицу хранения, в) сравнивают ИО, входящий в состав каждой созданной AEX с множеством других ИО, имеющихся в упомянутой связной логической сети хранения, и измеряют метрическое расстояние между ИО по результатам сравнения, г) для множества тех AEX, ИО которых имеют наименьшее метрическое расстояние до добавляемого ИО, создают логические связи с AEX, содержащей добавляемый ИО, д) для всех ссылок, содержащихся в списке ссылок добавляемой AEX, записывают метрические расстояния до соответствующих этим ссылкам информационных объектов, е) сохраняют добавляемую AEX на одном из вычислительных устройств упомянутой системы.

25. Способ по п.24, в котором при создании логических связей добавляют соответствующие ссылки в списки ссылок добавляемой и существующих активных единиц хранения.

26. Способ по п.24, в котором метрическое расстояние между двумя ИО определяется как матрица размером щ х n₂: {p(T_i,r_ι,T₂,r₂)}_{п xп} , где T₁, J₂ - корневые деревья, представляющие собой внутреннюю структуру сравниваемых ИО, r_\, r₂ — две вершины, названные временными корнями, соответственно из T₁, J₂; щ, пj - количество узлов в структуре первого и второго ИО соответственно; при этом p(TьГ₁,Г₂,r₂) = (c(Tьr₁,J₂,r₂))^α, где

- мера общности, равная мощности наибольшего общего поддерева у двух деревьев сравниваемых ИО, изоморфно трансформированных относительно заданных временных корней r_\ и r₂ соответственно, а - числовой параметр, принимающий значения а < — 1.

27. Способ по п.24, в котором задается главное значение метрического расстояния P_mOm(Ji₅J₂) ⁼/>(T_1r/?ьT_2r/?₂) как значение метрической функции от двух нетрансформированных деревьев.

28. Способ по п.24, в котором задается интегральное значение метрического расстояния между двумя ИО p_mi(T_xJ₂) = Ъ

где rel(r,T) - функция

_Гιe T_ЛeT₂ релевантности, равная расстоянию в дереве J от корня до вершины г, причем расстояние определяется как длина пути, измеряемая количеством дуг от корня дерева до произвольной его вершины г, а w - вес релевантности, указывающий насколько важно положение вершины в структуре дерева при вычислении информационной близости двух ИО.

29. Способ поиска и извлечения информации об объектах произвольной предметной области в системе хранения и поиска множества информационных объектов по п.l, согласно которому: а) создают маску поиска, содержащую информацию, релевантную которой необходимо извлечь из упомянутой системы, причем маска поиска представляет собой информационный объект (ИО) с древовидной структурой, аналогичной древовидной структуре информационных объектов, хранящихся в упомянутой системе, б) создают активный запросный объект (АЗО) на основе созданной маски поиска, содержащий параметры поиска, в) сравнивают АЗО с ИО, содержащимися в каждой из множества активных единиц хранения логической сети упомянутой системы, причем переход от одной AEX к другой осуществляют по имеющимся логическим связям между ними в направлении уменьшения метрического расстояния между информационными объектами, входящими в состав этих AEX, г) извлекают ИО, удовлетворяющий заданным в АЗО параметрам поиска, в качестве ответа на запрос.

30. Способ по п.29, в котором в состав АЗО вводят программный агент для выполнения операций над АЗО.

31. Способ по п.29, в котором вводят АЗО в логическую сеть хранения упомянутой системы.

32. Способ по п.29, в котором АЗО вводится в мета-сеть, каждый элемент которой представляет собой АЗО.

33. Способ по любому из пп.29-32, в котором АЗО периодически выполняет обновление содержащейся в нем информации путем поисковых запросов к соответствующим AEX в логической сети хранения упомянутой системы.

34. Способ по п.29, в котором сравнение осуществляют средствами программного агента, входящего в состав АЗО.

35. Способ по п.29, 32, в котором каждому из АЗО, находящихся в мета-сети, соответствует множество информационных объектов логической сети хранения, релевантных поисковому запросу, на который данный активный запросный объект ориентирован.

36. Способ по п.29, в котором параметрами поиска являются по меньшей мере один из: требуемая степень актуальности выдаваемой в результате поиска информации, динамика обновления данных в логической сети хранения, степень загруженности узлов логической сети поисковыми запросами, возможности вычислительных систем и каналов их связей, количество операций вычисления метрического расстояния, требуемая степень релевантности выдаваемой информации, лимит времени, отводимого на выполнение каждой отдельной поисковой процедуры.

37. Способ по п.29, в котором поисковая маска формируется с использованием тех же нотаций, что и информационные объекты хранилища; при этом каждому узлу в структуре искомых информационных объектов ставится в соответствие узел в структуре поисковой маски; значение данных в узле маски является частичным критерием поиска ИО; совокупность всех частичных критериев поиска определяет полный критерий поиска информационных объектов по данной маске.

38. Способ по п.29, 37, в котором частичные критерии поиска могут быть однозначными и неоднозначными.

39. Способ по п.29, в котором в зависимости от условий поиска и требований к поиску, производится поиск информационных объектов с различной степенью релевантности поисковой маске.

40. Способ по п.29, в котором инициаторами процедур поиска могут быть узлы логической сети хранения.

41. Способ по п.29, в котором в качестве точек входа для поискового процесса выступают любые узлы логической сети хранения.

42. Способ по п.29, в котором используется подмножество узлов логической сети хранения в качестве точек входа для поискового процесса, при этом выделяют специализированную инфраструктуру, осуществляющую динамическую балансировку нагрузки точек входа и задающую общее количество точек входа.

43. Способ по п.29, в котором метрическое расстояние между двумя ИО определяется как матрица размером щ х n₂: {/>(Г₁,/-₁,Г₂,r₂)}_ЛlxЛ2 , где J₁, J₂ - корневые деревья, представляющие внутреннюю структуру сравниваемых ИО, r_\ , r₂ - две вершины, названные временными корнями, соответственно из J₁, J₂; п_\, и₂ - количество узлов в структуре первого и второго ИО соответственно; при этом />(JьrьJ₂,r₂)

- мера общности, равная мощности наибольшего общего поддерева у двух деревьев сравниваемых ИО, изоморфно трансформированных относительно заданных временных корней r_\ и r₂ соответственно, а — числовой параметр, принимающий значения а <— 1.

44. Способ по п.43, в котором задается главное значение метрического расстояния _/9^_1n(J₁₅J₂) =/>( J₁JJ₁, J₂^₂) как значение метрической функции от двух нетрансформированных деревьев.

45. Способ по п.29, в котором задается интегральное значение метрического расстояния между двумя ИО Pы(^тi_> ^T ₂) ⁼ ∑ ∑^w(^reKri_> ^тi))'^w(rel(r₂,T₂))p(T_ur_ι,T₂,r₂), где rel(r,T) - функция

релевантности, равная расстоянию в дереве T от корня до вершины г, причем расстояние определяется как длина пути, измеряемая количеством дуг от корня дерева до произвольной его вершины г, а w - вес релевантности, указывающий важность положения вершины в структуре дерева при вычислении информационной близости двух ИО.

46. Способ удаления информации об объектах произвольной предметной области из системы хранения и поиска множества информационных объектов по п.l, согласно которому а) помечают меткой AEX, подлежащую удалению, б) при добавлении новых AEX в упомянутую систему хранения и поиска сравнивают ИО добавляемых AEX с ИО удаляемой AEX и при удовлетворении критерия близости по метрике упомянутых ИО замещают удаляемую AEX добавляемой AEX в логической сети упомянутой системы.

47. Способ по п.46, в котором подлежащая удалению AEX физически удаляется из вычислительной системы после завершения процедуры удаления AEX из логической сети хранения.

48. Способ по п.46, в котором подлежащая удалению AEX архивируется после завершения процедуры удаления AEX из логической сети хранения и сохраняется в архиве в вычислительной системе.

49. Способ по п.46, в котором при каждом удалении осуществляется изменение ссылок в списке ссылок информационных объектов, связанных с данным ИО.

50. Способ по п.46, в котором метрикой является информационное расстояние между двумя ИО, определяемое как матрица размером щ х n₂: {p(T[,r_i,T₂,r₂)}_{п xп} , где Z₁, T₂ - корневые деревья, представляющие собой внутреннюю структуру сравниваемых ИО, r_\, r₂ - две вершины (соответственно из Z₁, Z₂), которые названы временными корнями, П\, п₂ - количество узлов в структуре первого и второго ИО соответственно; при этом

где c(T_hrι,T₂,r₂) - мера общности, равная мощности наибольшего общего поддерева у двух деревьев сравниваемых ИО, изоморфно трансформированных относительно заданных временных корней r_\ и r₂ соответственно, а - числовой параметр, принимающий значения а < — 1.

51. Способ по п.50, в котором задается главное значение метрического расстояния p_mai_п(Tι,T₂) =p{Tι^ι,T₂Ji₂) как значение метрической функции от двух нетрансформированных деревьев.

52. Способ по п.46, в котором задается интегральное значение метрического расстояния между двумя ИО

PЬ_A (^TI _> ^TI ) ⁼ ∑ ∑^w(^/(r₁,Гi))w(re/(r₂,Г₂))/⁾(Г₁ ,λ-₁,Г₂,r₂) , где rel(r,T) - функция

_ГleT_ЛeT₂ релевантности, равная расстоянию в дереве T от корня до вершины г, причем расстояние определяется как длина пути, измеряемая количеством дуг от корня дерева до произвольной его вершины г, а w - вес релевантности, указывающий важность положения вершины в структуре дерева при вычислении информационной близости двух ИО.

53. Способ удаления информации об объектах произвольной предметной области из системы хранения и поиска множества информационных объектов по п.l, согласно которому а) для активной единицы хранения, подлежащей удалению рассматривают все соседние по логическим связям AEX, выбирая из них одну АЕХ-кандидата, наиболее близкую по метрике к удаляемой AEX, б) исключают из логической сети хранения AEX, подлежащую удалению, в) на место исключенной AEX помещают АЕХ-кандидата и при этом все логические связи удаляемой AEX замыкают на АЕХ-кандидата, перестраивая соответствующим образом записи в списках ссылок АЕХ-кандидата и всех АЕХ-соседей, г) пересчитывают значения метрик по всем логическим связям АЕХ-кандидата.

54. Способ по п.53, в котором подлежащая удалению AEX физически удаляется из вычислительной системы после завершения процедуры удаления AEX из логической сети хранения.

55. Способ по п.53, в котором подлежащая удалению AEX архивируется после завершения процедуры удаления AEX из логической сети хранения и сохраняется в архиве в вычислительной системе.

56. Способ по п.53, в котором метрика представляет собой метрическое расстояние между двумя ИО, определяемое как матрица размером щ * и₂: {p{Tχ ,r_λ,T₂,r₂)} _щXПj , где Z₁, Г₂ - корневые деревья, представляющие собой внутреннюю структуру сравниваемых ИО, r_\ , ri — две вершины, называемые временными корнями, соответственно из T_\, J₂; щ, и₂ - количество узлов в структуре первого и второго ИО соответственно; при этом

где - мера общности, равная мощности наибольшего общего поддерева у двух деревьев сравниваемых ИО, изоморфно трансформированных относительно заданных временных корней Г_\ и r₂ соответственно, а - числовой параметр, принимающий значения а < — 1.

57. Способ по п.56, в котором задается главное значение метрического расстояния

58. Способ по п.53, в котором задается интегральное значение метрического расстояния между двумя ИО

Pы(^т _{\ >} ^T ₂) ⁼ ∑ ∑^w(^rel(ri,T_ι))w(rel(r₂,T₂))p(T_ϊ,r_i,T₂,r₂), где rel(r,T) - функция r^T_Лe T₂ релевантности, равная расстоянию в дереве T от корня до вершины г, причем расстояние определяется как длина пути, измеряемая количеством дуг от корня дерева до произвольной его вершины г, а w — вес релевантности, указывающий важность положения вершины в структуре дерева при вычислении информационной близости двух ИО.