RU2011134532A - Способ каркасного полно-модифицируемого размещения данных в хранилище с учетом их предварительной этимологической сепарации - Google Patents

Способ каркасного полно-модифицируемого размещения данных в хранилище с учетом их предварительной этимологической сепарации Download PDF

Info

Publication number
RU2011134532A
RU2011134532A RU2011134532/08A RU2011134532A RU2011134532A RU 2011134532 A RU2011134532 A RU 2011134532A RU 2011134532/08 A RU2011134532/08 A RU 2011134532/08A RU 2011134532 A RU2011134532 A RU 2011134532A RU 2011134532 A RU2011134532 A RU 2011134532A
Authority
RU
Russia
Prior art keywords
entity
objects
atomic
data
entities
Prior art date
Application number
RU2011134532/08A
Other languages
English (en)
Inventor
Борис Евгеньевич Панченко
Original Assignee
Борис Евгеньевич Панченко
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from UAA200901773A external-priority patent/UA92248C2/ru
Priority claimed from UAA201001694A external-priority patent/UA99921C2/ru
Application filed by Борис Евгеньевич Панченко filed Critical Борис Евгеньевич Панченко
Publication of RU2011134532A publication Critical patent/RU2011134532A/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

1. Способ каркасного полно-модифицируемого размещения данных в хранилище с учетом их предварительной этимологической сепарации, который заключается в том, что размещаемые данные имеют общий набор характеристик, которые отвечают общему предикату, а группы сущностей-объектов находятся между собой в разнообразных отношениях, а для входного анализа данных используются онтологии, т.е. словари произвольных предметных областей, построенные в соответствии с теми или иными факторами, который отличается тем, что каждое данное размещается в ячейке памяти вместе со структурированным идентификатором, линейно-цепочная структура которого имеет вид: X+X+X+…, а каждое атомарное звено Xэтой цепи формализует происхождение смысла этого размещаемого данного и может быть независимо проиндексировано, причем структура идентификатора не произвольная, а получена посредством синтеза декартова каркаса структурированных идентификаторов, в дальнейшем - просто каркаса, формализующего моделируемую предметную область, а синтез каркаса может быть осуществлен в соответствии с заявляемым способом либо пользователем не автоматически, либо автоматически; способ как не автоматического, так и автоматического синтеза каркаса структурированных идентификаторов основывается на учите всех возможных частичных копий каждой сущности-объекта из моделируемой предметной области, порождающей размещаемые в памяти данные, вне зависимости от семантики этой сущности-объекта, представляя любую сущность-объект атомарной, образовывая маски этих сущностей-объектов, после чего моделируются все связи между группами этих масок сущностей-объектов в пре

Claims (20)

1. Способ каркасного полно-модифицируемого размещения данных в хранилище с учетом их предварительной этимологической сепарации, который заключается в том, что размещаемые данные имеют общий набор характеристик, которые отвечают общему предикату, а группы сущностей-объектов находятся между собой в разнообразных отношениях, а для входного анализа данных используются онтологии, т.е. словари произвольных предметных областей, построенные в соответствии с теми или иными факторами, который отличается тем, что каждое данное размещается в ячейке памяти вместе со структурированным идентификатором, линейно-цепочная структура которого имеет вид: X1+X2+X3+…, а каждое атомарное звено Xk этой цепи формализует происхождение смысла этого размещаемого данного и может быть независимо проиндексировано, причем структура идентификатора не произвольная, а получена посредством синтеза декартова каркаса структурированных идентификаторов, в дальнейшем - просто каркаса, формализующего моделируемую предметную область, а синтез каркаса может быть осуществлен в соответствии с заявляемым способом либо пользователем не автоматически, либо автоматически; способ как не автоматического, так и автоматического синтеза каркаса структурированных идентификаторов основывается на учите всех возможных частичных копий каждой сущности-объекта из моделируемой предметной области, порождающей размещаемые в памяти данные, вне зависимости от семантики этой сущности-объекта, представляя любую сущность-объект атомарной, образовывая маски этих сущностей-объектов, после чего моделируются все связи между группами этих масок сущностей-объектов в предметной области, для чего каждой группе масок отводят в хранилище несколько участков памяти для размещения элементов хранения, т.е. резервируют в памяти домены-маски с соответствующим унарным идентификатором ячейки для каждого, создавая, таким образом, расширенное начальное множество участков памяти, и количество доменов-масок, которые там размещают, равняется сумме всех масок всех сущностей-объектов; а далее и каркас структурированных идентификаторов, и логическая схема хранилища строятся в цифровой памяти в соответствии с сочетаниями декартовых произведений всех доменов-масок между собой по принципу "все на все", формируя при этом каркас связей доменов-масок, при этом общее количество размещаемых групп атрибутов доменов-масок, то есть копий сущностей-объектов, существенно увеличивается по сравнении с другими известными способами, и соответствует множеству всех подмножеств связей доменов-масок сущностей-объектов; однако, вновь полученные сочетаниями декартовых произведений семантически несовместные сущности-объекты могут пользователем не учитываться и не размещаться в хранилище, причем этот шаг процесса формирования хранилища может быть принят за нулевое приближение; и на дальнейших этапах для учета семантики произвольной предметной области осуществляется автоматизированный логический и статистический анализ описания произвольной предметной области, а также дальнейшие последовательные приближения этого анализа на получаемом каркасе связей как на шаблоне, что позволяет автоматизировано и более оптимально размещать данные в хранилище и существенно уменьшить количество семантически несовместных групп атрибутов;
2. Способ в соответствии с п.1, отличающийся тем, что для семантического анализа описания произвольной предметной области осуществляется считывание нескольких цифровых начальных потоков данных, полученных: путем преобразования звукового голосового сигнала, описывающего произвольную предметную область, надиктованного естественным языком в реальном масштабе времени, или записанного в виде файла, или путем считывания текстового файла описания предметной области, сформированного текстом на естественном языке, или считывания файла, сформированного языком последовательных схем или графов, которые отвечают описанию предметной области, или считывания последовательности файлов хранилищ данных, которые уже существуют и введены в эксплуатацию; при этом для дальнейшего анализа упомянутые цифровые потоки сравнивают один с другим для подтверждения совпадений или выявления противоречий в замаскированных смыслах произвольных сущностей-объектов, после чего на следующем шаге способа благодаря известным процедурам осуществляют распознавание и отделение слов в звуковом потоке или превращение в словесный поток совокупности схем или структур файлов баз данных существующего и введенного в эксплуатацию хранилища, а после этого - размещение всех полученных слов от всех потоков в памяти, чем фиксируются совпадения или противоречия; причем при разработке хранилищ данных описанные потоки, как правило, формируются различными независимыми источниками, поэтому если разработка хранилища находится на начальном этапе, пользователь в соответствии с рекомендациями способа обеспечивает генерацию несколькими независимыми экспертами нескольких начальных потоков.
3. Способ в соответствии с п.2, отличающийся тем, что на следующем шаге поочередно анализируется каждое слово по принципу последовательных приближений, причем способ обеспечивает возможность динамично учитывать дополнительные сведения о данных из предметной области, причем совокупный начальный поток, полученный на предыдущем шаге, в памяти превращается в поток, который имеет следующую форму: технологической единицей начального потока для автоматизированного анализа есть одно атомарное предложение, каждое из совокупности которых содержит только две сущности-объекта, каждая из которых кодируется существительным с уникальным побуквенным написанием, причем так, что существительные, которые повторяются, означают одну и ту же сущность-объект, поэтому такое повторение в пределах одного предложения означает тривиальную пару, т.е., такую, которая несет лишь декларацию о наличии этой сущности-объекта, без связей ее с другими, и глаголом между ними, что символизирует бинарную связь между парой сущностей-объектов, с уникальным побуквенным написанием так, что глаголы, которые повторяются, означают один и тот же класс связи; причем способ не предусматривает верхнего ограничения количества предложений, а нижнее ограничение обусловлено содержанием предметной области, тем не менее, предполагается предварительный формальный анализ наличия для каждой задекларированной сущности-объекта хотя бы одной связи с какой либо иной сущностью-объектом.
4. Способ в соответствии с п.3, отличающийся тем, что для преобразования файла начального потока описания предметной области, сформированного языком последовательных схем или графов, в поток слов, каждой графовой фигуре схемы - например, прямоугольнику, ставится в соответствие существительное, а дуге графа, обозначенной на схеме прямой или кривой линией, которая соединяет эти прямоугольники, ставится в соответствие глагол; причем, способом предполагается отдельная процедура строгого вычленения из схемного начального потока пар сущностей-объектов и их связей, а также обозначение их существительными и глаголами, т.е. обработку графовых схем типа ER-схем с учетом ограничений уникальности побуквенного наименования сущностей-объектов; аналогичная процедура используется и при превращении в атомарные предложения файлов введенных в эксплуатацию хранилищ данных.
5. Способ в соответствии с п.4, отличающийся тем, что для предварительной сепарации в памяти формируется отдельный участок, где размещаются структурированные идентификаторы ячейки, структура каждого из которых не произвольная, не заданная пользователем и не полученная каким-то иным отличным способом, а строго отвечает вероятной семантической структуре содержания каждой сущности-объекта, которая, в свою очередь, автоматизировано отслеживается благодаря критериям способа, которые построены на едином обобщенном факторе - происхождении содержания этой сущности-объекта, т.е. ее этимологии; причем в этом способе использованы те обстоятельства, что, во-первых, в произвольной предметной области сколь угодно большого объема и произвольной структуры все сущности-объекты распределяются на три известные категории - атомарные сущности-объекты, которые еще называют базовыми, а также слабые и составные, т.е., постсвязные сущности-объекты, а во-вторых, синтез сущностей-объектов осуществляется по следующей схеме: на базе атомарных порождаются слабые, т.е. функционально зависимые от базовых, причем такая зависимость может быть либо лишь на уровне идентификации слабых атрибутов, либо на уровне всего существования зависимых слабых сущностей-объектов; а на базе суммарной совокупной группы атомарных и слабых сущностей-объектов благодаря образованию разнообразных связей между ними создаются составные сущности-объекты, которые еще иногда называют постсвязными или многосторонними, составные же сущности-объекты дальнейших связей не образовывают и новых сущностей-объектов не порождают; причем упомянутый процесс образования как слабых, так и составных сущностей-объектов маскируют части речи - существительные или термины, им соответствующие, что и делает сепарацию актуальной; таким образом, все иные факторы, характеризующие семантику любой сущности-объекта в произвольной предметной области, являются функционально зависимыми от этимологии, которая, в свою очередь, описывается математической логикой предикатов и в виде строкового структурированного идентификатора ячейки имеет следующую общую схему:
Figure 00000001
,
где каждое звено
Figure 00000002
- обособленный идентификатор факта происхождения произвольной i-й сущности-объекта, ki - номер звена идентификатора i-й сущности-объекта, mk - номер соответствующей порождающей сущности-объекта из объединенной группы атомарных и слабых сущностей-объектов, причем каждое может получать некоторое значение лишь из множества {1, 2, …, N0, …, N}, где N0 - общее количество атомарных сущностей-объектов, N - суммарное количество атомарных и слабых сущностей, i - номер произвольной сущности-объекта в произвольной предметной области, причем в случае полной совокупности связей i={1, 2, …, N0, …, N, (N+1), …, (2N-1)}, знак «плюс» означает строковое объединение; таким образом, для атомарных сущностей этимологией является лишь одно звено Xi, в которой m=i, т.е. атомарная сущность порождает сама себя, при этом в способе, который заявляется, атомарные сущности-объекты получают в общей совокупности первые номера, т.е. для них i=1, N0·, для слабых сущностей этимологией является вышеупомянутая строковая сумма звеньев, где каждому номеру ki, звено
Figure 00000003
соответствует строго, т.е. последовательность звеньев строго отвечает последовательности зависимостей каждого следующего звена от предыдущего, что в свою очередь соответствует последовательности формирования каждой предыдущей слабой сущностью-объектом, вплоть до старшей атомарной, следующей слабой сущности-объекта; для составных сущностей-объектов этимологией является вышеупомянутая строковая сумма звеньев, где место каждого звена
Figure 00000004
не строгое, т.е. последовательность звеньев не имеет значения, тем не менее суммарная совокупность звеньев строго отвечает совокупности образующих сущностей-объектов; таким образом, в общем случае для произвольной сущности-объекта весь структурированный идентификатор ячейки представляет собой суммарную строку из букв или цифр, каждое звено которой имеет минимально достаточный строковый размер, что означает, что такой идентификатор уникально идентифицирует все свойства конкретной сущности-объекта, т.е. ее атрибуты, которые в свою очередь являются аргументами образующего многоместного предиката сущности-объекта, причем, количество мест в предикате равняется количеству атрибутов сущности-объекта; таким образом, поскольку у сущности-объекта атрибутов может быть произвольное количество, образующие предикаты - многоместные, что не влияет на структуру функциональной части предиката, а значит и на структуру идентификатора ячейки, причем каждое звено этимологии сущности-объекта имеет смысл связи с порождающими сущностями-объектами, которые принимали участие в происхождении конкретной сущности-объекта, если последняя представляет собой или слабую, или составную, т.е. постсвязную сущность-объект; таким образом, каждое звено
Figure 00000004
идентификатора ячейки строится в строгом соответствии с этимологией содержания сущностей-объектов из описания предметной области, причем каждая сущность-объект в предметной области может отвечать или атомарному, т.е. унарному в функциональной части, но многоместному в аргументной части, предикату, а значит иметь унарный идентификатор Xi, или составному в функциональной части и многоместному в аргументной части предикату, т.е. иметь составной идентификатор
Figure 00000005
, где суммируется по ki, ki=1,Ki, то есть, идентификатор имеет вышеупомянутую общую структуру; причем составная функциональная часть предиката является следствием конъюнкции унарных предикатов, что и соответствует строковому объединению множеств данных звеньев идентификаторов, т.е. суммированию строк; причем суммарное количество звеньев Ki представляет собой арность функциональной части образующего многоместного предиката, которая в общем случае может равняться 2, 3, …, 10 и т.п., а в случае атомарной сущности-объекта равняется единице.
6. Способ в соответствии с п.5, отличающийся тем, что на следующем шаге данные подвергаются начальной фазе автоматизированного логического анализа, т.е. начальный поток слов подготовительными автоматизированными процедурами распределяется на такие группы:
- атомарных сущностей-объектов, которые имеют унарную этимологию, т.е. таких, которые формируются предикатами, имеющими исключительно унарную функциональную часть,
- слабых сущностей-объектов, которые имеют составную этимологию, т.е. таких, которые формируются предикатами, имеющими исключительно много-арную функциональную часть, исключая унарную, да еще и функциональную, т.е. иерархическую, зависимость каждого следующего звена функциональной части предиката, исключая старшего, от совокупности предьщущих, т.е. от совокупности предикатов-предков,
- составных сущностей-объектов, которые имеют составную этимологию, т.е. таких, которые формируются предикатами, имеющими исключительно много-арную функциональную часть, исключая унарную,
- артефактов, т.е. сущностей-копий, данные от которых копируют данные от атрибутов иных сущностей-объектов, а потому будут условно размещаться в хранилище лишь после соответствующего решения пользователя,
- неопределенных сущностей-объектов или отдельных атрибутов, семантика которых подлежит дальнейшему уточнению благодаря дополнительной информации из предметной области, причем к этой же группе отбираются и одиночные атрибуты, которые из-за одинакового написания существительных в начальном потоке ошибочно замаскированы под сущности-объекты, а также такие сущности-объекты, которые не имеют ни одного экземпляра, а лишь в пределах определенной предметной области имеют абстрактное имя или понятие, а потому не могут быть приняты к рассмотрению и отделяются;
причем в дальнейшем в идентифицирующих ячейках хранилища могут размещаться группы атрибутов сущностей-объектов, например, их наименования и группы иных характеристик, которые являются аргументами соответствующих атомарных или составных многоместных предикатов, причем унарные идентификаторы ячеек хранилища строго соответствуют атомарным сущностям-объектам, а составные идентификаторы ячеек строго отвечают слабым и составным сущностям-объектам.
7. Способ в соответствии с п.6, отличающийся тем, что в памяти осуществляется последовательное или одновременное, т.е. параллельное, выполнение для каждой сущности-объекта из каждого предложения, т.е. из каждой пары, процедуры сравнения с каждой другой сущностью-объектом, причем эта процедура выполняет отдельные подчиненные способы логического вычленения замаскированной этимологии каждой сущности-объекта, а значит семантической структуры ее содержания, результатом выполнения которых является искомая сепарация, т.е. предоставление каждой ячейке, где сохраняются данные от атрибутов каждой сущности-объекта из начального потока, соответствующих структурированных идентификаторов ячеек и перегруппировку сущностей-объектов в хранилище в вышеупомянутые отдельно размещенные группы; при этом восстановление структуры и происхождения каждого звена этимологии сущностей-объектов на этом шаге осуществляется логическим анализом существительных и глаголов, т.е. анализом вероятного содержания сущностей-объектов и содержания связей, без учета множеств конкретных значений конкретных атрибутов сущностей-объектов, причем анализ основан на сравнении содержания сущностей-объектов между собой по принципу "все со всеми" с использованием словаря вероятных этимологии содержания сущностей-объектов, который может быть размещен также и в общедоступных сетях, и который постоянно уточняется и пополняется в автоматическом режиме, где каждому существительному заранее поставлено в соответствие наиболее вероятную структуру функциональной части предиката, который это существительное обуславливает, т.е. его этимологию, заданную гипотетически или полученную путем сторонних исследований и признанную пользователями, причем степень этой вероятности зависит от специфики предметной области, так как на этом шаге устанавливается соответствие между словами из входных потоков и словами, которые существуют в словаре; таким образом, результатом такого сопоставления становится первое приближение искомой сепарации сущностей-объектов, а также получение первого приближения структур их этимологии; причем те слова, которые обозначают неизвестные пока словарю сущности-объекты и классы связей, для дальнейшего анализа переносятся в отдельную группу, а в случае, если неизвестных словарю сущностей-объектов и связей в начальных потоках не выявлено, логический анализ завершается; причем, все дальнейшие шаги способа, который заявляется, благодаря разным критериям отслеживают этимологические свойства неизвестных словарю сущностей-объектов, а также предлагают определенные рекомендации относительно найденных логических ошибок и противоречий в начальном потоке относительно вероятных некорректных использований существительных и глаголов, что может означать даже нелогичности в работе определенных участков предметных областей, поэтому при выявлении таких противоречий пользователю предоставляются соответствующие выводы.
8. Способ в соответствии с п.7, отличающийся тем, что на следующем шаге проводится автоматизированный логический анализ тех сущностей-объектов и связей, которые оказались неизвестными словарю вероятных этимологии, причем, прежде всего, отделяются неизвестные потенциальные составные сущности-объекты благодаря логическому сравнению каждой из неизвестных сущностей-объектов с теми, что образовываются из повторяющихся существительных и повторяющихся глаголов из начального потока благодаря объединению их в одну составную, т.е. многостороннюю постсвязную сущность-объект, при условии совпадения класса связи, т.е. совпадения глаголов между разными парами, так как именно благодаря многоразовой повторяемости упомянутых существительных в нескольких разных связях, т.е. для нескольких разных глаголов, вероятность того, что эти сущности-объекты принадлежат именно к группе составных сущностей-объектов, значительно повышается, поэтому такое приближение не внесет значительной некорректности - на следующих шагах оно будет уточняться, причем наличие неопределенных сущностей-объектов, которые имеют логические противоречия, и артефактов в этих предварительно сепарированных группах сущностей-объектов на этом шаге игнорируется.
9. Способ в соответствии с п.8, отличающийся тем, что на следующем шаге осуществляется завершающая фаза автоматизированного логического анализа начального потока, для чего автоматизировано анализируются группы тех сущностей-объектов и связей, которые оказались неизвестными словарю возможных этимологии и остались после изъятия потенциальных составных сущностей-объектов, причем неизвестные атомарные сущности-объекты отделяются с использованием единого логического критерия, который заключается в том, что в общем случае для идентификации какого либо значения естественного, т.е. не искусственно назначенного пользователями, атрибута атомарной сущности-объекта достаточно лишь названия сущности-объекта и названия атрибута, что невозможно в случае слабой сущности - слабость заключается именно в том, что невозможно идентифицировать какое либо значение какого либо естественного атрибута слабой сущности-объекта без учета ее связи с той, что функционально определяет ее, т.е. иерархически старшей сущностью-объектом; таким образом, на этом шаге способ нуждается во внесении дополнительной информации, если она не была внесена в начальных потоках, относительно естественных атрибутов каждой из сущностей-объектов, которые подлежат анализу, а также нескольких значений каждого из этих атрибутов, причем, поскольку автоматизированный логический анализ на этом шаге завершается, каждая сущность-объект, которая осталась от предыдущих сравнений, получает статус или атомарной сущности-объекта, или слабой, или неопределенной, причем наличие артефактов на этом шаге игнорируется и они также получают один из упомянутых статусов.
10. Способ в соответствии с п.9, отличающийся тем, что, если после предыдущих шагов логического анализа начального потока сущностей-объектов и связей группа неопределенных сущностей-объектов, которые имеют противоречивую семантику, не становится пустой, т.е. благодаря логическому анализу невозможно отнести эти сущности-объекты к упомянутым трем категориям, каждой из этих противоречивых сущностей-объектов способ принудительно назначает статус атомарной, но на уровне их идентификатора ячейки обязательно обозначает это, прибавляя к унарному идентификатору отдельное специализированное звено, ответственное за эту особенность, формируя тем самым отдельную подгруппу противоречивых сущностей-объектов в группе атомарных, что при дальнейшей сепарации или даже эксплуатации хранилища при потребности модификации его структуры дает возможность внести соответствующие корректировки.
11. Способ в соответствии с п.10, отличающийся тем, что на следующем шаге от предварительно отобранных групп сущностей-объектов окончательно отделяются артефакты, т.е. сущности-копии, для чего осуществляется автоматизированное статистическое сравнение, основанное на использовании известных процедур статистического анализа для выявления детерминированных функциональных или корреляционных или регрессивных многозначных зависимостей между значениями данных в атрибутах сущностей-объектов, а также тесноты этих связей, наличие которых подтверждает или опровергает прямые совпадения групп атрибутов, а также замаскированную этимологию и семантическую структуру содержания, полученную на предыдущих шагах; при возникновении на этом шаге прямых совпадений названий групп атрибутов, а также и их значений у разных сущностей-объектов, на уровне их ячейковых идентификаторов отдельно фиксируется этот факт, что позволяет определиться в вопросе хранения избыточных данных; тем не менее, ситуация, когда названия атрибутов, которые принадлежат разным сущностям-объектам, являются разными, а их значение по каким-то причинам идентичные, выясняется на увеличенном количестве значений атрибутов, что также находит отображение в структуре идентификатора ячейки.
12. Способ в соответствии с п.11, отличающийся тем, что на следующем шаге строится уточненное приближение сепарации составных сущностей-объектов, для чего учитывается, что для корректности статистического анализа вся совокупность значений всех атрибутов от всех сущностей-объектов предметной области должны соответствовать единому моменту времени жизни предметной области, причем расстояние между соседними промежутками времени должно быть достаточным для возникновения действительно нового состояния предметной области, так как если это условие не выполняется, закономерности могут оказаться некорректными; для выполнения этого условия группа значений атрибутов, которые зависят от времени, отделяется от группы значений атрибутов, которые от времени не зависят, а если и зависит, то лишь от очень значительных промежутков времени - их развитием и изменениями можно пренебречь в сравнении с другими группами значений атрибутов; причем, группу атрибутов, которая практически не зависит от времени, отделяют к группе сущностей-объектов, которые создают структуру предметной области, так как структура какой либо системы значительно медленнее зависит от времени, чем именно ее функционирование, т.е. «образовывание» определенных связей между сущностями-объектами; таким образом, на этом шаге за уточненное приближение составных сущностей-объектов берется группа сущностей-объектов, которые зависят от времени, а другая группа получает статус совокупности атомарных, атомарных-неопределенных и слабых, ведь артефактов начальный поток избавился на предыдущих шагах, и это находит отображение в соответствующих идентификаторах ячеек; после чего каждая составная сущность-объект из только что полученной группы сопоставляется с группой составных сущностей-объектов, которые осталась после автоматизированного логического анализа, причем, в процедуре сравнения используется еще и тот критерий, что между суммой значений каждого экземпляра общей совокупности всех атрибутов предков и значениями экземпляров какого бы то ни было, или даже каждого атрибута составных сущностей-объектов, возникает детерминированная функциональная связь, что является достаточным критерием для идентификации и отделения составных сущностей-объектов; при этом, если при сравнении потенциально составных сущностей-объектов, полученных на различных шагах способа, наблюдаются совпадения, идентификаторы ячеек остаются без изменений, в другом же случае у каждой из этих потенциально составных сущностей образовываются два соответствующих независимых идентификатора ячейки, которые фиксируют это обстоятельство, а сами эти сущности-объекты получают статус неопределенных, но потенциально составных, что проверяется на следующих шагах или вынуждает предоставить дополнительную информацию.
13. Способ в соответствии с п.12, отличающийся тем, что на следующем шаге в группе, где отобраны атомарные и слабые сущности-объекты, повторно и более доказательно автоматизировано отделяются атомарные от слабых благодаря двум критериям, которые одновременно используются: первый критерий заключается в том, что для идентификации какого либо значения естественного атрибута атомарной сущности-объекта достаточно лишь названия сущности-объекта и названия атрибута, что невозможно именно в случае слабой сущности, но такое сопоставление на этом шаге осуществляется на увеличенном количестве данных; второй критерий способа имеет сугубо математическое происхождение и заключается в том, что между атрибутами потомка и совокупными атрибутами всех предков наблюдается функциональная зависимость, а значит детерминированная связь, которая позволяет отслеживать не только сам факт слабости, а еще и конкретизировать звенья связей с более старшими сущностями-объектами, что отображается в структуре их идентификаторов ячеек; причем, если связь от потомка к предку устанавливается однозначно, проверка наличия или отсутствия однозначной обратной связи от предка к множеству потомков возможна лишь благодаря интерполяции значений атрибутов всех потомков следующего уровня, т.е. преобразованию множества этих значений в математическую функцию и проверки детерминированной зависимости на отрезке в окрестности значений атрибута конкретного потомка; подтвержденная связь отображается в структуре идентификатора ячейки сущности-объекта; тем не менее, если выясняется, что некоторые сущности-объекты, отнесенные к категории слабых, отнесены по ошибке, этимология каждой неопределенной сущности-объекта определится на следующем шаге способа, так как на этом шаге ошибка может возникнуть лишь из-за того, что этимологии слабых и составных сущностей-объектов подобны, что в случае медленной зависимости составной сущности от времени может привести к ее ошибочной сепарации; тем не менее, вариант, что атомарная сущность-объект существенно зависит от времени и потому по ошибке попала в группу составных сущностей-объектов, является невероятным, а потому также определится на следующем шаге.
14. Способ в соответствии с п.13, отличающийся тем, что для дальнейшего уточнения не только характера и принадлежности к группе составных сущностей, а еще и окончательного восстановления конкретной структуры и каждого звена этимологии каждой составной сущности-объекта, когда использование способов сравнения в соответствии с предыдущими пунктами не является достаточным, на базе совокупности атомарных и слабых сущностей-объектов, полученной от предыдущих шагов способа, в памяти в качестве шаблона строится каркас полной совокупности связей данных и в пределах этой полной совокупности осуществляются дальнейшие итерации для сравнения потенциальных составных сущностей-объектов с шаблонными по следующей схеме:
- на базе групп атомарных и слабых сущностей-объектов формируется базовая совокупности сущностей-объектов: к отобранной группе атомарных сущностей-объектов прибавляется еще и подгруппа виртуально атомарных сущностей-объектов, которые получаются добавлением к идентификаторам слабых сущностей-объектов отдельного унарного идентификатора, словно бы она - атомарная, создавая таким образом начальное множество простых унарных идентификаторов;
- для каждого унарного идентификатора каждой сущности-объекта из базовой совокупности отводится в хранилище одинарный домен памяти для размещения элементов хранения идентификатора, структура которого строго унарная; в памяти создается начальное множество простых одинарных доменов, при этом идентификаторы от слабых сущностей-объектов могут быть помечены дополнительно, тем не менее, способ установки подобных меток может быть произвольным, вплоть до их отсутствия;
- в хранилище синтезируется каркас-шаблон эталонных составных сущностей-объектов, для чего осуществляется сочетания декартовых перемножений упомянутых одинарных идентификаторов между собой по принципу "все на все", чем порождается система доменов с много-арными идентификаторами, структура каждого из которых строго отвечает структуре функциональной части соответствующих синтезированных составных предикатов; при этом структура некоторых из них отвечает структуре составных сущностей-объектов из третьей группы способа; после чего синхронизировано заполняются соответствующими данными семантически совместные домены, чем получают полную совокупность семантических соединений составных доменов, что означает, что в этой синтезированной совокупности каждые K-арные составные домены рождены декартовым произведением K экземпляров атомарных сущностей-объектов, т.е. K-ю выборкой из базовой совокупности, которая и синтезирует полный каркас поименованных структурированных ячеек под размещение данных от атрибутов составных сущностей-объектов из начального потока; при этом общее число таких составных доменов с идентифицирующими ячейками, а в дальнейшем и таблиц с данными, равняется количеству множеств булеана, т.е. сочетаний множеств всех подмножеств; на этом шаге в ячейки синтезированного каркаса-шаблона размещаются значения всех полученных из начального потока описания предметной области атрибутов с учетом найденных этимологии, т.е., идентификаторов ячеек;
- благодаря процедурам статистического анализа с использованием конкретных значений данных осуществляется окончательная проверка групп атрибутов атомарных, составных и слабых сущностей-объектов из начального потока, а также атомарных и составных идентификаторов ячеек на соответствие друг другу, причем способом предполагается возможность многоразового уточнения этого соответствия путем применения повторной процедуры последовательных приближений и многоразовой модификации базовой совокупности и соответствующего каркаса-шаблона, что в конечном итоге приведет к полному совпадению этимологии всех сущностей-объектов из начального потока с этимологиями искусственно синтезированных на каркасе.
15. Способ в соответствии с п.14, отличающийся тем, что построена внешняя библиотека, которая пополняется новыми подчиненными способами как логического, так и статистического анализа, которые разработаны пользователями, а также новыми критериями сравнения, так как перечень подчиненных способов сравнения данных между собой ничем не ограничивается, как не ограничивается и последовательность выполнения упомянутых процедур; тем не менее, постоянная эксплуатация, пополняющая словарь вероятных этимологии, который на начальных стадиях своего существования может быть значительно неполным, минимизирует потребность в автоматизированном логическом или статистическом анализе начальных потоков.
16. Способ в соответствии с п.15, отличающийся тем, что на следующем шаге после завершения статистического анализа на полном каркасе-шаблоне сущностей-объектов и тем самым завершения сепарации данных, осуществляется их размещение в хранилище, для чего специальной процедурой учитываются некоторые артефакты: на первом шаге размещения данных прежде всего учитываются все возможные частичные копии базовой совокупности сущностей-объектов, образовывая маски этих сущностей-объектов, после чего на дальнейших шагах моделируются все связи между группами этих масок сущностей-объектов в предметной области, для чего каждой группе масок отводят в хранилище несколько участков памяти для размещения элементов хранения, т.е. резервируют в каждом участке памяти домен-маску с соответствующим унарным идентификатором ячейки, создавая таким образом расширенное начальное множество участков памяти, так, что базовая совокупность сущностей-объектов также существенно расширяется, и количество доменов-масок, которые там размещают, равняется количеству масок каждой сущности-объекта; при этом, домены-маски назначают маскам всех сущностей-объектов, то есть и маскам тех сущностей-объектов, которые имеют иерархическую зависимость от своих информационных предков, т.е. слабых сущностей-объектов, при чем, поскольку в общем случае слабые сущности-объекты зависят от цепочки сущностей-объектов, где каждая сущность-звено в свою очередь есть также слабой, исключая лишь самую старшую сущность-объект в этой цепочке, домены-маски назначают так, будто этой зависимости не существует, т.е. игнорируют иерархическую зависимость; это не приведет к потере таких связей, поскольку алгоритм способа предусматривает дальнейший учет всех типов связей между доменами-масками, а значит и начальных иерархических связей между сущностями-объектами.
17. Способ в соответствии с п. или 1, или 16, отличающийся тем, что схема хранилища строится в цифровой памяти в соответствии с сочетаниями декартовых произведений всех доменов-масок между собой по принципу "все на все", при этом общее количество S(t) размещаемых групп атрибутов с учетом множества доменов-масок каждой сущности-объекта и зависимости этого параметра от номера промежутка времени, это общее количество определяется выражением:
Figure 00000006
где K - текущая арность связей групп доменов-масок, a NN(t) - общее число доменов-масок, которое зависит от t - номера промежутка времени актуальности структуры хранилища, на протяжении которого эта структура не испытает модификации, а общее количество доменов-масок определяются формулой:
Figure 00000007
,
где, в свою очередь, α(i, j, t) - признак актуальности домена-маски, формальный массив целых чисел, каждое из которых определяется совокупностью индексов (i, j, t) и в пределах способа, который заявляется, принимается или равным нулю, что символизирует аннулирование домена-маски, или единице, что символизирует актуальность домена-маски, t - номер промежутка времени актуальности, i - индекс, который символизирует номер сущности-объекта, N(t) - общее количество сущностей на отрезке времени под номером t, M(i, t) - количество доменов-масок каждой i-й сущности-объекта на отрезке времени под номером t, причем количество доменов-масок не может быть любым или отделенным от количества доменов-масок других сущностей-объектов, потому, что при образовании бинарных, тернарних или связей более высокой арности со стороны каждой задействованной в этой связи сущности-объекта из базовой совокупности должно хватать доменов-масок для участия в связи, а это означает, что в хранилище домены-маски актуализируются или аннулируются синхронизировано с актуализацией или аннулированием соответствующих связей, т.е. ролей, в которых принимают участие те или иные группы сущностей-объектов, j - индекс, который символизирует номер домена-маски, суммарное количество которых для i-й сущности-объекта предоставляет внутренняя сумма, а внешняя сумма предоставляет общее количество доменов-масок; после чего для табличного способа хранения синхронизировано заполняют соответствующими данными только полученные семантически совместные реляционные таблицы, причем семантически несовместные опускаются.
18. Способ в соответствии с п.17, отличающийся тем, что в структуре ячейки памяти, где размещен домен-маска, предусматривается специфический цифровой адрес - структурированный идентификатор ячейки, который может иметь единое базовое имя для всех доменов-масок, а также сквозную трехмерную индексацию (i, j, t), что уникально отвечает каждому домену-маске каждой сущности-объекта, т.е., каждый из индексов отвечает за свой базовый фактор способа, где эти индексы означают: t - номер отрезка времени актуальности текущего состояния t-й модификации совокупности всех (i, j)-x таблиц данных для табличного способа представления, i=1, N(t) - номер каждой сущности-объекта, N(t) - общее количество сущностей-объектов на отрезке времени под номером t, j=1, M(i, t) - номера каждого домена-маски i-й сущности-объекта на отрезке времени под номером t; таким образом, за промежуток времени, который имеет номер t, схема хранилища, т.е. схема всей совокупности таблиц для табличного способа размещения, остается без изменений, т.е., не модифицируется, а на моменте времени, которое имеет номер t+1, эта же совокупность уже получает модификацию своего состояния; такой способ предоставляет возможность назначить и использовать любое формальное условие перехода к новому коду отрезка времени актуальности состояния хранилища, а значит к новой совокупности таблиц и кортежей, а также позволяет построить темпорально-слоевой архив данных.
19. Способ в соответствии с п.18, отличающийся тем, что для построения распределенных хранилищ данных, размещенных на физически разных серверах, каждый атрибут из логической модели, которая в физической модели является цифровым данным, размещают в цифровую память с использованием структурированного идентификатора ячейки как физического кода адресации к данным, т.е., того же самого суррогатного ключа логической модели, который, например, для реляционной модели данных является реляционным идентификатором; при чем структурированный идентификатор ячейки является носителем преимуществ способа, предоставляя возможность разнесения групп данных на физически разные серверы без потерь связей, что значительно увеличивает гибкость структуры хранилища.
20. Способ в соответствии с п.19, отличающийся тем, что для построения хранилищ данных, которые имели бы свойство скоростного выполнения как реляционных, так и объектно-ориентированных запросов, каждый атомарный признак каждой сущности-объекта, т.е. каждая атомарная совокупность данных, которая объединяется одноместной частью многоместного в общем случае предиката в атрибут этой сущности-объекта, наделяется собственным уникальным структурированным идентификатором, общая часть структуры которого тождественна структуре этимологии сущности-объекта, т.е. структуре функциональной части многоместного предиката, а последнее, уникальное звено идентификатора соответствует значениям данных этого атрибута, что дает возможность выполнять запросы с использованием способа индексации идентификатора в соответствии с его структурой; эта процедура значительно увеличивает скорость получения ответа, и, в свою очередь, дает возможность объединить свойства табличной и нетабличной форм хранения, которую получают благодаря нетабличному объединению совокупностей данных в атрибуты сущностей-объектов в соответствии с общими по наименованию и структуре идентификаторами, что, в свою очередь, помогает развивать схему данных в хранилище в направлении объединения реляционного и не реляционного способов моделирования и размещение данных, например, объектно-ориентированного способа; причем способ, который заявляется, предоставляет возможность или отделенной и параллельной обработки каждого данного независимо одно от другого, или групповой обработки нескольких объединенных групп данных, как зависимо, так и независимо одна от другой, причем не существует потребности в строгом соответствии каждого данного от общего атрибута по типу и размеру, как того требует, например, реляционный способ размещения.
RU2011134532/08A 2009-03-02 2010-02-25 Способ каркасного полно-модифицируемого размещения данных в хранилище с учетом их предварительной этимологической сепарации RU2011134532A (ru)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
UAA200901773A UA92248C2 (ru) 2009-03-02 2009-03-02 Способ обобщенного размещения данных с учетом модификации структуры хранилища
UAA200901773 2009-03-02
UAA201001694A UA99921C2 (ru) 2010-02-17 2010-02-17 Способ предварительной каркасной сепарации данных перед их модификационно способным размещением в хранилище или процессом дальнейшей обработки
UAA201001694 2010-02-17
PCT/UA2010/000007 WO2010101540A1 (ru) 2009-03-02 2010-02-25 Способ каркасного полно-модифицируемого размещения данных в хранилище с учетом их предварительной этимологической сепарации

Publications (1)

Publication Number Publication Date
RU2011134532A true RU2011134532A (ru) 2013-04-10

Family

ID=42709916

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2011134532/08A RU2011134532A (ru) 2009-03-02 2010-02-25 Способ каркасного полно-модифицируемого размещения данных в хранилище с учетом их предварительной этимологической сепарации

Country Status (4)

Country Link
US (1) US20110307440A1 (ru)
DE (1) DE112010000947T5 (ru)
RU (1) RU2011134532A (ru)
WO (1) WO2010101540A1 (ru)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7739363B1 (en) * 2003-05-09 2010-06-15 Apple Inc. Configurable offline data store
KR101320221B1 (ko) * 2008-06-03 2013-10-21 인터그래프 테크놀로지스 캄파니 객체 지향 환경에서 다중 트랜잭션 기술을 사용해서 객체들을 복사하는 방법 및 장치
WO2012060152A1 (ja) * 2010-11-02 2012-05-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 数値集約計算における文字列集約方法
US8527497B2 (en) * 2010-12-30 2013-09-03 Facebook, Inc. Composite term index for graph data
US9165008B1 (en) * 2011-12-28 2015-10-20 Teradata Us, Inc. System and method for data compression using a dynamic compression dictionary
US20130332450A1 (en) * 2012-06-11 2013-12-12 International Business Machines Corporation System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources
US20140046892A1 (en) * 2012-08-10 2014-02-13 Xurmo Technologies Pvt. Ltd. Method and system for visualizing information extracted from big data
US9443005B2 (en) * 2012-12-14 2016-09-13 Instaknow.Com, Inc. Systems and methods for natural language processing
WO2014168717A2 (en) * 2013-03-15 2014-10-16 Advanced Search Laboratories, Inc. System and apparatus for information retrieval
US9552360B2 (en) * 2013-09-27 2017-01-24 International Business Machines Corporation Resource reconciliation based on external factors
US10223410B2 (en) * 2014-01-06 2019-03-05 Cisco Technology, Inc. Method and system for acquisition, normalization, matching, and enrichment of data
US10339341B2 (en) * 2014-05-07 2019-07-02 Hush Hush Methods and systems for obfuscating sensitive information in computer systems
JP6578685B2 (ja) * 2015-03-16 2019-09-25 富士通株式会社 関係推定方法、関係推定プログラムおよび情報処理装置
CN107688580B (zh) * 2016-08-05 2019-03-01 北京京东尚科信息技术有限公司 基于分布式数据仓库的商品分级的方法、装置及系统
CN110570898A (zh) * 2019-08-13 2019-12-13 深圳市金泰克半导体有限公司 检测存储器数据处理速度的方法及装置
CN113569565B (zh) * 2020-04-29 2023-04-11 抖音视界有限公司 一种语义理解方法、装置、设备和存储介质
CN113221569A (zh) * 2021-05-27 2021-08-06 中国人民解放军军事科学院国防工程研究院工程防护研究所 一种毁伤试验文本信息抽取方法
CN117576333B (zh) * 2024-01-15 2024-05-07 苍穹数码技术股份有限公司 可视域的确定方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3605735B2 (ja) * 1995-03-10 2004-12-22 株式会社Csk 自然言語の意味解析処理装置
UA63036C2 (ru) 2001-12-11 2004-01-15 Борис Євгенійович Панченко Способ хранения данных в модифицируемом запоминающем устройстве компьютера
WO2005064592A1 (ja) * 2003-12-26 2005-07-14 Kabushikikaisha Kenwood 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム
US20070185868A1 (en) * 2006-02-08 2007-08-09 Roth Mary A Method and apparatus for semantic search of schema repositories
US20080228812A1 (en) * 2007-03-15 2008-09-18 Honeywell International Inc. Method and System for Metamodeling Using Dynamic Ontology Objects

Also Published As

Publication number Publication date
DE112010000947T5 (de) 2012-06-14
US20110307440A1 (en) 2011-12-15
WO2010101540A1 (ru) 2010-09-10

Similar Documents

Publication Publication Date Title
RU2011134532A (ru) Способ каркасного полно-модифицируемого размещения данных в хранилище с учетом их предварительной этимологической сепарации
D’Ulizia et al. A survey of grammatical inference methods for natural language learning
Graehl et al. Training tree transducers
Bod From exemplar to grammar: A probabilistic analogy‐based model of language learning
US7035789B2 (en) Supervised automatic text generation based on word classes for language modeling
US9047275B2 (en) Methods and systems for alignment of parallel text corpora
Bonfante et al. Application of Graph Rewriting to Natural Language Processing
Quick Kulitta: A framework for automated music composition
Denney et al. Safety case patterns: theory and applications
Hawkins Symmetries and asymmetries: their grammar, typology and parsing
Wille et al. Custom-tailored variability mining for block-based languages
CN117009213A (zh) 面向智能问答系统逻辑推理功能的蜕变测试方法及系统
Martin et al. Incremental evolution of fuzzy grammar fragments to enhance instance matching and text mining
Etzkorn A metrics-based approach to the automated identification of object-oriented reusable software components
Meechan-Maddon The effect of noise in the training of convolutional neural networks for text summarisation
Novák A model of computational morphology and its application to Uralic languages
Commelin et al. Abstraction boundaries and spec driven development in pure mathematics
Matsubayashi et al. Generalization of semantic roles in automatic semantic role labeling
Truskinger et al. Reconciling folksonomic tagging with taxa for bioacoustic annotations
Panchenko Algorithm of synthesis of a relational framework. Informal description
Van Durme et al. Decompositional Schema Induction and Prediction
Elliott Exploring BERT's Capabilities to Detect English Preposition Errors
Conceição ConnectionLens: Entity and Relationship Extraction from French textual data sources
Paul et al. Biomedical Relation Extraction with Forest-Based Tagging Framework
Ng Improving Machine Learning Approaches to Noun Phrase Coreference Resolution

Legal Events

Date Code Title Description
FA94 Acknowledgement of application withdrawn (non-payment of fees)

Effective date: 20141021