RU2000112647A - Способ кластеризации и сокращения размерности многомерных данных для их индексации и поиска - Google Patents

Способ кластеризации и сокращения размерности многомерных данных для их индексации и поиска

Info

Publication number
RU2000112647A
RU2000112647A RU2000112647/09A RU2000112647A RU2000112647A RU 2000112647 A RU2000112647 A RU 2000112647A RU 2000112647/09 A RU2000112647/09 A RU 2000112647/09A RU 2000112647 A RU2000112647 A RU 2000112647A RU 2000112647 A RU2000112647 A RU 2000112647A
Authority
RU
Russia
Prior art keywords
cluster
dimension
search
data
information
Prior art date
Application number
RU2000112647/09A
Other languages
English (en)
Inventor
КАСТЕЛЛИ Витторио
ЛИ Чуншэн
ТАМАЗИАН Александер
Original Assignee
Интернэшнл Бизнес Машинз Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Интернэшнл Бизнес Машинз Корпорейшн filed Critical Интернэшнл Бизнес Машинз Корпорейшн
Publication of RU2000112647A publication Critical patent/RU2000112647A/ru

Links

Claims (1)

1. Компьютеризованный способ представления многомерных данных, при осуществлении которого а) многомерные данные разбивают на один или несколько кластеров, б) для указанных одного или нескольких кластеров формируют и сохраняют информацию о кластеризации, в) создают один или нескольких кластеров сокращенной размерности и для одного или нескольких таких кластеров формируют информацию о сокращении размерности и г) сохраняют информацию о сокращении размерности.
2. Способ по п. 1, в котором для указанных одного или нескольких кластеров сокращенной размерности формируют и сохраняют индекс сокращенной размерности.
3. Способ по п. 1, в котором данные хранятся в рассредоточенной либо в мультимедийной базе данных, которая содержит множество записей данных, каждая из которых имеет множество полей, при этом создают представление подлежащей индексированию базы данных в виде множества векторов, где каждый из таких векторов соответствует строке в базе данных, а элементы каждого вектора соответствуют для данной строки величинам, содержащимся в тех столбцах, для которых создается поисковый индекс, а операция разбиения заключается в разбиении векторов на один или несколько кластеров.
4. Способ по п. 2, в котором также весь индекс сохраняют в основной памяти компьютера.
5. Способ по п. 2, в котором операция создания кластеров сокращенной размерности заключается в сингулярном разложении, при этом формируют матрицу преобразования с получением ее собственных значений для каждого кластера и выбирают подмножество собственных значений, включающее наибольшие собственные значения, причем информация о сокращении размерности включает матрицу преобразования и подмножество собственных значений.
6. Способ по п. 5, который предназначен для поиска k записей, наиболее схожих с заданными данными, с использованием индекса сокращенной размерности и при осуществлении которого заданные данные ассоциируют с одним или несколькими кластерами на основании сохраненной информации о кластеризации, заданные данные проецируют на подпространство ассоциированного с ними кластера на основании сохраненной информации о сокращении размерности для этого ассоциированного кластера, в качестве ответного действия на указанное проецирование формируют информацию о сокращении размерности, включающую ортогональное дополнение проекции заданных данных, с помощью индекса осуществляют поиск ассоциированного кластера, имеющего k записей, наиболее схожих с проекцией заданных данных, определяют, может ли какой-либо другой ассоциированный кластер содержать какую-либо из k записей, наиболее схожих с проекцией заданных данных, и указанную операцию поиска повторяют для этого другого кластера, который может содержать какую-либо из k записей, наиболее схожих с проекцией заданных данных.
7. Способ по п. 6, в котором заданные данные содержат шаблон поиска и в котором на указанной операции проецирования шаблон с использованием информации о сокращении размерности проецируют на подпространство, ассоциированное с кластером, которому он соответствует, для проекции шаблона формируют информацию о сокращении размерности этого шаблона, при этом указанную операцию поиска с помощью индекса осуществляют на основании проекции шаблона и информации о сокращении размерности шаблона, и обновляют множество k ближайших соседей, которые представляют собой k записей, наиболее схожих с шаблоном поиска.
8. Способ по п. 5, в котором выбор подмножества собственных значений является функцией точности и числа повторных вызовов, посланных в ответ на возвращенные результаты.
9. Способ по п. 2, который предназначен для поиска k записей, наиболее схожих с заданными данными, при этом для указанного поиска на основании информации о кластеризации идентифицируют кластер, к которому относятся заданные данные, на основании информации о сокращении размерности для идентифицированного кластера сокращают размерность заданных данных, в качестве ответного действия на указанное сокращение размерности формируют информацию о сокращении размерности для заданных данных сокращенной размерности, с использованием информации о сокращении размерности осуществляют поиск многомерного индекса для имеющего сокращенную размерность варианта кластера, к которому относятся заданные данные, с помощью многомерного индекса в кластере отыскивают k наиболее схожих записей, идентифицируют другие приемлемые кластеры, которые могут содержать записи, более близкие к заданным данным, чем наиболее дальние среди найденных k наиболее схожих записей, в качестве ответного действия на указанную операцию определения осуществляют поиск другого приемлемого кластера, наиболее близкого к заданным данным, и повторяют указанные операции идентификации и поиска для всех других приемлемых кластеров.
10. Способ по п. 6 или 9, в котором также вычисляют расстояние (D) между k ближайшими соседями в указанном варианте кластера и проекцией заданных данных как функцию индекса δ2 несоответствия, который определяется следующим образом
Figure 00000001

11. Способ по п. 1, в котором информация о кластеризации содержит информацию о центроиде одного или нескольких кластеров, при этом центроиду присваивают уникальную метку.
12. Способ по п. 1, в котором размерность данных больше 8.
13. Способ по п. 1, который предназначен для осуществления точного поиска и при осуществлении которого заданные данные ассоциируют с одним из кластеров на основании сохраненной информации о кластеризации, в качестве ответного действия на такое ассоциирование на основании сохраненной информации о сокращении размерности для кластера сокращенной размерности сокращают размерность заданных данных и на основании заданных данных сокращенной размерности осуществляют поиск имеющего сокращенную размерность варианта кластера, совпадающего с заданными данными.
14. Способ по п. 13, в котором при выполнении поиска осуществляют также линейный опрос для нахождения данных, совпадающих с заданными данными.
15. Способ по п. 1, в котором также создают иерархию кластеров сокращенной размерности путем циклического выполнения операций а) -г) и затем формируют и сохраняют один или несколько индексов малой размерности для кластеров, находящихся на самом низком уровне указанной иерархии.
16. Способ по п. 15, который предназначен для осуществления точного поиска и при осуществлении которого циклически выполняют следующие операции: с использованием сохраненной информации о кластеризации отыскивают кластер, к которому относятся заданные данные, и с использованием сохраненной информации о сокращении размерности сокращают размерность заданных данных кластеров до тех пор, пока не будет достигнут соответствующий самый нижний уровень иерархии кластеров сокращенной размерности, после чего с использованием индексов малой размерности осуществляют поиск имеющего сокращенную размерность варианта кластера, совпадающего с заданными данными.
17. Способ по п. 15, который предназначен для осуществления поиска по сходству и при осуществлении которого циклически выполняют следующие операции: с использованием сохраненной информации о кластеризации отыскивают кластер, к которому относятся заданные данные, и с использованием сохраненной информации о сокращении размерности сокращают размерность заданных данных для соответствия самому нижнему уровню иерархии кластеров сокращенной размерности, после чего осуществляют поиск окончательных приемлемых кластеров, которые могут содержать один или нескольких k соседей, ближайших к заданным данным на каждом уровне иерархии кластеров сокращенной размерности, начиная с окончательного кластера на самом нижнем уровне иерархии, к которому относятся заданные данные, и для каждого приемлемого окончательного кластера осуществляют внутрикластерный поиск k соседей, ближайших к заданным данным.
18. Способ по п. 15, который предназначен для осуществления поиска по сходству и при осуществлении которого также сокращают размерность заданных данных, затем циклически выполняют следующие операции: с использованием сохраненной информации о кластеризации отыскивают кластер, к которому относятся заданные данные сокращенной размерности, и с использованием сохраненной информации о сокращении размерности сокращают размерность заданных данных сокращенной размерности для соответствия самому нижнему уровню иерархии кластеров сокращенной размерности, после чего осуществляют поиск окончательных приемлемых кластеров, которые могут содержать один или нескольких k соседей, ближайших к заданным данным сокращенной размерности на каждом уровне иерархии кластеров сокращенной размерности, начиная с окончательного кластера на самом нижнем уровне иерархии, к которому относятся заданные данные, и для каждого приемлемого окончательного кластера осуществляют внутрикластерный поиск k соседей, ближайших к заданным данным сокращенной размерности.
19. Способ по п. 1, в котором данные хранятся в базе данных и при осуществлении которого также сокращают размерность базы данных с формированием относящейся к этой базе данных информации о сокращении размерности и сохраняют такую относящейся к базе данных информацию о сокращении размерности, при этом операция разбиения выполняется в качестве ответного действия на указанную операцию сокращения размерности.
20. Способ по п. 19, который предназначен для осуществления точного поиска и при осуществлении которого на основании относящейся к базе данных информации о сокращении размерности сокращают размерность заданных данных, в качестве ответного действия на указанную операцию сокращения размерности заданные данные сокращенной размерности на основании информации о кластеризации ассоциируют с одним из кластеров, на основании информации о сокращении размерности для ассоциированного кластера размерность заданных данных сокращают до размерности, которую имеет кластер сокращенной размерности, определяемый ассоциированным кластером, и на основании имеющего сокращенную размерность варианта заданных данных осуществляют поиск совпадающего кластера сокращенной размерности.
21. Способ по п. 19, который предназначен для осуществления поиска по сходству и при осуществлении которого с использованием относящейся к базе данных информации о сокращении размерности сокращают размерность заданных данных, на основании информации о кластеризации отыскивают кластер, к которому относятся заданные данные сокращенной размерности, на основании информации о сокращении размерности для идентифицированного кластера сокращают размерность заданных данных сокращенной размерности, осуществляют поиск имеющего сокращенную размерность варианта кластера, к которому относятся заданные данные дополнительно сокращенной размерности, с помощью многомерного индекса в кластере отыскивают k записей, наиболее схожих с заданными данными дополнительно сокращенной размерности, определяют, могут ли другие кластеры содержать записи, более близкие к заданным данным, чем наиболее дальние среди найденных k записей, в качестве ответного действия на указанную операцию определения осуществляют поиск другого кластера, наиболее близкого к заданным данным, и повторяют указанные операции определения и поиска для всех других кластеров.
22. Способ по п. 19, в котором данные хранятся в базе данных и при осуществлении которого также формируют и сохраняют один или несколько поисковых индексов сокращенной размерности для указанных одного или нескольких кластеров сокращенной размерности.
23. Способ по п. 19, который предназначен для осуществления точного поиска и при осуществлении которого на основании сохраненной информации о кластеризации заданные данные ассоциируют с одним из кластеров, в качестве ответного действия на указанную операцию ассоциирования осуществляют разложение заданных данных в кластер сокращенной размерности, определяемый ассоциированным кластером и сохраненной для этого ассоциированного кластера информацией о сокращении размерности, и на основании разложенных заданных данных осуществляют поиск индексов для совпадающего кластера сокращенной размерности.
24. Способ по п. 23, в котором запрос содержит шаблон поиска и в котором далее операция ассоциирования предусматривает идентификацию кластера, отвечающего шаблону поиска, на основании сохраненной информации о кластеризации, операция разложения предусматривает проецирование шаблона поиска на подпространство идентифицированного кластера на основании сохраненной информации о сокращении размерности, а операция поиска предусматривает выполнение внутрикластерного поиска для проекции шаблона.
25. Способ по п. 1, при осуществлении которого также (а) формируют кластерные границы, соответствующие приближенному представлению геометрии этого кластера, являющемуся приближением нулевого порядка, (б) геометрию каждого из кластеров аппроксимируют с помощью минимального ограничивающего блока, на основании которого формируют приближенное представление геометрии каждого кластера, являющееся приближением первого порядка, (в) ограничивающий блок разбивают на 2k гиперпрямоугольников, при этом такое разбиение осуществляют по средней точке в каждом измерении, (г) сохраняют только тех гиперпрямоугольники, которые содержат точки данных и на основании которых формируют приближенное представление геометрии кластера, являющееся приближением второго порядка, и (д) повторяют операции (в) и (г) для каждого из сохраненных гиперпрямоугольников с последовательным формированием приближенных представлений геометрии кластера, являющихся приближениями третьего, четвертого, . . . , n-ого порядка.
26. Способ по п. 25, предназначенный для поиска иерархии аппроксимаций геометрической структуры каждого кластера и при осуществлении которого также сокращают размерность заданных данных с использованием относящейся к базе данных информации о сокращении размерности, на основании информации о кластеризации отыскивают кластер, к которому относятся заданные данные сокращенной размерности, на основании информации о сокращении размерности для найденного кластера сокращают размерность заданных данных сокращенной размерности, осуществляют поиск имеющий сокращенную размерность вариант кластера, к которому относятся заданные данные дополнительно сокращенной размерности, с помощью многомерного индекса отыскивают в кластере k записей, наиболее схожих с заданными данными дополнительно сокращенной размерности, определяют, могут ли один или несколько других кластеров содержать записи, более близкие к заданным данным, чем наиболее дальние среди найденных k записей, на основании границ кластера сохраняют другой кластер только в том случае, если он может содержать какой-либо из k соседей, ближайших к заданным данным, на основании увеличения порядка приближения геометрии кластера итеративно определяют, может ли сохраненный кластер содержать какой-либо из k ближайших соседей, и сохраняют такой сохраненный кластер только в том случае, если он удовлетворяет условиям приближения самого высокого порядка в иерархии последовательных аппроксимаций, и в качестве ответного действия на указанную операцию итеративного определения сохраненный кластер задают как приемлемый кластер, содержащий один или несколько k ближайших соседей данных.
27. Машиночитаемое запоминающее устройство программ, которое содержит один или нескольких имеющих сокращенную размерность индексов многомерных данных и в котором в явном виде реализована программа команд, исполняемых вычислительной машиной для выполнения операций способа по представлению многомерных данных по п. 1.
28. Компьютерный программный продукт, имеющий пригодный для использования с компьютером носитель, содержащий представленные в машиночитаемом коде программные средства, в которых реализован способ представления многомерных данных и которые включают представленные в машиночитаемом коде программные средства для кластеризации, с помощью которых компьютер осуществляет разбиение многомерных данных на один или несколько кластеров, представленные в машиночитаемом коде программные средства, которые связаны с указанными программными средствами для кластеризации и с помощью которых компьютер осуществляет формирование и сохранение информацию о кластеризации для указанных одного или нескольких кластеров, представленные в машиночитаемом коде программные средства для сокращения размерности, которые связаны с указанными программными средствами для кластеризации и с помощью которых компьютер создает один или несколько кластеров сокращенной размерности и формирует информацию о сокращении размерности для одного или нескольких таких кластеров, и представленные в машиночитаемом коде программные средства, которые связаны с указанными программными средствами сокращения размерности и с помощью которых компьютер сохраняет информацию о сокращении размерности.
RU2000112647/09A 1997-10-31 1998-10-27 Способ кластеризации и сокращения размерности многомерных данных для их индексации и поиска RU2000112647A (ru)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/960,540 1997-10-31

Publications (1)

Publication Number Publication Date
RU2000112647A true RU2000112647A (ru) 2002-04-10

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2586025C2 (ru) * 2014-07-23 2016-06-10 федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова" Способ автоматической кластеризации объектов

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2586025C2 (ru) * 2014-07-23 2016-06-10 федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова" Способ автоматической кластеризации объектов

Similar Documents

Publication Publication Date Title
Zheng et al. Lazylsh: Approximate nearest neighbor search for multiple distance functions with a single index
US6084595A (en) Indexing method for image search engine
Andoni et al. Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions
Traina et al. Similarity search without tears: the OMNI-family of all-purpose access methods
KR100385528B1 (ko) 다차원 데이터 표시 방법 및 기록 매체
KR100708800B1 (ko) 화상 중에 나타나는 오브젝트를 검색하는 방법, 시스템 및 컴퓨터 판독가능 매체
Singh et al. Nearest keyword set search in multi-dimensional datasets
Krieger et al. Boosting the accuracy of protein secondary structure prediction through nearest neighbor search and method hybridization
Sinha LSH vs randomized partition trees: Which one to use for nearest neighbor search?
Singh et al. Simp: accurate and efficient near neighbor search in high dimensional spaces
Adelfio et al. Similarity search on a large collection of point sets
Holanda et al. Cracking KD-Tree: The First Multidimensional Adaptive Indexing (Position Paper).
Schuh et al. A comprehensive study of iDistance partitioning strategies for k NN queries and high-dimensional data indexing
KR20210006852A (ko) 레퍼런스 거리 유사도 검색
Amsaleg et al. Robust object recognition in images and the related database problems
Bhattacharya et al. Progress: Simultaneous searching of protein databases by sequence and structure
RU2000112647A (ru) Способ кластеризации и сокращения размерности многомерных данных для их индексации и поиска
Yagoubi et al. Radiussketch: massively distributed indexing of time series
Skopal et al. Answering Metric Skyline Queries by PM-tree.
Mohamed et al. Quantized ranking for permutation-based indexing
Tasan et al. Improvements in distance-based indexing
Shishibori et al. An improved method to select candidates on metric index vp-tree
Chen et al. A visual framework invites human into the clustering process
CN111026922B (zh) 一种分布式向量索引方法、系统、插件及电子设备
KR100446639B1 (ko) 셀 기반의 고차원 데이터 색인 장치 및 그 방법