RU2000112647A - Способ кластеризации и сокращения размерности многомерных данных для их индексации и поиска - Google Patents
Способ кластеризации и сокращения размерности многомерных данных для их индексации и поискаInfo
- Publication number
- RU2000112647A RU2000112647A RU2000112647/09A RU2000112647A RU2000112647A RU 2000112647 A RU2000112647 A RU 2000112647A RU 2000112647/09 A RU2000112647/09 A RU 2000112647/09A RU 2000112647 A RU2000112647 A RU 2000112647A RU 2000112647 A RU2000112647 A RU 2000112647A
- Authority
- RU
- Russia
- Prior art keywords
- cluster
- dimension
- search
- data
- information
- Prior art date
Links
- 230000015572 biosynthetic process Effects 0.000 claims 3
- 230000000875 corresponding Effects 0.000 claims 3
- 238000005755 formation reaction Methods 0.000 claims 3
- 238000000354 decomposition reaction Methods 0.000 claims 2
- 239000011159 matrix material Substances 0.000 claims 2
- 230000001131 transforming Effects 0.000 claims 2
- 230000000295 complement Effects 0.000 claims 1
- 238000004590 computer program Methods 0.000 claims 1
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 238000005192 partition Methods 0.000 claims 1
Claims (1)
1. Компьютеризованный способ представления многомерных данных, при осуществлении которого а) многомерные данные разбивают на один или несколько кластеров, б) для указанных одного или нескольких кластеров формируют и сохраняют информацию о кластеризации, в) создают один или нескольких кластеров сокращенной размерности и для одного или нескольких таких кластеров формируют информацию о сокращении размерности и г) сохраняют информацию о сокращении размерности.
2. Способ по п. 1, в котором для указанных одного или нескольких кластеров сокращенной размерности формируют и сохраняют индекс сокращенной размерности.
3. Способ по п. 1, в котором данные хранятся в рассредоточенной либо в мультимедийной базе данных, которая содержит множество записей данных, каждая из которых имеет множество полей, при этом создают представление подлежащей индексированию базы данных в виде множества векторов, где каждый из таких векторов соответствует строке в базе данных, а элементы каждого вектора соответствуют для данной строки величинам, содержащимся в тех столбцах, для которых создается поисковый индекс, а операция разбиения заключается в разбиении векторов на один или несколько кластеров.
4. Способ по п. 2, в котором также весь индекс сохраняют в основной памяти компьютера.
5. Способ по п. 2, в котором операция создания кластеров сокращенной размерности заключается в сингулярном разложении, при этом формируют матрицу преобразования с получением ее собственных значений для каждого кластера и выбирают подмножество собственных значений, включающее наибольшие собственные значения, причем информация о сокращении размерности включает матрицу преобразования и подмножество собственных значений.
6. Способ по п. 5, который предназначен для поиска k записей, наиболее схожих с заданными данными, с использованием индекса сокращенной размерности и при осуществлении которого заданные данные ассоциируют с одним или несколькими кластерами на основании сохраненной информации о кластеризации, заданные данные проецируют на подпространство ассоциированного с ними кластера на основании сохраненной информации о сокращении размерности для этого ассоциированного кластера, в качестве ответного действия на указанное проецирование формируют информацию о сокращении размерности, включающую ортогональное дополнение проекции заданных данных, с помощью индекса осуществляют поиск ассоциированного кластера, имеющего k записей, наиболее схожих с проекцией заданных данных, определяют, может ли какой-либо другой ассоциированный кластер содержать какую-либо из k записей, наиболее схожих с проекцией заданных данных, и указанную операцию поиска повторяют для этого другого кластера, который может содержать какую-либо из k записей, наиболее схожих с проекцией заданных данных.
7. Способ по п. 6, в котором заданные данные содержат шаблон поиска и в котором на указанной операции проецирования шаблон с использованием информации о сокращении размерности проецируют на подпространство, ассоциированное с кластером, которому он соответствует, для проекции шаблона формируют информацию о сокращении размерности этого шаблона, при этом указанную операцию поиска с помощью индекса осуществляют на основании проекции шаблона и информации о сокращении размерности шаблона, и обновляют множество k ближайших соседей, которые представляют собой k записей, наиболее схожих с шаблоном поиска.
8. Способ по п. 5, в котором выбор подмножества собственных значений является функцией точности и числа повторных вызовов, посланных в ответ на возвращенные результаты.
9. Способ по п. 2, который предназначен для поиска k записей, наиболее схожих с заданными данными, при этом для указанного поиска на основании информации о кластеризации идентифицируют кластер, к которому относятся заданные данные, на основании информации о сокращении размерности для идентифицированного кластера сокращают размерность заданных данных, в качестве ответного действия на указанное сокращение размерности формируют информацию о сокращении размерности для заданных данных сокращенной размерности, с использованием информации о сокращении размерности осуществляют поиск многомерного индекса для имеющего сокращенную размерность варианта кластера, к которому относятся заданные данные, с помощью многомерного индекса в кластере отыскивают k наиболее схожих записей, идентифицируют другие приемлемые кластеры, которые могут содержать записи, более близкие к заданным данным, чем наиболее дальние среди найденных k наиболее схожих записей, в качестве ответного действия на указанную операцию определения осуществляют поиск другого приемлемого кластера, наиболее близкого к заданным данным, и повторяют указанные операции идентификации и поиска для всех других приемлемых кластеров.
10. Способ по п. 6 или 9, в котором также вычисляют расстояние (D) между k ближайшими соседями в указанном варианте кластера и проекцией заданных данных как функцию индекса δ2 несоответствия, который определяется следующим образом
11. Способ по п. 1, в котором информация о кластеризации содержит информацию о центроиде одного или нескольких кластеров, при этом центроиду присваивают уникальную метку.
11. Способ по п. 1, в котором информация о кластеризации содержит информацию о центроиде одного или нескольких кластеров, при этом центроиду присваивают уникальную метку.
12. Способ по п. 1, в котором размерность данных больше 8.
13. Способ по п. 1, который предназначен для осуществления точного поиска и при осуществлении которого заданные данные ассоциируют с одним из кластеров на основании сохраненной информации о кластеризации, в качестве ответного действия на такое ассоциирование на основании сохраненной информации о сокращении размерности для кластера сокращенной размерности сокращают размерность заданных данных и на основании заданных данных сокращенной размерности осуществляют поиск имеющего сокращенную размерность варианта кластера, совпадающего с заданными данными.
14. Способ по п. 13, в котором при выполнении поиска осуществляют также линейный опрос для нахождения данных, совпадающих с заданными данными.
15. Способ по п. 1, в котором также создают иерархию кластеров сокращенной размерности путем циклического выполнения операций а) -г) и затем формируют и сохраняют один или несколько индексов малой размерности для кластеров, находящихся на самом низком уровне указанной иерархии.
16. Способ по п. 15, который предназначен для осуществления точного поиска и при осуществлении которого циклически выполняют следующие операции: с использованием сохраненной информации о кластеризации отыскивают кластер, к которому относятся заданные данные, и с использованием сохраненной информации о сокращении размерности сокращают размерность заданных данных кластеров до тех пор, пока не будет достигнут соответствующий самый нижний уровень иерархии кластеров сокращенной размерности, после чего с использованием индексов малой размерности осуществляют поиск имеющего сокращенную размерность варианта кластера, совпадающего с заданными данными.
17. Способ по п. 15, который предназначен для осуществления поиска по сходству и при осуществлении которого циклически выполняют следующие операции: с использованием сохраненной информации о кластеризации отыскивают кластер, к которому относятся заданные данные, и с использованием сохраненной информации о сокращении размерности сокращают размерность заданных данных для соответствия самому нижнему уровню иерархии кластеров сокращенной размерности, после чего осуществляют поиск окончательных приемлемых кластеров, которые могут содержать один или нескольких k соседей, ближайших к заданным данным на каждом уровне иерархии кластеров сокращенной размерности, начиная с окончательного кластера на самом нижнем уровне иерархии, к которому относятся заданные данные, и для каждого приемлемого окончательного кластера осуществляют внутрикластерный поиск k соседей, ближайших к заданным данным.
18. Способ по п. 15, который предназначен для осуществления поиска по сходству и при осуществлении которого также сокращают размерность заданных данных, затем циклически выполняют следующие операции: с использованием сохраненной информации о кластеризации отыскивают кластер, к которому относятся заданные данные сокращенной размерности, и с использованием сохраненной информации о сокращении размерности сокращают размерность заданных данных сокращенной размерности для соответствия самому нижнему уровню иерархии кластеров сокращенной размерности, после чего осуществляют поиск окончательных приемлемых кластеров, которые могут содержать один или нескольких k соседей, ближайших к заданным данным сокращенной размерности на каждом уровне иерархии кластеров сокращенной размерности, начиная с окончательного кластера на самом нижнем уровне иерархии, к которому относятся заданные данные, и для каждого приемлемого окончательного кластера осуществляют внутрикластерный поиск k соседей, ближайших к заданным данным сокращенной размерности.
19. Способ по п. 1, в котором данные хранятся в базе данных и при осуществлении которого также сокращают размерность базы данных с формированием относящейся к этой базе данных информации о сокращении размерности и сохраняют такую относящейся к базе данных информацию о сокращении размерности, при этом операция разбиения выполняется в качестве ответного действия на указанную операцию сокращения размерности.
20. Способ по п. 19, который предназначен для осуществления точного поиска и при осуществлении которого на основании относящейся к базе данных информации о сокращении размерности сокращают размерность заданных данных, в качестве ответного действия на указанную операцию сокращения размерности заданные данные сокращенной размерности на основании информации о кластеризации ассоциируют с одним из кластеров, на основании информации о сокращении размерности для ассоциированного кластера размерность заданных данных сокращают до размерности, которую имеет кластер сокращенной размерности, определяемый ассоциированным кластером, и на основании имеющего сокращенную размерность варианта заданных данных осуществляют поиск совпадающего кластера сокращенной размерности.
21. Способ по п. 19, который предназначен для осуществления поиска по сходству и при осуществлении которого с использованием относящейся к базе данных информации о сокращении размерности сокращают размерность заданных данных, на основании информации о кластеризации отыскивают кластер, к которому относятся заданные данные сокращенной размерности, на основании информации о сокращении размерности для идентифицированного кластера сокращают размерность заданных данных сокращенной размерности, осуществляют поиск имеющего сокращенную размерность варианта кластера, к которому относятся заданные данные дополнительно сокращенной размерности, с помощью многомерного индекса в кластере отыскивают k записей, наиболее схожих с заданными данными дополнительно сокращенной размерности, определяют, могут ли другие кластеры содержать записи, более близкие к заданным данным, чем наиболее дальние среди найденных k записей, в качестве ответного действия на указанную операцию определения осуществляют поиск другого кластера, наиболее близкого к заданным данным, и повторяют указанные операции определения и поиска для всех других кластеров.
22. Способ по п. 19, в котором данные хранятся в базе данных и при осуществлении которого также формируют и сохраняют один или несколько поисковых индексов сокращенной размерности для указанных одного или нескольких кластеров сокращенной размерности.
23. Способ по п. 19, который предназначен для осуществления точного поиска и при осуществлении которого на основании сохраненной информации о кластеризации заданные данные ассоциируют с одним из кластеров, в качестве ответного действия на указанную операцию ассоциирования осуществляют разложение заданных данных в кластер сокращенной размерности, определяемый ассоциированным кластером и сохраненной для этого ассоциированного кластера информацией о сокращении размерности, и на основании разложенных заданных данных осуществляют поиск индексов для совпадающего кластера сокращенной размерности.
24. Способ по п. 23, в котором запрос содержит шаблон поиска и в котором далее операция ассоциирования предусматривает идентификацию кластера, отвечающего шаблону поиска, на основании сохраненной информации о кластеризации, операция разложения предусматривает проецирование шаблона поиска на подпространство идентифицированного кластера на основании сохраненной информации о сокращении размерности, а операция поиска предусматривает выполнение внутрикластерного поиска для проекции шаблона.
25. Способ по п. 1, при осуществлении которого также (а) формируют кластерные границы, соответствующие приближенному представлению геометрии этого кластера, являющемуся приближением нулевого порядка, (б) геометрию каждого из кластеров аппроксимируют с помощью минимального ограничивающего блока, на основании которого формируют приближенное представление геометрии каждого кластера, являющееся приближением первого порядка, (в) ограничивающий блок разбивают на 2k гиперпрямоугольников, при этом такое разбиение осуществляют по средней точке в каждом измерении, (г) сохраняют только тех гиперпрямоугольники, которые содержат точки данных и на основании которых формируют приближенное представление геометрии кластера, являющееся приближением второго порядка, и (д) повторяют операции (в) и (г) для каждого из сохраненных гиперпрямоугольников с последовательным формированием приближенных представлений геометрии кластера, являющихся приближениями третьего, четвертого, . . . , n-ого порядка.
26. Способ по п. 25, предназначенный для поиска иерархии аппроксимаций геометрической структуры каждого кластера и при осуществлении которого также сокращают размерность заданных данных с использованием относящейся к базе данных информации о сокращении размерности, на основании информации о кластеризации отыскивают кластер, к которому относятся заданные данные сокращенной размерности, на основании информации о сокращении размерности для найденного кластера сокращают размерность заданных данных сокращенной размерности, осуществляют поиск имеющий сокращенную размерность вариант кластера, к которому относятся заданные данные дополнительно сокращенной размерности, с помощью многомерного индекса отыскивают в кластере k записей, наиболее схожих с заданными данными дополнительно сокращенной размерности, определяют, могут ли один или несколько других кластеров содержать записи, более близкие к заданным данным, чем наиболее дальние среди найденных k записей, на основании границ кластера сохраняют другой кластер только в том случае, если он может содержать какой-либо из k соседей, ближайших к заданным данным, на основании увеличения порядка приближения геометрии кластера итеративно определяют, может ли сохраненный кластер содержать какой-либо из k ближайших соседей, и сохраняют такой сохраненный кластер только в том случае, если он удовлетворяет условиям приближения самого высокого порядка в иерархии последовательных аппроксимаций, и в качестве ответного действия на указанную операцию итеративного определения сохраненный кластер задают как приемлемый кластер, содержащий один или несколько k ближайших соседей данных.
27. Машиночитаемое запоминающее устройство программ, которое содержит один или нескольких имеющих сокращенную размерность индексов многомерных данных и в котором в явном виде реализована программа команд, исполняемых вычислительной машиной для выполнения операций способа по представлению многомерных данных по п. 1.
28. Компьютерный программный продукт, имеющий пригодный для использования с компьютером носитель, содержащий представленные в машиночитаемом коде программные средства, в которых реализован способ представления многомерных данных и которые включают представленные в машиночитаемом коде программные средства для кластеризации, с помощью которых компьютер осуществляет разбиение многомерных данных на один или несколько кластеров, представленные в машиночитаемом коде программные средства, которые связаны с указанными программными средствами для кластеризации и с помощью которых компьютер осуществляет формирование и сохранение информацию о кластеризации для указанных одного или нескольких кластеров, представленные в машиночитаемом коде программные средства для сокращения размерности, которые связаны с указанными программными средствами для кластеризации и с помощью которых компьютер создает один или несколько кластеров сокращенной размерности и формирует информацию о сокращении размерности для одного или нескольких таких кластеров, и представленные в машиночитаемом коде программные средства, которые связаны с указанными программными средствами сокращения размерности и с помощью которых компьютер сохраняет информацию о сокращении размерности.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/960,540 | 1997-10-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2000112647A true RU2000112647A (ru) | 2002-04-10 |
Family
ID=
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2586025C2 (ru) * | 2014-07-23 | 2016-06-10 | федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова" | Способ автоматической кластеризации объектов |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2586025C2 (ru) * | 2014-07-23 | 2016-06-10 | федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова" | Способ автоматической кластеризации объектов |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | Lazylsh: Approximate nearest neighbor search for multiple distance functions with a single index | |
US6084595A (en) | Indexing method for image search engine | |
Andoni et al. | Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions | |
Traina et al. | Similarity search without tears: the OMNI-family of all-purpose access methods | |
KR100385528B1 (ko) | 다차원 데이터 표시 방법 및 기록 매체 | |
KR100708800B1 (ko) | 화상 중에 나타나는 오브젝트를 검색하는 방법, 시스템 및 컴퓨터 판독가능 매체 | |
Singh et al. | Nearest keyword set search in multi-dimensional datasets | |
Krieger et al. | Boosting the accuracy of protein secondary structure prediction through nearest neighbor search and method hybridization | |
Sinha | LSH vs randomized partition trees: Which one to use for nearest neighbor search? | |
Singh et al. | Simp: accurate and efficient near neighbor search in high dimensional spaces | |
Adelfio et al. | Similarity search on a large collection of point sets | |
Holanda et al. | Cracking KD-Tree: The First Multidimensional Adaptive Indexing (Position Paper). | |
Schuh et al. | A comprehensive study of iDistance partitioning strategies for k NN queries and high-dimensional data indexing | |
KR20210006852A (ko) | 레퍼런스 거리 유사도 검색 | |
Amsaleg et al. | Robust object recognition in images and the related database problems | |
Bhattacharya et al. | Progress: Simultaneous searching of protein databases by sequence and structure | |
RU2000112647A (ru) | Способ кластеризации и сокращения размерности многомерных данных для их индексации и поиска | |
Yagoubi et al. | Radiussketch: massively distributed indexing of time series | |
Skopal et al. | Answering Metric Skyline Queries by PM-tree. | |
Mohamed et al. | Quantized ranking for permutation-based indexing | |
Tasan et al. | Improvements in distance-based indexing | |
Shishibori et al. | An improved method to select candidates on metric index vp-tree | |
Chen et al. | A visual framework invites human into the clustering process | |
CN111026922B (zh) | 一种分布式向量索引方法、系统、插件及电子设备 | |
KR100446639B1 (ko) | 셀 기반의 고차원 데이터 색인 장치 및 그 방법 |