RU2000112647A

RU2000112647A - Способ кластеризации и сокращения размерности многомерных данных для их индексации и поиска

Info

Publication number: RU2000112647A
Application number: RU2000112647/09A
Authority: RU
Inventors: КАСТЕЛЛИ Витторио; ЛИ Чуншэн; ТАМАЗИАН Александер
Original assignee: Интернэшнл Бизнес Машинз Корпорейшн
Priority date: 1997-10-31
Filing date: 1998-10-27
Publication date: 2002-04-10

Claims

1. Компьютеризованный способ представления многомерных данных, при осуществлении которого а) многомерные данные разбивают на один или несколько кластеров, б) для указанных одного или нескольких кластеров формируют и сохраняют информацию о кластеризации, в) создают один или нескольких кластеров сокращенной размерности и для одного или нескольких таких кластеров формируют информацию о сокращении размерности и г) сохраняют информацию о сокращении размерности.

2. Способ по п. 1, в котором для указанных одного или нескольких кластеров сокращенной размерности формируют и сохраняют индекс сокращенной размерности.

3. Способ по п. 1, в котором данные хранятся в рассредоточенной либо в мультимедийной базе данных, которая содержит множество записей данных, каждая из которых имеет множество полей, при этом создают представление подлежащей индексированию базы данных в виде множества векторов, где каждый из таких векторов соответствует строке в базе данных, а элементы каждого вектора соответствуют для данной строки величинам, содержащимся в тех столбцах, для которых создается поисковый индекс, а операция разбиения заключается в разбиении векторов на один или несколько кластеров.

4. Способ по п. 2, в котором также весь индекс сохраняют в основной памяти компьютера.

5. Способ по п. 2, в котором операция создания кластеров сокращенной размерности заключается в сингулярном разложении, при этом формируют матрицу преобразования с получением ее собственных значений для каждого кластера и выбирают подмножество собственных значений, включающее наибольшие собственные значения, причем информация о сокращении размерности включает матрицу преобразования и подмножество собственных значений.

6. Способ по п. 5, который предназначен для поиска k записей, наиболее схожих с заданными данными, с использованием индекса сокращенной размерности и при осуществлении которого заданные данные ассоциируют с одним или несколькими кластерами на основании сохраненной информации о кластеризации, заданные данные проецируют на подпространство ассоциированного с ними кластера на основании сохраненной информации о сокращении размерности для этого ассоциированного кластера, в качестве ответного действия на указанное проецирование формируют информацию о сокращении размерности, включающую ортогональное дополнение проекции заданных данных, с помощью индекса осуществляют поиск ассоциированного кластера, имеющего k записей, наиболее схожих с проекцией заданных данных, определяют, может ли какой-либо другой ассоциированный кластер содержать какую-либо из k записей, наиболее схожих с проекцией заданных данных, и указанную операцию поиска повторяют для этого другого кластера, который может содержать какую-либо из k записей, наиболее схожих с проекцией заданных данных.

7. Способ по п. 6, в котором заданные данные содержат шаблон поиска и в котором на указанной операции проецирования шаблон с использованием информации о сокращении размерности проецируют на подпространство, ассоциированное с кластером, которому он соответствует, для проекции шаблона формируют информацию о сокращении размерности этого шаблона, при этом указанную операцию поиска с помощью индекса осуществляют на основании проекции шаблона и информации о сокращении размерности шаблона, и обновляют множество k ближайших соседей, которые представляют собой k записей, наиболее схожих с шаблоном поиска.

8. Способ по п. 5, в котором выбор подмножества собственных значений является функцией точности и числа повторных вызовов, посланных в ответ на возвращенные результаты.

9. Способ по п. 2, который предназначен для поиска k записей, наиболее схожих с заданными данными, при этом для указанного поиска на основании информации о кластеризации идентифицируют кластер, к которому относятся заданные данные, на основании информации о сокращении размерности для идентифицированного кластера сокращают размерность заданных данных, в качестве ответного действия на указанное сокращение размерности формируют информацию о сокращении размерности для заданных данных сокращенной размерности, с использованием информации о сокращении размерности осуществляют поиск многомерного индекса для имеющего сокращенную размерность варианта кластера, к которому относятся заданные данные, с помощью многомерного индекса в кластере отыскивают k наиболее схожих записей, идентифицируют другие приемлемые кластеры, которые могут содержать записи, более близкие к заданным данным, чем наиболее дальние среди найденных k наиболее схожих записей, в качестве ответного действия на указанную операцию определения осуществляют поиск другого приемлемого кластера, наиболее близкого к заданным данным, и повторяют указанные операции идентификации и поиска для всех других приемлемых кластеров.

10. Способ по п. 6 или 9, в котором также вычисляют расстояние (D) между k ближайшими соседями в указанном варианте кластера и проекцией заданных данных как функцию индекса δ² несоответствия, который определяется следующим образом

11. Способ по п. 1, в котором информация о кластеризации содержит информацию о центроиде одного или нескольких кластеров, при этом центроиду присваивают уникальную метку.

12. Способ по п. 1, в котором размерность данных больше 8.

13. Способ по п. 1, который предназначен для осуществления точного поиска и при осуществлении которого заданные данные ассоциируют с одним из кластеров на основании сохраненной информации о кластеризации, в качестве ответного действия на такое ассоциирование на основании сохраненной информации о сокращении размерности для кластера сокращенной размерности сокращают размерность заданных данных и на основании заданных данных сокращенной размерности осуществляют поиск имеющего сокращенную размерность варианта кластера, совпадающего с заданными данными.

14. Способ по п. 13, в котором при выполнении поиска осуществляют также линейный опрос для нахождения данных, совпадающих с заданными данными.

15. Способ по п. 1, в котором также создают иерархию кластеров сокращенной размерности путем циклического выполнения операций а) -г) и затем формируют и сохраняют один или несколько индексов малой размерности для кластеров, находящихся на самом низком уровне указанной иерархии.

16. Способ по п. 15, который предназначен для осуществления точного поиска и при осуществлении которого циклически выполняют следующие операции: с использованием сохраненной информации о кластеризации отыскивают кластер, к которому относятся заданные данные, и с использованием сохраненной информации о сокращении размерности сокращают размерность заданных данных кластеров до тех пор, пока не будет достигнут соответствующий самый нижний уровень иерархии кластеров сокращенной размерности, после чего с использованием индексов малой размерности осуществляют поиск имеющего сокращенную размерность варианта кластера, совпадающего с заданными данными.

17. Способ по п. 15, который предназначен для осуществления поиска по сходству и при осуществлении которого циклически выполняют следующие операции: с использованием сохраненной информации о кластеризации отыскивают кластер, к которому относятся заданные данные, и с использованием сохраненной информации о сокращении размерности сокращают размерность заданных данных для соответствия самому нижнему уровню иерархии кластеров сокращенной размерности, после чего осуществляют поиск окончательных приемлемых кластеров, которые могут содержать один или нескольких k соседей, ближайших к заданным данным на каждом уровне иерархии кластеров сокращенной размерности, начиная с окончательного кластера на самом нижнем уровне иерархии, к которому относятся заданные данные, и для каждого приемлемого окончательного кластера осуществляют внутрикластерный поиск k соседей, ближайших к заданным данным.

18. Способ по п. 15, который предназначен для осуществления поиска по сходству и при осуществлении которого также сокращают размерность заданных данных, затем циклически выполняют следующие операции: с использованием сохраненной информации о кластеризации отыскивают кластер, к которому относятся заданные данные сокращенной размерности, и с использованием сохраненной информации о сокращении размерности сокращают размерность заданных данных сокращенной размерности для соответствия самому нижнему уровню иерархии кластеров сокращенной размерности, после чего осуществляют поиск окончательных приемлемых кластеров, которые могут содержать один или нескольких k соседей, ближайших к заданным данным сокращенной размерности на каждом уровне иерархии кластеров сокращенной размерности, начиная с окончательного кластера на самом нижнем уровне иерархии, к которому относятся заданные данные, и для каждого приемлемого окончательного кластера осуществляют внутрикластерный поиск k соседей, ближайших к заданным данным сокращенной размерности.

19. Способ по п. 1, в котором данные хранятся в базе данных и при осуществлении которого также сокращают размерность базы данных с формированием относящейся к этой базе данных информации о сокращении размерности и сохраняют такую относящейся к базе данных информацию о сокращении размерности, при этом операция разбиения выполняется в качестве ответного действия на указанную операцию сокращения размерности.

20. Способ по п. 19, который предназначен для осуществления точного поиска и при осуществлении которого на основании относящейся к базе данных информации о сокращении размерности сокращают размерность заданных данных, в качестве ответного действия на указанную операцию сокращения размерности заданные данные сокращенной размерности на основании информации о кластеризации ассоциируют с одним из кластеров, на основании информации о сокращении размерности для ассоциированного кластера размерность заданных данных сокращают до размерности, которую имеет кластер сокращенной размерности, определяемый ассоциированным кластером, и на основании имеющего сокращенную размерность варианта заданных данных осуществляют поиск совпадающего кластера сокращенной размерности.

21. Способ по п. 19, который предназначен для осуществления поиска по сходству и при осуществлении которого с использованием относящейся к базе данных информации о сокращении размерности сокращают размерность заданных данных, на основании информации о кластеризации отыскивают кластер, к которому относятся заданные данные сокращенной размерности, на основании информации о сокращении размерности для идентифицированного кластера сокращают размерность заданных данных сокращенной размерности, осуществляют поиск имеющего сокращенную размерность варианта кластера, к которому относятся заданные данные дополнительно сокращенной размерности, с помощью многомерного индекса в кластере отыскивают k записей, наиболее схожих с заданными данными дополнительно сокращенной размерности, определяют, могут ли другие кластеры содержать записи, более близкие к заданным данным, чем наиболее дальние среди найденных k записей, в качестве ответного действия на указанную операцию определения осуществляют поиск другого кластера, наиболее близкого к заданным данным, и повторяют указанные операции определения и поиска для всех других кластеров.

22. Способ по п. 19, в котором данные хранятся в базе данных и при осуществлении которого также формируют и сохраняют один или несколько поисковых индексов сокращенной размерности для указанных одного или нескольких кластеров сокращенной размерности.

23. Способ по п. 19, который предназначен для осуществления точного поиска и при осуществлении которого на основании сохраненной информации о кластеризации заданные данные ассоциируют с одним из кластеров, в качестве ответного действия на указанную операцию ассоциирования осуществляют разложение заданных данных в кластер сокращенной размерности, определяемый ассоциированным кластером и сохраненной для этого ассоциированного кластера информацией о сокращении размерности, и на основании разложенных заданных данных осуществляют поиск индексов для совпадающего кластера сокращенной размерности.

24. Способ по п. 23, в котором запрос содержит шаблон поиска и в котором далее операция ассоциирования предусматривает идентификацию кластера, отвечающего шаблону поиска, на основании сохраненной информации о кластеризации, операция разложения предусматривает проецирование шаблона поиска на подпространство идентифицированного кластера на основании сохраненной информации о сокращении размерности, а операция поиска предусматривает выполнение внутрикластерного поиска для проекции шаблона.

25. Способ по п. 1, при осуществлении которого также (а) формируют кластерные границы, соответствующие приближенному представлению геометрии этого кластера, являющемуся приближением нулевого порядка, (б) геометрию каждого из кластеров аппроксимируют с помощью минимального ограничивающего блока, на основании которого формируют приближенное представление геометрии каждого кластера, являющееся приближением первого порядка, (в) ограничивающий блок разбивают на 2^k гиперпрямоугольников, при этом такое разбиение осуществляют по средней точке в каждом измерении, (г) сохраняют только тех гиперпрямоугольники, которые содержат точки данных и на основании которых формируют приближенное представление геометрии кластера, являющееся приближением второго порядка, и (д) повторяют операции (в) и (г) для каждого из сохраненных гиперпрямоугольников с последовательным формированием приближенных представлений геометрии кластера, являющихся приближениями третьего, четвертого, . . . , n-ого порядка.

26. Способ по п. 25, предназначенный для поиска иерархии аппроксимаций геометрической структуры каждого кластера и при осуществлении которого также сокращают размерность заданных данных с использованием относящейся к базе данных информации о сокращении размерности, на основании информации о кластеризации отыскивают кластер, к которому относятся заданные данные сокращенной размерности, на основании информации о сокращении размерности для найденного кластера сокращают размерность заданных данных сокращенной размерности, осуществляют поиск имеющий сокращенную размерность вариант кластера, к которому относятся заданные данные дополнительно сокращенной размерности, с помощью многомерного индекса отыскивают в кластере k записей, наиболее схожих с заданными данными дополнительно сокращенной размерности, определяют, могут ли один или несколько других кластеров содержать записи, более близкие к заданным данным, чем наиболее дальние среди найденных k записей, на основании границ кластера сохраняют другой кластер только в том случае, если он может содержать какой-либо из k соседей, ближайших к заданным данным, на основании увеличения порядка приближения геометрии кластера итеративно определяют, может ли сохраненный кластер содержать какой-либо из k ближайших соседей, и сохраняют такой сохраненный кластер только в том случае, если он удовлетворяет условиям приближения самого высокого порядка в иерархии последовательных аппроксимаций, и в качестве ответного действия на указанную операцию итеративного определения сохраненный кластер задают как приемлемый кластер, содержащий один или несколько k ближайших соседей данных.

27. Машиночитаемое запоминающее устройство программ, которое содержит один или нескольких имеющих сокращенную размерность индексов многомерных данных и в котором в явном виде реализована программа команд, исполняемых вычислительной машиной для выполнения операций способа по представлению многомерных данных по п. 1.

28. Компьютерный программный продукт, имеющий пригодный для использования с компьютером носитель, содержащий представленные в машиночитаемом коде программные средства, в которых реализован способ представления многомерных данных и которые включают представленные в машиночитаемом коде программные средства для кластеризации, с помощью которых компьютер осуществляет разбиение многомерных данных на один или несколько кластеров, представленные в машиночитаемом коде программные средства, которые связаны с указанными программными средствами для кластеризации и с помощью которых компьютер осуществляет формирование и сохранение информацию о кластеризации для указанных одного или нескольких кластеров, представленные в машиночитаемом коде программные средства для сокращения размерности, которые связаны с указанными программными средствами для кластеризации и с помощью которых компьютер создает один или несколько кластеров сокращенной размерности и формирует информацию о сокращении размерности для одного или нескольких таких кластеров, и представленные в машиночитаемом коде программные средства, которые связаны с указанными программными средствами сокращения размерности и с помощью которых компьютер сохраняет информацию о сокращении размерности.