пятница, 15 октября 2010 г.

Основные метрики, используемые при кластеризации

См. Мера сходства Хэмминга

http://masters.donntu.edu.ua/2005/kita/kapustina/library/cluster.htm

Наиболее распространенную группу эвристических методов кластеризации составляют методы, основывающиеся на иерархической агломеративной процедуре (от латинского agglomero — присоединяю, накапливаю). Эти алгоритмы дают лишь условно–оптимальное решение в некотором подмножестве локальных разбиений (кластеров), однако достоинством этих методов является простота вычислений и интерпретации полученных результатов. Смысл иерархический агломеративной процедуры заключается в следующем. Перед началом кластеризации все объекты считаются отдельными кластерами, т.е. имеется p=n кластеров, каждый из которых включает по одному элементу. На первом шаге алгоритма определяются два наиболее близких или сходных объекта, которые объединяются в один кластер, общее количество которых сокращается на 1 (p:=p–1). Итеративный процесс повторяется, пока на последнем (р—1)–м шаге все классы не объединятся. На каждом последующем шаге агломеративной процедуры требуется пересчет лишь одной строки и одного столбца матрицыD, т.е. рассчитываются расстояния от образованного кластера до каждого из оставшихся кластеров.

Комментариев нет: