Кластеризация

Задача кластеризации является фундаментальной в анализе данных и Data Mining. Кластеризация — объединение объектов или наблюдений в непересекающиеся группы, называемые кластерами.

В Data Mining кластеризация используется для сегментации клиентов и рынков, медицинской диагностики, социальных и демографических исследований, определения кредитоспособности заемщиков и во многих других областях.

Для иллюстрации задачи используется набор данных «Ирисы Фишера». На этом наборе Р. Фишер продемонстрировал работу разработанного им метода дискриминантного анализа.

Запустить демо

Установить локально

Описание алгоритма

1. Импорт данных

Импорт набора данных «Ирисы Фишера»

Набор состоит из данных о 150 экземплярах ирисов. Для каждого из них измерялись четыре характеристики (в сантиметрах).

Имя Метка
sepal_length Длина чашелистика
sepal_width Ширина чашелистика
petal_length Длина лепестка
petal_width Ширина лепестка

2.1 EM Кластеризация

В основе EM кластеризации лежит предположение, что любое наблюдение принадлежит ко всем кластерам, но с разной вероятностью. Объект должен быть отнесен к тому кластеру, для которого данная вероятность выше.

а) Настройки EM Кластеризации

Установите следующие настройки для узла EM Кластеризация:

  • в качестве используемых полей укажите: sepal_length, sepal_width, petal_length, petal_width
  • в параметре Заданное число кластеров установите значение равное — 3
  • остальные настройки оставьте по умолчанию

После изменения настроек переобучите модель.

Интерпретация результатов

б) Выходной набор Разбиение на кластеры

В выходном наборе появляются две новые колонки, которые добавились к исходному набору:

  • Номер кластера
  • Вероятность принадлежности
Разбиение на кластеры
Рисунок 1. Разбиение на кластеры
в) Визуализация результатов

Интерпретацию результатов EM Кластеризации можно посмотреть в визуализаторе Профили кластеров:

Профили кластеров
Рисунок 2. Профили кластеров

В визуализаторе Профили кластеров возможно посмотреть статистические показатели, по которым можно сравнить кластеры между собой:

Профили кластеров (сравнение)
Рисунок 3. Профили кластеров (сравнение)

Алгоритм выделил 3 кластера, которые совпадают с количеством исходных классов и примерно равны, что говорит о хорошей работе алгоритма EM кластеризации.

2.2 Кластеризация k-means

Кластеризация k-means применяется в том случае, если известно количество кластеров.

а) Настройки Кластеризации (k-means)

Установите следующие настройки для узла Кластеризация (k-means):

  • в качестве используемых полей укажите: sepal_length, sepal_width, petal_length, petal_width
  • в параметре Заданное число кластеров установите значение равное — 3
  • остальные настройки оставьте по умолчанию

После изменения настроек переобучить модель.

Интерпретация результатов

б) Выходной набор Разбиение на кластеры

В выходном наборе появляются две новые колонки, которые добавились к исходному набору:

  • Номер кластера
  • Расстояние до центра кластера
Разбиение на кластеры
Рисунок 4. Разбиение на кластеры
в) Визуализация результатов

Интерпретацию результатов Кластеризации (k-means) можно посмотреть в визуализаторе Профили кластеров:

Профили кластеров
Рисунок 5. Профили кластеров

В визуализаторе Профили кластеров возможно посмотреть статистические показатели, по которым можно сравнить кластеры между собой:

Профили кластеров сравнение
Рисунок 6. Профили кластеров сравнение

Алгоритм выделил 3 кластера, которые совпадают с количеством классов входного набора, однако в каждом кластере получилось сильно различающееся количество объектов. Таким образом, k-means кластеризация менее точна, чем EM.

2.3 Кластеризация g-means

Кластеризация g-means применяется в том случае, если изначально неизвестно количество кластеров. Обработчик автоматически определяет их.

а) Настройки Кластеризации (g-means)

Установите следующие настройки для узла Кластеризация (g-means):

  • в качестве используемых полей укажите: sepal_length, sepal_width, petal_length, petal_width
  • включите флаг у параметра Автоопределение числа кластеров
  • остальные настройки оставьте по умолчанию

После изменения настроек переобучить модель.

Интерпретация результатов

б) Выходной набор Разбиение на кластеры

В выходном наборе появляются две новые колонки, которые добавились к исходному набору:

  • Номер кластера
  • Расстояние до центра кластера
Разбиение на кластеры
Рисунок 7. Разбиение на кластеры
в) Визуализация результатов

Интерпретацию результатов Кластеризации (g-means) можно посмотреть в визуализаторе Профили кластеров:

Профили кластеров
Рисунок 8. Профили кластеров

В визуализаторе Профили кластеров возможно посмотреть статистические показатели, по которым можно сравнить кластеры между собой:

Профили кластеров сравнение
Рисунок 9. Профили кластеров сравнение

Алгоритм выделил 2 кластера, которые, во-первых, не совпадают с количеством классов исходного набора, а, во-вторых, получились неравномерными. Таким образом, g-means кластеризация оказалась наименее точной, и ее результаты можно оценить как неудовлетворительные.


Алгоритмы кластеризации на службе Data Mining

Скачайте и откройте файл в Loginom. При необходимости Loginom CE можно скачать бесплатно

Скачать демопример

Минимальные требования к системе:

  • Операционная система: Windows 7 и выше.
  • Процессор x86: 1 core.
  • Оперативная память: 1 GB.
  • Жесткий диск: 10 GB.

Результаты поиска по запросу «» ()

    Нет результатов поиска по запросу ""