Кластеризация

Кластеризация — объединение объектов или наблюдений в непересекающиеся группы, называемые кластерами.

Ирисы Фишера — это набор данных для задачи классификации, на примере которого Р. Фишер (1936 г.) продемонстрировал работу разработанного им метода дискриминантного анализа. Ирисы Фишера состоят из данных о 150 экземплярах ириса, по 50 экземпляров из трёх видов — Ирис щетинистый (Iris setosa), Ирис виргинский (Iris virginica) и Ирис разноцветный (Iris versicolor). Для каждого экземпляра измерялись четыре характеристики (в сантиметрах):

  • Длина чашелистика (SepalLength);
  • Ширина чашелистика (SepalWidth);
  • Длина лепестка (PetalLength);
  • Ширина лепестка (PetalWidth).

Ирисы Фишера хорошо поддаются кластеризации метрическими алгоритмами.

Исходные данные

Таблица «Ирисы Фишера»:

Имя поля Метка поля
 SepalLength Длина чашелистика
 SepalWidth Ширина чашелистика
 PetalLength Длина лепестка
 PetalWidth Ширина лепестка
 Class Класс

Алгоритм

  1. Импорт исходных данных;
  2. Кластеризация:

Сценарий

Сценарий «Кластеризация».
Рисунок 1. Сценарий «Кластеризация».

 Входной набор данных

Узел позволяет импортировать табличные данные из текстового файла для последующей обработки в Loginom. В Сценарии он используется для импорта таблицы «Ирисы Фишера». Все параметры задаются в соответствии с описанием входных данных.

 EM Кластеризация

Рассмотрим настройки обработчика EM кластеризация:

  1. На странице Мастера настройки входных полей в качестве используемых полей необходимо выбрать следующие: SepalLength, SepalWidth, PetalLength, PetalWidth;
  2. Страницу Мастера настройки нормализации оставляем по умолчанию;
  3. На странице Мастера настройки параметров EM Кластеризация снимаем галочку с параметра «Автоопределение числа кластеров» и вводим заданное число кластеров — 3.
  4. Сохраняем настройки и переобучаем модель.
Настройки EM кластеризации.
Рисунок 2. Настройки EM кластеризации.

Результаты EM кластеризации представлены в разделе Интерпретация.

 Кластеризация (k-means)

Примечание: отличие Кластеризации k-means от g-means в том, что если количество кластеров известно, то применяется алгоритм k-means, в противном случае g-means, который определит это количество автоматически в рамках заданного интервала. В Loginom для этого используется один и тот же обработчик Кластеризация, но настраивается по-разному.

Рассмотрим настройки узла:

  1. На странице Мастера настройки входных полей в качестве используемых полей необходимо выбрать следующие: SepalLength, SepalWidth, PetalLength, PetalWidth;
  2. Страницу Мастера настройки нормализации оставляем по умолчанию;
  3. На странице Мастера настройки параметров Кластеризация снимаем галочку с параметра «Автоопределение числа кластеров» и вводим заданное число кластеров — 3.
  4. Сохраняем настройки и переобучаем модель.
Настройки Кластеризации k-means.
Рисунок 3. Настройки Кластеризации k-means.

Результаты Кластеризации k-means представлены в разделе Интерпретация.

 Кластеризация (g-means)

Рассмотрим настройки узла:

  1. На странице Мастера настройки входных полей в качестве используемых полей необходимо выбрать следующие: SepalLength, SepalWidth, PetalLength, PetalWidth;
  2. Страницу Мастера настройки нормализации оставляем по умолчанию;
  3. На странице Мастера настройки параметров «Кластеризация» вводим максимальное число кластеров — 3, остальные настройки по умолчанию.
  4. Сохраняем настройки и переобучаем модель.
Настройки Кластеризации g-means.
Рисунок 4. Настройки Кластеризации g-means.

Результаты Кластеризации g-means представлены в разделе Интерпретация.

Интерпретация

Для представления результатов используются следующие визуализаторы:

EM Кластеризация

Таблица отражает разбиение входного набора на кластеры и позволяет оценить вероятность принадлежности класса к определенной группе.

Разбиение на кластеры.
Рисунок 5. Разбиение на кластеры.

В каждом кластере получилось примерно равное количество объектов. Алгоритм выделил 3 группы, которые совпадают с количеством исходных классов и примерно равны, что говорит о хорошей работе алгоритма EM кластеризации.

Профили кластеров.
Рисунок 6. Профили кластеров.

Ниже представлены статистические показатели, по которым можно сравнить кластеры:

Профили кластеров (сравнение).
Рисунок 7. Профили кластеров (сравнение).

Кластеризация k-means

Таблица отражает разбиение входного набора на кластеры и позволяет оценить принадлежность класса к определенной группе.

Разбиение на кластеры.
Рисунок 8. Разбиение на кластеры.

Алгоритм выделил 3 группы, которые совпадают с количеством классов входного набора, однако в каждом кластере получилось сильно различающееся количество объектов. Таким образом, k-means кластеризация получилась менее точна, чем EM.

Профили кластеров.
Рисунок 9. Профили кластеров.

Ниже представлены статистические показатели, по которым можно сравнить кластеры:

Профили кластеров (сравнение).
Рисунок 10. Профили кластеров (сравнение).

Кластеризация g-means

Таблица отражает разбиение входного набора на кластеры и позволяет оценить принадлежность класса к определенной группе.

Разбиение на кластеры.
Рисунок 11. Разбиение на кластеры.

Алгоритм выделил 2 кластера, которые, во-первых, не совпадают с количеством классов исходного набора, а, во-вторых, получились неравномерными. Таким образом, g-means кластеризация оказалась наименее точной, и ее результаты можно оценить как неудовлетворительные.

Профили кластеров.
Рисунок 12. Профили кластеров.

Ниже представлены статистические показатели, по которым можно сравнить кластеры:

Профили кластеров (сравнение).
Рисунок 13. Профили кластеров (сравнение).

Компоненты

Файлы

Скачать

results matching ""

    No results matching ""