Прогнозирование риска возникновения диабета

В математической статистике логистическая регрессия является широко используемой статистической моделью.

Ее популярность обусловлена тем, что многие задачи анализа данных могут быть решены с помощью бинарной классификации или сведены к ней.

Например, с помощью логистической регрессии можно оценивать вероятность наступления (или ненаступления) некоторого события: пациент болен (здоров), заёмщик вернул кредит (допустил просрочку) и т.д.

В демопримере рассматривается построение модели логистической регрессии в Loginom для прогнозирования вероятности возникновения диабета на основе медицинских данных.

Запустить демо

Установить локально

Описание алгоритма

1. Импорт данных

Таблица Исторические данные:

Имя Метка Значение
Целый тип ID ID пациента Уникальный идентификатор пациента
Целый тип pregnancy Беременность Число случаев беременности
Целый тип glucose Глюкоза Концентрация глюкозы
Целый тип bp АД Артериальное диастолическое давление, мм. рт. ст.
Вещественный тип swt Толщина КС Толщина кожной складки трехглавой мышцы, мм.
Вещественный тип insulin Инсулин 2-х часовой сывороточный инсулин
Вещественный тип bmi ИМТ Индекс массы тела
Вещественный тип heredity Наследственность Числовой параметр наследственности диабета
Целый тип age Возраст Возраст, лет
Логический тип diagnosis Диагноз Зависимая переменная (true — наличие заболевания, false — отсутствие)

Данные из таблицы применяются для обучения прогнозирующей модели.

Таблица Новые данные содержит аналогичный набор полей. Данные из этой таблицы используются для построения прогноза.

В сценарии для обучения модели применяются уже подготовленные данные.

При использовании в сценарии «сырых» данных требуется их предварительная обработка: очистка, редактирование выбросов, корреляционный анализ и т.д. Для этого можно использовать компоненты из групп Исследование и Предобработка.

2. Обучение модели

В узле Логистическая регрессия (обучение) (на основе компонента Логистическая регрессия из группы Data Mining) произведены настройки для обучения модели. На первой странице мастера настройки для поля Диагноз установлено назначение Выходное, для всех остальных полей — Входное.

Важно:

  • Входные данные никогда не должны содержать пропусков, выходные данные не должны содержать пропусков во время обучения.

  • Назначение Выходное можно задать только для поля с Дискретным типом данных, оно должно содержать только 2 значения (например: 0,1; true, false; и так далее). Вид данных Входных полей не регламентируется.

На странице Разбиение на множества установлены следующие настройки:

  • Обучающее множество — 90%
  • Тестовое множество — 10%
  • Метод валидации — K-fold кросс-валидация
  • Random seed — 134517802

На странице Настройка логистической регрессии заданы следующие параметры:

  • Тип события — Задано явно
  • Индекс заданного события — 1
  • Поправка на долю событий — на основе обучающего множества

После обучения узла требуется оценить качество модели. Критерии для оценки модели можно увидеть в визуализаторе Качество бинарной классификации.

Качество модели можно оценить визуально с помощью диаграммы ROC-кривой, а также ориентируясь на площадь под ROC-кривой (AUC ROC) для тестового множества. Показатель должен быть больше 0,5. Для построенной модели он равен 0,78. Чем ближе значение показателя к 1, тем лучше качество модели.

Для оценки качества модели могут быть использованы различные критерии, в зависимости от условий задачи. Если модель не удовлетворяет желаемым критериям, требуется переобучить узел, задав новые условия.

3. Прогнозирование наличия заболевания

Для получения прогноза на предварительно обученной модели логистической регрессии используется узел Логистическая регрессия (прогноз) на основе компонента Выполнение узла. Для него выполнены следующие настройки:

  • В качестве выполняемого узла выбран узел Логистическая регрессия (обучение).
  • На вход узла поданы данные таблицы Новые данные.

Применение логистической регрессии в медицине и скоринге

Логистическая регрессия и ROC-анализ — математический аппарат

Скачайте и откройте файл в Loginom. При необходимости Loginom CE можно скачать бесплатно

Скачать демопример

Минимальные требования к системе:

  • Операционная система: Windows 10 и выше
  • CPU x64: 2 core 1
  • Оперативная память: 4 GB
  • Жесткий диск: 10 GB

1 Поддерживается работа на x64 процессорах Intel Core, AMD FX и более новых, содержащих инструкции SSE4.2 (POPCNT, LZCNT).