Поиск аномалий с помощью евклидова расстояния
Пример решения задачи на базе аналитической low-code платформы Loginom:
- Скачать бесплатно Loginom Community Edition
- Скачать бесплатно пакет, реализующий описанный сценарий
Метод на основе меры расстояния удобен при поиске аномальных значений в многомерных данных. С помощью евклидова расстояния можно анализировать степень сходства объектов.
Исходные данные
Импортируемая таблица
Имя поля | Метка поля |
---|---|
Код анкеты | |
СуммаКредита, руб | |
Возраст |
Переменные пользователя
Имя поля | Метка поля |
---|---|
Нижнее пороговое значение | |
Верхнее пороговое значение |
Алгоритм
- Импорт входных данных;
- Подготовка данных: приведение к единому порядку, добавление полей;
- Расчет евклидова расстояния;
- Нахождение аномалий.
Сценарий

Исходные данные
В этом узле импортируются данные из LGD-файла для дальнейшей обработки.
Уменьшение порядка
Для того, чтобы расчеты были корректными, все параметры должны быть одного порядка, иначе влияние одной из величин на результат может оказаться более существенным. Поэтому в этом узле порядок исходных данных приводится к одному виду.
Слияние
Далее производится полное внешнее слияние данных для получения всех возможных комбинаций исходных данных.
Евклидово расстояние и определение значений меньше порога
С помощью математического аппарата рассчитывается значение евклидова расстояния для каждой полученной комбинации. Также определяются записи, в которых евклидово расстояние меньше либо равно заданному порогу dLimit
.
Фильтрация значений меньше порога
Определенные на предыдущем шаге записи, в которых значение евклидова расстояния меньше порогового, отфильтровываются для дальнейшей обработки.
Группировка
Далее для каждой записи считается, сколько раз расчетное евклидово расстояние не попало в необходимый диапазон.
Поиск аномалий
Для всех полученных записей рассчитываются аномальные значения. Если определенное на предыдущем шаге количество меньше либо равно пороговому значению pLimit
, то такая запись считается аномальной.
Найденные аномалии
В конце найденные аномалии выделяются из основного набора для дальнейшего анализа аналитиком.
Полученные в ходе выполнения сценария аномальные значения приведены на рисунке:
