Очистка данных с использованием узла Дубликаты и противоречия
Качество данных — важный аспект, напрямую влияющий на результаты аналитической обработки. Существует множество причин, которые приводят к загрязнению информации. Типичной проблемой является возникновение повторяющихся записей. Записи, полностью повторяющие содержание другой записи (дубликаты), не несут никакой практической ценности. Все копии, кроме одной, удаляются в процессе очистки данных.
В демопримере осуществляется поиск и удаление дубликатов записей о кредитных клиентах банка. Данный демопример основан на статье Очистка данных с помощью обработчика «Дубликаты и противоречия».
Описание алгоритма
1. Импорт данных
Таблица База заемщиков:
Имя | Метка |
---|---|
ID | |
Фамилия | |
Имя | |
Отчество | |
Кредит, руб. |
2. Поиск дубликатов и противоречий
В узле Дубликаты и противоречия выявляются дублирующие записи в исходной выборке данных. На первой странице мастера настроек заданы следующие параметры:
- для полей Фамилия, Имя и Отчество установлено назначение Входное
- для поля Идентификатор установлено назначение Выходное
Для отображения результатов исследования предусмотрен специальный Визуализатор, который доступен только в узле на основе компонента Дубликаты и противоречия и носит одноименное название.
В визуализаторе к исходной таблице по умолчанию добавляются два столбца: Группа дубликата и Группа противоречия, где каждой серии присваивается порядковый номер, начиная с 1. В случае, если совпадения не найдены, поля остаются пустыми.
3. Удаление дубликатов
Повторяющиеся записи создают избыточность данных, занимают лишнее дисковое пространство, никак не обогащая массив информации.
В узле Дубликаты и противоречия одинаковые записи объединяются в группы. Каждой группе присваивается номер в дополнительном поле Группа дубликата. В наборе данных, используемом в демопримере, три группы дублируемых записей, каждая из которых состоит из двух совпадающих элементов. Из каждой группы дубликатов необходимо оставить по одной записи, а остальные удалить.
В узле Фильтр строк отсекаются записи, которые не соответствуют условию: Дубликат = Истина.
С помощью узла Группировка объединяются копии записей. В настройках в качестве поля группировки задано Группа дубликата, все остальные поля перенесены в Показатели и для них выбран вид агрегации Первый.
В узле Объединение в одну таблицу объединяются полученные после группировки записи и данные со второго выходного порта узла Фильтр строк.
Очистка данных перед загрузкой в хранилище
Очистка данных. Кейс медицинской лаборатории Инвитро
Скачайте и откройте файл в Loginom. При необходимости Loginom CE можно скачать бесплатно
Минимальные требования к системе:
- Операционная система: Windows 10 и выше
- CPU x64: 2 core 1
- Оперативная память: 4 GB
- Жесткий диск: 10 GB
1 Поддерживается работа на x64 процессорах Intel Core, AMD FX и более новых, содержащих инструкции SSE4.2, POPCNT.