Очистка данных с использованием узла Дубликаты и противоречия

Качество данных — важный аспект, напрямую влияющий на результаты аналитической обработки. Существует множество причин, которые приводят к загрязнению информации. Типичной проблемой является возникновение повторяющихся записей. Записи, полностью повторяющие содержание другой записи (дубликаты), не несут никакой практической ценности. Все копии, кроме одной, удаляются в процессе очистки данных.

В демопримере осуществляется поиск и удаление дубликатов записей о кредитных клиентах банка. Данный демопример основан на статье Очистка данных с помощью обработчика «Дубликаты и противоречия».

Запустить демо

Установить локально

Описание алгоритма

1. Импорт данных

Таблица База заемщиков:

Имя Метка
id ID
surname Фамилия
name Имя
patronymic Отчество
credit Кредит, руб.

2. Поиск дубликатов и противоречий

В узле Дубликаты и противоречия выявляются дублирующие записи в исходной выборке данных. На первой странице мастера настроек заданы следующие параметры:

  • для полей Фамилия, Имя и Отчество установлено назначение Входное
  • для поля Идентификатор установлено назначение Выходное
Визуализатор

Для отображения результатов исследования предусмотрен специальный Визуализатор, который доступен только в узле на основе компонента Дубликаты и противоречия и носит одноименное название.

В визуализаторе к исходной таблице по умолчанию добавляются два столбца: Группа дубликата и Группа противоречия, где каждой серии присваивается порядковый номер, начиная с 1. В случае, если совпадения не найдены, поля остаются пустыми.

3. Удаление дубликатов

Повторяющиеся записи создают избыточность данных, занимают лишнее дисковое пространство, никак не обогащая массив информации.

В узле Дубликаты и противоречия одинаковые записи объединяются в группы. Каждой группе присваивается номер в дополнительном поле Группа дубликата. В наборе данных, используемом в демопримере, три группы дублируемых записей, каждая из которых состоит из двух совпадающих элементов. Из каждой группы дубликатов необходимо оставить по одной записи, а остальные удалить.

а) Фильтр строк

В узле Фильтр строк отсекаются записи, которые не соответствуют условию: Дубликат = Истина.

б) Группировка

С помощью узла Группировка объединяются копии записей. В настройках в качестве поля группировки задано Группа дубликата, все остальные поля перенесены в Показатели и для них выбран вид агрегации Первый.

в) Объединение

В узле Объединение в одну таблицу объединяются полученные после группировки записи и данные со второго выходного порта узла Фильтр строк.


Разбор и очистка дат рождения

Очистка данных перед загрузкой в хранилище

Очистка данных. Кейс медицинской лаборатории Инвитро

Скачайте и откройте файл в Loginom. При необходимости Loginom CE можно скачать бесплатно

Скачать демопример

Минимальные требования к системе:

  • Операционная система: Windows 10 и выше
  • CPU x64: 2 core 1
  • Оперативная память: 4 GB
  • Жесткий диск: 10 GB

1 Поддерживается работа на x64 процессорах Intel Core, AMD FX и более новых, содержащих инструкции SSE4.2, POPCNT.