Очистка данных с использованием узла Дубликаты и противоречия

Качество данных — важный аспект, напрямую влияющий на результаты аналитической обработки. Существует множество причин, которые приводят к загрязнению информации. Типичной проблемой является возникновение повторяющихся записей. Записи, полностью повторяющие содержание другой записи (дубликаты), не несут никакой практической ценности. Все копии, кроме одной, удаляются в процессе очистки данных.

В демопримере осуществляется поиск и удаление дубликатов записей о кредитных клиентах банка. Данный демопример основан на статье Очистка данных с помощью обработчика «Дубликаты и противоречия».

Запустить демо

Установить локально

Описание алгоритма

1. Импорт данных

Таблица База заемщиков:

Имя	Метка
id	ID
surname	Фамилия
name	Имя
patronymic	Отчество
credit	Кредит, руб.

2. Поиск дубликатов и противоречий

В узле Дубликаты и противоречия выявляются дублирующие записи в исходной выборке данных. На первой странице мастера настроек заданы следующие параметры:

для полей Фамилия, Имя и Отчество установлено назначение Входное
для поля Идентификатор установлено назначение Выходное

Визуализатор

Для отображения результатов исследования предусмотрен специальный Визуализатор, который доступен только в узле на основе компонента Дубликаты и противоречия и носит одноименное название.

В визуализаторе к исходной таблице по умолчанию добавляются два столбца: Группа дубликата и Группа противоречия, где каждой серии присваивается порядковый номер, начиная с 1. В случае, если совпадения не найдены, поля остаются пустыми.

3. Удаление дубликатов

Повторяющиеся записи создают избыточность данных, занимают лишнее дисковое пространство, никак не обогащая массив информации.

В узле Дубликаты и противоречия одинаковые записи объединяются в группы. Каждой группе присваивается номер в дополнительном поле Группа дубликата. В наборе данных, используемом в демопримере, три группы дублируемых записей, каждая из которых состоит из двух совпадающих элементов. Из каждой группы дубликатов необходимо оставить по одной записи, а остальные удалить.

а) Фильтр строк

В узле Фильтр строк отсекаются записи, которые не соответствуют условию: Дубликат = Истина.

б) Группировка

С помощью узла Группировка объединяются копии записей. В настройках в качестве поля группировки задано Группа дубликата, все остальные поля перенесены в Показатели и для них выбран вид агрегации Первый.

в) Объединение

В узле Объединение в одну таблицу объединяются полученные после группировки записи и данные со второго выходного порта узла Фильтр строк.

Oчистка данных

Разбор и очистка дат рождения

Очистка данных перед загрузкой в хранилище

Очистка данных. Кейс медицинской лаборатории Инвитро

Очистка данных с использованием узла Дубликаты и противоречия

Описание алгоритма

1. Импорт данных

2. Поиск дубликатов и противоречий

3. Удаление дубликатов

Минимальные требования к системе: