Предобработка и очистка данных
Предобработка и очистка производится с целью подготовки данных к анализу, в результате чего они приводятся в соответствие с требованиями, определяемыми спецификой решаемой задачи.
Если она не будет выполнена, то дальнейший анализ в большинстве случаев невозможен из-за того, что аналитические алгоритмы просто не смогут работать или результаты их работы будут некорректными. Иными словами, реализуется принцип GIGO — garbage in, garbage out (мусор на входе, мусор на выходе).
Предобработка данных выполняется на протяжении всего процесса Data Mining: при выгрузке данных из первичных источников и OLTP-систем, в хранилище данных и в аналитической платформе.
Статьи в разделе: