Разбор XML-файлов с использованием XSD-схем на примере анализа аварийности

Разбор XML представляет собой процесс анализа XML-файлов с использованием XSD-схем. Сценарий позволяет проверять соответствие XML-файлов предопределённой схеме, извлекать информацию об авариях и проводить статистический анализ данных.

Данные для анализа берутся с сайта ГИБДД (http://stat.gibdd.ru/). В результате мы получаем структурированные данные об авариях, которые можно легко анализировать и интерпретировать.

Примечание: Демопример имеет ограничение демонстрации всех возможностей при запуске на демостенде (Запустить демо). Рекомендуем установить пример локально.

Запустить демо

Установить локально

Описание алгоритма

1. Импорт данных

В подмодели Импорт данных осуществляется подключение к файлам XSD-схем и импорт таблиц данных из файлов формата XML.

а) Настройка подключения

При подключении требуется настроить подключение набора XSD-схем. Для этого необходимо добавить новый файл с расширением «.xsd» в список, который необходимо выбрать в диалоге выбора файла.

б) Импорт из XML-файла

Извлекаем необходимые данные через импорт из XML-файла в узлы: Основные данные, Таблица транспортных средств и Погодные условия. Для этого задаем путь к импортируемому файлу и связываем его с входным портом.

Примечание: XML-файл представляет собой иерархическую (древовидную) структуру данных, где элементы вложены друг в друга. В отличие от обычной таблицы, XML может содержать несколько уровней вложенности.

При настройке узла импорта XML на втором шаге мастера настройки требуется выбрать, какую именно часть этой структуры необходимо импортировать.

После загрузки данных в соответствующие узлы можно приступать к преобразованию данных.

в) Переименование полей

Изменение имен полей для повышения удобства их восприятия.

2. Обработка данных

В подмодели Обработка данных данные приводятся к формату, необходимому для дальнейшего анализа.

a) Стандартизация данных

В подмодели с помощью узла Калькулятор осуществляем преобразование даты в формат Дата и время, пропуски в поле Населённый пункт заменяются на «Не задано».

б) Обработка доп. данных

В подмодели используются узлы Калькулятор, Замена и Кросс-таблица. В подмодели бренд и модель машины объединяются в одно поле и выделяются данные по каждой машине.

В узле Кросс-таблица поставлена галочка «Скользящие уникальные значения». Это сделано для простоты восприятия данных, если исходные данные будут изменены.

в) Группировка

В узле Группировка данные группируются по уникальным индексам.

3. Формирование статистики по ДТП

В узле Дополнение данных полученные данные объединяются в одну таблицу, для которой настроены визуализаторы типа Куб и Таблица.

В визуализаторах отображается статистика:

по аварийности в разрезе населённых пунктов;
по погодным условиям;
по характеристикам автомобилей.

Интеграция XSD-схема

Разбор XML-файлов с использованием XSD-схем на примере анализа аварийности

Описание алгоритма

1. Импорт данных

2. Обработка данных

3. Формирование статистики по ДТП

Минимальные требования к системе: