Разбор XML-файлов с использованием XSD-схем на примере анализа аварийности
Разбор XML представляет собой процесс анализа XML-файлов с использованием XSD-схем. Сценарий позволяет проверять соответствие XML-файлов предопределённой схеме, извлекать информацию об авариях и проводить статистический анализ данных.
Данные для анализа берутся с сайта ГИБДД (http://stat.gibdd.ru/). В результате мы получаем структурированные данные об авариях, которые можно легко анализировать и интерпретировать.
Примечание: Демопример имеет ограничение демонстрации всех возможностей при запуске на демостенде (Запустить демо). Рекомендуем установить пример локально.
Описание алгоритма
1. Импорт данных
В подмодели Импорт данных осуществляется подключение к файлам XSD-схем и импорт таблиц данных из файлов формата XML.
При подключении требуется настроить подключение набора XSD-схем. Для этого необходимо добавить новый файл с расширением «.xsd» в список, который необходимо выбрать в диалоге выбора файла.
Извлекаем необходимые данные через импорт из XML-файла в узлы: Основные данные, Таблица транспортных средств и Погодные условия. Для этого задаем путь к импортируемому файлу и связываем его с входным портом.
Примечание: XML-файл представляет собой иерархическую (древовидную) структуру данных, где элементы вложены друг в друга. В отличие от обычной таблицы, XML может содержать несколько уровней вложенности.
При настройке узла импорта XML на втором шаге мастера настройки требуется выбрать, какую именно часть этой структуры необходимо импортировать.
После загрузки данных в соответствующие узлы можно приступать к преобразованию данных.
Изменение имен полей для повышения удобства их восприятия.
2. Обработка данных
В подмодели Обработка данных данные приводятся к формату, необходимому для дальнейшего анализа.
В подмодели с помощью узла Калькулятор осуществляем преобразование даты в формат Дата и время, пропуски в поле Населённый пункт заменяются на «Не задано».
В подмодели используются узлы Калькулятор, Замена и Кросс-таблица. В подмодели бренд и модель машины объединяются в одно поле и выделяются данные по каждой машине.
В узле Кросс-таблица поставлена галочка «Скользящие уникальные значения». Это сделано для простоты восприятия данных, если исходные данные будут изменены.
В узле Группировка данные группируются по уникальным индексам.
3. Формирование статистики по ДТП
В узле Дополнение данных полученные данные объединяются в одну таблицу, для которой настроены визуализаторы типа Куб и Таблица.
В визуализаторах отображается статистика:
- по аварийности в разрезе населённых пунктов;
- по погодным условиям;
- по характеристикам автомобилей.
Скачайте и откройте файл в Loginom. При необходимости Loginom CE можно скачать бесплатно
Минимальные требования к системе:
- Операционная система: Windows 10 и выше
- CPU x64: 2 core 1
- Оперативная память: 4 GB
- Жесткий диск: 10 GB
1 Поддерживается работа на x64 процессорах Intel Core, AMD FX и более новых, содержащих инструкции SSE4.2, POPCNT.