На старте проекта у нас было порядка 700 выгрузок Excel, разнородная структура данных, тысячи наименований марок, моделей и импортеров, один амбициозный аналитик, целое море вариантов что с этим сделать, а также немного кодинга, ящик фишек и цель все сделать круто. Не то, чтобы все это было категорически необходимо в разработке, но если уж начал делать инструмент для бизнеса, то к делу надо подходить серьезно.
Во время написания скрипта был проведен глубокий анализ данных по каждому требуемому полю каждого вида выгрузок. На помощь пришли такие модули, как Pandas, Numpy, Os, Glob, lxml.etree, Requests.
Из разнородной структуры информация приведена к единому формату и дополнительно проведено обогащение:
- Разделение всех выгрузок на 4 вида: грузовой автотранспорт (ГА), дорожно-строительная техника (ДСТ), сельскохозяйственная техника (СХ) и склад. В каждом виде своя структура и своя особенность наполнения данных;
- Загрузка и первичная обработка файлов через цикл;
- Приведение к единой структуре: наименования, расположение полей (при необходимости объединение нескольких);
- Регистр символов;
- Преобразования значений к единому виду (тип техники, марки и модели и др.);
- Наименования стран из справочника с кодами ISO 3166-1;
- Максимально возможная унификация наименований импортеров, поставщиков;
- Получение региона из адреса поставки (зачастую адрес в разных форматах, с разными наименованиями одного и того же населенного пункта);
- Парсинг курса валют с сайта ЦБ РФ.