Data Engineer
Новосибирск, Большевистская, 101
Можно удалённо
полный день
CDEK - лидер экспресс-доставки среди Российских компаний.
Команда BI собирает и обрабатывает данные о работе CDEK: выручка, доставка, качество сервиса, эффективность работы подразделений. На основе этих данных создаются инструменты для принятия управленческих решений для всех направлений бизнеса.
В нашу команду ищем Data Engineer, который готов работать в динамичной компании, изучать новые технологии, общаться с разработчиками других команд и бизнес-заказчиками.
Мы предлагаем
- Гибкий график, возможность работать удаленно при необходимости;
- ДМС, корпоративные абонементы на фитнес и пр.;
- Посещение профильных конференций и курсов за счет компании, корпоративный университет;
- Высокая самостоятельность в работе - возможность предлагать идеи, изменять процессы, пробовать и прокачиваться за счет этого;
- Демократичная культура, минимум бюрократии, большое внутреннее общение, постоянный обмен опытом и идеями.
Возможен удаленный формат.
Основными задачами будут
- Разработка хранилища данных на базе Greenplum;
- Построение ETL-процессов поставки данных с помощью Airflow в Clickhouse/DB2/Greenplum;
- Работа с различными источниками данных: брокеры сообщений (kafka, rabbit), реляционные и NoSQL базы данных;
- Расчет сложных аналитических показателей в витринах данных;
- Осуществление поддержки разработанных Пайплайнов;
- Внедрение реализованных решений.
Для достижения успеха нужно
- Понимание архитектуры современных аналитических систем и принципов межсистемной интеграции;
- Понимание и опыт поддержки/построения хранилищ данных и знание методологий проектирования (Data Vault, якорная модель);
- Знание SQL на высоком уровне и опыт оптимизации запросов на какой-либо СУБД (индексы, функции, умение читать планы запросов), MDX будет плюсом;
- Уверенное знание Python (ООП, структуры данных);
- Опыт работы с Apache Airflow или другим etl инструментом;
- Опыт работы с СУБД Greenplum будет плюсом или любой другой колоночной MPP базой;
- Опыт обработки данных в экосистеме Hadoop будет плюсом (Spark/PySpark, Hive).