13.12.2022 12:20
Data engineer
13.12.2022 12:20
Наша команда инфраструктуры аналитики помогает аналитикам делать свою работу. Мы обеспечиваем доставку данных в единое хранилище для аналитики и поддерживаем инструменты для их обработки и презентации. В компании много самодостаточных команд. В каждой команде свои сервисы, свои разработчики и аналитики. Так что у нас достаточно потоков данных самого разнообразного формата и объема. Это данные о букингах, на которые смотрит вся компания, и каждая запись проверяется чуть ли не руками, а еще — данные о билетах объемом более терабайта в сутки. Это требует разных подходов с нашей стороны. Стек: Мы используем Apache Impala на базе Apache Hadoop для хранения и обработки данных. Основной источник данных – Kafka. Для доставки и оркестрации данных мы используем самописные сервисы на Python 3 + PostgreSQL. Аналитики строят отчеты в Redash и Apache Superset. Языки программирования: Основной язык — это Python 3.8. Важно знать SQL, он нужен для Impala и PostgreSQL. У нашего сервиса есть админка, она написана на TS (React) + MobX. Иногда полезно знание С++, Scala, Go, чтобы посмотреть на исходный код используемых сервисов, как open source, так и тех, что пишут другие команды в компании. Что нужно будет делать: Основная задача группы инфраструктуры аналитики — поддерживать ее работоспособность. В это входит много разных задач: подключение новых данных; мониторинг актуальности; исследование производительности отдельных запросов и базы в целом; разработка инструментов для запуска агрегатов разных форматов и так далее; есть пара хранилищ, которые оптимизированы для каких-то специальных целей. Например для команды саппорта. Там основная задача в том, чтобы данные не расходились с основным хранилищем. Поддерживаем open source продукты, которые связаны с аналитикой; Superset и Redash для отчетов. Snowplow для сбора клиентских событий. Основной код, с которым надо работать — это репозиторий для софта, который выполняет доставку данных в кластер и последующую оркестрацию задач. Там порядка 40 тысяч строк на Python 3.8 и 3 тысячи на TypeScript (это админка). Критическая функциональность покрыта тестами, и юнит и приемочными. 80% кода покрыто тестами. Тестирование и сборка производятся на CI сервере (Jenkins). Деплой в Kubernetes. Настройкой серверов и разворачиванием баз мы не занимаемся. Это делает отдельная команда инфраструктуры. Поступающие задачи можно поделить на две группы: текучка и развитие платформы. Текучка бывает разная: Нужно подключить новые данные или изменить формат уже подключенных. Нужно помочь разобраться, почему не работает SQL-запрос или BI-система. Произошел какой-то инцидент и нужно найти корень проблемы и починить или донести до тех, кто может починить. Как правило такие штуки появляются как запросы через Slack, которые мы регистрируем в JIRA и выполняем обычно в течение одного-двух дней. Развитие платформы — это проекты от двух недель до нескольких месяцев, которые дают какие-то новые возможности: бэкапы в AWS S3 Glacier; оптимизированные агрегаты; автоматическая выгрузка результатов расчетов во внешние базы. Большая часть таких задач приходит от команды аналитики. Сейчас мы планируем переезд на более современный стек. Но мы много выделяем времени на задачи, которые уменьшают количество текучки или облегчают её выполнение. Что мы ждем от тебя: опыт работы инженером данных от 3 лет; отличное знание Python и SQL; опыт с AWS или опыт с Apache Impala. Что мы предлагаем: сильную команду и возможность влиять как на технологические, так и на продуктовые решения; возможность выбрать, где работать — удаленно или в одном из наших офисов (Пхукет, Москва или Петербург); заботу о здоровье: компенсацию индивидуальной психотерапии, медицинскую страховку для тебя и твоей семьи; поддержку твоих увлечений: компенсацию занятий спортом и изучения иностранных языков.
Адрес
Москва
Похожие вакансии
По договоренности
18.03.2026 14:08
Компания «Rubytech» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия). Полный рабочий день. Требуемые навыки: #middle, #SQL, #MySQL, #Java, ...
По договоренности
03.02.2026 13:43
Компания «МегаФон» ищет хорошего специалиста на вакансию «Data engineer». Москва (Россия). Полный рабочий день. Можно удалённо. Требуемые навыки: #lead, #Java, ...
По договоренности
30.01.2026 12:22
Компания «МегаФон» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия). Полный рабочий день. Можно удалённо. Требуемые навыки: #senior, #ApacheSpark, ...
По договоренности
29.01.2026 10:19
Компания «Т-Банк» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия), Санкт-Петербург (Россия), Новосибирск (Россия). Полный рабочий день. Можно удалённо. ...
По договоренности
24.12.2025 11:17
Компания «Coral Club» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия). Полный рабочий день. Можно удалённо. Требуемые навыки: #middle, ...
По договоренности
19.11.2025 18:12
Компания «М Тех» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия). Полный рабочий день. Требуемые навыки: #senior, #SQL, #Greenplum, ...
По договоренности
18.10.2025 05:13
Компания «CINIMEX» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия). Требуемые навыки: #middle, #ApacheSpark, #ApacheHadoop, #ETL, #Greenplum, #ApacheAirflow.
По договоренности
01.10.2025 04:31
Компания «ITFB Group» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия). Требуемые навыки: #Python, #Git, #SQL.
По договоренности
19.09.2025 05:54
Компания «АНО ЦИСМ» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия). Полный рабочий день. Требуемые навыки: #middle, #ClickHouse, #SQL, ...
По договоренности
18.09.2025 05:43
Компания «BI Consult» ищет хорошего специалиста на вакансию «Data Engineer». Санкт-Петербург (Россия). Полный рабочий день. Требуемые навыки: #senior, #SQL, #Python, ...
BI Consult
Санкт-Петербург
По договоренности
05.09.2025 05:40
Компания «Национальная Лотерея» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия). Полный рабочий день. Можно удалённо. Требуемые навыки: #middle, ...
Национальная Лотерея
Москва
По договоренности
28.08.2025 05:52
Компания «deeplay» ищет хорошего специалиста на вакансию «Data Engineer ». Санкт-Петербург (Россия). Полный рабочий день. Можно удалённо. Требуемые навыки: #middle, ...
По договоренности
25.06.2025 04:30
Компания «Bell Integrator» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия). Полный рабочий день. Требуемые навыки: #senior, #Git, #SQL, ...
По договоренности
20.06.2025 04:45
Компания «Сбер» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия). Полный рабочий день. Требуемые навыки: #senior, #SQL, #Python, #Большиеданные, ...
По договоренности
18.06.2025 05:12
Компания «Альфа-Банк» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия). Полный рабочий день. Требуемые навыки: #middle, #SQL, #Python.
По договоренности
13.06.2025 05:00
Компания «АНО ЦИСМ» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия). Полный рабочий день. Можно удалённо. Требуемые навыки: #middle, ...
По договоренности
12.06.2025 04:36
Компания «ИТ-Холдинг Т1» ищет хорошего специалиста на вакансию «Data engineer». Москва (Россия), Казань (Россия), Краснодар (Россия). Полный рабочий день. Требуемые ...
По договоренности
11.06.2025 04:52
Компания «НЛМК ИТ» ищет хорошего специалиста на вакансию «Data engineer ». Москва (Россия), Липецк (Россия). Полный рабочий день. Можно удалённо. ...
По договоренности
11.06.2025 04:51
Компания «Bell Integrator» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия), Санкт-Петербург (Россия), Рязань (Россия). Требуемые навыки: #SQL, #Python.
По договоренности
10.06.2025 05:33
Компания «AstraZeneca» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия). Требуемые навыки: #middle, #Yandex.Cloud, #SQL, #Python, #Git, #ApacheKafka, #PostgreSQL.
По договоренности
04.06.2025 05:29
Компания «СберКорус» ищет хорошего специалиста на вакансию «Data Engineer». Москва (Россия). Полный рабочий день. Требуемые навыки: #middle, #SQL, #PostgreSQL, #ETL, ...
По договоренности
11.01.2023 19:38
TimePad – самый большой в России сервис для организации событий и продажи электронных билетов. Каждый месяц мы помогаем более 200 ...
По договоренности
11.01.2023 14:19
Команда занимается разработкой внутреннего аналитического инструмента для топ-менеджмента и сотрудников, отвечающих за планирование и анализ ресурсов Банка. Команда, разрабатывающая продукт ...
По договоренности
11.01.2023 12:15
Студия Олега Чулакова — разработчик № 1 для банков по версии Рейтинга Рунета. Мы разрабатываем сервисы, сайты и мобильные приложения ...
Студия Олега Чулакова
Москва
По договоренности
11.01.2023 07:28
Мы создаём уникальные цифровые продукты в страховании, ломаем стереотипы и делаем страхование простым и понятным! Мы практикуем TDD, не боимся ...
По договоренности
10.01.2023 16:45
Что и как мы делаем? Мы создаем продвинутое аналитическое хранилище (Data Lake) по принципам Data Mesh. Все данные мы описываем ...
По договоренности
10.01.2023 13:40
CDEK - лидер экспресс-доставки среди Российских компаний. Команда BI собирает и обрабатывает данные о работе CDEK: выручка, доставка, качество сервиса, ...
По договоренности
10.01.2023 12:39
В региональный центр компетенций по пналитике ищем Data engineerchr(39)а на направления ценообразования. Предстоит: Исследование и поиск промышленных источников Разработка витрин, ...
По договоренности
10.01.2023 12:07
Привет! Мы международная IT компания Marfatech. На рынке мы выросли от стартапа по привлечению трафика до компании с международными проектами. ...
По договоренности
10.01.2023 11:07
Компания является одной из ведущих розничных сетей в России по торговле продуктами питания и не только и лидером по количеству ...