22.11.2022 16:17

Senior Data Scientist CV

По договоренности

22.11.2022 16:17

Наша команда занимается задачами, связанными с интеллектуальной обработкой документов, созданием систем OCR/HCR, парсингом таблиц, работой со структурированными документами (ID, формы и т.д.), извлечением сущностей и фактов из текстовой информации. Помимо проектов с обработкой документов, мы также создаем фреймворки для типовых задач в области CV и NLP, которыми пользуются многие команды банка. Мы продолжаем расширять команду и вкладываться в развитие, ищем коллег для работы над задачими связанными с анализом таблиц и структуры документов: деварпинг, извлечение структуры таблиц, layout analysis, reading order. Сейчас в пайпланах используется более десятка различных DL моделей, обучаемых на нескольких Тб изображений и текстов. Задачи: Развитие собственного движка обработки документов OCR. Улучшение моделей детекции. Улучшение текущих и разработка новых пайплайнов E2E моделей парсинга структуры таблиц. Развитие transformer-based и graph-based подходов к анализу структуры документов (layout analysis) и восстановлению порядка чтения. Оптимизация моделей под CPU и GPU (квартизация, дистилляция). Улучшение генераторов синтетических данных. Выстраивание процесса MLOps - ClearML/MLflow, Kubeflow, DVC, Minio, Airflow, Jenkins, Grafana Обязанности: Имплементация и обучение моделей OCR, детекции текста, детекции объектов, сегментации и классификации. Чтение статей и перекладывание SOTA на пром рельсы, в том числе GCN, LayoutLM V3, Donut. Запуск распределенного обучения на GPU кластере MLSpace (Кристофари). Организация циклов дообучения на новых данных (постановка задач разметчикам, запуск crowdsource майнинга данных и т.д). Оптимизация моделей для исполнения: квантизация и дистилляция моделей. Портирование на :tensorrt: и :openvino: Релизы новых моделей в среды исполнения. Ожидаем от кандидата: Отличное знание одного из :pytorch1-0:, :tf: + numpy, sklearn, pandas Опыт разработки/обучения/внедрения одной или нескольких типов моделей: object detection, semantic segmentation, instance segmentation, OCR, text detection, text spotting и т.д. Хорошее знание классического CV и OpenCV Хорошее знание алгоритмов, python3, ООП, SOLID, git, docker Желание изучать новые подходы, модели и технологии Плюсом будет: Хороший профиль на :github: Медальки на :kaggle: Опыт в MLOps, мультимодальных моделях Условия: ипотека выгоднее для каждого сотрудника и льготные условия кредитования; бесплатная подписка СберПрайм+; скидки на продукты компаний-партнеров: Okko, Сбер Маркет, Delivery Club, Самокат, Ситимобил, Сбер Еаптека и другие; ДМС с первого дня и льготное страхование для близких; корпоративная пенсионная программа; курсы для будущих родителей, материальная поддержка и тематическое сообщество для молодых мам; детский отдых и подарки за счет Компании; обучение за счет Компании: онлайн курсы в Виртуальной школе Сбера и неограниченный доступ к библиотеке, обучение в Корпоративном университете, тренинги, митапы и возможность получить новую квалификацию; реферальная программа для сотрудников: можно пригласить в команду знакомых профессионалов и получить вознаграждение до 100 тыс. рублей; скидки на отдых в лучшем в мире курортном комплексе «Mriya Resort & SPA» в Ялте.