25.11.2022 15:58

Team Lead NLP Engineer

По договоренности

25.11.2022 15:58

Наша NLP команда занимается задачами, связанными с интеллектуальной обработкой документов, созданием систем извлечения информации из текста документов (NER, QA, MRC) а также их классификацией.Главной задачей для нас является создание No-code (AutoML) инструментов, которые позволят бизнесу быстро создавать необходимые сервисы по извлечению информации из неструктурированного контента в режиме self-service.Для решения этих и других задач наша команда активно проводит RnD в области few- и zero-shot а также мультимодальных подходов (Layout-LM like), в частности сейчас собираем RusDocVQA датасет (аналог), чтобы фундаментально изменить подход к извлечению информации из любого документа.В нашем управлении мы стараемся сделать замкнутый цикл MLOps (от разметки до прома) - команда разработчиков помогает с инструментами разметки, верификации и дообучения моделей, а команда CV создает собственный нейросетевой OCR, который распознает практически любую информацию (от рукописки до таблиц) и уже является одним из лучших на рынке для русского языка (SberOCR).Мы ждем заинтересованных в NLP коллег, которым интересно не только RnD, но и создание E2E систем которые могут постоянно дообучаться и повышать свое качество для целевых бизнес задач. Задачи: Руководство командой ML-Engineer’ов (до 7 человек Развитие собственного фреймворка для NLP и NER задач - AutoNER Research Zero- и Few-shot NER, Active Learning, MRC и другие модные способы обучения и дообучения на маленьких датасетах Разработка AutoML сервиса на основе AutoNER для подбора процесса обучения на основе данных Предобучение мультимодальных языков моделей на русском Организация и автоматизация процесса разметки (от поиска данных до првоерки качества за crowdsource разметкой) Релизы новых моделей в среды исполнения. Наши ожидания: Отличное знание одного PyTorch, Numpy, Sklearn, Pandas Опыт разработки/обучения/внедрения одной или нескольких типов моделей: Text classification, NER, QA Хорошее знание классического и нейросетевого NLP Хорошее знание алгоритмов и структур данных Python3, ООП, SOLID, MLOps: Git, Docker, MLFlow/DVC/ClearML, Airflow Желание изучать новые подходы, модели и технологии Плюсом будет: Хороший профиль на Kaggle Медальки на Участие в open-source проектах Опыт оптимизации и ускорения моделей для прода (прунинг, квантование, ONNX/TensorRT) Мы готовы предложить: · ипотека выгоднее для каждого сотрудника и льготные условия кредитования; · бесплатная подписка СберПрайм+; · скидки на продукты компаний-партнеров: Okko, Сбер Маркет, Delivery Club, Самокат, Ситимобил, Сбер Еаптека и другие; · ДМС с первого дня и льготное страхование для близких; · корпоративная пенсионная программа; · курсы для будущих родителей, материальная поддержка и тематическое сообщество для молодых мам; · детский отдых и подарки за счет Компании; · обучение за счет Компании: онлайн курсы в Виртуальной школе Сбера и неограниченный доступ к библиотеке, обучение в Корпоративном университете, тренинги, митапы и возможность получить новую квалификацию; · реферальная программа для сотрудников: можно пригласить в команду знакомых профессионалов и получить вознаграждение до 100 тыс. рублей; · скидки на отдых в лучшем в мире курортном комплексе «Mriya Resort & SPA» в Ялте.