12.10.2022 15:52
NLP engineer (SberDevices)
12.10.2022 15:52
Наша команда занимается задачами, связанными с интеллектуальной обработкой документов, созданием систем извлечения информации из текста документов (NER, QA, MRC) и структурных элементов, например таблиц.Помимо проектов с обработкой документов, мы также создаем фреймворки для типовых задач в области CV и NLP, которыми пользуются многие команды банка. У нас открывается новое направление по созданию мультимодальных (картинка+текст) и генеративных NLP моделей для извлечения информации, которые можно использовать с минимальным размером обучающего датасета. Задачи: Развитие собственного фреймворка для NLP и NER задач - AutoNER Research Meta-learning, Few-shot NER, Active Learning, MRC и другие модные способы обучения на маленьких датасетах Разработка AutoML сервиса на основе AutoNER для подбора процесса обучения на основе данных Обязанности: Имплементация и обучение моделей NLP: классификации, NER, QA, RE и суммаризация. Чтение статей и перекладывание SOTA на пром рельсы Запуск распределенного обучения на GPU кластере MLSpace (Кристофари) Организация циклов дообучения на новых данных (постановка задач разметчикам, запуск crowdsource майнинга данных и т.д) Оптимизация моделей для исполнения: квантизация, прунинг и дистилляция моделей. Портирование на tensorrt и openvino Релизы новых моделей и фреимворков в среды исполнения Ожидаем от кандидата: Отличное знание одного из pytorch1-0, tf + numpy, sklearn, pandas Опыт разработки/обучения/внедрения одной или нескольких типов моделей: Text classification, NER, QA Хорошее знание классического и нейросетевого NLP Хорошее знание алгоритмов, python3, ООП, SOLID, git, docker Желание изучать новые подходы, модели и технологии Плюсом будет: Хороший профиль на github Медальки на kaggle Участие в open-source проектах Наши недавние выступления: https://www.youtube.com/watch?v=B4qZCE3llKk&t=483s
Адрес
Москва
Похожие вакансии
По договоренности
12.10.2022 15:52
Наша команда занимается задачами, связанными с интеллектуальной обработкой документов, созданием систем извлечения информации из текста документов (NER, QA, MRC) и ...