Задачи:
· Анализ источников данных для их интеграции в платформу RAG:
- Изучение атрибутного состава и модели данных;
- Поиск атрибутов – полей данных, содержащих необходимую контекстную информацию для RAG;
- Определение технического способа интеграции;
· Репликация баз данных для подключения к платформе RAG:
- Разработка пакетных (batch) и потоковых (streaming) ETL-процессов репликации данных в интеграционный слой хранения;
· Векторизация данных:
- Разработка сервисов пакетной и потоковой обработки контекстных данных для вычисления их векторного представления (embedding) и сохранения в векторном хранилище платформы RAG;
· Исследование методов повышения эффективности обработки и хранения контекстных данных для RAG.
· Эффективное взаимодействие в составе команды со специалистами по анализу данных и специалистами по развитию инфраструктуры.
Мы ожидаем:
· Высокий уровень знаний языка программирования Python – структуры данных, итераторы и декораторы, параллельное и асинхронное программирование, объектно-ориентированное и функциональное программирование;
· Отличные знания SQL – создание сложных запросов с использованием табличных выражений (CTE) и оконных функций;
· Опыт работы с векторными хранилищами данных OpenSearch, Qdrant;
· Опыт разработки сервисов пакетной и потоковой обработки данных для вычисления их векторного представления (embedding) и сохранения в векторном хранилище для обогащения больших языковых моделей (LLM) релевантными контекстными данными (RAG);
· Опыт работы в среде JupyterLab/JupyterHub;
· Опыт реализации промышленных отказоустойчивых сервисов ETL на Python для пакетной загрузки и трансформации данных под управлением Apache Airflow, Argo Workflows;
· Хорошие знания платформы Apache Spark – опыт использования библиотеки pyspark, влияние конфигурации приложения pyspark на производительность и эффективность обработки данных, отладка и анализ эффективности приложений pyspark с помощью Spark History Server;
· Опыт асинхронного программного взаимодействия с веб-сервисами по REST API с использованием библиотек – aiohttp, httpx;
· Хорошие знания и опыт использования реляционных баз данных Oracle, PostgreSQL;
· Понимание особенностей обработки и хранения аналитических данных (OLAP), понимание отличий колоночных баз данных от строковых, знание колоночных форматов хранения данных – parquet, orc;
· Хорошие знания и опыт использования хранилищ больших данных – Hadoop/HDFS, S3, форматы таблиц Hive, Iceberg;
· Soft Skills: проактивный подход к работе – способность и желание искать и предлагать методы и варианты решения задач, общий позитивный настрой и активная жизненная позиция, умение и желание работать в команде, делиться опытом с коллегами и учиться новым практикам, открытость в коммуникации трудностей, препятствующих решению задач.
Будет плюсом:
· Знание и опыт использования платформ потоковой обработки данных Apache Kafka, Apache Flink – чтение и запись потока данных Apache Kafka с помощью библиотек aiokafka, confluent-kafka, kafka-python, разработка потоковых приложений Apache Flink.
Мы предлагаем:
· Оформление официальное по ТК РФ/ИП;
· Конкурентная «белая» заработная плата (обсуждается по итогам интервью);
· Формат работы: удаленно;
· Предоставление ДМС;
· Фитнес;
· Курсы повышения квалификации на ежегодной основе (по согласованию);
· Самые инновационные, амбициозные проекты и задачи;
· Корп.мероприятия (настолки, боулинг, квесты и т.д.), подарки на НГ детям сотрудников Компании и другие мероприятия для поддержания хорошего настроения;
· Возможность публиковать свои проф. статьи на Хабр в нашем блоге с сохранением своего авторства – как повышение своего уровня экспертности в проф.среде;
· Возможность профессионального и карьерного роста.