Data-инженер (Альфа-Банк - АПО: AI-Ассистент помощника оператора), РФ (удаленно)

Задачи:
·        Анализ источников данных для их интеграции в платформу RAG:
-       Изучение атрибутного состава и модели данных;
-       Поиск атрибутов – полей данных, содержащих необходимую контекстную информацию для RAG;
-       Определение технического способа интеграции;
·        Репликация баз данных для подключения к платформе RAG:
-       Разработка пакетных (batch) и потоковых (streaming) ETL-процессов репликации данных в интеграционный слой хранения;
·        Векторизация данных:
-       Разработка сервисов пакетной и потоковой обработки контекстных данных для вычисления их векторного представления (embedding) и сохранения в векторном хранилище платформы RAG;
·        Исследование методов повышения эффективности обработки и хранения контекстных данных для RAG.
·        Эффективное взаимодействие в составе команды со специалистами по анализу данных и специалистами по развитию инфраструктуры.

Мы ожидаем:
·        Высокий уровень знаний языка программирования Python – структуры данных, итераторы и декораторы, параллельное и асинхронное программирование, объектно-ориентированное и функциональное программирование;
·        Отличные знания SQL – создание сложных запросов с использованием табличных выражений (CTE) и оконных функций;
·        Опыт работы с векторными хранилищами данных OpenSearch, Qdrant;
·        Опыт разработки сервисов пакетной и потоковой обработки данных для вычисления их векторного представления (embedding) и сохранения в векторном хранилище для обогащения больших языковых моделей (LLM) релевантными контекстными данными (RAG);
·        Опыт работы в среде JupyterLab/JupyterHub;
·        Опыт реализации промышленных отказоустойчивых сервисов ETL на Python для пакетной загрузки и трансформации данных под управлением Apache Airflow, Argo Workflows;
·        Хорошие знания платформы Apache Spark – опыт использования библиотеки pyspark, влияние конфигурации приложения pyspark на производительность и эффективность обработки данных, отладка и анализ эффективности приложений pyspark с помощью Spark History Server;
·        Опыт асинхронного программного взаимодействия с веб-сервисами по REST API с использованием библиотек – aiohttp, httpx;
·        Хорошие знания и опыт использования реляционных баз данных Oracle, PostgreSQL;
·        Понимание особенностей обработки и хранения аналитических данных (OLAP), понимание отличий колоночных баз данных от строковых, знание колоночных форматов хранения данных – parquet, orc;
·        Хорошие знания и опыт использования хранилищ больших данных – Hadoop/HDFS, S3, форматы таблиц Hive, Iceberg;
·        Soft Skills: проактивный подход к работе – способность и желание искать и предлагать методы и варианты решения задач, общий позитивный настрой и активная жизненная позиция, умение и желание работать в команде, делиться опытом с коллегами и учиться новым практикам, открытость в коммуникации трудностей, препятствующих решению задач.

Будет плюсом:
·        Знание и опыт использования платформ потоковой обработки данных Apache Kafka, Apache Flink – чтение и запись потока данных Apache Kafka с помощью библиотек aiokafka, confluent-kafka, kafka-python, разработка потоковых приложений Apache Flink.

Мы предлагаем:
·        Оформление официальное по ТК РФ/ИП;
·        Конкурентная «белая» заработная плата (обсуждается по итогам интервью);
·        Формат работы: удаленно;
·        Предоставление ДМС;
·        Фитнес;
·        Курсы повышения квалификации на ежегодной основе (по согласованию);
·        Самые инновационные, амбициозные проекты и задачи;
·        Корп.мероприятия (настолки, боулинг, квесты и т.д.), подарки на НГ детям сотрудников Компании и другие мероприятия для поддержания хорошего настроения;
·        Возможность публиковать свои проф. статьи на Хабр в нашем блоге с сохранением своего авторства – как повышение своего уровня экспертности в проф.среде;
·        Возможность профессионального и карьерного роста.
назад к списку вакансий
Не нашли подходящую вакансию?
Отправьте нам резюме, мы сохраним его в базе и напишем вам, когда появится актуальная вакансия!