Новосибирск, Томск, Удаленная работа, Москва, Санкт-Петербург, Нижний Новгород

Senior Site Reliability Engineer

Мы разрабатываем облачную платформу для централизованного управления кибербезопасностью, быстрого реагирования и расследования инцидентов ИБ. 

Платформа объединяет в себе ряд продуктов Позитива, включая MaxPatrol SIEM и MaxPatrol O2, а также AI/ML технологии.

йчас в поисках Senior SRE, который готов взять на себя ответственность за надёжность, масштабируемость и автоматизацию работы с распределёнными базами данных.

Нам близок  подход к эксплуатации в формате IaC, где каждая конфигурация – часть предсказуемого, тестируемого и воспроизводимого процесса. Ценим системный подход к решению задач: универсальные и переиспользуемые решения вместо разовых скриптов, документирование типовых сценариев и упрощение эксплуатации за счет стандартизации.

Стек технологий:

  • Оркестрация: Kubernetes
  • БД и стриминг: PostgreSQL, Kafka, ClickHouse, Flink, Rmq
  • IaC & CI/CD: Terraform, Flux, GitLab CI, Helm(HelmWave)
  • Мониторинг: Open Telemetry, Vector, Victoria, Grafana, Opensearch
  • Языки: Python, Go, Bash

Чем предстоит заниматься

  • Развёртывание, HA-настройка и отказоустойчивая эксплуатация критичных БД: PostgreSQL, Kafka в Kubernetes (через операторы cnpg и strimzi)
  • Проектирование и поддержка стратегий репликации, бэкапов и восстановления
  • Диагностика и решение проблем эксплуатации. Анализ логов и метрик у приложений и БД
  • Настройка и поддержка систем мониторинга для отслеживания состояния программных продуктов и БД, в перспективе железа
  • Доработка и оптимизация продуктовых helm чартов, диагностика ошибок в helm чартах
  • Участие в capacity planning
  • Участие в проектировании архитектурных решений с акцентом на устойчивость и автоматизацию

Мы ожидаем

  • Продвинутый опыт работы с Kubernetes в production-средах
  • Практический опыт эксплуатации PostgreSQL и Kafka в production: разворачивание и поддержка систем в HA-конфигурациях — как в Kubernetes, так и на VM
  • Владение подходом инфраструктура как код: Terraform+Flux+Git
  • Продвинутый опыт работы как с Helm, так и с чистыми k8s манифестами
  • Практический опыт работы с GitLab CI в контексте доставки микросервисов в kubernetes
  • Уверенное владение одним из языков программирования: Go или Python
  • Уверенные навыки работы с Linux на уровне системного администратора
  • Хорошая ориентация в сетях, работе с данными, протоколах интернета, RPC и другом

Будет плюсом

  • опыт работы с ClickHouse в production-средах

Мы предлагаем

  • Ежегодный отпуск

    28 календарных дней и 10 дополнительных оплачиваемых выходных

  • Карьерный рост

    Обучение и рост вместе с лучшими экспертами

  • Окружение

    Сильную команду профессионалов, с которыми ты будешь решать сложные интересные задачи и определять будущее кибербезопасности в мире

  • Коммьюнити

    Возможность стать частью комьюнити и проводить время с коллегами вне работы. У нас есть спортивные сборные и клубы по интересам

  • Комфорт

    Гибридный график и гибкое начало рабочего дня

  • Доверие

    Работу в аккредитованной ИТ-компании и возможность использования льгот Министерства цифрового развития

  • Забота о здоровье

    Заботу о здоровье: ДМС (стоматология, вызов врача на дом и экстренная госпитализация — с первого месяца работы), частичная компенсация занятий спортом и английским

Инструменты и стек

  • Kubernetes

  • Kafka

  • Docker