Job VC

L1 Support Engineer

Gameinspire · dou · Not specified · віддалено

Technologies

AWS Azure Confluence DevOps GCP Grafana Jira Prometheus

Description

Про проєкт
Ми, продуктова компанія, яка розширюється на глобальний ринок ігрових розваг, впроваджуємо цікаві та комплексні бізнес-рішення для iGaming індустрії. Ми розробляємо ігрову платформу, що є повноцінним рішенням з широким спектром можливостей. Наша здатність гнучко адаптуватися під потреби кожного клієнта робить нас ідеальним вибором навіть для найвибагливіших замовників.
З технічної точки зору, наша платформа складається з понад 200 різноманітних сервісів. Вже зараз ми успішно підтримуємо ігрову активність мільйонів гравців по всьому світу та забезпечуємо безперебійну роботу системи 24/7. Однак наші плани на майбутнє ще більш амбітні.
Наша команда складається з талановитих та досвідчених фахівців, яких об’єднують спільні цінності та підходи. Наразі ми вже зібрали навколо себе численних професіоналів, проте завжди вітаємо нові таланти, які поділяють нашу пристрасть до досягнень. Якщо ви також прагнете досягти високих результатів і дотримуватися високих стандартів та бажаєте бути на вістрі технічного прогресу, приєднуйтеся до нас — і разом ми подолаємо нові виклики та досягнемо більшого.
У зв’язку з активним ростом продукту ми розширюємо команду підтримки та шукаємо
On-call L1 Support Engineer
, який допоможе забезпечувати стабільну роботу сервісів 24/7.
Чим займається L1-команда
L1-команда працює з двома основними потоками:
Моніторинг та alerting.
Реагування на автоматичні сповіщення за бізнес-метриками та технічними індикаторами: падіння/деградація сервісів чи баз даних, відхилення в трафіку тощо.
L1 верифікує alerts за runbook-ами, відсікає false positives, визначає impact та severity згідно з Incident Qualification Matrix.
Клієнтські звернення.
Обробка звернень від команд B2B-клієнтів через чати та Jira Service Management. L1 приймає запит, кваліфікує проблему, за потреби відтворює сценарій і забезпечує прозору комунікацію із замовником протягом усього життєвого циклу інциденту.
Обов’язки
Реагування на інциденти:
Верифікація alerts за runbook-ами: перевірка визначених графіків, логів та traces для підтвердження інциденту
Кваліфікація інцидентів за Incident Qualification Matrix: визначення severity на основі впливу на бізнес-функції, аналіз за визначеними у runbook-ах метриками та логами
Координація Incident Response: залучення спеціалістів за потреби, комунікація зі stakeholders, ведення інциденту у Jira
Обробка клієнтських запитів: кваліфікація проблем від B2B-клієнтів, структурована комунікація, відтворення та формалізований опис проблем для передачі командам розробки/SRE
Занурення у продукт та проактивна діагностика:
Розуміння бізнес-логіки продукту достатньо глибоко, щоб якісно комунікувати з командами B2B-клієнтів та точніше оцінювати impact інциденту
Розуміння які є компоненти, як вони налаштовуються і взаємодіють, щоб мати можливість побачити аномалію, яку runbook не покриває, та правильно оцінити її важливість
Самостійна навігація по інструментах моніторингу та логування — розуміння, де шукати потрібну інформацію, без покрокової інструкції (проактивне навчання в процесі роботи)
Що ми очікуємо
Від 1 року у технічній підтримці (L1/L2), NOC або суміжній операційній ролі
Grafana / Prometheus (або аналоги) — читання дашбордів, базовий аналіз метрик
Google Cloud Logging (або аналоги) — пошук та фільтрація логів
Jira, Jira Service Management, Confluence — як робочі інструменти
Досвід роботи за runbook-ами та процедурами реагування на інциденти
Досвід комунікації із замовниками або користувачами під час інцидентів: структуровано, чітко, по суті
Здатність зберігати професійність у стресових ситуаціях
Буде плюсом:
Досвід в iGaming, онлайн-казино, betting або суміжних технологічних high-load доменах (fintech, adtech, telecom)
PagerDuty або аналогічні alerting та on-call платформи
Sentry або аналогічні error tracking інструменти
Базове розуміння хмарної інфраструктури (GCP, AWS або Azure)
Базове розуміння мікросервісної архітектури: що таке мікросервіс, взаємодія через API, message broker-и
Знання ITIL-практик або Incident Management frameworks
Що ми пропонуємо
Структуровані runbook-и та процеси — ви не залишитесь один на один з невідомою проблемою
Зрозумілий шлях розвитку: Middle → Senior з розширенням відповідальності на процеси, runbook-и, менторинг та операційні метрики. Далі — можливість переходу в DEV / QA / SRE-напрямок
Прозорий та збалансований графік on-call чергувань з ротацією в команді
Віддалена робота
Додатковий вихідний на день народження: візьміть перерву будь-якого дня місяця;
Конкурентна компенсація, що відповідає вашим навичкам;
Медичне страхування (в Україні) та медична підтримка;
20 днів оплачуваної відпустки + 15 днів неоплачуваної відпустки;
22 дні лікарняного, включаючи дні психічного здоров’я;
Подарунки та підтримка на ключові моменти життя (весілля, пологи, дитячий садок);
Обладнання, надане компанією, виходячи з ваших уподобань.