🏛️ London's Premier Job Portal
Objectif du poste
Suivi de la disponibilité, la performance et la résilience des plateformes IA / Data / LLM déployées 100 % sur Kubernetes. Vous pilotez le RUN (opérations quotidiennes, incidents, évolutions mineures) d’une équipe offshore de 3 personnes, garantissant une prise en charge fluide des incidents, la mise en œuvre des correctifs et l’optimisation continue des ressources. Vous assurez également la coordination entre les équipes produit, les équipes d’infrastructure et les fournisseurs afin d’aligner les exigences métier avec les contraintes techniques.
2. Contexte
Équipe : 3 ingénieurs (DevOps/Infra / Data) basés offshore, travail majoritairement asynchrone.
Portefeuille : 3 produits majeurs – plateforme d’inférence LLM, pipeline de data‑science, service de mise à disposition de modèles IA.
Environnement technique : Kubernetes (cluster(s) on‑prem & cloud hybride), Helm, Argo CD, CI/CD ...