Logo de Dassault Systemes

STAGE - AI Reliability Engineer F/H

Saint-Cloud (92)

Stage

Systèmes d'informations / Télécom / Développement

Système / Réseaux / Données

Débutant

Bac +5 et plus

Description

Dassault Systèmes, l'entreprise de la 3DEXPERIENCE, est un « accélérateur de progrès humain ». Elle propose aux entreprises et aux particuliers des environnements virtuels collaboratifs qui leur permettent d'imaginer des innovations plus durables. En développant un jumeau virtuel du monde réel, grâce à la plateforme 3DEXPERIENCE et à ses applications, Dassault Systèmes donne à ses clients les moyens de repousser les limites de l'innovation, de l'apprentissage et de la production. Les 20 000 collaborateurs de Dassault Systèmes travaillent à créer de la valeur pour nos 270 000 clients de toutes tailles, dans toutes les industries, dans plus de 140 pays. Pour plus d'informations, visitez notre site www.3ds.com/fr Nous recrutons un·e AI Reliability Engineer pour un stage de 6 mois afin de renforcer notre équipe Analytics & AI agents. Outscale, marque de Dassault Systèmes est un opérateur souverain et durable de l'Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance. Nous offrons des expériences uniques grâce au savoir-faire de nos équipes passionnées, qui se reflète notamment par la création de solutions de Business Expériences, le développement de notre propre orchestrateur Cloud, TINA OS, ou encore l'obtention de la qualification SecNumCloud. Vos missions L'équipe est en charge d'une plateforme multi-agents IA déployée sur infrastructure interne (GPU / orchestration) et travaille sur l'intégration de modèles open-source ainsi que la mise en production d'agents IA utilisés dans des workflows métiers. L'enjeu principal est d'adapter les pratiques SRE / DevOps à des systèmes probabilistes (LLM, agents autonomes), afin de garantir fiabilité, robustesse et maîtrise des coûts. - Développer un agent de fiabilité, capable de : Détecter erreurs et indisponibilités d'autres agents Appliquer fallback / escalade si nécessaire Produire des métriques et logs de santé pour mesurer stabilité Versionner et permettre rollback simplifié L'artefact produit sera un agent concret, testable et réutilisable, prêt à s'intégrer dans un workflow multi-agents - Veille sur pratiques SRE / ML Ops pour systèmes probabilistes et rédaction d'un mini guide lessons learned - Expérimenter des scénarios limites : LLM indisponible, tool défaillant, contexte corrompu - Tester un moteur d'orchestration alternatif (Temporal, Kestra, Prefect) pour piloter la fiabilité Stack technique - Python, Airflow (orchestration) - Docker/K8s pour déploiement du POC - LLM open-source via un API

Profils recherchés

Votre profil - Étudiant·e en M2 en DevOps / Cloud / Ingénierie logicielle / IA / Data - Bonne maîtrise de Python - Expérience en LLM-via-api / systèmes distribués - Avoir des notions en monitoring, SRE ou ML Ops - Capacité à raisonner sur systèmes probabilistes et à expérimenter dans un cadre défini - Curieux·se, autonome, goût pour prototyper et documenter Nous rejoindre c'est aussi Intégrer une entreprise scientifique au coeur de l'innovation technologique, portée par une forte croissance depuis plus de 40 ans. Principaux avantages et bénéfices : - Environnement multiculturel - Cadre de travail convivial axé sur le bien-être et la santé - Engagement en faveur de la diversité et de l'inclusion - Politique dynamique de développement de carrière : plan de formation, mobilités internes, etc. Vous souhaitez en savoir plus ? N'hésitez pas à nous suivre sur LinkedIn et découvrez nos dernières offres et actus.