softwareengineerjobszurich.ch
← Toutes les offres

Ingénieur principal d'infrastructure cloud

Langfuse

Type de contrat
Temps plein
Lieu
Zürich · Télétravail possible
Postuler
À PROPOS DE LANGFUSE Plateforme d'ingénierie LLM Open Source qui aide les équipes à créer des applications d'IA utiles via le traçage, l'évaluation et la gestion des invites (mission https://tracking.us.nylas.com/l/6d586a21a6fc4e1a8aacc7eb75882b72/0/82383757e54352130f65066e1b2fc4708aacab7897561bcb8000fe4c8a9c6a21?cache_buster=1761124921, produit https://tracking.us.nylas.com/l/6d586a21a6fc4e1a8aacc7eb75882b72/1/b9fba3a93b6ffcc0f99ecda62767a17cc437fe8fe0b16181d1c43c1391212e3d?cache_buster=1761124921). Nous faisons maintenant partie de ClickHouse. Nous construisons le "Datadog" de cette catégorie ; les capacités de modèle continuent de s'améliorer, mais la création d'applications utiles est vraiment difficile, tant dans les startups que dans les entreprises. Plus grande solution open source de cette catégorie : faisant confiance à 19 des Fortune 50, >2k clients, >26M de téléchargements de SDK par mois, >6M de pulls Docker. Nous avons rejoint ClickHouse en janvier 2026 car l'observabilité LLM est fondamentalement un problème de données et Langfuse fonctionnait déjà sur ClickHouse. Ensemble, nous pouvons accélérer le développement de produits tout en restant fidèles à l'open source et à l'hébergement auto-géré, et joindre nos forces sur la GTM et les ventes pour accélérer les revenus. Précédemment soutenu par Y Combinator, Lightspeed et General Catalyst. Nous sommes une petite équipe, lourde en ingénierie et expérimentée à Berlin et San Francisco. Nous embauchons également pour l'ingénierie dans les fuseaux horaires de l'UE et attendons une semaine par mois dans notre bureau de Berlin (comment nous travaillons https://langfuse.com/handbook/how-we-work/principles). POURQUOI L'INFRASTRUCTURE CLOUD CHEZ LANGFUSE Votre travail fera fonctionner Langfuse — partout. Langfuse traite plus d'un milliard d'événements de traçage par mois. Lorsqu'une entreprise Fortune 50 dépend de Langfuse en production, elle dépend de l'infrastructure que vous exploitez. Vous serez propriétaire de la disponibilité, des performances et de l'efficacité coûts sur l'ensemble de notre empreinte cloud — et vous vous assurerez que chaque déploiement auto-hébergé fonctionne tout aussi bien. Vous exploiterez Langfuse Cloud sur AWS ECS Fargate et ClickHouse Cloud, avec Datadog comme colonne vertébrale d'observabilité. Vous serez également propriétaire de notre infrastructure auto-hébergée publique — y compris notre charte Helm, notre configuration Docker Compose et tout ce qui se trouve entre les deux — afin que les équipes des startups aux entreprises puissent exécuter Langfuse à leurs propres conditions. Ce n'est pas un rôle de "maintenir ce qui existe". Nous nous développons rapidement, et vous serez la personne qui s'assurera que l'infrastructure grandit à l'avance de la demande — et non derrière. Langfuse fait maintenant partie de ClickHouse, ce qui signifie que l'équipe derrière la base de données au cœur de notre pile est à un canal de distance. Peu de rôles d'infrastructure vous offrent un tel accès direct aux personnes qui construisent votre dépendance la plus critique. VOUS ALLEZ VOUS DÉVELOPPER CHEZ LANGFUSE EN Possédant les opérations Langfuse Cloud : Vous exploiterez nos environnements de production sur AWS ECS Fargate et ClickHouse Cloud. Vous gérerez les déploiements, l'auto-échelonnement, la planification de capacité et l'optimisation des coûts — en vous assurant que nous restons rapides et abordables à mesure que le trafic augmente. Construisant une observabilité de classe mondiale : Vous serez propriétaire de notre configuration Datadog de bout en bout — tableaux de bord, alertes et SLO. Lorsque quelque chose se dégrade, vous vous assurerez que nous le savons avant nos clients. Vous construirez la culture de surveillance qui permet à l'ensemble de l'équipe de livrer avec confiance. Rendre l'auto-hébergement sans effort : Des milliers d'équipes exécutent Langfuse sur leur propre infrastructure. Vous serez propriétaire et évoluerez notre charte Helm, notre configuration Docker Compose et notre documentation de déploiement. Vous transformerez "ça fonctionne sur ma machine" en "ça fonctionne sur chaque machine" — d'une configuration à nœud unique à un déploiement d'entreprise multi-région. Automatiser tout : Pipelines CI/CD, infrastructure-en-tant-que-code, mise à l'échelle automatisée, déploiements sans temps d'arrêt. Vous remplacerez les processus manuels par une automatisation qui rend l'équipe plus rapide et la plate-forme plus fiable. Échelle pour ce qui vient ensuite : Nous nous développons rapidement et de nouvelles directions de produits — comme l'observabilité d'agents à longue durée de vie complexes et l'évaluation en temps réel — poussent l'infrastructure de nouvelles manières. Vous penserez à l'avance à ce qui se brise à l'échelle 10x et construirez les fondations avant que nous n'y arrivions. 10x est toujours juste un trimestre à l'avance ici chez Langfuse. Durcissant la sécurité et la conformité : À mesure que davantage d'entreprises adoptent Langfuse, vous aiderez à vous assurer que nos déploiements cloud et auto-hébergés répondent à la barre de sécurité et de conformité que les grandes organisations requièrent. CE QUE NOUS RECHERCHONS - Un ingénieur d'infrastructure ou SRE solide qui s'enthousiasme à l'idée d'exécuter des systèmes à grande échelle et de les améliorer chaque jour - Expérience dans l'exploitation de charges de travail de production sur AWS (ECS/Fargate, réseau, IAM, S3, etc.) ou sur des fournisseurs d'hyperscale comparables. - Confortable avec l'orchestration de conteneurs — Kubernetes et/ou ECS, chartes Helm, Docker - Expérience avec l'infrastructure-en-tant-que-code (Terraform, Pulumi, CloudFormation, ou similaire) - Fortes instincts de surveillance et d'observabilité — vous avez construit des tableaux de bord et des alertes qui ont réellement détecté des problèmes (expérience Datadog est un plus) - Vous vous organisez. Vous avez des opinions

Traduit automatiquement depuis l’original.

Publié aujourd'hui