Mitglied des technischen Stabs, Infrastruktur-Ingenieur

Odyssey

Anstellung: Vollzeit
Ort: Zürich

WER WIR SIND Odyssey https://odyssey.ml ist ein KI-Labor, das bahnbrechende allgemeine Weltmodelle entwickelt: kausale, multimodale Systeme, die lernen, die Welt über lange Zeiträume vorherzusagen und mit ihr zu interagieren. Diese grundlegende Technologie verspricht, die Robotik, Wissenschaft, Gesundheitsversorgung, Bildung, Gaming, Verteidigung und darüber hinaus zu revolutionieren. Die Gründer von Odyssey haben zuvor die komplexeste Anwendung von physikalischer KI entwickelt: selbstfahrende Autos. Sie haben nun ein weltklasse-Forschungsteam aus DeepMind, Tesla, Waymo, Meta, Apple und Wayve zusammengebracht, das bedeutende Beiträge zu Sprachmodellen (DeepMind Gemini), Video-Modellen (DeepMind Veo), Weltmodellen (Wayve GAIA) und autonomen Systemen (Tesla FSD) geleistet hat. Odyssey hat erhebliches Venture-Kapital von GV, Amazon, AMD, EQT, NVIDIA, Natural Capital, In-Q-Tel, Elad Gil, Jeff Dean, Guillermo Rauch, Garry Tan, Kyle Vogt und Forschern von OpenAI, DeepMind, MSL, Recursive und Thinking Machines erhalten. WAS WIR SUCHEN Wir suchen nach einem Ingenieur, der daran aufbaut, die Motoren zu bauen, die bahnbrechende Forschung und Produkte möglich machen. Sie denken in Systemen, lieben die Leistung und erhalten Energie daraus, theoretische Engpässe in eine wunderschöne, effiziente Realität umzuwandeln. Sie sind begeistert, Infrastruktur nicht nur für die Skalierbarkeit, sondern auch für die Geschwindigkeit, Kreativität und Entdeckung zu entwerfen und zu unterstützen. Sie möchten den Compute-Substrat aufbauen, der es Odyssey ermöglicht, Weltmodelle in Echtzeit vorzustellen, zu handeln und zu interagieren. WAS SIE TUN WERDEN - Entwicklung und Betrieb unserer Plattform für modellbasierte Inferenz mit geringer Latenz, um eine hohe Verfügbarkeit, Skalierbarkeit und effiziente Ressourcennutzung für Odyssey-Weltmodelle sicherzustellen. - Ingenieur und Skalierung unserer Kern-Datenverarbeitungsinfrastruktur (z. B. Flyte, Ray mit k8s), um Petabyte-Datensätze zu verarbeiten. - Entwurf, Aufbau und Wartung unserer großen, GPU-basierten Trainingscluster für Deep Learning, mit Fokus auf Benutzerfreundlichkeit, hoher Durchsatz und Zuverlässigkeit. - Automatisierung der Infrastruktur-Bereitstellung, -Konfiguration, -Überwachung und -Alarmierung unter Verwendung von Infrastructure-as-Code-Prinzipien (IaC). - Leistungsoptimierung, Kosteneffizienz und Zuverlässigkeitsverbesserungen über den gesamten Stack hinweg. - Enge Zusammenarbeit mit Forschern und Produktentwicklern, um ihre Anforderungen zu verstehen, ihre Workflows zu optimieren und die Plattform-Benutzerfreundlichkeit zu verbessern. WER SIE SIND - Motiviert durch den Aufbau für die Grenze: Sie möchten die Compute- und Infrastruktur-Basis eines Labors formen, das neu definiert, wie Menschen Medien erstellen und interagieren. - Starke Programmierkenntnisse (z. B. Python, Go oder ähnlich) und ein solides Verständnis von Software-Engineering-Best-Practices. - Tiefe, praktische Erfahrung mit Containerisierung (z. B. Docker), Container-Orchestrierung (Kubernetes) und Infrastructure-as-Code (Terraform). - Bewährte Erfahrung bei der Erstellung und Verwaltung großer, verteilter Systeme mit GPU-Rechenlasten (z. B. Compute-Plattformen, Daten-Pipelines oder hochverfügbare Dienste). - Erfahrung im Entwurf von Infrastrukturen für ML-Workloads, bei denen Leistung, Parallelität und Datenbewegung kritisch sind. - Eine kooperative Denkweise und exzellente Kommunikationsfähigkeiten, mit einer Leidenschaft für die Erstellung von entwicklerfreundlichen Plattformen.

Automatisch aus dem Original übersetzt.

Ausgeschrieben heute

Diese Stelle erscheint auch auf