Senior GCP DevOps con Especialización en MLOps & GenAI

Role Overview

As a Senior GCP DevOps Engineer specializing in MLOps and GenAI, you will design, automate, and manage infrastructure on Google Cloud, ensuring scalability and reliability of AI models and workflows. You will lead the deployment of Machine Learning services and optimize their performance and costs, collaborating closely with an AI team to enable efficient operations in a fully remote setup.

Perks & Benefits

This position offers a fully remote work environment with flexible hours based on project needs. Employees enjoy a variety of benefits, including medical insurance, birthday off, access to courses and certifications, and multicultural team dynamics. The company promotes career growth through meetups and events, fostering a supportive and engaging culture.

Full Job Description

Headquarters: Mexico

Descripcin GeneralBuscamos un/a Senior GCP DevOps Engineer con profundo dominio de infraestructura en Google Cloud, automatizacin, Kubernetes, Terraform y CI/CD; que adems cuente con experiencia o especializacin en MLOps y GenAI, para habilitar y operar plataformas de IA basadas en modelos de Machine Learning y LLMs.Este rol es clave para garantizar que los modelos, workflows y sistemas multiagente del equipo de IA puedan ejecutarse de forma escalable, confiable, segura y eficiente.Senior GCP DevOps Engineer (MLOps & GenAI)100% remoto | LATAM Te apasiona GCP, Kubernetes, IaC y quieres trabajar con modelos de IA/LLMs en produccin? Este rol es para ti.Buscamos a alguien que domine: GCP (IAM, VPCs, Cloud Run, Compute Engine, Pub/Sub&) Kubernetes/GKE (mejor an si has trabajado con GPU) Terraform avanzado GitLab CI/CD Observabilidad / costos / seguridadY que adems tenga experiencia o inters fuerte en: Vertex AI, MLflow Despliegue de modelos ML LLMs, RAG, workflows multiagente Sistemas de IA escalablesSers quien habilite la infraestructura que permite que la IA cobre vida en produccin. Responsabilidades PrincipalesInfraestructura & DevOps (Core del rol) Disear, automatizar y operar infraestructura en GCP (IAM, redes, VPCs, Cloud Run, Compute Engine, Pub/Sub, Cloud SQL). Implementar prcticas de Infraestructura como Cdigo usando Terraform (mdulos, state remoto, workspaces multiambiente). Construir y mantener pipelines CI/CD con GitLab, asegurando buenas prcticas de branching, versionado y despliegue. Kubernetes / GKE Administrar clsteres en GKE, incluyendo nodepools con GPU, autoscaling, seguridad, networking y monitoreo. Desplegar aplicaciones de IA/ML y servicios de inferencia en GKE o Cloud Run. MLOps Integrar y operar plataformas de Machine Learning como Vertex AI, MLflow o equivalentes. Desplegar modelos en endpoints online, batch jobs o contenedores. Gestionar experiment tracking, model registry y artefactos. GenAI & Sistemas Multiagente Consumir APIs de LLMs (GPT, Gemini, Claude, etc.). Implementar workflows con RAG, embeddings, pasos multiagente o pipelines de concurrencia. Desplegar servicios basados en LLM en GCP, optimizando rendimiento y costos. Observabilidad & Costos Configurar monitoreo y trazabilidad (Grafana, Datadog, Looker Studio). Monitorear consumo de tokens de LLMs, recursos de GPU/CPU y costos de GCP. Implementar alertas de latencia, fallas y carga. Requisitos ObligatoriosBase DevOps/Cloud (lo ms importante) +4 aos de experiencia con GCP en produccin. +3 aos con Terraform avanzado. +3 aos administrando Kubernetes/GKE, idealmente con GPU. +3 aos construyendo pipelines CI/CD. Dominio de Docker, seguridad en cloud, redes y observabilidad. Especializacin MLOps Haber colaborado con squads de datos/IA (no hace falta que sea el que entrena modelos, pero s que haya desplegado modelos o servicios de ML).Experiencia desplegando modelos ML en endpoints batch u online. Alguna experiencia con GenAI: LLMs, RAG o al menos consumo de APIs (OpenAI, Gemini, etc.).Vertex AI / MLflow / SageMaker / Azure ML (cualquiera aplicable). Conocimientos de experiment tracking y versionado de modelos. Experiencia en GenAI Uso de LLM APIs. Familiaridad con RAG o workflows multiagente. Comprensin de tokens, latencia, concurrencia y costos en inferencia. P Nice to Have Certificacin GCP (Cloud Architect, Data Engineer o ML Engineer). Experiencia con Dataflow, BigQuery o pipelines de datos. Conocimientos en NLP o frameworks como LangChain, LangGraph, LlamaIndex. Integracin a marcas globales y startups disruptivas. Trabajo remoto/Home office. En caso de requerir modalidad hbrida o presencial, sers informado desde la primera sesin. Horario ajustado a la clula de trabajo/proyecto asignado. Trabajo de lunes a viernes. Da off en tu cumpleaos. Seguro de gastos mdicos mayores (aplica para Mxico). Seguro de vida (aplica para Mxico). Equipos de trabajo multiculturales. Acceso a cursos y certificaciones. Meetups con invitados especiales del rea de IT. Eventos virtuales de integracin y grupos de inters. Clases de ingls. Oportunidades dentro de nuestras diferentes lneas de negocio. Orgullosamente certificados como Great Place to Work.

To apply: https://weworkremotely.com/remote-jobs/dacodes-senior-gcp-devops-con-especializacion-en-mlops-genai

Similar jobs

Found 6 similar jobs