Emprego Senior Site Reliability Engineer / Kubernetes | Remoto

Senior Site Reliability Engineer / Kubernetes | Remoto

Pragmatike
Publicado há 3 horas
Full Time Informática Remoto (Global) Inglês Intermédio (2-5 anos) Horário flexível Licenciatura (1.º ciclo — nível 6 QNQ/EQF)

A Pragmatike está a recrutar um/a Senior Site Reliability Engineer / Kubernetes para reforçar a sua equipa em projetos internos na área de Cloud Computing. A função é 100% remota, com alinhamento ao fuso horário europeu CET ±2h e entrada prevista o mais rapidamente possível.

Esta oportunidade destina-se a profissionais com forte experiência em Kubernetes, infraestrutura Linux, redes, automação e fiabilidade de sistemas, num ambiente internacional, técnico e orientado para inovação.

Responsabilidades:

  • Operar e manter infraestrutura baseada em Linux, nomeadamente Debian e Ubuntu;
  • Implementar, gerir e escalar clusters Kubernetes em ambientes bare-metal, virtualizados e on-premises;
  • Gerir o ciclo de vida completo dos clusters, incluindo upgrades, node pools, networking, storage e security hardening;
  • Implementar automação para provisioning e operações com Ansible, Bash/Python e workflows GitOps;
  • Desenhar e manter arquitetura de rede, incluindo VLANs, routing L2/L3, VPNs e conectividade multi-site;
  • Criar workflows automatizados de deployment, incluindo PXE boot, Preseed e cloud-init;
  • Implementar e manter stacks de observabilidade, como Prometheus, Grafana, Loki, ELK ou Graylog;
  • Liderar atividades de incident response e escalamento na plataforma;
  • Melhorar a disponibilidade dos sistemas e reduzir latência em diferentes níveis;
  • Definir e implementar SLOs e SLIs em vários níveis de infraestrutura, incluindo rede física, hardware, virtualização, plataforma e serviços de software;
  • Otimizar pipelines de alerting e monitoring para gerar insights acionáveis;
  • Definir e manter escalas de on-call para assegurar cobertura entre fusos horários;
  • Desenvolver Standard Operating Procedures, SOPs, para operações e tarefas de manutenção repetíveis;
  • Coordenar manutenção física de Policlouds, incluindo manutenção periódica, issues de hardware e DC-Ops;
  • Gerir camadas de virtualização e orquestração, como OpenStack, Proxmox e VMware;
  • Ajudar a desenvolver e manter a arquitetura global dos produtos;
  • Planear recursos para iniciativas futuras, considerando procura e projeções de crescimento;
  • Trabalhar com equipas de desenvolvimento para melhorar a qualidade geral e otimizar a utilização de recursos;
  • Colaborar com stakeholders multidisciplinares, incluindo equipas Hivenet, Policloud e Customer Success.

Requisitos:

  • Experiência prática de nível avançado na operação de Kubernetes em ambientes de produção;
  • Fortes competências de engenharia de redes, incluindo VLANs, routing L2/L3, VPNs e conectividade multi-site;
  • Forte proficiência em administração de sistemas Linux, nomeadamente Debian e Ubuntu;
  • Compreensão sólida de fundamentos de networking e capacidade para desenhar arquiteturas de rede complexas;
  • Experiência na criação e manutenção de workflows de automação com Ansible, Bash/Python e Git;
  • Experiência com stacks de observabilidade como Prometheus, Grafana, ELK, Loki ou Graylog;
  • Experiência com tecnologias de virtualização, como OpenStack, Proxmox ou VMware;
  • Experiência com bare-metal provisioning e MAAS, Metal as a Service;
  • Forte compreensão de sistemas distribuídos e orquestração de containers;
  • Mindset orientado a processos, com capacidade para desenvolver SOPs e procedimentos operacionais de raiz;
  • Experiência em incident response, procedimentos de escalamento e rotações on-call;
  • Capacidade para trabalhar de forma autónoma num ambiente rápido e orientado por engenharia;
  • Fortes competências técnicas e alinhamento com valores de equipa;
  • Inglês fluente obrigatório.

Será valorizado:

  • Experiência com service mesh, como Istio ou Linkerd, ou implementações avançadas de CNI;
  • Conhecimentos de Cloudflare APIs, automação de DNS ou configurações de tunnels;
  • Experiência com infraestrutura GPU, preparação de nodes ou resource scheduling;
  • Familiaridade com boas práticas de segurança, incluindo RBAC, firewalls e network policies;
  • Contacto com processos de IT asset management ou license tracking;
  • Experiência em ambientes multi-timezone e coordenação com equipas distribuídas;
  • Experiência na criação de práticas de reliability e frameworks SRE em organizações em crescimento.

Oferta:

  • Trabalho 100% remoto com horário flexível;
  • Função de elevado impacto, com autonomia e ownership;
  • Integração numa equipa internacional e colaborativa de engenharia;
  • Contacto com uma stack tecnológica moderna, com forte foco em reliability e automação.
Candidatar-se