Emprego Senior Site Reliability Engineer / Kubernetes | Remoto

Senior Site Reliability Engineer / Kubernetes | Remoto

Pragmatike

Publicado há 3 horas

Full Time Informática Remoto (Global) Inglês Intermédio (2-5 anos) Horário flexível Licenciatura (1.º ciclo — nível 6 QNQ/EQF)

A Pragmatike está a recrutar um/a Senior Site Reliability Engineer / Kubernetes para reforçar a sua equipa em projetos internos na área de Cloud Computing. A função é 100% remota, com alinhamento ao fuso horário europeu CET ±2h e entrada prevista o mais rapidamente possível.

Esta oportunidade destina-se a profissionais com forte experiência em Kubernetes, infraestrutura Linux, redes, automação e fiabilidade de sistemas, num ambiente internacional, técnico e orientado para inovação.

Responsabilidades:

Operar e manter infraestrutura baseada em Linux, nomeadamente Debian e Ubuntu;
Implementar, gerir e escalar clusters Kubernetes em ambientes bare-metal, virtualizados e on-premises;
Gerir o ciclo de vida completo dos clusters, incluindo upgrades, node pools, networking, storage e security hardening;
Implementar automação para provisioning e operações com Ansible, Bash/Python e workflows GitOps;
Desenhar e manter arquitetura de rede, incluindo VLANs, routing L2/L3, VPNs e conectividade multi-site;
Criar workflows automatizados de deployment, incluindo PXE boot, Preseed e cloud-init;
Implementar e manter stacks de observabilidade, como Prometheus, Grafana, Loki, ELK ou Graylog;
Liderar atividades de incident response e escalamento na plataforma;
Melhorar a disponibilidade dos sistemas e reduzir latência em diferentes níveis;
Definir e implementar SLOs e SLIs em vários níveis de infraestrutura, incluindo rede física, hardware, virtualização, plataforma e serviços de software;
Otimizar pipelines de alerting e monitoring para gerar insights acionáveis;
Definir e manter escalas de on-call para assegurar cobertura entre fusos horários;
Desenvolver Standard Operating Procedures, SOPs, para operações e tarefas de manutenção repetíveis;
Coordenar manutenção física de Policlouds, incluindo manutenção periódica, issues de hardware e DC-Ops;
Gerir camadas de virtualização e orquestração, como OpenStack, Proxmox e VMware;
Ajudar a desenvolver e manter a arquitetura global dos produtos;
Planear recursos para iniciativas futuras, considerando procura e projeções de crescimento;
Trabalhar com equipas de desenvolvimento para melhorar a qualidade geral e otimizar a utilização de recursos;
Colaborar com stakeholders multidisciplinares, incluindo equipas Hivenet, Policloud e Customer Success.

Requisitos:

Experiência prática de nível avançado na operação de Kubernetes em ambientes de produção;
Fortes competências de engenharia de redes, incluindo VLANs, routing L2/L3, VPNs e conectividade multi-site;
Forte proficiência em administração de sistemas Linux, nomeadamente Debian e Ubuntu;
Compreensão sólida de fundamentos de networking e capacidade para desenhar arquiteturas de rede complexas;
Experiência na criação e manutenção de workflows de automação com Ansible, Bash/Python e Git;
Experiência com stacks de observabilidade como Prometheus, Grafana, ELK, Loki ou Graylog;
Experiência com tecnologias de virtualização, como OpenStack, Proxmox ou VMware;
Experiência com bare-metal provisioning e MAAS, Metal as a Service;
Forte compreensão de sistemas distribuídos e orquestração de containers;
Mindset orientado a processos, com capacidade para desenvolver SOPs e procedimentos operacionais de raiz;
Experiência em incident response, procedimentos de escalamento e rotações on-call;
Capacidade para trabalhar de forma autónoma num ambiente rápido e orientado por engenharia;
Fortes competências técnicas e alinhamento com valores de equipa;
Inglês fluente obrigatório.

Será valorizado:

Experiência com service mesh, como Istio ou Linkerd, ou implementações avançadas de CNI;
Conhecimentos de Cloudflare APIs, automação de DNS ou configurações de tunnels;
Experiência com infraestrutura GPU, preparação de nodes ou resource scheduling;
Familiaridade com boas práticas de segurança, incluindo RBAC, firewalls e network policies;
Contacto com processos de IT asset management ou license tracking;
Experiência em ambientes multi-timezone e coordenação com equipas distribuídas;
Experiência na criação de práticas de reliability e frameworks SRE em organizações em crescimento.

Oferta:

Trabalho 100% remoto com horário flexível;
Função de elevado impacto, com autonomia e ownership;
Integração numa equipa internacional e colaborativa de engenharia;
Contacto com uma stack tecnológica moderna, com forte foco em reliability e automação.

Kubernetes Linux Python

Candidatar-se