Emprego
Senior Site Reliability Engineer / Kubernetes | Remoto
Pragmatike
Publicado há 3 horas
Full Time
Informática
Remoto (Global)
Inglês
Intermédio (2-5 anos)
Horário flexível
Licenciatura (1.º ciclo — nível 6 QNQ/EQF)
A Pragmatike está a recrutar um/a Senior Site Reliability Engineer / Kubernetes para reforçar a sua equipa em projetos internos na área de Cloud Computing. A função é 100% remota, com alinhamento ao fuso horário europeu CET ±2h e entrada prevista o mais rapidamente possível.
Esta oportunidade destina-se a profissionais com forte experiência em Kubernetes, infraestrutura Linux, redes, automação e fiabilidade de sistemas, num ambiente internacional, técnico e orientado para inovação.
Responsabilidades:
- Operar e manter infraestrutura baseada em Linux, nomeadamente Debian e Ubuntu;
- Implementar, gerir e escalar clusters Kubernetes em ambientes bare-metal, virtualizados e on-premises;
- Gerir o ciclo de vida completo dos clusters, incluindo upgrades, node pools, networking, storage e security hardening;
- Implementar automação para provisioning e operações com Ansible, Bash/Python e workflows GitOps;
- Desenhar e manter arquitetura de rede, incluindo VLANs, routing L2/L3, VPNs e conectividade multi-site;
- Criar workflows automatizados de deployment, incluindo PXE boot, Preseed e cloud-init;
- Implementar e manter stacks de observabilidade, como Prometheus, Grafana, Loki, ELK ou Graylog;
- Liderar atividades de incident response e escalamento na plataforma;
- Melhorar a disponibilidade dos sistemas e reduzir latência em diferentes níveis;
- Definir e implementar SLOs e SLIs em vários níveis de infraestrutura, incluindo rede física, hardware, virtualização, plataforma e serviços de software;
- Otimizar pipelines de alerting e monitoring para gerar insights acionáveis;
- Definir e manter escalas de on-call para assegurar cobertura entre fusos horários;
- Desenvolver Standard Operating Procedures, SOPs, para operações e tarefas de manutenção repetíveis;
- Coordenar manutenção física de Policlouds, incluindo manutenção periódica, issues de hardware e DC-Ops;
- Gerir camadas de virtualização e orquestração, como OpenStack, Proxmox e VMware;
- Ajudar a desenvolver e manter a arquitetura global dos produtos;
- Planear recursos para iniciativas futuras, considerando procura e projeções de crescimento;
- Trabalhar com equipas de desenvolvimento para melhorar a qualidade geral e otimizar a utilização de recursos;
- Colaborar com stakeholders multidisciplinares, incluindo equipas Hivenet, Policloud e Customer Success.
Requisitos:
- Experiência prática de nível avançado na operação de Kubernetes em ambientes de produção;
- Fortes competências de engenharia de redes, incluindo VLANs, routing L2/L3, VPNs e conectividade multi-site;
- Forte proficiência em administração de sistemas Linux, nomeadamente Debian e Ubuntu;
- Compreensão sólida de fundamentos de networking e capacidade para desenhar arquiteturas de rede complexas;
- Experiência na criação e manutenção de workflows de automação com Ansible, Bash/Python e Git;
- Experiência com stacks de observabilidade como Prometheus, Grafana, ELK, Loki ou Graylog;
- Experiência com tecnologias de virtualização, como OpenStack, Proxmox ou VMware;
- Experiência com bare-metal provisioning e MAAS, Metal as a Service;
- Forte compreensão de sistemas distribuídos e orquestração de containers;
- Mindset orientado a processos, com capacidade para desenvolver SOPs e procedimentos operacionais de raiz;
- Experiência em incident response, procedimentos de escalamento e rotações on-call;
- Capacidade para trabalhar de forma autónoma num ambiente rápido e orientado por engenharia;
- Fortes competências técnicas e alinhamento com valores de equipa;
- Inglês fluente obrigatório.
Será valorizado:
- Experiência com service mesh, como Istio ou Linkerd, ou implementações avançadas de CNI;
- Conhecimentos de Cloudflare APIs, automação de DNS ou configurações de tunnels;
- Experiência com infraestrutura GPU, preparação de nodes ou resource scheduling;
- Familiaridade com boas práticas de segurança, incluindo RBAC, firewalls e network policies;
- Contacto com processos de IT asset management ou license tracking;
- Experiência em ambientes multi-timezone e coordenação com equipas distribuídas;
- Experiência na criação de práticas de reliability e frameworks SRE em organizações em crescimento.
Oferta:
- Trabalho 100% remoto com horário flexível;
- Função de elevado impacto, com autonomia e ownership;
- Integração numa equipa internacional e colaborativa de engenharia;
- Contacto com uma stack tecnológica moderna, com forte foco em reliability e automação.
Ofertas Relacionadas
Senior DevOps Engineer | Remoto – Portugal
Expleo
•
Lisboa
Azure
Delivery Lead/Scrum Master | Remoto – Portugal
Expleo
•
Lisboa
Agile
Data Analyst | Remoto – Portugal
Expleo
•
Lisboa
Excel
Front End Engineer | Moscavide
Richemont
•
Lisboa
Agile
Scrum Master | Moscavide
Richemont
•
Lisboa, Moscavide e Portela
Agile
Tech Team Lead | Moscavide
Richemont
•
Lisboa, Moscavide e Portela
Agile