Devops engineer - remoto
Descrizione dell'offerta
DevOps engineer - Site Reliability Engineer (SRE) - REMOTO
Site Reliability Engineer (SRE) con esperienza nel supporto in produzione e forti competenze di automazione. Il candidato ideale sarà responsabile di garantire l’affidabilità, la disponibilità e le prestazioni dei sistemi di produzione, promuovendo al contempo l’automazione e l’eccellenza operativa.
Responsabilità principali
- Fornire supporto operativo quotidiano agli ambienti di produzione, garantendo elevata disponibilità e affidabilità dei servizi critici
- Sviluppare, mantenere e migliorare script e strumenti di automazione utilizzando Bash, Python e Ansible, al fine di ottimizzare le attività operative e la gestione degli incidenti
- Monitorare le prestazioni dei sistemi, identificare proattivamente le problematiche e implementare soluzioni per prevenire interruzioni del servizio
- Collaborare con i team di sviluppo, QA e infrastruttura per implementare le best practice in ambito di deployment, monitoraggio e gestione degli incidenti
- Partecipare ai turni di reperibilità (on-call) e rispondere agli incidenti di produzione, svolgendo analisi delle cause radice (root cause analysis) e supportando la risoluzione
- Gestire e migliorare le pratiche di configuration management, le pipeline CI/CD e le soluzioni di Infrastructure as Code
- Documentare i processi operativi, le procedure di troubleshooting e i flussi di automazione
Competenze ed esperienza richieste
- Esperienza comprovata in ruoli di supporto alla produzione o SRE in ambienti complessi ad alta disponibilità
- Solide competenze di automazione con padronanza di Bash, Python e Ansible
- Esperienza con strumenti di monitoraggio e alerting (ad esempio Prometheus, Grafana, Elastic Stack, Datadog)
- Solida conoscenza dell’amministrazione e del troubleshooting di sistemi Linux/Unix
- Familiarità con piattaforme cloud (ad esempio AWS) e tecnologie di containerizzazione (ad esempio Docker, Kubernetes)
- Esperienza con strumenti di configuration management e Infrastructure as Code (ad esempio Terraform, CloudFormation)
- Conoscenza dei fondamenti di networking, delle best practice di sicurezza e dei processi di gestione degli incidenti