담당업무
? 서비스 장애 대응 및 관리 (장애 발생 시 개발팀 공동 대응 및 재발 방지 도출) ? 모니터링 서비스 운영 및 개발 (거래소 서비스의 모니터링 플랫폼 운영 · 개발, 서비스 관측, 이상징후 탐지 설계 및 개발) ? 장애 프로세스 · 훈련 · 표준화 업무 (SLI · SLO · SLA 관리, 장애 매뉴얼 관리) ? On Call 프로세스 및 대비 훈련 업무 ? 서비스 아키텍쳐 분석 및 개선안 제안 ? 공통 플랫폼 서비스의 운영(Kafka, Gateway, ELK, Grafana, Prometheus 등)
자격요건
? Observability (메트릭/로그/트레이싱)에 대한 기본 지식과 경험이 있는 분 ? 서비스 모니터링(APM), 로그, 알람, 추적 도구(Prometheus, Grafana, Loki 등)에 대한 사용 경험이 있으신 분 ? 오픈소스 소프트웨어 및 도구를 적극적으로 활용하시는 분 ? AWS Public Cloud 환경 서비스 운영 경험이 있으신 분 ? 원활한 커뮤니케이션 능력이 있으신 분 ? SRE 문화에 대한 이해가 있으신 분
우대사항
? SRE 직무 경험을 보유하신 분 ? Java/Spring/JPA 관련 개발 경험 과 문제 해결 능력을 보유하신 분 ? React 개발이 가능하신 분 ? MSA, Kubernetes, Container 등 서비스 분산 아키텍쳐에 대한 이해가 있으신 분 ? 대용량 서비스 운영 경험이 있으신 분 ? 문제를 정의하고 해결 방안을 도출 하는 것을 좋아하는 분 ? 개선을 위하여 논리적으로 사고 하는 것을 좋아하는 분 ? 공개와 공유를 좋아하고 적극적인 태도를 가지신 분 ? 새로운 것에 도전하고 실패를 두려워 하지 않는 분
|