职责
1、Kubernetes 集群支持与维护
负责辅助对用于视觉识别系统的 Kubernetes 集群的安装、升级、扩容和日常维护,确保集群环境高可用且稳定。
辅助对集群和应用进行持续监控,及时发现和解决故障或性能瓶颈。
2、事故响应与故障排查
现场处理调试相关问题。
进行故障分析,提出并实施解决方案。
3、可观测性与监控
辅助进行部署并维护监控和日志系统(如 Prometheus、Grafana、Elastic Stack、Datadog 等),确保对关键指标的可见性。
根据报警数据调整系统阈值或配置,以预防并快速响应潜在问题。
4、故障排查与根因分析
负责生产环境下的故障响应与处理,进行原因分析并提出解决方案。
总结运维经验并推动改进,减少重复性问题的发生。
5、安全合规与实践
实施并维护 Kubernetes 环境中的安全策略,例如 RBAC、网络策略、密钥与证书管理等。
及时修复漏洞,遵循公司或行业标准的合规要求。
6、文档与团队协作
编写并维护相关文档,如运维手册、故障应急预案、SOP 等。
向团队分享实践和经验,开展内部培训,提升整体运维及开发协作效率。
学历与经验
计算机科学、软件工程或相关专业本科及以上学历(或具备同等工作经验)。
在 SRE、DevOps 或系统运维领域的实际工作经验,熟悉 Kubernetes 及相关生态者优先。
技术能力
了解 Kubernetes 核心概念(Pods、Deployments、Services、Ingress、ConfigMaps、Secrets 等)以及容器化技术(Docker 等)。
熟悉基础设施即代码(IaC)工具(Terraform、Ansible、Helm 等)。
监控与故障排查
了解 Prometheus、Grafana、Elastic Stack 或其他监控与日志系统的使用和配置。
能够独立应对并解决生产环境下的高优先级故障,开展根因分析并提出系统改进方案。
软技能
良好的沟通与团队协作能力,能与开发、测试、产品等多方紧密配合。
学习能力强,对新技术和工具保持高度关注,并能快速上手。
注重可持续改进,愿意推动并落实团队及流程优化。
加分项
获得 Kubernetes 相关认证(CKA、CKAD、CKS)。
有云平台(AWS、Azure、GCP 等)或混合云环境管理经验。
有构建高可用架构及多集群环境的项目实践经历。