崗位職責
1、系統穩定性保障:負責保障公司系統、應用和服務的高可用性、可靠性和性能。設計、實施和維護監控系統,及時發現并解決潛在問題。
2、故障排除與問題解決:快速響應和解決生產環境中的故障,確保系統正常運行。
3、自動化運維:開發和維護自動化工具,提高系統部署、配置和監控的效率。
4、容量規劃與性能優化:分析系統資源使用情況,進行容量規劃,確保系統能夠滿足業務增長需求。
5、安全性保障:與安全團隊合作,確保系統和服務的安全性,及時修復潛在的安全漏洞。
3、能夠深入了解監控發現、故障應急、風險治理等一個或多個技術領域,并對相關的技術領域,并將相關能力平臺化擴展與多場景復制,解決實際穩定性場景中面臨的問題,提升用戶體驗。
崗位要求
1、本科及以上學歷,計算機科學、信息技術或相關專業背景。
2、5年以上系統運維、性能優化、故障排查等相關經驗。
3、熟練使用自動化運維工具,具備Shell、Python等腳本編程經驗。
4、深入理解計算、存儲、網絡、安全等技術。
5、深入了解云計算、容器化技術(Docker、Kubernetes)。
6、熟悉 Prometheus、Grafana 等監控工具,具備可觀測性系統搭建和維護經驗。
7、熟悉 ELK/EFK 等日志系統,具備日志收集、分析和查詢的實戰經驗。
8、熟悉常用的運維工具和技術,例如 Ansible、Jenkins、Git 等。
9、具備強大的故障排除和問題解決能力,能夠在高壓環境下迅速應對。
10、有大型分布式系統的設計和維護經驗者優先。
11、對新技術有強烈的學習興趣,保持對行業最新趨勢的關注。