崗位職責:
1. 負責公司平臺級核心服務的運維與團隊管理,提升業務的穩定性、可靠性與工程效率;
2. 主導應用上線評審、發布交付、配置變更、狀態監控、容量管理、故障響應等關鍵流程;
3. 參與核心服務的高可用性設計、性能優化和容量規劃,確保業務平滑擴展與高效迭代;
4. 主導線上重大問題排查、故障恢復與復盤優化,推動故障演練、應急預案與SOP建設;
5. 負責容器化環境下高可用管理,包括限流、降級、容錯、容災等方案制定與落地;
6. 推動運維流程標準化、文檔化、平臺化與自動化建設,提升整個團隊的運維交付效率與安全保障能力。技能要求:
- 本科及以上學歷,6 年以上互聯網公司運維經驗,1 年以上技術團隊管理經驗;- 熟悉微服務架構、分布式系統部署、兩地三中心、業務多活等架構模型;
- 精通 Kubernetes 生態及其組件運行原理,具備大規模生產環境下的使用、排錯和性能調優經驗;
- 熟練掌握 Python / Go / Shell 等腳本語言,能獨立開發運維工具或服務;
- 熟悉并應用過 SRE 運維體系(如 SLO/SLA、Error Budget、可觀測性、自動化響應);
- 有強系統架構思維,具備技術推進、流程優化和平臺工程化能力;
其他要求:
- 有 PostgreSQL / Doris / Kafka / Nacos 等組件運維經驗;
- 具備 Service Mesh 實戰(如 Istio)、Sidecar 模型理解;
- 有 DevOps 平臺工具自研或二次開發經驗;