崗位職責:
1、負責網絡硬件設備及配套系統網絡的安裝調試;
2、負責網絡設備的維護、管理、故障排除等日常工作;
3、負責網絡設備及監控系統的日志分析;
4、檢查網絡安全漏洞,并能提出解決方案及時修復;
5、上級領導臨時安排的其他工作。
崗位要求:
1、精通底層基礎設施(硬件、網絡、存儲),尤其是高速網絡和 GPU;
2、深入理解分布式深度學習訓練原理和工具(PyTorch, DeepSpeed, Megatron, NCCL),特別是混合并行和優化技術(ZeRO, AMP);
3、具備強大的工程實踐能力(監控、日志、自動化運維、調試、性能調優);
4、了解目標模型(DeepSeek)的具體需求和特性;
5、具備團隊協作和解決復雜問題的能力。