崗位職責:
1、負責Al Infra領域核心技術攻堅,設計語言/視覺/多模態大模型訓練及推理的技術架構和實現方案,更高效的實現模型訓練和推理;
2、結合異構硬件(如CPU/GPU/NPU)的特性,通過算子優化、異步并發、I/O優化等方式減少計算耗時,優化計算效率;
3、根據AI模型的發展趨勢(如長序列、稀疏等),提前規劃和研發分布式計算新技術和異構計算新硬件,完成高性能計算框架的設計、研發和優化;
任職要求:
1、碩士及以上學歷,計算機、通信或數學等相關專業;
2、熟悉常用AI計算框架,精通Deepspeed、Megatron等主流訓練加速框架技術細節,掌握通過算力、網絡、存儲的優化來提升訓練推理效率的技術方法;
3、熟練使用Scala/C++/Go等編程語言進行過大型分布式軟件開發,熟悉高性能網絡、高性能存儲技術;
5、具備各層次的軟件優化的經驗,包括但不限于如軟件業務優化、算法策略優化、高并發和分布式優化、各類型I0優化、存儲優化、緩存優化、CPU/GPU的指令集優化等;
4、熟悉GPU硬件架構,精通CUDA、CUDNN、NCCL等,在深度學習計算框架等領域有豐富優化經驗者優先;
6、具備卓越的戰略思維與執行能力,有較強的組織領導、溝通和協調能力;
此為外包崗位,需在客戶現場辦公