【崗位名稱】
模型Infra工程師
【崗位職責(zé)】
1.建設(shè)高效、穩(wěn)定的 AI 基礎(chǔ)設(shè)施,為大規(guī)模的分布式大模型訓(xùn)練/推理提速、降本;
2.負(fù)責(zé)資源穩(wěn)定高效利用,支持混合云、異構(gòu) GPU 資源的混部和最優(yōu)編排;
3.負(fù)責(zé)大模型訓(xùn)練加速、模型量化、推理加速、模型服務(wù)化等研發(fā)。
【崗位要求】
1.碩士及以上學(xué)歷,有扎實(shí)的工程算法基礎(chǔ),精通數(shù)據(jù)結(jié)構(gòu)和常用算法,熟練掌握各種編譯、調(diào)試、性能分析工具;
2.有深厚的編程功底,熟悉 C++/ava/Python 等主流編程語言;
3.熟悉 Pytorch/Tensorflow 等機(jī)器學(xué)習(xí)框架,熟悉 Deepspeed/Megatron/ColossalAl/Ray 等分布式訓(xùn)練/推理引擎者優(yōu)先;
4.了解并行計(jì)算、CUDA、網(wǎng)絡(luò)通信、系統(tǒng)優(yōu)化、集群硬件架構(gòu)等 HPC 相關(guān)的知識(shí),有 AI 分布式系統(tǒng)研發(fā)相關(guān)經(jīng)驗(yàn)者優(yōu)先;
5.有百億量級(jí)大模型的預(yù)訓(xùn)練、微調(diào)和 RLHF 等領(lǐng)域和方向技術(shù)優(yōu)先。