崗位工作概述:
1. 負(fù)責(zé)設(shè)計(jì)、部署、優(yōu)化及維護(hù)高效、可擴(kuò)展的AI算力IT系統(tǒng)設(shè)施,包括服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)及安全設(shè)備等;
2. 確保用戶AI研發(fā)、模型訓(xùn)練及推理任務(wù)的順利進(jìn)行;
深入?yún)⑴c從需求分析、架構(gòu)設(shè)計(jì)、資源調(diào)度、性能優(yōu)化到故障排查的全過程,為公司的AI算力業(yè)務(wù)發(fā)展提供堅(jiān)實(shí)的算力支撐。
工作經(jīng)驗(yàn):
1.
具備10年以上AI算力系統(tǒng)或高性能計(jì)算(HPC)領(lǐng)域的工作經(jīng)驗(yàn),有成功部署和優(yōu)化大規(guī)模AI計(jì)算集群的經(jīng)驗(yàn)者優(yōu)先;
2.
在大型互聯(lián)網(wǎng)公司、科研機(jī)構(gòu)或AI初創(chuàng)企業(yè)從事AI算力系統(tǒng)建設(shè)與維護(hù)的經(jīng)驗(yàn);
有主導(dǎo)或參與過至少兩個(gè)大型AI算力集群的設(shè)計(jì)、部署與優(yōu)化項(xiàng)目的優(yōu)先考慮。
教育水平要求:
1. 計(jì)算機(jī)科學(xué)、信息技術(shù)、軟件工程或相關(guān)專業(yè)本科及以上學(xué)歷;
碩士及以上學(xué)歷,或在相關(guān)領(lǐng)域有深入研究或突出貢獻(xiàn)者,將優(yōu)先考慮。
崗位技能要求:
1. 架構(gòu)設(shè)計(jì):能夠設(shè)計(jì)高可用、可擴(kuò)展的AI算力架構(gòu),包括硬件選型、網(wǎng)絡(luò)規(guī)劃、存儲(chǔ)設(shè)計(jì)等;
2. 資源調(diào)度與優(yōu)化:熟悉Kubernetes、Docker等容器化技術(shù),以及YARN等資源調(diào)度系統(tǒng),能夠優(yōu)化資源利用率,提升計(jì)算效率;
3. 性能調(diào)優(yōu):具備深入的系統(tǒng)性能調(diào)優(yōu)能力,包括CPU、GPU、內(nèi)存、網(wǎng)絡(luò)、存儲(chǔ)等各方面的優(yōu)化;
4. 自動(dòng)化運(yùn)維:熟悉Ansible、Puppet等自動(dòng)化運(yùn)維工具,能夠編寫自動(dòng)化腳本提升運(yùn)維效率;
5. 故障排查與應(yīng)急響應(yīng):能夠快速響應(yīng)系統(tǒng)故障,準(zhǔn)確排查問題根源,并制定有效的解決方案。
工作職責(zé)與任務(wù):
1.
系統(tǒng)規(guī)劃與設(shè)計(jì):根據(jù)公司業(yè)務(wù)需求,規(guī)劃并設(shè)計(jì)AI算力系統(tǒng)的整體架構(gòu),包括硬件選型、網(wǎng)絡(luò)布局、存儲(chǔ)策略等。
2.
部署與集成:負(fù)責(zé)AI算力集群的部署、配置與集成,確保系統(tǒng)穩(wěn)定運(yùn)行。
3.
性能優(yōu)化:對(duì)AI算力任務(wù)進(jìn)行性能分析,提出并實(shí)施優(yōu)化方案,提升計(jì)算效率。
4.
運(yùn)維管理:負(fù)責(zé)日常運(yùn)維工作,包括系統(tǒng)監(jiān)控、日志分析、故障排查與解決等。
5.
技術(shù)創(chuàng)新與研究:跟蹤AI算力領(lǐng)域的最新技術(shù)動(dòng)態(tài),探索并引入新技術(shù),提升系統(tǒng)競(jìng)爭力。
團(tuán)隊(duì)建設(shè)與培訓(xùn):指導(dǎo)并培養(yǎng)初級(jí)工程師,提升團(tuán)隊(duì)整體技術(shù)水平。
其他素質(zhì)要求:
1. 具備自驅(qū)力:具備工作主動(dòng)性和自我驅(qū)動(dòng)學(xué)習(xí)能力;
2.
問題解決:具備較強(qiáng)的問題分析和解決能力,能夠獨(dú)立或協(xié)助解決復(fù)雜的技術(shù)問題;
溝通能力:良好的溝通能力和團(tuán)隊(duì)合作精神,能夠與不同部門有效協(xié)作,推動(dòng)項(xiàng)目進(jìn)展。