崗位職責(zé):
1. 參與分離式架構(gòu)推理引擎的研發(fā)工作,包括方案設(shè)計(jì)、編碼、測試方案設(shè)計(jì)與執(zhí)行、性能畫像等;
2. 追蹤前沿技術(shù),并進(jìn)行落地探索,包括但不限于友商方案比對、開源方案調(diào)研、閱讀論文、性能數(shù)據(jù)分析等;
3. 進(jìn)行顯存相關(guān)的優(yōu)化工作,比如KVCache壓縮、卸載等。
任職要求:
1. 本科及以上學(xué)歷,3年及以上工作經(jīng)驗(yàn),計(jì)算機(jī)科學(xué)、人工智能、大數(shù)據(jù)等相關(guān)專業(yè)優(yōu)先;
2. 具有人工智能、深度學(xué)習(xí)算法建模開發(fā)、模型訓(xùn)練推理經(jīng)驗(yàn)優(yōu)先錄取;
3. 熟悉并行策略、通信優(yōu)化、KVCache、任意一種加速器并能夠進(jìn)行性能Profiling、算子優(yōu)化、算子融合等優(yōu)先;
4. 熟悉開源推理引擎,比如vLLM、SGLang、TensorRT-LLM等、模型量化壓縮技術(shù)優(yōu)先;
5. 學(xué)習(xí)新知識能力強(qiáng),獨(dú)立發(fā)現(xiàn)解決問題能力強(qiáng),具備較強(qiáng)的工程能力且有實(shí)際工程項(xiàng)目經(jīng)驗(yàn)。