崗位職責(zé):
1. NVIDIA和AMD GPU 故障排查分析和與廠商配合解決故障
2. GPU相關(guān)故障整理和匯總
3. GPU廠商FA報(bào)告評審
4. PCIe 或者 OCP 網(wǎng)卡(包含DPU等)的故障排查分析、與廠商配合解決故障
5. 網(wǎng)卡相關(guān)故障整理和匯總
6. 網(wǎng)卡廠商FA報(bào)告評審
7. 部件Firmware管控
8. 配合其它一些C語言功能代碼實(shí)現(xiàn)
應(yīng)征要求:
1. 計(jì)算機(jī)/電子/通信等相關(guān)專業(yè)本科及以上學(xué)歷
2. 熟練掌握C語言及shell或者python
3. 至少4年以上服務(wù)器GPU測試經(jīng)驗(yàn)或者網(wǎng)卡、DPU測試經(jīng)驗(yàn)
4. 熟練掌握GPU各種測試工具使用,如Nvqual,DCGM, Fieldiag等,熟練解析測試log,定位測試異常點(diǎn)
5. 熟練掌握網(wǎng)卡/DPU各種測試和監(jiān)測工具使用,如iperf, iperf3等,熟練解析測試log,掌握TCP/IP協(xié)議,熟練使用網(wǎng)絡(luò)抓包分析和定位問題
6. 對于GPU性能和網(wǎng)卡、DPU性能等常見問題有專業(yè)的分析方法和調(diào)優(yōu)方法
7. 熟練掌握嵌入式Linux下的多任務(wù)編程及調(diào)試
8. 能夠獨(dú)立完成模塊的設(shè)計(jì),實(shí)現(xiàn)和調(diào)試
9. 熟悉外設(shè)常用的通信協(xié)議:I2C, MCTP, PCIe, NVMe
10. 熟練掌握Linux OS使用者佳