職責(zé):
負(fù)責(zé)大模型版本迭代開源benchmark評測;包括數(shù)理邏輯類、代碼類、Agent類、情感類等,開發(fā)并行評測鏈路;負(fù)責(zé)垂類場景下評測標(biāo)準(zhǔn)制定、測試集構(gòu)建、版本例行評測,形成評測報告反饋算法人員,預(yù)判潛在風(fēng)險和缺陷
任職要求:
工作5-7年;統(tǒng)招本科,有大模型評測經(jīng)驗,熟悉大模型對話、推理評測,能針對性發(fā)現(xiàn)模型短板并給出優(yōu)化建議。了解SFT/RLHF更佳。會python語言,熟悉http、并行化等,能寫機器自動評測代碼。
上班時間:10-21點 雙休
無出差需求
面試:企業(yè)微信視頻兩輪需要編碼
地址:上海復(fù)興soho A7