工作單位:用電公司
崗位職責:
1、負責收集公司各產品線相關的數據,并進行清洗、轉換和加載操作,確保數據的質量和可用性。
2、負責構建高質量、領域適配的指令數據對,并通過清洗、增強、評估確保數據在語義一致性、多樣性和安全性上滿足微調需求。
3、負責將多源異構數據轉化為結構化知識,并通過高效存儲與檢索系統支撐大模型的知識增強與應用。
崗位要求:
1、本科及以上學歷(計算機、電氣工程、數學、人工智能等相關專業),具有良好的溝通協調能力、邏輯思維能力和學習能力;
2、3年以上數據開發經驗或者1年以上大模型數據工程相關經驗,有電力領域數據治理? 經驗者優先;精通Java、Python(Pandas/Numpy)、SQL;
3、熟悉以下至少一項技術,1)精通數據清洗、ETL流程?,處理過TB級數據?,2)熟悉數據質量評估?(重復率、信息密度、毒性檢測),熟悉數據增強技術;3)有結構化知識轉化經驗,熟悉向量數據庫 或圖數據庫。
4、開發過自動化數據清洗工具或數據質量監控系統?,熟悉多模態數據處理優先