職位描述:
1.負責大模型預訓練數據的清洗、去噪與結構化處理,構建高質量語料庫,支持模型訓練需求。
2.設計并實現基于Python的高效數據處理Pipeline,優化數據預處理流程,提升數據質量。
3.擅長對接數據采集(上游)與模型訓練(下游),制定數據規范、質量監控及閉環優化策略,確保數據-模型高效協同。
核心技能要求:
1.編程能力
a. 熟練掌握Python語言,熟練使用正則表達式,掌握面向對象編程及類的繼承等,有html,json等數據處理經驗。
b. 熟練掌握Linux,能夠自主進行conda環境配置與依賴管理,擅長使用grep/awk/sed等命令進行文本處理。
c. 具備NLP實戰經驗,熟悉中文分詞技術,掌握文本分類模型訓練流程及調優方法,有實際項目經驗
2.加分項
a. 熟悉lxml,BeautifulSoup等技術,有一定的爬蟲經驗。
b. 熟悉DeepSeek、通義千問等國產大模型的選型、量化、推理加速及ollama部署,具備Prompt工程和RAG優化等垂直領域適配經驗。
c. 熟練部署并優化開源工具,掌握容器化封裝、性能調優及生產級落地能力,確保高效穩定服務于業務場景。
d. 有spark分布式和并發數據處理經驗;
任職資格:
1.本科及以上學歷(研究生優先),計算機、數據科學、人工智能相關專業。
2.1年以上數據清洗/處理經驗,有LLM或NLP項目經驗者優先。
3.具備良好的數據敏感度,能獨立解決復雜數據問題。
4.強烈的責任心與團隊協作能力,適應快節奏技術迭代。