職位概要:
負(fù)責(zé)設(shè)計并實現(xiàn)爬蟲框架、規(guī)范及監(jiān)控體系,對目標(biāo)網(wǎng)站內(nèi)容及附件數(shù)據(jù)進(jìn)行采集。對采集數(shù)據(jù)和文檔進(jìn)行大模型提取的前處理以及后處理,確保數(shù)據(jù)入庫的質(zhì)量和效率。
崗位職責(zé):
1.數(shù)據(jù)采集系統(tǒng)開發(fā)與維護(hù):
(1)開發(fā)維護(hù)目標(biāo)網(wǎng)站數(shù)據(jù)采集程序和框架(如強(qiáng)化版Scrapy),解決登錄驗證、令牌加密、IP/頻率限制、驗證碼等復(fù)雜反爬挑戰(zhàn);
(2)建設(shè)和維護(hù)統(tǒng)一采集任務(wù)管理監(jiān)控平臺(調(diào)度、監(jiān)控、報警、日志、自動補(bǔ)漏);
2.數(shù)據(jù)預(yù)處理與后處理:
(1)對原始數(shù)據(jù)和文檔進(jìn)行預(yù)處理,如自動化分類、格式轉(zhuǎn)換、糾錯等,滿足大模型輸入要求;
(2)對大模型輸出數(shù)據(jù)使用算法或模型進(jìn)行后處理,包括自動化校驗與規(guī)范化;
3.數(shù)據(jù)入庫和集成協(xié)作:
(1)與后端團(tuán)隊協(xié)作,設(shè)計和實現(xiàn)數(shù)據(jù)入庫、任務(wù)調(diào)度和推送
任職資格:
1、本科以上學(xué)歷,計算機(jī)、數(shù)學(xué)、數(shù)據(jù)科學(xué)、統(tǒng)計學(xué)相關(guān)專業(yè)優(yōu)先。
2、5年以上工作經(jīng)驗,3年以上Python開發(fā)和數(shù)據(jù)處理經(jīng)驗,擅長數(shù)據(jù)采集(爬蟲),熟悉大模型
技術(shù)核心:
1、精通Python 及生態(tài),熟悉 pandas, numpy 等數(shù)據(jù)處理框架.
2、熟悉 Scrapy框架、Requests、BeautifulSoup/lxml
3、熟悉 MySQL/PostgreSQL、MongoDB、Redis 的操作、基礎(chǔ)設(shè)計與SQL查詢
4、熟悉Git的使用
5、熟悉Selenium、Playwright 或 Puppeteer等
6、(加分項)了解 rabbitmq, redis, celery 等分布式任務(wù)調(diào)度框架
7、(加分項)了解 python async 或多進(jìn)程多線程高性能開發(fā)