崗位職責(zé):
1、負(fù)責(zé)公司數(shù)據(jù)源抓取需求,滿足公司對多源數(shù)據(jù)采集要求;
2、負(fù)責(zé)開發(fā)分布式爬蟲框架,管理分布式爬蟲服務(wù)器,開發(fā)任務(wù)調(diào)度引擎;
3、負(fù)責(zé)爬蟲核心算法的策略優(yōu)化研究,提升爬蟲抓取效率和質(zhì)量,提升網(wǎng)頁抓取的效率和質(zhì)量;
4、設(shè)計爬蟲策略和防屏蔽規(guī)則,解決封賬號、封IP、驗證碼、JS加密等難點攻克;
5、利用主流的大數(shù)據(jù)相關(guān)技術(shù),對抓取后的網(wǎng)頁數(shù)據(jù)進(jìn)行清洗、存儲等;并持續(xù)優(yōu)化平臺,以便滿足各種爬取業(yè)務(wù)需求;
6、負(fù)責(zé)RPA相關(guān)開發(fā)工作,提升業(yè)務(wù)能效;
7、負(fù)責(zé)部分AI(RAG)相關(guān)開發(fā)工作。
崗位要求:
1、有扎實的數(shù)據(jù)結(jié)構(gòu)和算法功底;
2、工作認(rèn)真細(xì)致踏實,有較強的學(xué)習(xí)能力,熟悉常用爬蟲工具;
3、熟悉linux開發(fā)環(huán)境,熟悉python等,熟悉其他開發(fā)語言優(yōu)先;
4、理解http,熟悉html, DOM, xpath,css,js,ajax;
5、有Python分布式抓取系統(tǒng)的開發(fā)、架構(gòu)經(jīng)驗,至少熟悉并使用過一種主流爬蟲架構(gòu),如Scrapy、Gocolly、Webmagic等;
6、熟悉第三方RPA軟件(弘璣、影刀、UiBot等)優(yōu)先;
7、熟悉RAG流程優(yōu)先,熟悉AI模型、RAG框架等優(yōu)先;
8、熟悉反爬策略的應(yīng)對,能夠解決封賬號、封IP、驗證碼、JS加密等問題;
9、熟悉Mysql、Redis、MongoDB等數(shù)據(jù)庫,有過數(shù)據(jù)庫調(diào)優(yōu)和海量數(shù)據(jù)存儲經(jīng)驗者優(yōu)先。