崗位職責:
1、負責設計、開發和維護分布式爬蟲系統,提升爬蟲效率并提高爬蟲穩定性;2、維護并對現有爬蟲程序進行性能調優,提升爬蟲效率;
3、根據業務需求,抓取多平臺網頁、小程序等數據,并進行簡單的數據處理及存儲;
4、設計爬蟲策略和防屏蔽規則,解決反爬問題,提升數據抓取效率和質量;
5、對抓取的數據進行深度提取和挖掘,為業務提供數據支持;
6、參與數據層建設,解決技術疑難問題,如復雜驗證碼破解、動態網頁抓取等。
崗位要求:
教育水平:本科及以上;專業:計算機相關;從事相關行業3年以上經驗者優先。
專業能力要求:
1、精通Python語言,熟悉HTML、CSS、JavaScript、XPath、Ajax、正則表達式等技術;
2、熟悉網頁、小程序、APP抓取原理及技術,熟悉常用的爬蟲網絡框架及組件;
3、熟悉MySQL、MongoDB、Redis等數據庫,有數據清洗、存儲經驗;
4、熟悉反爬機制,能夠解決賬號限制、IP限制、驗證碼等問題;
5、熟悉分布式爬蟲架構,具有搭建分布式爬蟲系統的能力;
6、具備JavaScript逆向能力,驗證碼破解能力;
7、熟悉Linux系統,有數據挖掘、機器學習、自然語言處理(NLP)技術背景者優先;
8、具有帆軟平臺數據爬取經驗優先;
9、了解SM2、SM4等國密算法優先;
10、具備良好的團隊合作精神、溝通能力和問題解決能力。