崗位職責:
(1)負責服務端基于Java / Python編程技術實現系統內外部數據同步、數據采集及數據分析等功能模塊的編碼工作,確保數據處理過程的代碼質量與可維護性;
(2)參與技術方案設計,與項目經理、前后端開發、AI開發協作,推動數據采集需求與系統業務邏輯的精準對接;
(3)設計并開發數據采集模塊,通過爬蟲技術抓取外部公開數據,結合 ETL 工具實現數據同步,完成數據解析、清洗、轉換及結構化入庫;
(4)遵循公司代碼規范,編寫高可復用的爬蟲與數據處理代碼,參與代碼審查,優化數據采集性能(如分布式爬蟲架構)與反爬策略(如 IP 池管理);
(5)參與數據模塊的測試、聯調及上線工作,確保內外部數據的一致性、準確性,保障系統中數據相關功能的交付質量。
任職要求:
(1)本科或以上學歷,計算機科學、軟件工程、數據科學等相關專業;
(2)5 年及以上 Java 開發經驗,3 年及以上爬蟲與數據開發復合經驗,具備爬蟲類項目經驗,具備企業級數據采集與處理的項目落地能力。有爬取過招標類網站數據經驗者優先考慮;
(3)熟悉 Spring Boot、MyBatisplus開發框架,能設計數據采集模塊與投標系統的接口集成方案;
(4)精通 MySQL/PostgreSQL 數據庫,掌握索引優化、分庫分表及數據建模,能設計爬蟲與內部數據的存儲架構;熟悉 Redis 緩存、Kafka 消息隊列,實現數據實時同步與異步處理;
(5)精通 Scrapy、HttpClient 等爬蟲框架,掌握 IP 池輪換、請求頻率控制、UA 隨機化等反爬技術;熟悉 Selenium、Puppeteer 等,能抓取動態頁面數據;熟練使用 BeautifulSoup/JSoup 等解析 HTML,通過正則表達式提取關鍵信息;了解分布式爬蟲架構(如 Scrapy-Redis),具備 TB 級情報數據采集與處理經驗;
(6)熟悉 ETL 工具(如 Kettle、DataX)或其他數據同步框架,能完成企業內部系統平臺的數據對接;熟悉數據清洗、轉換規則,能基于業務規范設計數據校驗邏輯;掌握 SQL 優化技巧,能編寫復雜查詢語句實現數據關聯分析;了解數據可視化基礎(如 ECharts 圖表開發),可配合前端展示數據采集結果;
(7)熟練使用 Git 版本控制工具,理解前后端協作模式,具備容器化部署(Docker/Kubernetes)經驗。