一、主要職責
1.為Scilit數據庫進行數據倉庫的設計、開發、維護工作,推動數據工程技術棧革新,整合MDPI公司級數倉體系,構建豐富穩定的數據資產,推動Scilit的數據產品化;
2.協同相關方,將產品/數據分析/算法需求轉化為數據工程需求,構建數據Pipeline和ETL任務,增進相關合作方的數據使用便利;
3.建立和提高數據模型的準確性、易用性、靈活性、可擴展性,提升查詢效率,為可視化報表開發、數據分析、工程項目和算法開發等下游數據應用提供良好的數據條件;
4.承擔大規模復雜指標的快速計算和維護任務,根據業務和數據分析需求,開發、倉儲和維護分析表(寬表),優化其查詢效率;
5.收集、清洗、整理Scilit數據,提升Scilit數據質量、數據可用性和數據效率,使得數據準確、一致、完整、有效、及時。搭建數據質量校驗、報警、自動整理機制;
6.建立數據字典,將常用維度和指標的技術口徑文檔化。
二、職位要求
1.熟練運用書面和口語英語交流數倉技術,可以勝任同國際化團隊協同工作;
2.計算機、信息技術、信息管理、數據管理、數據科學等相關專業本科及以上學歷;
3.熟練使用數據工程工具,例如:
? SQL類工具,如MySQl和PostgreSQL等
? Python數據類工具:如pandas, polars, DuckDB, PyArrow, Great Expectation等
? Data Lake相關工具:Delta Like, Parquet, Amazon S3, Apache Iceberg等
? Airflow等數據調度工具
4.具備較好的維度建模方法論,獨立負責過數倉架構設計和優化,熟練ETL、數倉分層、性能調優,了解MySQL數據庫模型和數據結構;
5.熟悉一門或多門面向對象的編程語言:Python/Java/Scala/C++;
6.熟悉從數據生產到數據消費的全鏈路,具有將技術和優秀的業務理解相結合的能力,發掘機會、解決問題;
7.兩年以上對口行業經驗,優秀者工作年限可適當放寬;
8.邏輯清晰嚴謹,對數據敏感,跨團隊協作能力、溝通能力強。
加分項:
? 熟悉以下技術:
* PHP Symfony
* 元數據管理,如DataHub
* 圖數據庫和圖數據分析
* 其它:Apache Solr, Shell, Git
* Streamlit
* Docker
? 有學術出版、文獻計量學和科學計量學、作者消歧等相關知識、技能和經驗;
? 了解數據分析/機器學習/NLP,或有將數據分析/算法和業務洞察能力結合的經驗。
三、薪酬福利
1. 薪酬待遇:19K-35K;
2. 基礎福利:六險一金,帶薪年假,年度體檢,節日福利,活動經費,豐富茶歇,營養晚餐等;
3. 進階福利:父母福利,子女福利,團隊獎勵,培訓津貼,崗位津貼;
4. 職業發展:導師培養,技能培訓,管理培訓。