主要職責 / 你的職責:
作為一名算法工程師,你將在維護和增強我們的自動語音識別(ASR)系統、探索前沿語言模型算法方面發揮作用,并且可選擇為我們的視覺算法項目做出貢獻。你將與一群才華橫溢的工程師和研究人員緊密合作,推動語音和語言技術的發展極限。
職責:
傳統自動語音識別算法的維護:使用 Kaldi、Wenet、語言模型(LM)和有限狀態轉錄機(FST)等先進工具開發和維護自動語音識別算法。持續提升我們自動語音識別系統的性能和準確性。排查并解決與自動語音識別相關的技術問題。
精通大語言模型算法或多模態大語言模型算法:及時了解大語言模型(LLM)/ 多模態大語言模型(MLLM)及其應用的最新發展。實施并優化語言模型,以提升我們的產品和服務。
具備視覺算法知識(優先):理解并應用視覺算法,如手勢識別和眼動追蹤技術。為整合語音和視覺數據的多模態系統的開發做出貢獻。從事將自動語音識別與計算機視覺相結合的研究項目,以創造創新解決方案。
崗位要求 / 任職資格:
通信工程、軟件 / 計算機工程、計算機科學或同等專業本科及以上學歷。計算機科學、電氣工程或相關領域碩士學位或博士學位。有人工智能軟件開發經驗。
技術 / 專業技能:
在算法、機器學習和信號處理方面有扎實的基礎。算法開發經驗,專注于自動語音識別或相關領域。2大語言模型(LLM)/ 多模態大語言模型(MLLM)經驗(如 InternVL、通義千問視覺大模型 Qwen VL)。熟悉計算機視覺的深度神經網絡(DNN)技術,以處理圖像語義分割、目標檢測、分類,如 Yolo 目標檢測、高分辨率網絡(HRNet)、殘差網絡(ResNet)、視覺 Transformer(ViT)等。有 Kaldi、Wenet 等自動語音識別工具包的實際操作經驗。熟練掌握 Python、C++ 等編程語言,并有機器學習框架(如 TensorFlow、PyTorch)的經驗。熟練掌握 OpenCV、OpenGL 等計算機視覺庫。深入理解自動語音識別流程和組件,包括特征提取、聲學建模和語言建模。熟悉大語言模型及其訓練、部署和優化。具備出色的問題解決能力,能夠獨立工作和團隊協作。具備較強的溝通能力,能夠向非技術相關方解釋復雜的技術概念。
優先技能:
有大語言模型及與車輛相關用例的經驗。有大語言模型訓練和微調的軟件開發經驗。
個人特質:
具有創新和創造性思維。具備較強的個人組織和時間管理能力。對軟件開發充滿熱情。