職位描述
該職位還未進行加V認證,請仔細了解后再進行投遞!
崗位職責
- 負責生命科學行業AI大模型和應用場景下的數據工程,構建數據管道和數據管理體系
- 負責從原始數據到數據服務的全流程,包括結構化和非結構化數據,建設數據管道
- 分析數據檢索策略,確定數據源和抓取策略
- 采集,抓取,清洗,去重,融合,質量評估和數據服務,為LLM提供RAG數據服務,構建微調和SFT數據集
- 管理數據有效性和質量,負責數據的標注和驗證
- 管理和維護數據平臺、數據管道,為前端應用和模型提供優質的數據支持
崗位要求
- 信息管理、計算機、數學、生物信息、化學、藥學相關專業
- 熟練使用python等至少一種編程語言,熟悉爬蟲和數據工程、精通信息檢索和搜索引擎技巧
- 熟練掌握數據采集、清洗、轉換、加載、融合、數據服務的相關技術和工具
- 熟悉數據倉庫和數據庫技術,如SQL、NoSQL、Hadoop、Spark等
- 有大模型數據工程,爬蟲框架,數據清洗,數據標注、搜索引擎,RAG,知識圖譜相關經驗的同學非常歡迎
- 對AI和大數據領域有濃厚興趣,持續學習和適應新技術。有良好的軟件工程知識和質量意識,良好的編程風格習慣,熟悉敏捷開發模式
工作地點
地址:上海浦東新區上海藥明康德新藥開發有限公司


職位發布者
HR
萬寶盛華企業管理咨詢(上海)有限公司

-
請選擇
-
公司規模未知
-
公司性質未知
-
東方廣場