職位描述

職位名稱:高性能網絡研發工程師
職位描述:
1.設計、開發與優化面向AI訓練/高性能計算(HPC)場景的高性能網絡通信架構,支撐大規模分布式計算需求;
2.主導RDMA(RoCE/InfiniBand)、GPUDirect、NCCL等技術的深度調優,解決網絡與GPU協同工作的性能瓶頸;
3.開發高效集合通信算法,提升多節點多GPU集群的通信效率,降低AllReduce、Broadcast等操作時延;
4.構建GPU-aware網絡協議棧,優化數據從網絡到GPU顯存的零拷貝傳輸機制;
5.參與超大規模集群網絡故障診斷與性能分析工具鏈建設,提升系統魯棒性;
6.跟蹤CUDA-Aware MPI等前沿技術,推動技術落地生產環境。
技能要求:
1.精通C/C /Python,Linux環境下網絡協議棧/高性能組件開發經驗;
2.深入理解RDMA協議棧(Verbs API)、RoCEv2/InfiniBand架構及流量控制機制;
3.熟悉NVIDIA GPU架構(如Ampere/Hopper),有CUDA/GPU Direct RDMA開發調試經驗;
4.掌握NCCL、OpenMPI等集合通信庫內部原理,具備性能瓶頸分析能力;
5.熟悉主流網絡加速技術(DPDK、SR-IOV、TCP/IP Offload);
6.具備Kernel Bypass、Zero-Copy、PCIe P2P數據傳輸等優化實戰經驗。
職位要求:
1.本科及以上學歷,計算機科學與技術、網絡工程、通信工程等相關專業;
2.擁有高性能網絡研發工作經驗,有實際的大規模集群網絡項目開發經驗;
3.有在云服務、機器學習、數據中心等領域進行高性能網絡研發背景者優先;
4.具備良好的問題解決能力,能夠快速定位和解決復雜的網絡問題;
5.對技術創新有強烈的熱情,具備良好的學習能力和創新精神,能夠跟蹤并掌握最新的網絡技術發展趨勢;
6.具備優秀的團隊合作精神和溝通能力,能夠與不同背景的團隊成員緊密合作,共同完成項目目標;
7.良好的英語閱讀和寫作能力,能夠閱讀和理解英文技術文檔和資料。
工作地點
地址:北京北京


職位發布者
HR
深圳市騰訊計算機系統有限公司


-
互聯網·電子商務
-
1000人以上
-
股份制企業
-
深圳市南山區高新區高新南一路飛亞達大廈5-10樓