職位描述
該職位還未進行加V認證,請仔細了解后再進行投遞!
職位名稱:高性能網(wǎng)絡研發(fā)工程師
職位描述:
1.設計、開發(fā)與優(yōu)化面向AI訓練/高性能計算(HPC)場景的高性能網(wǎng)絡通信架構(gòu),支撐大規(guī)模分布式計算需求;
2.主導RDMA(RoCE/InfiniBand)、GPUDirect、NCCL等技術(shù)的深度調(diào)優(yōu),解決網(wǎng)絡與GPU協(xié)同工作的性能瓶頸;
3.開發(fā)高效集合通信算法,提升多節(jié)點多GPU集群的通信效率,降低AllReduce、Broadcast等操作時延;
4.構(gòu)建GPU-aware網(wǎng)絡協(xié)議棧,優(yōu)化數(shù)據(jù)從網(wǎng)絡到GPU顯存的零拷貝傳輸機制;
5.參與超大規(guī)模集群網(wǎng)絡故障診斷與性能分析工具鏈建設,提升系統(tǒng)魯棒性;
6.跟蹤CUDA-Aware MPI等前沿技術(shù),推動技術(shù)落地生產(chǎn)環(huán)境。
技能要求:
1.精通C/C /Python,Linux環(huán)境下網(wǎng)絡協(xié)議棧/高性能組件開發(fā)經(jīng)驗;
2.深入理解RDMA協(xié)議棧(Verbs API)、RoCEv2/InfiniBand架構(gòu)及流量控制機制;
3.熟悉NVIDIA GPU架構(gòu)(如Ampere/Hopper),有CUDA/GPU Direct RDMA開發(fā)調(diào)試經(jīng)驗;
4.掌握NCCL、OpenMPI等集合通信庫內(nèi)部原理,具備性能瓶頸分析能力;
5.熟悉主流網(wǎng)絡加速技術(shù)(DPDK、SR-IOV、TCP/IP Offload);
6.具備Kernel Bypass、Zero-Copy、PCIe P2P數(shù)據(jù)傳輸?shù)葍?yōu)化實戰(zhàn)經(jīng)驗。
職位要求:
1.本科及以上學歷,計算機科學與技術(shù)、網(wǎng)絡工程、通信工程等相關(guān)專業(yè);
2.擁有高性能網(wǎng)絡研發(fā)工作經(jīng)驗,有實際的大規(guī)模集群網(wǎng)絡項目開發(fā)經(jīng)驗;
3.有在云服務、機器學習、數(shù)據(jù)中心等領(lǐng)域進行高性能網(wǎng)絡研發(fā)背景者優(yōu)先;
4.具備良好的問題解決能力,能夠快速定位和解決復雜的網(wǎng)絡問題;
5.對技術(shù)創(chuàng)新有強烈的熱情,具備良好的學習能力和創(chuàng)新精神,能夠跟蹤并掌握最新的網(wǎng)絡技術(shù)發(fā)展趨勢;
6.具備優(yōu)秀的團隊合作精神和溝通能力,能夠與不同背景的團隊成員緊密合作,共同完成項目目標;
7.良好的英語閱讀和寫作能力,能夠閱讀和理解英文技術(shù)文檔和資料。
工作地點
地址:北京北京


職位發(fā)布者
HR
深圳市騰訊計算機系統(tǒng)有限公司

-
互聯(lián)網(wǎng)·電子商務
-
1000人以上
-
私營·民營企業(yè)
-
深圳市南山區(qū)高新科技園中區(qū)一路騰訊大廈