全部文章Ta的評論
- 在NCCL的傳輸層分析(一)中,我們主要介紹了NCCL傳輸層中常見的數據結構。本文主要介紹一下NCCL傳輸層中的具體的函數實現,同時分析一下NCCL傳輸層中的具體流程。了解NCCL的傳輸層具體的數據收發流程需要一定的RDMA基礎知識。h****n2024-12-064130
- NCCL傳輸層中采用RDMA技術實現數據的通信,具體實現在net_ib.cc這個文件中。NCCL通過在send端和recv端兩端實現了一個分布式隊列,實現了NCCL中的高效的數據發送等流程。本文將主要介紹一下NCCL傳輸層中常見的數據結構。提示:閱讀本文需要對RDMA技術有一定了解。h****n2024-12-063000
- UM(Unified Memory)機制和GDR(GPU Direct RDMA)是CUDA中兩項比較重要的特性。 早期寫CUDA程序時,CPU的地址空間和GPU的地址空間是分開的,需要頻繁的使用cudaMemcpy頻繁地將CPU memory和GPU memory之間地內容來回拷貝。 UM機制使得程序員能夠使得指針統一訪問全局的地址空間,而不用管指針所指向的內容具體是在CPU的memory上還是GPU的memory上,省去了CPU和GPU之間顯式地數據拷貝。 而GDR則允許程序員在編寫RDMA相關程序時直接注冊GPU上的memory,然后網卡可以直接將GPU中的memory內容DMA到網卡上,不用再將GPU memory中的內容拷貝到CPU的memory中。h****n2023-09-268151
- NCCL(Nvidia communication collective library)是一個Nvidia開發的集合通信庫,支持在單節點或多節點之間的GPU環境下的集合通信操作,提供了基本的集合通信操作原語(send,recv,broadcast,scatter,gather,allreduce等各種操作)。h****n2023-09-2559951
共 6 條
- 1
頁
沒有更多了
個人簡介
暫未填寫公司和職務
暫未填寫個人簡介
暫未填寫技能專長
暫未填寫畢業院校和專業
個人成就
共發表過 6 篇文章
文章獲得 3 次贊同
文章被瀏覽 8118 次
獲得 5 人關注
個人榮譽查看規則