Az AMD Instinct GPU sorozata egyre népszerűbb a számítástechnika és a mesterséges intelligencia közösségében. Íme, miért.
Kétségtelen, hogy az NVIDIA továbbra is uralja a párhuzamos számítási teret különféle népszerű GPU-sorozataival. De az AMD Instinct AI-gyorsítóival két legújabb és legnagyobb szuperszámítógépet (Frontier és El Capitan) szerelnek fel. és a közösség növekvő támogatása nyílt forráskódú ROCm platformjukhoz, az NVIDIA talán megtalálta eddigi legnagyobb riválisát.
Tehát mik is pontosan az AMD Instinct AI-gyorsítói? Mi teszi őket erőssé, és hogyan hasonlíthatók össze az NVIDIA Tensor GPU-ival?
Mi az AMD Instinct processzor?
Az AMD Instinct processzorai vállalati szintű hardverek, amelyeket nagy teljesítményű számítástechnikai (HPC) és AI-gyorsított feldolgozáshoz használnak. A hagyományos, fogyasztói minőségű GPU-kkal ellentétben az Instinct GPU-k arra specializálódtak, hogy szoftver- és hardveres innovációkon keresztül jobban kezeljék az AI-tanulást és más nagy teljesítményű feladatokat.
Az AMD Instinct GPU-sorozatát használták az első szuperszámítógép meghajtására, amely áttörte az Exascale-korlátot, 1,1 EFLOP-val, másodpercenkénti dupla pontosságú műveletekkel. Az Instinct GPU-kat használó szuperszámítógépeket jelenleg a rákkezelések, a fenntartható energia és a klímaváltozás kutatására használják.
Hogyan gyorsítják fel az Instinct processzorok az AI-t és a HPC-t
Mert a világ legerősebb mainstream szerverei és szuperszámítógépei Az Exascale szintű feldolgozás eléréséhez az AMD Instinct gyorsítóit számos technológiai frissítéssel és újítással kellett felszerelni.
Beszéljünk az AMD Instinct GPU-kon használt új és frissített technológiáról.
1. Számító DNS (CDNA)
A legújabb AMD Instinct gyorsítók (az MI100-tól kezdve) a cég CDNA architektúráját alkalmazták.
A CDNA elsősorban olyan funkciókra összpontosít, mint a párhuzamos feldolgozás, a memóriahierarchia és az optimalizált számítási teljesítmény a Matrix Core technológiájuk révén. Még az egyetlen szerveren futó HPC és AI vagy gépi tanulás is támogatható a CDNA-val, valamint a hatalmas Exascale számítógépekkel.
Az AMD Matrix Core technológiája felgyorsítja a mesterséges intelligencia tanulását a vegyes pontosságú műveletek támogatásával. A különböző pontosságú számítási képesség lehetővé teszi az Instinct GPU-k számára, hogy hatékonyan számítsák ki a mátrixműveleteket a szükséges pontossági szint alapján.
A legnépszerűbb számítási precíziós formátumok közé tartozik az FP64, FP32, FP16, BF16 és INT8. Az FP a lebegőpont, a BF az agy lebegőpontja, az INT pedig az egész szám. Minél nagyobb a formátumnak megfelelő szám, annál pontosabb a számítás. A 64 bites működést dupla pontosságnak nevezik. A 32 bitesnél egyszeres, a 16 bitesnél félpontos, és így tovább.
Mivel a mély tanulási modellek képzésének nagy része nem igényel nagy pontosságot, a mátrix kiszámításának képessége a fél pontosságú vagy akár negyed pontosságú műveletek a következtetések levonásához jelentősen csökkentik a munkaterhelést, ezáltal felgyorsítják az AI-t tanulás.
2. Nagy sávszélességű memória (HBM)
Minden AMD Instinct AI-gyorsító akár 880 mátrixmaggal rendelkezik. Mivel az AMD Matrix Core processzorai 383 TFLOP-nyi félpontos számítást képesek elvégezni, ultragyors memória szükséges. Az AMD legújabb Instinct kínálata nagy sávszélességű memóriával (HBM) érkezik a szokásos DDR4 vagy DDR5 RAM helyett.
A hagyományos memóriától eltérően a HBM az úgynevezett 3D halmozott architektúrát használja. Ez a fajta architektúra olyan tervezési megközelítésre utal, amelyben a DRAM matricákat függőlegesen egymásra rakják. Ez lehetővé teszi a matricák egymásra helyezését mind a függőleges, mind a vízszintes tengelyen, innen ered a 3D halmozás kifejezés.
Ezzel a 3D halmozási technológiával a HBM-ek fizikai memóriakapacitása akár néhány száz gigabájt is lehet modulonként, míg a DRR5 modulonként legfeljebb több tíz gigabájtot tud. A kapacitáson kívül a HBM-ek nagyobb teljesítményűek az átviteli sebesség és a jobb energiahatékonyság tekintetében is, mint a hagyományos DDR memóriák.
3. Infinity Fabric
Az Instinct GPU-k másik újítása az AMD Infinity Fabric technológiája. Az Infinity Fabric egy olyan összekapcsolási rendszer, amely intelligens dinamikus módon kapcsolja össze a CPU-kat és a GPU-kat. Ez lehetővé teszi, hogy az összetevők hatékonyan kommunikáljanak egymással.
Az Infinity Fabric segítségével a komponensek hagyományos busszal történő összekapcsolása helyett most egy mesh-szerű hálózatba kapcsolódnak, ahol a sávszélesség másodpercenként akár több száz gigabájt is lehet.
A hálószerű összeköttetésen kívül az Infinity Fabric minden egyes szerszámba beágyazott érzékelőket is használ a dinamikus szabályozási frekvencia, adatátviteli sebesség és egyéb adaptív viselkedések, optimalizálva a teljesítményt és minimalizálva késleltetés.
4. ROCm Fejlesztési Platform
Az NVIDIA CUDA (Compute Unified Device Architecture) a legszélesebb körben használt fejlesztői platform az AI modellek betanításához. A CUDA problémája az, hogy csak NVIDIA GPU-kkal működik. Ez az egyik fő oka annak, hogy az NVIDIA rendelkezik a HPC és AI GPU-gyorsítók piaci részesedésének túlnyomó többségével.
Mivel az AMD nagyobb részt akart szerezni a HPC és AI piacból, saját platformot kellett kifejleszteniük, a ROCm-et (Radeon Open Compute). A ROCm egy nyílt forráskódú szoftverplatform, amely lehetővé teszi az Instinct GPU-k AI-gyorsítóként történő használatát.
Bár nem feltétlenül az Instinct hardver része, a ROCm alapvető fontosságú az Instinct GPU-k túlélése szempontjából. A ROCm-mel a fejlesztők és a kutatók megkapják a ROCm-eszközöket, a fordítót, a kernel-illesztőprogramokat, a könyvtárak egész sorát, és hozzáférést kapnak olyan keretrendszerekhez, mint a TensorFlow és a PyTorch, hogy fejleszthessék őket. előnyben részesített AI programozási nyelv.
Hogyan hasonlíthatók össze az Instinct AI-gyorsítók a Radeon GPU-s AI-gyorsítókkal?
Az AMD az Instinct GPU-családját kínálja a vállalati, a Radeon GPU-kat pedig a rendszeres fogyasztóknak. Amint azt korábban tárgyaltuk, az Instinct GPU az AMD CDNA architektúráját, a HBM-et és az Infinity Fabric összekapcsolását használja. Ezzel szemben a Radeon az AMD RDNA architektúráját, a DDR6 memóriát és az Infinity gyorsítótárat használja.
Bár kevésbé képes, a Radeon mesterséges intelligenciagyorsítók sorozata még mindig egy vagy két AI-gyorsító magot valósít meg számítási egységenként. A legutolsó Radeon RX7900 XT GPU számítási egységenként két mesterséges intelligenciagyorsító maggal rendelkezik, ami 103 TFLOP csúcs-félpontosságú és 52 TFLOP csúcspontos egyszeres pontosságú számítást tesz lehetővé.
Míg az Instinct sorozatú GPU-k jobban megfelelnek az LLM-ekhez és a HPC-hez, a Radeon AI-gyorsítók használhatók előre betanított modellek finomhangolására, következtetésekre és intenzív grafikai feladatokra.
AMD Instinct vs. NVIDIA Tensor
szerint a TrendForce felmérés, az NVIDA 80%-os piaci részesedéssel rendelkezik a szerver GPU-k terén, míg az AMD csak 20%-kal. Az NVIDIA elsöprő sikere annak köszönhető, hogy a GPU tervezésére és összeszerelésére szakosodott cégről van szó. Ez lehetővé teszi számukra, hogy lényegesen jobb teljesítményű GPU-kat tervezzenek, amelyekhez más kínálat nem tartozik.
Hasonlítsuk össze az AMD Instinct MI205X-et és az NVIDIA H100SXM5-öt a specifikációk alapján Az AMD hivatalos weboldala és Az NVIDIA saját adatlapja:
GPU modell |
FP64 (TFLOP) |
FP32 (TFLOP) |
FP16 (TFLOP) |
INT8 (TFLOP) |
---|---|---|---|---|
AMD Instinct MI250X |
30.0 |
60.0 |
1000 |
2000 |
NVIDIA H100SXMS |
47.9 |
95.7 |
383.2 |
383 |
Amint a táblázatból látható, az AMD MI250X jobban teljesít a dupla és fél pontosság tekintetében számítások, míg az NVIDIA H100SXMS sokkal jobb a fél- és negyedpontos mátrixban számításokat. Ezáltal az AMD MI250X jobban megfelel a HPC-hez, míg az NVIDIA H100SXMS AI tanulással és következtetésekkel.
Az AMD Instinct processzorainak jövője
Bár az AMD legújabb ajánlatát, az MI250X-et HPC-hez tervezték, a közelgő MI300-as modelljük inkább mesterséges intelligencia-képzésre irányul. Ez a mesterséges intelligenciagyorsító a bejelentések szerint APU, amely egy csomagban egyesíti a GPU-t és a CPU-t. Ez lehetővé teszi az MI300 számára, hogy használja a CNDA3 Unified Memory APU architektúráját, ahol a GPU és a CPU csak egy memóriát használ, ami növeli a hatékonyságot és csökkenti az árat.
Bár az AMD ma nem fog versenyezni az NVIDIA-val az AI-gyorsítók piacán, amint megjelenik az MI300 és a ROCm lesz csiszolt, az AMD Instinct sorozata éppen elég jó lehet ahhoz, hogy az AI-gyorsító piac jelentős részét kiragadja NVIDIA.