Az Nvidia GPU-k hosszú utat tettek meg, nem csak a játékteljesítmény, hanem más alkalmazások, különösen a mesterséges intelligencia és a gépi tanulás terén is. Az Nvidia GPU teljesítményéért felelős két fő tényező a CUDA és Tensor magok, amelyek szinte minden megvásárolható modern Nvidia GPU-n megtalálhatók.

De mit is csinálnak pontosan ezek a magok, és ha mindkettőt mesterséges intelligencia és gépi tanulási alkalmazásokban használják, miben különböznek egymástól?

Mik azok a CUDA magok, és mire használják őket?

A CUDA a Compute Unified Device Architecture rövidítése, ami nem sokat magyaráz a GPU-ban való jelenlétükről. Ezeket a magokat a 2014-es Maxwell architektúrában vezették be az Nvidia GPU-kínálatába, és a párhuzamos feldolgozásra specializálódtak.

Működésüket tekintve meglehetősen hasonlítanak a CPU magokhoz, de bizonyosakat jobban kezelnek feladatok, beleértve a kriptográfiai kivonatokat, fizikai motorokat, adattudományokkal kapcsolatos projekteket és még játékokat is fejlesztés.

Kép jóváírása: Nvidia
instagram viewer

Miközben már foglalkoztunk hogyan befolyásolják a CUDA magok számítógépe játékteljesítményét, ugyanolyan hasznosak a számok ropogtatásában. Míg még a legerősebb CPU-k is kétszámjegyű magokkal rendelkeznek, az Nvidia GPU-k több ezer CUDA magot tartalmaznak, ami sokkal gyorsabbá teszi őket a numerikus terhelés mellett. Ezenkívül, mivel párhuzamosan végzik ezeket a számításokat, sokkal nagyobb sebességet érhet el a CUDA magokkal.

A CUDA magok gyorsabbak, mint a gyári CPU-magok, ha roppant számokról van szó, de még mindig nem az ideális megoldás. Ennek az az oka, hogy soha nem szánták arra, hogy ilyen módon használják őket. A CUDA magokat a grafikus feldolgozásra és az Nvidia GPU-k játékteljesítményre alkalmasabbá tételére tervezték.

Mik azok a tenzormagok, és mire használják őket?

Ahogy a GPU-kat elkezdték használni mesterséges intelligencia és gépi tanulási feladatokhoz, az Nvidia 2017-től bevezette a Tensor magokat a Volta architektúrájába adatközponti GPU-ihoz.

Azonban az Nvidia Turing architektúra (RTX 20-Series GPU-k) megjelenéséig tartott, amíg ezek a magok a fogyasztói GPU-kba is eljutottak. Emlékezik hogy bár a GTX 16-Series kártyák is a Turing architektúrán alapulnak, nem tartalmaznak sugárkövetést vagy Tensort magok.

Míg a CUDA magok legjobb esetben is megfelelőek voltak a számítási munkaterheléshez, a Tensor magok jelentősen gyorsabbak voltak. Míg a CUDA magok csak egy műveletet tudnak végrehajtani órajelenként, a Tensor magok több műveletet is képesek kezelni, így hihetetlen teljesítménynövekedést biztosítanak számukra. Alapvetően a Tensor magok csak növelik a mátrixszorzás sebességét.

A számítási sebesség növelése a pontosság ára, mivel a CUDA magok lényegesen pontosabbak. Ennek ellenére, ha a gépi tanulási modellek betanításáról van szó, a Tensor magok sokkal hatékonyabbak a számítási sebesség és az összköltség szempontjából; ezért a pontosság elvesztését gyakran figyelmen kívül hagyják.

Hogyan befolyásolják a Tensor és a CUDA magok a GPU teljesítményét?

Amint azt már valószínűleg sejti, míg a CUDA és a Tensor magok ugyanazokat a munkaterheléseket tudják kezelni, mindkettő speciális mag a grafikus megjelenítéshez, illetve a numerikus munkaterheléshez.

Ez azt jelenti, hogy attól függően, hogy egy adott GPU-t melyik felhasználót célozzák meg, annak eltérő számú magja lesz. Például, ha figyelembe vesszük az RTX 4090-et, az Nvidia legújabb és legjobb, fogyasztóbarát játék GPU-ját, sokkal több CUDA magot kapunk, mint Tensor magot. 16 384 CUDA mag és 512 Tensor mag.

Összehasonlításképpen, az adatközpontokhoz készült Nvidia L40 GPU, amely ugyanazon az Ada Lovelace architektúrán alapul, mint az RTX 4090, 18 176 CUDA maggal és 568 Tensor maggal rendelkezik. Ez talán nem tűnik olyan nagy különbségnek, de nagymértékben befolyásolhatja ezeknek a GPU-knak a teljesítményét.

Ami az elméleti teljesítményt illeti, az L40 FP16 és FP32 teljesítménye 90,52 TFlop, valamint FP64 teljesítménye 1414 GFlops. Ez hatalmas teljesítménynövekedést jelent az RTX 4090 82,58 TFlops FP16 és FP32 teljesítményéhez és 1290 GFlops FP64 teljesítményéhez képest.

Hacsak nem ismeri a GPU numerikus teljesítményszámait, az Nvidia GPU fenti lebegőpontos teljesítményadatai nem feltétlenül jelentenek sokat az Ön számára. Röviden azonban azt mutatják, hogy az L40 sokkal gyorsabb, mint az RTX 4090, ha numerikus számításokról van szó – a mesterséges intelligencia és a gépi tanulás alapú munkaterheléshez szükséges számítások terén.

A teljesítménynövekedés még lenyűgözőbbé válik, ha figyelembe vesszük a két GPU energiafogyasztását. Az RTX 4090 névleges TGP-vel rendelkezik (nem tévesztendő össze a TDP-vel, van egy kis különbség) 450 W, míg az L40 névleges teljesítménye csak 300 W.

Mindkét GPU remekül futtatja a játékokat, és remekül betanítja a gépi tanulási modelljét. Az RTX 4090 azonban jobb lesz a játékok futtatásában, az L40 pedig a gépi tanulási modellek betanításában.

CUDA Cores vs. Tenzormagok: melyik a fontosabb?

Mindkét mag egyformán fontos, függetlenül attól, hogy a GPU-t játékra vásárolja, vagy egy adatközponti rackbe helyezi. Az Nvidia fogyasztóknak szánt játék GPU-i egy csomó mesterséges intelligencia funkciót használnak (leginkább a DLSS-t), és a Tensor magok jól jöhetnek.

Ami az adatközponti GPU-kat illeti, a CUDA és a Tensor magok a legtöbb esetben párhuzamosan működnek, így a választott GPU-tól függetlenül mindkettőt megkapja. Ahelyett, hogy a GPU egy bizonyos típusú magjára összpontosítana, inkább a grafikus kártya működésére és a felhasználó típusára kell összpontosítania.

A CUDA magok a grafikus munkaterhelések kezelésére specializálódtak, míg a Tensor magok jobbak a numerikusaknál. Együtt dolgoznak, és bizonyos mértékig felcserélhetők, de saját szakterületeiket kezelik, ezért léteznek elsősorban.

A különböző GPU-k különböző szempontokra specializálódtak. Az RTX 4090 könnyedén összetör minden játékot, amit rádob, míg az RTX 4060 csak 1080p játékot képes kezelni. Ha nem a GPU-val játszik, és csak a számok roppantásához vagy a neurális hálózatok betanításához van szüksége rá, egy A-sorozatú adatközponti GPU, mint az A100 vagy akár az L40 a legjobb választás.

A GPU magjai számítanak

A több GPU mag jobb általános teljesítményt biztosít, mivel a GPU sokoldalúbb lesz, és külön erőforrásokkal rendelkezik a különböző feladatok kezelésére. A legtöbb maggal rendelkező GPU vakon beszerzése azonban nem a legjobb döntés. Szánjon egy percet a használati esetének alapos mérlegelésére, vessen egy pillantást a GPU képességeinek egészére, majd döntse el.