Uložit do nákupního seznamu
Vytvoření nového nákupního seznamu

Blog

Karty NVIDIA pro AI – Ada Lovelace a Blackwell v praxi

Karty NVIDIA pro AI – Ada Lovelace a Blackwell v praxi

NVIDIA Ada Lovelace a Blackwell v AI aplikacích – praktický výběr GPU

V projektech založených na velkých jazykových modelech (LLM) není klíčová teoretická výpočetní síla GPU, ale předvídatelná propustnost generování a stabilita při konkrétním scénáři. Ukážeme, jak vybírat karty NVIDIA pro AI podle metriky TPS, velikosti modelu a rozsahu nasazení – od jednoduchých chatbotů po enterprise prostředí.

Hardware kontext

NVIDIA RTX PRO 6000 – workstation / enterprise karta
NVIDIA RTX PRO 6000 - příklad karty určené pro AI zátěž, nepřetržitý provoz a multi-session prostředí.

Dále analyzujeme architektury Ada Lovelace a Blackwell nikoliv z marketingových benchmarků, ale podle reálných inference scénářů: počet uživatelů, velikost modelu a cílový TPS.

1) TPS (tokens/s): praktická metrika propustnosti LLM

V produkčním prostředí se teoretické metriky přímo nepřekládají do uživatelského zážitku. Pro LLM je nejjednodušší a nejpřehlednější ukazatel TPS.

ÚroveňTPSTPMTypický efekt
Omezená plynulost5 TPS300 tokenů/mincítitelná prodleva při generování
Pohodlná práce20 TPS1 200 tokenů/minstabilní generování ve většině aplikací
Vysoká propustnost100 TPS6 000 tokenů/minmožnost obsluhy většího počtu sezení

Metodická poznámka: TPS závisí na modelu, kvantizaci, délce kontextu, inference enginu a profilu paralelismu (multi-session / batch).

2) 7B / 13B / 70B – co znamená velikost modelu

Označení 7B/13B/70B ukazuje počet parametrů modelu: 1B = 1 miliarda parametrů. Větší počet parametrů obvykle zvyšuje kvalitu odpovědí a schopnost uvažování, ale zvyšuje nároky na VRAM a propustnost GPU.

TřídaParametryTypické použitíCílový TPS
Modely 7–8B7–8 mldchatboty, RAG, Q&A, shrnutí50–100+ TPS
Modely 13B13 mldfiremní AI, dokumenty, delší odpovědi40–70 TPS
Modely 70B70 mldpokročilé analýzy, AI agenti, expertní úkoly15–25 TPS
Praktická poznámka: větší model nemusí vždy znamenat lepší obchodní efekt. V mnoha nasazeních 13B při stabilním TPS poskytuje lepší použitelnost než 70B s nízkou propustností nebo vysokou latencí.

3) Odkaz na ChatGPT – rozsah modelů

Pro srovnání: GPT-3 měl cca 175B parametrů. U GPT-4 a novějších OpenAI oficiálně neuvádí počet parametrů, odhady jsou různorodé. Praktickým závěrem je, že služby typu ChatGPT běží v hyperskalovém prostředí a jsou optimalizovány pro paralelismus a využití více GPU.

ÚroveňParametryZávěr pro infrastrukturu
7-13B7-13 mldobvykle dostačující pro firemní nasazení (RAG/chatboty)
70B70 mldvyžaduje silný GPU a disciplínu při volbě kontextu/kvantizaci
GPT-3~175 mldcloudová škála; obvykle není cílem pro jeden GPU
GPT-4 / novějšíneuvedenohyperskála + optimalizace; 1:1 porovnání s on-prem není adekvátní

4) Mapování požadavků: scénář → model → cílový TPS

Scénář A

Chatbot / RAG pro oddělení nebo aplikaci

  • Model: 7-8B
  • Cíl: stabilní generace, nízká latence
  • Cílově: 50-100+ TPS (jedno sezení)
Scénář B

Firemní AI (složitější odpovědi, dokumenty)

  • Model: 13B
  • Cíl: lepší kvalita odpovědí při předvídatelném TPS
  • Cílově: 40-70 TPS
Scénář C

Pokročilé analýzy a expertní úkoly

  • Model: 70B
  • Cíl: kvalita a uvažování; kompromis mezi nákladem a propustností
  • Cílově: 15-25 TPS
Scénář D

Enterprise: paralelismus + dlouhý kontext

  • Model: 70B+ nebo multi-session
  • Cíl: stabilní TPS pod zátěží, dlouhý kontext (např. 32k)
  • Cílově: 30+ TPS na model + rezerva pro paralelismus

5) Porovnání TPS: RTX 6000 Ada vs RTX PRO 6000 Blackwell

Níže orientační rozsahy TPS pro typické inference scénáře. Hodnoty slouží k předběžnému sizingu a výběru třídy GPU.

ScénářRTX 6000 AdaRTX PRO 6000 BlackwellInterpretace
LLM 7–8B (FP16/FP8)90-120 TPS
≈ 5 400-7 200 TPM
180-220 TPS
≈ 10 800-13 200 TPM
vyšší propustnost a větší rezerva pro paralelismus
LLM 13B (FP16/FP8)45-65 TPS
≈ 2 700-3 900 TPM
95-120 TPS
≈ 5 700-7 200 TPM
stabilní podpora firemních workloadů, lepší rezerva
LLM 70B (INT8 / 4-bit)15-20 TPS
≈ 900-1 200 TPM
30-40 TPS
≈ 1 800-2 400 TPM
Blackwell omezuje propad TPS při větším zatížení
Dlouhý kontext (32k)8-12 TPS
≈ 480-720 TPM
18-25 TPS
≈ 1 080-1 500 TPM
kritické při analýze velkých dokumentů (právo/finance)
Rozdíl architektur v praxi: Ada Lovelace je nákladově optimální pro většinu inference nasazení, zatímco Blackwell má smysl, pokud je potřeba vyšší paralelismus, delší kontext a stabilní TPS při zátěži.

Proč v produkčním AI neporovnáváme karty GeForce s kartami RTX / RTX PRO

V kontextu AI nasazení se často objevuje otázka: „proč přeplácet za profesionální karty, když existují levnější karty pro domácí použití?” Tato otázka vychází z mylného předpokladu, že jsou tato řešení zaměnitelná. V praxi karty pro domácí použití a profesionální karty řeší různé problémy.

Karty RTX / RTX PRO jsou navrženy pro nepřetržitý provoz, předvídatelné zatížení a produkční prostředí, kde je důležitý stabilní TPS, možnost obsluhy více paralelních sezení a spouštění větších modelů a delšího kontextu bez kompromisů. V AI tyto parametry určují skutečnou použitelnost řešení.

  • VRAM a rozsah modelů: větší modely (např. 13B/70B), dlouhý kontext a multi-session rychle odhalují limity domácích GPU.
  • Provoz 24/7: inference workloady jsou kontinuální; v produkci je klíčová stabilita a předvídatelnost, ne jen „peak performance”.
  • Funkce enterprise třídy: virtualizace GPU, optimalizované ovladače, profily a multi-user scénáře jsou základem produktových nasazení.
  • Škálování bez degradace: s nárůstem počtu uživatelů, délky kontextu a složitosti dotazů je klíčové udržet stabilní TPS.

Karty pro domácí použití nejsou levnou alternativou pro AI GPU v produkci – jsou určeny pro jiný profil použití. V AI projektech je volba hardwaru vždy založena na modelu, cílovém TPS a požadavcích SLA. Proto jsou v produkčním prostředí přirozenou volbou karty RTX 6000 (Ada Lovelace) a RTX PRO 6000 (Blackwell).

Poznámka: výše uvedené se týká produkčních a multi-session projektů. Výběr GPU by měl vždy vycházet z cílového workloadu, profilu provozu a požadavků SLA.

6) Doporučení výběru – na základě účelu

Doporučení: Ada Lovelace (RTX 6000 Ada) – pokud je důležitý poměr cena/TPS

  • Workload: chatboty, RAG, firemní AI pro 7–13B, a 70B v omezeném rozsahu.
  • Priorita: vysoká nákladová efektivita, předvídatelný TPS ve standardních scénářích.

Doporučení: Blackwell (RTX PRO 6000 Blackwell) – pokud je důležitá škála a SLA

  • Workload: 70B+ ve vícesession prostředí, dlouhý kontext, požadavky enterprise.
  • Priorita: vyšší propustnost, stabilita pod zátěží, rezerva pro paralelismus.
Závěr: Nejdražší karta má smysl v projektech, kde jsou požadovány: paralelismus, dlouhý kontext a stabilní TPS v produkčním prostředí.

Výběr GPU pro AI v ESUS IT

Volíme konfigurace GPU podle konkrétního modelu, kontextu, počtu sezení a cílového TPS/SLA. V případě potřeby připravujeme sizing a doporučení architektury (Ada/Blackwell).

Metodická poznámka: rozsahy TPS jsou orientační. Výsledky závisí na modelu, kvantizaci, kontextu, inference enginu, parametrech paralelismu a konfiguraci platformy (ovladače, CPU/RAM, limity výkonu a chlazení).

© ESUS IT • Edukativní materiál: GPU pro AI

Máte dotazy? Napište našemu odborníkovi
Získejte odpověď do 24 hodin.*
*Od pondělí do pátku: 8:00-16:00 hod.
pixel