Blog
Karty NVIDIA pro AI – Ada Lovelace a Blackwell v praxi

NVIDIA Ada Lovelace a Blackwell v AI aplikacích – praktický výběr GPU
V projektech založených na velkých jazykových modelech (LLM) není klíčová teoretická výpočetní síla GPU, ale předvídatelná propustnost generování a stabilita při konkrétním scénáři. Ukážeme, jak vybírat karty NVIDIA pro AI podle metriky TPS, velikosti modelu a rozsahu nasazení – od jednoduchých chatbotů po enterprise prostředí.
Hardware kontext

Dále analyzujeme architektury Ada Lovelace a Blackwell nikoliv z marketingových benchmarků, ale podle reálných inference scénářů: počet uživatelů, velikost modelu a cílový TPS.
1) TPS (tokens/s): praktická metrika propustnosti LLM
V produkčním prostředí se teoretické metriky přímo nepřekládají do uživatelského zážitku. Pro LLM je nejjednodušší a nejpřehlednější ukazatel TPS.
| Úroveň | TPS | TPM | Typický efekt |
|---|---|---|---|
| Omezená plynulost | 5 TPS | 300 tokenů/min | cítitelná prodleva při generování |
| Pohodlná práce | 20 TPS | 1 200 tokenů/min | stabilní generování ve většině aplikací |
| Vysoká propustnost | 100 TPS | 6 000 tokenů/min | možnost obsluhy většího počtu sezení |
Metodická poznámka: TPS závisí na modelu, kvantizaci, délce kontextu, inference enginu a profilu paralelismu (multi-session / batch).
2) 7B / 13B / 70B – co znamená velikost modelu
Označení 7B/13B/70B ukazuje počet parametrů modelu: 1B = 1 miliarda parametrů. Větší počet parametrů obvykle zvyšuje kvalitu odpovědí a schopnost uvažování, ale zvyšuje nároky na VRAM a propustnost GPU.
| Třída | Parametry | Typické použití | Cílový TPS |
|---|---|---|---|
| Modely 7–8B | 7–8 mld | chatboty, RAG, Q&A, shrnutí | 50–100+ TPS |
| Modely 13B | 13 mld | firemní AI, dokumenty, delší odpovědi | 40–70 TPS |
| Modely 70B | 70 mld | pokročilé analýzy, AI agenti, expertní úkoly | 15–25 TPS |
3) Odkaz na ChatGPT – rozsah modelů
Pro srovnání: GPT-3 měl cca 175B parametrů. U GPT-4 a novějších OpenAI oficiálně neuvádí počet parametrů, odhady jsou různorodé. Praktickým závěrem je, že služby typu ChatGPT běží v hyperskalovém prostředí a jsou optimalizovány pro paralelismus a využití více GPU.
| Úroveň | Parametry | Závěr pro infrastrukturu |
|---|---|---|
| 7-13B | 7-13 mld | obvykle dostačující pro firemní nasazení (RAG/chatboty) |
| 70B | 70 mld | vyžaduje silný GPU a disciplínu při volbě kontextu/kvantizaci |
| GPT-3 | ~175 mld | cloudová škála; obvykle není cílem pro jeden GPU |
| GPT-4 / novější | neuvedeno | hyperskála + optimalizace; 1:1 porovnání s on-prem není adekvátní |
4) Mapování požadavků: scénář → model → cílový TPS
Chatbot / RAG pro oddělení nebo aplikaci
- Model: 7-8B
- Cíl: stabilní generace, nízká latence
- Cílově: 50-100+ TPS (jedno sezení)
Firemní AI (složitější odpovědi, dokumenty)
- Model: 13B
- Cíl: lepší kvalita odpovědí při předvídatelném TPS
- Cílově: 40-70 TPS
Pokročilé analýzy a expertní úkoly
- Model: 70B
- Cíl: kvalita a uvažování; kompromis mezi nákladem a propustností
- Cílově: 15-25 TPS
Enterprise: paralelismus + dlouhý kontext
- Model: 70B+ nebo multi-session
- Cíl: stabilní TPS pod zátěží, dlouhý kontext (např. 32k)
- Cílově: 30+ TPS na model + rezerva pro paralelismus
5) Porovnání TPS: RTX 6000 Ada vs RTX PRO 6000 Blackwell
Níže orientační rozsahy TPS pro typické inference scénáře. Hodnoty slouží k předběžnému sizingu a výběru třídy GPU.
| Scénář | RTX 6000 Ada | RTX PRO 6000 Blackwell | Interpretace |
|---|---|---|---|
| LLM 7–8B (FP16/FP8) | 90-120 TPS ≈ 5 400-7 200 TPM | 180-220 TPS ≈ 10 800-13 200 TPM | vyšší propustnost a větší rezerva pro paralelismus |
| LLM 13B (FP16/FP8) | 45-65 TPS ≈ 2 700-3 900 TPM | 95-120 TPS ≈ 5 700-7 200 TPM | stabilní podpora firemních workloadů, lepší rezerva |
| LLM 70B (INT8 / 4-bit) | 15-20 TPS ≈ 900-1 200 TPM | 30-40 TPS ≈ 1 800-2 400 TPM | Blackwell omezuje propad TPS při větším zatížení |
| Dlouhý kontext (32k) | 8-12 TPS ≈ 480-720 TPM | 18-25 TPS ≈ 1 080-1 500 TPM | kritické při analýze velkých dokumentů (právo/finance) |
Proč v produkčním AI neporovnáváme karty GeForce s kartami RTX / RTX PRO
V kontextu AI nasazení se často objevuje otázka: „proč přeplácet za profesionální karty, když existují levnější karty pro domácí použití?” Tato otázka vychází z mylného předpokladu, že jsou tato řešení zaměnitelná. V praxi karty pro domácí použití a profesionální karty řeší různé problémy.
Karty RTX / RTX PRO jsou navrženy pro nepřetržitý provoz, předvídatelné zatížení a produkční prostředí, kde je důležitý stabilní TPS, možnost obsluhy více paralelních sezení a spouštění větších modelů a delšího kontextu bez kompromisů. V AI tyto parametry určují skutečnou použitelnost řešení.
- VRAM a rozsah modelů: větší modely (např. 13B/70B), dlouhý kontext a multi-session rychle odhalují limity domácích GPU.
- Provoz 24/7: inference workloady jsou kontinuální; v produkci je klíčová stabilita a předvídatelnost, ne jen „peak performance”.
- Funkce enterprise třídy: virtualizace GPU, optimalizované ovladače, profily a multi-user scénáře jsou základem produktových nasazení.
- Škálování bez degradace: s nárůstem počtu uživatelů, délky kontextu a složitosti dotazů je klíčové udržet stabilní TPS.
Karty pro domácí použití nejsou levnou alternativou pro AI GPU v produkci – jsou určeny pro jiný profil použití. V AI projektech je volba hardwaru vždy založena na modelu, cílovém TPS a požadavcích SLA. Proto jsou v produkčním prostředí přirozenou volbou karty RTX 6000 (Ada Lovelace) a RTX PRO 6000 (Blackwell).
Poznámka: výše uvedené se týká produkčních a multi-session projektů. Výběr GPU by měl vždy vycházet z cílového workloadu, profilu provozu a požadavků SLA.
6) Doporučení výběru – na základě účelu
Doporučení: Ada Lovelace (RTX 6000 Ada) – pokud je důležitý poměr cena/TPS
- Workload: chatboty, RAG, firemní AI pro 7–13B, a 70B v omezeném rozsahu.
- Priorita: vysoká nákladová efektivita, předvídatelný TPS ve standardních scénářích.
Doporučení: Blackwell (RTX PRO 6000 Blackwell) – pokud je důležitá škála a SLA
- Workload: 70B+ ve vícesession prostředí, dlouhý kontext, požadavky enterprise.
- Priorita: vyšší propustnost, stabilita pod zátěží, rezerva pro paralelismus.
Výběr GPU pro AI v ESUS IT
Volíme konfigurace GPU podle konkrétního modelu, kontextu, počtu sezení a cílového TPS/SLA. V případě potřeby připravujeme sizing a doporučení architektury (Ada/Blackwell).
Metodická poznámka: rozsahy TPS jsou orientační. Výsledky závisí na modelu, kvantizaci, kontextu, inference enginu, parametrech paralelismu a konfiguraci platformy (ovladače, CPU/RAM, limity výkonu a chlazení).
© ESUS IT • Edukativní materiál: GPU pro AI



