NVIDIA
NVIDIA bietet ab Tag Eins Beschleunigung für das neue DiffusionGemma-Modell von Google DeepMind auf GeForce RTX-, RTX PRO-, DGX Spark-, DGX Station- und H100-GPUs, sodass Entwickler schnelle und reaktive AI-Anwendungen lokal ausführen können, vom Desktop bis zum Rechenzentrum.
Im Gegensatz zu herkömmlichen Sprachmodellen, die jeweils nur einen Token generieren, nutzt DiffusionGemma diffusionsbasierte Rauschunterdrückung, um Text parallel zu generieren. Dadurch wird auf GPUs eine bis zu vierfache Beschleunigung im Vergleich zu einem gleichwertigen autoregressiven Modell erzielt.
Zu den wichtigsten Highlights gehören:
- Schnellere Leistung: DiffusionGemma generiert 256 Token parallel und liefert bis zu 1.000 Token/Sekunde auf einer einzelnen H100 Tensor Core-GPU, 150 Token/Sekunde auf NVIDIA DGX Spark sowie die schnellste lokale Leistung auf DGX Station.
- Basiert auf Gemma 4: Unterstützt Text- und Bildeingaben sowie bis zu 256 KB Kontextdaten und ermöglicht so leistungsfähigere multimodale und agentenbasierte KI-Anwendungen.
- Offen und lokal: Lizenziert unter Apache 2.0 und mit sofortiger Unterstützung durch Hugging Face Transformers, vLLM und Unsloth. Das Programm kann lokal ausgeführt werden, ohne dass eine Cloud-Abhängigkeit besteht oder Kosten pro Token anfallen. Für den Einsatz in Unternehmen steht NIM zur Verfügung, zusammen mit API-Zugriff für die Prototypenentwicklung unter build.nvidia.com.
Weitere Informationen gibt es im NVIDIA-Blog zu RTX AI und im Tech Blog.
Weitere Hardware-News und spannende KI-Neuheiten findest du direkt hier bei den News.
