URL: https://www.overclockers.at/artificial-intelligence/ki-modelle-auf-lokaler-hardware_264627/page_7 - zur Vollversion wechseln!
https://blog.google/innovation-and-...iction-gemma-4/
spekulative multi-token prediction von Google in Ihren Gemma4 models => 1.5x - 3x speedup ohne quality degradation (like Quantisierung)
Self-Hosted macht imho nur bei gewissen edge-cases Sinn und da braucht man mindestens einen fähigen Entwickler bzw. Entwicklerin die das trainieren, warten und auch weiterentwickeln können.
Maschinelle Bilderkennung in der Krebsforschung ist z.B. so ein Thema wo es super einsetzbar ist und in gewissen Bereichen schon seit Jahren gemacht wird,
quasi ein automatisierter Vorsortierungsprozess, damit sich die qualifizierten Personen in Summe weniger Bilder pro Patient anschauen müssen.
Dieses Projekt benutzt die User Hardware über den Browser.
Nette Spielerei.
https://webllm.mlc.ai bzw direkt https://chat.webllm.ai
mit M4 Chip und 16GB Ram,
als Vorschlag Qwen 3 8B model, ~5GB (f16)
Ich seh da nur alte Modelle wie Qwen 3, nichtmal 3.5, ganz zu schweigen von 3.6.
Die Daten werden lokal gecached was auch ewig dauert zum runterladen (selbst bei einer GBit Leitung). Selbst kleine Modelle dauern bei mir Minuten bis einfachste prompts beantwortet werden.
Imho völlig unbrauchbar aber netter proof of concept.
overclockers.at v4.thecommunity
© all rights reserved by overclockers.at 2000-2026