"We are back" « oc.at

KI-Modelle: GPT, xLSTM, Stable Diffusion, etc

phono 27.01.2023 - 13:10 275514 830 Thread rating
Posts

charmin

Vereinsmitglied
stay classy!
Avatar
Registered: Dec 2002
Location: root
Posts: 15843
Hab mir heute LM Studio runtergeladen und das daugt mir fast besser als ollama.
man sieht auch genau wo was vom modell rennt (teil auf GPU, teil im RAM, teil auf SSD usw)

hab mir das gpt-oss-120b von openai runtergeladen und was soll ich sagen. es passt auf die GPU und den RAM und es rennt echt geil schnell :eek:

Die 20B version sowieso, da hörst die Spulen der GPU zischen kurz. und Qwen3 mit 30B is auch sehr gut.

BiG_WEaSeL

Elder
-
Avatar
Registered: Jun 2000
Location: Wien
Posts: 8515
Ich verwende LMStudio auch sehr gern, gtp-oss allerdings die 20B Variante, hab nur 48GB VRAM. Wieviel hast du, dass sich 120b ausgeht?

Versteh ich es richtig, du lässt es auch auf den RAM swappen? Bei wie vielen token/s?

charmin

Vereinsmitglied
stay classy!
Avatar
Registered: Dec 2002
Location: root
Posts: 15843
Ich hab nur 32gb VRAM :)
5090er halt.

token/s kann ich dir nachher zuhause schauen. Aber imho noch super benutzbar. Witzigerweise ist llama 3.3 mit 70b Elends langsam

charmin

Vereinsmitglied
stay classy!
Avatar
Registered: Dec 2002
Location: root
Posts: 15843
9 tokens pro sekunde ca.
lässt sich gut verwenden eigentlich.

BiG_WEaSeL

Elder
-
Avatar
Registered: Jun 2000
Location: Wien
Posts: 8515
Ja das geht noch! Konntest du die Qualitätsunterschiede zur 20b Version feststellen? Ich bin damit am Mac eigentlich sehr zufrieden bei ca 48 tokens/s

charmin

Vereinsmitglied
stay classy!
Avatar
Registered: Dec 2002
Location: root
Posts: 15843
muss ich noch mehr testen :D
melde mich wenn ich zeit hab.
fürs meiste wird wohl das 20b modell reichen
Kontakt | Unser Forum | Über overclockers.at | Impressum | Datenschutz