"We are back" « oc.at

KI Modelle auf lokaler Hardware

EndOfDayz 08.02.2025 - 20:46 14101 93
Posts

Lukas

Here to stay
Avatar
Registered: Feb 2004
Location: ~
Posts: 1904
Zitat aus einem Post von wergor
Code:
gregor@gregor-MS-7C84:~$ ollama ps
NAME          ID              SIZE      PROCESSOR    CONTEXT    UNTIL              
qwen3.5:9b    6488c96fa5fa    8.7 GB    100% GPU     4096       4 minutes from now

ich weis, ich war absichtlich im plan mode :)

Ja, das ist leider viel zu wenig. Ich würde sagen für opencode/agentic engineering sind 32768 tokens minimal erforderlich, damit es sinnvoll ist. Ist dann von der Größe der Codebase abhängig. Ich betreibe qwen3.5:9b (Q4_K_M) mit einer context length von 65536 auf meiner RTX 4070 Ti Super (16GB VRAM). Obwohl das manchmal auch schon knapp wird. Im Idealfall hat man 128k oder eben 256k.

wergor

connoisseur de mimi
Avatar
Registered: Jul 2005
Location: vulkanland
Posts: 4267
mit 65k context length (hab eine 9070xt) schauts schon viel besser aus :) werde die context usage im auge behalten, opencode zeigts eh rechts an.
in der firma haben wir ein system mit 2x 5070ti, erlauben mehrere karten größeren context oder nur mehrere modelle gleichzeitig?

Unholy

Freak
Avatar
Registered: Jan 2001
Location: Vienna
Posts: 3603
Was würdet ihr empfehlen um bissl vibe coding zu testen? 6800xt 16gb RAM.

wergor

connoisseur de mimi
Avatar
Registered: Jul 2005
Location: vulkanland
Posts: 4267
Ich teste gerade qwen3.5:9b

that

Hoffnungsloser Optimist
Avatar
Registered: Mar 2000
Location: MeidLing
Posts: 11363
Zitat aus einem Post von wergor
Ich teste gerade qwen3.5:9b

Geht mit 16 GB VRAM nicht ein größeres Modell?

Lukas

Here to stay
Avatar
Registered: Feb 2004
Location: ~
Posts: 1904
Bei qwen3.5:9b hast du den Vorteil eben einen größeren Kontext verwenden zu können, der beim vibe coden mMn notwendig ist.

@Unholy: qwen3.5:9b oder qwen3-coder-next, allerdings wirds bei dem Modell schon etwas eng mit dem VRAM, geht sich afair nicht mehr in 16GB VRAM aus.

Viper780

Elder
Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 52431
Wieviel RAM benötigt man dafür dass es halbwegs läuft? (nicht VRAM)

Unholy

Freak
Avatar
Registered: Jan 2001
Location: Vienna
Posts: 3603
qwen3-coder-next, hab ich am m4 mit 24gb ram probiert war nix also könnt qwen3-coder-next, klappen? Dann check ich das morgen mal.

Danke

Lukas

Here to stay
Avatar
Registered: Feb 2004
Location: ~
Posts: 1904
Ich würde grundsätzlich LMStudio für den Anfang empfehlen. Die GUI gibt ganz brauchbare Infos zur Resourcenauslastung und welche Modelle für die eigene Hardware empfohlen sind.

@Viper: Möchtest du das Model zur Gänze auf der CPU betreiben? Das wird vermutlich super lahm sein. Man merkt schon einen krassen Unterschied in der Performance, wenn nur ein paar Layer (~15% des Models) auf die CPU und RAM ausgelagert sind. Ich denke man kann die RAM usage nicht so pauschal beantworten, aber meine 32GB sind bei einem partial GPU offload, bei größeren Modellen, auch so zu ca 80% voll.

Viper780

Elder
Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 52431
Nein soll schon auf der GPU rechnen, ist ebenfalls eine 9070XT mit 16GB VRAM, aber meine ersten Versuche vor 1,5-2 Jahren mit den kleineren Modellen waren eher ernüchternd und die großen sind wegen 32GB RAM nicht gelaufen.

Seit dem nutze ich diverse Subscriptions

wergor

connoisseur de mimi
Avatar
Registered: Jul 2005
Location: vulkanland
Posts: 4267
ich habe kurz qwen3.5:0.8b auf einer gtx 970 ausprobiert. funktionert und anwortet auch schnell, fürs programmieren aber nicht unbedingt geeignet. ich wollte dass es mir probleme im code sucht, das erste was es gemacht hat war den inhalt der datei zu löschen :D
click to enlarge

COLOSSUS

Administrator
GNUltra
Avatar
Registered: Dec 2000
Location: ~
Posts: 12370
Probleme also nicht nur gefunden, sondern auch gleich geloest! :cool:

JDK

Oberwortwart
Avatar
Registered: Feb 2007
Location: /etc/graz
Posts: 3056
Probleme? Welche Probleme?

xD

Daeda

Renegade
Registered: Aug 2007
Location: Graz
Posts: 1825
Zitat aus einem Post von wergor
ich habe kurz qwen3.5:0.8b auf einer gtx 970 ausprobiert. funktionert und anwortet auch schnell, fürs programmieren aber nicht unbedingt geeignet. ich wollte dass es mir probleme im code sucht, das erste was es gemacht hat war den inhalt der datei zu löschen :D
click to enlarge

Wie hast es eingestellt? Von 0.8b erwarte ich mir zwar nicht viel, aber mehr als dein Ergebnis :D
Die Empfehlung fürs coden ist: temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
Siehe https://huggingface.co/Qwen/Qwen3.5-0.8B#best-practices

Was erhofft ihr euch mit dem lokal ausführen der LLMs eigentlich? Nur Spielerei oder auch praktische Anwendung?
Gibt auch genug Dienste, die Open Weight Models abseits eventueller Hersteller-Spionage laufen lassen, https://openrouter.ai/ oder in .eu sowas wie https://mammouth.ai/.

wergor

connoisseur de mimi
Avatar
Registered: Jul 2005
Location: vulkanland
Posts: 4267
Was sind Parameter? :D
Die Hardware liegt daheim und dank PV ists gratis ;)
Kontakt | Unser Forum | Über overclockers.at | Impressum | Datenschutz