"We are back" « oc.at

KI Modelle auf lokaler Hardware

EndOfDayz 08.02.2025 - 20:46 10488 65
Posts

Lukas

Here to stay
Avatar
Registered: Feb 2004
Location: ~
Posts: 1899
Zitat aus einem Post von wergor
Code:
gregor@gregor-MS-7C84:~$ ollama ps
NAME          ID              SIZE      PROCESSOR    CONTEXT    UNTIL              
qwen3.5:9b    6488c96fa5fa    8.7 GB    100% GPU     4096       4 minutes from now

ich weis, ich war absichtlich im plan mode :)

Ja, das ist leider viel zu wenig. Ich würde sagen für opencode/agentic engineering sind 32768 tokens minimal erforderlich, damit es sinnvoll ist. Ist dann von der Größe der Codebase abhängig. Ich betreibe qwen3.5:9b (Q4_K_M) mit einer context length von 65536 auf meiner RTX 4070 Ti Super (16GB VRAM). Obwohl das manchmal auch schon knapp wird. Im Idealfall hat man 128k oder eben 256k.

wergor

connoisseur de mimi
Avatar
Registered: Jul 2005
Location: vulkanland
Posts: 4258
mit 65k context length (hab eine 9070xt) schauts schon viel besser aus :) werde die context usage im auge behalten, opencode zeigts eh rechts an.
in der firma haben wir ein system mit 2x 5070ti, erlauben mehrere karten größeren context oder nur mehrere modelle gleichzeitig?

Unholy

Freak
Avatar
Registered: Jan 2001
Location: Vienna
Posts: 3600
Was würdet ihr empfehlen um bissl vibe coding zu testen? 6800xt 16gb RAM.

wergor

connoisseur de mimi
Avatar
Registered: Jul 2005
Location: vulkanland
Posts: 4258
Ich teste gerade qwen3.5:9b

that

Hoffnungsloser Optimist
Avatar
Registered: Mar 2000
Location: MeidLing
Posts: 11363
Zitat aus einem Post von wergor
Ich teste gerade qwen3.5:9b

Geht mit 16 GB VRAM nicht ein größeres Modell?

Lukas

Here to stay
Avatar
Registered: Feb 2004
Location: ~
Posts: 1899
Bei qwen3.5:9b hast du den Vorteil eben einen größeren Kontext verwenden zu können, der beim vibe coden mMn notwendig ist.

@Unholy: qwen3.5:9b oder qwen3-coder-next, allerdings wirds bei dem Modell schon etwas eng mit dem VRAM, geht sich afair nicht mehr in 16GB VRAM aus.

Viper780

Elder
Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 52301
Wieviel RAM benötigt man dafür dass es halbwegs läuft? (nicht VRAM)

Unholy

Freak
Avatar
Registered: Jan 2001
Location: Vienna
Posts: 3600
qwen3-coder-next, hab ich am m4 mit 24gb ram probiert war nix also könnt qwen3-coder-next, klappen? Dann check ich das morgen mal.

Danke

Lukas

Here to stay
Avatar
Registered: Feb 2004
Location: ~
Posts: 1899
Ich würde grundsätzlich LMStudio für den Anfang empfehlen. Die GUI gibt ganz brauchbare Infos zur Resourcenauslastung und welche Modelle für die eigene Hardware empfohlen sind.

@Viper: Möchtest du das Model zur Gänze auf der CPU betreiben? Das wird vermutlich super lahm sein. Man merkt schon einen krassen Unterschied in der Performance, wenn nur ein paar Layer (~15% des Models) auf die CPU und RAM ausgelagert sind. Ich denke man kann die RAM usage nicht so pauschal beantworten, aber meine 32GB sind bei einem partial GPU offload, bei größeren Modellen, auch so zu ca 80% voll.

Viper780

Elder
Er ist tot, Jim!
Avatar
Registered: Mar 2001
Location: Wien
Posts: 52301
Nein soll schon auf der GPU rechnen, ist ebenfalls eine 9070XT mit 16GB VRAM, aber meine ersten Versuche vor 1,5-2 Jahren mit den kleineren Modellen waren eher ernüchternd und die großen sind wegen 32GB RAM nicht gelaufen.

Seit dem nutze ich diverse Subscriptions

wergor

connoisseur de mimi
Avatar
Registered: Jul 2005
Location: vulkanland
Posts: 4258
ich habe kurz qwen3.5:0.8b auf einer gtx 970 ausprobiert. funktionert und anwortet auch schnell, fürs programmieren aber nicht unbedingt geeignet. ich wollte dass es mir probleme im code sucht, das erste was es gemacht hat war den inhalt der datei zu löschen :D
click to enlarge

COLOSSUS

Administrator
GNUltra
Avatar
Registered: Dec 2000
Location: ~
Posts: 12353
Probleme also nicht nur gefunden, sondern auch gleich geloest! :cool:

JDK

Oberwortwart
Avatar
Registered: Feb 2007
Location: /etc/graz
Posts: 3041
Probleme? Welche Probleme?

xD

Daeda

Renegade
Registered: Aug 2007
Location: Graz
Posts: 1801
Zitat aus einem Post von wergor
ich habe kurz qwen3.5:0.8b auf einer gtx 970 ausprobiert. funktionert und anwortet auch schnell, fürs programmieren aber nicht unbedingt geeignet. ich wollte dass es mir probleme im code sucht, das erste was es gemacht hat war den inhalt der datei zu löschen :D
click to enlarge

Wie hast es eingestellt? Von 0.8b erwarte ich mir zwar nicht viel, aber mehr als dein Ergebnis :D
Die Empfehlung fürs coden ist: temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
Siehe https://huggingface.co/Qwen/Qwen3.5-0.8B#best-practices

Was erhofft ihr euch mit dem lokal ausführen der LLMs eigentlich? Nur Spielerei oder auch praktische Anwendung?
Gibt auch genug Dienste, die Open Weight Models abseits eventueller Hersteller-Spionage laufen lassen, https://openrouter.ai/ oder in .eu sowas wie https://mammouth.ai/.

wergor

connoisseur de mimi
Avatar
Registered: Jul 2005
Location: vulkanland
Posts: 4258
Was sind Parameter? :D
Die Hardware liegt daheim und dank PV ists gratis ;)
Kontakt | Unser Forum | Über overclockers.at | Impressum | Datenschutz