KI Modelle auf lokaler Hardware

Lukas

Here to stay

Registered: Feb 2004
Location: ~
Posts: 1904

07.03.2026 - 10:52

Zitat aus einem Post von wergor

Code:

gregor@gregor-MS-7C84:~$ ollama ps
NAME          ID              SIZE      PROCESSOR    CONTEXT    UNTIL              
qwen3.5:9b    6488c96fa5fa    8.7 GB    100% GPU     4096       4 minutes from now

ich weis, ich war absichtlich im plan mode

Ja, das ist leider viel zu wenig. Ich würde sagen für opencode/agentic engineering sind 32768 tokens minimal erforderlich, damit es sinnvoll ist. Ist dann von der Größe der Codebase abhängig. Ich betreibe qwen3.5:9b (Q4_K_M) mit einer context length von 65536 auf meiner RTX 4070 Ti Super (16GB VRAM). Obwohl das manchmal auch schon knapp wird. Im Idealfall hat man 128k oder eben 256k.

wergor

connoisseur de mimi

Registered: Jul 2005
Location: vulkanland
Posts: 4267

07.03.2026 - 11:40

mit 65k context length (hab eine 9070xt) schauts schon viel besser aus

werde die context usage im auge behalten, opencode zeigts eh rechts an.
in der firma haben wir ein system mit 2x 5070ti, erlauben mehrere karten größeren context oder nur mehrere modelle gleichzeitig?

Unholy

Freak

Registered: Jan 2001
Location: Vienna
Posts: 3603

07.03.2026 - 13:18

Was würdet ihr empfehlen um bissl vibe coding zu testen? 6800xt 16gb RAM.

wergor

connoisseur de mimi

Registered: Jul 2005
Location: vulkanland
Posts: 4267

07.03.2026 - 13:28

Ich teste gerade qwen3.5:9b

that

Hoffnungsloser Optimist

Registered: Mar 2000
Location: MeidLing
Posts: 11363

07.03.2026 - 15:15

Zitat aus einem Post von wergor
Ich teste gerade qwen3.5:9b

Geht mit 16 GB VRAM nicht ein größeres Modell?

Lukas

Here to stay

Registered: Feb 2004
Location: ~
Posts: 1904

07.03.2026 - 15:40

Bei qwen3.5:9b hast du den Vorteil eben einen größeren Kontext verwenden zu können, der beim vibe coden mMn notwendig ist.

@Unholy: qwen3.5:9b oder qwen3-coder-next, allerdings wirds bei dem Modell schon etwas eng mit dem VRAM, geht sich afair nicht mehr in 16GB VRAM aus.

Viper780

Elder
Er ist tot, Jim!

Registered: Mar 2001
Location: Wien
Posts: 52431

07.03.2026 - 15:56

Wieviel RAM benötigt man dafür dass es halbwegs läuft? (nicht VRAM)

Unholy

Freak

Registered: Jan 2001
Location: Vienna
Posts: 3603

07.03.2026 - 16:31

qwen3-coder-next, hab ich am m4 mit 24gb ram probiert war nix also könnt qwen3-coder-next, klappen? Dann check ich das morgen mal.

Danke

Lukas

Here to stay

Registered: Feb 2004
Location: ~
Posts: 1904

07.03.2026 - 16:31

Ich würde grundsätzlich LMStudio für den Anfang empfehlen. Die GUI gibt ganz brauchbare Infos zur Resourcenauslastung und welche Modelle für die eigene Hardware empfohlen sind.

@Viper: Möchtest du das Model zur Gänze auf der CPU betreiben? Das wird vermutlich super lahm sein. Man merkt schon einen krassen Unterschied in der Performance, wenn nur ein paar Layer (~15% des Models) auf die CPU und RAM ausgelagert sind. Ich denke man kann die RAM usage nicht so pauschal beantworten, aber meine 32GB sind bei einem partial GPU offload, bei größeren Modellen, auch so zu ca 80% voll.

Viper780

Elder
Er ist tot, Jim!

Registered: Mar 2001
Location: Wien
Posts: 52431

07.03.2026 - 16:59

Nein soll schon auf der GPU rechnen, ist ebenfalls eine 9070XT mit 16GB VRAM, aber meine ersten Versuche vor 1,5-2 Jahren mit den kleineren Modellen waren eher ernüchternd und die großen sind wegen 32GB RAM nicht gelaufen.

Seit dem nutze ich diverse Subscriptions

wergor

connoisseur de mimi

Registered: Jul 2005
Location: vulkanland
Posts: 4267

18.03.2026 - 13:17

ich habe kurz qwen3.5:0.8b auf einer gtx 970 ausprobiert. funktionert und anwortet auch schnell, fürs programmieren aber nicht unbedingt geeignet. ich wollte dass es mir probleme im code sucht, das erste was es gemacht hat war den inhalt der datei zu löschen

COLOSSUS

Administrator
GNUltra

Registered: Dec 2000
Location: ~
Posts: 12370

18.03.2026 - 13:56

Probleme also nicht nur gefunden, sondern auch gleich geloest! :cool:

JDK

Oberwortwart

Registered: Feb 2007
Location: /etc/graz
Posts: 3056

18.03.2026 - 14:34

Probleme? Welche Probleme?

xD

Daeda

Renegade

Registered: Aug 2007
Location: Graz
Posts: 1825

18.03.2026 - 15:21

Zitat aus einem Post von wergor
ich habe kurz qwen3.5:0.8b auf einer gtx 970 ausprobiert. funktionert und anwortet auch schnell, fürs programmieren aber nicht unbedingt geeignet. ich wollte dass es mir probleme im code sucht, das erste was es gemacht hat war den inhalt der datei zu löschen

Wie hast es eingestellt? Von 0.8b erwarte ich mir zwar nicht viel, aber mehr als dein Ergebnis

Die Empfehlung fürs coden ist: temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
Siehe https://huggingface.co/Qwen/Qwen3.5-0.8B#best-practices

Was erhofft ihr euch mit dem lokal ausführen der LLMs eigentlich? Nur Spielerei oder auch praktische Anwendung?
Gibt auch genug Dienste, die Open Weight Models abseits eventueller Hersteller-Spionage laufen lassen, https://openrouter.ai/ oder in .eu sowas wie https://mammouth.ai/.

wergor

connoisseur de mimi

Registered: Jul 2005
Location: vulkanland
Posts: 4267

18.03.2026 - 16:02

Was sind Parameter?

Die Hardware liegt daheim und dank PV ists gratis

Lukas Here to stay Registered: Feb 2004 Location: ~ Posts: 1904	07.03.2026 - 10:52 Zitat aus einem Post von wergor Code: `gregor@gregor-MS-7C84:~$ ollama ps NAME ID SIZE PROCESSOR CONTEXT UNTIL qwen3.5:9b 6488c96fa5fa 8.7 GB 100% GPU 4096 4 minutes from now` ich weis, ich war absichtlich im plan mode Ja, das ist leider viel zu wenig. Ich würde sagen für opencode/agentic engineering sind 32768 tokens minimal erforderlich, damit es sinnvoll ist. Ist dann von der Größe der Codebase abhängig. Ich betreibe qwen3.5:9b (Q4_K_M) mit einer context length von 65536 auf meiner RTX 4070 Ti Super (16GB VRAM). Obwohl das manchmal auch schon knapp wird. Im Idealfall hat man 128k oder eben 256k.
wergor connoisseur de mimi Registered: Jul 2005 Location: vulkanland Posts: 4267	07.03.2026 - 11:40 mit 65k context length (hab eine 9070xt) schauts schon viel besser aus werde die context usage im auge behalten, opencode zeigts eh rechts an. in der firma haben wir ein system mit 2x 5070ti, erlauben mehrere karten größeren context oder nur mehrere modelle gleichzeitig?
Unholy Freak Registered: Jan 2001 Location: Vienna Posts: 3603	07.03.2026 - 13:18 Was würdet ihr empfehlen um bissl vibe coding zu testen? 6800xt 16gb RAM.
wergor connoisseur de mimi Registered: Jul 2005 Location: vulkanland Posts: 4267	07.03.2026 - 13:28 Ich teste gerade qwen3.5:9b
that Hoffnungsloser Optimist Registered: Mar 2000 Location: MeidLing Posts: 11363	07.03.2026 - 15:15 Zitat aus einem Post von wergor Ich teste gerade qwen3.5:9b Geht mit 16 GB VRAM nicht ein größeres Modell?
Lukas Here to stay Registered: Feb 2004 Location: ~ Posts: 1904	07.03.2026 - 15:40 Bei qwen3.5:9b hast du den Vorteil eben einen größeren Kontext verwenden zu können, der beim vibe coden mMn notwendig ist. @Unholy: qwen3.5:9b oder qwen3-coder-next, allerdings wirds bei dem Modell schon etwas eng mit dem VRAM, geht sich afair nicht mehr in 16GB VRAM aus.
Viper780 Elder Er ist tot, Jim! Registered: Mar 2001 Location: Wien Posts: 52431	07.03.2026 - 15:56 Wieviel RAM benötigt man dafür dass es halbwegs läuft? (nicht VRAM)
Unholy Freak Registered: Jan 2001 Location: Vienna Posts: 3603	07.03.2026 - 16:31 qwen3-coder-next, hab ich am m4 mit 24gb ram probiert war nix also könnt qwen3-coder-next, klappen? Dann check ich das morgen mal. Danke
Lukas Here to stay Registered: Feb 2004 Location: ~ Posts: 1904	07.03.2026 - 16:31 Ich würde grundsätzlich LMStudio für den Anfang empfehlen. Die GUI gibt ganz brauchbare Infos zur Resourcenauslastung und welche Modelle für die eigene Hardware empfohlen sind. @Viper: Möchtest du das Model zur Gänze auf der CPU betreiben? Das wird vermutlich super lahm sein. Man merkt schon einen krassen Unterschied in der Performance, wenn nur ein paar Layer (~15% des Models) auf die CPU und RAM ausgelagert sind. Ich denke man kann die RAM usage nicht so pauschal beantworten, aber meine 32GB sind bei einem partial GPU offload, bei größeren Modellen, auch so zu ca 80% voll.
Viper780 Elder Er ist tot, Jim! Registered: Mar 2001 Location: Wien Posts: 52431	07.03.2026 - 16:59 Nein soll schon auf der GPU rechnen, ist ebenfalls eine 9070XT mit 16GB VRAM, aber meine ersten Versuche vor 1,5-2 Jahren mit den kleineren Modellen waren eher ernüchternd und die großen sind wegen 32GB RAM nicht gelaufen. Seit dem nutze ich diverse Subscriptions
wergor connoisseur de mimi Registered: Jul 2005 Location: vulkanland Posts: 4267	18.03.2026 - 13:17 ich habe kurz qwen3.5:0.8b auf einer gtx 970 ausprobiert. funktionert und anwortet auch schnell, fürs programmieren aber nicht unbedingt geeignet. ich wollte dass es mir probleme im code sucht, das erste was es gemacht hat war den inhalt der datei zu löschen
COLOSSUS Administrator GNUltra Registered: Dec 2000 Location: ~ Posts: 12370	18.03.2026 - 13:56 Probleme also nicht nur gefunden, sondern auch gleich geloest!
JDK Oberwortwart Registered: Feb 2007 Location: /etc/graz Posts: 3056	18.03.2026 - 14:34 Probleme? Welche Probleme? xD
Daeda Renegade Registered: Aug 2007 Location: Graz Posts: 1825	18.03.2026 - 15:21 Zitat aus einem Post von wergor ich habe kurz qwen3.5:0.8b auf einer gtx 970 ausprobiert. funktionert und anwortet auch schnell, fürs programmieren aber nicht unbedingt geeignet. ich wollte dass es mir probleme im code sucht, das erste was es gemacht hat war den inhalt der datei zu löschen Wie hast es eingestellt? Von 0.8b erwarte ich mir zwar nicht viel, aber mehr als dein Ergebnis Die Empfehlung fürs coden ist: temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0 Siehe https://huggingface.co/Qwen/Qwen3.5-0.8B#best-practices Was erhofft ihr euch mit dem lokal ausführen der LLMs eigentlich? Nur Spielerei oder auch praktische Anwendung? Gibt auch genug Dienste, die Open Weight Models abseits eventueller Hersteller-Spionage laufen lassen, https://openrouter.ai/ oder in .eu sowas wie https://mammouth.ai/.
wergor connoisseur de mimi Registered: Jul 2005 Location: vulkanland Posts: 4267	18.03.2026 - 16:02 Was sind Parameter? Die Hardware liegt daheim und dank PV ists gratis

KI Modelle auf lokaler Hardware

Forum Index > Software > Artificial Intelligence

Lukas

wergor

Unholy

wergor

that

Lukas

Viper780

Unholy

Lukas

Viper780

wergor

COLOSSUS

JDK

Daeda

wergor