KI-Modelle: GPT, xLSTM, Stable Diffusion, etc

charmin

Vereinsmitglied
stay classy!

Registered: Dec 2002
Location:
Posts: 16327

29.04.2026 - 20:25

Da würd ich Opencode nehmen tbh. Daugt mir besser als Claude Code.

Bearbeitet von charmin am 29.04.2026, 20:52

Daeda

Renegade

Registered: Aug 2007
Location: Graz
Posts: 1825

29.04.2026 - 22:10

Seh ich wie charmin. Aber ja, danke für den Hinweis - man kann Claude Code mit relativ geringem Aufwand auch "gratis" bzw. mit anderen Anbietern verwenden, aber ich hab nie verstanden warum man das wollen würde ^^

semteX

liebt die große KI

Registered: Oct 2002
Location: Pre
Posts: 15079

29.04.2026 - 22:14

kann man das? beim subscription model?

Daeda

Renegade

Registered: Aug 2007
Location: Graz
Posts: 1825

29.04.2026 - 22:48

Zitat aus einem Post von semteX
kann man das? beim subscription model?

Nicht beim, sondern statt dem Subscription Model, zB. https://ali.ac/articles/how-to-use-...stom-providers/

semteX

liebt die große KI

Registered: Oct 2002
Location: Pre
Posts: 15079

29.04.2026 - 22:53

edit: vollgas zurück, ich hab mich verlesen! ihr habt recht mein posting macht keinen sinn

Bearbeitet von semteX am 29.04.2026, 23:38

daisho

Vereinsmitglied
SHODAN

Registered: Nov 2002
Location: 4C4
Posts: 20078

06.05.2026 - 12:04

Das Gemini 503-Problem haben sie jetzt scheinbar so gelöst dass die Antworten ewig brauchen anstatt einfach abgebrochen zu werden.
Irgendwie besser als vorher, aber du kannst Stunden warten bis irgendwelche Tasks abgearbeitet werden

Müsste mir mal ein lokales Modell installieren um auf der 5090 laufen zu lassen, ist die Frage ob die 32 GB reichen für einigermaßen sinnvolles reasoning.
Ein MacBook mit 128 gig wäre natürlich traumhaft, aber wer zahlts ... (mein AG leider nicht)
Und die Zeit müsst ich auch mal haben, ist auch Mangelware im Moment.

/Edit: Nah, die 503 gibt es immer noch ... nur das die Tasks jetzt noch viel langsamer sind

Bearbeitet von daisho am 06.05.2026, 13:46

X3ll

╰(*°▽°*)╯

Registered: Mar 2002
Location: /dev/null
Posts: 1253

07.05.2026 - 12:23

Hab Qwen 3.6 27B auf zwei 4090ern lokal laufen mit https://pi.dev/ als harness. Läuft gut, ist nicht so schnell wie Claude und auch nicht so intelligent aber für gut geplante Coding Tasks mit überschaubarem Umfang, am besten alles testbasiert programmieren. Lokale KI geht gerade allgemein durch die Decke, llama.cpp hat jetzt MTP Support in einer Nightly, dadurch werden die Qwen Modelle deutlich geboostet -> https://huggingface.co/froggeric/Qwen3.6-27B-MTP-GGUF wird dann in den nächsten Wochen auch in der Main Branch implementiert sein.

Bearbeitet von X3ll am 07.05.2026, 12:27

semteX

liebt die große KI

Registered: Oct 2002
Location: Pre
Posts: 15079

07.05.2026 - 12:56

Was für a Modell könnt ma auf ner 9070xt fahren lassn, ohne sein Leben zu hassen?

X3ll

╰(*°▽°*)╯

Registered: Mar 2002
Location: /dev/null
Posts: 1253

07.05.2026 - 13:17

da gehen sich nur kleinere aus, Code eher nur im Chat nicht als Agent -> evtl. Gemma 4 E4B in Q8? https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF da bleibt auch noch bissl a Platz für Kontext.

Jedimaster

Here to stay

Registered: Dec 2005
Location: Linz
Posts: 4421

07.05.2026 - 13:34

Ein Bekannter hat mir diesen Calculator gschickt wo man checken kann was geht und was net

https://apxml.com/tools/vram-calculator

Vielleicht hilfts dem einen oder anderen weiter.

quilty

Ich schau nur

Registered: Jul 2005
Location: 4202
Posts: 3156

07.05.2026 - 13:40

canIRun.ai kann ich empfehlen wenn man wissen will was man wie laufen lassen kann auf seiner (geplanten) HW.

Viper780

Elder
Er ist tot, Jim!

Registered: Mar 2001
Location: Wien
Posts: 52428

07.05.2026 - 17:01

Zitat aus einem Post von semteX
Was für a Modell könnt ma auf ner 9070xt fahren lassn, ohne sein Leben zu hassen?

Hab ich hier auch gefragt:
https://www.overclockers.at/artific...937#post4462937

Leider noch zu wenig selbst getestet. Unter Windows leider Performance Einbußen durch DirectML

wergor

connoisseur de mimi

Registered: Jul 2005
Location: vulkanland
Posts: 4267

07.05.2026 - 21:12

Zitat aus einem Post von Jedimaster
https://apxml.com/tools/vram-calculator

Zitat aus einem Post von quilty
canIRun.ai

danke für die links. interessant wäre da noch eine verknüpfung zu benchmark ergebnissen. irgendwas sagt mir dass ein 1 jahre altes modell vielleicht nicht das beste für coding ist

https://www.canirun.ai/device/rx-9070-xt?use=code

Daeda

Renegade

Registered: Aug 2007
Location: Graz
Posts: 1825

07.05.2026 - 23:11

Zitat aus einem Post von wergor
danke für die links. interessant wäre da noch eine verknüpfung zu benchmark ergebnissen. irgendwas sagt mir dass ein 1 jahre altes modell vielleicht nicht das beste für coding ist https://www.canirun.ai/device/rx-9070-xt?use=code

Dafür sind eigentlich im oberen Bereich die "popular" models für deinen Anwendungsfall, unten siehst du dann "alle" die bei dir laufen, oder eben nicht.

Als Vergleich, im Coding-Index von Artificial Analysis hat das GPT-OSS 20B, das bei dir "decent" lauft, immerhin 19 Punkte:

Das ist aber noch immer 11 Punkte hinter Sonnet 3.5 aus Oktober 2024 und 40 hinter dem Tabellenführer GPT-5.5.
Für den Screenshot bin ich hier runter zum Coding-Bench gescrolled und hab nur Sonnet 3.5 (Oct'24) hinzugefügt, um ein ungefähres Zeitgefühl zu haben. Also mit einer normalen Grafikkarten bist mit lokalen LLMs vielleicht bei Coding-Skills von vor 3 Jahren, und wirklich brauchbare Ergebnisse gibts erst seit Mitte/Ende '25.

Zitat
Ein MacBook mit 128 gig wäre natürlich traumhaft, aber wer zahlts ... (mein AG leider nicht)

Ist das nicht nur Hype? Da passen zwar große Models rein, aber der Speed ist solala (zumindest laut der canirun-Seite. Um das Geld kriegst fast zwei 5090er

daisho

Vereinsmitglied
SHODAN

Registered: Nov 2002
Location: 4C4
Posts: 20078

08.05.2026 - 07:28

Ich denke der Grund ist dass das MacBook eine Bandbreite von (vermutlich theoretisch) 614 GB/s hat (für Token-Output) und mit einer möglichen Ausstattung von 128GB RAM schon recht potent für den sterblichen Normalverbraucher. Als vergleich, mein AM5-System mit Dual-Channel hat 96 GB/s.

Grafikkarte ist natürlich um ein vielfaches höher, aber eine einzelne 5090 hat halt auch nur 32GB RAM ...

Vermute die Mac-Kisten gehen ja noch mehr, aber mit dem Book hast halt gleichzeitig ein Teil das vermutlich fürs normale Arbeiten dann auch wenig Strom zieht und portabel = kannst überall damit arbeiten.

Wäre für mich aktuell auch eine eierlegende Wollmilchsau. Aber 6,5k oder mehr will ich mir für einen Laptop jetzt auch ned unbedingt gleich leisten (außer es geht irgendwie über die Firma - aber die ist grad knausrig ohne Ende).

/Edit:

Zitat aus einem Post von wergor
danke für die links. interessant wäre da noch eine verknüpfung zu benchmark ergebnissen. irgendwas sagt mir dass ein 1 jahre altes modell vielleicht nicht das beste für coding ist https://www.canirun.ai/device/rx-9070-xt?use=code

P.S.: Danke, sehr nette Seite.

Bearbeitet von daisho am 08.05.2026, 07:32

charmin Vereinsmitglied stay classy! Registered: Dec 2002 Location: Posts: 16327	29.04.2026 - 20:25 Da würd ich Opencode nehmen tbh. Daugt mir besser als Claude Code. Bearbeitet von charmin am 29.04.2026, 20:52
Daeda Renegade Registered: Aug 2007 Location: Graz Posts: 1825	29.04.2026 - 22:10 Seh ich wie charmin. Aber ja, danke für den Hinweis - man kann Claude Code mit relativ geringem Aufwand auch "gratis" bzw. mit anderen Anbietern verwenden, aber ich hab nie verstanden warum man das wollen würde ^^
semteX liebt die große KI Registered: Oct 2002 Location: Pre Posts: 15079	29.04.2026 - 22:14 kann man das? beim subscription model?
Daeda Renegade Registered: Aug 2007 Location: Graz Posts: 1825	29.04.2026 - 22:48 Zitat aus einem Post von semteX kann man das? beim subscription model? Nicht beim, sondern statt dem Subscription Model, zB. https://ali.ac/articles/how-to-use-...stom-providers/
semteX liebt die große KI Registered: Oct 2002 Location: Pre Posts: 15079	29.04.2026 - 22:53 edit: vollgas zurück, ich hab mich verlesen! ihr habt recht mein posting macht keinen sinn Bearbeitet von semteX am 29.04.2026, 23:38
daisho Vereinsmitglied SHODAN Registered: Nov 2002 Location: 4C4 Posts: 20078	06.05.2026 - 12:04 Das Gemini 503-Problem haben sie jetzt scheinbar so gelöst dass die Antworten ewig brauchen anstatt einfach abgebrochen zu werden. Irgendwie besser als vorher, aber du kannst Stunden warten bis irgendwelche Tasks abgearbeitet werden Müsste mir mal ein lokales Modell installieren um auf der 5090 laufen zu lassen, ist die Frage ob die 32 GB reichen für einigermaßen sinnvolles reasoning. Ein MacBook mit 128 gig wäre natürlich traumhaft, aber wer zahlts ... (mein AG leider nicht) Und die Zeit müsst ich auch mal haben, ist auch Mangelware im Moment. /Edit: Nah, die 503 gibt es immer noch ... nur das die Tasks jetzt noch viel langsamer sind Bearbeitet von daisho am 06.05.2026, 13:46
X3ll ╰(°▽°)╯ Registered: Mar 2002 Location: /dev/null Posts: 1253	07.05.2026 - 12:23 Hab Qwen 3.6 27B auf zwei 4090ern lokal laufen mit https://pi.dev/ als harness. Läuft gut, ist nicht so schnell wie Claude und auch nicht so intelligent aber für gut geplante Coding Tasks mit überschaubarem Umfang, am besten alles testbasiert programmieren. Lokale KI geht gerade allgemein durch die Decke, llama.cpp hat jetzt MTP Support in einer Nightly, dadurch werden die Qwen Modelle deutlich geboostet -> https://huggingface.co/froggeric/Qwen3.6-27B-MTP-GGUF wird dann in den nächsten Wochen auch in der Main Branch implementiert sein. Bearbeitet von X3ll am 07.05.2026, 12:27
semteX liebt die große KI Registered: Oct 2002 Location: Pre Posts: 15079	07.05.2026 - 12:56 Was für a Modell könnt ma auf ner 9070xt fahren lassn, ohne sein Leben zu hassen?
X3ll ╰(°▽°)╯ Registered: Mar 2002 Location: /dev/null Posts: 1253	07.05.2026 - 13:17 da gehen sich nur kleinere aus, Code eher nur im Chat nicht als Agent -> evtl. Gemma 4 E4B in Q8? https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF da bleibt auch noch bissl a Platz für Kontext.
Jedimaster Here to stay Registered: Dec 2005 Location: Linz Posts: 4421	07.05.2026 - 13:34 Ein Bekannter hat mir diesen Calculator gschickt wo man checken kann was geht und was net https://apxml.com/tools/vram-calculator Vielleicht hilfts dem einen oder anderen weiter.
quilty Ich schau nur Registered: Jul 2005 Location: 4202 Posts: 3156	07.05.2026 - 13:40 canIRun.ai kann ich empfehlen wenn man wissen will was man wie laufen lassen kann auf seiner (geplanten) HW.
Viper780 Elder Er ist tot, Jim! Registered: Mar 2001 Location: Wien Posts: 52428	07.05.2026 - 17:01 Zitat aus einem Post von semteX Was für a Modell könnt ma auf ner 9070xt fahren lassn, ohne sein Leben zu hassen? Hab ich hier auch gefragt: https://www.overclockers.at/artific...937#post4462937 Leider noch zu wenig selbst getestet. Unter Windows leider Performance Einbußen durch DirectML
wergor connoisseur de mimi Registered: Jul 2005 Location: vulkanland Posts: 4267	07.05.2026 - 21:12 Zitat aus einem Post von Jedimaster https://apxml.com/tools/vram-calculator Zitat aus einem Post von quilty canIRun.ai danke für die links. interessant wäre da noch eine verknüpfung zu benchmark ergebnissen. irgendwas sagt mir dass ein 1 jahre altes modell vielleicht nicht das beste für coding ist https://www.canirun.ai/device/rx-9070-xt?use=code
Daeda Renegade Registered: Aug 2007 Location: Graz Posts: 1825	07.05.2026 - 23:11 Zitat aus einem Post von wergor danke für die links. interessant wäre da noch eine verknüpfung zu benchmark ergebnissen. irgendwas sagt mir dass ein 1 jahre altes modell vielleicht nicht das beste für coding ist https://www.canirun.ai/device/rx-9070-xt?use=code Dafür sind eigentlich im oberen Bereich die "popular" models für deinen Anwendungsfall, unten siehst du dann "alle" die bei dir laufen, oder eben nicht. Als Vergleich, im Coding-Index von Artificial Analysis hat das GPT-OSS 20B, das bei dir "decent" lauft, immerhin 19 Punkte: Das ist aber noch immer 11 Punkte hinter Sonnet 3.5 aus Oktober 2024 und 40 hinter dem Tabellenführer GPT-5.5. Für den Screenshot bin ich hier runter zum Coding-Bench gescrolled und hab nur Sonnet 3.5 (Oct'24) hinzugefügt, um ein ungefähres Zeitgefühl zu haben. Also mit einer normalen Grafikkarten bist mit lokalen LLMs vielleicht bei Coding-Skills von vor 3 Jahren, und wirklich brauchbare Ergebnisse gibts erst seit Mitte/Ende '25. Zitat Ein MacBook mit 128 gig wäre natürlich traumhaft, aber wer zahlts ... (mein AG leider nicht) Ist das nicht nur Hype? Da passen zwar große Models rein, aber der Speed ist solala (zumindest laut der canirun-Seite. Um das Geld kriegst fast zwei 5090er
daisho Vereinsmitglied SHODAN Registered: Nov 2002 Location: 4C4 Posts: 20078	08.05.2026 - 07:28 Ich denke der Grund ist dass das MacBook eine Bandbreite von (vermutlich theoretisch) 614 GB/s hat (für Token-Output) und mit einer möglichen Ausstattung von 128GB RAM schon recht potent für den sterblichen Normalverbraucher. Als vergleich, mein AM5-System mit Dual-Channel hat 96 GB/s. Grafikkarte ist natürlich um ein vielfaches höher, aber eine einzelne 5090 hat halt auch nur 32GB RAM ... Vermute die Mac-Kisten gehen ja noch mehr, aber mit dem Book hast halt gleichzeitig ein Teil das vermutlich fürs normale Arbeiten dann auch wenig Strom zieht und portabel = kannst überall damit arbeiten. Wäre für mich aktuell auch eine eierlegende Wollmilchsau. Aber 6,5k oder mehr will ich mir für einen Laptop jetzt auch ned unbedingt gleich leisten (außer es geht irgendwie über die Firma - aber die ist grad knausrig ohne Ende). /Edit: Zitat aus einem Post von wergor danke für die links. interessant wäre da noch eine verknüpfung zu benchmark ergebnissen. irgendwas sagt mir dass ein 1 jahre altes modell vielleicht nicht das beste für coding ist https://www.canirun.ai/device/rx-9070-xt?use=code P.S.: Danke, sehr nette Seite. Bearbeitet von daisho am 08.05.2026, 07:32

KI-Modelle: GPT, xLSTM, Stable Diffusion, etc

Forum Index > Software > Artificial Intelligence

charmin

Daeda

semteX

Daeda

semteX

daisho

X3ll

semteX

X3ll

Jedimaster

quilty

Viper780

wergor

Daeda

daisho