KI Modelle auf lokaler Hardware

charmin

Vereinsmitglied
stay classy!

Registered: Dec 2002
Location:
Posts: 16344

18.03.2026 - 16:06

@Daeda: die Daten Hoheit hast halt nur daheim.
Da kannst alles reinstopfen....

roscoe

tinkerer

Registered: Mar 2005
Location: 1050 Wien
Posts: 731

18.03.2026 - 19:32

Zitat aus einem Post von Daeda
Was erhofft ihr euch mit dem lokal ausführen der LLMs eigentlich? Nur Spielerei oder auch praktische Anwendung?

Ich programmiere immer wieder mit diversen KIs im Web herum. Die lokale KI ist dann dafür da, dass sie das einfügt, was ich dem Web nicht anvertrauen mag.

Ansonsten auch gerne für zB Logfile-Analyse etc.

InfiX

she/her

Registered: Mar 2002
Location: Graz
Posts: 15110

19.03.2026 - 11:32

Zitat aus einem Post von charmin
@Daeda: die Daten Hoheit hast halt nur daheim.
Da kannst alles reinstopfen....

qft.

das bewusstsein fehlt vielen leider noch.

BiG_WEaSeL

Elder
-

Registered: Jun 2000
Location: Wien
Posts: 8653

19.03.2026 - 11:42

Wer nichts zu verbergen hat,...

Im Ernst: Für sensible Daten und weil ich nicht 100te Abos zahlen möchte. Lokal verwende ich derzeit Qwen3.5-35B 8 und 9 Bit, ich code derzeit aber nicht (lokal).

Daeda

Renegade

Registered: Aug 2007
Location: Graz
Posts: 1828

20.03.2026 - 08:33

Zitat aus einem Post von wergor
Was sind Parameter?
Die Hardware liegt daheim und dank PV ists gratis

Gut, das mit PV und Stromüberschuss verwenden is ein guter Punkt - aber die HW daheim reicht halt selten für gscheite Anwendungsfälle, oder?
Weiter oben wurde ja zB nach "Vibe Coding" für lokale HW gefragt. Da schießt man sich doch selbst ins Knie, wenn man nicht grad ein mehrere-tausend-€-teures Setup daheim hat um gscheite Models laufen zu lassen

@Daten Hoheit

Mammouth zB wirbt mit "bleiben Sie Eigentümer Ihrer Daten". Zugegeben ist das a bissl komisch, weil sie je nach Model doch Prompt und Input (Files etc.) an OpenAI, Anthropic & Co. schicken müssen - aber zumindest verweisen sie für mehr Infos dazu gleich in ihre FAQ und fassen dort sogar deren Policies zusammen. Für Open Source Modelle verwenden sie auch nur https://fireworks.ai/, hab gedacht die würden das selbst betreiben.

Aber selbst wenn man geheime Dinge macht oder einfach aus Prinzip keine Daten verschicken will, gibts noch immer die Möglichkeit, sich einen Server dafür zu mieten

Um 200€/Monat bekommt man da zB bei Hetzner schon einen GEX44 mit RTX4000 20GB vRAM. Fürs ausprobieren und herumspielen wäre das doch eine Alternative? Und trotzdem quasi "lokal".
Wenn man sich mit mehreren zum Gruppen-Viben abstimmt, wird das richtig günstig bzw. könnte man sich dann auch was Größeres holen ^^

erlgrey

formerly known as der~erl

Registered: Aug 2002
Location: Wien
Posts: 4558

20.03.2026 - 09:23

Hier gehts halt nicht um Reseller von ai datenkraken sondern darum es lokal selber laufen zu lassen.

Mit einer 16GB GPU geht schon bisserl was, die hier vermutlich eh jeder hat, ein strix halo system mit 64-128GB bekommst zwischen 2000-3000€. Das ist nicht "günstig" aber 200€ pro monat für mickrige 20GB VRAM im vserver sind da ja noch der deutlich schlechtere deal.

charmin

Vereinsmitglied
stay classy!

Registered: Dec 2002
Location:
Posts: 16344

20.03.2026 - 09:26

Am besten wäre wohl sowas wie ein gmktec Evo t2.
128gb RAM rein und es rennen größere Modelle als auf einer 5090 die einfach zu wenig Speicher hat für gscheide modelle

MightyMaz

hat nun auch einen Titel

Registered: Feb 2003
Location: .de
Posts: 760

20.03.2026 - 09:53

Ich programmiere nicht (kann also zum Thema Code Qualität nix sagen) aber das beste Text only Modell bei 64 GB Ram ist imho nach wie vor gpt-oss 120b. Das läuft auf meiner Hardware in für mich für diesen Zweck noch akzeptabler Geschwindigkeit (im Gegensatz zu z.B. llama 3.3 70b) und scheint mir besser zu skalieren als die Qwen Modelle.

charmin

Vereinsmitglied
stay classy!

Registered: Dec 2002
Location:
Posts: 16344

20.03.2026 - 09:54

Das rennt bei mir am PC a ned so schlecht.
Halt im ram weil zu groß für die 5090.
Find das a ganz cool.

voyager

banned by viper780

Registered: Nov 2001
Location: offline
Posts: 4574

20.03.2026 - 10:00

welche lokalen VM´s sind denn überhaupt zum coden brauchbar? damit ich mal ne Idee hab, was ich mir in LM Studio lad. mit 24gb am Mac geht zumindest n 16-20gb modell brauchbar

BiG_WEaSeL

Elder
-

Registered: Jun 2000
Location: Wien
Posts: 8653

20.03.2026 - 10:21

Unterschätzt auch nicht den bang for buck bei Mac minis.

charmin

Vereinsmitglied
stay classy!

Registered: Dec 2002
Location:
Posts: 16344

20.03.2026 - 10:42

Zitat aus einem Post von BiG_WEaSeL
Unterschätzt auch nicht den bang for buck bei Mac minis.

oder des, ja.
hautpsache igpu die den systemspeicher nutzt und der schnell is. endnutzer gaming gpu kann leider nix aufgrund begrenztem speicher.

voyager

banned by viper780

Registered: Nov 2001
Location: offline
Posts: 4574

20.03.2026 - 10:50

Zitat aus einem Post von charmin
hautpsache igpu die den systemspeicher nutzt

bei stärkeren Macs haben wir das getestet mal, da kannst auch 400gb+ ram nutzen für llm´s ,... wenn halt genug drin ist

Daeda

Renegade

Registered: Aug 2007
Location: Graz
Posts: 1828

20.03.2026 - 10:51

Zitat aus einem Post von erlgrey
Hier gehts halt nicht um Reseller von ai datenkraken sondern darum es lokal selber laufen zu lassen.

Ich hab ja extra auch das Hosting von Open Source Modellen angesprochen, nicht nur die ai-datenkraken. Oder wirfst du das alles in einen Hut?

Zitat aus einem Post von erlgrey
Mit einer 16GB GPU geht schon bisserl was, die hier vermutlich eh jeder hat, ein strix halo system mit 64-128GB bekommst zwischen 2000-3000€. Das ist nicht "günstig" aber 200€ pro monat für mickrige 20GB VRAM im vserver sind da ja noch der deutlich schlechtere deal.

Niemand redet von einem vServer, das ist ein dedicated HW Kastl auf das man Zugriff bekommt.

Aber weils grad angesprochen wurde, wann nimmt man besser VRAM und wann geht auch der normal RAM? Versteh ich das richtig: Prinzipiell ist immer VRAM zu empfehlen, aber wenn Speed nicht so wichtig ist, geht auch der normale?

Aber was würde auf die von erlgrey angesprochene 16GB Karte raufpassen? Soviel ich weiß maximal 20B Modelle?

Wenn bei euch das gpt-oss 120b rennt, sollte das neue "NVIDIA Nemotron 3 Super" auch laufen, bissl "besser" und vor allem schneller sein. Und größeren Context kanns auch, aber das hängt wieder mit den Systemressourcen zusammen, oder? Ausführlicher Bericht übers Model: https://xcancel.com/ArtificialAnlys...5321233908121#m
Es verwendet zwar mehr Tokens als gpt-oss, aber schafft es diese schneller auszugeben, is a bissl "gscheiter" und halluziniert weniger.

charmin

Vereinsmitglied
stay classy!

Registered: Dec 2002
Location:
Posts: 16344

20.03.2026 - 10:59

Keines der fürs coden interessanten Modelle geht in eine 5090 rein und rennt gut.
Dann kannst nur noch eine Hardware nehmen die sehr schnellen RAM hat. 8600 oder sowas. Und halt eine igpu die schnell Matrizen multiplizieren kann

charmin Vereinsmitglied stay classy! Registered: Dec 2002 Location: Posts: 16344	18.03.2026 - 16:06 @Daeda: die Daten Hoheit hast halt nur daheim. Da kannst alles reinstopfen....
roscoe tinkerer Registered: Mar 2005 Location: 1050 Wien Posts: 731	18.03.2026 - 19:32 Zitat aus einem Post von Daeda Was erhofft ihr euch mit dem lokal ausführen der LLMs eigentlich? Nur Spielerei oder auch praktische Anwendung? Ich programmiere immer wieder mit diversen KIs im Web herum. Die lokale KI ist dann dafür da, dass sie das einfügt, was ich dem Web nicht anvertrauen mag. Ansonsten auch gerne für zB Logfile-Analyse etc.
InfiX she/her Registered: Mar 2002 Location: Graz Posts: 15110	19.03.2026 - 11:32 Zitat aus einem Post von charmin @Daeda: die Daten Hoheit hast halt nur daheim. Da kannst alles reinstopfen.... qft. das bewusstsein fehlt vielen leider noch.
BiG_WEaSeL Elder - Registered: Jun 2000 Location: Wien Posts: 8653	19.03.2026 - 11:42 Wer nichts zu verbergen hat,... Im Ernst: Für sensible Daten und weil ich nicht 100te Abos zahlen möchte. Lokal verwende ich derzeit Qwen3.5-35B 8 und 9 Bit, ich code derzeit aber nicht (lokal).
Daeda Renegade Registered: Aug 2007 Location: Graz Posts: 1828	20.03.2026 - 08:33 Zitat aus einem Post von wergor Was sind Parameter? Die Hardware liegt daheim und dank PV ists gratis Gut, das mit PV und Stromüberschuss verwenden is ein guter Punkt - aber die HW daheim reicht halt selten für gscheite Anwendungsfälle, oder? Weiter oben wurde ja zB nach "Vibe Coding" für lokale HW gefragt. Da schießt man sich doch selbst ins Knie, wenn man nicht grad ein mehrere-tausend-€-teures Setup daheim hat um gscheite Models laufen zu lassen @Daten Hoheit Mammouth zB wirbt mit "bleiben Sie Eigentümer Ihrer Daten". Zugegeben ist das a bissl komisch, weil sie je nach Model doch Prompt und Input (Files etc.) an OpenAI, Anthropic & Co. schicken müssen - aber zumindest verweisen sie für mehr Infos dazu gleich in ihre FAQ und fassen dort sogar deren Policies zusammen. Für Open Source Modelle verwenden sie auch nur https://fireworks.ai/, hab gedacht die würden das selbst betreiben. Aber selbst wenn man geheime Dinge macht oder einfach aus Prinzip keine Daten verschicken will, gibts noch immer die Möglichkeit, sich einen Server dafür zu mieten Um 200€/Monat bekommt man da zB bei Hetzner schon einen GEX44 mit RTX4000 20GB vRAM. Fürs ausprobieren und herumspielen wäre das doch eine Alternative? Und trotzdem quasi "lokal". Wenn man sich mit mehreren zum Gruppen-Viben abstimmt, wird das richtig günstig bzw. könnte man sich dann auch was Größeres holen ^^
erlgrey formerly known as der~erl Registered: Aug 2002 Location: Wien Posts: 4558	20.03.2026 - 09:23 Hier gehts halt nicht um Reseller von ai datenkraken sondern darum es lokal selber laufen zu lassen. Mit einer 16GB GPU geht schon bisserl was, die hier vermutlich eh jeder hat, ein strix halo system mit 64-128GB bekommst zwischen 2000-3000€. Das ist nicht "günstig" aber 200€ pro monat für mickrige 20GB VRAM im vserver sind da ja noch der deutlich schlechtere deal.
charmin Vereinsmitglied stay classy! Registered: Dec 2002 Location: Posts: 16344	20.03.2026 - 09:26 Am besten wäre wohl sowas wie ein gmktec Evo t2. 128gb RAM rein und es rennen größere Modelle als auf einer 5090 die einfach zu wenig Speicher hat für gscheide modelle
MightyMaz hat nun auch einen Titel Registered: Feb 2003 Location: .de Posts: 760	20.03.2026 - 09:53 Ich programmiere nicht (kann also zum Thema Code Qualität nix sagen) aber das beste Text only Modell bei 64 GB Ram ist imho nach wie vor gpt-oss 120b. Das läuft auf meiner Hardware in für mich für diesen Zweck noch akzeptabler Geschwindigkeit (im Gegensatz zu z.B. llama 3.3 70b) und scheint mir besser zu skalieren als die Qwen Modelle.
charmin Vereinsmitglied stay classy! Registered: Dec 2002 Location: Posts: 16344	20.03.2026 - 09:54 Das rennt bei mir am PC a ned so schlecht. Halt im ram weil zu groß für die 5090. Find das a ganz cool.
voyager banned by viper780 Registered: Nov 2001 Location: offline Posts: 4574	20.03.2026 - 10:00 welche lokalen VM´s sind denn überhaupt zum coden brauchbar? damit ich mal ne Idee hab, was ich mir in LM Studio lad. mit 24gb am Mac geht zumindest n 16-20gb modell brauchbar
BiG_WEaSeL Elder - Registered: Jun 2000 Location: Wien Posts: 8653	20.03.2026 - 10:21 Unterschätzt auch nicht den bang for buck bei Mac minis.
charmin Vereinsmitglied stay classy! Registered: Dec 2002 Location: Posts: 16344	20.03.2026 - 10:42 Zitat aus einem Post von BiG_WEaSeL Unterschätzt auch nicht den bang for buck bei Mac minis. oder des, ja. hautpsache igpu die den systemspeicher nutzt und der schnell is. endnutzer gaming gpu kann leider nix aufgrund begrenztem speicher.
voyager banned by viper780 Registered: Nov 2001 Location: offline Posts: 4574	20.03.2026 - 10:50 Zitat aus einem Post von charmin hautpsache igpu die den systemspeicher nutzt bei stärkeren Macs haben wir das getestet mal, da kannst auch 400gb+ ram nutzen für llm´s ,... wenn halt genug drin ist
Daeda Renegade Registered: Aug 2007 Location: Graz Posts: 1828	20.03.2026 - 10:51 Zitat aus einem Post von erlgrey Hier gehts halt nicht um Reseller von ai datenkraken sondern darum es lokal selber laufen zu lassen. Ich hab ja extra auch das Hosting von Open Source Modellen angesprochen, nicht nur die ai-datenkraken. Oder wirfst du das alles in einen Hut? Zitat aus einem Post von erlgrey Mit einer 16GB GPU geht schon bisserl was, die hier vermutlich eh jeder hat, ein strix halo system mit 64-128GB bekommst zwischen 2000-3000€. Das ist nicht "günstig" aber 200€ pro monat für mickrige 20GB VRAM im vserver sind da ja noch der deutlich schlechtere deal. Niemand redet von einem vServer, das ist ein dedicated HW Kastl auf das man Zugriff bekommt. Aber weils grad angesprochen wurde, wann nimmt man besser VRAM und wann geht auch der normal RAM? Versteh ich das richtig: Prinzipiell ist immer VRAM zu empfehlen, aber wenn Speed nicht so wichtig ist, geht auch der normale? Aber was würde auf die von erlgrey angesprochene 16GB Karte raufpassen? Soviel ich weiß maximal 20B Modelle? Wenn bei euch das gpt-oss 120b rennt, sollte das neue "NVIDIA Nemotron 3 Super" auch laufen, bissl "besser" und vor allem schneller sein. Und größeren Context kanns auch, aber das hängt wieder mit den Systemressourcen zusammen, oder? Ausführlicher Bericht übers Model: https://xcancel.com/ArtificialAnlys...5321233908121#m Es verwendet zwar mehr Tokens als gpt-oss, aber schafft es diese schneller auszugeben, is a bissl "gscheiter" und halluziniert weniger.
charmin Vereinsmitglied stay classy! Registered: Dec 2002 Location: Posts: 16344	20.03.2026 - 10:59 Keines der fürs coden interessanten Modelle geht in eine 5090 rein und rennt gut. Dann kannst nur noch eine Hardware nehmen die sehr schnellen RAM hat. 8600 oder sowas. Und halt eine igpu die schnell Matrizen multiplizieren kann

KI Modelle auf lokaler Hardware

Forum Index > Software > Artificial Intelligence

charmin

roscoe

InfiX

BiG_WEaSeL

Daeda

erlgrey

charmin

MightyMaz

charmin

voyager

BiG_WEaSeL

charmin

voyager

Daeda

charmin