"We are back" « oc.at

KI Modelle auf lokaler Hardware

EndOfDayz 08.02.2025 - 20:46 15431 94
Posts

charmin

Vereinsmitglied
stay classy!
Avatar
Registered: Dec 2002
Location:  
Posts: 16344
@Daeda: die Daten Hoheit hast halt nur daheim.
Da kannst alles reinstopfen....

roscoe

tinkerer
Avatar
Registered: Mar 2005
Location: 1050 Wien
Posts: 731
Zitat aus einem Post von Daeda
Was erhofft ihr euch mit dem lokal ausführen der LLMs eigentlich? Nur Spielerei oder auch praktische Anwendung?

Ich programmiere immer wieder mit diversen KIs im Web herum. Die lokale KI ist dann dafür da, dass sie das einfügt, was ich dem Web nicht anvertrauen mag.

Ansonsten auch gerne für zB Logfile-Analyse etc.

InfiX

she/her
Avatar
Registered: Mar 2002
Location: Graz
Posts: 15110
Zitat aus einem Post von charmin
@Daeda: die Daten Hoheit hast halt nur daheim.
Da kannst alles reinstopfen....
qft.

das bewusstsein fehlt vielen leider noch.

BiG_WEaSeL

Elder
-
Avatar
Registered: Jun 2000
Location: Wien
Posts: 8653
Wer nichts zu verbergen hat,... ;)

Im Ernst: Für sensible Daten und weil ich nicht 100te Abos zahlen möchte. Lokal verwende ich derzeit Qwen3.5-35B 8 und 9 Bit, ich code derzeit aber nicht (lokal).

Daeda

Renegade
Registered: Aug 2007
Location: Graz
Posts: 1828
Zitat aus einem Post von wergor
Was sind Parameter? :D
Die Hardware liegt daheim und dank PV ists gratis ;)

Gut, das mit PV und Stromüberschuss verwenden is ein guter Punkt - aber die HW daheim reicht halt selten für gscheite Anwendungsfälle, oder?
Weiter oben wurde ja zB nach "Vibe Coding" für lokale HW gefragt. Da schießt man sich doch selbst ins Knie, wenn man nicht grad ein mehrere-tausend-€-teures Setup daheim hat um gscheite Models laufen zu lassen :D

@Daten Hoheit

Mammouth zB wirbt mit "bleiben Sie Eigentümer Ihrer Daten". Zugegeben ist das a bissl komisch, weil sie je nach Model doch Prompt und Input (Files etc.) an OpenAI, Anthropic & Co. schicken müssen - aber zumindest verweisen sie für mehr Infos dazu gleich in ihre FAQ und fassen dort sogar deren Policies zusammen. Für Open Source Modelle verwenden sie auch nur https://fireworks.ai/, hab gedacht die würden das selbst betreiben.

Aber selbst wenn man geheime Dinge macht oder einfach aus Prinzip keine Daten verschicken will, gibts noch immer die Möglichkeit, sich einen Server dafür zu mieten :D Um 200€/Monat bekommt man da zB bei Hetzner schon einen GEX44 mit RTX4000 20GB vRAM. Fürs ausprobieren und herumspielen wäre das doch eine Alternative? Und trotzdem quasi "lokal".
Wenn man sich mit mehreren zum Gruppen-Viben abstimmt, wird das richtig günstig bzw. könnte man sich dann auch was Größeres holen ^^

erlgrey

formerly known as der~erl
Registered: Aug 2002
Location: Wien
Posts: 4558
Hier gehts halt nicht um Reseller von ai datenkraken sondern darum es lokal selber laufen zu lassen.

Mit einer 16GB GPU geht schon bisserl was, die hier vermutlich eh jeder hat, ein strix halo system mit 64-128GB bekommst zwischen 2000-3000€. Das ist nicht "günstig" aber 200€ pro monat für mickrige 20GB VRAM im vserver sind da ja noch der deutlich schlechtere deal.

charmin

Vereinsmitglied
stay classy!
Avatar
Registered: Dec 2002
Location:  
Posts: 16344
Am besten wäre wohl sowas wie ein gmktec Evo t2.
128gb RAM rein und es rennen größere Modelle als auf einer 5090 die einfach zu wenig Speicher hat für gscheide modelle

MightyMaz

hat nun auch einen Titel
Registered: Feb 2003
Location: .de
Posts: 760
Ich programmiere nicht (kann also zum Thema Code Qualität nix sagen) aber das beste Text only Modell bei 64 GB Ram ist imho nach wie vor gpt-oss 120b. Das läuft auf meiner Hardware in für mich für diesen Zweck noch akzeptabler Geschwindigkeit (im Gegensatz zu z.B. llama 3.3 70b) und scheint mir besser zu skalieren als die Qwen Modelle.

charmin

Vereinsmitglied
stay classy!
Avatar
Registered: Dec 2002
Location:  
Posts: 16344
Das rennt bei mir am PC a ned so schlecht.
Halt im ram weil zu groß für die 5090.
Find das a ganz cool.

voyager

banned by viper780
Registered: Nov 2001
Location: offline
Posts: 4574
welche lokalen VM´s sind denn überhaupt zum coden brauchbar? damit ich mal ne Idee hab, was ich mir in LM Studio lad. mit 24gb am Mac geht zumindest n 16-20gb modell brauchbar

BiG_WEaSeL

Elder
-
Avatar
Registered: Jun 2000
Location: Wien
Posts: 8653
Unterschätzt auch nicht den bang for buck bei Mac minis.

charmin

Vereinsmitglied
stay classy!
Avatar
Registered: Dec 2002
Location:  
Posts: 16344
Zitat aus einem Post von BiG_WEaSeL
Unterschätzt auch nicht den bang for buck bei Mac minis.

oder des, ja.
hautpsache igpu die den systemspeicher nutzt und der schnell is. endnutzer gaming gpu kann leider nix aufgrund begrenztem speicher.

voyager

banned by viper780
Registered: Nov 2001
Location: offline
Posts: 4574
Zitat aus einem Post von charmin
hautpsache igpu die den systemspeicher nutzt

bei stärkeren Macs haben wir das getestet mal, da kannst auch 400gb+ ram nutzen für llm´s ,... wenn halt genug drin ist :D

Daeda

Renegade
Registered: Aug 2007
Location: Graz
Posts: 1828
Zitat aus einem Post von erlgrey
Hier gehts halt nicht um Reseller von ai datenkraken sondern darum es lokal selber laufen zu lassen.

Ich hab ja extra auch das Hosting von Open Source Modellen angesprochen, nicht nur die ai-datenkraken. Oder wirfst du das alles in einen Hut?

Zitat aus einem Post von erlgrey
Mit einer 16GB GPU geht schon bisserl was, die hier vermutlich eh jeder hat, ein strix halo system mit 64-128GB bekommst zwischen 2000-3000€. Das ist nicht "günstig" aber 200€ pro monat für mickrige 20GB VRAM im vserver sind da ja noch der deutlich schlechtere deal.

Niemand redet von einem vServer, das ist ein dedicated HW Kastl auf das man Zugriff bekommt.

Aber weils grad angesprochen wurde, wann nimmt man besser VRAM und wann geht auch der normal RAM? Versteh ich das richtig: Prinzipiell ist immer VRAM zu empfehlen, aber wenn Speed nicht so wichtig ist, geht auch der normale?

Aber was würde auf die von erlgrey angesprochene 16GB Karte raufpassen? Soviel ich weiß maximal 20B Modelle?

Wenn bei euch das gpt-oss 120b rennt, sollte das neue "NVIDIA Nemotron 3 Super" auch laufen, bissl "besser" und vor allem schneller sein. Und größeren Context kanns auch, aber das hängt wieder mit den Systemressourcen zusammen, oder? Ausführlicher Bericht übers Model: https://xcancel.com/ArtificialAnlys...5321233908121#m
Es verwendet zwar mehr Tokens als gpt-oss, aber schafft es diese schneller auszugeben, is a bissl "gscheiter" und halluziniert weniger.

charmin

Vereinsmitglied
stay classy!
Avatar
Registered: Dec 2002
Location:  
Posts: 16344
Keines der fürs coden interessanten Modelle geht in eine 5090 rein und rennt gut.
Dann kannst nur noch eine Hardware nehmen die sehr schnellen RAM hat. 8600 oder sowas. Und halt eine igpu die schnell Matrizen multiplizieren kann :D
Kontakt | Unser Forum | Über overclockers.at | Impressum | Datenschutz