charmin
Vereinsmitgliedstay classy!
|
@Daeda: die Daten Hoheit hast halt nur daheim. Da kannst alles reinstopfen....
|
roscoe
tinkerer
|
Was erhofft ihr euch mit dem lokal ausführen der LLMs eigentlich? Nur Spielerei oder auch praktische Anwendung? Ich programmiere immer wieder mit diversen KIs im Web herum. Die lokale KI ist dann dafür da, dass sie das einfügt, was ich dem Web nicht anvertrauen mag. Ansonsten auch gerne für zB Logfile-Analyse etc.
|
InfiX
she/her
|
@Daeda: die Daten Hoheit hast halt nur daheim. Da kannst alles reinstopfen.... qft. das bewusstsein fehlt vielen leider noch.
|
BiG_WEaSeL
Elder-
|
Wer nichts zu verbergen hat,...  Im Ernst: Für sensible Daten und weil ich nicht 100te Abos zahlen möchte. Lokal verwende ich derzeit Qwen3.5-35B 8 und 9 Bit, ich code derzeit aber nicht (lokal).
|
Daeda
Renegade
|
Was sind Parameter?  Die Hardware liegt daheim und dank PV ists gratis  Gut, das mit PV und Stromüberschuss verwenden is ein guter Punkt - aber die HW daheim reicht halt selten für gscheite Anwendungsfälle, oder? Weiter oben wurde ja zB nach "Vibe Coding" für lokale HW gefragt. Da schießt man sich doch selbst ins Knie, wenn man nicht grad ein mehrere-tausend-€-teures Setup daheim hat um gscheite Models laufen zu lassen  @Daten Hoheit Mammouth zB wirbt mit "bleiben Sie Eigentümer Ihrer Daten". Zugegeben ist das a bissl komisch, weil sie je nach Model doch Prompt und Input (Files etc.) an OpenAI, Anthropic & Co. schicken müssen - aber zumindest verweisen sie für mehr Infos dazu gleich in ihre FAQ und fassen dort sogar deren Policies zusammen. Für Open Source Modelle verwenden sie auch nur https://fireworks.ai/, hab gedacht die würden das selbst betreiben. Aber selbst wenn man geheime Dinge macht oder einfach aus Prinzip keine Daten verschicken will, gibts noch immer die Möglichkeit, sich einen Server dafür zu mieten  Um 200€/Monat bekommt man da zB bei Hetzner schon einen GEX44 mit RTX4000 20GB vRAM. Fürs ausprobieren und herumspielen wäre das doch eine Alternative? Und trotzdem quasi "lokal". Wenn man sich mit mehreren zum Gruppen-Viben abstimmt, wird das richtig günstig bzw. könnte man sich dann auch was Größeres holen ^^
|
erlgrey
formerly known as der~erl
|
Hier gehts halt nicht um Reseller von ai datenkraken sondern darum es lokal selber laufen zu lassen.
Mit einer 16GB GPU geht schon bisserl was, die hier vermutlich eh jeder hat, ein strix halo system mit 64-128GB bekommst zwischen 2000-3000€. Das ist nicht "günstig" aber 200€ pro monat für mickrige 20GB VRAM im vserver sind da ja noch der deutlich schlechtere deal.
|
charmin
Vereinsmitgliedstay classy!
|
Am besten wäre wohl sowas wie ein gmktec Evo t2. 128gb RAM rein und es rennen größere Modelle als auf einer 5090 die einfach zu wenig Speicher hat für gscheide modelle
|
MightyMaz
hat nun auch einen Titel
|
Ich programmiere nicht (kann also zum Thema Code Qualität nix sagen) aber das beste Text only Modell bei 64 GB Ram ist imho nach wie vor gpt-oss 120b. Das läuft auf meiner Hardware in für mich für diesen Zweck noch akzeptabler Geschwindigkeit (im Gegensatz zu z.B. llama 3.3 70b) und scheint mir besser zu skalieren als die Qwen Modelle.
|
charmin
Vereinsmitgliedstay classy!
|
Das rennt bei mir am PC a ned so schlecht. Halt im ram weil zu groß für die 5090. Find das a ganz cool.
|
voyager
banned by viper780
|
welche lokalen VM´s sind denn überhaupt zum coden brauchbar? damit ich mal ne Idee hab, was ich mir in LM Studio lad. mit 24gb am Mac geht zumindest n 16-20gb modell brauchbar
|
BiG_WEaSeL
Elder-
|
Unterschätzt auch nicht den bang for buck bei Mac minis.
|
charmin
Vereinsmitgliedstay classy!
|
Unterschätzt auch nicht den bang for buck bei Mac minis. oder des, ja. hautpsache igpu die den systemspeicher nutzt und der schnell is. endnutzer gaming gpu kann leider nix aufgrund begrenztem speicher.
|
voyager
banned by viper780
|
hautpsache igpu die den systemspeicher nutzt bei stärkeren Macs haben wir das getestet mal, da kannst auch 400gb+ ram nutzen für llm´s ,... wenn halt genug drin ist
|
Daeda
Renegade
|
Hier gehts halt nicht um Reseller von ai datenkraken sondern darum es lokal selber laufen zu lassen. Ich hab ja extra auch das Hosting von Open Source Modellen angesprochen, nicht nur die ai-datenkraken. Oder wirfst du das alles in einen Hut? Mit einer 16GB GPU geht schon bisserl was, die hier vermutlich eh jeder hat, ein strix halo system mit 64-128GB bekommst zwischen 2000-3000€. Das ist nicht "günstig" aber 200€ pro monat für mickrige 20GB VRAM im vserver sind da ja noch der deutlich schlechtere deal. Niemand redet von einem vServer, das ist ein dedicated HW Kastl auf das man Zugriff bekommt. Aber weils grad angesprochen wurde, wann nimmt man besser VRAM und wann geht auch der normal RAM? Versteh ich das richtig: Prinzipiell ist immer VRAM zu empfehlen, aber wenn Speed nicht so wichtig ist, geht auch der normale? Aber was würde auf die von erlgrey angesprochene 16GB Karte raufpassen? Soviel ich weiß maximal 20B Modelle? Wenn bei euch das gpt-oss 120b rennt, sollte das neue "NVIDIA Nemotron 3 Super" auch laufen, bissl "besser" und vor allem schneller sein. Und größeren Context kanns auch, aber das hängt wieder mit den Systemressourcen zusammen, oder? Ausführlicher Bericht übers Model: https://xcancel.com/ArtificialAnlys...5321233908121#mEs verwendet zwar mehr Tokens als gpt-oss, aber schafft es diese schneller auszugeben, is a bissl "gscheiter" und halluziniert weniger.
|
charmin
Vereinsmitgliedstay classy!
|
Keines der fürs coden interessanten Modelle geht in eine 5090 rein und rennt gut. Dann kannst nur noch eine Hardware nehmen die sehr schnellen RAM hat. 8600 oder sowas. Und halt eine igpu die schnell Matrizen multiplizieren kann
|