URL: https://www.overclockers.at/artificial-intelligence/ki-modelle-gpt-xlstm-stable-diffusion-etc_261430/page_53 - zur Vollversion wechseln!
Für "5*9+2" bekomme ich mit den üblichen Parametern das richtige Ergebnis inklusive Herleitung. Allerdings war das bis vor kurzem zumindest bei dem kleinen llama Meta Modell noch nicht immer der Fall. Da hat wohl ein Update von ollama etwas verbessert.
Zitat aus einem Post von LongbowIch behaupte auch, dass es an snake liegt. Ein ähnlicher Versuch mit 2er Schnapsen landet beim üblichen „technically not wrong“. Er verhaspelt sich aber ständig mit Atout/Farbzwang, 20/40 etc… und ich hab absichtlich ein einfaches Spiel gewählt.
Wollte es dann noch einfacher: „Hosn owi“ und auch da mühsam.
Habe gpt4 und claude probiert.
ich hab ihm dann tlw. selber feedback gegeben und auch wiki verlinkt, mir schien aber (beim gpt4) dass er sich irgendwann im context wieder angespieben hat - weil er tlw. alte infos wieder vergessen hatte und mit den bugfixes dann immer wieder verschlimmbessert.
Wie es genau rennt weiß ich auch nicht, nicht mal ob überhaupt wirklich Wolfram dahinter steht.Zitat aus einem Post von DuneWie funktioniert das eigentlich technisch genau, mit APIs? Wolfram kann ja nicht sämtliche Ergebnisse auf jede beliebige Rechnung cachen. Wenn reasoning wieder nur verweis auf VektorDB Ergebnis bedeutet, ist es ja kein reasoning. Verstehe die Architektur da noch nicht so ganz.
Absolut!Zitat aus einem Post von DuneWolfram ist extrem geil, habe ich damals im Studium auch viel verwendet.
Muss ich noch recherchieren, ich kann's selber grad gar nicht beurteilen, wie die in dem Bereich arbeiten. Die schwierigen analytischen Aufgaben sind ja viel anspruchsvoller als numerische Fließkoma Berechnungen... Wenn da nicht-homogene nicht-lineare Differentialgleichungen usw. gelöst werden können... Da hilft es ja auch nicht nur auf bestehende Ergebnisse zu verweisen.
Interessantes Thema
Für alle die nicht nachvollziehen können warum LLM's schlecht in simpler Arithmetik und simpler Rechtschreibung ("How many r are in Strawberry") sind, dem kann ich Andrej Karpathy's letztes Youtube Video an's Herz legen.
Quintessenz: Es ist ein Problem der aktuellen Tokenisierung. Das LLM sind keine Buchstaben oder Zahlen, es sieht nur Token. Wenn du einem LLM sagst es soll Code verwenden um etwas zu berechnen, dann ist es meistens korrekt. Es quasi dazu zu bringen für gewisse Aufgaben, spezialisierte Tools zu verwenden (Use code, Use calc, ...) ist eben eine Schwachstelle der aktuellen Architektur (meine Worte)
Aber siehe Beispiel reasoning, sehe ich das als keine lang anhaltende Hürde
imho sind Wachstumsschmerzen und es ist genügend biologische Brainpower drann, dem Silicone weiter zum Denken zu verhelfen
btw. was mich grad viel mehr fasziniert, laut Deepseak analyse ist reasoning ein emerging property von LLMs.
Keiner sagt den Dingern dass sie hinterfragen sollen ob das stimmt, was ihnen spontan "einfällt".
Aber sie kommen "von alleine" drauf, dass ein gewisses "step-by-step" reasoning gut wäre.... spooky
Zitat aus einem Post von Longbowich hab ihm dann tlw. selber feedback gegeben und auch wiki verlinkt, mir schien aber (beim gpt4) dass er sich irgendwann im context wieder angespieben hat - weil er tlw. alte infos wieder vergessen hatte und mit den bugfixes dann immer wieder verschlimmbessert.
Spannend! Wär total interessant wie gut ein 0815 human im Vergleich zu den LLMs abschneidet. Werd spaßeshalber mal einen Test machen, wenn ich Zeit hab und schauen wie viel ich schaffen würde.Hat man bei den AIMEs ein beschränktes Zeitfenster? (:
Topic, das schlechte Abschneiden von 4o wundert mich persönlich nicht ganz. Gefühlt veroascht man das am meisten mit Halluzinationen beim Coden oder bei Assistenzaufgaben.
Hat hier schon jemand Deepseek lokal laufen?
Ich hab deepseek-r1:32b installiert
https://ollama.com/library/deepseek-r1
Aber wenn ich es richtig verstehe basieren die kleineren Modelle auf unterschiedlichen Basismodellen, sind also nicht direkt vergleichbar bzw. sind nur ressourcenschonender/schneller als die Modelle aus denen sie abgeleitet wurden(?)
Ich teste ganz gerne mit Magic the Gathering Regelfragen weil ich da am meisten Kompetenz habe.
In den meisten Fällen kommt in dem Bereich BS raus, wobei zwar teilweise das Ergebnis stimmt aber die Herleitung dann kompletter Unfug ist. Das deepseek-qwen-Modell füllt im Gegensatz zu meta-llama meist ganze Seiten und führt ellenlange "Selbstgespräche" und am Ende ist es dann trotzdem falsch.
Sie sind vom grossen Modell destilliert.
Hast du das 32b von ollama oder?
Ja genau und das basiert wohl auf Qwen (kannte ich nicht). Ansonsten hab ich noch die "normalen" llama 3-1 8B und 3-3 70B Modelle von Meta installiert. Letzteres ist dann vermutlich Oberkannte was auf meinem System noch (sehr langsam) läuft.
Wenn man wissen will was technisch wirklich schon möglich ist wird man wohl immer auf die besten Modelle zurückgreifen müssen, ich hab aber keine Bezahlaccounts.
Zitat aus einem Post von böhmiKann man ChatGPT nicht einfach nach einem Export der Konversation als .txt fragen?
Also irgendwie so:Code:export our conversation in a .txt-file from 23rd of february 2025 at 08:15am on
Zitat aus einem Post von MightyMazIch teste ganz gerne mit Magic the Gathering Regelfragen weil ich da am meisten Kompetenz habe.
Bruchteil von was?
Aktiven Parametern? Es is ein mixture of Experts Modell. Bei dem werden die fully connected layer durch spezielle trainierte Experten layer ersetzt und es dürfen maximal 2 aktiv sein bei der inferenz. Dadurch um einiges günstigere / schnellere inferenz und weniger aktive gewichte bei inferenz.
Spannend: auch die KI scheint gelegentlich psychologische Unterstützung zu brauchen
"Atemübungen GPT: Psychotherapie hilft auch ChatGPT.
KI verhält sich nach Konfrontation mit negativen Emotionen rassistischer oder sexistischer. Eine Studie zeigt, dass ChatGPT sich mit Achtsamkeitsübungen beruhigen lässt."
https://www.kleinezeitung.at/wirtsc...uch-bei-chatgpt
overclockers.at v4.thecommunity
© all rights reserved by overclockers.at 2000-2025