Garbage
ElderThe Wizard of Owls
|
Aufpreis für ECC ist überschaubar und würde ich bei der geplanten Anwendung schon mitnehmen. Setzt aber angesichts der PCIe Leitungen für die Karten und einem evtl zukünftigen Speicherupgrade einen Threadripper Pro oder Xeon mit LGA3647 oder LGA4189 voraus.
Allerdings: Du wirst kein Board in einem Standardformat finden, das 4 Stück 3-Slot Karten ermöglicht. Die ganzen WS Boards sind auf 2-Slot ausgelegt.
Du könntest bei XI-Machines anfragen, die kenn ich und sind sehr kompetent.
|
charmin
Vereinsmitgliedstay classy!
|
okay, ich hab mir heute früh extra einige Papers rausgesucht, die auf den semantic KITTI benchmark gehen. Und dort haben einige Tesla V100 und einige eine 2080 Ti, 1080, etc. was für einen support brauch ich da? software support wollen wir keinen, das wird von uns aufgesetzt. Hardware Support -> wenn eine GPU eingeht und die in garantie is, soll die halt ersetzt werden. Aufpreis für ECC ist überschaubar und würde ich bei der geplanten Anwendung schon mitnehmen. Setzt aber angesichts der PCIe Leitungen für die Karten und einem evtl zukünftigen Speicherupgrade einen Threadripper Pro oder Xeon mit LGA3647 oder LGA4189 voraus.
Allerdings: Du wirst kein Board in einem Standardformat finden, das 4 Stück 3-Slot Karten ermöglicht. Die ganzen WS Boards sind auf 2-Slot ausgelegt.
Du könntest bei XI-Machines anfragen, die kenn ich und sind sehr kompetent. ok danke, dann fokussier ich mich auf ECC speicher. Der Aufpreis ist bei dem Gesamtpreis wirklich vernachlässigbar. und @XI-Machines, danke, mach ich! edit²: ich mein wenns so echt nicht geht, dann müssen wir halt zuerst eine GPU alleine nehmen. Eine A6000 oder sowas, und dann halt später nachrüsten.
Bearbeitet von charmin am 16.02.2022, 20:46
|
Viper780
ElderEr ist tot, Jim!
|
Du bewegst dich mit so einem Setup in einer schmalen Nische. Karten die plötzlich spinnen, zB nur eine Grafikkarte wird erkannt oder leistung ist nicht dort wo du sie dir erwartest. Speicher wird nur zu 40% benutzt, plötzliche Reboots wenn Traffic auf der Netzwerkkarte ist,...
Lauter so Späßchen wo du einen sehr sehr guten Support benötigst um damit nicht verrückt zu werden
|
mr.nice.
security baseline pusher
|
Ich kann dir aus der Krebsforschung berichten, unser deep learning spezialist war ein paarmal auf den Nvidia support angewiesen, weil es Fehler gab die er nicht selbst beheben konnte.
Übrigens das Förderungsprogramm heißt "AIM AT 2030" und man findet auch einen Kontakt im Ministerium. Ich würde es probieren.
Bearbeitet von mr.nice. am 16.02.2022, 21:10
|
charmin
Vereinsmitgliedstay classy!
|
Du bewegst dich mit so einem Setup in einer schmalen Nische. Karten die plötzlich spinnen, zB nur eine Grafikkarte wird erkannt oder leistung ist nicht dort wo du sie dir erwartest. Speicher wird nur zu 40% benutzt, plötzliche Reboots wenn Traffic auf der Netzwerkkarte ist,...
Lauter so Späßchen wo du einen sehr sehr guten Support benötigst um damit nicht verrückt zu werden what do you suggest? Ich kann dir aus der Krebsforschung berichten, unser deep learning spezialist war ein paarmal auf den Nvidia support angewiesen, weil es Fehler gab die er nicht selbst beheben konnte.
Übrigens das Förderungsprogramm heißt "AIM AT 2030" und man findet auch einen Kontakt im Ministerium. Ich würde es probieren. Vielen Dank!!!
|
Dune
Nimmt sich manchmal ernst
|
und da geht sich eine threadripper workstation mit 2 3090er ohne probleme mit 10k netto aus. Rechnet's ihr überhaupt auf der CPU? Als ich den letzten Cluster aussuchen durfte kann ich dir nur den Tipp geben die Anwendung aus jeder Perspektive zu benchen... Das Problem und die Anforderung verstehen und vor allem schauen wie es skaliert. Hab damals nur für CFD, FEM und paar exotische Simulationen geschaut, aber es hat sich gezeigt dass selbst innerhalb einer Domain die requirements arg unterschiedlich sind... Ich kann bei CFD mit 100GB RAM auskommen (HVAC) oder aber voll abkacken (Aerodynamik mit 100 Mio Topologiezellen). Dann gibt's auch noch die FrageN ob's eher in die Spitze skaliert (MHz) oder die Breite (Kerne), wie oft Großdaten hin und her wandern, wie viele User wann arbeiten und was die machen... Alles in Summe ****ing Rocket Science  Haben uns deswegen nach zwei Jahren Anforderungsprofil und Tests entschieden eine fertige Lösung beim Profi zu kaufen. Also Noob kann man da imho nur verlieren
|
Garbage
ElderThe Wizard of Owls
|
Die CPU ergibt sich halt durch die Anforderung an die PCIe Slots und deren Anbindung, da bist dann eben schnell bei Threadripper Pro/Epyc und der großen Xeon Plattform. Da muss man ja nicht unbedingt die größte CPU mit vielen Kernen reinstecken, du kaufst die Plattform eben wegen der anderen Features.
|
Dune
Nimmt sich manchmal ernst
|
Ja aber welchen? Wir haben allein zwei Monate mit MHz versus Kerne gebenched, das ist für fünf Plus Software Anwendungen mit anderen spezialisierungen schon recht unterschiedlich. Also ich würde vor allem Fokus auf die Anwendungstools und Auslastung setzen. Unser selbst gebauter Cluster um 500k war so Scheisze, dass ich viel empfehlen kann was man nicht machen sollte
|
Garbage
ElderThe Wizard of Owls
|
OK, wir haben das aus unterschiedlichen Winkeln gesehen.
Ich hab mich nur auf die Unterlage aus technischer Sicht bezogen, die für 4x PCIe x16 nötig ist, ohne jetzt auf die eigentliche CPU-Leistung einzugehen.
Es ist natürlich richtig, dass die CPU zu den Zielanwendungen passen muss. Da wirds dann halt mitunter schwierig, wenn man nicht Zeit und Budget hat, 2-3 verschiedene CPUs mit den eigenen Anwendungen durchzutesten. Von daher bin ich da durchaus bei dir, dass der Profi (ich bin auf dem Gebiet keiner) da wohl bessere Tipps geben kann, was für die gewünschte Anwendung passt.
|
Dune
Nimmt sich manchmal ernst
|
Genau das war eben auch unsere learnt lesson, daher haben wir selbst nach zwei Jahre Selektion auf einen qualifizierten Vendor gesetzt (CADFEM). Mag aber keine Werbung machen, es gibt sicher andere die dir einen gleich guten number cruncher für Simulation basteln. IBM hat uns beeindruckt wie zielstrebig sie am Problem vorbei gearbeitet haben  Ist halt ne globale AG...
|
Viper780
ElderEr ist tot, Jim!
|
what do you suggest? Entweder gibt es Empfehlungen von Software Herstellern oder aus der Community. Da kann man meist recht gut starten. Von IBM wurde ich auch mehrmals enttäuscht. Damals hat uns Atos und Bull sehr gut beraten und auch Systeme bereit gestellt. ACP hatte damals eine eigene Abteilung für Computer Systeme für Forschungszwecke. Du kannst auch mal direkt bei nvidia anfragen. Die fördern auch Forschung in Richtung AI und können dir regionale Partner nennen.
|
Dune
Nimmt sich manchmal ernst
|
|
charmin
Vereinsmitgliedstay classy!
|
so danke für euren input jungens.
Wir haben heute das Angebot bekommen:
Fix fertige Lenovo Machine Learning Workstation mit Vor-Ort Austausch usw. 32 Core Threadripper, 128 GB ECC, 2 x Nvidia A6000 zu echt fairem Netto preis. Weit unter dem Zeugs was sonst so verlangt wird.
|
Dune
Nimmt sich manchmal ernst
|
Das klingt wirklich ganz brauchbar  Habt ihr Benchmarks gefunden wie die A6000 versus 30X0 und 20X0 abschneidet bei gängigen ML Applikationen?
|
Viper780
ElderEr ist tot, Jim!
|
Hört sich ja sehr gut an! Magst mir den Preis schicken? ineressiert mich was das ca. kosten wird.
Wer ist da euer Partner?
|