GrandAdmiralThrawn
Lord of Derailment
|
Grüß euch, Nachdem ich für die Arbeit lernen soll wie man Kubernetes GPU Cluster hochzieht, betreibt und wartet, wäre ich an einer Schulung in dem Bereich interessiert. Weil mir das selbst von null weg beibringen ist wohl ned so schlau (oder überhaupt machbar), wenn man bedenkt was für ein Monstrum das wohl ist. Was ich gerne hätte wäre aber kein Onlinetraining, sondern wirklich ein lokaler Kurs, wo man also hinfährt und das ganze unter Begleitung eines Experten von null weg hochzieht und betreibt. Das funktioniert für mich ungleich besser. Solche Schulungszentren gibt es in Österreich von mehreren Firmen (z.B. NobleProg, iTLS, die Knowledge Academy, usw.), nur kann ich die mangels Erfahrung nicht einschätzen. Was ich auf Basis meines aktuellen Kenntnisstands brauchen werde ist zumindest folgendes (und vielleicht noch zig andere Sachen die ich noch ned am Schirm habe): - Containergrundlagen
- Kubernetes Grundlagen
- Das ganze aufsetzen und verwalten, auch Dinge wie Rollbacks und Upgrades von Komponenten
- NVIDIA GPUs einbinden
- Rancher
- Ansible für's Deployment
- Clustering mehrerer Hosts
Auch kommt bei uns dazu: - NVIDIA GPU Operator & NVIDIA KAI Scheduler
- Ein mit einem zentralen Keycloak Server verknüpfter Authentik Server für die Authentifizierung gegen ein Active Directory Backend
- Jupyter Notebooks für Python Programmierung mit containerisiertem Google TensorFlow im Hintergrund (mit GPU Nutzung halt)
Das ganze läuft on premises bei uns. Ich bin halt in dem Bereich als Wald- und Wiesen-Admin ein völliger Nuppler, ich habe noch nicht Mal mit Docker oder Podman gearbeitet. Linux Vorkenntnisse gibt es aber, arbeite seit 20 Jahren damit. Aber ich kann halt nur so altmodische Basics, Webserver aufsetzen, SQL Server aufsetzen, bissl Systemautomatisierung, Qemu/KVM Virtualisierung und halt so Kleinigkeiten. Was ich aber schon gemacht habe ist ein RedHat Enterprise Virtualization System mit NVIDIA vGPUs hochzuziehen, und das war mir schon fast zu komplex um durchzublicken, das hat zig Monate gekostet. Ist auch so ein größerer, clusterfähiger Hypervisor der aber heuer komplett EoL geht. Aktuell wartet unseren noch einzigen, existierenden Kuberneteshost ein Doktorand, der sich halt schon seit zig Jahren auch privat damit auseinandersetzt und weiß was er tut. Aber der hat halt auch einfach nicht die Zeit dafür mich zusätzlich zur bestehenden Arbeitslast ausbilden zu gehen. Und er wird halt irgendwann auf und davon sein, womit das ganze auf mich fallen soll. Vielleicht gibt's ja unter euch ein paar Erfahrungswerte, die mir da weiterhelfen könnten, dazu welche Schulungszentren da also wirklich empfehlenswert wären. Oder vielleicht habt ihr noch andere Vorschläge? Wobei mir das hands-on Training halt wirklich wichtig wäre. Vielen Dank jedenfalls!
Bearbeitet von GrandAdmiralThrawn am 24.03.2026, 11:29
|
Lord Wyrm
ex-topquote owner
|
Ich bezweifle, dass du so einen Kurs ootb findest. Das wird eher einer oder mehrere Workshops von einem Spezialisten in der Richtung erfordern imo.
Als jemand der beruflich YAML Operator ist muss ich sagen - thats a lot. Einen Cluster installieren ist schnell mal erledigt. Den allerdings in prod zu betreiben und aktuell zu halten während man best practices befolgt nimmt aber einiges Zeit und Wissen in Anspruch.
Dies alleine zur (vermutlich reichlich vorhandenen) normalen Arbeitslast stemmen find ich abenteuerlich/unrealistisch.
In der Firma für die ich arbeite gibt es ein Team das auf Services in der Richtung spezialisiert ist. Solltest du Interesse haben kann ich dich verbinden.
|
GrandAdmiralThrawn
Lord of Derailment
|
Ich habe schon welche gefunden, die so ca. 90% abdecken. Aber ja, man sieht gleich bei den Schulungszentren, daß es zig verschiedene "Subkurse" gibt, wenn man eben bestimmte Sachen wie GPUs einbinden muß, oder Ansible oder Rancher mit dabei haben will.
Das ist aber eh okay. Wenn ich mir das modular zusammenstoppeln muß, dann isses halt so.
Manche Zentren bilden auch eine Customization an, wo du denen sagst was du brauchst und die bauen dir deinen Custom Kurs zusammen. Wird halt mehr kosten schätze ich, und man wird mehrere Leute zusammenklopfen müssen damit das zustande kommen kann. Aber das kann man ja anstrengen.
Dazu wie realistisch das ist: Der Doktorand schafft's auch. Der ist halt nur viel gebildeter, jünger und lernfähiger als ich, aber jo. Auf der Basis kann ich nur schwer argumentieren daß das zuviel ist. Der macht ja auch ned nur das, sondern nebenher noch sein Doktorat. Das erschwert die Argumentation zusätzlich.
Eine Info noch: Das System wird rein intern genutzt, und zwar für die Zwecke der Forschung und Lehre mit Schwerpunkt auf Maschinellem Lernen und KI. Das ist das Spezialgebiet unseres Chefs seit 20+ Jahren. Das ist auch kein riesen Cluster, es gibt nur zwei GPU Hosts mit in Summe zwölf NVIDIA A100, das war's auch schon.
Wenn jetzt mein Chef sagt ich muß das machen, najo, dann kann ich auch schwerlich "nein" sagen. Aber ich werde dein Argument bei der nächsten Besprechung eventuell zumindest einbringen, sodaß wenigstens eventuell enger gesteckte Zeitpläne eventuell erweitert werden können bzw. müssen.
Edit: Sorry, hab' was vergessen: Zu deinem Angebot, das könnte nützlich sein! Das nehme ich also gerne dankend an!
Bearbeitet von GrandAdmiralThrawn am 24.03.2026, 12:43
|
davebastard
Vinyl-Sammler
|
in der Größenordnung denk ich schon dass es machbar ist. Klingt jetzt nicht so als wär das ganze wahnsinnig vielschichtig. wir betreuen auch 2 Cluster, einen on premise und einen grade im Aufbau befindlichen in der Cloud. mit 2 Senior und 2 Junior, wobei momentan fast alles ich und mein Kollege (beide Senior) und eventuell noch der Chefentwickler der Applikationen machen. Wir haben aber sonst auch noch viele andere Aufgaben. Und am on prem Cluster läuft aber unsere ganze Produktivumgebung... generell ist der Aufwand IMHO nicht so leicht abschätzbar ohne dass man die genaue Architektur kennt. ich hab allerdings auch nie einen Kurs gemacht sondern wir habens uns gegenseitig selbst beigebracht es gibt die offiziellen Zertifizierungen https://kubernetes.io/de/training/ und ich vermute dazu wirds auch Vorbereitungskurse geben. Was mir aber bei Veranstaltungen wie kubecon aufgefallen ist dass kubernetes onpremise Installationen nicht sooo verbreitet sind. Das ist definitiv erschwerend was das Kursangebot betrifft.
Bearbeitet von davebastard am 24.03.2026, 13:45
|
GrandAdmiralThrawn
Lord of Derailment
|
Aber geben tut's das. Bis jetzt gefällt mir das Angebot von NobleProg am besten, die haben da echt viele Optionen drin, vor allem auch mit GPUs. Hätte nur gehofft daß schon jemand Erfahrung hätte auf die man bauen kann. Schade wenn nicht, aber kann ma nix machen wenn's so sein sollte.
Schlucken wird der Chef halt wahrscheinlich wenn er die Preise sieht...
|
davebastard
Vinyl-Sammler
|
welcher Kurs z.B. ? interessiert mich nur, wäre für die Kollegen eventuell auch was
|
GrandAdmiralThrawn
Lord of Derailment
|
[ Hier ist ein Überblick]. Und dann gibt's da zum Beispiel [ sowas] oder [ sowas] oder [ sowas]. Jetzt finde ich grade den "Kubernetes Complete" Kurs ned mehr, da schaue ich morgen noch Mal nach.
|
Lord Wyrm
ex-topquote owner
|
Prinzipiell kann man einen Cluster mit eingeschränktem Benutzerkreis allein schaukeln, wenn das herum passt und man halbwegs weiß was man tut. Das ist halt der Punkt wo es für mich eben abenteuerlich wird - wenn du schreibst du hattest noch nicht mal mit Containern zu tun ist das ein sehr großes Gebiet mit teils sehr komplexen Themen in die du eintauchst, so nebenbei kann das imo schon überwältigend sein.
Auf was du dich einstellen kannst ist das ein Zero to Hero Kurs dir hier dann SEHR viel Input liefern wird, wo fraglich ist was hängen bleibt (ohne deinen Typ zu kennen). Zumindest Grundlagen vorab anzusehen wär definitiv gut.
Wenn du eh schon den Doktoranden in der Firma hast der den aktuellen PoC betreibt wär es imo sehr sinnvoll bei dem anzusetzen für Wissenstransfer von bestehendem. Wenn der von eurem Geld bezahlt wird sollte es doch möglich sein hier Wege für eine Wissensweitergabe im Dienst zu finden.
Für die offiziellen Zertifizierungen der Linux Foundation zu Kubernetes gibt es, wie davethebastard schon geschrieben hat, teils sehr gute Kurse mit Labs online, die kann man in seinem eigenen Tempo machen - was bei manchen der Konzepte für mich sehr sinnvoll war. Die Zertifizierungen selbst muss man ja nicht machen (Ich war CKAD, CKA, CKS zertifiziert und find die Exams eher fragwürdig, daher keine Rezertifizierung).
|
daisho
VereinsmitgliedSHODAN
|
Ich hab mittlerweile alle mögliche Albträume bei Kunden gesehen, wie Cluster wo alles im Default Namespace liegt o.Ä.  In der Anforderung sind schon viele Topics tbh, würde mal einfach anfangen mit k8s Grundzüge. Abgesehen von externen Trainings die imho ein must have wären würde ich nebenbei auch einfach anfangen einfach mal einen (OpenShift) Cluster aufsetzen und paar Test Applikationen ausrollen und dann drauf herumspielen. (Sich umschauen woraus das alles besteht, wie man sich in pods reinhaut fürs debuggen bzw logs rausziehen o.Ä.)
|
davebastard
Vinyl-Sammler
|
[Hier ist ein Überblick]. Und dann gibt's da zum Beispiel [sowas] oder [sowas] oder [sowas].
Jetzt finde ich grade den "Kubernetes Complete" Kurs ned mehr, da schaue ich morgen noch Mal nach.
alles sicher brauchbar für die Grundlagen, ich würde mich nur informieren ob on-premise dabei ausreichend behandelt wird, seh ich hier nicht oder zuwenig erwähnt. Wir verwenden dafür z.B. kubespray was ein vordefiniertes set an sehr komplexen ineinander greifenden ansible playbooks ist. das nur mit ansible selbst zu stemmen, also selber die playbooks zu schreiben wäre nämlich massiv PITA wenn du schreibst du hattest noch nicht mal mit Containern zu tun ist das ein sehr großes Gebiet mit teils sehr komplexen Themen in die du eintauchst, so nebenbei kann das imo schon überwältigend sein. jap das is sicher ein Ding... also wir waren mit docker schon sehr gut unterwegs wie wir mit kubernetes angefangen haben. Also nicht nur container von dockerhub verwenden sondern auch container selber bauen und debuggen usw... also das is dann nochmal ein Brocken. Wenn du eh schon den Doktoranden in der Firma hast der den aktuellen PoC betreibt wär es imo sehr sinnvoll bei dem anzusetzen für Wissenstransfer von bestehendem. Wenn der von eurem Geld bezahlt wird sollte es doch möglich sein hier Wege für eine Wissensweitergabe im Dienst zu finden. fullack, das wär schon wichtig... vor allem wenn du sein projekt weiterführen sollst. es gibt bei k8s immer 1000Wege das selbe zu machen, wäre schon wichtig das mal zu erfahren was er sich bei der Architektur gedacht hat und warum er sie so aufgebaut hat wies is. edit: ein positiver effekt ist dass die AI einem hier IMHO sehr gut weiterhelfen kann. Ich mein jetzt den lernen Aspekt. Man kann wenn man irgendwo ansteht einfach Fragen auch wenn man grad keinen Trainer vom Kurs bei der Hand hat. du kannst logfiles oder yaml files reinwerfen und dir erklären lassen wo der Fehler is und warum und wieso usw. usf. Das hats wie ich angefangen hab noch nicht gegeben und alles aus der Doku rauszuzeln is halt nochmal zacher.. für die Grundkonzepte is aber der Kurs sicher auch gut und hätt ich mir auch gewünscht... wir hatten nur ein paar videokurse und halt interne Wissensweitergabe
Bearbeitet von davebastard am 24.03.2026, 18:30
|
GrandAdmiralThrawn
Lord of Derailment
|
@daisho: Brauchts OpenShift? Weil das ist ja letztenendes ein kostenpflichtiges RedHat Produkt, das ein nochmal komplexeres Superset zu Kubernetes darstellt? Oder verstehe ich das falsch? @davebastard: Danke für die Hinweise. Wissenstransfer von dem Herrn der das aktuell noch macht ist nicht unmöglich, aber erschwert. Diese Systeme (also die Hardware) sind über ein gefördertes Infrastrukturprojekt finanziert, für das es eine Anforderung war, daß mehrere Institute kollaborieren und gemeinsam investieren müssen um Konsolidierungseffekte zu schaffen. Also ein Dinner mit zig Köchen. Jetzt sitzt der Mann leider nicht in meinem Institut, womit mein Chef ihm gegenüber auch keine Weisungsbefugnis hat. Sprich: Ich kann mir nur schwer vorstellen, daß sich da ein wirklich nennenswerter Wissenstransfer und ein internes Training umsetzen läßt, das will der Mann vielleicht auch gar ned machen. Was ich aber sehr wohl greifbar habe ist ein Kollege, der mit docker / podman umgehen kann, der hat auch schon selber Container gebaut. Blöderweise ist der Mann leider ziemlich arg überarbeitet.  Ich meine, drüber reden kann man natürlich, aber ich glaube eher nicht daß da viel geht. Seine Setupdokumentation hätte ich aber. Und jetzt noch der Link zur sogenannten [ Komplettschulung] (auch wenn sowas "komplett" wohl unmöglich ist). Es gibt auch welche - das habe ich auch schon gesehen - wo explizit dabeisteht, daß man einen Cluster im Kurs auf lokaler Hardware von Grund auf aufsetzt, das wär halt super denke ich.
|
davebastard
Vinyl-Sammler
|
docker oder wie container generell funktionieren ist imho aber eher selber zu stemmen als k8s also das bekommt man schon ohne Kurs auch hin. oder nur günstige video tutorials von udemy z.B. es ist auch leichter zum ausprobieren weil du keinen cluster zum testen brauchst sondern nur einen linux host... bzw. gäbs es sogar für windows... aber da hab ich keine Erfahrungen
Bearbeitet von davebastard am 25.03.2026, 08:48
|
Lord Wyrm
ex-topquote owner
|
@daisho: Brauchts OpenShift? Weil das ist ja letztenendes ein kostenpflichtiges RedHat Produkt, das ein nochmal komplexeres Superset zu Kubernetes darstellt? Oder verstehe ich das falsch?
OpenShift, wie auch Rancher, ist eine Kubernetes Distribution. Beide bieten wie du sagst auch noch einiges an Funktionalität überhalb von Vanilla k8s an und sind opionionated. Es gibt für beide sowohl eine community als auch eine subscription based version. Daneben gibt es noch einiges weitere an distris, aber imo sind die beiden die am erwähnenswertesten für OnPrem. docker oder wie container generell funktionieren ist imho aber eher selber zu stemmen als k8s also das bekommt man schon ohne Kurs auch hin. oder nur günstige video tutorials von udemy z.B. es ist auch leichter zum ausprobieren weil du keinen cluster zum testen brauchst sondern nur einen linux host... bzw. gäbs es sogar für windows... aber da hab ich keine Erfahrungen fullack. Und jetzt noch der Link zur sogenannten [Komplettschulung] (auch wenn sowas "komplett" wohl unmöglich ist). Es gibt auch welche - das habe ich auch schon gesehen - wo explizit dabeisteht, daß man einen Cluster im Kurs auf lokaler Hardware von Grund auf aufsetzt, das wär halt super denke ich.
Zwischen dem Preis der beim Kurs steht und bei den kommenden Kursen steht ist einiges an Unterschied. 10k für einen solchen Kurs find ich super frech.
Bearbeitet von Lord Wyrm am 25.03.2026, 09:55
|
davebastard
Vinyl-Sammler
|
ja is zach das zu rechtfertigen, das zahlt sich imho nur aus wenns für eine Hand voll Leute is.
|
daisho
VereinsmitgliedSHODAN
|
Hab das nur vorgeschlagen weil es halt auch ein UI bietet, bei Kunden sehr verbreitet ist (wenn man nicht grad im Cloud Umfeld ist mit den eigenen Lösungen wie AKS, EKS etc.) Die Cloud Lösungen kannst privat schwer aufsetzen ohne massive Kosten, OpenShift gibts iirc eine Dev/Free Version (noch?) Jetzt aus meiner Sicht von außen gesehen, ich hab viel mit den Systemen zu tun (Monitoring mit Dynatrace) aber verwalte sie nicht selber - dafür gibts dann Leute wie dich die das machen müssen
|