NVIDIA GPU Last plotten

GrandAdmiralThrawn

Lord of Derailment

Registered: Aug 2000
Location: BRUCK!
Posts: 3938

24.01.2023 - 08:19

Morgen,

Ich wollte Mal fragen ob jemand einen einfachen Weg kennt, um GPU Auslastung aufzuzeichnen bzw. in einen Graphen zu plotten. Genauer geht es um NVIDIA Tesla Karten + time-shared und MIG Mode vGPUs mit GRID Treiber. Bisher habe ich qnvsm, nvtop und gpustat versucht. Die laufen zwar alle, aber haben ein zu enges, maximales Zeitfenster für die Aufzeichnung, z.B. 2 Stunden bei qnvsm. Ich würde gerne über mehrere Wochen aufzeichnen und plotten lassen können, z.B. ein Wert alle 10 oder alle 60 Sekunden, sowas.

Jetzt könnte ich mir das z.B. mit gpustat und sed/awk usw. selbst loggen und dann billig in's Libreoffice Calc reinziehen, aber ich wollte nur fragen, ob's was fertiges gibt. Das Grafana, das in unser RHV System integriert ist hat leider keine Funktionalität für's Monitoring unserer vGPUs dabei, sonst wär's ja perfekt gewesen. Aber grade das fehlt.

Kennt da jemand was simples?

Danke!

Viper780

Elder
Er ist tot, Jim!

Registered: Mar 2001
Location: Wien
Posts: 52437

24.01.2023 - 08:35

Grafana ist ja nur die Anzeige - du kannst mal schauen ob du eins deiner Tools in Grafana einfach anbinden kannst.

Sprich du hast einen Agent welche die Daten in eine DB schreibt (meist InfluxDB oder Graphite) und Grafana stellt die Daten dar.

Ich habe mir mal was ähnliches für einen Kubernetes Cluster angeschaut und da hab ich den GPU Operator von nvidia genommen
https://github.com/NVIDIA/gpu-operator

Es gibt auch einen Prometheus exporter https://github.com/NVIDIA/dcgm-exporter

(sorry wenn ich bei der ursprünglichen Frage nicht helfen kann)

Edit fürs einfache Speichern und plotten wird als Quelle auch nvidia-smi aus dem Treiber reichen https://developer.nvidia.com/nvidia...ement-interface

Bearbeitet von Viper780 am 24.01.2023, 08:49

GrandAdmiralThrawn

Lord of Derailment

Registered: Aug 2000
Location: BRUCK!
Posts: 3938

24.01.2023 - 11:43

Ok, nvidia-smi habe ich natürlich drauf, das wäre dann in allen VMs mit vGPU sowieso dabei. Das bundled Grafana wollte ich eigentlich nicht unbedingt verändern, weil diese Änderungen wahrscheinlich weg sind, wenn man den Host bzw. die Management Engine vom RHV neu deployed / upgraded.

Werde ich wohl wirklich selber basteln müssen. Die anderen, genannten Komponenten schauen mir für das was ich gerne hätte ein bissl überkompliziert aus.

Bearbeitet von GrandAdmiralThrawn am 24.01.2023, 12:17

COLOSSUS

Administrator
GNUltra

Registered: Dec 2000
Location: ~
Posts: 12375

24.01.2023 - 11:50

Wenn du was hast, das dir die Last auf der CLI als Float oder Integer ausgibt, kannst du RRDtool innerhalb weniger Minuten deine Graphing-Loesung basteln. Es muss ja nicht immer Cloud-native O11y Hipstershit aus dem 4. Zukunftsjahrtausend sein.

GrandAdmiralThrawn

Lord of Derailment

Registered: Aug 2000
Location: BRUCK!
Posts: 3938

24.01.2023 - 12:16

Also Die Last kriege ich recht einfach raus. RRDTool kenne ich noch nicht, aber nachdem du "innerhalb weniger Minuten" gesagt hast, hast bei mir schon den richtigen Knopf gedrückt!

Das schaue ich mir Mal an!

charmin

Vereinsmitglied
stay classy!

Registered: Dec 2002
Location:
Posts: 16328

24.01.2023 - 12:29

ich verwende das da:
aber bei dir rennt nix im docker oder? bild mir aber ein dass netdata auch ganz normal die gpu last ohne docker auslesen kann.
es überwacht halt zusätzlich noch die laufenden docker instanzen iirc

GitHub - D34DC3N73R/netdata-glibc: netdata with glibc package for use with nvidia-docker2

netdata with glibc package for use with nvidia-docker2 - GitHub - D34DC3N73R/netdata-glibc: netdata with glibc package for use with nvidia-docker2

Link: github.com

GrandAdmiralThrawn

Lord of Derailment

Registered: Aug 2000
Location: BRUCK!
Posts: 3938

24.01.2023 - 14:19

Docker haben wir stellenweise in manchen VMs rennen, aber nicht bei den vGPU Deep Learning Instanzen. Ich würd's "ganz normal" machen, das RRDtool gibt's schon als Package im RHEL, das wir als VM Guests nutzen. Gut, netdata zwar auch, aber ich schau mir zuerst Mal RRDtool an. Kann ich eh auf meiner lokalen Maschine auch mit beidem rumspielen, weil da rennt's gleiche Betriebssystem wie auf den VMs.

GrandAdmiralThrawn Lord of Derailment Registered: Aug 2000 Location: BRUCK! Posts: 3938	24.01.2023 - 08:19 Morgen, Ich wollte Mal fragen ob jemand einen einfachen Weg kennt, um GPU Auslastung aufzuzeichnen bzw. in einen Graphen zu plotten. Genauer geht es um NVIDIA Tesla Karten + time-shared und MIG Mode vGPUs mit GRID Treiber. Bisher habe ich qnvsm, nvtop und gpustat versucht. Die laufen zwar alle, aber haben ein zu enges, maximales Zeitfenster für die Aufzeichnung, z.B. 2 Stunden bei qnvsm. Ich würde gerne über mehrere Wochen aufzeichnen und plotten lassen können, z.B. ein Wert alle 10 oder alle 60 Sekunden, sowas. Jetzt könnte ich mir das z.B. mit gpustat und sed/awk usw. selbst loggen und dann billig in's Libreoffice Calc reinziehen, aber ich wollte nur fragen, ob's was fertiges gibt. Das Grafana, das in unser RHV System integriert ist hat leider keine Funktionalität für's Monitoring unserer vGPUs dabei, sonst wär's ja perfekt gewesen. Aber grade das fehlt. Kennt da jemand was simples? Danke!
Viper780 Elder Er ist tot, Jim! Registered: Mar 2001 Location: Wien Posts: 52437	24.01.2023 - 08:35 Grafana ist ja nur die Anzeige - du kannst mal schauen ob du eins deiner Tools in Grafana einfach anbinden kannst. Sprich du hast einen Agent welche die Daten in eine DB schreibt (meist InfluxDB oder Graphite) und Grafana stellt die Daten dar. Ich habe mir mal was ähnliches für einen Kubernetes Cluster angeschaut und da hab ich den GPU Operator von nvidia genommen https://github.com/NVIDIA/gpu-operator Es gibt auch einen Prometheus exporter https://github.com/NVIDIA/dcgm-exporter (sorry wenn ich bei der ursprünglichen Frage nicht helfen kann) Edit fürs einfache Speichern und plotten wird als Quelle auch nvidia-smi aus dem Treiber reichen https://developer.nvidia.com/nvidia...ement-interface Bearbeitet von Viper780 am 24.01.2023, 08:49
GrandAdmiralThrawn Lord of Derailment Registered: Aug 2000 Location: BRUCK! Posts: 3938	24.01.2023 - 11:43 Ok, nvidia-smi habe ich natürlich drauf, das wäre dann in allen VMs mit vGPU sowieso dabei. Das bundled Grafana wollte ich eigentlich nicht unbedingt verändern, weil diese Änderungen wahrscheinlich weg sind, wenn man den Host bzw. die Management Engine vom RHV neu deployed / upgraded. Werde ich wohl wirklich selber basteln müssen. Die anderen, genannten Komponenten schauen mir für das was ich gerne hätte ein bissl überkompliziert aus. Bearbeitet von GrandAdmiralThrawn am 24.01.2023, 12:17
COLOSSUS Administrator GNUltra Registered: Dec 2000 Location: ~ Posts: 12375	24.01.2023 - 11:50 Wenn du was hast, das dir die Last auf der CLI als Float oder Integer ausgibt, kannst du RRDtool innerhalb weniger Minuten deine Graphing-Loesung basteln. Es muss ja nicht immer Cloud-native O11y Hipstershit aus dem 4. Zukunftsjahrtausend sein.
GrandAdmiralThrawn Lord of Derailment Registered: Aug 2000 Location: BRUCK! Posts: 3938	24.01.2023 - 12:16 Also Die Last kriege ich recht einfach raus. RRDTool kenne ich noch nicht, aber nachdem du "innerhalb weniger Minuten" gesagt hast, hast bei mir schon den richtigen Knopf gedrückt! Das schaue ich mir Mal an!
charmin Vereinsmitglied stay classy! Registered: Dec 2002 Location: Posts: 16328	24.01.2023 - 12:29 ich verwende das da: aber bei dir rennt nix im docker oder? bild mir aber ein dass netdata auch ganz normal die gpu last ohne docker auslesen kann. es überwacht halt zusätzlich noch die laufenden docker instanzen iirc GitHub - D34DC3N73R/netdata-glibc: netdata with glibc package for use with nvidia-docker2 netdata with glibc package for use with nvidia-docker2 - GitHub - D34DC3N73R/netdata-glibc: netdata with glibc package for use with nvidia-docker2 Link: github.com
GrandAdmiralThrawn Lord of Derailment Registered: Aug 2000 Location: BRUCK! Posts: 3938	24.01.2023 - 14:19 Docker haben wir stellenweise in manchen VMs rennen, aber nicht bei den vGPU Deep Learning Instanzen. Ich würd's "ganz normal" machen, das RRDtool gibt's schon als Package im RHEL, das wir als VM Guests nutzen. Gut, netdata zwar auch, aber ich schau mir zuerst Mal RRDtool an. Kann ich eh auf meiner lokalen Maschine auch mit beidem rumspielen, weil da rennt's gleiche Betriebssystem wie auf den VMs.

NVIDIA GPU Last plotten

Forum Index > Software > Linux and other OS

GrandAdmiralThrawn

Viper780

GrandAdmiralThrawn

COLOSSUS

GrandAdmiralThrawn

charmin

GrandAdmiralThrawn