(Hardware) Fehler suchen und beheben unter Linux?

Seite 1 von 2 - Forum: Linux and other OS auf overclockers.at

URL: https://www.overclockers.at/linux/hardware-fehler-suchen-und-beheben-unter-linux_226027/page_1 - zur Vollversion wechseln!

Viper780 schrieb am 05.09.2011 um 10:24

Grüß euch!

Da es für mich immer wichtiger wird hab ich da mal eine große Frage an euch.

Wie kommt man unter Linux im laufenden Betrieb am einfachsten einem Fehler auf die Schliche (zB Ram defekt, HDD hat zu viele defekte Sektoren,...), wie kann man sich da ganz sicher sein und welche Tools gibts dann dafür dass man zB von der HDD noch was retten kann oder ähnliches

GrandAdmiralThrawn schrieb am 05.09.2011 um 14:16

Defekte Sektoren siehst normal mit dmesg, da sollte das System die Sector Remaps reinloggen, hats zumindest bei mir gemacht als eine Velociraptor begonnen hatte zu sterben. Ansonsten kannst die SMART Werte mit den smartmontools + cron periodisch auslesen z.B..

RAM is da schon schwerer, wennst ECC hast, solltest die Corrections ebenfalls im Systemlog sehen. Wenn nicht, hilft nur Memtest denke ich? Der läßt sich auch im laufenden System nebenher ausführen.

Was Datenwiederherstellung angeht, das hängt wohl stark vom Dateisystem ab. Aber da kenne ich mich nicht aus was OSS Dateisysteme angeht, da muß jemand anderer antworten..

Viper780 schrieb am 05.09.2011 um 15:06

ok und gibts irgend ein indiz für speicherfehler?

Bei windows hast da ja die Bluescreens und einfach total unterschiedliche treibe rund speicher bereiche dies aufstellt.

EG schrieb am 05.09.2011 um 15:15

Für Datenrettung gibts unter Linux TestDisk.

hth

GrandAdmiralThrawn schrieb am 05.09.2011 um 18:25

Symptome für defekten RAM? Nicht eindeutig reproduzierbare random Segmentation Faults, seltsamerweise mal korrupte und mal intakte Tarballs beim Entpacken, sonst auch seltsam korrumpierende Files, und im Extremfall kanns dann auch den Kernel aufstellen, wenns im Kernelspace was zammhaut. Dann hast Panic und die Kiste steht.

Würd aber beim geringsten Verdacht gleich Memtest anwerfen.

Vo schrieb am 08.09.2011 um 21:46

Oh, ich hatte mal einen reproduzierbaren Effekt: Eine 500 MB große Datei hat sich mit scp nicht kopieren lassen und gescheitert ist es immer an der selben Stelle.

GrandAdmiralThrawn schrieb am 09.09.2011 um 08:28

Aber wenn das ein RAM Problem wäre, ließe sich das sehr einfach nachweisen.

echo 3 >/proc/sys/vm/drop_caches
sync

Das haut deinen Filecache komplett weg (Read & Write). Dann probierst das nochmal, und wenns wieder an der selben Stelle kracht, dann ist für dieses aktuelle Problem Mal nicht mehr der RAM schuld.

COLOSSUS schrieb am 11.09.2011 um 19:04

Den ECC-Status reporten die Kernelmodule der EDAC-Familie (Error Detection and Correction) via sysfs. Die sollten automatisch geladen werden, wenn Chipset und BIOS sich ueber den ECC-Support des Systems einig sind. `modprobe -l "edac*"` listet alle fuer den Kernel verfuegbaren Module. Es gibt ein Userspace-Utility zum Auslesen der Statusinformationen, nennt sich edac-util (und ist im wesentlichen ein duenner Wrapper um die sysfs-Files der edac-Treiber).

Viper780 schrieb am 12.09.2011 um 01:47

klingt gut und gibts sowas in der art auch für non ECC Speicher?

GrandAdmiralThrawn schrieb am 12.09.2011 um 08:10

Maximal für Parity, aber dann bleibt das Sys eh mit Kernelpanic stehen. Wenn der RAM aber gar keine Fehlerbehandlung durchführt, kann das System auch keine Fehler melden?!

COLOSSUS schrieb am 12.09.2011 um 09:22

Zum Testen von non-ECC-Speicher gibt's auch das Programm memtester, das im Userspace laeuft. Fuer solche Systeme gibt es meines Wissens keine mit EDAC vergleichbare Infrastruktur.

Viper780 schrieb am 12.09.2011 um 12:59

eine Infrastruktur hab ich mir eh nicht erwartet memtester sollte ganu das sein was ich suche und ein paar indikatoren hab ich jetzt schon mal danke

Gibts was ähnliches für die CPU wie prime95?

Lobo schrieb am 12.09.2011 um 13:05

mprime ?

Lukas schrieb am 12.09.2011 um 13:20

Für GNU/Linux heißt es mprime.

e: owned by no refresh and Lobo

Viper780 schrieb am 12.09.2011 um 13:42

*doh*

auf die idee hätt ich natürlich auch kommen können