URL: https://www.overclockers.at/linux/hardware-fehler-suchen-und-beheben-unter-linux_226027/page_1 - zur Vollversion wechseln!
Grüß euch!
Da es für mich immer wichtiger wird hab ich da mal eine große Frage an euch.
Wie kommt man unter Linux im laufenden Betrieb am einfachsten einem Fehler auf die Schliche (zB Ram defekt, HDD hat zu viele defekte Sektoren,...), wie kann man sich da ganz sicher sein und welche Tools gibts dann dafür dass man zB von der HDD noch was retten kann oder ähnliches
Defekte Sektoren siehst normal mit dmesg, da sollte das System die Sector Remaps reinloggen, hats zumindest bei mir gemacht als eine Velociraptor begonnen hatte zu sterben. Ansonsten kannst die SMART Werte mit den smartmontools + cron periodisch auslesen z.B..
RAM is da schon schwerer, wennst ECC hast, solltest die Corrections ebenfalls im Systemlog sehen. Wenn nicht, hilft nur Memtest denke ich? Der läßt sich auch im laufenden System nebenher ausführen.
Was Datenwiederherstellung angeht, das hängt wohl stark vom Dateisystem ab. Aber da kenne ich mich nicht aus was OSS Dateisysteme angeht, da muß jemand anderer antworten..
ok und gibts irgend ein indiz für speicherfehler?
Bei windows hast da ja die Bluescreens und einfach total unterschiedliche treibe rund speicher bereiche dies aufstellt.
Für Datenrettung gibts unter Linux TestDisk.
hth
Symptome für defekten RAM? Nicht eindeutig reproduzierbare random Segmentation Faults, seltsamerweise mal korrupte und mal intakte Tarballs beim Entpacken, sonst auch seltsam korrumpierende Files, und im Extremfall kanns dann auch den Kernel aufstellen, wenns im Kernelspace was zammhaut. Dann hast Panic und die Kiste steht.
Würd aber beim geringsten Verdacht gleich Memtest anwerfen.
Oh, ich hatte mal einen reproduzierbaren Effekt: Eine 500 MB große Datei hat sich mit scp nicht kopieren lassen und gescheitert ist es immer an der selben Stelle.
Aber wenn das ein RAM Problem wäre, ließe sich das sehr einfach nachweisen.
echo 3 >/proc/sys/vm/drop_caches
sync
Das haut deinen Filecache komplett weg (Read & Write). Dann probierst das nochmal, und wenns wieder an der selben Stelle kracht, dann ist für dieses aktuelle Problem Mal nicht mehr der RAM schuld.
Den ECC-Status reporten die Kernelmodule der EDAC-Familie (Error Detection and Correction) via sysfs. Die sollten automatisch geladen werden, wenn Chipset und BIOS sich ueber den ECC-Support des Systems einig sind. `modprobe -l "edac*"` listet alle fuer den Kernel verfuegbaren Module. Es gibt ein Userspace-Utility zum Auslesen der Statusinformationen, nennt sich edac-util (und ist im wesentlichen ein duenner Wrapper um die sysfs-Files der edac-Treiber).
klingt gut und gibts sowas in der art auch für non ECC Speicher?
Maximal für Parity, aber dann bleibt das Sys eh mit Kernelpanic stehen. Wenn der RAM aber gar keine Fehlerbehandlung durchführt, kann das System auch keine Fehler melden?!
Zum Testen von non-ECC-Speicher gibt's auch das Programm memtester, das im Userspace laeuft. Fuer solche Systeme gibt es meines Wissens keine mit EDAC vergleichbare Infrastruktur.
eine Infrastruktur hab ich mir eh nicht erwartet memtester sollte ganu das sein was ich suche und ein paar indikatoren hab ich jetzt schon mal danke 
Gibts was ähnliches für die CPU wie prime95?
mprime ?
Für GNU/Linux heißt es mprime. 
e: owned by no refresh and Lobo 
*doh*
auf die idee hätt ich natürlich auch kommen können
overclockers.at v4.thecommunity
© all rights reserved by overclockers.at 2000-2025