schwerer Stress mit Kernelchen ...

Florian Lohoff flo at rfc822.org
Tue Jul 5 11:20:27 CEST 2005


On Tue, Jul 05, 2005 at 08:06:29AM +0200, Andre Dietrich wrote:
> Ich fürchte ich hab das Problem weiter eingekreist. Habe am Freitag 
> noch die Platten und das SATA-Kabel mit einer Rolle Alufolie und 
> einem Rohr geschirmt, sowie den Kernel gegen einen  2.6.12.2-er 
> getauscht. Und gestern Mittag das gleiche Phänomen.

Also das "abschirmen" mit Alufolie gehoert eher in das Reich der Mythen
und wird dich keinen meter weiterbringen.

> An Prozessen lief nix besonderes - nur ein paar sambas und nen sshd. 

Hast du einen ps -ef oder ps auxw von kurz vor dem Absturz ?

> Aufgrund der mittlerweile absolut differierenden Zeiten halte ich 
> einen cronjob oder etwas ähnliches für unwahrscheinlich.

Es gibt schon cronjobs die regelmaessig laufen und vielleicht fuehren
nur bestimmte aufrufe die sich zufaellig mit anderem ueberlappen
Daher sind auszuege aus diversen logfiles von kurz vor dem crash
interessant. Vor allem die die in der /etc/syslog.conf nicht mit "-"
davor eingerichtet sind.

> Habe letzte Nacht alle Prozesse gekillt und nur fünf "stress"es ohne 
> HDD-Aktivität laufen lassen. Heute morgen stand die Kiste wieder. Ich 
> glaub das die Kiste einfach zu warm wird und der Rest einfach nur 
> Symtome sind.

lm-sensors ?

> Ich bekomme auch im Regelfall keine Ausgaben. Das eine Mal war eine 
> absolute Ausnahme.
> 
> Hab den Kasten gerade erstmal nackig gemacht und jetzt woll'n wir mal 
> schaun.
> 
> Kann so ein Dual-Board eigentlich auch mit einem Proz weiterrennen, 
> wenn der andere stirbt ? Kriegt das System sowas auf die Reihe ?

Nein - Dann crasht das system typischerweise. Ich wuerde den bootloader
mal hiermit bestuecken:

nmi_watchdog=2 hangcheck_reboot=1

Der nmi_watchdog laesst die CPUs alle X cycles einen NMI ausloesen der
dann ueberprueft ob die CPU noch was macht oder irgendwo haengt. Wenn
das nen kernel problem ist dann bekommst du nen stack backtrace. Hier
gilt wieder - console blank ausmachen oder serielle console.

Der hangcheck_reboot fuehrt dazu das wenn die kiste zu lange mit
interrupts off da steht das sie rebootet.

Flo
-- 
Florian Lohoff                  flo at rfc822.org             +49-171-2280134
                        Heisenberg may have been here.
-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 189 bytes
Desc: Digital signature
URL: <http://lug-owl.de/pipermail/linux/attachments/20050705/88e27e91/attachment.sig>


More information about the Linux mailing list