LOESUNG (scheinbar): schwerer Stress mit Kernelchen ...

Andre Dietrich andre at dohmanngmbh.de
Mon Jul 18 09:19:48 CEST 2005


Florian Lohoff schrieb:

>On Tue, Jul 05, 2005 at 08:06:29AM +0200, Andre Dietrich wrote:
>  
>
>>Ich fürchte ich hab das Problem weiter eingekreist. Habe am Freitag 
>>noch die Platten und das SATA-Kabel mit einer Rolle Alufolie und 
>>einem Rohr geschirmt, sowie den Kernel gegen einen  2.6.12.2-er 
>>getauscht. Und gestern Mittag das gleiche Phänomen.
>>    
>>
>
>Also das "abschirmen" mit Alufolie gehoert eher in das Reich der Mythen
>und wird dich keinen meter weiterbringen.
>
>  
>
>>An Prozessen lief nix besonderes - nur ein paar sambas und nen sshd. 
>>    
>>
>
>Hast du einen ps -ef oder ps auxw von kurz vor dem Absturz ?
>
>  
>
>>Aufgrund der mittlerweile absolut differierenden Zeiten halte ich 
>>einen cronjob oder etwas ähnliches für unwahrscheinlich.
>>    
>>
>
>Es gibt schon cronjobs die regelmaessig laufen und vielleicht fuehren
>nur bestimmte aufrufe die sich zufaellig mit anderem ueberlappen
>Daher sind auszuege aus diversen logfiles von kurz vor dem crash
>interessant. Vor allem die die in der /etc/syslog.conf nicht mit "-"
>davor eingerichtet sind.
>
>  
>
>>Habe letzte Nacht alle Prozesse gekillt und nur fünf "stress"es ohne 
>>HDD-Aktivität laufen lassen. Heute morgen stand die Kiste wieder. Ich 
>>glaub das die Kiste einfach zu warm wird und der Rest einfach nur 
>>Symtome sind.
>>    
>>
>
>lm-sensors ?
>
>  
>
>>Ich bekomme auch im Regelfall keine Ausgaben. Das eine Mal war eine 
>>absolute Ausnahme.
>>
>>Hab den Kasten gerade erstmal nackig gemacht und jetzt woll'n wir mal 
>>schaun.
>>
>>Kann so ein Dual-Board eigentlich auch mit einem Proz weiterrennen, 
>>wenn der andere stirbt ? Kriegt das System sowas auf die Reihe ?
>>    
>>
>
>Nein - Dann crasht das system typischerweise. Ich wuerde den bootloader
>mal hiermit bestuecken:
>
>nmi_watchdog=2 hangcheck_reboot=1
>
>Der nmi_watchdog laesst die CPUs alle X cycles einen NMI ausloesen der
>dann ueberprueft ob die CPU noch was macht oder irgendwo haengt. Wenn
>das nen kernel problem ist dann bekommst du nen stack backtrace. Hier
>gilt wieder - console blank ausmachen oder serielle console.
>
>Der hangcheck_reboot fuehrt dazu das wenn die kiste zu lange mit
>interrupts off da steht das sie rebootet.
>
>Flo
>  
>
Nach einem kompletten "Softwaredurchtausch" habe ich die USV 
abgeschaltet und jetzt läuft die Karre bereits seit 8 Tagen ohne Absturz 
- ein kleiner Rekord! War scheinbar doch die beengte Situation und die 
enorme Abwärme der USV, die mit 5-6 Grad höherer Raumtemperatur dem 
Kasten etwas zugesetzt hat.
Dumm ist nur, dass lm-sensors jede Menge Daten von den Sensoren auf 
diesem Tyan-Board ausspuckt, nur eigentlich kein Wert mit denen aus dem 
Bios übereinstimmt - schade -.

Danke für eure Hilfe!

Gruß Andre



More information about the Linux mailing list