schwerer Stress mit Kernelchen ...

Tue Jul 5 08:06:29 CEST 2005

Florian Lohoff schrieb:

>On Thu, Jun 30, 2005 at 02:41:01PM +0200, Andre Dietrich wrote:
>  
>
>>ich hab gerade schweren Stress mit meinem Fileserver. Ich habe gerade 
>>zum 6. Mal einen recht harten Absturz des Servers gehabt. Jedes Mal das 
>>gleiche Symtom: "ata5 dma timeout"
>>    
>>
>
>Was ja ein IDE fehler waere. Irgendwelche ide oder ext2/ext3 zeilen
>drumherum ? Was sagen die smartmontools im selftest der platten ? Alles
>super ?
>
>  
>
>>Sonst waren die Abstürze meist nachts und ich habe keine weiteren 
>>Ausgaben gehabt. Das Log wurde entweder nicht angelegt oder nicht mehr 
>>hart gespeichert.
>>Gerade hab ich den Absturz zum ersten Mal im laufenden Betrieb gehabt 
>>und fast eine Stunde an Daten und die LDAP-Datenbank verloren.
>>Heute hab ich auch zum ersten Mal mehr Debug auf dem Schirm gesehen, der 
>>da in etwa folgender Maßen aussah: "Call Trace: <IRQ> <ffffffff8014f569> 
>>{__alloc_pages+729} <ffffffff8014f61f> {__get_free_pages+31} ... "
>>Ich habe überhaupt keine Idee was da für ein Prob hintersteckt.
>>    
>>
>
>Naja - das ist nen bischen wenig. Empfehlung ueber "setterm" den blank
>interval der console abschalten. Dann ist der letzte oops immer noch auf
>dem schirm. Zusaetzlich evtl den kernel mit serial console uebersetzen
>und dann an einem 2ten rechner das komplette desaster mitloggen.
> 
>  
>
>>Hat jemand von euch schon mal soetwas gehabt oder kann sich denken wo 
>>der Hund begraben ist ?
>>    
>>
>
>Hundertfach habe ich crashes gehabt.
>
>Korrelieren die crashes nachts mit der uhrzeit evtl mit dem
>startzeitpunkt der findutils ? (/etc/crontab -> cron.daily)
>
>allow_pages und get_free_pages koennte man meinen das kein speicher mehr
>da ist.
>
>Wenn ich sowas habe baue ich meistens in die crontab ein "ps -ef; vmstat
>1 10; pstree" in die crontab und schreibe das in eine datei. Die letzte
>heile datei ist interessante. Weiss man was auf der kiste los war.
>
>Flo
>  
>
Ich fürchte ich hab das Problem weiter eingekreist. Habe am Freitag noch 
die Platten und das SATA-Kabel mit einer Rolle Alufolie und einem Rohr 
geschirmt, sowie den Kernel gegen einen  2.6.12.2-er getauscht. Und 
gestern Mittag das gleiche Phänomen.
An Prozessen lief nix besonderes - nur ein paar sambas und nen sshd. 
Aufgrund der mittlerweile absolut differierenden Zeiten halte ich einen 
cronjob oder etwas ähnliches für unwahrscheinlich.
Habe letzte Nacht alle Prozesse gekillt und nur fünf "stress"es ohne 
HDD-Aktivität laufen lassen. Heute morgen stand die Kiste wieder. Ich 
glaub das die Kiste einfach zu warm wird und der Rest einfach nur 
Symtome sind.
Ich bekomme auch im Regelfall keine Ausgaben. Das eine Mal war eine 
absolute Ausnahme.

Hab den Kasten gerade erstmal nackig gemacht und jetzt woll'n wir mal 
schaun.

Kann so ein Dual-Board eigentlich auch mit einem Proz weiterrennen, wenn 
der andere stirbt ? Kriegt das System sowas auf die Reihe ?

Gruss Andre