Koozali.org: home of the SME Server

Mal was Positives - Softwareraid

Offline MIB

  • ****
  • 125
  • +0/-0
Mal was Positives - Softwareraid
« on: October 24, 2008, 11:06:09 AM »
Backupserver vom Kunden mit zwei Stück 500 GB SATA Platten die mit Softwareraid seit gut 3 Jahren laufen.
Vor einem Jahr hat sich die erste Platte verabschiedet. Also Server runter gefahren Austauschpaltte rein, über Serverkonsole Manage Disk Redundancy gestartet und die Sache war ereldigt.
Anfang dieser Woche war die zweite Platte dran. Gleiches Prozedere wie letztens. Doch diesmal bootete der SEM nicht mehr. Installations CD reingeschoben, alte Version gefunden und drüber installiert. Alle Daten vorhanden, gerade wird die Festplattenspiegelung gemacht.  :lol:
Schade, dass es nicht immer so glatt geht.

MIB

Offline Igi2003

  • *****
  • 226
  • +0/-0
Re: Mal was Positives - Softwareraid
« Reply #1 on: October 26, 2008, 08:07:59 PM »
Na, da ging ja noch alles gut..

Offline Reinhold

  • *
  • 517
  • +0/-0
    • http://127.0.0.1
Re: Mal was Positives - Softwareraid
« Reply #2 on: October 27, 2008, 04:39:53 PM »
... Doch diesmal bootete der SEM nicht mehr.
...Schade, dass es nicht immer so glatt geht.

ab ins BIOS...2.Platte as BootDisk (!) einstellen...
...löst 95% solcher Probleme  :grin:

............

Offline wurzel

  • ****
  • 108
  • +0/-0
Re: Mal was Positives - Softwareraid
« Reply #3 on: October 27, 2008, 04:47:32 PM »
mal die Frage eines Glücklichen (der noch nie einen Plattendefekt im Raid hatte): woran merkt man dass sich eine Platte im Raid verabschiedet hat??

mfg

Wolfgang

Offline holger.reiss

  • *
  • 213
  • +0/-0
Re: Mal was Positives - Softwareraid
« Reply #4 on: October 27, 2008, 08:17:34 PM »
Hi,

spätestens dann, wenn du als admin ne entsprechende Mail bekommst.

Viele Grüße
Holger

Offline wurzel

  • ****
  • 108
  • +0/-0
Re: Mal was Positives - Softwareraid
« Reply #5 on: October 27, 2008, 10:33:38 PM »
prima ... dann werd ich also die Post in Zukunft regelmäßig lesen ...

Offline Igi2003

  • *****
  • 226
  • +0/-0
Re: Mal was Positives - Softwareraid
« Reply #6 on: October 28, 2008, 12:11:56 PM »
Solltest du als Admin ja wenn dir der Server lieb is. Viele lesen die Systemmeldungen nicht und blären dann wenn was defekt ist...

Offline wurzel

  • ****
  • 108
  • +0/-0
Re: Mal was Positives - Softwareraid
« Reply #7 on: December 03, 2008, 09:19:36 PM »
Quote
mal die Frage eines Glücklichen (der noch nie einen Plattendefekt im Raid hatte): woran merkt man dass sich eine Platte im Raid verabschiedet hat??
Quote
spätestens dann, wenn du als admin ne entsprechende Mail bekommst.

Genau das ist jetzt passiert 2 schöne Mails mit dem Inhalt
"A fail event has been detected on md device /dev/md1"
und
"A Fail event has been detected on md device /dev/md2"

Der Server ist aber weiter ansprechbar .. und läuft ..

was nun .. ?

in 'messages' hab ich folgende Meldung gefunden:
Quote
Dec  3 13:21:02 server-lin bcmxcp_usb[3925]: RECONNECT USB DEVICE
Dec  3 14:55:33 server-lin bcmxcp_usb[3925]: RECONNECT USB DEVICE
Dec  3 17:02:58 server-lin bcmxcp_usb[3925]: RECONNECT USB DEVICE
Dec  3 18:02:07 server-lin bcmxcp_usb[3925]: RECONNECT USB DEVICE
Dec  3 18:36:04 server-lin kernel: hda: lost interrupt
Dec  3 18:36:04 server-lin kernel: hda: read_intr: status=0x7f { DriveReady DeviceFault SeekComplete DataRequest CorrectedError Index Error }
Dec  3 18:36:04 server-lin kernel: hda: read_intr: error=0x7f { DriveStatusError UncorrectableError SectorIdNotFound TrackZeroNotFound AddrMarkNotFound }, LBAsect=140185576636287, high=8355711, low=8355711, sector=42464909
Dec  3 18:36:04 server-lin kernel: ide: failed opcode was: unknown
Dec  3 18:36:04 server-lin kernel: klogd 1.4.1, ---------- state change ----------
Dec  3 18:36:05 server-lin kernel: Inspecting /boot/System.map-2.6.9-67.0.7.ELsmp
Dec  3 18:36:05 server-lin kernel: Loaded 24774 symbols from /boot/System.map-2.6.9-67.0.7.ELsmp.
Dec  3 18:36:05 server-lin kernel: Symbols match kernel version 2.6.9.
Dec  3 18:36:05 server-lin kernel: No module symbols loaded - kernel modules not enabled.
Dec  3 18:36:05 server-lin kernel: ide0: reset: master: error (0x7f?)
Dec  3 18:36:05 server-lin kernel: hda: status error: status=0x7f { DriveReady DeviceFault SeekComplete DataRequest CorrectedError Index Error }
Dec  3 18:36:05 server-lin kernel: hda: status error: error=0x7f { DriveStatusError UncorrectableError SectorIdNotFound TrackZeroNotFound AddrMarkNotFound }, LBAsect=140185576636287, high=8355711, low=8355711, sector=42464909
Dec  3 18:36:05 server-lin kernel: ide: failed opcode was: unknown
Dec  3 18:36:05 server-lin kernel: hda: drive not ready for command
Dec  3 18:36:05 server-lin kernel: ide0: reset: master: error (0x7f?)
Dec  3 18:36:05 server-lin kernel: end_request: I/O error, dev hda, sector 42464909
Dec  3 18:36:05 server-lin kernel: raid1: Disk failure on hda2, disabling device.
Dec  3 18:36:05 server-lin kernel:    Operation continuing on 1 devices
Dec  3 18:36:05 server-lin kernel: raid1: hda2: rescheduling sector 42256064
Dec  3 18:36:05 server-lin kernel: end_request: I/O error, dev hda, sector 32169
Dec  3 18:36:05 server-lin kernel: raid1: Disk failure on hda1, disabling device.
Dec  3 18:36:05 server-lin kernel:    Operation continuing on 1 devices
Dec  3 18:36:05 server-lin kernel: raid1: hda1: rescheduling sector 32106
Dec  3 18:36:05 server-lin kernel: end_request: I/O error, dev hda, sector 312576461
Dec  3 18:36:05 server-lin kernel: raid1: sda2: redirecting sector 42256064 to another mirror
Dec  3 18:36:05 server-lin kernel: raid1: sda1: redirecting sector 32106 to another mirror
Dec  3 18:36:05 server-lin kernel: md: write_disk_sb failed for device hda2
Dec  3 18:36:05 server-lin kernel: RAID1 conf printout:
Dec  3 18:36:05 server-lin kernel:  --- wd:1 rd:2
Dec  3 18:36:05 server-lin kernel:  disk 0, wo:1, o:0, dev:hda1
Dec  3 18:36:05 server-lin kernel:  disk 1, wo:0, o:1, dev:sda1
Dec  3 18:36:05 server-lin kernel: RAID1 conf printout:
Dec  3 18:36:05 server-lin kernel:  --- wd:1 rd:2
Dec  3 18:36:05 server-lin kernel:  disk 1, wo:0, o:1, dev:sda1
Dec  3 18:36:05 server-lin kernel: md: errors occurred during superblock update, repeating
Dec  3 18:36:05 server-lin kernel: end_request: I/O error, dev hda, sector 42251781
Dec  3 18:36:05 server-lin kernel: end_request: I/O error, dev hda, sector 42307965
Dec  3 18:36:05 server-lin kernel: RAID1 conf printout:
Dec  3 18:36:05 server-lin kernel:  --- wd:1 rd:2
Dec  3 18:36:05 server-lin kernel:  disk 0, wo:1, o:0, dev:hda2
Dec  3 18:36:05 server-lin kernel:  disk 1, wo:0, o:1, dev:sda2
Dec  3 18:36:05 server-lin kernel: RAID1 conf printout:
Dec  3 18:36:05 server-lin kernel:  --- wd:1 rd:2
Dec  3 18:36:05 server-lin kernel:  disk 1, wo:0, o:1, dev:sda2

da steht irgendwo
disabling device ..
was macht der jetzt genau .. läuft der Server jetzt nur noch mit einer Platte?

was sollte ich jetzt exakt tun um die Sache wieder ins Reine zu bringen?

mfg Wurzel
« Last Edit: December 03, 2008, 09:21:18 PM by wurzel »

Offline m

  • *****
  • 276
  • +0/-0
  • Peet
Re: Mal was Positives - Softwareraid
« Reply #8 on: December 04, 2008, 08:23:10 PM »
Der Server ist aber weiter ansprechbar .. und läuft ..
kein Bug ;-) Das ist Sinn und Zweck des ganzen Aufwands
was sollte ich jetzt exakt tun um die Sache wieder ins Reine zu bringen?
dieses und zwar möglichst schnell:
1) Server ausschalten und defekte Platte ausbauen
2) neue Platte gleicher Größe (oder größer) einbauen
2a) evtl. im BIOS die alte Platte als Boot Device einstellen bzw. Platten vertauschen
3) booten und mit 'su admin' in die Konfigurationskonsole gehen
4) unter "Manage disk redundancy" die neue Platte hinzufügen (dauert ein paar Sek.)
5) mit "cat /proc/mdstat" zugucken wie die neue Platte synchonisiert wird
Fertig.

Offline wurzel

  • ****
  • 108
  • +0/-0
Re: Mal was Positives - Softwareraid
« Reply #9 on: December 08, 2008, 04:34:28 PM »
Danke für die User-friendly-Anwort. Meine ersten versuch hab ich abbrechen müssen weil ich feststellte dass die neue HD ein winziges bisschen kleiner ist als die alte .. und das geht schon nicht mehr.
Hmm ....