Koozali.org: home of the SME Server

Help! Fail event on /dev/md2: xxxxxxx

Offline AndyCat

  • ***
  • 48
  • +0/-0
Help! Fail event on /dev/md2: xxxxxxx
« on: October 05, 2012, 05:05:17 PM »
Aiuto!
Ho appena ricevuto questo messaggio da mdadm monitoring!

This is an automatically generated mail message from mdadm running on mara01.pizeta.local.

A Fail event has been detected on md device /dev/md2.

Ho un sistema SME 7.6 in raid 1, cosa devo fare?

[root@mara01 ~]# cat /proc/mdstat
Personalities : [raid1]
md2 : active raid1 sda2[0] sdb2[2](F)
      245063424 blocks [2/1] [U_]

md1 : active raid1 sda1[0] sdb1[2](F)
      104320 blocks [2/1] [U_]

unused devices: <none>


Grazie!
« Last Edit: October 05, 2012, 09:49:10 PM by AndyCat »

Offline Stefano

  • *
  • 10,894
  • +3/-0
Re: Help! Fail event on /dev/md2: xxxxxxx
« Reply #1 on: October 05, 2012, 09:59:26 PM »
Aiuto!
Ho appena ricevuto questo messaggio da mdadm monitoring!

This is an automatically generated mail message from mdadm running on mara01.pizeta.local.

A Fail event has been detected on md device /dev/md2.

Ho un sistema SME 7.6 in raid 1, cosa devo fare?

[root@mara01 ~]# cat /proc/mdstat
Personalities : [raid1]
md2 : active raid1 sda2[0] sdb2[2](F)
      245063424 blocks [2/1] [U_]

md1 : active raid1 sda1[0] sdb1[2](F)
      104320 blocks [2/1] [U_]

unused devices: <none>


Grazie!


ciao

prima di tutto, visto che stiamo parlando di un server ed ammettendo che NON sia una macchina da gioco, mi aspetterei che non iniziassi con "aiuto!" :-)

in seconda battuta, ti faccio una domanda: hai cercato nei forum, anche solo in italiano?
se la risposta è "SI", alloea dovresti già sapere cosa fare e perchè, perchè sono moderatamente sicura di aver risposto almeno 3 volte a domande simili.. se è "SI", allora mi/ci dici cosa non ti è chiaro e perchè, così magari spiego un'altra volta migliorando

se invece è "NO", mentre fai il backup del server, cerca e poi torna qui, che ripartiamo dal punto precedente :-)

P.S.: nessun intento "sadico" o atteggiamento borioso o di saccenza da parte mia, solo che qui si parla di un server magari usato in produzione (i.e. lavoro -> dati -> denaro) e quindi mi aspetto un atteggiamento più responsabile

Offline AndyCat

  • ***
  • 48
  • +0/-0
Re: Help! Fail event on /dev/md2: xxxxxxx
« Reply #2 on: October 05, 2012, 10:21:45 PM »
Si Stefano il server è in produzione!
Mi sono allarmato come ho visto l'e-mail e sto tuttora indagando da remoto!
Se chiedo aiuto è perché volevo essere sicuro di quello che stavo facendo,
e ancora non ho intrapreso alcuna azione se non cercare di capire quale dei due dischi
sta dando problemi. Tra l'altro ora ho appena ricevuto un'altra E-mail da mdadm monitoring
ma questa volta per md1 e se entro nella consolle nella sezione RAID mi dice che:
"C'è un disco inutilizzato nel sistema. Si desidera aggiungerlo all'array RAID esistente?"
Ripeto cerco consigli sul miglior modo di operare e un tread che ho trovato in ITA
non portava ad una soluzione: http://forums.contribs.org/index.php?topic=48059.0
Il backup dovrebbe partire in automatico tra un paio d'ore!
Grazie!

Offline Stefano

  • *
  • 10,894
  • +3/-0
Re: Help! Fail event on /dev/md2: xxxxxxx
« Reply #3 on: October 05, 2012, 10:46:01 PM »
il disco sdb è andato, quindi le sue due partizioni sono fuori dal raid

procurati un disco di ricambio di dimensioni identiche o maggiori (occhio che lo stesso modello, della stessa capacità nominale, potrebbe avere capienza diversa.. già successo)

spegni la macchina
individua in modo certo ed inequivocabile sdb
sostituiscilo con il nuovo disco
riavvia
entra in console, voce "gestione dischi" (dove sei già stato)
aggiungi il disco
leggiti le email che piano piano, a seconda della dimensione del disco stesso, ti arriveranno

p.s. wiki, documentazione e forum in inglese hanno decinaia di posto/risposte in merito.. è una cosa tutto sommato grave ma "banale" e, aggiungo, è tutto scritto nella mail (il disco rotto)..
infine, google ti può dare le spiegazioni tecniche per comprendere come funziona il raid sw (il che non fa mai male)

infine, piccola "paternale": SME è facile da metter su, anche più di windows.. ma è linux.. è unix.. se qualcosa non va, è obbligatorio e necessario sapere di cosa si sta parlando se si parla di lavoro.. che la perdita di dati, costa migliaia di euro, molte migliaia
quindi intanto che va (e ci si dimentica che esiste), si deve "studiare" per capire cosa fare in caso di problemi... questo forum, il sito contribs.org, google e la virtualizzazione ti danno almeno un miliardo di spunti e motivi

buon lavoro

Offline AndyCat

  • ***
  • 48
  • +0/-0
Re: Help! Fail event on /dev/md2: xxxxxxx
« Reply #4 on: October 05, 2012, 11:03:34 PM »
Grazie Stefano,
leggendo il risultato di
"smartctl -a /dev/sdb "
non comprendo se il disco sia ancora "sano"!!
Lo stesso per sda. Sembra che i dischi siano OK!

smartctl version 5.33 [i686-redhat-linux-gnu] Copyright (C) 2002-4 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD2502ABYS-02B7A0
Serial Number:    WD-WCAT1E419409
Firmware Version: 02.03B03
User Capacity:    251,059,544,064 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Fri Oct  5 23:02:56 2012 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (4800) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  59) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   201   198   021    Pre-fail  Always       -       933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       45
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   067   067   000    Old_age   Always       -       24440
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       43
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       41
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       3
194 Temperature_Celsius     0x0022   110   102   000    Old_age   Always       -       33
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     24439         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Offline Stefano

  • *
  • 10,894
  • +3/-0
Re: Help! Fail event on /dev/md2: xxxxxxx
« Reply #5 on: October 05, 2012, 11:29:40 PM »
allora riaggiungilo al raid ma.. i tuoi dati valgono più o meno del costo di un hd?

Offline AndyCat

  • ***
  • 48
  • +0/-0
Re: Help! Fail event on /dev/md2: xxxxxxx
« Reply #6 on: October 06, 2012, 12:08:57 AM »
Hai ragione Stefano,
nel frattempo, panico acquietato, mi sono studiato bene i wiki!
Perdonami ancora la mia richiesta di "aiuto" ma era animata dal panico!!!!
Fatto delle prove e ho capito che il comando smartctl lascia un po' il
tempo che trova, infatti ho cercato di riallineare il RAID ma va a buon fine solo
per md1 mentre md2 mi restituisce il fail quasi immediatamente!
Prenderò una nuova coppia di dischi, poiché hanno entrambi la stessa vita,
e farò un upgrade delle dimensioni contestualmente! Spero che il disco "sopravvissuto"
mi dia il tempo necessario per reperire il materiale e agire. Nel frattempo (lunedi) metto su
una macchina virtuale con Affa e mi preparo al peggio!
Grazie ancora Stefano!

Offline AndyCat

  • ***
  • 48
  • +0/-0
Re: Help! Fail event on /dev/md2: xxxxxxx
« Reply #7 on: October 11, 2012, 11:06:09 AM »
Nuova coppia di dischi arrivati e installati!
Tutto ok! Aveva ceduto il motore del disco sdb, sembra una "grattugia" a sentirlo!
Non mi rimane che fare un "Upgrading the Hard Drive Size" come da wiki!
Grazie Stefano!