Koozali.org: home of the SME Server

Other Languages => Italiano => Topic started by: AndyCat on October 05, 2012, 05:05:17 PM

Title: Help! Fail event on /dev/md2: xxxxxxx
Post by: AndyCat on October 05, 2012, 05:05:17 PM: Aiuto!
Ho appena ricevuto questo messaggio da mdadm monitoring!

This is an automatically generated mail message from mdadm running on mara01.pizeta.local.

A Fail event has been detected on md device /dev/md2.

Ho un sistema SME 7.6 in raid 1, cosa devo fare?

[root@mara01 ~]# cat /proc/mdstat
Personalities : [raid1]
md2 : active raid1 sda2[0] sdb2[2](F)
245063424 blocks [2/1] [U_]

md1 : active raid1 sda1[0] sdb1[2](F)
104320 blocks [2/1] [U_]

unused devices: <none>

Grazie!
Title: Re: Help! Fail event on /dev/md2: xxxxxxx
Post by: Stefano on October 05, 2012, 09:59:26 PM: Quote from: AndyCat on October 05, 2012, 05:05:17 PM
Aiuto!
Ho appena ricevuto questo messaggio da mdadm monitoring!

This is an automatically generated mail message from mdadm running on mara01.pizeta.local.

A Fail event has been detected on md device /dev/md2.

Ho un sistema SME 7.6 in raid 1, cosa devo fare?

[root@mara01 ~]# cat /proc/mdstat
Personalities : [raid1]
md2 : active raid1 sda2[0] sdb2[2](F)
245063424 blocks [2/1] [U_]

md1 : active raid1 sda1[0] sdb1[2](F)
104320 blocks [2/1] [U_]

unused devices: <none>

Grazie!

ciao

prima di tutto, visto che stiamo parlando di un server ed ammettendo che NON sia una macchina da gioco, mi aspetterei che non iniziassi con "aiuto!" :-)

in seconda battuta, ti faccio una domanda: hai cercato nei forum, anche solo in italiano?
se la risposta è "SI", alloea dovresti già sapere cosa fare e perchè, perchè sono moderatamente sicura di aver risposto almeno 3 volte a domande simili.. se è "SI", allora mi/ci dici cosa non ti è chiaro e perchè, così magari spiego un'altra volta migliorando

se invece è "NO", mentre fai il backup del server, cerca e poi torna qui, che ripartiamo dal punto precedente :-)

P.S.: nessun intento "sadico" o atteggiamento borioso o di saccenza da parte mia, solo che qui si parla di un server magari usato in produzione (i.e. lavoro -> dati -> denaro) e quindi mi aspetto un atteggiamento più responsabile
Title: Re: Help! Fail event on /dev/md2: xxxxxxx
Post by: AndyCat on October 05, 2012, 10:21:45 PM: Si Stefano il server è in produzione!
Mi sono allarmato come ho visto l'e-mail e sto tuttora indagando da remoto!
Se chiedo aiuto è perché volevo essere sicuro di quello che stavo facendo,
e ancora non ho intrapreso alcuna azione se non cercare di capire quale dei due dischi
sta dando problemi. Tra l'altro ora ho appena ricevuto un'altra E-mail da mdadm monitoring
ma questa volta per md1 e se entro nella consolle nella sezione RAID mi dice che:
"C'è un disco inutilizzato nel sistema. Si desidera aggiungerlo all'array RAID esistente?"
Ripeto cerco consigli sul miglior modo di operare e un tread che ho trovato in ITA
non portava ad una soluzione: http://forums.contribs.org/index.php?topic=48059.0
Il backup dovrebbe partire in automatico tra un paio d'ore!
Grazie!
Title: Re: Help! Fail event on /dev/md2: xxxxxxx
Post by: Stefano on October 05, 2012, 10:46:01 PM: il disco sdb è andato, quindi le sue due partizioni sono fuori dal raid

procurati un disco di ricambio di dimensioni identiche o maggiori (occhio che lo stesso modello, della stessa capacità nominale, potrebbe avere capienza diversa.. già successo)

spegni la macchina
individua in modo certo ed inequivocabile sdb
sostituiscilo con il nuovo disco
riavvia
entra in console, voce "gestione dischi" (dove sei già stato)
aggiungi il disco
leggiti le email che piano piano, a seconda della dimensione del disco stesso, ti arriveranno

p.s. wiki, documentazione e forum in inglese hanno decinaia di posto/risposte in merito.. è una cosa tutto sommato grave ma "banale" e, aggiungo, è tutto scritto nella mail (il disco rotto)..
infine, google ti può dare le spiegazioni tecniche per comprendere come funziona il raid sw (il che non fa mai male)

infine, piccola "paternale": SME è facile da metter su, anche più di windows.. ma è linux.. è unix.. se qualcosa non va, è obbligatorio e necessario sapere di cosa si sta parlando se si parla di lavoro.. che la perdita di dati, costa migliaia di euro, molte migliaia
quindi intanto che va (e ci si dimentica che esiste), si deve "studiare" per capire cosa fare in caso di problemi... questo forum, il sito contribs.org, google e la virtualizzazione ti danno almeno un miliardo di spunti e motivi

buon lavoro
Title: Re: Help! Fail event on /dev/md2: xxxxxxx
Post by: AndyCat on October 05, 2012, 11:03:34 PM: Grazie Stefano,
leggendo il risultato di
"smartctl -a /dev/sdb "
non comprendo se il disco sia ancora "sano"!!
Lo stesso per sda. Sembra che i dischi siano OK!

smartctl version 5.33 [i686-redhat-linux-gnu] Copyright (C) 2002-4 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model: WDC WD2502ABYS-02B7A0
Serial Number: WD-WCAT1E419409
Firmware Version: 02.03B03
User Capacity: 251,059,544,064 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Fri Oct 5 23:02:56 2012 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (4800) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 59) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 201 198 021 Pre-fail Always - 933
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 45
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 067 067 000 Old_age Always - 24440
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 43
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 41
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 3
194 Temperature_Celsius 0x0022 110 102 000 Old_age Always - 33
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 24439 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Title: Re: Help! Fail event on /dev/md2: xxxxxxx
Post by: Stefano on October 05, 2012, 11:29:40 PM: allora riaggiungilo al raid ma.. i tuoi dati valgono più o meno del costo di un hd?
Title: Re: Help! Fail event on /dev/md2: xxxxxxx
Post by: AndyCat on October 06, 2012, 12:08:57 AM: Hai ragione Stefano,
nel frattempo, panico acquietato, mi sono studiato bene i wiki!
Perdonami ancora la mia richiesta di "aiuto" ma era animata dal panico!!!!
Fatto delle prove e ho capito che il comando smartctl lascia un po' il
tempo che trova, infatti ho cercato di riallineare il RAID ma va a buon fine solo
per md1 mentre md2 mi restituisce il fail quasi immediatamente!
Prenderò una nuova coppia di dischi, poiché hanno entrambi la stessa vita,
e farò un upgrade delle dimensioni contestualmente! Spero che il disco "sopravvissuto"
mi dia il tempo necessario per reperire il materiale e agire. Nel frattempo (lunedi) metto su
una macchina virtuale con Affa e mi preparo al peggio!
Grazie ancora Stefano!
Title: Re: Help! Fail event on /dev/md2: xxxxxxx
Post by: AndyCat on October 11, 2012, 11:06:09 AM: Nuova coppia di dischi arrivati e installati!
Tutto ok! Aveva ceduto il motore del disco sdb, sembra una "grattugia" a sentirlo!
Non mi rimane che fare un "Upgrading the Hard Drive Size" come da wiki!
Grazie Stefano!