Koozali.org: home of the SME Server
Other Languages => Italiano => Topic started by: gbartolini on October 09, 2012, 03:33:24 PM
-
Ciao a tutti,
SME Server 7.6 su VMware ESXi 4.1, VM in storage locale (no NFS), una decina di utenti di posta.
Da qualche tempo un solo utente non riesce più ad accedere ad una sua cartella di posta particolare ("LIBRI"), il client smette di rispondere e presenta schermata bianca. Tutte le altre cartelle di posta non danno alcun problema.
Al momento dell'accesso a quella cartella in /var/log/imap/current vengono registrati i seguenti errori:
@400000005074225f188f4cd4 imap(user.domain.it): Error: open(/home/e-smith/files/users/user.domain.it/Maildir/.LIBRI/dovecot-uidlist) failed: Stale NFS file handle
@400000005074225f188f9edc imap(user.domain.it): Error: stat(/home/e-smith/files/users/user.domain.it/Maildir/.LIBRI/dovecot-uidlist) failed: Stale NFS file handle
@400000005074225f188faa94 imap(user.domain.it): Error: file_dotlock_open(/home/e-smith/files/users/user.domain.it/Maildir/.LIBRI/dovecot-uidlist) failed: Stale NFS file handle
@400000005074225f188fcdbc imap(user.domain.it): Error: stat(/home/e-smith/files/users/user.domain.it/Maildir/.LIBRI/dovecot-uidlist) failed: Stale NFS file handle
@400000005074225f188fd974 imap(user.domain.it): Error: file_dotlock_open(/home/e-smith/files/users/user.domain.it/Maildir/.LIBRI/dovecot-uidlist) failed: Stale NFS file handle
@400000005074225f188ff4cc imap(user.domain.it): Info: Disconnected: Internal error occurred. Refer to server log for more information. [2012-10-09 15:10:45]
@400000005074225f189236ec tcpsvd: info: end 5348 exit 0
@400000005074225f189242a4 tcpsvd: info: status 35/400
Nella directory incriminata mi trovo questa situazione:
[root@srv04 .LIBRI]# ls -la
totale 940
drwxr-xr-x 5 user.domain.it user.domain.it 4096 9 ott 14:20 .
drwxr-xr-x 44 user.domain.it user.domain.it 4096 9 ott 14:20 ..
drwxr-xr-x 2 user.domain.it user.domain.it 53248 9 ott 01:03 cur
-rw------- 1 user.domain.it user.domain.it 14000 9 ott 01:03 dovecot.index
-rw------- 1 user.domain.it user.domain.it 736256 9 ott 09:52 dovecot.index.cache
-rw------- 1 user.domain.it user.domain.it 16884 9 ott 11:59 dovecot.index.log
-rw------- 1 user.domain.it user.domain.it 89756 9 ott 01:01 dovecot.index.log.2
-rw------- 1 user.domain.it user.domain.it 19 2 ago 2011 dovecot-keywords
?--------- ? ? ? ? ? dovecot-uidlist
-rw------- 1 user.domain.it user.domain.it 0 9 ott 14:20 dovecot-uidlist.lock
-rw-r--r-- 1 user.domain.it user.domain.it 0 15 lug 2011 maildirfolder
drwxr-xr-x 2 user.domain.it user.domain.it 16384 28 set 09:37 new
drwxr-xr-x 2 user.domain.it user.domain.it 4096 9 ott 09:50 tmp
Il file dovecot-uidlist sembra corrotto o non accessibile. Ma se provo a rimuoverlo ottengo il seguente messaggio:
[root@srv04 .LIBRI]# rm -f dovecot-uidlist
rm: impossibile rimuovere `dovecot-uidlist': Stale NFS file handle
Il client di posta è Mozilla Thunderbird ultima versione, la cartella di posta non è condivisa ma usata solo dall'utente.
Ho provato a leggermi vari post sull'argomento ma fanno tutti riferimento a storage su NFS che non è il mio caso per cui non mi spiego il messaggio di errore.
Al boot del server l'fsck restituisce "clean" su tutte le partizioni.
Qualche idea su come eliminare i file dovecot.uidlist* e ripristinare il tutto?
Grazie
Gianfranco
-
ciao Gianfranco
sei certo che i servizi associati a NFS non siano attivi?
puoi darmi maggiori info sul tuo setup? che metodo usi per il backup?
P.S.: conoscendoti, non avevo dubbi fosse una vm su esx :-)
-
Ciao Stefano
piacere di rileggerti, tutto bene? :-)
Ti confermo che la VM è appoggiata ad un datastore locale (singolo server HP con dischi SAS).
Per i backup c'è una macchina fisica di servizio che oltre a fare monitoring esegue ad intervalli regolari i VCB esportando le VM su una share CIFS di un NAS in rete.
Il server ESXi aggancia anche un datastore in NFS sullo stesso NAS ma lo usa solo per delle piccole VM di test, non per la macchina SME che come dicevo è appoggiata sul datastore locale.
Inoltre a livello di guest SME non c'è alcun aggancio ad export NFS nè tantomeno condivisioni.
Sembra che la macchina "creda" di essere su una condivisione NFS ma non è così, è questo che mi lascia perplesso.
Se serve qualche altra info sono qua chiedi pure :-)
Ciao
Gianfranco
-
mmmhhh.... decisamente strano
per non saper leggere nè scrivere:
grep nfs /etc/fstab
seguito da
mount
e
cat /etc/exports
infine
config show | grep portmap
config show | grep nfs
infine, installazione standard senza "strani" flag tipo "multi-part" (o simile)?
-
addendum
darei una letta a questo:
http://www.linuxquestions.org/questions/linux-software-2/cant-get-rid-of-stale-nfs-file-handle-684475/#post3367592
-
Pronti, eccoci qua:
[root@srv04 .LIBRI]# grep nfs /etc/fstab
[root@srv04 .LIBRI]#
[root@srv04 .LIBRI]# mount
/dev/mapper/main-root on / type ext3 (rw,usrquota,grpquota)
none on /proc type proc (rw)
none on /sys type sysfs (rw)
none on /dev/pts type devpts (rw,gid=5,mode=620)
/dev/md1 on /boot type ext3 (rw)
none on /dev/shm type tmpfs (rw)
none on /proc/sys/fs/binfmt_misc type binfmt_misc (rw)
[root@srv04 .LIBRI]#
[root@srv04 .LIBRI]# cat /etc/exports
[root@srv04 .LIBRI]#
[root@srv04 .LIBRI]# config show | grep portmap
[root@srv04 .LIBRI]# config show | grep nfs
[root@srv04 .LIBRI]#
Come vedi nessuna traccia di NFS...
infine, installazione standard senza "strani" flag tipo "multi-part" (o simile)?
Installazione standard, solo con qualche contribs (rbls/dnsbl, vacation, fetchmail)
parametri kernel aggiuntivi: nolapic noapic nosmp clock=pmtmr
Ciao
Gianfranco
-
addendum
darei una letta a questo:
http://www.linuxquestions.org/questions/linux-software-2/cant-get-rid-of-stale-nfs-file-handle-684475/#post3367592
Questo articolo mi prospetta una gran brutta soluzione... :-(
Ciao
Gianfranco
-
per quanto riguarda la soluzione..
in un momento di "calma" per la macchina, vai in single user, quindi tutti i servizi vengono tirati giù, provi a cancellare i file.. poi riavvi..
se non riesci, devi andare di boot da cd in rescue mode, monti l'installazione in rw, elimini (a quel punto dovresti poterlo fare) e poi rebooti..
tienimi informato, è interessante sta cosa e, con la diffusione della virtualizzazione, di stringente attualità
P.S. se ho domande su un esx5 posso scriverti in pvt? riguardo al licensing.. tnx
-
Questo articolo mi prospetta una gran brutta soluzione... :-(
Ciao
Gianfranco
già, penso sia un caso di corruzione del FS che il kernel interpreta in modo equivoco
-
nel caso, boot da cd in rescue mode e fsck -f, così il fs non è montato e non è live..
in any case, dovresti avere il backup
mo' che ci penso ho anche una domanda su un backup di un host esx3.5 (quello mio famoso) legato a vcb in errore.. tzè :)
-
già, penso sia un caso di corruzione del FS che il kernel interpreta in modo equivoco
Mi doterò di VCB fresco e successivo snapshot prima di lanciare qualsaisi fsck :-)
Ciao
Gianfranco
-
mo' che ci penso ho anche una domanda su un backup di un host esx3.5 (quello mio famoso) legato a vcb in errore.. tzè :)
Se posso aiutare :-)
Ciao
Gianfranco
-
in un momento di "calma" per la macchina, vai in single user, quindi tutti i servizi vengono tirati giù, provi a cancellare i file.. poi riavvi..
se non riesci, devi andare di boot da cd in rescue mode, monti l'installazione in rw, elimini (a quel punto dovresti poterlo fare) e poi rebooti..
Pensavo proprio di fare così, non appena sia possibile buttare fuori gli utenti ;-)
tienimi informato, è interessante sta cosa e, con la diffusione della virtualizzazione, di stringente attualità
Più che altro se risultasse corrotto il FS senza evidenze di crash passati la cosa mi preoccuperebbe seriamente...
P.S. se ho domande su un esx5 posso scriverti in pvt? riguardo al licensing.. tnx
Certamente
Ciao
Gianfranco
-
Allora, forzato fsck al boot con il classico
touch /forcefsck
al primo riavvio mi ha trovato problemi ad un paio di inode a cui puntavano sia il file incriminato che un file di spool di qmail, entrambi sono stati eliminati e successivamente ricreati. Al successivo riavvio l'fsck non ha trovato problemi.
A proposito, dove logga fsck? Non ho trovato nulla (mi aspettavo i classici checkfs e checkroot ma non esiste neanche la dir /var/log/fsck) a parte qualche riga poco utile nel file /var/log/boot.log
Ora sembra funzionare tutto bene, vediamo come si comporta nei prossimi gg.
Ricordo solo un intervento hardware al controller raid (sostituito da HP) in primavera, mi sembra alquanto curioso che come conseguenza sia saltato fuori solo dopo mesi un problema di corruzione del FS. Mistero...
Per me c'è stato dell'altro ma non riesco a capire cosa. Il monitoring mi segnala se i sistemi si riavviano (HP SIM) ed a parte i riavvii pianificati da me non ho altro riscontro.
Per ora grazie dell'aiuto
Ciao
Gianfranco
-
Allora, forzato fsck al boot con il classico
touch /forcefsck
al primo riavvio mi ha trovato problemi ad un paio di inode a cui puntavano sia il file incriminato che un file di spool di qmail, entrambi sono stati eliminati e successivamente ricreati. Al successivo riavvio l'fsck non ha trovato problemi.
ottimo
A proposito, dove logga fsck? Non ho trovato nulla (mi aspettavo i classici checkfs e checkroot ma non esiste neanche la dir /var/log/fsck) a parte qualche riga poco utile nel file /var/log/boot.log
bella domanda, mai approfondito.. mi riservo di farlo
Ora sembra funzionare tutto bene, vediamo come si comporta nei prossimi gg.
Ricordo solo un intervento hardware al controller raid (sostituito da HP) in primavera, mi sembra alquanto curioso che come conseguenza sia saltato fuori solo dopo mesi un problema di corruzione del FS. Mistero...
Per me c'è stato dell'altro ma non riesco a capire cosa. Il monitoring mi segnala se i sistemi si riavviano (HP SIM) ed a parte i riavvii pianificati da me non ho altro riscontro.
Per ora grazie dell'aiuto
Ciao
Gianfranco
ho diverse macchine virtuali con SME e mai successo.. ritengo sia un caso.. certo che se ti si dovesse presentare, allora sarebbe da approfondire.. ed in tal caso ritengo che sia la commistione esx/SME da studiare..
piacere comunque di saperti in salvo :-)
-
piacere comunque di saperti in salvo :-)
Piacere mio, non sono cose simpatiche ;-)
Ciao
Gianfranco
P.S. Non ho ricevuto nessun msg su ESX
-
Ciao
Sulla VM sono installati i Vmware-Tools (vedi http://wiki.contribs.org/VMware_Tools (http://wiki.contribs.org/VMware_Tools))? Magari uno shutdown apparentemente pulito della macchina virtuale ("indotto" dallo host Esxi) ti ha combinato qualche scherzo da prete.
Nicola
-
Sulla VM sono installati i Vmware-Tools (vedi http://wiki.contribs.org/VMware_Tools (http://wiki.contribs.org/VMware_Tools))? Magari uno shutdown apparentemente pulito della macchina virtuale ("indotto" dallo host Esxi) ti ha combinato qualche scherzo da prete.
Ciao,
si, i VMtools sono installati, li uso per fare VCB consistenti.
Il punto è che uno shutdown innescato da ESXi tramite VMtools dev'essere per definizione pulito... solo un reset od un power-off improvviso dovrebbe (e neanche sempre) corrompermi il FS...
Ciao
Gianfranco
-
Archiviabile come caso/sfiga o comunque qualcosa di non verificabile con facilità.
Saluti
Nicola
-
Aggiungiamo pure alla lista, tanto ormai :-)
Ciao
Gianfranco