Italian

 View Only
Expand all | Collapse all

Quando HA non interviene

  • 1.  Quando HA non interviene

    Posted Feb 10, 2012 11:11 AM

    Ciao a tutti, ecco il problema che mi è capitato su un'installazione vsphere 4.1 update1:

    in un cluster HA con 3 esx, uno degli esx si è perso l'accesso ai dischi in san (si è disabilitata la sched qlogic, problema poi risolto con il supporto), a quel punto HA non interviene perché l'esx continua a comunicare via rete, ma le macchine virtuali di questo host risultano inutilizzabili (caso vuole le più critiche).

    Risultato: incazzatura del cliente e vaghe giustificazioni nostre per dirgli che questo caso non era coperto da HA.

    Ho visto che sul HA a versione 5 hanno aggiunto l'heartbeat sui datastore, ma da quanto ho capito solo se non c'è comunicazione con la management network, quindi neanche questo mi avrebbe salvato...

    Qualche idea o suggerimento?



  • 2.  RE: Quando HA non interviene

    Posted Feb 10, 2012 11:37 AM

    il DNS e' su un server virtuale?

    se si facile ce in caso a schinatare sia prorio la VM con a bordo il servizio, HA non funzioni( prerequisito per HA il DNS)

    se cosi fosse ti consiglio un DNS fisico

    Stefano



  • 3.  RE: Quando HA non interviene

    Posted Feb 10, 2012 02:39 PM

    Su 5.0 però questo discorso decade, dato che i vari nodi ESXi si salvano l'elenco dei nodi partner del cluster di appartenenza e i loro indirizzi di management, un pò in stile /etc/hosts, e quindi dns non diventa più un problema.

    Vorrei però capire meglio quanto è successo: se il datastore è stato perso dal nodo, le VM avrebbero dovuto andare in errore ed essere riavviate.

    La policy di default di HA su cosa è impostata?

    Luca.



  • 4.  RE: Quando HA non interviene

    Posted Feb 10, 2012 03:08 PM

    verissimo Luca, pero se nn ho capito male il problema lo ha sulla 4.1

    mi sbaglio?

    Stefano



  • 5.  RE: Quando HA non interviene

    Posted Feb 10, 2012 03:20 PM

    Corretto, ma visto che l'OP parlava di upgrade alla 5...

    Luca.



  • 6.  RE: Quando HA non interviene

    Posted Feb 10, 2012 03:43 PM

    si, in effetti ci vorrebbero piu informazioni. il problema cosi non è chiaro

    stefano



  • 7.  RE: Quando HA non interviene

    Posted Feb 10, 2012 04:13 PM

    Aggiungo qualche informazione:

    l'installazione è tutta a 4.1 update1

    Gli esx hanno disco di boot interno e datastore su san connessa via fibra

    HA è configurato con:

    -admission control disabilitato

    -Host isolation response: leave powered on

    - VM Monitoring: disabled

    HA non ha dato nessun errore, i DNS sono a psto (ce n'è uno fisico).

    Nel caso specifico la situazione è stata risolta spegnedo fisicamente l'esx, a quel punto è intervenuto HA per il riavvio delle vm

    Per ricreare il problema "basterebbe" staccare le fibre da un esx evedere cosa succede, le vm tra l'altro continuano a rispondere al ping anche senza dischi sotto

    Quello che mi servirebbe capire è come evitare questa situazione di "stallo".

    Simone



  • 8.  RE: Quando HA non interviene

    Posted Feb 10, 2012 08:32 PM

    -Host isolation response: leave powered on

    - VM Monitoring: disabled

    Anche se continua a tornarmi strano il fatto che le VM senza dischi continuassero a funzionare (a meno che non eseguissero tutto in ram e quindi non avessero bisogno dei dischi, ma pare strano se non per brevi periodi di tempo), se per ESXi le VM erano ancora funzionanti è il motivo per cui non le riavviava, sommando il "leave powered on" al monitoring disabled (che poi vuol dire che controlla se i vmware tools rispondono ai controlli di heartbeat).

    Se tutte le VM hanno i tools installati, puoi attivare il VM monitoring per iniziare.

    Ciao,

    Luca.



  • 9.  RE: Quando HA non interviene

    Posted Feb 13, 2012 01:23 PM

    buondi,

    direi che miglior risposta nn poteva darti, concordo con cio che ti ha scritto Luca,

    stefano



  • 10.  RE: Quando HA non interviene

    Posted Feb 13, 2012 05:06 PM

    Ciao, grazie intanto per le risposte.

    Ho visto che le VM continuano per un po' di tempo a rispondere al ping anche senza dischi, poi quando cominciano a fare I/O prima o poi vanno in crash.

    Se attivo il VM Monitoring, potrebbe succedere che vengano riavviate nel caso i vmware tools non rispondano, giusto?

    Questo potrebbe darmi disservizi nel caso le applicazioni siano funzionanti e i vm tools spenti per qualche motivo, non sapendo a priori le probabilità di tale evento preferirei evitare questa situazione, questo è il motivo per cui di norma tengo il VM monitoring in disabled.



  • 11.  RE: Quando HA non interviene

    Posted Feb 13, 2012 05:15 PM

    Il timeout è tra i 30 e i 60 secondi, quindi potrebbe corrispondere al comportamento che hai osservato.

    La scelta se attivare o disattivare i VMware tools "purtroppo" pone delle scelte progettuali di fondo: se vuoi prediligere la ripartenza rapida delle vm confidando che l'infrastruttura sia molto stabile e che quindi i pochi errori siano tali, oppure lasciare che le VM girino il più possibile... come immaginerai ci sono pro e contro ad emtrambe le scelte.

    Ciao,

    Luca.



  • 12.  RE: Quando HA non interviene

    Posted Feb 14, 2012 10:57 AM

    Una precisazione: se attivi il VM Monitoring ed i vmware tools smettono di rispondere, allo scadere del timeout che determina il failover il sistema va a  controllare anche se la VM ha fatto I/O negli ultimi 120 secondi.

    Questo serve proprio ad evitare il caso che indichi tu, vmware tools che momentaneamente non rispondono (e non è raro), ma la VM non ha nessun problema.



  • 13.  RE: Quando HA non interviene

    Posted Feb 16, 2012 10:49 AM

    Chiariamo un punto: VMware HA non è in grado di gestire il failure dello storage... neppure nella 5.

    Lo storage heartbeat server solo per capire lo stato di isolation quando manca la rete, non per capire quando manca lo storage.