Brazilian Portuguese

 View Only
  • 1.  Lost Storage Connectivity

    Posted Jul 14, 2014 01:03 PM

    Bom dia!

    Estou com duvidas do que seja esse alarme que recebo:

    Target: guaibim

    Stateless event alarm

    Alarm Definition:

    ([Event alarm expression: Lost Storage Connectivity] OR [Event alarm expression: Lost Storage Path Redundancy] OR [Event alarm expression: Degraded Storage Path Redundancy])

    Event details:

    Lost connectivity to storage device naa.500143801603fad9. Path vmhba2:C0:T2:L0 is down. Affected datastores: Unknown.



  • 2.  RE: Lost Storage Connectivity

    Posted Jul 14, 2014 10:21 PM

    A mensagem está informando que o seu host perdeu acesso ao disco naa.500143801603fad9 através do caminho vmhba2:C0:T2:L0, já o motivo deve ser investigado.

    Você tem como fornecer mais detalhes de sua infraestutura, principalmente da parte de armazenamento ?



  • 3.  RE: Lost Storage Connectivity

    Posted Jul 16, 2014 01:49 PM

    Estou com 3 Host Vmware HP, ligado ao Switch San via fibra, e esse erro acontece nos três hosts ao mesmo tempo.



  • 4.  RE: Lost Storage Connectivity

    Posted Jul 16, 2014 02:20 PM

    Tudo aponta para um erro físico de comunicação com sua SAN. Não tem como adivinhar como é sua estrutura, mas geralmente existem mais de uma HBA no storage. Seria interessante você ir nos storages e coletar avisos que possam te levar até o erro. Em paralelo, você pode ativar o round-robin para ter mas de um canal de I/O ativo. Existem várias bases de conhecimento Vmware sobre como ativar o round-robin. Em outra linha de frente, fazer um diagnostico nas conexões físicas nas interfaces, pigtails e fibras. Essa perda de comunicação pode impactar em hosts com FS mais sensíveis, que entram em modo proteção (read only). Seria uma boa você auditar e verificar o impacto nas VMs. Via acesso ssh aos hosts, roda o comando dmesg e procure por informações referentes ao teu problema.

    Att

    Noilson Caio



  • 5.  RE: Lost Storage Connectivity

    Posted Jul 16, 2014 11:31 PM

    O problema pode ser ocasionado tanto por mau funcionamento de algum componente físico como também pode ser devido a problemas de desempenho.

    Para facilitar no troubleshooting, primeiro verifique se os erros acontecem sempre em um mesmo horário, e tente coletar eventos no mesmo horário dos seguintes componentes:

    1. switch SAN;

    2. storage;

    Logicamente, para ter uma maior precisão é importante que os hosts, switches e storage possuam sincronia com o mesmo NTP server, se eles já não estão, faça o quanto antes, pois isso vai facilitar sua vida depois, no que diz respeito a correlacionar eventos.

    Além de verificar os componentes físicos, conforme recomendado no post anterior, tente extrair relatórios de performance dos switches SAN e do storage, ou até mesmo monitorar em tempo real para ver como está a taxa de utilização das portas do switches SAN e das controladoras do storage, pois se as portas estiverem com alta utilização e o storage com o I/O muito elevado, talvez isso impacte no tempo de resposta do storage para os hosts e consequentemente os mesmos irão reportar perda de acesso ao volumes.

    Sobre mudar o algoritmo de acesso ao storage nos hosts, eu recomendo primeiro você verificar a documentação do seu storage e quais são as recomendações para o ambiente VMware, pois nem todo storage suporta o Round Robin.

    Por fim, você pode verificar o seguinte artigo, onde existem mais algumas dicas de como realizar o troubleshooting para o seu problema: Lost or degraded connectivity to storage device (1009553)