Atlanta - Blades em A01-05, B01-05, C01-05, J11-J15
Tivemos uma atualização detalhada do nosso DC sobre o status de cerca de 120 servidores blade que foram afetados por uma atualização recente de firmware.
No início de junho, começamos a atualizar nossos servidores com o novo código do ILO para abordar a vulnerabilidade do TLS e os novos requisitos de segurança do Java. Durante a semana passada, tivemos 1-2 servidores que falharam na atualização, mas completaram mais de 1.500 atualizações com sucesso. Na sexta-feira começamos a atualizar o próximo lote de sistemas em A01-05, B01-05, C01-05, J11-J15, não foram detectados incidentes até sábado, quando um total de 174 servidores foram desconectados ao longo de 3 horas. Tive mais alguns desistir no domingo e segunda-feira também.
Nós notificamos o DC para verificar através dos primeiros sistemas e eles descobriram que o servidor se recusou a ligar, ele apenas sentou-se com uma luz de erro de saúde vermelho piscando. Entraram em contato com a HPE para assistência e realizaram o procedimento de rebaixamento recomendado em algumas das lâminas. Não fazia diferença.
O técnico da HP investigou alguns dos blades e descobriu que o controlador de gerenciamento de energia não tinha atualizado adequadamente e estava impedindo o blade de ser ligado. Nós tentamos uma variedade de operações com a HPE para ressuscitar esses servidores, alguns voltaram à vida, alguns ainda estão offline. O DC continuará a trabalhar com a HPE para encontrar uma solução para esses problemas.
Trocamos o hardware onde temos estoque disponível, mas agora esgotamos nosso estoque de sistemas compatíveis extras, por isso dependemos da HPE para resolver o problema de firmware. Enquanto isso, enviamos alguns paletes de servidores de Nova York e Denver para Atlanta, para que possamos substituir o hardware, quando necessário.
O DC está trabalhando sem parar com a HPE para encontrar uma solução. Se não conseguirmos uma resolução de firmware, substituiremos o hardware assim que o kit adicional chegar ao local.
É uma situação infeliz e desordenada e pedimos desculpas pelo tempo de inatividade.
Estamos aguardando a correção e restabelecimento da conexão com os servidores, nos da VemHost Brasil.
Tuesday, June 12, 2018