viernes, 6 de junio de 2008

Revisión

El speaker reproduce la voz de una mujer que no conozco, suena serena, la imagino delgada, con una sonrisa larga. Comenta en un inglés golpeado, que está lista para el fin de semana, platica con un sujeto, ambos que se encuentran en una conferencia telefónica, donde se discute la falla en de hosting, nadie supo que pasó. Estamos reunidos ahí, nos vemos las caras, evitamos las miradas, cada uno de nosotros está sentado frente a su laptop y escuchando los diálogos. Esperando a lo que proceda. Tenemos que revisar los logs, para revisar cual fue el error que produjo que los servidores dejaran de ver el hosting. El error fue severo, la producción estuvo detenida alrededor de una hora lo cual representa una pérdida de millones de dólares además se detuvieron los servidores de calidad y de desarrollo, debemos evitar a toda costa que se vuelva a repetir ese escenario. Por parte del grupo de hosting que explicación nos pueden dar. Ya revisaron las actividades que se realizaron entre las 10:50 y las 11:00 horas.

Se escucha un silencio, contesta una voz aguda, bueno he revisado los eventos que se realizaron y no he encontrado fallas. No se reportan errores en los logs además no se realizaron actividades por parte de hosting, nosotros creemos que el problema estuvo en los switches, los storages estaban funcionando correctamente, seguramente alguna HBA falló y eso fue lo que provoco que se perdieran las comunicaciones.

Imagino que cada integrante de la conferencia tiene algo que aportar, pues cada uno estuvo revisando el problema por más de 8 horas. La voz de la mujer a la que llamaré Johanna vuelve a repetir la pregunata al grupo de sistemas operativos. Ellos responden que no han encontrado falla con el sistema, simplemente se perdió la comunicación, se dejó de ver el storage, lo cual provoco un error en el mapeo de las rutas de dispositivos y ya no se pudo levantar el servicio, se tuvo que hacer un reboot en el sistema. Después de este reboot, el servidor resincronizó las paths con los discos y no se tuvo más problema, estamos revisando los logs y al parecer había una persona trabajando en el sistema operativo pero no se encuentra alguna acción que haya hecho que el sistema sufriera un panic.

Se escucha un sonido metálico, seguramente una señal senoidal amplificada por el speaker. Johanna ahora pide que se el grupo de redes explique que pudo haber pasado en las HBAs, para que se generara un error de esa magnitud. Redes contesta que han llamado a los proveedores y que están checando las tarjetas de red y que no tienen una respuesta aún. La conferencia termina y todos acuerdan que se van revisar los logs detalladamente y que el lunes se tendrá una respuesta. Todos se despiden y Johanna desea buen fin de semana y desea que nada pase.

No hay comentarios:

Publicar un comentario