...
Descripción del problema
Para iniciar con la documentaciónpoder ejecutar el Troubleshooting Wizard, debemos tener una descripción muy bien detallada por parte del cliente que nos dé un buen panorama de la situación que está presentando.
Para esto, debemos resolver algunas preguntas importantes:
...
Troubleshooting Wizard: Funcionalidades
Healthcheck del
...
Servidor
1. Comando top
Este comando nos dará información de todos los procesos que se están ejecutando en este momento en el servidor y el porcentaje de utilización de CPU y memoria RAM.
...
2. Revisión de fecha y hora del servidor
3. Revisión
...
de velocidad de lectura y escritura en discos
Con este análisis, podremos darnos cuenta si existe una falla física en los discos del servidor. Si nos damos cuenta de que hay un problema, hay que notificarlo inmediatamente al cliente.
Basta con ejecutar un par de comandos:
- dd if=/dev/zero of=/data/omkTestFile bs=10M count=1 oflag=direct
- dd if=/data/omkTestFile of=/dev/null 2>&1
Y después analizar la salida con los siguientes valores:
- 0.0X s, parámetros correctos.
- 0.X s, hay una advertencia (y podría generar un problema).
- X.0 s, es crítico (y existe un problema).
4. Revisión de filesystems
Se revisa el espacio en cada uno de los filesystems del sistema, esto para comprobar que la incidencia no se esté presentando por una falta de espacio en el servidor.
Se ejecutaa el comando como sigue:
- df -h
5. Revisión de servicios del sistema
Se ejecuta una revisión de cada uno de los demonios del sistema, para comprobar que todos los esenciales se estén ejecutando de manera correcta.
Principalmente, deben revisarse los que se mencionan a continuación:
- service omkd status
- service nmisd status (si aplica)
- service nmis9d status (si aplica)
- service mongod status
- service opchartsd status
- service opeventsd status
- service opconfigd status
- service crond status
- service httpd status
De igual forma, puede ejecutarse el siguiente comando para revisar todos los servicios en ejecución (CentOS 6):
- service --status-all
En caso de que se detecte que algún servicio está down, debe reiniciarse con el siguiente comando:
- service demoniod restart
Si persiste el down, deberá revisarse el log de dicho demonio y analizarse para ver qué está sucediendo. Se recomienda revisar en la página https://support.opmantek.com/secure/Dashboard.jspa si existe algún ticket con el mismo error para de ahí encontrar alguna solución.
6. Revisión de tiempos de carga del servidor
Se usa para monitorear la carga IO del equipo del sistema. Si se tiene un alto %util, es muy probable que exista un problema que pueda llevar incluso a la pérdida de datos. Esto hay que notificarlo inmediatamente al cliente.
Se recomienda ejecutar el comando como sigue, para tener 5 pruebas del mismo:
- iostat -xtc 3 5
7. Top de los 20 procesos del CPU
...
13. Revisión de configuración de DNS
14. Prueba de internet
Consistencia de Configuraciones de NMIS
1. Check NMIS code
2. Perform a configuration backup
3. Compare file configurations
4. Execute fixperms rutine
5. Model checking
6. Crontab checking
7. Verify CPAN libraries
Primer borrador
Análisis de causas
...
- /usr/local/nmis8/conf
- /usr/local/omk/conf
- /etc/cron.d
2.3. Análisis de hardware y software
Ahora, procederemos a indagar si el hardware y el software del servidor se encuentran en estado óptimo. Para esto, realizaremos una serie de ejecución de comandos que se describen a continuación.
2.3.2. Velocidad de lectura y escritura de discos
Con este análisis, podremos darnos cuenta si existe una falla física en los discos del servidor. Si nos damos cuenta de que hay un problema, hay que notificarlo inmediatamente al cliente.
Basta con ejecutar un par de comandos:
- dd if=/dev/zero of=/data/omkTestFile bs=10M count=1 oflag=direct
- dd if=/data/omkTestFile of=/dev/null 2>&1
Y después analizar la salida con los siguientes valores:
- 0.0X s, parámetros correctos.
- 0.X s, hay una advertencia (y podría generar un problema).
- X.0 s, es crítico (y existe un problema).
2.3.3. Comando iostat
Se usa para monitorear la carga IO del equipo del sistema. Si se tiene un alto %util, es muy probable que exista un problema que pueda llevar incluso a la pérdida de datos. Esto hay que notificarlo inmediatamente al cliente.
Se recomienda ejecutar el comando como sigue, para tener 5 pruebas del mismo:
- iostat -xtc 3 5
2.3.4. Revisión de filesystems
Se revisa el espacio en cada uno de los filesystems del sistema, esto para comprobar que la incidencia no se esté presentando por una falta de espacio en el servidor.
Se ejecutaa el comando como sigue:
- df -h
2.3.5. Revisión de demonios
Se ejecuta una revisión de cada uno de los demonios del sistema, para comprobar que todos los esenciales se estén ejecutando de manera correcta.
Principalmente, deben revisarse los que se mencionan a continuación:
- service omkd status
- service nmisd status (si aplica)
- service nmis9d status (si aplica)
- service mongod status
- service opchartsd status
- service opeventsd status
- service opconfigd status
- service crond status
- service httpd status
De igual forma, puede ejecutarse el siguiente comando para revisar todos los servicios en ejecución (CentOS 6):
- service --status-all
En caso de que se detecte que algún servicio está down, debe reiniciarse con el siguiente comando:
- service demoniod restart
...
2.4. Análisis de nodos
En este punto, se ejecutará un análisis a fondo de los nodos en los cuales se haya detectado algún problema durante el momento de la incidencia.
...