Esta página está destinada a proporcionar información del uso del Troubleshooting Wizard, que tiene como objetivo ayudar a los clientes a ejecutar un diagnóstico completo de su servidor o servidores para determinar las causas de un posible problema con los mismos.
Abarcaremos desde la recepción del mail por parte del cliente con la descripción del problema, pasando por el análisis de servidores, archivos de configuuración de NMIS y nodos agregados, hasta conclusiones y recomendaciones para que pueda solucionarse la incidencia reportada.
Este documento está basado en las pruebas mencionadas en la página Proceso de resolución de problemas de dispositivos en NMIS.
Descripción del problema
Para poder ejecutar el Troubleshooting Wizard, debemos tener una descripción muy bien detallada por parte del cliente que nos dé un buen panorama de la situación que está presentando.
Para esto, debemos resolver algunas preguntas importantes:
a) Descripción de la incidencia: ¿qué está sucediendo? ¿desde cuándo?
b) ¿En qué servidor o servidores se está presentando la incidencia?
c) Descripción del servidor o servidores en los que se está presentando la incidencia: CPUs, RAM, DD, nodos totales.
d) ¿En que nodo o nodos se está presentando la incidencia?
e) Detalles adicionales, por ejemplo: configuración actual de cron de NMIS por lo menos, configuración actual del archivo /etc/mongod.conf, configuración de parámetros de base de datos en /usr/local/omk/conf/opCommon.nmis, si se modificó algún archivo recientemente, si alguna configuración realizada ya sea en el servidor o en los equipos provocó la incidencia.
Troubleshooting Wizard: Funcionalidades
Healthcheck del Servidor
1. Comando top
Este comando nos dará información de todos los procesos que se están ejecutando en este momento en el servidor y el porcentaje de utilización de CPU y memoria RAM.
Siempre será importante basarnos en el load average y en el %CPU, ya que si estos valores son altos, tendremos seguramente un problema en algún o algunos procesos que se están ejecutando actualmente.
2. Revisión de fecha y hora del servidor
3. Revisión de velocidad de lectura y escritura en discos
Con este análisis, podremos darnos cuenta si existe una falla física en los discos del servidor. Si nos damos cuenta de que hay un problema, hay que notificarlo inmediatamente al cliente.
Basta con ejecutar un par de comandos:
- dd if=/dev/zero of=/data/omkTestFile bs=10M count=1 oflag=direct
- dd if=/data/omkTestFile of=/dev/null 2>&1
Y después analizar la salida con los siguientes valores:
- 0.0X s, parámetros correctos.
- 0.X s, hay una advertencia (y podría generar un problema).
- X.0 s, es crítico (y existe un problema).
4. Revisión de filesystems
Se revisa el espacio en cada uno de los filesystems del sistema, esto para comprobar que la incidencia no se esté presentando por una falta de espacio en el servidor.
Se ejecutaa el comando como sigue:
- df -h
5. Revisión de servicios del sistema
Se ejecuta una revisión de cada uno de los demonios del sistema, para comprobar que todos los esenciales se estén ejecutando de manera correcta.
Principalmente, deben revisarse los que se mencionan a continuación:
- service omkd status
- service nmisd status (si aplica)
- service nmis9d status (si aplica)
- service mongod status
- service opchartsd status
- service opeventsd status
- service opconfigd status
- service crond status
- service httpd status
De igual forma, puede ejecutarse el siguiente comando para revisar todos los servicios en ejecución (CentOS 6):
- service --status-all
En caso de que se detecte que algún servicio está down, debe reiniciarse con el siguiente comando:
- service demoniod restart
Si persiste el down, deberá revisarse el log de dicho demonio y analizarse para ver qué está sucediendo. Se recomienda revisar en la página https://support.opmantek.com/secure/Dashboard.jspa si existe algún ticket con el mismo error para de ahí encontrar alguna solución.
6. Revisión de tiempos de carga del servidor
Se usa para monitorear la carga IO del equipo del sistema. Si se tiene un alto %util, es muy probable que exista un problema que pueda llevar incluso a la pérdida de datos. Esto hay que notificarlo inmediatamente al cliente.
Se recomienda ejecutar el comando como sigue, para tener 5 pruebas del mismo:
- iostat -xtc 3 5
7. Top de los 20 procesos del CPU
8. Ejecución de tcpdump
9. Revisión de tabla de enrutamiento de IPs locales
10. Revisión de la lista de usuarios activos
11. Revisión de logs de usuarios
12. Revisión de los últimos comandos utilizados
13. Revisión de configuración de DNS
14. Prueba de internet
Consistencia de Configuraciones de NMIS
1. Check NMIS code
2. Perform a configuration backup
3. Compare file configurations
4. Execute fixperms rutine
5. Model checking
6. Crontab checking
7. Verify CPAN libraries
Primer borrador
Análisis de causas
En este apartado se realizará la evaluación de todas los posibles motivos que llevaron a que la incidencia ocurriera según reporta el cliente en cuestión, revisando cada uno de los parámetros de importancia del servidor, desde archivos de configuración importantes, pasando por hardware, software y, de ser necesario, revisión a fondo de los nodos involucrados.
Es importante que el cliente envíe un NMIS Support Tool y/o un OMK Support Tool desde el inicio, esto para tener una copia de los archivos de configuración más importantes en el momento del reporte de la incidencia.
2.1. Análisis de Support Tool
Dependiendo del escenario, comenzaremos revisando los archivos importantes contenidos en el Support Tool, se mencionan algunos de ellos a continuación:
- Carpeta conf: Config.nmis, Nodes.nmis, Users.nmis
- Carpeta logs: error_log, event.log, nmis.log.
- Carpeta models: revisar si hubo algún cambio reciente que pudiera afectar.
- Carpeta system_status: cpuinfo, disk_info, iostat, meminfo, top.
- Carpeta system_status/apache: revisar los archivos de configuración.
- Carpeta system_status/cron: revisar si el crontab contiene algún comando que pueda crear conflicto con otro cron.
- Carpeta system_status/cron.d: revisar si no hay un cron duplicado y que al menos el cron de nmis esté configurado de manera correcta.
2.2. Análisis de cambio de configuraciones
En este análisis nos servirá de mucha ayuda el Support Tool enviado por el cliente, ya que podremos darnos cuenta si algún archivo de configuración fue modificado en los últimos días.
De igual forma, debemos tener acceso al servidor en cuestión, para poder verificar si se hizo algún backup y así poder restablecer el archivo a los parámetros anteriores.
Las principales carpetas a revisar son:
- /usr/local/nmis8/conf
- /usr/local/omk/conf
- /etc/cron.d
2.4. Análisis de nodos
En este punto, se ejecutará un análisis a fondo de los nodos en los cuales se haya detectado algún problema durante el momento de la incidencia.
Se recomienda revisar las siguientes gráficas en NMIS:
- Gráfica de KPIs
- Gráfica de Reachability, Availability and Health
- Gráfica de Response Time
- Gráfica de IP Utilisation
De igual forma, se recomienda realizar búsquedas mediante un ps -fea | grep nombredenodo de los nombres de los nodos en las carpetas:
- /usr/local/nmis8/logs
- /usr/local/omk/logs
Esto con la finalidad de encontrar detalles que pudieron afectar los collects y/o los updates de los nodos, o algún tema en los módulos que impliquen lo
3. Análisis de resultados
En
4. Conclusiones y recomendaciones
En